-
基于Hadoop的文本分类(1)-文本预处理&文本表示
资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等;
二、算法简介:
1、此项目是基于Hadoop2.6进行MapReduce并行开发;
2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证);
3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计);
4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html
5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
- 2022-03-01 12:43:10下载
- 积分:1
-
fpga vga 控制器设计
我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:我听说很多积极的反馈,从几个星期我们回来的统合 NERP FPGA 车间。一些人问我要去我们做两个演示的 Verilog 邮编。我添加了评论到 Verilog 文件试图清理我们顺利挺进避免纯粹把这变成 Verilog 类的东西很多。最有用的评论将在 VGA 控制器模块我们 wrote:vga640x480.v。不管怎么说,所有所需的项目文件,合成我们写的逻辑都在这里:
- 2022-03-23 00:30:18下载
- 积分:1
-
目标对象颜色检测
This simple and somewhat silly application demonstrates using concurrent collections with WPF. The collections are wrapped with observable facades, such that multiple threads may modify the collections concurrently, and those updates are safely propagated to UI controls.
- 2023-08-31 18:10:03下载
- 积分:1
-
Hadoop的相关资料
能让大家更好的理解Hadoop Map Reduce的内容,并讲解如何安装hadoop,如何在Linux环境下配置Hadoop和ssh等,以及Hadoop等在大数据处理方面的应用。
- 2022-02-04 06:07:18下载
- 积分:1
-
基于在线云保障食品安全
时下人们已成为热心研究人员对全球各地的几个类型食物食谱。他们登录到几个网站,以获取最喜爱的美食和样式。除了中国、 泰国和意大利,印度食品在其 cusines 中有广泛的品种。印度食品是太辣和油性为旅游来自西方国家,其中许多研究结束其营养价值。在这里,我们建议提供的各种各样的中印度已消费的食品营养价值的 web 应用程序。拟议的系统将提供原料蔬菜、 奶制品、 烹饪那些被消耗在这个国家的产品的营养价值。这一制度的目的是向意识到人民从过度消费的是不适合他们的荒地和心灵的食物食谱。
- 2022-02-01 14:45:01下载
- 积分:1
-
异步PHP代码实现
一种异步实现php调用的方法,欢迎下载,希望对大家能有帮助。谢谢大家的支持!
- 2022-02-26 08:58:13下载
- 积分:1
-
H.264编解码的CUDA实现,并行加速算法
H.264编解码的CUDA实现,并行加速算法,内部实现了H.264视频编解码的CUDA实现,能够编译通过,已经过测试,并且还添加了注释信息。
- 2022-03-25 09:18:02下载
- 积分:1
-
冒泡排序的MPI并行C
应用背景读取一个文本文件包含数字(小于2E8),它存储在一个动态数组的冒泡排序法,并打印出另一个文本文件。在终端中返回每个进程的运行时。如果该参数没有指定,默认为一个叫做“Sal txt文件。”(必须保存在当前目录),如果参数定义的文件进入参数与数组排序。关键技术泡沫排序,有时也称为“下沉排序”,是一个简单的排序算法,通过列表中的重复步骤来进行排序,比较每一对相邻的项目,如果它们是错误的顺序。通过列表的传递,直到不需要进行任何交换,这说明列表是排序的。这是一个比较排序的算法,它被命名为较小的元素“泡沫”到列表的顶部。虽然算法简单,但对于大多数问题来说,它是太慢和不切实际的,即使在插入排序。[ 1 ]它可以是实际的,如果输入通常是按排序顺序,但可能会偶尔有一些顺序元素的位置近。
- 2023-01-14 11:15:03下载
- 积分:1
-
多目标遗传算法优化
研究多目标遗传算法的优化,包含遗传算法过程中涉及的的各个步骤,非常适合于研究遗传算法及对遗传算法进行多目标优化的同学
- 2022-01-25 17:35:18下载
- 积分:1
-
并行程序设计_三角函数并行化程序设计
1) 熟练掌握并行程序设计的基本方法;
2) 通过实验,了解并行程序设计的过程以及优越性;
3) 学会并行程序的算法分析;
4) 结合高等工程数学、分布式系统、云计算等相关课程知识解决简单的实际问题。
- 2022-03-01 04:29:27下载
- 积分:1