一、硬件环境
1、CPU:Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz
2、内存:2G
3、硬盘:500G
4、网卡:百兆电卡
5、网络:局域网络
6、集群数量:10台机器,1个master,10个slaves(master也做slave了!呵呵)
二、关于同时运行的map和reduce数量。
1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum设置。
2、默认的设置都是2,也就是说Avg. Tasks/Node=4
3、关于数量,并非越大越好。通过测试发现,一个合适的值在2-4之间,也就是说Avg. Tasks/Node的值在4-8.当然这个和机器的性能有关系。
4、就我当前的环境,通过测试发现,map和reduce的数量都设置成2速度最快。
三、reduce的数量问题
1、reduce的数量默认是1,mapred.reduce.tasks,配置文件中的描述如下:
The default number of reduce tasks per job. Typically set to 99%
of the cluster's reduce capacity, so that if a node fails the reduces can
still be executed in a single wave.
Ignored when mapred.job.tracker is "local".
2、但是在实际的环境中,reduce的数量还是尽量多一点好,数额建议基本等于集群机器的数量。
3、reduce的数量直接决定输出的结果文件,所以在查看结果的时候可以将结果文件归并查看,命令如下:
hadoop fs -getmerge /jz /root/
4、参数mapred.jobtracker.taskScheduler.maxRunningTasksPerJob,用来控制一个job最大并行tasks数,这个是指在集群最大并行数
分享到:
相关推荐
Map/Reduce介绍。一些基本基础介绍。
Map/Reduce:大规模集群上的简化数据处理中文翻译,但也有一些语句翻译不到位,请谅解。希望能够对大家有帮助。
讲述了Windows平台的Hadoop安装... 最后,以最简单的求和为例,剖析Hadoop的Map/Reduce工作机制,对于初学Hadoop及Map/Reduce的读者有很大的帮助。相信通过最简单的求和为例,读者可步入Hadoop的Map/Reduce开发者行列。
hadoop中map/reduce自学资料合集
在solr文献检索中用map/reduce
【摘要】在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题。
win7_64eclispe插件 解决An internal error occurred during: "Map/Reduce location status updater". org/codehaus/jackson/map/JsonMappingException 重新编译包
现有student.txt和student_score.txt。将两个文件上传到hdfs上。使用Map/Reduce框架完成下面
云计算的三大技术——Bigtable,Map/Reduce等的研究文章。。。。。。。。。
基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究.pdf
在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题
hadoop开发文档
针对海量流数据的在线处理需求,提出一种不同于传统Map/Reduce流数据处理的系统模型Flexible workflow.该模型对workflow处理单元进行在线Map/Reduce并行化,实现了SPATE系统;同时为该系统定义一组关于作业的建立、管理...
NULL 博文链接:https://roserouge.iteye.com/blog/733149
本文在研究BIRCH算法、规则关联算法、Hadoop的map/reduce机制的基础上,提 出了一种基于map/reduce的应用于网络安全事件分析的并行关联方法。一方面,通过对BIRCH 算法的改进,在BIRCH的分层次思想中引入预定义的...
不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。 Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后...
主要介绍了Python中的高级函数map/reduce使用实例,Python内建了map()和reduce()函数,本文就讲解如何使用它,需要的朋友可以参考下
NULL 博文链接:https://sgq0085.iteye.com/blog/1879442