Map/Reduce的内存使用设置 -

dajuezhao

浏览: 59694 次
性别:
来自: 北京

最近访客更多访客>>

wjboy49

jaydonluo

追求卓绝

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Map/Reduce的内存使用设置

博客分类：

hadoop

Hadoop Linux Gmail 制造数据结构

一、背景

今天采用10台异构的机器做测试，对500G的数据进行运算分析，业务比较简单，集群机器的结构如下：

A：双核CPU×1、500G硬盘×1，内存2G×1（Slaver），5台

B：四核CPU×2、500G硬盘×2，内存4G×2（Slaver），4台

C：四核CPU×2、500G硬盘×2，内存4G×8（Master），1台

软件采用Hadoop 0.20.2，Linux操作系统。

二、过程

1、制造了500G的数据存放到集群中。

2、修改配置，主要是并发的Map和Reduce数量。修改如下图：

3、修改mapred-site.xml配置文件中的mapred.child.java.opts参数为-Xmx2046m

4、启动Job，半路出现了Cannot allocate memory错误，明显是内存分配不够。细看报错的机器，是A类机器报此错误。

5、修改A类机器的mapred-site.xml配置文件，将mapred.child.java.opts修改为-Xmx1024m，运行Job，错误消失。

三、分析总结

1、第一次采用这么少的机器处理500G的数据，确实在配置优化上需要做对应的调整。

2、Map的数量和CPU的核数也有直接关系。一般来说最好不要高于CPU的核数。（CPU是4核，并发数最好设置为4）.

3、通过调整得出一个简单的公式：Map的并发数量(需要不大于CPU核数)×mapred.child.java.opts < 该节点机器的总内存。

4、当然并发数大于内存或CPU核数也可以，但是有些风险，Task执行错误的风险。

5、计算的能力还是和硬件性能有关系，硬件越好，计算的效率还是很高的。当然差的机器也能使用，添砖加瓦一起干总是好的。

6、如果集群是异构的机器，那么还是建议每台机器做不同的配置参数。统一化的配置还是比较适合同构集群。

7、一些统一的参数也可以通过MR的代码用conf.set(key,value);的方式来设置。

8、有些时候没写东西了，最近事情比较多。如果有疑问还是很欢迎大家发邮件讨论：dajuezhao@gmail.com

0
顶

3
踩

分享到：

分布式集群中的硬件选择 | Hadoop开发常用的InputFormat和OutputForm ...

2011-01-21 11:57
浏览 1607
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Map/Reduce的内存使用设置

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Map/Reduce的内存使用设置

评论

发表评论

相关推荐

Hadoop的基准测试工具使用(部分转载)

分布式集群中的硬件选择

Hadoop开发常用的InputFormat和OutputFormat(转)

SecondaryNamenode应用摘记

Zookeeper分布式安装手册

Hadoop分布式安装

Map/Reduce使用杂记

Hadoop中自定义计数器

Map/Reduce中的Partiotioner使用

Map/Reduce中的Combiner的使用

Hadoop中DBInputFormat和DBOutputFormat使用

Hadoop的MultipleOutputFormat使用

Map/Reduce中公平调度器配置

无法启动Datanode的问题

Map/Reduce的GroupingComparator排序简述

Map/Reduce中分区和分组的问题

关于Map和Reduce最大的并发数设置

关于集群数据负载均衡

Map/Reduce执行流程简述

Hadoop集群中关于SSH认证权限的问题

最近访客更多访客>>