`
dajuezhao
  • 浏览: 59696 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
一、环境HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6二、需求背景 在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构设计可以在一定层度上通过rowkey来定位查询(速度很快),但是,如果我是已知某个列的值,需要看有多少行的列包含这个值,那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容,然后遍历,但是这样的效率明显是很低下的,所以,我寻求了其他的解决办法。三、操作过程1、一些已知rowkey这样的查询内容我就不在这里描述,网络 ...
1、HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.62、如果想通过MR对hbase进行一些操作,首先是需要做一些配置内容的,配置的流程如下:a、默认安装完成了hadoop和hbaseb、首先引入环境变量(修改/etc/profile文件,在文件末尾追加下面内容):# set java environmentexport JAVA_HOME=/usr/java/jdk1.6.0_20export JRE_HOME=/usr/java/jdk1.6.0_20/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME ...
1、HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.62、在HBase中创建了表,如果想通过控制台使用命令写入含有汉字的数据,录入是不成功的。3、如果想对汉字进行录入,可以通过代码实现,这里我使用的是java,代码如下: /** * 向指定的表插入单个Put对象 * * @param tablename * @param conf * @throws Exception */ public static void insertData(String tableName, HBaseConfiguration conf) ...
一、安装准备1、下载HBASE 0.20.5版本:http://www.apache.org/dist/hbase/hbase-0.20.5/2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本: ...
一、安装准备1、下载zookeeper-3.3.1,地址:http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本:jdk-6u20-linux-i586.bin3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本: 192.168.3.131 namenode 192.168.3.132 datanode ...
一、安装准备1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(slave)二、安装操作1、 ...
一、硬件环境1、CPU:Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz2、内存:2G3、硬盘:500G4、网卡:百兆电卡5、网络:局域网络6、集群数量:10台机器,1个master,10个slaves(master也做slave了!呵呵)二、关于同时运行的map和reduce数量。1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum设置。2、默认的设置都是2,也就是说Avg. Tasks/Node=43、关于数量,并非越大越好。 ...
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。3、基于上面2个理由,写个文档,记录一下。三、实现1、前提:写入一个文件,规范的是3个字段,“\t”划分,有2条异常,一条是2个字段,一条是4个字段,内容如下:jim 1 28kate 0 26tom 1kaka 1 ...
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观,同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容 ...
一、作用1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的reduce功能.例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:map: (K1, V1) → list(K2, V2) combine: (K2, list( ...
一、背景 为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat(Mysql为例),先创建表:CREATE TABLE studentinfo ( id INTEGER NOT NULL PRIMARY KEY, name VARCHAR(32) NOT NULL);2、由于0.20版本对DBIn ...
一、背景 Hadoop的MapReduce中多文件输出默认是TextOutFormat,输出为part-r- 00000和part-r-00001依次递增的文件名。hadoop提供了MultipleOutputFormat类,重写该类可实现定制自定义的文件名。二、技术细节1.环境:hadoop 0.19(目前hadoop 0.20.2对MultipleOutputFormat支持不好),linux。2.实现MultipleOutputFormat代码例子如下:public class WordCount { public static class TokenizerMapper ext ...
一、背景一般来说,JOB的执行就是FIFO的过程(先进先出),这样的方式资源得不到充分的使用。所以配置了一下公平调度。二、配置实现1、环境:hadoop0.20.22、拷贝/jz/hadoop-0.20.2/contrib/fairscheduler/hadoop-0.20.2-fairscheduler.jar到hadoop的li ...
一、背景早上由于误删namenode上的hadoop文件夹,在主节点上重新安装hadoop之后,发现有2个datanode无法启动,经过排查,解决了这个问题,记下。二、现象及解决办法1、2个节点的Tasktracker启动了,但datanode死活起不来。2、使用sh hadoop-daemon.sh命令单独也无法启动。3、错误信息如下:2010-08-10 10:51:23,413 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOExc ...
一、背景排序对于MR来说是个核心内容,如何做好排序十分的重要,这几天写了一些,总结一下,以供以后读阅。二、准备1、hadoop版本是0.20.22、输入的数据格式(这个很重要,看清楚格式),名称是secondary.txt:abc 123acb 124cbd 523abc 234nbc 563fds 235khi 234cbd 675fds 971hka 862ubd 621khi 123fds 321仔细看下,数据文件第一列是字母,第二列是数字,我要做的就是结合这组数据进行一些排序的测试。3 ...
Global site tag (gtag.js) - Google Analytics