HBase的条件查询

博客分类：

hbase

一、环境HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6二、需求背景在HBase中，进行条件查询，很多的文件都说过，但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索，这样的结构设计可以在一定层度上通过rowkey来定位查询（速度很快），但是，如果我是已知某个列的值，需要看有多少行的列包含这个值，那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容，然后遍历，但是这样的效率明显是很低下的，所以，我寻求了其他的解决办法。三、操作过程1、一些已知rowkey这样的查询内容我就不在这里描述，网络 ...

2010-10-27 09:46
浏览 3338
评论(0)
分类:企业架构

配置HBase使用Map/Reduce

博客分类：

hbase

HBase Hadoop Java Mapreduce Gmail

1、HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.62、如果想通过MR对hbase进行一些操作，首先是需要做一些配置内容的，配置的流程如下：a、默认安装完成了hadoop和hbaseb、首先引入环境变量(修改/etc/profile文件，在文件末尾追加下面内容)：# set java environmentexport JAVA_HOME=/usr/java/jdk1.6.0_20export JRE_HOME=/usr/java/jdk1.6.0_20/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME ...

2010-10-27 09:44
浏览 1793
评论(0)
分类:企业架构

HBase中关于中文的处理

博客分类：

hbase

HBase Linux Hadoop Windows Eclipse

1、HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.62、在HBase中创建了表，如果想通过控制台使用命令写入含有汉字的数据，录入是不成功的。3、如果想对汉字进行录入，可以通过代码实现，这里我使用的是java，代码如下： /** * 向指定的表插入单个Put对象 * * @param tablename * @param conf * @throws Exception */ public static void insertData(String tableName, HBaseConfiguration conf) ...

2010-10-27 09:42
浏览 1264
评论(0)
分类:企业架构

HBase分布式安装手册

博客分类：

hbase

HBase zk Linux Hadoop JDK

一、安装准备1、下载HBASE 0.20.5版本：http://www.apache.org/dist/hbase/hbase-0.20.5/2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本： ...

2010-10-27 09:42
浏览 1701
评论(0)
分类:企业架构

Zookeeper分布式安装手册

博客分类：

hadoop

Linux Hadoop JDK 脚本 Gmail

一、安装准备1、下载zookeeper-3.3.1，地址：http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本：jdk-6u20-linux-i586.bin3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本： 192.168.3.131 namenode 192.168.3.132 datanode ...

2010-10-27 09:41
浏览 1295
评论(0)
分类:企业架构

Hadoop分布式安装

博客分类：

hadoop

Hadoop SSH XSL Linux Scheme

一、安装准备1、下载hadoop 0.20.2，地址：http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本：jdk-6u20-linux-i586.bin （必须是1.6）3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器，192.168.3.131（master），192.168.3.132（slave），192.168.3.133（slave）二、安装操作1、 ...

2010-10-27 09:41
浏览 981
评论(0)
分类:企业架构

Map/Reduce使用杂记

博客分类：

hadoop

Hadoop

一、硬件环境1、CPU：Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz2、内存：2G3、硬盘：500G4、网卡：百兆电卡5、网络：局域网络6、集群数量：10台机器，1个master，10个slaves（master也做slave了！呵呵）二、关于同时运行的map和reduce数量。1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum设置。2、默认的设置都是2，也就是说Avg. Tasks/Node=43、关于数量，并非越大越好。 ...

2010-10-27 09:40
浏览 905
评论(0)
分类:企业架构

Hadoop中自定义计数器

博客分类：

hadoop

Hadoop Mapreduce Apache Rack Linux

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码，总在想统计一些错误的数据出现的次数，发现如果都写在reduce的输出里太难看了，所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器，但都是基于0.19版本写的，好多函数都不对，改动相对较大。3、基于上面2个理由，写个文档，记录一下。三、实现1、前提：写入一个文件，规范的是3个字段，“\t”划分，有2条异常，一条是2个字段，一条是4个字段，内容如下：jim 1 28kate 0 26tom 1kaka 1 ...

2010-10-27 09:40
浏览 1495
评论(0)
分类:企业架构

Map/Reduce中的Partiotioner使用

博客分类：

hadoop

Hadoop Mapreduce Apache Linux Gmail

一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观，同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容 ...

2010-10-27 09:39
浏览 882
评论(0)
分类:企业架构

Map/Reduce中的Combiner的使用

博客分类：

hadoop

Hadoop Gmail

一、作用1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的reduce功能.例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：map: (K1, V1) → list(K2, V2) combine: (K2, list( ...

2010-10-27 09:38
浏览 1153
评论(0)
分类:企业架构

Hadoop中DBInputFormat和DBOutputFormat使用

博客分类：

hadoop

Hadoop MySQL Mapreduce JDBC Oracle

一、背景为了方便MapReduce直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS，根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat（Mysql为例），先创建表:CREATE TABLE studentinfo ( id INTEGER NOT NULL PRIMARY KEY, name VARCHAR(32) NOT NULL);2、由于0.20版本对DBIn ...

2010-10-27 09:38
浏览 2400
评论(0)
分类:企业架构

Hadoop的MultipleOutputFormat使用

博客分类：

hadoop

Hadoop C C++C#Mapreduce

一、背景 Hadoop的MapReduce中多文件输出默认是TextOutFormat，输出为part-r- 00000和part-r-00001依次递增的文件名。hadoop提供了MultipleOutputFormat类，重写该类可实现定制自定义的文件名。二、技术细节1.环境：hadoop 0.19（目前hadoop 0.20.2对MultipleOutputFormat支持不好），linux。2.实现MultipleOutputFormat代码例子如下：public class WordCount { public static class TokenizerMapper ext ...

2010-10-27 09:37
浏览 1648
评论(0)
分类:企业架构

Map/Reduce中公平调度器配置

博客分类：

hadoop

Hadoop XSL Mapreduce Apache XML

一、背景一般来说，JOB的执行就是FIFO的过程（先进先出），这样的方式资源得不到充分的使用。所以配置了一下公平调度。二、配置实现1、环境：hadoop0.20.22、拷贝/jz/hadoop-0.20.2/contrib/fairscheduler/hadoop-0.20.2-fairscheduler.jar到hadoop的li ...

2010-10-27 09:37
浏览 1507
评论(0)
分类:企业架构

无法启动Datanode的问题

博客分类：

hadoop

Hadoop Java Apache SUN Security

一、背景早上由于误删namenode上的hadoop文件夹，在主节点上重新安装hadoop之后，发现有2个datanode无法启动，经过排查，解决了这个问题，记下。二、现象及解决办法1、2个节点的Tasktracker启动了，但datanode死活起不来。2、使用sh hadoop-daemon.sh命令单独也无法启动。3、错误信息如下：2010-08-10 10:51:23,413 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOExc ...

2010-10-27 09:37
浏览 2364
评论(0)
分类:企业架构

Map/Reduce的GroupingComparator排序简述

博客分类：

hadoop

Hadoop Mapreduce Apache 框架 Gmail

一、背景排序对于MR来说是个核心内容，如何做好排序十分的重要，这几天写了一些，总结一下，以供以后读阅。二、准备1、hadoop版本是0.20.22、输入的数据格式（这个很重要，看清楚格式），名称是secondary.txt：abc 123acb 124cbd 523abc 234nbc 563fds 235khi 234cbd 675fds 971hka 862ubd 621khi 123fds 321仔细看下，数据文件第一列是字母，第二列是数字，我要做的就是结合这组数据进行一些排序的测试。3 ...

2010-10-27 09:36
浏览 1307
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HBase的条件查询

配置HBase使用Map/Reduce

HBase中关于中文的处理

HBase分布式安装手册

Zookeeper分布式安装手册

Hadoop分布式安装

Map/Reduce使用杂记

Hadoop中自定义计数器

Map/Reduce中的Partiotioner使用

Map/Reduce中的Combiner的使用

Hadoop中DBInputFormat和DBOutputFormat使用

Hadoop的MultipleOutputFormat使用

Map/Reduce中公平调度器配置

无法启动Datanode的问题

Map/Reduce的GroupingComparator排序简述

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>