hbase中scan命令是我们经常使用到的,而filter的作用尤其强大。这里简要的介绍下scan下filter命令的使用.

插入scan命令需要的数据

这里模拟了部分微博评论的数据,然后使用代码插入数据到hbase,代码就不列出来了比较简单。

public class Comment {

//1-->普通文章,2--->热点文章

Integer articleType;

//文章id

String articleId;

String userId;

long timestamp;

//comment content,暂时只考虑文本

String commentContent;

}

hbase的表名称为zy_comment,列簇info下有articleType以及commentInfo两个列。commentInfo的value为上面Comment类的json字符串,插入的数据如下所示

插入数据

插入数据

HBase数据顺序

HBase是三维有序存储的,是指rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度是依照ASCII码表排序的。(比如A排在a前面)

先rowkey升序排序,

rowkey相同则column key升序排序

rowkey、column key相同则timestamp降序排序

支持的Filter

scan命令我们经常会大量使用Filter,hbase shell提供的filter都可以在hbase client包中找到对应的类,它们都是Filter的子类,很多命令都是通过filter来进行实现的。

filter

使用show_filters命令查看shell中定义了哪些filter常量,如果想要使用shell中未定义的常量,在使用的时候必须手动import filter的全路径。

hbase-show-filter.png

scan的用法

使用 help 'scan' 命令可以查看scan的语法以及用法,关于scan命令中filter的使用规则如下:

scan 'tableName',{FILTER=>"FilterName(param1,param2,...,paramN)"}

{}中的语法是ruby的map的语法,FILTER必须大写,filter的参数是根据构造方法来的,也就是相当于java中的new Filter('param1','param2')等,这里只是省略了new参数而已。

当然同样可以使用ruby中new对象的方式,只是那样就必须使用全限定名称。后面会举一个全限定名称的例子。

在使用Filter的过程中部分filter会用到比较器(CompareOperator.java)以及运算比较符(ByteArrayComparable.java)

@Public

public enum CompareOperator {

LESS, // <

LESS_OR_EQUAL, // <=

EQUAL, // =

NOT_EQUAL, // <>

GREATER_OR_EQUAL, // >=

GREATER, // >

NO_OP; // 没有任何操作

private CompareOperator() {

}

}

比较器主要有以下几种:

BinaryComparator

按字节索引顺序比较指定字节数组,采用Bytes.compareTo(byte[]),比如:binary:\x00\x00\x02

BinaryPrefixComparator

跟前面相同,只是比较左端的数据是否相同,比如:binaryprefix:\x00\x00

NullComparator

判断给定的是否为空,不常用

BitComparator

按位比较 a BitwiseOp class 做异或,与,并操作,不常用

RegexStringComparator

提供一个正则的比较器,仅支持 EQUAL 和非EQUAL,比如:regexstring:ab*add

SubstringComparator

判断提供的子串是否出现在table的value中。比如:substring:great

scan例子

查询方式通过rowKey来进行查询是最快的,所以rowkey的设计一定要合理,如果不合理会很影响查询速率。但是有时候确实没有办法完全通过rowkey来查询,所以就要借助scan.

scan命令支持的修饰词除了列(COLUMNS)修饰词外,HBase还支持Limit(限制查询结果行数),STARTROW(ROWKEY起始行。会先根据这个key定位到region,再向后扫描)、STOPROW(结束行)、TIMERANGE(限定时间戳范围)、VERSIONS(版本数)、和FILTER(按条件过滤行)等

查询user是zhangsan的用户的评论数据,最多只返回10条

scan 'zy_comment',{LIMIT=>10,FILTER=>"PrefixFilter('zhangsan')"}

hbase-scan-prefixfilter.png

通过startrow,stoprow来进行查询(这种也比较快,实际操作中如果不能通过rowkey)

scan 'zy_comment',{STARTROW=>'b',STOPROW='e',LIMIT=>10}

hbase-scan-startendrow.png

查询评论内容为666的评论有哪些

scan 'zy_comment',{LIMIT=>10,FILTER=>"ValueFilter(=,'substring:666')"}

hbase-scan-valuefilter.png

查询热点文章的数据有哪些

scan 'zy_comment',{LIMIT=>10,FILTER="SingleColumnValueFilter('info','articleType',=,'binary: \x00\x00\x00\x00\x00\x00\x00\x02')"}

hbase-scan-singlecolumn.png

这里binary中的数据一定要是二进制字符串而不是具体的值

查看评论包含great的热点文章评论有哪些

scan 'zy_comment',{LIMIT=>3,FILTER=>"(SingleColumnValueFilter('info','articleType',=,'binary:\x00\x00\x00\x00\x00\x00\x00\x02')) AND (ColumnPrefixFilter('commentInfo') AND ValueFilter(=,'substring:great'))"}

hbase-scan-multifilter.png

查询评论的前两条

scan 'zy_comment',{FILTER=>"PageFilter(2)"}和LIMIT有异曲同工之妙

hbase-scan-pagefilter.png

查询rowkey中包含特定前缀的数据

scan 'zy_comment',{FILTER=>"RowFilter(=,'substring:zhangsan')"}

hbase-scan-rowfilter1.png

hbase-scan-rowfilter2.png

使用全限定名称查询articleId是123456的数据

import org.apache.hadoop.hbase.filter.SingleColumnValueFilter

import org.apache.hadoop.hbase.filter.CompareFilter

import org.apache.hadoop.hbase.filter.SubstringComparator

scan 'zy_comment', {COLUMNS=>['info:commentInfo'], FILTER =>

SingleColumnValueFilter.new(Bytes.toBytes('info'), Bytes.toBytes('commentInfo'),

CompareFilter::CompareOp.valueOf('EQUAL'), SubstringComparator.new('123456'))}

hbase-scan-filter-fullpath.png

注意

如果scan中指定了COLUMNS,则FILTER中所使用的列需要包含在所指定的COLUMNS中,否则,filter不起作用。

HBase中主要的操作对象是一个个的cell,每个cell都可以有多个版本。如果使用过滤器ValueFilter,就会只有那些符合条件的cell被查出来。跟关系数据库的查询不同,关系数据库查出来的结果中各行都有相同的列。而HBase,查出来的结果中,不同的行会有不同的列。

filter不会降低服务方的IO,它会把符合条件的子集传给客户端。即,它是在对查出的结果进行过滤,而不是象原来sql中的where子句。所以,如果要查出的结果中不包含filter需要的列,则filter就不能发挥作用。

参考文章

hbase数据库scan操作_HBase scan命令详解相关推荐

  1. uboot环境下mmc操作_uboot mmc命令详解

    uboot mmc命令详解 一:mmc的命令如下: 1:对mmc读操作 mmc read addr blk# cnt 2:对mmc写操作 mmc write addr blk# cnt 3:对mmc擦 ...

  2. mysql 数据库安装命令_教你MySQL数据库的编译安装以及命令详解(5.7版本)

    一.安装MySQL所需的环境依赖包 [root@localhost opt]# yum -y install gcc gcc-c++ make ncurses ncurses-devel bison ...

  3. Git基础操作及常见命令——详解

    这是我看了一些大牛们讲解之后做了一下总结,其中讲解较为详细的是廖雪峰的Git讲解 目录 Git的简介 Git的安装 创建仓库 编辑文件 修改文件 查看修改记录 撤销修改 删除文件 连接GitHub 分 ...

  4. linux的Netstat命令详解

    关注 Linux 的系统状态,主要从两个角度出发,一个角度是系统正在运行什么服务;另外一个就是 有什么连接或服务可用.使用 ps 命令可以查看处于活跃状态的服务;使用 netstat 命令则可以显示所 ...

  5. Linux的scan命令,clamscan-Linux查毒工具的命令详解

    clamscan-Linux查毒工具的命令详解 clamscan命令用于扫描文件和目录,一发现其中包含的计算机病毒,clamscan命令除了扫描linux系统的病毒外,主要扫描的还是文件中包含的win ...

  6. MySQL 数据库 source 命令详解及实例

    MySQL 数据库 source 命令详解及实例 MySQL 数据库 source 命令,该命令是数据库导入命令.source 命令的用法非常简单,首先你需要进入 MySQL 数据库的命令行管理界面, ...

  7. MySQL操作mysqldump命令详解

    MySQL操作mysqldump命令详解 基本命令: # 数据库备份-->mysqldump命令默认做锁表操作 mysqldump -uroot -ppassword --all-databas ...

  8. mysql source 数据库_MySQL 数据库 source 命令详解及实例

    MySQL 数据库 source 命令详解及实例 MySQL 数据库 source 命令,该命令是数据库导入命令.source 命令的用法非常简单,首先你需要进入 MySQL 数据库的命令行管理界面, ...

  9. useradd 命令详解 - [命令操作]

    useradd 命令详解 - [命令操作 ] 版权声明 :转载时请以超链接形式标明文章原始出处和作者信息及本声明 http://lnote.blogbus.com/logs/10191113.html ...

  10. linux下mysql数据库基础及客户端命令详解

    linux下mysql数据库基础及客户端命令详解 1.mysql数据库存储引擎: SHOW ENGINES;   #查看mysql支持的存储引擎 常见有如下两个存储引擎: MyISAM:每表三个文件: ...

最新文章

  1. 微信小程序绑定数据以及自定义指令
  2. 标志位和中断位的区别:USART_ClearFlag和USART_ClearITPendingBit
  3. RenderTextureFormat.ShadowMap
  4. HTML字体怎么显示,教你如何用CSS来控制网页字体的显示样式
  5. 关于myeclipse buildpath的jar包不能复制到tomcat lib下的问题
  6. CNN实操记录(goal:一日一更新)
  7. 初一数学计算机教案,初一数学教案
  8. 数据库笔记02:查询与统计数据
  9. 华为发布MetaAAU 能耗降低30% 性能节能双提升
  10. html5的新特性都有什么,html5的新特性
  11. CheckBoxList 赋值问题
  12. 面向对象10:多态性的使用、重载和重写的区别、多态性的实用意义
  13. Linux服务器沦陷为肉鸡的全过程实录
  14. vlfeat工具包的MATLAB安装
  15. 钩子(hook)编程
  16. Java网络编程net-1-地址-1
  17. php短信不同账号发,php用不同平台批量发短信
  18. hive插入多条数据sql_HIVE sql使用总结
  19. java面试题怎么背?java面试题有哪些?
  20. 【C++ 科学计算】矩阵元素绝对值小于设定值时,元素值变为零

热门文章

  1. Mac使用技巧:磁盘如何分区
  2. openlayers4xy坐标转为经纬度坐标
  3. 【前端进阶】-TypeScript类型声明文件详解及使用说明
  4. 硬件知识学习整理:(上拉,下拉),(三极管),(OC,OD,推挽输出),(NMOS与PMOS),(MOSFET驱动电路),(IR2110S)
  5. 使用Tin快速安装 Apache APISIX(全网最快)
  6. 企业微信机器人定时发送信息
  7. 鹏业安装算量软件8.0.0.41 升级内容
  8. 仓库盘点作业流程仓库盘点步骤使用汉码盘点机进行盘点方法
  9. 这届年轻人正在背着你偷偷攒钱
  10. mysql配置文件中bind_bind配置语法详解 | 羽飞博客