Hadoop企业级应用之秒级查询Kudu+Impala
Apache Kudu是开源Apache Hadoop生态系统的新成员,它完善了Hadoop的存储层,可以快速分析快速数据。
Apache Impala是CDH的集成部分,通过Cloudera Enterprise订阅支持,是Apache Hadoop的开源分析MPP数据库,可以提供最快的洞察时间。
在Kudu出现之前,Hadoop生态环境中的储存主要依赖HDFS和HBase,追求高吞吐批处理的用例中使用HDFS,追求低延时随机读取用例下用HBase,而Kudu正好能兼顾这两者:
• Kudu的设计使它与众不同:
o 快速处理OLAP(Online Analytical Processing)任务
o 集成MapReduce、Spark和其他Hadoop环境组件
o 与Impala高度集成,使得这成为一种高效访问交互HDFS的方法
o 强大而灵活的统一性模型
o 在执行同时连续随机访问时表现优异
o 通过Cloudera Manager可以轻松管理控制
o 高可用性,tablet server和master利用Raft Consensus算法保证节点的可用
o 结构数据模型
• 常见的应用场景:
o 刚刚到达的数据就马上要被终端用户使用访问到
o 同时支持在大量历史数据中做访问查询和某些特定实体中需要非常快响应的颗粒查询
o 基于历史数据使用预测模型来做实时的决定和刷新
o 要求几乎实时的流输入处理
• Kudu+Impala集成功能:
o CREATE/ALTER/DROP TABLE
Impala支持使用Kudu作为持久层创建,更改和删除表。这些表遵循与Impala中其他表相同的内部/外部方法,允许灵活的数据提取和查询。
o INSERT
可以使用与任何其他Impala表相同的语法将数据插入Impala中的Kudu表,例如使用HDFS或HBase进行持久化的表。
o UPDATE / DELETE
Impala支持UPDATE和DELETESQL命令逐行或批量修改Kudu表中的现有数据。选择SQL命令的语法与现有标准尽可能兼容。除了simple DELETE 或UPDATE命令之外,还可以使用FROM子查询中的子句指定复杂连接。
o 灵活的分区
与Hive中的表分区类似,Kudu允许通过散列或范围动态地将表预分割为预定义数量的节点,以便在集群中均匀分配写入和查询。可以按任意数量的主键列,任意数量的哈希值和可选的拆分行列表进行分区。
o 并行扫描
为了在现代硬件上实现最高性能,Impala使用的Kudu客户端课在多台节点上并行扫描。
o 高效查询
在可能的情况下,Impala将谓词评估推送到Kudu,以便尽可能接近数据评估谓词。在许多工作负载中,查询性能与Parquet相当。
Hadoop企业级应用之秒级查询Kudu+Impala相关推荐
- clickhouse 在货拉拉的应用实践,千亿级别数据实现秒级查询
作者:扬大平仔 前携程.网易高级工程师,现为货拉拉高级工程师.热爱技术,敢于将新技术用于项目实践. 前言 为了解决线上问题定位慢,相应不及时等问题.所以我们决定开发一套智能问题定位系统.对于我们的一些 ...
- ClickHouse留存分析工具十亿数据秒级查询方案
作者:陈璐,腾讯 CSIG 高级数据分析师 本文实践了对于千万级别的用户,操作总数达万级别,每日几十亿操作流水的留存分析工具秒级别查询的数据构建方案.同时,除了留存分析,对于用户群分析,事件分析等也可 ...
- java按秒查询数据_ClickHouse留存分析工具十亿数据秒级查询方案
作者:陈璐,腾讯 CSIG 高级数据分析师本文实践了对于千万级别的用户,操作总数达万级别,每日几十亿操作流水的留存分析工具秒级别查询的数据构建方案.同时,除了留存分析,对于用户群分析,事件分析等也可以 ...
- 耗时3天,上亿数据如何做到秒级查询?
点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试文章 来源:sohu.gg/jIp59N 最近在忙着优化集团公司的一个报 ...
- 6亿数据秒级查询,ClickHouse太快了!
" ClickHouse 在数据分析技术领域早已声名远扬,最近由于项目需求使用到了 ClickHouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试. 图片来自 Pex ...
- 耗时 3 天,上亿数据如何做到秒级查询?
最近在忙着优化集团公司的一个报表.优化完成后,报表查询速度由从半小时以上(甚至查不出)到秒查的质变.从修改 SQL 查询语句逻辑到决定创建存储过程实现,花了我 3 天多的时间,在此总结一下,希望对朋友 ...
- python +ip2region 离线IP库地址文件实现秒级查询ip归属地址
ip2region ip2region - 离线的ip地址查询库,ip到地区的映射库,提供二进制,B树,内存搜索三种查询算法,查询速度非常快. 支持Java,PHP,C,Python,Nodejs,G ...
- hadoop记录篇10-数据仓库查询组件impala
一.impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使 ...
- 亿级数据多条件组合查询——秒级响应解决方案
1 概述 组合查询为多条件组合查询,在很多场景下都有使用.购物网站中通过勾选类别.价格.销售量范围等属性来对所有的商品进行筛选,筛选出满足客户需要的商品,这是一种典型的组合查询.在小数据量的情况下,后 ...
最新文章
- 2018-3-31 文章(ELM-Chinese-Brief)原文
- 【Interfacenavigation】通知概述(36)
- pandas 补充知识:data_range函数
- linux 代码统计工具,Shell脚本实现的基于SVN的代码提交量统计工具
- (转载)NSOperation and NSOperationQueue教程(翻译)
- VNC怎么和宿主机共享粘贴板(整理)
- 401 binary watch
- 电大计算机应用基础试卷号2007,电大计算机应用基础(试卷版)计算机试卷7.doc...
- PRML-系列一之1.2
- utf-8、unicode区别与联系
- 《R语言数据分析与挖掘实战》——3.2 数据特征分析
- 2019 世界读书日,让程序员疯狂的 13 本豆瓣高分技术书!
- docker portainer_Docker可视化管理:Portainer中文版
- python实现xml数据解析处理
- JS实现60s倒计时(亲测有效),及span标签如何使用和禁用onclick事件
- eclipse语言包安装太慢,或者卡住不动的解决方法
- 录制计算机课,如何录制直播网课?教你在电脑上如何录屏!
- python excel公式计算_excel公式函数
- VXLAN技术学习笔记
- 机器学习之决策树CART算法