通过 Real-time OLAP,Kylin v3.0 能够对接 Kafka 数据源,并且实现秒级的数据查询延迟。从 v3.0.0-alpha 发布到现在,世界范围内已有一些社区用户试用该特性并且提出意见,并且开发者在不断修复问题和提升易用性。Kyligence大数据工程师俞霄翔将通过一个 Demo,来演示如何实际使用 Real-time OLAP,并且会在配置过程中讲解重要的技术点, 帮助大家深入了解 Real-time OLAP。

应用场景

首先介绍一下这个演示的业务场景,我们希望为市场部门提供自助化微博舆情数据分析系统。通过分析大家实时关注的焦点,为市场部门提供一个非常快捷准确的热点信息来源,有助于实现快速的实时热点营销。

设计

这个应用的设计主要分为四块内容:数据源、预处理、数据分析、BI 展示。数据源使用微博爬虫获取微博文本内容;预处理是使用百度 NLP 文本分析 API,通过 NLP,我们可以实现中文文本分词、词性识别和命名实体识别;数据分析这部分基于 Kylin v3.0,通过 Streaming Receiver 摄入的实时数据部分,和 HBase Region Server 的历史数据部分的结合来获取完整的数据分析结果;BI 展示通过 Apache Superset 丰富的图表来展示分析结果。

数据转化

我们接下来看数据流向, 首先爬虫抓取的是一条条新浪微博的数据,这里面可能有各式各样词汇,我们会通过百度 NLP 把文本进行切词和标注。通过词性和类别,我们会找到我们感兴趣的内容,比方说明星、企业。然后我们可以把各种各样关键词进行多维分析,得到可视化结果。

整体架构

我介绍一下我比较关注的 Real-time OLAP 特性:

  1. 秒级数据延迟,这非常重要,Receiver 一摄入消息,就会放到内存里面,数据立刻就可以被查询到。

  2. 为了加速查询性能,Receiver 端的数据使用压缩和列式存储,有利于数据的过滤和扫描。

  3. 数据的状态演变,从进入 Receiver 到变为 Immutable,上传到 HDFS,最终进入 HBase,整个状态都是你通过配置参数控制,以后不需要管理,非常自动化。

  4. Lambda 模式:Receiver 在实时摄入 Kafka 消息同时,用户可以通过 ETL 程序(例如 Spark Streaming)来清洗数据并且写入 Hive,然后用户根据需求用 Hive 数据刷新你通过 Kafka 数据构建的 Segment,通过这点可以用于修正 Kafka 数据中某些维度和度量不符合业务需求的问题。

在演示过程中, 我会演示以下三点:

  1. 如何创建和设计 Streaming Cube ,以及如何启动数据摄入。

  2. 如何使用 Superset 连接 Kylin,并且创建热点人物词云图。

  3. 如何对 Streaming Receiver 集群进行水平扩容, 来应对消息摄入速率大量增长的情况。

△ 演示视频

-End-

▼ 社区推荐 ▼ 
▼ 
▼ 
▼ 福利时刻 ▼ 

01. 公众号后台回复:「kylin」,可领取kylin视频教程资料;

02. 公众号后台回复:「快乐」,可参与33本技术类书籍免费+包邮活动;

03. 公众号后台回复:「加群」,可加入数仓、BI、Python 或 资料分享群。

Q: 关于数据仓库,你还想了解什么?

欢迎留言区与大家分享

觉得不错,请把这篇文章分享给你的朋友哦

投稿请联系小助手:iom1128『紫霞仙子』

更多精彩,请在后台点击“紫霞秘籍”查看

关注不迷路~ 各种福利、资源定期分享

↓↓↓回馈读者,十一假期 送书福利活动 正在进行中ing...(点击跳转)

基于 Apache Kylin 的微博舆情实时分析(内含 Demo)相关推荐

  1. (基于Python的毕业设计)微博舆情分析系统(附源码+论文)

    大家好!我是岛上程序猿,感谢您阅读本文,欢迎一键三连哦. 目录 一.项目简介 二.系统设计 2.1软件功能模块设计 2.2数据库设计 三.系统项目部分截图 3.1管理员功能模块 3.2热搜数据 3.3 ...

  2. Apache Kylin在绿城客户画像系统中的实践

    前言 \\ 作为国内知名的房地产开发商,绿城经过24年的发展,已为全国25万户.80万人营造了美丽家园,并将以"理想生活综合服务提供商"为目标,持续为客户营造高品质的房产品和生活服 ...

  3. 大数据分析神兽麒麟(Apache Kylin)

    1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...

  4. 小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

    如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司.随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显.而与此同时,各业务团队在数据查询.分析等方面的压力同样正在剧增.因此,为帮助公司 ...

  5. Apache Kylin VS Apache Doris

    作者: 康凯森 日期: 2018-04-17 分类: OLAP 1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Kylin的聚合模型 2.2 ...

  6. 实践:在运维大数据这事上,Apache Kylin比ELK更擅长?

    题图: from Zoommy 记得十年前,我曾问过一名应用运维工程师,如何用两个关键词描述下自己的日常工作? 他居然不假思索,略带调侃的回答我, "背锅" 与 "惊醒& ...

  7. 【Apache Kylin 】 大数据下的OLAP解决方案(原理篇)

    前言 在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求. 让我们来想想有哪些业务需求呢? 比如Hive是基于Had ...

  8. Apache Kylin 之 初介绍

    转子:http://www.cnblogs.com/huajiezh/p/6020880.html 大数据分析神兽麒麟(Apache Kylin) 1.Apache Kylin是什么? 在现在的大数据 ...

  9. 大数据分析界的“神兽”Apache Kylin初解

    转自李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 今天分享的主题是:聊聊& ...

最新文章

  1. python3.8.2汉化包-Python3.8.2中文版 32/64位 官方最新版
  2. laravel 分词搜索匹配度_搜索引擎工作原理
  3. 鬲融:从唐山走出的国际杰出青年学者
  4. 罗宾斯管理学13版pdf_全球著名管理学家,曾任五大高校教授,罗宾斯教你如何做好管理者...
  5. npm的常用配置项---npm工作笔记004
  6. HP的“高端”磁带库!
  7. 【恋上数据结构】归并排序 + LeetCode真题
  8. DB2 多表空间 重定向 还原
  9. iOS 极光推送:This application or a bundle it contains has the same bundle identifier as this applicatio
  10. 药店药品管理方案,药店药品的盘点方案,假设进行药店药品的高效盘点?药品盘点步骤是?...
  11. Win XP 如何禁用屏保
  12. 华为 USG6000防火墙管理员密码重置(配置会清空)
  13. PHP使用数组整型溢出绕过赋值式“永真”判断以进入else子句
  14. Oracle dmp文件解析
  15. 虚拟服务器的密码忘记了,虚拟平台管理术:忘记 ESXi 主机的 root 密码该怎么办?...
  16. RAM ROM 寄存器(Rigester) CPU的关系
  17. 第四次c语言实验报告模板,C语言实验报告模板完成版
  18. 真的输了,五笔输入法败给拼音,它输给了时代
  19. 高一计算机会考英语作文,高二会考英语作文范文
  20. 文件锁-FileLock

热门文章

  1. 一步一步教你VMWare安装苹果Mac OS X
  2. 18周岁以下签订租赁合同有效吗?租赁合同签订日期规定是怎样的?
  3. (转)2017年12月宋华教授携IBM中国研究院、猪八戒网、中航信托、33复杂美共同论道智慧供应链金融...
  4. 数学问题:1000瓶酒找1毒酒
  5. pve更新源和离线下载安装包
  6. 简述 Linux DRM 架构
  7. 定了,“518囤币日”来了!囤币者,永不孤单!
  8. 转转二手交易平台建设高效率循环经济链
  9. 计算机丢失dog.dll,dog.dll(解决找不到dog.dll文件问题)V1.0 正式版
  10. 1.8正版生存服务器,我的世界1.8纯净版