基于 Apache Kylin 的微博舆情实时分析(内含 Demo)
通过 Real-time OLAP,Kylin v3.0 能够对接 Kafka 数据源,并且实现秒级的数据查询延迟。从 v3.0.0-alpha 发布到现在,世界范围内已有一些社区用户试用该特性并且提出意见,并且开发者在不断修复问题和提升易用性。Kyligence大数据工程师俞霄翔将通过一个 Demo,来演示如何实际使用 Real-time OLAP,并且会在配置过程中讲解重要的技术点, 帮助大家深入了解 Real-time OLAP。
应用场景
![](/assets/blank.gif)
首先介绍一下这个演示的业务场景,我们希望为市场部门提供自助化微博舆情数据分析系统。通过分析大家实时关注的焦点,为市场部门提供一个非常快捷准确的热点信息来源,有助于实现快速的实时热点营销。
设计
![](/assets/blank.gif)
这个应用的设计主要分为四块内容:数据源、预处理、数据分析、BI 展示。数据源使用微博爬虫获取微博文本内容;预处理是使用百度 NLP 文本分析 API,通过 NLP,我们可以实现中文文本分词、词性识别和命名实体识别;数据分析这部分基于 Kylin v3.0,通过 Streaming Receiver 摄入的实时数据部分,和 HBase Region Server 的历史数据部分的结合来获取完整的数据分析结果;BI 展示通过 Apache Superset 丰富的图表来展示分析结果。
数据转化
![](/assets/blank.gif)
我们接下来看数据流向, 首先爬虫抓取的是一条条新浪微博的数据,这里面可能有各式各样词汇,我们会通过百度 NLP 把文本进行切词和标注。通过词性和类别,我们会找到我们感兴趣的内容,比方说明星、企业。然后我们可以把各种各样关键词进行多维分析,得到可视化结果。
整体架构
![](/assets/blank.gif)
![](/assets/blank.gif)
我介绍一下我比较关注的 Real-time OLAP 特性:
秒级数据延迟,这非常重要,Receiver 一摄入消息,就会放到内存里面,数据立刻就可以被查询到。
为了加速查询性能,Receiver 端的数据使用压缩和列式存储,有利于数据的过滤和扫描。
数据的状态演变,从进入 Receiver 到变为 Immutable,上传到 HDFS,最终进入 HBase,整个状态都是你通过配置参数控制,以后不需要管理,非常自动化。
Lambda 模式:Receiver 在实时摄入 Kafka 消息同时,用户可以通过 ETL 程序(例如 Spark Streaming)来清洗数据并且写入 Hive,然后用户根据需求用 Hive 数据刷新你通过 Kafka 数据构建的 Segment,通过这点可以用于修正 Kafka 数据中某些维度和度量不符合业务需求的问题。
在演示过程中, 我会演示以下三点:
如何创建和设计 Streaming Cube ,以及如何启动数据摄入。
如何使用 Superset 连接 Kylin,并且创建热点人物词云图。
如何对 Streaming Receiver 集群进行水平扩容, 来应对消息摄入速率大量增长的情况。
△ 演示视频
-End-
01. 公众号后台回复:「kylin」,可领取kylin视频教程资料;
02. 公众号后台回复:「快乐」,可参与33本技术类书籍免费+包邮活动;
03. 公众号后台回复:「加群」,可加入数仓、BI、Python 或 资料分享群。
Q: 关于数据仓库,你还想了解什么?
欢迎留言区与大家分享
觉得不错,请把这篇文章分享给你的朋友哦
投稿请联系小助手:iom1128『紫霞仙子』
更多精彩,请在后台点击“紫霞秘籍”查看
![](/assets/blank.gif)
!关注不迷路~ 各种福利、资源定期分享!
↓↓↓回馈读者,十一假期 送书福利活动 正在进行中ing...(点击跳转)
基于 Apache Kylin 的微博舆情实时分析(内含 Demo)相关推荐
- (基于Python的毕业设计)微博舆情分析系统(附源码+论文)
大家好!我是岛上程序猿,感谢您阅读本文,欢迎一键三连哦. 目录 一.项目简介 二.系统设计 2.1软件功能模块设计 2.2数据库设计 三.系统项目部分截图 3.1管理员功能模块 3.2热搜数据 3.3 ...
- Apache Kylin在绿城客户画像系统中的实践
前言 \\ 作为国内知名的房地产开发商,绿城经过24年的发展,已为全国25万户.80万人营造了美丽家园,并将以"理想生活综合服务提供商"为目标,持续为客户营造高品质的房产品和生活服 ...
- 大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...
- 小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案
如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司.随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显.而与此同时,各业务团队在数据查询.分析等方面的压力同样正在剧增.因此,为帮助公司 ...
- Apache Kylin VS Apache Doris
作者: 康凯森 日期: 2018-04-17 分类: OLAP 1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Kylin的聚合模型 2.2 ...
- 实践:在运维大数据这事上,Apache Kylin比ELK更擅长?
题图: from Zoommy 记得十年前,我曾问过一名应用运维工程师,如何用两个关键词描述下自己的日常工作? 他居然不假思索,略带调侃的回答我, "背锅" 与 "惊醒& ...
- 【Apache Kylin 】 大数据下的OLAP解决方案(原理篇)
前言 在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求. 让我们来想想有哪些业务需求呢? 比如Hive是基于Had ...
- Apache Kylin 之 初介绍
转子:http://www.cnblogs.com/huajiezh/p/6020880.html 大数据分析神兽麒麟(Apache Kylin) 1.Apache Kylin是什么? 在现在的大数据 ...
- 大数据分析界的“神兽”Apache Kylin初解
转自李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 今天分享的主题是:聊聊& ...
最新文章
- python3.8.2汉化包-Python3.8.2中文版 32/64位 官方最新版
- laravel 分词搜索匹配度_搜索引擎工作原理
- 鬲融:从唐山走出的国际杰出青年学者
- 罗宾斯管理学13版pdf_全球著名管理学家,曾任五大高校教授,罗宾斯教你如何做好管理者...
- npm的常用配置项---npm工作笔记004
- HP的“高端”磁带库!
- 【恋上数据结构】归并排序 + LeetCode真题
- DB2 多表空间 重定向 还原
- iOS 极光推送:This application or a bundle it contains has the same bundle identifier as this applicatio
- 药店药品管理方案,药店药品的盘点方案,假设进行药店药品的高效盘点?药品盘点步骤是?...
- Win XP 如何禁用屏保
- 华为 USG6000防火墙管理员密码重置(配置会清空)
- PHP使用数组整型溢出绕过赋值式“永真”判断以进入else子句
- Oracle dmp文件解析
- 虚拟服务器的密码忘记了,虚拟平台管理术:忘记 ESXi 主机的 root 密码该怎么办?...
- RAM ROM 寄存器(Rigester) CPU的关系
- 第四次c语言实验报告模板,C语言实验报告模板完成版
- 真的输了,五笔输入法败给拼音,它输给了时代
- 高一计算机会考英语作文,高二会考英语作文范文
- 文件锁-FileLock
热门文章
- 一步一步教你VMWare安装苹果Mac OS X
- 18周岁以下签订租赁合同有效吗?租赁合同签订日期规定是怎样的?
- (转)2017年12月宋华教授携IBM中国研究院、猪八戒网、中航信托、33复杂美共同论道智慧供应链金融...
- 数学问题:1000瓶酒找1毒酒
- pve更新源和离线下载安装包
- 简述 Linux DRM 架构
- 定了,“518囤币日”来了!囤币者,永不孤单!
- 转转二手交易平台建设高效率循环经济链
- 计算机丢失dog.dll,dog.dll(解决找不到dog.dll文件问题)V1.0 正式版
- 1.8正版生存服务器,我的世界1.8纯净版