转载:https://docs.imply.io/on-prem/quickstart

快速开始

评估Imply的最简单方法是将其安装在一台机器上。在本快速入门中,我们将在本地设置平台,加载一些示例数据,并可视化数据。

先决条件

你会需要:

  • Java 8(8u92或更高版本)
  • Linux,Mac OS X或其他类Unix操作系统(不支持Windows)
  • 至少4GB的RAM

暗示使用OpenJDK构建和认证其版本。我们建议选择提供长期支持和开源许可的发行版。Amazon Corretto和Azul Zulu是两个不错的选择。

请注意,本快速入门所使用的配置经过调整,可以减少资源使用情况,不适用于负载测试。给定数据集或硬件的最佳性能需要一些调整; 有关详细信息, 请参阅我们的群集文

入门

首先,从imply.io/get-started下载Imply 2.9.10并解压缩版本档案。

tar -xzf imply-2.9.10.tar.gz
cd imply-2.9.10

在这个包中,你会发现:

  • bin/* - 为包含的软件运行脚本。
  • conf/* - 群集设置的模板配置。
  • conf-quickstart/* - 此快速入门的配置。
  • dist/* - 所有附带的软件。
  • quickstart/* - 对此快速入门有用的文件。

启动服务

接下来,您需要启动Imply,其中包括Druid, Imply UI和 ZooKeeper。您可以使用包含的监督程序通过单个命令启动所有内容:

bin/supervise -c conf/supervise/quickstart.conf

您应该看到为每个启动的服务打印出一条日志消息。您可以通过var/sv/使用其他终端查看目录来查看任何服务的详细日志。

稍后,如果您想停止服务,请按CTRL-C终端中的监督程序。如果要在停止服务后进行干净启动,请删除该var/目录。

恭喜,现在是时候加载数据了!

加载数据文件

Imply 2.9.10包含一个基于Web的界面,用于加载,可视化和运行对数据的查询。从Imply 2.4开始,Imply接口包含一个可视化数据加载器,我们将在此快速入门中使用它。我们将从2016年6月27日起从公共Web服务器获取并加载维基百科编辑样本。如果防火墙或连接限制阻止您发出获取文件的出站请求,则可以使用此处描述的说明手动加载示例。

Imply 2.9.10中的可视化数据加载器是产品预览版,尚不适合加载所有类型的数据集。您可能会发现,对于您的特定数据集,有必要使用Druid API而不是数据加载器来加载数据。在此版本中,对于流数据集和大批量数据集,通常需要使用Druid API而不是数据加载器。有关如何执行此操作的示例,请参阅离线加载示例Wikipedia数据部分。

1.打开Imply。要访问Imply,请转到http:// localhost:9095。您应该看到类似于以下屏幕截图的页面。如果您看到连接被拒绝错误,则可能意味着您的德鲁伊群集尚未联机; 尝试等待几秒钟并刷新页面。

2.开始连接到示例Wikipedia数据集。在右上角,单击+加载数据。此数据加载器允许您从许多静态和流式源(如Apache Kafka,Amazon S3和HTTP)中进行摄取。对于本快速入门,我们将使用示例下列出的Wikipedia Edits数据集。选择此选项以连接到数据源。您现在应该看到以下屏幕:

3.加载样本数据。Wikipedia示例使用HTTP数据加载器从URI(s)下定义的路径中读取文件 。此文件是JSON格式的,因此JSON应选择格式。单击Sample继续,然后继续。数据加载器将对输入文件的前几行进行采样,以确保它是可解析的并包含要摄取的正确数据。检查此数据集,然后单击是,这是我想要继续的数据。您现在应该看到以下屏幕:

4.配置时间戳和汇总。Druid使用时间戳列对数据进行分区。此页面允许您标识应将哪个列用作主时间列以及如何格式化时间戳。在这种情况下,加载程序应该已自动检测到timestamp列并选择了iso格式。

德鲁伊可以使用称为“累积”的摄取时间,第一级聚合来索引数据。汇总导致在索引期间聚合类似的事件,这可以导致磁盘使用量减少和对某些类型的数据的更快查询。* Druid Concepts *页面介绍了如何进行累计工作。对于此快速入门,请选择“不使用累积”,然后单击“ 配置列”以继续。您现在应该看到以下屏幕:

5.配置要加载的列。“配置列”页面允许您将输入数据中的列映射到将加载到Druid中的列。可以添加,删除和重命名列。在这里,您还为每列(stringlongfloat之一)指定数据类型,这将有助于德鲁伊有效地索引数据。

数据加载器会自动发现并尝试检测每个列的数据类型。在我们的样本数据的情况下,它正确地识别添加增量deltaBucket删除,和commentLength列作为 (64位整数)的类型和其它非时间列作为字符串。单击“ 其他配置”以继续。您现在应该看到以下屏幕:

6.查看其他配置。此页面允许您配置其他项目。默认的数据源名称的 wikipedia是合适的,所以可以离开了。保持选中自动压缩,因为这将优化段大小以实现高效的磁盘利用率和查询处理。有关此选项的更多信息,请查看压缩文档。可以选择自动为此数据集创建数据立方体。下一节将介绍手动创建一个步骤。Max parse exceptions指定在任务停止提取和失败之前可能发生的最大解析异常数。有关如何处理解析异常的更多信息可以在本机索引任务中找到德鲁伊的文档。我们可以保留默认值100,然后单击Review config继续。您现在应该看到以下屏幕:

7.确认并开始摄取!最后一页提供了摄取任务的摘要,并允许您对索引规范进行最终更改。准备好后,单击“ 开始加载数据”以提交作业。加载状态页面将指示索引正在进行中,并将在作业完成后更新。

一旦加载器指示数据已被索引,您就可以继续下一部分来定义数据立方体并开始可视化数据。

本节介绍如何从文件加载数据,但德鲁伊还支持流式摄取。德鲁伊的流式摄取可以在事件发生和可用于查询之间几乎没有延迟地加载数据。有关更多信息,请参阅 加载数据。

创建数据立方体

通过单击顶部栏上的相应按钮切换到Imply 的“ 可视化”部分。从这里,您可以创建数据立方体来建模数据,浏览这些立方体,并将视图组织到仪表板中。首先单击+创建新数据多维数据集

在出现的对话框中,确保wikipedia选中此并选择自动填充尺寸和度量。单击下一步继续:创建数据立方体

从这里,您可以配置数据立方体的各个方面,包括定义和自定义多维数据集的维度和度量。数据立方体创建流程可以智能地检查数据源中的列,并自动确定可能的维度和度量。当我们在上一个屏幕上选择自动填充尺寸和度量时,我们启用了此功能 ,您可以看到多维数据集的设置已在很大程度上预先填充。在我们的例子中,建议是适当的,所以我们可以通过单击右上角的“ 保存”按钮继续。

Imply的数据立方体具有高度可配置性,使您可以灵活地以多种不同方式表示数据集以及派生列和自定义列。有关维度和度量的文档是学习如何配置数据立方体的良好起点。

可视化数据立方体

单击“ 保存”后,将自动加载此新数据多维数据集的数据立方体视图。将来,还可以通过从“ 可视化”屏幕单击数据立方体的名称(在此示例中为“Wikipedia”)来加载此视图。

在这里,您可以通过过滤并在任何维度上拆分数据集来探索数据集。对于数据的每次过滤拆分,您将看到所选度量的总值。例如,在维基百科数据集上,您可以通过在页面上拆分(将页面拖动到显示栏)并按事件数排序(这是默认排序;您还可以单击任何列进行排序)来查看最常编辑的页面 通过它)。您应该看到如下屏幕:

数据立方体视图根据您分割数据的方式建议不同的可视化。如果拆分字符串列,则数据最初将显示为表格。如果按时间拆分,数据立方体视图将推荐时间序列图,如果在数字列上拆分,则会得到条形图。尝试在“ 显示”栏中用“ 时间”替换“ 页面”维度,这会将您的可视化切换到如下所示的时间序列图表:

您还可以通过从下拉列表中选择首选可视化来手动更改可视化。如果显示的尺寸不适合特定的可视化,则数据立方体视图将建议您可以显示的替代尺寸。

如果您想了解有关可视化数据的更多信息,请参阅数据立方体部分。

运行SQL

Imply包含一个易于使用的界面,用于发布Druid SQL查询。要访问SQL编辑器,请转到“ 运行SQL” 部分。如果您在可视化视图中,则可以通过从页面左上角的汉堡菜单中选择“运行SQL”来导航到此屏幕。在那里,尝试运行以下查询,这将返回编辑最多的维基百科页面:

SELECT page, COUNT(*) AS Edits
FROM wikipedia
WHERE "__time" BETWEEN TIMESTAMP '2016-06-27 00:00:00' AND TIMESTAMP '2016-06-28 00:00:00'
GROUP BY page
ORDER BY Edits
DESC LIMIT 5

您应该看到如下结果:

有关使用Druid进行SQL查询的更多详细信息,请参阅Druid SQL文档。

下一步

恭喜!您现在已经在一台机器上安装并运行了Imply,将样本数据集加载到Druid中,定义了一个数据立方体,探索了一些简单的可视化,并使用Druid SQL执行了查询。

接下来,您可以:管理数据/摄取

  • 从文件或流中加载您自己的数据。
  • 运行分布式群集并扩展到数百个节点。
  • 配置数据多维数据集以自定义数据多维数据集的维度和度量。
  • 使用您喜欢的视图创建仪表板并共享它。
  • 阅读有关支持的查询方法的更多信息,包括可视化,SQL和API。

附录:离线加载示例Wikipedia数据

如果无法访问公共Web服务器,则可以从此分发中捆绑的本地文件加载相同的数据集。该quickstart目录包括一个样本数据集和一个摄取规范来处理数据,分别命名wikipedia-2016-06-27-sampled.jsonwikipedia-index.json

要为此摄取规范向Druid提交索引作业,请从Imply目录运行以下命令:

bin/post-index-task --file quickstart/wikipedia-index.json

成功运行将生成类似于以下内容的日志:

Beginning indexing data for wikipedia
Task started: index_wikipedia_2017-12-05T03:22:28.612Z
Task log:     http://localhost:8090/druid/indexer/v1/task/index_wikipedia_2017-12-05T03:22:28.612Z/log
Task status:  http://localhost:8090/druid/indexer/v1/task/index_wikipedia_2017-12-05T03:22:28.612Z/status
Task index_wikipedia_2017-12-05T03:22:28.612Z still running...
Task index_wikipedia_2017-12-05T03:22:28.612Z still running...
Task finished with status: SUCCESS
Completed indexing data for wikipedia. Now loading indexed data onto the cluster...
wikipedia is 0.0% finished loading...
wikipedia is 0.0% finished loading...
wikipedia is 0.0% finished loading...
wikipedia loading complete! You may now query your data

创建数据集后,您可以继续下一步以创建数据多维数据集。

Imply之快速开始相关推荐

  1. Imply之HTTP推送

    转载:https://docs.imply.io/on-prem/tutorial/tranquility-server 在本教程中,您将使用Tranquility Server通过HTTP加载自己的 ...

  2. 快速了解Druid -- 实时大数据分析软件

    Druid 是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊.  本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store).美国广告技术公司Met ...

  3. Druid时序数据库-安装部署Imply集群

    1.简介 Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析("OLAP"查询).Druid最常被当做数据库来用以支持实时摄取.高性能查询和高稳定运 ...

  4. Druid分析平台Imply部署

    说明:该项目部署完成后,包括imply的平台系统和原生Druid平台系统. 0.下载解压源码包 #下载发布包 wget https://static.imply.io/release/imply-3. ...

  5. Imply之从Hadoop加载

    转载:https://docs.imply.io/on-prem/tutorial/hadoop#further-reading 从Hadoop加载 在本教程中,您将使用本地独立模式下的Hadoop将 ...

  6. 快速排查feign.FeignException: status 500 …

    feign.FeignException: status 500 - 总结一下feign报500的时候快速排查问题的方法, 这个bug容易出现的地方分别为: 1. 远程调用的时候feign的注册信息有 ...

  7. python中如何对复杂的json数据快速查找key对应的value值(使用JsonSearch包)

    前言 之前在实际的项目研发中,需要对一些复杂的json数据进行取值操作,由于json数据的层级很深,所以经常取值的代码会变成类似这样: value = data['store']['book'][0] ...

  8. 如何利用python的newspaper包快速爬取网页数据

    文章目录 前言 一个爬取新闻网页数据的神器 小试牛刀 如何快速安装 windows安装 Debian / Ubuntu安装 OSX安装 体验更多的功能 前言 随着越来的进行自然语言处理相关方面的研究, ...

  9. 【快速上手mac必备】常用优质mac软件推荐(音视频、办公、软件开发、辅助工具、系统管理、云存储)

    本文章的主要内容是我作为一名大四学生.准程序员.up主这三种身份来给大家推荐一下 mac 上好用的软件以及工具.本人也是从去年9月份开始从windows阵营转移到了mac阵营,刚开始使用的时候,也曾主 ...

最新文章

  1. SQL_Case When 嵌套
  2. 非常精美的全能视频转换器 注册版
  3. 苹果手机新款_苹果又偷偷发布新品,这次真的是手机,新款iPhone SE来了
  4. mysql语句导出数据库文件_通过Mysql命令行语句来导入、导出数据库文件
  5. SAP CRM email office integration
  6. 发票管理软件_企业为什么需要ERP企业管理软件?
  7. Android倒计时案例展示
  8. 如何设计软件类招聘考题
  9. ldd -r xxx.so命令 undefined symbol即错误定位c++filt
  10. CALLBACK / 回调(diao)
  11. 【C++】日期类题目总结
  12. c语言的split字符串分割(函数strtok)
  13. 啃书:《利用Python进行数据分析》第一章
  14. 【蓝桥杯选拔赛真题15】Scratch碰苹果游戏 少儿编程scratch蓝桥杯选拔赛真题讲解
  15. 骨传导耳机是什么意思?骨传导耳机工作原理是什么
  16. java-简单二维码制作
  17. WAR3改键工具FinalKey beta 1.0制作完成
  18. HBuilderX 最新安装使用教程,附详细图解,持续更新
  19. Google Play 签名不一致的解决方案
  20. 成功就是日复一日那一点点小小努力的积累

热门文章

  1. 树莓派什么都不装(包括python)测试摄像头的方法
  2. 求助,如何理解单相逆变器中的电压电流双闭环PI控制
  3. java 正则大小写转换_JS应用正则表达式转换大小写示例
  4. python学习——flask架构全家桶
  5. 美团暑期实习二面面经
  6. 怎样读一本书V5.0 ?(译)
  7. 计算机杨梅老师,第十届全国中学生作文大赛:与杨梅老师一起走过的日子
  8. cocos 3.6.1 实现排名列表
  9. 不是有效的ico图标如何解决
  10. ipv6地址解读---子网掩码