什么是 ClickHouse(实时数据分析数据库)
目录
- 什么是 ClickHouse
- 软件介绍
- 简介
- 市场环境
- 目前国内社区火热,各个大厂纷纷跟进大规模使用:
- 特点
- 优点
- 1、真正的面向列的DBMS
- 2、数据压缩
- 3、磁盘存储的数据
- 4、多核并行处理
- 5、在多个服务器上分布式处理
- 6、SQL 支持
- 7、向量化引擎
- 8、实时数据更新
- 9、支持近似计算
- 10、数据复制和对数据完整性的支持
- 缺点
- 环境搭建
- 下载软件
- 上传安装
- 配置文件
- 启动服务
- 可视化工具 DBeaver 连接
什么是 ClickHouse
软件介绍
简介
- 1、ClickHouse 是俄罗斯搜索巨头 Yandex 公司早 2016年 开源的一个极具 " 战斗力 " 的实时数据分析数据库,开发语言为C++
- 2、是一个用于联机分析 (
OLAP
:Online Analytical Processing) 的列式数据库管理系统
(DBMS:Database Management System),简称 CK - 3、工作速度比传统方法快100-1000倍,ClickHouse 的性能超过了目前市场上可比的面向列的DBMS。 每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。
市场环境
- 1、随着业务的迅猛增长,Yandex.Metrica目前已经成为世界第三大Web流量分析平台,每天处理超过200亿个跟踪事件。能够拥有如此惊人的体量,在它背后提供支撑的ClickHouse功不可没。
- 2、ClickHouse已经为Yandex.Metrica存储了超过20万亿行的数据,90%的自定义查询能够在1秒内返回,其集群规模也超过了400台服务器。虽然ClickHouse起初只是为了Yandex.Metrica而研发的,但由于它出众的性能,目前也被广泛应用于Yandex内部其他数十个产品上。
目前国内社区火热,各个大厂纷纷跟进大规模使用:
- 今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。
- 腾讯 内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。
- 携程 内部从18年7月份开始接入试用,目前80%的业务都跑在ClickHouse上。每天数据增量十多亿,近百万次查询请求。
- 快手 内部也在使用ClickHouse,存储总量大约10PB, 每天新增200TB, 90%查询小于3S。
特点
1、开源的列存储数据库管理系统,支持线性扩展,简单方便,高可靠性
2、容错跑分快:比Vertica快5倍,比Hive快279倍,比MySQL快800倍,其可处理的数据级别已达到10亿级别
- 速度对比图
3、功能多:支持数据统计分析各种场景,支持类SQL查询,异地复制部署
优点
1、真正的面向列的DBMS
- ClickHouse是一个DBMS,而不是一个单一的数据库。它允
许在运行时创建表和数据库、加载数据和运行查询,而无需重新配置和重新启动服务器
2、数据压缩
- 一些面向列的DBMS(INFINIDB CE 和 MonetDB)不使用数据压缩。但是,数据压缩确实是提高了性能
3、磁盘存储的数据
- 许多面向列的DBMS(SPA HANA和GooglePowerDrill))只能在内存中工作。但即使在数千台服务器上,内存也太小了。
4、多核并行处理
- 多核多节点并行化大型查询
5、在多个服务器上分布式处理
- 在clickhouse中,数据可以驻留在不同的分片上。每个分片都可以用于容错的一组副本,查询会在所有分片上并行处理
6、SQL 支持
- ClickHouse sql 跟真正的sql有不一样的函数名称。不过语法基本跟SQL语法兼容,支持JOIN/FROM/IN 和JOIN子句及标量子查询支子查询
7、向量化引擎
- 数据不仅按列式存储,而且由矢量-列的部分进行处理,这使得开发者能够实现高CPU性能
8、实时数据更新
- ClickHouse支持主键表。为了快速执行对主键范围的查询,数据使用合并树(MergeTree)进行递增排序。由于这个原因,数据可以不断地添加到表中)
9、支持近似计算
- 统计全国到底有多少人?143456754 14.3E
10、数据复制和对数据完整性的支持
- ClickHouse使用异步多主复制。写入任何可用的复本后,数据将分发到所有剩余的副本。系统在不同的副本上保持相同的数据。数据在失败后自动恢复
缺点
没有完整的事务支持,不支持Transaction想快就别Transaction
缺少完整Update/Delete操作,缺少高频率、低延迟的修改或删除已存在数据的能力,仅用于批量删除或修改数据。
聚合结果必须小于一台机器的内存大小
支持有限操作系统,正在慢慢完善
不适合Key-value存储,不支持Blob等文档型数据库
环境搭建
下载软件
官网下载
备用下载地址
安装包类别
- clickhouse-common-static — ClickHouse编译的二进制文件。
- clickhouse-server — 创建 clickhouse-server 软连接,并安装默认配置服务
- clickhouse-client — 创建 clickhouse-client 客户端工具软连接,并安装客户端配置文件
上传安装
通过rz 或者 Xshell 上传文件
安装
[root@node01 ~]# rpm -ivh clickhouse-common-static-21.6.8.62-2.x86_64.rpm
[root@node01 ~]# rpm -ivh clickhouse-server-21.6.8.62-2.noarch.rpm
- 输入密码:123456
[root@node01 ~]# rpm -ivh clickhouse-client-21.6.8.62-2.noarch.rpm
查看
[root@node01 ~]# rpm -qa | grep clickhouse
- 列出所有包含 clickhouse 字段的软件信息
[root@node01 ~]# rpm -ql clickhouse-server-21.6.8.62-2.noarch
- 查看rpm包安装的详细路径
[root@node01 ~]# ll /etc/clickhouse-server/
- 查看路径下文件
配置文件
1、修改权限
- [root@node01 ~]# chmod 644 /etc/clickhouse-server/config.xml
- [root@node01 ~]# chmod 644 /etc/clickhouse-server/users.xml
2、修改配置文件 config.xml
- [root@node01 ~]# vim /etc/clickhouse-server/config.xml
- 配置内容
<!-- 需要主动添加这一行 --> 166 <listen_host>::</listen_host> <!-- 关键配置,默认不需要修改 --> 73 <http_port>8123</http_port> 82 <tcp_port>9000</tcp_port> 336 <path>/var/lib/clickhouse/</path> 515 <default_profile>default</default_profile> 530 <default_database>default</default_database>
3、修改配置文件 users.xml
- [root@node01 ~]# vim /etc/clickhouse-server/users.xml
- 配置内容
64 <password>123456</password>
启动服务
1、开启服务
- [root@node01 ~]# systemctl start clickhouse-server.service
2、客户端登录
[root@node01 ~]# clickhouse-client -h 192.168.88.101 -u default --password
- 默认用户 default 密码 123456
3、查看节点的信息
- select * from system.clusters;
可视化工具 DBeaver 连接
底线。。。
什么是 ClickHouse(实时数据分析数据库)相关推荐
- clickhouse 航空数据_趣头条基于Flink+ClickHouse的实时数据分析平台
原标题:趣头条基于Flink+ClickHouse的实时数据分析平台 分享嘉宾:王金海 趣头条 编辑整理:王彦 内容来源:Flink Forward Asia 出品平台:DataFunTalk 导读: ...
- 趣头条基于 Flink+ClickHouse 构建实时数据分析平台
摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分: 一.业务场景与现状分析 二 ...
- clickhouse hbase性能对比_QQ音乐PB级ClickHouse实时数据平台架构演进之路
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...
- 阿里云ClickHouse海量数据分析
导读:2020年clickhouse就是一批黑马,成功脱颖而出,在各大互联网都受到青睐,头条.腾讯.快手.阿里都在使用clickhouse,下面我们一起来学习一下阿里巴巴在clickhouse中的经验 ...
- QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过Q ...
- 400倍加速, PolarDB HTAP实时数据分析技术解密
简介: PolarDB MySQL是因云而生的一个数据库系统, 除了云上OLTP场景,大量客户也对PolarDB提出了实时数据分析的性能需求.对此PolarDB技术团队提出了In-Memory Col ...
- 400倍加速,PolarDB HTAP 实时数据分析技术解密
前言 最近分析型数据库在资本市场和技术社区都非常的火热,各种创业公司的创新型产品如雨后春笋般出现.这一方面是因为当前阶段企业日益依赖从数据中寻找增长潜力带来需求的增长,另一方面云原生技术的发展带来现有 ...
- 大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《实时数据分析:海量日志数据多维透视》篇...
实验背景介绍 了解更多2017云栖大会·成都峰会 TechInsight & Workshop. 本手册为云栖大会Workshop之<在线用户行为分析:基于流式计算的数据处理及应用> ...
- nginx+flume网络流量日志实时数据分析实战
文章目录 nginx+flume网络流量日志实时数据分析实战 网络流量日志数据分析-概述 网络流量日志数据分析-数据处理流程 网络流量日志数据分析-数据采集 网站日志文件 启动nginx服务器: 刷新 ...
最新文章
- android软件安全权威指南 pdf_AV-TEST 发布 2019 最佳 Android 安全软件榜单
- asp.net chart美化+绑定数据--饼图
- 在传统行业做数字化转型之最终篇
- 天气情况图像分类练习赛 第三阶段(赛中感)
- Latex设置字体大小
- 塔菲克蓝牙适配器驱动_小身材,大功能,biaze毕亚兹USB蓝牙适配器开箱体验
- python中selenium中使用ajax_Selenium测试Ajax程序(转)
- sort 、sorted、range、join方法 数字的正序、倒叙、翻转
- Leetcode-233-数字1的个数
- 中望lisp加密 浩辰_浩辰CAD2010的VLISP接口加载贱人工具箱
- apk编辑器android源码,APK编辑器
- django memery cache
- Variable used in lambda expression should be final or effectively final
- 教你用PS制作gif动态图
- TMI8150芯片驱动开发
- Webpack经典入门
- Linux报错: terminate called after throwing an instanc
- 电脑公司GHOST WIN7 装机旗舰版 2013 09
- Kali Linux 简介
- grafana启动失败 报错:Failed at step USER spawning /usr/sbin/grafana-server: No such process
热门文章
- Android项目管理依赖方式总结
- 苹果修改wifi密码登陆服务器密码,修改wifi密码后,手机还要设置吗?
- “边缘”当道,Aruba不仅有Wi-Fi,还有云原生交换机
- 为什么远程计算机没反应,谁能解释下远程计算机无反应是怎么个意思?
- 新年的第一个想法:中国地图拼图(青少年教育用)
- Linux shell命令中双引号与单引号嵌套的问题
- InstallShield安装与制作
- 金蝶EAS,列表界面ListUI数据过滤,按照财务组织数据隔离
- arduino笔记32:nRF24l01模块使用 电磁波频率 距离限制 掉电模式 热待机模式
- 转载:好的U盘启动工具集