通过生命周期管理来做热数据到冷数据的迁移
测试的时候 JuiceFS1.0 还没有发布,测试的过程中确实发现了问题,在实时写的过程中会出现了数据损坏的情况,跟社区沟通后可以通过修改缓存的大小来避免:
–attr-cache=0.1 属性缓存时长,单位秒 (默认值: 1)
–entry-cache=0.1 文件项缓存时长,单位秒 (默认值: 1)
–dir-entry-cache=0.1 目录项缓存时长,单位秒 (默认值: 1)
这三个参数的缓存默认是 1,把时长改成 0.1,它确实解决了索引损坏的问题,但是会带来一些新的问题,因为元数据的缓存和数据缓存的时间变短,会导致在执行系统命令的时候,比如 curl 一个系统命令,查看索引数量或者集群状态,正常的情况下,调用可能在秒级,而这种变化可能导致需要数 10 秒才能够完成。
第二个问题就是写入的 QPS 有明显下降。我们可以看到监控图中 Write QPS 非常不稳定,这并不代表 ES 真实的 QPS,因为监控图中的 QPS 是通过两次得到的 documents 数量来做差得到的,由于旧版 JuiceFS 存在一些内核缓存问题,导致 ES 读到了一些旧数据。我们把该问题反馈给了社区, JuiceFS 1.0 正式发布后问题得到解决。
我们就进行了新一轮的测试,新一轮的测试确定了 hot 节点 3 台,8C16G 500G SSD, warm 节点 2 台,4C16G 200G SSD,测试时长 1 周,每天写入数据量 1TB (1 副本),1 天后转到 warm 节点 。没有再出现索引数据损坏情况,通过这次压测没有再出现之前遇到的问题,这就给了我们信心,接下来我们把整个的 ES 逐渐的往这方面来做迁移。
JuiceFS 数据存储和对象存储的差异
JuiceFS 有自己的元数据,所以在对象存储上和 JuiceFS 当中看到的目录结构是不一样的。
JuiceFS 分为三层结构,chunk、slice、block,因此我们在对象存储上面看到的是 JuiceFS 对文件做拆分之后的数据块。但是所有的数据是通过 ES 来管理,所以这一点用户不需要关注,只需要通过 ES 来执行所有的文件系统操作即可。JuiceFS 会恰当管理对象存储中的数据块。
经过这一系列的测试后, 金山云将 JuiceFS 应用在日志服务( Klog)中,为企业用户提供一站式日志类数据服务,实现了云上的数据可以不出云,直接就完成数据采集,存储分析以及告警的一站式服务;云下的数据提供了 SDK 客户端,通过采集工具来实现数据上云的整个整条链路,最后可以把数据投递到 KS3 和 KMR,来实现数据的加工计算。
03 Elasticsearch 冷热数据管理
ES 有几个常用概念: Node Role 、Index Lifecycle Management 、 Data Stream。
Node Role,节点角色。每一个 ES 节点会分配不同的角色,比如 master、data、ingest。重点介绍一下 data 节点,老版本是分为三种,就是 hot、warm、cold 节点,在最新的版本里面增加了 freeze ,冷冻节点。
Index Lifecycle Management(ILM)我们分为了 4 个阶段:
hot: 索引正在被频繁更新和查询。
warm: 索引不再被更新,但查询量一般。
cold: 索引不再被更新,并且很少被查询。这些信息仍然需要可搜索,但如果查询速度较慢也没关系。
delete: 索引不再需要,可以安全地删除。
ES 官方提供了一个生命周期的管理工具,我们可以基于索引的大小,docs 数量的大小以及时间策略,把一个大的索引拆分成成多个小索引。一个大索引从管理运维查询,它的开销的代价是非常大的。生命周期管理功能方便我们更灵活地管理索引。
Data Stream 是在 7.9 版本提出推出了一个新功能,它是基于索引生命周期管理来实现了一个数据流写入,可以很方便地处理时间序列数据。
在查询多个索引时,通常是把这些索引合并在一起来查询,我们可以使用 Data Stream,他就像一个别名一样,可以自行路由到不同的索引里面。Data Stream 对时序数据的存储管理和查询来说更友好,这个是来对 ES 的冷热管理上面是来更近了一步,方便整个的运维管理。
通过生命周期管理来做热数据到冷数据的迁移相关推荐
- oracle12c生命周期,Oracle 12c 新特性之: ILM 数据生命周期管理
张乐奕 云和恩墨副总经理,Oracle ACE总监,ACOUG 联合创始人 ILM 全称是 Information Lifecycle Management,意思是信息生命周期管理,听上去很高端洋气的 ...
- es对日志数据进行索引生命周期管理
前言 在采用ELK分布式日志采集平台的时候,一般都会采用ES来存储采集的日志信息.日志信息一般都是持续增长的,是典型的时序数据. 如果不对采集的日志数据做生命周期管理,很容易导致单个索引体积持续增长. ...
- 从数据备份保护到完整生命周期管理平台,爱数全新发布 AnyBackup Family 8
编辑 | 宋慧 出品 | CSDN 云计算 从2003年创业,开始做数据备份技术,爱数已经走过了近20年的时间.现在,数据的价值被越来越多的业界与用户看到,数据分析应用赛道近年一直持续火热.而现在的爱 ...
- Oracle 12c 新特性之: ILM 数据生命周期管理
张乐奕 云和恩墨副总经理,Oracle ACE总监,ACOUG 联合创始人 ILM 全称是 Information Lifecycle Management,意思是信息生命周期管理,听上去很高端洋气的 ...
- 从全生命周期管理角度看大数据安全技术研究
从全生命周期管理角度看大数据安全技术研究 李树栋1,2, 贾焰2, 吴晓波3, 李爱平2, 杨小东4, 赵大伟5 1. 广州大学网络空间先进技术研究院,广东 广州 510006 2. 国防科技大学计算 ...
- 热温冷冰,数据存储需要全生命周期管理
随着云计算.大数据等新兴应用广泛普及,业务数据呈现爆炸式增长,海量数据的高效访问.经济存储和智能管理变得越来越重要. 从数据生命周期来看,在数据刚生成并使用时,属于在线数据,在线数据访问的频率最高,数 ...
- 大数据将改变信息生命周期管理
时至今日,虽然信息生命周期管理(ILM)这个概念不再被常常提及,但是ILM的理念已经深入人心,成了指导企业用户实施数据分层存储及管理的核心原则.昆腾公司全球大数据业务高级副总裁Janae Lee表示: ...
- PPT 下载 | 神策数据孙文亮:客户全生命周期管理从方法到实践全解析
在以"场景赋能·驱动有数"为主题的神策 2018 数据驱动大会现场,神策数据技术经理孙文亮发表了名为<客户全生命周期管理从方法到实践>的主题演讲. 温馨提示:点击文末阅 ...
- 【Elasticsearch】使用索引生命周期管理实现热温冷架构
1.概述 [Elasticsearch]Elasticsearch 索引生命周期管理 转载:使用索引生命周期管理实现热温冷架构 索引生命周期管理 (ILM) 是在 Elasticsearch 6.6( ...
最新文章
- 深入浅出Redis五种基本数据类型
- python编写通讯录管理系统_一个简单的python程序实例(通讯录)
- 索尼爱立信M608C使用心得!
- springboot动态数据源切换(多数据源配置)
- (vue基础试炼_02)使用vue.js实现隔2秒显示不同内容
- Linux如何清除last信息,linux清除last、lastb和history记录
- 瑞幸咖啡业绩造假22亿:市场监管总局罚款1000万
- 二叉树层次遍历c语言_每日一道 LeetCode (23):二叉树的层次遍历 II
- apipost脚本使用二
- 马云后悔创办阿里:想停根本停不下来;人民日报评“滴滴顺风车争议”;jQuery 曝漏洞|极客头条...
- access insert语句怎么写_被缠上了,小王问我怎么在 Spring Boot 中使用 JDBC 连接 MySQL
- 最详细的JavaScript教程(高级篇),深入学习JavaScript
- MOS管防倒灌电路设计及其过程分析
- 卡西欧计算机能开根号吗,考研计算器怎么开根号
- python圣诞节快乐_圣诞节快乐,利用Python给自己的微信头像添加一个圣诞帽
- 三种存储类型:块存储、文件存储、对象存储
- uniapp之小程序端生成分享海报(带自定义参数的二维码)
- 考研时间安排和考研内容
- 企业经营数据的质量及其八个指标
- raid卡缓存对硬盘性能_告诉你NAS究竟用不用RAID?万兆网络下NAS读取写入实测分...
热门文章
- ChatGPT文章生成器,批量生成网站文章脚本汇总说明!
- 管理信息系统案例分析_「案例」MES系统助力华联电子仓库工作人员效率提高30%...
- 3亿颗市场规模逐鹿,国产Zigbee芯片盘点
- KMP常见问题及解决方法【Z】
- 65.RocketMQ
- 我的新浪微博http://t.sina.com.cn/kaiwenli
- 【PHP框架 | Laravel8 系列1】 - Composer 安装指定 Laravel 版本
- 某数字安全卫士的软件管家提取版
- 数字减影血管造影系统
- 论文笔记:Large Deformation Diffeomorphic Image Registration with Laplacian Pyramid Networks