海量数据存储面临的问题
海量数据存储面临的问题
- 海量数据存储面临的问题
- 成本高
- 性能低
- 可扩展性差
- 如何实现分布式文件存储
- 如何支撑高效率的计算分析
- 如何解决海量数据存储的问题
- 如何解决海量数据文件查询便捷问题
- 如何解决大文件传输效率慢的问题
- 如何解决硬件故障数据丢失问题
- 如何解决用户查询视角统一规整问题
- 分布式存储应具备的特征
海量数据存储面临的问题
成本高
传统存储硬件通用性差,设备投资加上后期维护,升级扩容的成本非常高。
例如:盘位满了,要换更多盘位的机器。3
性能低
单节点I/O性能瓶颈无法逾越,难以支撑海量数据的高并发高吞吐场景。
可扩展性差
无法实现快速部署和弹性扩展,动态扩容、缩容成本高,技术实现难度大。
如何实现分布式文件存储
如何支撑高效率的计算分析
传统存储方式意味着数据存储是存储,计算是计算,当需要处理数据的时候把数据移动过来(存储不动,数据移动
)。
程序和数据存储是属于不同的技术厂商实现无法有机统一整合在一起。
如何解决海量数据存储的问题
传统做法是单机存储,随着数据变多,会遇到存储瓶颈。
单机纵向扩展:
内存不够加内存,磁盘不够加磁盘,有上限限制,不能无限制加下去。多机横向扩展:
采用多台机器存储,一台不够就加机器。理论上可以无限。
多台机器存储也意味着迈入了分布式存储
。
如何解决海量数据文件查询便捷问题
当文件被分布式存储在多台机器之后,后续获取文件的时候如何能快速找到文件位于哪台机器上呢?
一台一台查询过来是不靠谱的。因此可以借助于元数据记录来解决这个问题。把文件和其存储的机器的位置信息记录下来,类似于图书馆查阅图书系统,这样就可以快速定位文件存储在哪一台机器上了。
如何解决大文件传输效率慢的问题
大数据使用场景下,GB、TP级别的大文件是常见的。当单个文件过大的时候,如何提高传输效率?
通常的做法是分块存储:
把大文件拆分成若干个小块(block简写blk),分别存储在不同机器上,并行操作提高效率。
此外分块存储还可以解决数据存储负载均衡问题。此时元数据记录信息
也应该更加详细:文件分了几块,分别位于哪些机器上。
如何解决硬件故障数据丢失问题
如何解决用户查询视角统一规整问题
namespace
也可以理解为文件夹的目录
分布式存储应具备的特征
海量数据存储面临的问题相关推荐
- 海量数据的传统存储面临的挑战,主要体现在哪几方面?
随着大数据.云计算.物联网等新技术的发展,电信.互联网.政企等行业应用日新月异,数据呈爆炸式增长并成为战略性资源.全球数据量每年约30%的速度递增,2020年达到惊人的40ZB. 面对海量数据,传统存 ...
- 华为发布全新一代OceanStor存储Pacific系列,打造海量数据存储新标杆
今天,华为面向全球发布全新一代海量数据存储OceanStor存储Pacific系列,通过打破架构.服务和性能的边界,以多协议无损互通.下一代弹性EC算法和系列化硬件,灵活应对AI.HPC.视频等海量数 ...
- 微信后台基于时间序的新一代海量数据存储架构的设计实践
本文作者腾讯WXG后台开发工程师jeryyzhang,收录时有改动,感谢原作者的分享. 1.引言 大约3年前,微信技术团队分享了<微信后台基于时间序的海量数据冷热分级架构设计实践>一文,文 ...
- 一起进阶学习JAVA:MySQL海量数据存储与优化
一起进阶学习JAVA:MySQL海量数据存储与优化 第一部分 分库分表实战及中间件 1.1 背景介绍 1.1.1 背景描述 刚开始我们的系统只用了 单机数据库 随着用户的不断增多,考虑到系统的高可用和 ...
- 存储面临的问题及挑战
硬件和存储 硬件发展的6个规律 数据发展的规律 图灵奖获得者Jim Gray提出经验定律:网络环境下每 18 个月产生的数据量等于有史以来数据量之和.(到目前为止,数据的增长基本满足这个规律) 结论: ...
- 【演讲实录】分布式数据库海量数据存储和实时查询实现与应用
节选自OSC深圳源创会 演讲速记 分享嘉宾:巨杉数据库技术总监 乔国治 巨杉数据库,核心产品是SequoiaDB巨杉数据库.是我们的团队完全从零开始研发的.巨杉数据库是商业数据库,同时我们本身也将 ...
- vivo 云服务海量数据存储架构演进与实践
一.写在开头 vivo 云服务提供给用户备份手机上的联系人.短信.便签.书签等数据的能力,底层存储采用 MySQL 数据库进行数据存储. 随着 vivo 云服务业务发展,云服务用户量增长迅速,存储在云 ...
- 浅析MongoDB数据库的海量数据存储应用
[摘要]当今已进入大数据时代,特别是大规模互联网web2.0应用不断发展及云计算所需要的海量存储和海量计算发展,传统的关系型数据库已无法满足这方面的需求.随着NoSQL数据库的不断发展和成熟,可以较好 ...
- [转载] 新兵训练营系列课程——海量数据存储基础
原文: http://weibo.com/p/1001643874615465508614 微博平台研发作为微博的底层数据及业务支撑部门,已经经历了5年的发展历程.伴随着从数据及业务暴发式增长,我们在 ...
最新文章
- C#串口上位机软件--IOT串口调试精灵
- 免费素材下载:Box Of Bundles Number 2
- 【GVA】gin gorm多对多many2many更新数据时级联更新关联表数据的正确写法
- 统计整数n的二进制表示中1的个数
- 转:Openflashchart笔记
- hibernate11--Criteria查询
- php 列表收缩展示插件,可展开和收缩的jquery FAQ问答列表特效
- adboost,随机森林,gbdt,xgboost,lightgbm区别
- java需要了解的几个算法
- VUE使用benz-amr-recorder 实现解码、播放
- 动画专业考一级计算机选什么语种,想成为一名出色的动画设计师吗?去美国纽约视觉艺术学院读计算机动画与视觉效果本科专业准没错!...
- 张亚勤、刘慈欣、周鸿祎、王飞跃新书推荐,《崛起的超级智能:互联网大脑如何影响科技未来》...
- Imu_heading使用
- EverEdit使用正则替换
- python 合并文件夹内所有Excel文件 xslx
- python 提取一个单词的所有字母_如何用python提取单词(正则表达式or分割)
- 【Verilog】时序逻辑电路 -- 程序设计与应用
- (精品)基于Web的酒店客房管理系统的设计与实现毕业论文+开题报告+项目源码(SSM)及数据库+查重报告
- 关于使用网页做托福TPO在chrome上没有声音,找不到autoplay-policy
- js 递归算法将扁平数据处理成树状数据
热门文章
- 实验三 LZW编解码算法实现与分析
- ​sklearn专题五:用逻辑回归​制作评分卡
- Crystal.Ball.Professional.v7.3.1 1CD(帮助理解风险的大小并帮你做出较好的决策)
- MATLAB常见非线性可视化绘制方法-相图与相空间(二维线性相图与非线性相空间)
- python 循环引用的解决方法
- zabbix介绍和安装
- 腾讯云局域网 深信服easyconnect + 端口映射实现vpn共享
- 软件工程师也要懂的硬件知识(二极管、三极管、MOS管)
- aarch64-linux-android-gcc: error: unrecognized command line option '-mfloat-abi=softfp'
- jstack命令(Java Stack Trace)