随着人工智能、机器学习领域技术的持续进步,以及国家“新基建”战略的推进,新的技术和应用,加快了传统行业数字化转型,数据呈几何级增长。海量数据在被分析、挖掘中创造出无限价值。

互联网企业纷纷对数据存储和管理,出重金加大数据中心的建设,阿里投2000亿用于云操作系统、服务器、芯片等技术的研发事项,以应对海量数据的到来,腾讯乘胜追击出资5000亿……,存储技术是这场“数据战”中的核心问题。随着物联网、人工智能、5G的迅速发展,预测到2023年,存储架构中或40%都是分布式架构。

分布式存储架构

分布式存储最早是由谷歌提出来的,其目的是解决大规模以及高并发场景下,高效Web访问问题。

分布式存储就是将用户需要存储的数据,存储到不同的存储服务器中,利用多台存储服务器分担存储压力,将这些分散的存储空间,作为一个虚拟的数据存储设备,当用户想要获取数据时,按照规则把数据从对应的磁盘空间中取出来。简单来说,可以理解为,大量PC机通过网络互联,对外作为一个整体提供存储服务。

分布式存储的必要性

一个存储方式的优越性,在于其本身对于各种数据的存取表现,关于数据存储有这样几个点:

海量:大数据背景下,海量数据涌现,数据显示2025年全球新创数据达175ZB。
多元:文本、图片、视频等非结构化的数据,对数据存储提出考验
实时:如交通自动驾驶这样的智能网络场景,需要依赖快速实时的数据采集、分析、存储。
上云:未来将有大多数的企业会选择多云部署模式。
空间:目前只有约0.2%的数据,被用于数据分析,说明我国在数据存储方面的能力存在缺口。

分布式存储的几大提升

1、高性能
分布式存储将热点区域数据投射到高速存储中,当这些区域不再是热点区域的时候,那么系统会自动将他们移除高速存储,以此来减少反应时间。

2、支持分级存储
因为分布式存储是通过网络进行耦合连接的方式,分布式存储可以将高速存储和低速存储分开来部署。在不可预测的使用场景下或者对实时要求较高的应用情况下,这种分级存储的方式解决了提取数据延迟高,从而造成整体性能抖动的问题。

3、弹性扩展
因为网络强大的扩展性,分布式存储可以弹性扩展存储容量,理论上节点可以扩充到几千个,并且节点扩展后,旧的数据会自动的迁移到新节点,让整体负载更加均衡,避免单点过热的情况。

4、存储系统标准化
分布式存储,多采用行业标准接口进行存储。通过将异构存储资源抽象化,将操作封装成面向存储资源的操作,从而实现了存储资源的集中管理,并且能自动执行创建、回收、变更等整个存储流程。这样用户可以实现跨不同介质的进行容灾,从而降低存储采购。

5、可应对云存储和大数据的发展
移动端的存储空间有限,且在多个设备之间共享资源的需求很频繁,所以网盘、云相册等云存储流行了起来,云存储的核心其实还是后端的大规模分布式存储。大数据则更进一步,除了需要存储海量的数据,还需要通过工具对这些数据进行分析,这都离不开分布式存储。除此之外,其实互联网后端架构也和分布式存储相关,掌握了它,对于其他技术的理解也很有帮助。

分布式数据存储三要素

1、数据种类

我们需要存储的数据,通常分为三类:

结构化数据
通常是指数据之间有很强的关联性的数据,比如姓名、性别、年龄等,是由二维表结构来进行逻辑表达和实现,颜色遵循数据格式和长度规范。一般采用分布式关系数据库进行存储和查询。

半结构化数据
所谓半结构化数据,是介于结构化数据和非结构化数据之间的数据类型,它是结构化的数据,但是结构变化很大。比如HTML文档,半结构化数据大多可以采用键值对形式来表示。一般采用分布式键值系统进行存储和使用。

非结构化数据
突破了关系数据库不易改变和数据定长的限制,其特征是数据之间关联不大。文本内容、报表、视频这些都属于非结构化数据。通过ElasticSearch进行检索。

2、数据分片和数据复制

数据分片,具象的说,是将一个数据分为两个或者多个小块,分片间不共享任何的服务器资源。将数据存储到相对应的存储节点中,或者到相对应的存储节点中获取想要的数据。其好处就是可以帮助促进水平扩展,同时帮助加速查询响应的时间,降低延迟,提升用户体验。

当在某个节点出现故障时,如果这时只采用了分片技术,那这个节点的数据很可能就会丢失,所以,数据复制在分布式存储系统中是不可缺少的。实际中,在分布式存储系统中,数据分片和数据复制通常共存。

3、存储数据

针对三种不同类型的数据,有三种对应的存储方式:

分布式数据库,通过表格存储结构化数据。常用的分布式数据库有 MySQL Sharding、Microsoft SQL Azure、Alibaba OceanBase 等。

分布式键值系统,通过键值对来存储半结构化数据。常用的分布式键值系统有 Redis、Memcache 等。

分布式存储系统,通过文件、块、对象等,存储非结构化的数据。常见的分布式存储系统有 Ceph、GFS、Swift 等。

了解更多~

大数据背景下的分布式存储相关推荐

  1. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  2. 【2016年第2期】大数据背景下的治理现代化:何以可能与何以可为(下)

    4  大数据时代治理现代化: 何以可为 大数据确实给国际治理现代化带来了诸多机遇,同时也带来了诸多挑战,比如数据暴力和数据鸿沟.数据隐私的泄漏.数据质量难以保证等.人们需要思考的是推进治理现代化应何以 ...

  3. 【2016年第2期】大数据背景下的治理现代化:何以可能与何以可为(上)

    刘强强,石乾新 贵州大学公共管理学院,贵州 贵阳 550025 摘要:大数据是后工业社会中信息爆炸式增长和网络计算技术迅速发展的结果.大数据时代深刻地改变着现代社会的生活方式和治理理念.分析了公共治理 ...

  4. 写一篇大数据背景下室内设计的论文

    随着科技的进步,大数据已经成为室内设计的重要工具.本文将探讨室内设计如何利用大数据来提高设计效率和质量,以及如何在大数据背景下实现室内设计的智能化.首先,介绍了大数据的概念和室内设计的基本内容,然后分 ...

  5. 大数据背景下的智慧物流:物流行业解决方案

    大数据背景下的智慧物流: 物流行业发展迅速,生产制造企业对其物流的要求越来越高,无论是2B业务还是2C业务,均要求全程的透明可视.物流业务逻辑复杂,存在大量数据孤岛.且物流数据可视化要求高,报表要求也 ...

  6. 大数据背景下的信息资源管理

    摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的"大数据"时代,在我们的各个方面都产生了深远的影响.大数据是数据分析的前沿技术.简言之,从各种各样类型的数据中,快 ...

  7. 学界 | 大数据背景下,景观研究怎么做?

    在这篇文章的开头,在下并不想将很多有关于大数据景观的大概念和大理论摆出来,因为并不直观也很难理解,所以,直接想给大家分享两个案例,之后我们在逐步深入说明: 巴塞罗那大时代--用展现来强化文化遗产和社会 ...

  8. 大数据背景下网络信息安全分析探讨

    大数据背景下网络信息安全分析探讨 刘松溢 (华北理工大学 河北省唐山市曹妃甸区华北理工大学063210) 摘要:在经济快速发展的今天,大数据技术已被广泛地运用于社会生活中,这些技术的应用给人类的生产和 ...

  9. 浅谈大数据背景下数据库安全保障体系

    现阶段大数据产业的快速发展创造了极大的经济效益,大数据的出现推动了社会经济发展,但是随之而来的数据库安全问题也引起了学者对大数据信息安全问题的反思.大数据时代下的信息与隐私安全问题已经成为全球性重点关 ...

最新文章

  1. JBOSS 5.0GA 配置布署
  2. VTK修炼之道13:数据读写_图像数据的读写
  3. CORS 跨域 实现思路及相关解决方案(转:http://www.cnblogs.com/sloong/p/cors.html)
  4. SQL取出第 m 条到第 n 条记录的方法
  5. php mysql int string_mysql查出的 int 型字段都是 string
  6. 走近科学,探究阿里闲鱼团队通过数据提升Flutter体验的真相
  7. graphql tools_声明式GraphQL:编写更少的代码,并使用graphql-tools完成更多工作
  8. 《盘点那些秀你一脸的秒天秒地算法》(1)
  9. 面向人工智能“新基建”的知识图谱行业白皮书
  10. 吉利、LG化学成立合资公司 从事电动车电池生产及销售
  11. 背景减法——自组织算法
  12. Wireshark实战分析之IP协议(二)
  13. iOS几款实用的工具类demo
  14. java 定时任务注解
  15. Unity adb环境变量配置
  16. 毕业论文答辩技巧及注意事项(附答辩自述模板)~
  17. linux 清除终端记录,清除Linux终端命令的历史记录
  18. otl c mysql_OTL
  19. java 日期 面试题_Java面试试题日期和时间
  20. GIS(地理信息系统/地理信息科学)怎么评职称?

热门文章

  1. 永磁同步电机矢量控制(FOC)之:电压前馈补偿型电流控制方案
  2. 代码随想录第25天 | 216. 组合总和III、17. 电话号码的字母组合
  3. 使用阿里云ECS构建微信公众号管理系统
  4. php flot,php-使用mysql和ajax用FLOT绘制图形
  5. iOS学习—设置启动页停留时间
  6. 《白话统计》学习笔记之方差分析与变异分解
  7. python爬虫实例——基于python实现有道云翻译接口
  8. SpringBoot项目静态图片加载浏览器不显示问题解决方案
  9. IC卡的传输协议(3)【转】
  10. Oracle 11g r2安装入门