**

浅读3篇Google相关论文观后感

**

第一次读到这种论文使我震撼。数不清的学术性词汇,如此之长的篇幅。虽然觉得学术性论文枯燥无味,但还是坚持看完了。读完之后的第一感觉就是“太过于专业”,太多太多未知领域,为此还不停地去百度一个个词汇具体指什么…

第一篇讲的是GFS(谷歌分布式文件系统),分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。GFS基于普通的分布式文件系统,逐步发展延伸,完全满足了我们对存储的需求。GFS作为存储平台已经被广泛部署在Google内部,存储我们的服务产生的数据,同时还用于那些需要大规模数据集的研究和开发工作。他们认为有些组件失效是常态事件。因为访问的人数规模大,数据交互量大,任何给定时间都有可能发生某些组件无法工作,比如程序bug,人为失误等等。所以,持续的侦察,错误侦测,灾难冗余以及自动恢复的机制必须集成在GFS中。
感觉设计这种系统好难,论文里提到设计极具挑战性。文件系统的读有两种操作:大规模流式读取和小规模的随机读取。一个是通常读取数百KB的数据,一次读取1MB更为常见;另一种是在文件某个随机位置读取几个KB数据。系统的工作负载还包括大规模的,顺序的,数据追加的写操作。不是仅限于读取,写入也是一种需要掌握的技术。同事需要高性能的稳定网络带宽来维持高速率,大批量的数据处理。GFS提供的API接口函数,使文件以分层目录的形式组织,用路径名来标识,支持常用的操作比如创建文件。GFS额外提供了快照和记录追加的操作。
接下来的构架实在难懂,master节点,chunk服务器,甚至Linux机器、文件(我只知道有Linux系统),还有几张框架图,即便4级分数不错但还是有严重的阅读障碍!第一次听说“元数据”这个名词,特意去查了一下,搜狗给的解释指出了他的工作:用来支持如指示存储位置,历史数据,资源查找,文件记录等等。元数据在master服务器中使其拥有非常快的操作速度。在GFS集群中,读取速率高于写入速率,最高峰值可以达到1.3GB/s!
和其他的大型分布式文件相比,GFS是把文件分部存储到不同的服务器上,这是为了提高整体性能以及灾难冗余的能力。不过有个缺点就是要比xFS或者Swift占用更多的裸存储空间。
GFS 成功的实现了我们对存储的需求,在 Google 内部,无论是作为研究和开发的存储平台,还是作为生产系统的数据处理平台,都得到了广泛的应用。它是我们持续创新和处理整个 WEB 范围内的难题的一个重要工具。

第二篇讲的是Google BigTable,一个分布式的结构化数据存储系统,被用来处理海量数据。虽然Google接触的少,但是Google里面的web索引、Google earth、Google finance等等项目都在使用BigTable存储数据!虽然那些应用对BigTable提出的要求差异非常大,但是BigTable还是成功的提供了一个灵活的、高性能的解决方案。不得不佩服BigTable!论文描述了BigTable提供的简单的数据模型,利用模型用户可以动态的控制数据的分布和格式,文章还描述BigTable的设计和实现。
BigTable已在60个Google的产品和项目上的到了应用!BigTable是一个稀疏的,分布式的,持久化存储的多维度排序Map。随着时间的推移,他们可以根据自己的系统对资源的需求增加情况,通过简单的增加机器,扩展系统的承载能力。

最后一篇讲的Google MapReduce,MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。过去的好多年里,许多程序员为了处理海量的原始数据,已经实现了数以百计的,专用的计算方法,比如文档抓取(类似网络爬虫的程序)。我对爬虫略有了解,目的按要求过去万维网信息。MapReduce 编程模型在 Google 内部成功应用于多个领域。我们把这种成功归结为几个方面:首先,由于MapReduce 封装了并行处理、容错处理、数据本地化优化、负载均衡等等技术难点的细节,这使得 MapReduce库易于使用。我们也从 MapReduce 开发过程中学到了不少东西。首先,约束编程模式使得并行和分布式计算非常容易,也易于构造容错的计算环境;其次,网络带宽是稀有资源。大量的系统优化是针对减少网络传输量为目的的:本地优化策略使大量的数据从本地磁盘读取,中间文件写入本地磁盘、并且只写一份中间文件也节约了网络带宽;第三,多次执行相同的任务可以减少性能缓慢的机器带来的负面影响(alex 注:即硬件配置的不平衡),同时解决了由于机器失效导致的数据丢失问题。

三篇论文紧密联系,从文件管理到数据处理再到数据算法,在文字向我们展示了Google可以简单的操控大数据,为自己为网民提供便捷。随着时间的推移,这些系统模型会逐步完善加强,功能变得更加强大,速度只会也来越快!
整个世界可以说是由数据组成,所以,我们是应该好好学习数据,借大数据看向未来。我们离不开数据,大数据或许可以改变未来!!

浅读3篇Google相关论文观后感相关推荐

  1. 顶会快讯|5篇AAAI2020相关论文抢先看(附GitHub代码地址)

    Top AI Papers with Code 整理:Marlin 内容:5篇AAAI论文简介+GitHub地址 本文继续整理了AAAI 2020在Github的热门项目,并按照整理时star的数量进 ...

  2. 超干货!一位博士生80篇机器学习相关论文及笔记下载

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自:新智元 好像很多人都觉得读论文做笔记是一件非常正确.重要.且必 ...

  3. WWW 2021有哪些值得读的图机器学习相关论文?

    WWW (这两年改名叫TheWebConf了) 会议是由图灵奖得主Tim创办的学术会议,内容涵盖互联网相关的一切主题.中国计算机协会将其认证为CCF-A类顶级会议,难度极大.中一篇吹一年. 本文梳理W ...

  4. 论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展

    本文转载自公众号:PaperWeekly. 精选 5 篇来自 ICLR 2019.WSDM 2019.EMNLP 2018.CIKM 2018和IJCAI 2018 的知识图谱相关工作,带你快速了解知 ...

  5. CV圈太卷了!继谷歌提出MLP-Mixer之后,清华、牛津等学者又发表三篇MLP相关论文...

    作者 | 琰琰.陈大鑫 编辑 | 刘冰一 5月4日,谷歌团队在arXiv上提交了一篇论文<MLP-Mixer: An all-MLP Architecture for Vision>,引起 ...

  6. CIKM2020 | 最新9篇推荐系统相关论文

    来自 | 专知&知乎 链接 | mp.weixin.qq.com/s/QpwExdQi_lLvH26wvWqmEA 链接 | https://zhuanlan.zhihu.com/p/1816 ...

  7. CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者 | 琰琰.陈大鑫 编辑 | 刘冰一 5月4日,谷歌团队在arXiv上提交了一篇论文<MLP ...

  8. 今日arXiv精选 | 近期必读的5篇Transformers相关论文

     关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. Fastformer: Additive Attention is All ...

  9. 读彬彬有礼压缩感知相关论文笔记3——沙威程序解读

    沙威的程序之前就运行过,也仔细通读过,依靠读程序进一步加深了对压缩感知的了解. 但是,再读彬彬有礼的Rachel_Zhang的"压缩感知"之"HelloWorld&quo ...

  10. Fuzzing相关论文阅读笔记(一)

    前言 ​ 之前从网上一个博主的博客里面看到有关论文阅读记录的博文,博主在看完每一篇论文后都会进行相关总结和思考记录.个人觉得这是个不错的习惯,遂学习了下,刚好对最近看的几篇论文进行简单的记录. 论文总 ...

最新文章

  1. GCC 链接 xxx:No such file or directory 及运行可执行文件 error while loading shared libraries: xxx.so 解决方案
  2. xmppframework for iOS client (一) XMPPFramework环境配置
  3. java set 接口_【Java提高十七】Set接口集合详解
  4. 查看mysql8的log位置
  5. 卧龙吟游戏服务器不显示,卧龙吟你必须知道的隐藏特性
  6. OpenCv学习笔记(二)--Mat矩阵(图像容器)的创建及CV_8UC1,CV_8UC2等参数详解
  7. 面向对象2(待补充)
  8. 你的个人信息是如何被盗走的?MySQL脱库,脱库的原理,怎么脱库,脱库的步骤,一库三表六字段
  9. OpenStack对象存储——Swift
  10. 如何使用ArcGIS Pro制作三维地图
  11. “商圈合伙人”让异业联盟无边界化,打造共赢生态圈
  12. 弦图(Echarts)
  13. java excel 数组公式_Excel数组公式怎么使用? Excel数组公式计算的实例教程
  14. MATLAB----小波去噪
  15. 【laravel】切换语言包 中文,英文
  16. javaFX2.0场景(Scene)分析及使用,多场景切换实现
  17. Medium之1468.计算税后工资
  18. css border:solid实线,dashed虚线;dotted点状,,double双线
  19. centos 更改java版本_centos7更换jdk版本
  20. Elasticsearch X-Pack许可证过期解决办法

热门文章

  1. Miracast技术详解(四):Sink源码解析
  2. 利用Seetaface人脸识别做(在视频中应用人脸识别比对信息)
  3. Linux 磁盘管理及磁盘分区(主分区、扩展分区、逻辑分区)
  4. Badge分析 如何逼死处女座
  5. 国家开放大学计算机课程作业,国家开放大学《计算机应用基础》(专)课程作业评讲(3)...
  6. 深入推荐引擎1:亚马逊产品推荐系统
  7. 全面介绍机器学习基础知识:包括它的原理、应用场景、优缺点等
  8. opencv puttext 文本框填充颜色
  9. Android TV添加遥控按键的整体流程方法
  10. OFDM发射机与接收机的matlab实现