在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

体系结构

后端数据存储

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

AIRBNB的数据基础结构

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

数据管道结构图

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:

Pinterest商业数据分析结构图

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

信息流接收

存储

批处理计算

加速计算

总览

Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

Keen IO 信息处理结构图

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

感谢!

感谢团结一致的数据工程界,不断发明新的数据技术、开源,并分享他们的知识。如果没有这么多工程队伍的基础工作,没有与我们天天一起合作的人,我们的团队也不可能有今天。欢迎各方的意见和反馈。

特别感谢文章中提到的的作者和建筑师:Netflix的Steven Wu,Facebook Presto、AirbnbEng和Pinterest的工程师Martin Traverso,以及Crashlytics Answers的Ed Solovey。

感谢编辑Terry Horner,Dan Kador,Manu Mahajan和Ryan Spraetz的帮助。

翻译来自:虫洞翻翻   译者ID:王炜   编辑:郝鹏程

在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

体系结构

后端数据存储

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

AIRBNB的数据基础结构

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

数据管道结构图

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:

Pinterest商业数据分析结构图

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

信息流接收

存储

批处理计算

加速计算

总览

Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

Keen IO信息处理结构图

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

感谢!

感谢团结一致的数据工程界,不断发明新的数据技术、开源,并分享他们的知识。如果没有这么多工程队伍的基础工作,没有与我们天天一起合作的人,我们的团队也不可能有今天。欢迎各方的意见和反馈。

特别感谢文章中提到的的作者和建筑师:Netflix的Steven Wu,Facebook Presto、AirbnbEng和Pinterest的工程师Martin Traverso,以及Crashlytics Answers的Ed Solovey。

感谢编辑Terry Horner,Dan Kador,Manu Mahajan和Ryan Spraetz的帮助。

翻译来自:虫洞翻翻译者ID:王炜 编辑:郝鹏程

Facebook、亚马逊等巨头是如何建造自己的数据库的?| 全球聚焦相关推荐

  1. 经济学人:谷歌、亚马逊等巨头有数据技术优势,会接管麦肯锡、波士顿咨询手中业务

    人力资源的教育 其实人力资源(HR)部门这个名字起得很差.除了劳累过度的员工.笨重的技术和成堆的员工手册之外,这个部门没什么别的资源了. 受到各种干扰的招聘人员必须要对远超出岗位需求的申请人进行排序. ...

  2. 亚马逊云科技帮助SHOPLINE,服务中国卖家走向全球

    2020年8月,SHOPLINE获得欢聚集团的2000万美元融资,这笔资金公司将用于把业务拓展至东南亚地区,这也让更多中国用户开始逐渐认识这家颇为低调的跨境电商公司.目前,SHOPLINE已经创造出了 ...

  3. 星巴克、苹果、谷歌、亚马逊等巨头,为何同时做这件事?

    综合整理|<中国企业家>记者 周夫荣 编辑|马吉英 摘要:除了星巴克之外,苹果.谷歌.亚马逊等高科技公司也早已在可持续能源领域悄然布局.除了经济原因和社会责任,这些公司或许有更深远的考量. ...

  4. 风景这边独好的AI大年,百度亚马逊等巨头第一季度成绩单怎么样?

    苹果春季新品发布会邀请函 来源:遇见人工智能 该来的还是来了,但是那又如何? 这句话是送给苹果的.本以为这个季度不会再有新品发布的苹果,却用一张主打"同学们,来次课外活动吧"的神奇 ...

  5. 亚太成为第一季度全球存储市场唯一增长地区;亚马逊云科技在中国区域推出Amazon ECS Anywhere | 全球TMT...

    行业观察 Gartner公布2021年第一季度全球存储市场报告,报告显示,一季度全球存储市场销售额317亿元,出货量7.5万台,同比下滑2%.5%.受新冠疫情影响,企业存储市场在全球各地区的表现喜忧参 ...

  6. 亚马逊成人用品巨头日本Aivrobta品牌要在今年进军中国市场了

    大家好,我是爱自嗨大浪哥.今天我讲一下日本Aivrobta飞机-杯品牌.我第一次接触Aivrobta是在大连上大一的时候,2008年底左右. 怎么接触到?大家都知道大连的日本风非常浓郁,特别是ACG文 ...

  7. 每日新闻丨华为被拘留前员工再回应;亚马逊云发布量子计算服务Braket预览;硅谷“六巨头”10年避税超千亿美元...

    趋势洞察 工信部:前10月规模以上互联网业务收入9902亿元 同比增21% 工信部发布的数据显示,1-10月,我国规模以上互联网和相关服务企业完成业务收入9902亿元,同比增长21%,增速同比提高3个 ...

  8. 贝索斯专访:亚马逊帝国大规模业务转型的秘诀

    来源:机器之能 摘要:这篇文章简明.清晰地揭示出这家似乎没有边界.无拘束公司成功「转身」背后的逻辑与秘诀. 与美国的其它科技业巨头不同,亚马逊并没有一个总的企业园区. 在其全球的 57.5 万名雇员中 ...

  9. 亚马逊10000人大裁员已启动!谷歌绩效强制打低分跟风「毕业潮」

      新智元报道   编辑:好困 Aeneas [新智元导读]硅谷裁员接力的下一棒,今天落到了亚马逊手里. 最近,硅谷大厂们轮番上演「毕业」大戏. 推特.Meta.Salesforce.Stripe等大 ...

  10. 解读亚马逊新财报:AWS增速放缓,数字广告能否接过增长重担?

    ​作为全球知名的电商巨头,亚马逊的电商业务在全球都有它的身影,主业务的营收实力也成就了它在电商领域的霸主地位.只是随着电商业务增速放缓,外界也自然担忧亚马逊的营收能力会受到影响.4月25日,亚马逊对外 ...

最新文章

  1. 孟天广做客社科大讲堂 阐释计算社会科学发展与文理交叉
  2. 【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第1章-绪论
  3. 数据中心着火,工程师用嘴一吹就灭了?
  4. 1.Hadoop的学习(Linux的基础命令)
  5. 任重道远——记2016暑假训练
  6. AVR单片机计算器C语言源程序,AVR单片机简单计算器的Proteus仿真实现+源码
  7. php创建多级栏目_用PHP实现多级树型菜单
  8. Python与JavaWeb的第一次碰撞
  9. citirx for wincor configuration (citrix 7.5 setup with WI)
  10. Neo4j数据导入与可视化
  11. 标准为先、产业当道,这次大会“探云”深刻……
  12. Android证书签名生成
  13. c 语言可以直接调用max,c语言宏定义函数如何调用
  14. 【Win10系统自带软件】文件系统错误(-2147219196)解决方法
  15. 双语美文|治愈系英文段子,你对人生过敏吗
  16. linux查看目录的所属组,linux分配文件文件夹所属用户及组
  17. python处理大型数据的csv
  18. 短视频剪辑操作一览图
  19. java小游戏(连连看)
  20. Git在添加目录时遇到了Fatal: unpopulated submodule的解决办法

热门文章

  1. 会员电商和传统电商的区别在哪里?
  2. Android 悬浮球 简单入门
  3. 当医学影像遇上深度学习 | 行业AI应用一览
  4. 选择学习python的因素
  5. 程序员从BAT辞职去微软,总结外企工作的5条好处,称:这不是为了炫耀
  6. 计算机辅助设计自考实践,2015年江苏自考大纲《计算机辅助设计》
  7. 科迈 RAS系统 Cookie验证越权漏洞
  8. 5款非常好用的AI在线图片处理工具
  9. 2020年5大开源免费waf产品力荐,网站安全防护必备
  10. 基于Python的爬虫设计与数据分析(附源码、论文)免费赠送项目完整源码,可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案等