写在第37期周报

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:Spark Streaming、Spark Sort Based Shuffle、Apache Spark、Apache Kylin、深度学习、K-Means、HBase、Redis。全是干货,希望大家喜欢!!!

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!

以下是正文,限于众编辑水平有限,不保证大家都喜欢。

Spark Streaming

自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%。目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:携程实时大数据平台实践分享。

https://sdk.cn/news/7562

Spark Sort Based Shuffle

本来想把这块外排序的算法完全整理清楚,自己写一下,但是最近确实事儿多,这个文章我大概读完了。虽然文章本身比较早,但是大面上基本把这个事儿能说清楚。最近我把乌斯shuffle 看完,争取自己重新总结一下。

https://blog.csdn.net/mt0803/article/details/50405266

3

Apache Spark

本文将对 Spark 的内存管理模型进行分析 主要模块有 堆内内存 堆外内存 以及task内存 希望大家能够喜欢

https://mp.weixin.qq.com/s/a4jdjJbFFrak8k0jHUBsOA

4

Apache Kylin

从 2015 年大数据部门成立至今,集群数据存储量为 9PB,服务器规模为 200+ 台。与此同时,数据需求也随着业务的发展落地不断增长,如统计分析、指标 API、运营报表等,不同业务需求差异较大,维度越来越多,需要定制化开发。面对数十亿行级别的数据,低延迟响应的特性,保障服务稳定、数据准确,

http://mp.weixin.qq.com/s/LhtmXXTnYDDCrxdQWCvvUw

5

深度学习

深度学习模型凭借其强大的表达能力和灵活的网络结构在诸多领域取得了重大突破,美团平台拥有海量的用户与商家数据,以及丰富的产品使用场景,也为深度学习的应用提供了必要的条件。本文将主要介绍深度学习模型在美团平台推荐排序场景下的应用和探索。

http://mp.weixin.qq.com/s/jdRu-cishwV8qBmGLTFJCA

6

K-Means

K-means算法具有悠久的历史,并且也是最常用的聚类算法之一。K-means算法实施起来非常简单,因此,它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源,然后介绍其较为典型的应用场景。

http://mp.weixin.qq.com/s/7hVypJbpqV7t9-Tig5mK_w

7

HBase

本文基于所给出的样例数据,介绍了将数据从Client写到RegionServer的全流程。

http://mp.weixin.qq.com/s/AORh1vI3L5e7B3MAI8zizg

8

Redis

搭建任何一个服务,做到“能用”其实是非常简单的,就像我们运行一个单机版的Redis。不过一旦要做到“高可用”,事情就会变得复杂起来。业务中使用了额外的两台服务器,3个Sentinel进程+1个Slave进程,只是为了保证在那小概率的事故中依然做到服务可用。在实际业务中我们还启用了supervisor做进程监控,一旦进程意外退出,会自动尝试重新启动。

https://mp.weixin.qq.com/s/nFreAZJOECjXwFw0HhsAUA

致谢:

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

​大数据和云计算技术周报(第37期) - 云+社区 - 腾讯云相关推荐

  1. ​大数据和云计算技术周报(第37期)

    写在第37期周报 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spark ...

  2. 大数据和云计算技术周报(第101期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spring熔断降级方 ...

  3. 大数据与云计算技术周报(第150期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:hiva.Flink. ...

  4. 大数据与云计算技术周报(第148期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:实时数据.ELK.re ...

  5. 大数据和云计算技术周报(第102期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:阿里数据库.AI.Hb ...

  6. 大数据和云计算技术周报(第7期)

    写在第7期周报 坚持是一种品格! "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. #大数据和云计算技术 ...

  7. 大数据和云计算技术周报(第81期)

    大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:分布式事务.缓存 .排序.druid.s ...

  8. 大数据和云计算技术周报(第115期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:HBase.Spark ...

  9. 大数据和云计算技术周报(第182期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:spark.Kafka ...

  10. 大数据与云计算技术周报(第142期)

    导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:死锁.知识图谱.Spa ...

最新文章

  1. 物联网成网络安全防护新重点!
  2. Spring 使用注解方式进行事物管理
  3. 如何给SAP打补丁(ABAPamp;JAVA)
  4. 多线程的创建方式---继承Thread和实现Runnable
  5. nunit 2.2.3 released, 支持vs2005 和.net 2.0了.
  6. 从分布式一致性谈到CAP理论、BASE理论
  7. 计算机组装与维护课程教学内容,《计算机组装与维护》课程教学计划
  8. v-for key的作用
  9. 系统如何删除被其它进程占用的文件?
  10. [转帖]Android Bitmap内存限制OOM,Out Of Memory
  11. 【Qt编程】基于Qt的词典开发系列十--国际音标的显示
  12. 航班时间(计算时间差)
  13. 对话系统中的中文自然语言理解 (NLU) 任务介绍
  14. 最新微信ipad协议 CODE获取 公众号授权等
  15. 使用Ultra Librarian生成Cadence Allegro的PCB封装库和OrCAD Capture CIS的原理图库
  16. Fe原子辐照轰击多层石墨烯模拟代码
  17. 文献管理软件Zotero
  18. svn commit svn: E170001: Authorization failed
  19. 珞珈1号-数据预处理流程
  20. 基于java汉服文化平台网站(java毕业设计)

热门文章

  1. 黑马瑞吉外卖之新增员工
  2. 一个蚂蚁曾经的辛酸面试历程
  3. 如何使用U-Net-train进行语义分段,并在Keras中测试您的自定义数据
  4. ffalcon电视html接口,达人给评测下:液晶电视FFALCON75S535C怎么样呢?评价如何?个人感受揭秘...
  5. 使用免费引流脚本,如何突破引流难的困境
  6. Java对Excel的读写详解(POI)
  7. 某品威客,js逆向★★
  8. matlab兼职可以做什么的,我开始做兼职了
  9. 多线程之消费者生产者模式加入阻塞队列
  10. web服务器角色源文件,IIS 7.5中提供的Web服务器(IIS)角色服务详请