大数据与云计算技术周报(第128期)
导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:hive、Spark、Cassandra、MongoDB、数据仓库、OLAP、Redis、Hbase、Spark、。全是干货,希望大家喜欢!!!
1Hive
分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。
在数据分析领域,经常需要计算数据集不同元素的个数(Distinct值),也称为基数计算。精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前已经出现了一些优秀的基数估值算法,例如HLLC(HyperLogLog Counting)等。
TDW引入了HLLC算法,用户可以写HQL简单的使用它。在能够容忍一定精度损失的前提下,HLLC算法往往拥有比精确计算高得多的计算效率。HLLC算法在TDW上已经取得了较多的应用并且收到了较好的效果。
本文不打算介绍HLLC算法的原理,有兴趣的读者可以参考Flajolet的论文《HyperLogLog: The analysis of a near-optimal cardinality estimation algorithm》。
https://data.qq.com/article?id=809
2数据仓库
大量用户的使用,驱动着在数据中台建设的路上不断前进。如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。
https://mp.weixin.qq.com/s/r-cg-aXhp14FWgHcMY6Vdw
3OLAP
本文讲解了小米集存储计算于一体的分布式数据分析型数据库服务的OLAP。
https://mp.weixin.qq.com/s/pE40rm9HOBe9b8f1tXxoog
4Redis
Redis是一种内存数据存储,可用作数据库,缓存和消息代理。它支持从简单到复杂的数据结构,包括哈希,字符串,排序集,位图,地理空间数据等。在本指南中,我们将演示如何使用一些不同的工具和方法对在Ubuntu 18.04上运行的Redis服务器的性能进行基准测试
https://www.digitalocean.com/community/tutorials/how-to-perform-redis-benchmark-tests
5Spark
本文作者 Raja Sekar 已经有三年多 Spark 的使用经验,他认为 Spark 的 DataFrame 非常优秀,可以解决大多数分析工作负载问题,但仍然有一些地方使用 RDD 会更方便。于是,他萌生出了一个使用原生语言重新实现 Spark 的想法,想看看重写后在性能和资源管理效率方面可以达到怎样的效果。最后他选择了最近很火的 Rust,重写后的 FastSpark 不仅在运行速度上比 Spark 更快,而且能够节省相当多的内存,作者接下来的目标也很简单:将其作为 Apache Spark 的替代方案
https://mp.weixin.qq.com/s/F9mGwxkpYjprx2DWD__nBQ
6Hbase
本文主要讲述了用HBase存放时空数据的缺陷及常用的时空索引技术。https://mp.weixin.qq.com/s/GEF3jdUvqRW00ArzLB08fg
7数据安全
大数据时代,数据是最重要的。从个人角度来看,衣食住行都会产生数据,包含着最基本的个人信息以及历史消费记录等等。如果被盗,就会造成财产损失甚至更严重的后果;从企业来看,数据是市场竞争的关键部分,而保护用户的数据安全是最基本的责任,事关企业发展与信誉等等。。
https://mp.weixin.qq.com/s/k5qCwa1bpw0QPfFlAwo2AQ
8mangoDB
本文讲述了MongoDB的一个工单分析服务,经常性发出操作超时问题分析,并通过防止索引seeks操作来解决此问题;
https://cloud.tencent.com/developer/article/1509697
9Redis
针对“附近的人”这一位置服务领域的应用场景,Redis结合其有序队列zset以及geohash编码,实现了空间搜索功能,且拥有极高的运行效率。本文将从源码角度对其算法原理进行解析,并推算查询时间复杂度。
https://mp.weixin.qq.com/s/72Ztx8eehxzA7T8fHy0D5Q
10微软
微软文化重塑
https://mp.weixin.qq.com/s/8bAtRbewd2u_uqzD1oLynw
11开心一刻
女票允许我出轨,并且还介绍她闺密给我认识。在她真的很爱我的前提下,该如何理解她的行为?
千万不要上当!!!Mac告诉你,我也可以装windows哦,但你真的装了,会用高发热来报复你的!
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞
猜你喜欢
#大数据和云计算机技术社区#博客精选(2017)
NoSQL 还是 SQL ?这一篇讲清楚
阿里的OceanBase解密
#大数据和云计算技术#: "四有"社区介绍
大数据和云计算技术周报(第56期)
新数仓系列:Hbase周边生态梳理(1)
《大数据架构详解》第2次修订说明
简单梳理跨数据中心数据库
云观察系列:漫谈运营商公有云发展史
云观察系列:百度云的一波三折
云观察系列:阿里云战略观察
超融合方案分析系列(7)思科超融合方案分析
加入技术讨论群
《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):
大数据与云计算技术周报(第128期)相关推荐
- 大数据和云计算技术周报(第101期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spring熔断降级方 ...
- 大数据与云计算技术周报(第150期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:hiva.Flink. ...
- 大数据与云计算技术周报(第148期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:实时数据.ELK.re ...
- 大数据和云计算技术周报(第102期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:阿里数据库.AI.Hb ...
- 大数据和云计算技术周报(第7期)
写在第7期周报 坚持是一种品格! "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. #大数据和云计算技术 ...
- 大数据和云计算技术周报(第81期)
大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:分布式事务.缓存 .排序.druid.s ...
- 大数据和云计算技术周报(第37期)
写在第37期周报 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:Spark ...
- 大数据和云计算技术周报(第115期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:HBase.Spark ...
- 大数据和云计算技术周报(第182期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:spark.Kafka ...
- 大数据与云计算技术周报(第142期)
导语 "大数据" 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算.存储.网络都涉及,知识点广.学习难度高. 本期会给大家奉献上精彩的:死锁.知识图谱.Spa ...
最新文章
- 201771010106东文财《面向对象程序设计(java)》实验12
- 怎么学python-新手如何自学python课程?
- [Spark][Flume]Flume 启动例子
- 中国水务行业运行状况调研与投资前景规划预测报告2022-2027年新版
- DCMTK:checkStringValue()方法的测试程序
- java开灯问题_C++之开灯问题(链表)
- JSP中URL路径获取问题
- (Origin)设置图例位置
- form触发2次 layui_Springboot+layui上传文件携带参数前后台代码
- web-jsp(15) 购物车
- 光立方体c语言程序,444光立方程序怎么写 光立方原理图、源代码及制作教程
- 1534 棋子游戏(博弈论)
- 2020年的19种最佳React Native App模板(包括5种免费)
- 多家银行手机转账现高危漏洞 ,用户资金或被非法窃取
- 一、欢迎来到趣味编程的世界
- SHT2x系列数字温湿度传感器
- [前端]WdatePicker日历控件使用方法
- 【PyTorch基础教程29】DIN模型
- 漫谈程序员系列:一张图道尽程序员的出路
- 用java输入学生姓名查询成绩_制作学生信息(姓名,学号,成绩)管理系统(用Java)...
热门文章
- PUE的精确性得益于持续监控
- 风口之下,猪都能飞。当今中国股市牛市,真可谓“错过等七年”。 给你一个回顾历史的机会,已知一支股票连续n天的价格走势,以长度为n的整数数组表示,...
- 大学英语计算机my dream 150,my dream 英语作文150字
- 文件加密无法勾选,怎么办?
- 用大白话告诉你 :Java 后端到底是在做什么?
- symantec10.1企业版部分客户端无法更新 解决方法
- 新年愿望:希望学会点代码2021.1.1
- MySQL table 碎片整理
- struts1的学历历程
- 关于APP广告位的设计与优化(下)