以下是2020年上半年《大数据技术与架构》发表文章合集,请收藏。

       

01

实时计算篇

  • Structured Streaming | Apache Spark中处理实时数据的声明式API

  • HyperLogLog函数在Spark中的高级应用

  • 基于SparkStreaming+Kafka+HBase实时点击流案例

  • 基于Flink SQL构建实时数据仓库

  • Flink异步之矛-锋利的Async I/O

  • Spark SQL快速入门系列之Hive

  • 基于SparkStreaming+Kafka+HBase实时点击流案例

  • 三万字长文 | Spark性能优化实战手册

  • Flink整合Oozie Shell Action提交任务带Kerberos认证

  • Spark源码阅读的正确打开方式

  • 消息队列常见面试问题小集合

  • Flink1.10和Hive集成一些需要注意的点

  • Flink事件时间、水印和迟到数据处理

  • Flink使用Broadcast State实现流处理配置实时更新

  • 实战 | MySQL Binlog通过Canal同步HDFS

  • Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理

  • Hive on Spark参数调优姿势小结

  • Flink Logback日志与邮件报警配置

  • Kafka设计-恰好一次和事务消息

  • 基于Canal和Kafka实现MySQL的Binlog近实时同步

  • 一个基于RabbitMQ的可复用的事务消息方案

  • Spark性能优化总结

  • Flink常见异常和错误信息小结

  • Spark SQL快速入门系列之Hive

  • 实时计算双星-Flink VS Spark 部署模式对比

  • PID算法和Spark实现反压的原理

  • 关于SparkSQL的开窗函数,你应该知道这些!

  • Spark SQL是如何选择join策略的?

  • Spark on Hive & Hive on Spark,傻傻分不清楚

  • 来看看一个大二学生的Spark练习题

  • Flink 自定义触发器实现带超时时间的 CountWindow

  • Spark Kafka 基于Direct自己管理offset

  • Apache Kylin | 麒麟出没,必有祥瑞

  • Flink 参数配置和常见参数调优

  • 利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏

  • 网站日志实时分析之Flink处理实时热门和PVUV统计

  • 大数据量下的集合过滤—Bloom Filter

  • 实时数仓链路分享:kafka =>SparkStreaming=>kudu集成kerberos

  • Flink CEP 原理和案例详解

  • ProcessFunction:Flink最底层API使用踩坑记录

  • Flink 1.10之改进的TaskManager内存模型与配置

  • 打通实时流处理log4j-flume-kafka-structured-streaming

  • 如何设计实时数据平台(设计篇)

  • 如何设计实时数据平台(技术篇)

  • SparkSQL内核解析-执行全过程概述

  • SparkSQL内核解析之逻辑计划

  • Flink-1.10中的StreamingFileSink相关特性

  • Kafka下的生产消费者模式与订阅发布模式

  • Kafka+Spark Streaming如何保证exactly once语义

  • Flink之实时统计热门商品的TopN

  • SparkSQL的自适应执行-Adaptive Execution

  • Kafka KSQL实战

  • ELK+FileBeat+Kafka分布式系统搭建图文教程

  • HDFS应用场景、原理、基本架构及使用方法

  • 数据模型⽆法复⽤,归根结底还是设计问题

  • Hadoop支持Lzo压缩配置及案例

  • 快看 | Java连接集成Kerberos的HA HDFS方案

  • Kafka消费者分区分配策略及自定义分配策略

  • Spark Streaming整合log4j、Flume与Kafka的案例

  • 面试必知的 Spark SQL 几种 Join 实现

  • Flink在大规模状态数据集下的checkpoint调优

  • Write-Ahead Log(WAL预写日志)的工作原理

  • Kafka常见的导致重复消费原因和解决方案

  • Spark-submit 参数调优完整攻略

  • Kafka数据可靠性保证三板斧-ACK/ISR/HW

  • Spark常见错误问题汇总

  • HBase操作组件:Hive、Phoenix、Lealone

  • Redis系列 | 缓存穿透、击穿、雪崩、预热、更新、降级

  • Kafka工作流程及文件存储机制

  • Redis6.0主从、哨兵、集群搭建和原理

  • Spark Streaming官方编程指南

  • 【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

  • Spark+Kudu的广告业务项目实战笔记(一)

  • 大数据入门:Spark+Kudu的广告业务项目实战笔记(二)

  • 大数据入门:Spark+Kudu的广告业务项目实战笔记(三)

  • 大数据入门:Spark+Kudu的广告业务项目实战笔记(四)

  • 大数据入门:Spark+Kudu的广告业务项目实战笔记(五)

  • 大数据入门:Spark+Kudu的广告业务项目实战笔记(六)

  • Flink 1.11新特性之SQL Hive Streaming简单示例

  • SparkSQL 整体运行架构和底层实现

02

离线计算篇

  • ORC文件存储格式的深入探究

  • Hadoop支持Lzo压缩配置及案例

  • 神策数据分享 | 标签体系应用与建设(文末附下载链接)

  • 环形缓冲区-Hadoop Shuffle过程中的利器

  • eBay | 实践Hadoop任务的性能翻倍之路

  • PDFT/Paxos/Raft-分布式一致性协议解析

  • 谈谈经典限流方法—漏桶、令牌桶与Guava RateLimiter的实现

  • 轻量级异步屏障快照(ABS)算法解析

  • Hadoop小文件利器Ozone

  • 数据指标体系建设

  • Hbase FAQ热门问答小集合

  • 设计HBase RowKey需要注意的二三事

  • HBase优化笔记

  • HBase生产环境优化不完全指南

  • Hive SQL50道练习题

  • Hive on Spark参数调优小结

  • Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)

  • ConcurrentHashMap锁机制进化的考量

  • HBASE列族不能太多的真相

  • 基于ClickHouse的用户行为分析实践

  • HBase的系统架构全视角解读

  • Kylin Cube构建原理+调优

  • Hadoop支持Lzo压缩配置及案例

  • Apache Hudi 架构设计和基本概念

  • HiveSQL常用优化方法全面总结

  • MapReduce性能优化大纲

  • 从NoSQL运动谈分布式系统的CAP、BASE理论

  • HDFS读写数据过程原理分析

  • 数据中台建设五步法

  • Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合

  • 一篇文章全面了解监控知识体系

  • Sqoop 使用shell命令的各种参数的配置及使用方法

  • Hive小知识之分桶抽样

  • 数据仓库和数据集市建模体系化总结

  • Phoenix(云HBase SQL)核心功能原理及应用场景介绍

  • 基于实际业务场景下的Flume部署

  • 斗转星移 | 三万字总结Kafka各个版本差异

  • Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

  • SparkSQL用UDAF实现Bitmap函数

  • 一文了解Kafka核心概念和角色

  • Apache Spark 内存管理详解

  • 经典限流方法——漏桶、令牌桶与Guava RateLimiter的实现

  • ZooKeeper在HBase集群中的作用

  • 从B+树到LSM树,及LSM树在HBase中的应用

  • Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解

  • 干掉ELK | 使用Prometheus+Grafana搭建监控平台

  • 盘点:SQL on Hadoop中用到的主要技术

  • 用HiveSQL计算连续天数问题的方法

  • 浅谈Linux cgroup机制与YARN的CPU资源隔离

  • 京东JDHBase异地多活实践

  • Kafka的分区数是不是越多越好?

  • 一文俯瞰Elasticsearch核心原理

  • 不可不说的Java"锁"事

03

数据仓库篇

  • 《一文了解数据库和数据仓库》

  • 数据仓库系统的实现与使用(含OLAP重点讲解)

  • Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

  • 数据也有温度?Elasticsearch 5.x 版本中的冷热数据架构

  • 数据冷热分离技术

  • 冷热数据分离 | Alluxio元数据管理策略

  • 数据之眼 | 数据探查服务的设计

  • 元数据存储系统管理演变升级

  • 数据湖 | 一文读懂Data Lake的概念、特征、架构与案例

  • 用户行为数据采集系统

  • 创业公司数据仓库的建设

  • Kylin使用Spark构建Cube

  • 实时统计分析系统-Apache Druid

  • Elasticsearch索引和检索优化与压测监控总结

04

企业面试篇

  • 我们常说的海量小文件的根源是什么?

  • 如果你在准备面试,好好看看这130道题

  • 你可能需要知道的Kafka面试题与部分答案整理

  • 28道关于ZooKeeper的面试题

  • 【数据白皮书重磅分享】推荐|埋点|用研|标签

  • 一份优秀的简历该长成什么样

  • 1万2千字长文助力春招 | Netty面试篇

  • 消息队列面面观

  • 关于技术面试的一点点体会

  • 早点建立自己的知识体系

  • Filter(过滤)|Project(映射)|Pushdowns(谓词下推)

  • 阅读源码|Spark 与 Flink 的 RPC 实现

  • 三万六千字通关MySQL面试

  • 深入理解CAP理论和适用场景

  • HDFS的SecondaryNameNode作用,你别答错了

  • Kafka三种可视化监控管理工具Monitor/Manager/Eagle

  • Kafka体系架构详细分解

  • Kafka笔记—可靠性、幂等性和事务

  • Kafka体系架构详细分解

  • Kafka面试题系列(进阶篇)

  • Kafka面试题系列(基础篇)

  • 面试知识点 | Kafka的数据存储与索引设计

  • 面试必考点:HBase Compaction机制

  • ZooKeeper需要关注的点

  • MySQL中InnoDB及索引深入剖析

  • Kafka面试题系列(进阶篇2)

  • MySql的Binlog日志工具分析:Canal、Maxwell、Databus、DTS

  • Redis中的管道Pipeline操作

  • 查看YARN任务日志的几种方式

  • Yarn 使用 Cgroup 实现任务资源限制

  • 分析和定位线上作业 OOM 问题利器-MAT

  • 浅谈ZooKeeper中Kafka相关信息的存储

  • JVM架构体系与GC命令小总结

05

O L A P 篇

  • 腾讯如何用Elasticsearch挖掘万亿数据价值?

  • Apache Beam 大数据处理一站式分析

  • Apache Hudi 架构设计和基本概念

  • Apache Hudi 架构设计和基本概念

06

其         他

  • MySQL8.0发布,你熟悉又陌生的Hash Join?

  • 转载一个看不懂的文章:F1 Query

  • Apache Hudi | 统一批和近实时分析的增量处理框架

  • 寻找5亿次访问中,访问次数最多的人

  • 聊聊阿里巴巴的全链路压测

  • 年轻人你渴望力量吗 | 我读过的一些书推荐

  • 数据算法之反转排序 | 寻找相邻单词的数量

  • MySQL Binlog同步HDFS的方案

  • 循环查询数据的性能问题及优化

  • 推荐系统 embedding 技术实践总结

  • Prometheus+Clickhouse实现业务告警

  • 亿级用户的分布式数据存储解决方案

  • 基于大数据的用户画像构建小百科全书

  • 魅族持续交付平台建设实践

你过来,我给你看个宝贝相关推荐

  1. opensplice dds v6.3.2_给你看个宝贝,近乎完美的DDS正弦波信号音生成器

    好文章当然要分享啦~如果您喜欢这篇文章,请联系后台添加白名单,欢迎转载哟~在测试和验证分辨率高于16位的高精度快速模数转换器(ADC)的交流性能时,需要用到近乎完美的正弦波生成器,该生成器至少支持0k ...

  2. 给你看个宝贝:GitHub 最野的开源库,把你拿捏的死死的。。。

    上一篇:3600万中国人在抖音"上清华" 0.2T架构师学习资料干货分享 茉莉花,别名:茉莉,拉丁文名:Jasminum sambac (L.) Ait,木犀科.素馨属直立或攀援灌 ...

  3. OSChina 周五乱弹 —— 来来来,我给你看个宝贝

    2019独角兽企业重金招聘Python工程师标准>>> Osc乱弹歌单(2018)请戳(这里) [今日歌曲] 小小编辑推荐歌曲,如期. <如期>- 好妹妹乐队 手机党少年 ...

  4. 淘宝宝贝详情页的优化技巧

    客户进入店铺,第一眼看到的一般都是宝贝详情页.我们知道很多客户看到产品后直接影响其购买的关键因素是宝贝详情页.宝贝的详情描述能否吸引买家是关键.所以,如果你想提高成交量,就必须优化好自己的宝贝详情页. ...

  5. 魔力宝贝服务器端文件介绍,对魔力宝贝数据库的认识,及SQL数据库详细说明

    前段时间在论坛看魔力宝贝私服出现了,我研究一下它的数据库系统是SQL的 并且目前只有三个数据库. 数据库rxjhaccount: TBL_ACCOUNT 保存帐号信息 TBL_ONLINE  保存服务 ...

  6. 弘辽科技:拼多多宝贝排名怎么查?如何提升?

    我们知道拼多多排名的高度意味着流量的多少,宝贝的搜索排名与宝贝的曝光转化率密切相关,排名越靠前的商品通常能够获得更多的流量,那么拼多多商家如何去查商品的排名呢? 拼多多宝贝排名怎么查? 商家可以用&q ...

  7. 弘辽科技:淘宝超级推荐基础出价的流量怎么看?常见的问题有哪些

    在推广方式中,超级推荐受到了很多商家的欢迎,而超级推荐推广方式也是需要依据出价来决定的,如果是基础出价的方式推广的话,那么它的流量怎么查看呢?下面说说超级推荐成效的查看方式. 超级推荐基础出价的流量怎 ...

  8. 宝宝的头三年影响一生 不看悔掉肠子

    一.不知道孩子在0-6岁时存在各种敏感期,把孩子在敏感期的表现当成不乖的行为斥责孩子,违背了孩子的天性,造成他的痛苦,留下心理隐患. 孩子在0-6岁时存在各种各样的敏感期,所谓敏感期是指0-6岁的成长 ...

  9. 约翰诺曼超级计算机研究中心,第433章 拉泽尔松教授的决定

    通知:以后所有免费在线网站都要关闭,请下载小说app客户端阅读 点击下载 就在陆舟与格林教授达成共识的时候,他在普林斯顿高等研究院的办公室外面,正晃悠着一个奇怪的人影. 似乎是犹豫了一会儿,那人敲开门 ...

最新文章

  1. 用Python抓取某东购买记录并统计MM的bra大小
  2. opengl入门资料
  3. DPDK vhost-user研究(九)
  4. tomcat清除缓存配置方法
  5. (44)System Verilog数组逻辑运算
  6. 如果常数项没有经过显著性检验_时间序列(一):平稳性、自相关函数与LB检验...
  7. 用户登陆进去后,没有权限操作
  8. java图片处理工具类
  9. 定位到文件目录并选定文件
  10. 如何在windows上 安装更新 显卡的驱动
  11. linux触摸屏应用程序开发,linux触摸屏(一)编写触摸屏应用
  12. 数据库基础学习(思维导图)
  13. Onvif客户端与服务器通信时鉴权的自实现
  14. html5倒计时效果,html5+css3进度条倒计时动画特效代码【推荐】
  15. 关于springboot访问页面
  16. 360老总给新入职的员工演讲
  17. 2g内存装什么系统好电脑2g内存适合装什么系统
  18. stm32f1_MCP41010_正相放大器
  19. j4125和n5095 参数对比
  20. [ Android ] Eclipse调试Android程序的问题——模拟器与真机同时存在时出现的

热门文章

  1. 基于Qt实现的“合成大西瓜”小游戏
  2. 计算机网络自学笔记004_Real(数据链路层002)
  3. 招聘软件开发人员的一点心得体会
  4. 呼叫中心技术 -- 下篇(笔记)
  5. Griffon 富网络框架
  6. PPet —— 点进来送你一个桌面宠物,让单身码农不再孤单~~
  7. 微信开发 该公众号暂时无法提供服务,请稍候再试 解决办法
  8. 网吧cpu性能取决于服务器,网吧电脑为什么比家里快?这些原因你可能想不到
  9. android q三星a60,三星GALAXY A60刷机包哪里有?
  10. 2014阿里巴巴数据分析师面试