大数据常见面试题及答案

1、rdd的5大特性：

Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园

2、Hive分桶和分区的区别：

https://blog.csdn.net/u010003835/article/details/80911215

3、Hive表动态分区和静态分区

https://blog.csdn.net/opensure/article/details/46537969

https://hero78.blog.csdn.net/article/details/80382174

4、一个Hive表，数据量很大，分布在集群的100个节点，现在需要定期取top100，如何设计/实现：

个人答案：先对100个节点的数据求top100，然后将数据导入1张表，再对该表求top100；

5、窗口函数

hive窗口函数必备宝典_dingchangxiu11的博客-CSDN博客_hive窗口函数

窗口函数--配合over(...)的选项 rows/range between ... preceding and ... following--工作备忘2016/9/30_Richie's 残酷舞台-CSDN博客

Hive开窗函数总结_Abysscarry的博客-CSDN博客_hive的开窗函数

6、hive sql和spark sql底层执行流程？

HIVE源码(1):HQL 是如何转换为 MR 任务的 - 秋华 - 博客园

Spark SQL的底层执行流程_蓝色校服的岁月的博客-CSDN博客_sparksql的执行流程

一文读懂Spark SQL运行流程 - 知乎

6、Spark任务的执行流程

Spark任务执行流程_wlk_328909605的博客-CSDN博客_spark执行任务的流程

Spark（五）Spark任务提交方式和执行流程 - Frankdeng - 博客园

spark集群的任务提交执行流程_bokzmm的博客-CSDN博客_spark执行流程

7、Spark和MapReduce

1）MapReduce和Spark的区别

mapreduce与spark的区别--内容详细_wyz0516071128的博客-CSDN博客

spark与mapreduce的区别 - db_record - 博客园

2）为什么Spark比MapReduce快

为什么Spark比MapReduce快？_数仓大山哥的博客-CSDN博客

为什么Spark运行比MapReduce快_寞逍遥的博客-CSDN博客_spark为什么快

为什么Spark比MapReduce快_大数据从入门到放弃的博客-CSDN博客

百度面试总结：spark比MapReduce快的原因是什么？（比较完整）_道法—自然的博客-CSDN博客_spark比mapreduce处理速度快的原因不包括哪一项

8、cache和persist的区别

每次进步一点点——spark中cache和persist的区别_housir的专栏-CSDN博客

9、什么是宽窄依赖

Spark 宽窄依赖 - Earendil - 博客园

Spark宽窄依赖详解_modefrog的博客-CSDN博客_spark宽窄依赖

10、1）shuffle的过程描述一下

https://blog.csdn.net/kaede1209/article/details/81953262

hadoop shuffle：

https://blog.csdn.net/shujuelin/article/details/83992061

spark shuffle：

https://blog.csdn.net/weixin_42868529/article/details/84622803

https://blog.csdn.net/quitozang/article/details/80904040

2）MR的shuffle和Spark的shuffle之间的区别

MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了_reduce

https://blog.csdn.net/wuwang1988/article/details/80131728

https://blog.csdn.net/m0_37803704/article/details/86174267

11、增量合并具体是怎么实现的你了解吗？如果让你来实现的话你怎么写

大数据量增量同步方案杂谈【面试+工作】

12、flink和spark streaming有什么区别

https://blog.csdn.net/xianpanjia4616/article/details/85076247

干货 | Spark Streaming 和 Flink 详细对比

13、spark streamiing相比flink有什么优点

https://blog.csdn.net/mojir/article/details/96033432

14、udf和udaf

https://blog.csdn.net/xiaofengguojiangnan/article/details/80059703

15、spark你常用的参数设置有哪些
set spark.sql.adaptive.enabled = true;
set spark.sql.adaptive.join.enabled = true;
set spark.sql.adaptive.skewedJoin.enabled = true; --自动处理 Join 时数据倾斜
set spark.sql.parser.quotedRegexColumnNames = false;

Spark开发常用参数 - XIAO的博客 - 博客园

Spark常用参数解释及建议值_淡淡的倔强的博客-CSDN博客_spark常用参数

16、Hive的order by和sort by什么区别，都有哪些应用场景

Hive中Order by和Sort by的区别是什么?_春华秋实-CSDN博客

https://blog.csdn.net/qq_40795214/article/details/82190827

https://jthink.blog.csdn.net/article/details/38903775

17、Hive的distribute by和group by有什么区别

Hive：distribute by与group by，order by与sort by , cluster by的区别_云舒s的博客-CSDN博客

18、Dataframe和RDD有什么区别

RDD和DataFrame和DataSet三者间的区别_乌镇风云的博客-CSDN博客_rdd和dataframe有什么区别

https://blog.csdn.net/wo334499/article/details/51689549

https://blog.csdn.net/weixin_39793644/article/details/79050762

19、Flink的原理

https://blog.csdn.net/sxiaobei/article/details/80861070

https://blog.csdn.net/oTengYue/article/details/102689538

20、数仓分层了解吗

数仓分层_吗达拉的博客-CSDN博客_数仓分层及各层作用

21、数仓建模除了维度建模还有其他的吗

数仓理论之关系建模与维度建模_ITBOY_ITBOX博客-CSDN博客_关系建模和维度建模区别

22、数仓的特性讲一下

数据仓库具有四个主要特性_guanyi的博客-CSDN博客_数据仓库的四大特点

23、你真的了解全量表,增量表及拉链表吗？

你真的了解全量表,增量表及拉链表吗？_我的祖传代码-CSDN博客

24、数据仓库中的维表和事实表

数据仓库之维度表和事实表_不言尘世-CSDN博客_维度表和事实表

25、.数据倾斜有哪几种优化思路？

https://segmentfault.com/a/1190000009166436

https://segmentfault.com/a/1190000021439076?utm_source=sf-similar-article

26、考虑一个100亿数据的表关联一个10亿数据的表，如何优化

过滤、分桶

27、HashMap的底层原理

HashMap 的底层原理 - holyqueen - 博客园

java提高篇（二三）-----HashMap - chenssy - 博客园

28、去重都有哪些方式？

distinct、group by、row_number、hive的collect_set()