今天晚上参加了厦门4399公司的大数据笔试,自己没有拍下题目,一下是根据自己在草稿纸上简要记录回忆下写出来的,具体的选项记不起来,大体题目在下面,欢迎大家给出自己的见解答案

一、选择题

1.四个土豪在一次聚会中比拼财产的逻辑推理题。
        A:四个人中,B最富。
        B:四个人中,C最富。
        C:我不是最富有的。
        D:C比我富,A比C富。
        已知,其中只有一个人在说假话。
        请问:四个人中谁最富?从最富到最不富的顺序应该怎么排?
        答案:A、B两人的答案不同,所以一定有一个人在说谎。也就是说,C和D说的都是实话。所以,C不是最富的,也就是说B说的是假话。这样可以得到顺序为:B、A、C、D。

2.与HDFS类似的框架有哪些?

3.下面哪一个程序与NameNode在一个节点上启动?
      A. SecondaryNameNode   B. DataNode    C. TaskTracker   D. JobTracker

答案:A

4.哪个是RDD的窄依赖?
    5.HBase的RowKey的设计原则是什么?

6.HBase的存储底层是什么?

答案:HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括上述提出的两种文件类型:
         HFile,HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile
        HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File

7.Scala语言的闭包描述哪一项不是正确的?

8.Kafka高吞吐的原因?

答案:

顺序读写磁盘,充分利用了操作系统的预读机制。
        linux中使用sendfile命令,减少一次数据拷贝,如下:
            ①把数据从硬盘读取到内核中的页缓存。
            ②把数据从内核中读取到用户空间。(sendfile命令将跳过此步骤)
            ③把用户空间中的数据写到socket缓冲区中。
            ④操作系统将数据从socket缓冲区中复制到网卡缓冲区,以便将数据经网络发出
        生产者客户端缓存消息批量发送,消费者批量从broker获取消息,减少网络io次数,充分利用磁盘顺序读写的性能。
        通常情况下kafka的瓶颈不是cpu或者磁盘,而是网络带宽,所以生产者可以对数据进行压缩。

9.ZooKeeper的角色是什么?

答案:

Leader 角色 
        Leader 服务器是整个zookeeper 集群的核心,主要的工作任务有两项: 
            ①事物请求的唯一调度和处理者,保证集群事物处理的顺序性。 
            ②集群内部各服务器的调度者。

Follower 角色 
        Follower 角色的主要职责是: 
            ①处理客户端非事物请求、转发事物请求给leader服务器。 
            ②参与事物请求Proposal的投票(Leader发起的提案,要求 Follower投票,需要半数以上follower节点通过,leader才会commit数据)。
            ③参与Leader选举的投票。

Observer 角色 
            ①Observer 是 zookeeper3.3 开始引入的一个全新的服务器角色,从字面来理解,该角色充当了观察者的角色。观察 zookeeper 集群中的最新状态变化并将这些状态变化同步到 observer 服务器上。Observer 的工作原理与 follower 角色基本一致,而它和 follower 角色唯一的不同在于 observer 不参与任何形式的投票,包括事务请求Proposal的投票和leader选举的投票。简单来说,observer服务器只提供非事物请求服务,通常在于不影响集群事务处理能力的前提下提升集群非事物处理的能力。

10.Spark Stage的数量有什么决定?

答案:Partition

二、填空题

1.Spark的三种部署模式?
    2.RDD有哪些缓存机制?
    3.RDD类型有几种?每一种有哪些操作?
    4.map和flatMap的区别是什么?
    5.RDD的依赖方式?
    6.有存储在Hive上的一张pay_log表
        ser_name    pay_money    pay_date
        1)使用SQL语句查询消费总额、消费总次数、消费最大的金额、消费最大的金额
        2)使用SQL语句每一天当天消费的总金额
        3)使用SQL语句对消费金额进行排名(用rank())
        4)使用SQL语句查询充值金额集合(用collect_set())
    7.HDFS block的默认值是多少?机架感知配置下分别存放在什么位置?
    8.有257个节点的完全二叉树有多深?
    9.数据库的三大范式?

三、问答题

1.数据清洗的目的是什么?如何进行数据清洗?
    2.使用Spark对/tmp/a.txt中的字母进行频数统计?
        A,b,d,c
        A,c,b,d
        A,c,d,f
        已经创建好了SparkContext为sc:
    3.客户端向Yarn提交MR作业的过程
    4.使用linux shell编程实现
        有两个文件
        a.txt b.txt 文件内容(IP,user)
        1)输出出每一个文件的IP数
        2)输出在b.txt出现二在a.txt中没有出现的IP
        3)输出没和user出现的次数以及每个user对应的IP数
    5.数据倾斜发生的原因,解决方案有哪些?
    6.有哪些SQL on Hadoop,各有哪些特点?

4399大数据笔试题相关推荐

  1. 大数据面试题及答案 100道 (2021最新版)

    大数据面试题及答案[最新版]大数据高级面试题大全(2021版),发现网上很多大数据面试题都没有答案,所以花了很长时间搜集,本套大数据面试题大全 最近由于要准备面试就开始提早看些面试.笔试题.以下是自己 ...

  2. 经典大数据面试题及解析

    经典大数据面试题及解析 1.下列哪个属性是hdfs-site.xml中的配置? A.dfs.replication B.fs.defaultFS C.mapreduce.framework.name ...

  3. 大数据面试题及答案 汇总版

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...

  4. 你不知道的BAT大数据面试题

          你不知道的BAT大数据面试题 1.kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字 ...

  5. rdd分片 spark_大数据面试题(Spark(一))

    大数据面试题(Spark(一)) 大家好,我是蓦然,这一系列大数据面试题是我秋招时自己总结准备的,后续我会总结出PDF版,希望对大家有帮助!1.spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) ...

  6. 大数据知识面试题-Flink(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

  7. 2020哔哩哔哩大数据面试题整理

    网上能搜到的B站的大数据面试题太少了,博主有点找不到了,而且最近B站的校招的效率似乎不是很高,简历投进去一个多星期了,一点反应都没有,别问,问就是在池子里.jpg 1.数仓与关系数据库区别     1 ...

  8. 大数据面试题_Hive篇

    文章目录 一.大数据面试题_Hive篇 (一)Hive表与性能优化 1.hive 内部表和外部表的区别 2. hive 有索引吗 3.sort by 和 order by 的区别 4.如何使用过 Hi ...

  9. 5W字讲解最新大数据面试题

    此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待 复习大数据面试题,看这一套就够了! 本文目录: 一.Hadoop 二.Hive ...

最新文章

  1. Python:numpy生成正态分布的平均数
  2. Python开发服务器巡检系统,东拼西凑用python脚本登录web管理页面做巡检(未实现)...
  3. UA SIE545 优化理论基础9 优先与分治策略1 文件的最优存储顺序
  4. Nacos在双击startup.cmd启动时提示:Unable to start embedded Tomcat
  5. awk 处理json
  6. coap python3_node-coap入门(三)——Observe
  7. python语言逆序符号_python的逆序
  8. OpenCV实战4: HOG+SVM实现行人检测
  9. Android Studio禁止混淆JNI代码
  10. 21日请假一天陪妈妈去国博
  11. 五人表决器课程设计单片机c语言,基于单片机的五人表决器的设计.doc
  12. tcp测试软件app源码,Packet Sender(UDP/TCP网络测试工具)
  13. SQL查询实现差集(补集)运算
  14. 用分治法解决青蛙跳问题(斐波那契数列)
  15. 这部纪录片带你重新认识中华神州大地,领略你不知道的中国
  16. z-index诡异事件之背锅侠
  17. C/C++ 函数(最大公约数)
  18. NCTF2020 web 你就是我的master吗
  19. 标准库:csv --- CSV 文件读写
  20. 北大肖臻老师《区块链技术与应用》系列课程学习笔记[2]Bitcoin的共识协议

热门文章

  1. 使用DiskGenius对闪迪U盘进行分区
  2. java调用BIOS中断,SMI#、SCI#信号在OS、BIOS、EC中的中断方式(Linux)
  3. IC layout 培训班招收学员啦
  4. 怀旧服70级服务器维护,魔兽世界怀旧服:暴雪官方答疑,70级怀旧服技术难题已经扫清...
  5. 1846: 数的长度
  6. Enjoy! 多达400多万的动态搞笑,爱情,友情。。。。表情下载 表情表情自定义表情表情图片下载 自定义QQ表情使用方法完全图解
  7. 网工的忠告:考过CCIE意味着什么?
  8. javascript实现图片隐写
  9. “用户密码”形同虚设,“多因素认证”势在必行
  10. js复制文本到剪贴板_如何将文本和图像固定到Windows 10的剪贴板历史记录