1.您对“大数据”一词有什么了解?

答: 指无法在一定时间范围内用常规软件工具进行处理大量数据的集合,关系数据库无法处理大数据,所以需要新处理模式,使用特殊的工具和方法对大量数据执行操作。

目的:采集这些庞大的数据,用大数据技术进行分析处理,获取到数据中隐含的信息。

适用范围:路线规划,兴趣分析,广告推送等。

2.大数据的五个V是什么?

答:大数据的五个V如下:

卷(Volume)巨量,数据量大,且以持续、急剧地膨胀,即以PB为单位的数据量。

速度(Velocity)快变,也称为实时性,时效性,一是数据到达速度很快,二是响应速度快。

多样性(Variety)多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。

价值(Value)价值是指将数据转化为价值。通过将访问的大数据转化为价值,企业可以产生收入。具有经济,产业和科学价值。

准确性(Veracity)–准确性是指可用数据的不确定性。由于大量数据带来不完整和不一致,因此会出现准确性。

3.告诉我们大数据和Hadoop之间的关系。

答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并做出决策,挖掘出数据的价值。

4.大数据分析如何有助于增加业务收入?

答:通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此很多公司正在使用大数据分析。国内使用大数据推送的有淘宝,抖音等。

5.解释部署大数据解决方案应遵循的步骤。

(1)资料撷取

从各种来源提取数据,数据源可以是客户关系管理系统,企业资源计划系统,关系型数据库或任何其他日志文件,文档,社交媒体源等。可以通过批处理作业或实时流来摄取数据。然后将提取的数据存储在分布式文件系统中。

(2)数据存储

提取数据后,下一步是存储提取的数据。数据可以存储在HDFS(关系型数据库)或NoSQL数据库(即非关系型数据库)中。HDFS存储适用于顺序访问,而HBase适合随机读取/写入访问。

(3)数据处理

部署大数据解决方案的最后一步是数据处理。数据通过Spark,MapReduce,Pig等处理框架之一进行处理。

6.大数据和人工智能的关系是什么?

大数据和人工智能是相辅相成、相互融合的关系。

可以认为大数据是人工智能的基础,大数据更强调数据的采集和处理,而人工智能更强调深度学习,像人脑一样能够去学习新知识,这是二者的主要差别。

人工智能,智能算法可以优化大数据的算法,找出对应领域最适合的算法。

人工智能在最近几年得到快速发展主要得益于大数据基础计算能力的提高和数据量的发展,如今的智能革命最核心的两个要素就是人工智能和大数据。

7.大数据与云计算之间的关系:

云计算是平台,大数据是应用。

云计算分布式技术解决大数据的速度问题。

大数据通过云计算能力给机器学习提供资料。

云计算作为底层平台整合计算、存储和网络等资源,大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。

8.大数据发展的瓶颈?

没有成熟的方法采集和处理大数据。----分布式文件系统数据库解决存储难题

数据涉及到隐私,法律法规还没有完善。

大量不同类别的数据不知道怎么存储。

数据的独占性:有价值的数据别人不一定会分享

9.大数据的趋势

  1. 数据资源化:资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。

  1. 与云计算的深度结合:大数据离不开云处理,云处理为大数据提供了平台。

  1. 科学理论的突破:随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。

10.Hadoop

10.1.Hadoop 是什么

(1)Hadoop是一个由Apache所开发的分布式系统基础架构

(2)主要解决海量数据的存储和海量数据的分析计算问题

(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

10.2. Hadoop 优势

(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

(4)高容错性:能够自动将失败的任务重新分配。

10.3.组成

1、HDFS(分布式文件存储系统):数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。

2、MapReduce(分布式计算框架):分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。

3、YARN(资源调度器):相当于电脑的任务管理器,对资源进行管理和调度

4、HBASE(分布式数据库):HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。

5、HIVE(数据仓库):HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成MapReduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写MapReduce任务,只需要掌握SQL即可完成查询分析工作。

6、Spark(大数据计算引擎):Spark是专为大规模数据处理而设计的快速通用的计算引擎

7、Mahout(机器学习挖掘库):Mahout是一个可扩展的机器学习和数据挖掘库

8、Sqoop:Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

大数据考研复试面试题相关推荐

  1. 【数据结构】- 【考研复试面试题】-汇总大合集

    数据结构-考研复试面试题-汇总大合集 _写在前面的话:第二次写文章,本篇文章涉及内容主要包括数据结构与算法,包含市面上最热门的面试题,加以总结,用于本人的专业课面试复习,包括一些个人理解和总结, 如果 ...

  2. C++考研复试面试题

    C++考研复试面试题总结 第一章 面向对象程序设计概述 1.什么是结构化程序设计方法?有哪些优点和缺点? 2.什么面向对象程序设计方法?有哪些优点? 3.面向对象与面向过程程序设计有哪些不同点? 4. ...

  3. 2011年华科计算机考研复试机试题真题

    很好的资料哦,更多资料请访问王道论坛:www.cskaoyan.com 2011年华科计算机考研复试机试题真题:

  4. 浙大计算机学院考研复试上机试题,浙大计算机学院考研复试上机试题.doc

    浙江大学计算机复试上机2005-2007 (由林子整理 QQ:170479150) 2005年浙江大学计算机学院考研复试上机试题及参考答案(1/5) 第一题:A+B(10分) [结题] 题目要求:读入 ...

  5. 华科计算机考研复试真题,华科计算机考研复试机试题(2000-2013)

    华科计算机考研复试机试题(2000-2013),c++实现,注本人参加过2014年华科上机考试,老师说机试时可以使用c语言,c++语言. 2000年 阶乘 #include #include #inc ...

  6. 华科计算机考研复试真题,华科计算机考研复试机试题【含参考代码】

    华科计算机考研复试机试题[含参考代码] (32页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 29.9 积分 华科历年复试机试题汇总上机考试.一般网站上公 ...

  7. 【计算机组成原理】=【考研复试面试题】- 整合全家桶

    _写在前面的话:本文主要包含计算机组成原理的热门面试题,以及一些个人知识点总结,应对考研复试中的面试,如有写的不妥当的欢迎指出 考研一定要上岸,加油 <计算机组成原理>蒋本珊 版本 文章目 ...

  8. 【华科考研复试机试题】华中科技大学考研复试机试题解题报告

    题目来源:牛客网华科考研复试题 以下代码均在牛客网提交通过.(编译器类型为G++5.4) 若以下题解思路有考虑欠缺处,望读者指正. 1.1. 矩阵转置 1.1.1. 题目描述 输入一个N*N的矩阵,将 ...

  9. 2020西工大计算机考研复试经验贴

    复试是一场综合能力的考试,各个方面的能力都会被老师考察到,我们能做的有: 准备好专业课知识,体现自己的扎实基础 准备好自我介绍和简历项目,体现自己的强大实力 调整心态,复试现场大胆表现自己 我在20年 ...

最新文章

  1. android 游戏现状,年终总结:Android十款画面最强3D游戏
  2. RT-thread内核之空闲线程
  3. linux学习笔记 第七篇 (samba(一))(iscsi)
  4. nodejs-REPL/回调函数/事件循环
  5. boost::variant2模块实现复制分配的测试程序
  6. Boost:循环缓冲区总和的测试程序
  7. 如何将python项目部署到服务器_部署python项目到linux服务器
  8. Android UI selector 例子 (drawable/color)
  9. 基本响应性的Web设计测试工具
  10. 使用 dynamic 类型让 ASP.NET Core 实现 HATEOAS 结构的 RESTful API
  11. 循环,函数,指针作业
  12. 20个JS 小技巧超级实用
  13. 5h是什么意思_2B铅笔中的2B是啥意思?
  14. 深度学习基础(十一)—— 稀疏自编码器(二)
  15. 文本编辑器Notepad++使用技巧
  16. 3097: Hash Killer I
  17. linux设置硬盘启动顺序,电脑双硬盘双系统启动的顺序调整及设置方法
  18. 【浙政钉】第四篇:浙政钉创建群聊、消息接入、发送
  19. 华为 网络 链路捆绑
  20. 设计模式六大原则之--依赖倒置原则(DIP)

热门文章

  1. 有限差法(Finite Difference)求梯度和Hessian Matrix(海森矩阵)的python实现
  2. 有趣的二进制_软件安全与逆向分析
  3. 2022-2028全球汽车发电机用滑环行业调研及趋势分析报告
  4. AIDD机器学习深度学习药物发现与设计教程总结
  5. TensorFlow.js实现商标识别
  6. 深度学习相关读书笔记
  7. 什么是过孔?过孔应该注意的地方
  8. 关于Hbase的kinit认证的坑
  9. 加密软件的加密技术发展分析
  10. 新浪云SAE上运行PHP代码,新浪云SAE 上使用Thinkphp5 出现问题