一、 实验目的

本实验考察学生Hadoop平台下的环境配置、分布式文件存储操作和管理以及基于Hadoop的分布式编程的设计与实现。

二、 实验环境

Linux的虚拟机环境、线上操作视频和实验指导手册

三、 实验任务

完成Hadoop开发环境安装、熟悉基本功能和编程方法。

四、 实验步骤

请按照线上操作视频和实验知道手册,完成以下实验内容:
实验1-1 Hadoop安装部署

(1)登录虚拟机
(2)主机配置:主机名、网络和免密登录等
(3)Hadoop主节点和从节点配置
(4)启动Hadoop集群和网页操作界面

实验1-2 Hadoop常用命令

(1)Hadoop启动与状态查看等命令
(2)HDFS目录操作、文件操作等命令

实验1-3 MapReduce编程:单词计数

(1)使用Eclipse新建Hadoop项目
(2)使用单词计数示例代码编写MapReduce程序
(3)编译并运行MapReduce程序

五、 实验作业

1、提交实验报告电子稿和纸质稿,内容包括安装步骤及主要配置方法说明,关键步骤截图,并对截图内容进行解释说明;
2、个人对实验的总结和心得
3、搜索互联网并回答问题:谈谈利用大数据可以在未来促进哪些具体方面可持续发展?并请在其中选取一个详细的例子说明。(回答需大于500字,回答讲述越透彻,分数越高)

六、 实验结果与分析

1、安装步骤及主要配置方法说明

实验1-1 Hadoop安装部署

1、测试主从机是否成功联网

2、三台主机分别完成时钟同步(这里仅演示master主机)

3、依次配置三台虚拟机的java环境

这里仅演示slave02虚拟机java环境安装成功。

4、安装部署Hadoop集群
三台虚拟机解压hadoop并配置环境变量,此处不截图。
格式化Hadoop文件目录

5、启动Hadoop集群
使用jps查看节点是否启动成功

查看namenode和datanode是否正常

检查Yarn是否正常

运行指定命令后查看pi的值

通过以上三步验证,发现hadoop安装成功,集群正常启动

实验1-2 Hadoop常用命令

1、列出目录及文件

2、递归列出目录及文件

3、创建目录

4、上传文件

5、下载文件

6、删除文件

实验1-3 MapReduce编程:单词计数

1、启动hadoop集群、eclipse


2、编写核心代码

3、运行测试

运行jar包执行分割

2、实验的总结和心得

本次实验主要完成Hadoop环境的安装、集群配置、了解常用的Hadoop指令、使用Hadoop完成单词分割的小程序。通过三个实验让我初步了解Hadoop运行过程,Hadoop是一个分布式的架构,所以在实验过程中至少需要三台虚拟机即一台主机,两台从机,由此可以体会集群配置。在实验过程中,我对hadoop操作更加熟悉同时对Linux下虚拟机的操作更加熟练,目前我仅通过单词分割的例子来感受hadoop的功能,这还不够明显,hadoop本身是一个能够对大量数据进行分布式处理的软件框架,所以未来需要通过更多的实例来感受hadoop的强大功能。
整体配置难度不大,相对来说繁琐程度大于难度,尤其是其中的权限问题,即在正确的权限下操作会避免后续的错误。

实验总结

1、多虚拟机配置相同环境,可以编写shell脚本自动执行,避免大量繁琐重复无意义的配置。
2、重视权限问题,使用root权限创建文件可能导致普通用户写入时出现权限不够的情况。
3、hadoop在删除文件时遇到多层目录的情况要选择使用 -rmr 命令,否则无法完成级联删除。
4、hadoop主要应用于大数据的计算,所以计算过程相对较慢。

3、问题:谈谈利用大数据可以在未来促进哪些具体方面可持续发展?并请在其中选取一个详细的例子说明。

大数据可以应用于金融领域、安防领域、能源领域、业务领域、医疗领域、电力行业领域等。
大数据应用于金融领域是比较常见的。大数据所带来的社会变革已经深入到人们生活的各个方面,金融创新离不开大数据,日常的出行、购物、运动、理财等等。金融业面临众多前所未有的跨界竞争对手,市场格局、业务流程将发生巨大改变。未来的金融业将开展新一轮围绕大数据的IT建设投资。据悉,目前,中国的金融行业数据量已经超过100TB,非结构化数据迅速增长。分析人士认为,中国金融行业正在步入大数据时代的初级阶段。优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。信贷风险评估。在传统方法中,银行对企业客户的违约风险评估多是基于过往的信贷数据和交易数据等静态数据,这种方式的最大弊端就是缺少前瞻性。因为影响企业违约的重要因素并不仅仅只是企业历史的信用情况,还包括行业的整体发展状况和实时的经营情况。而大数据手段的介入使信贷风险评估更趋近于事实。
内外部数据资源整合是大数据信贷风险评估的前提。一般来说,商业银行在识别客户需求、估算客户价值、判断客户优劣、预测客户违约可能的过程中,既需要借助银行内部已掌握的客户相关信息,也需要借助外部机构掌握的人行征信信息、客户公共评价信息、商务经营信息、收支消费信息、社会关联信息等。该部分策略主要目标为数据分析提供更广阔的数据维度和数据鲜活度,从而共同形成商业银行贷款风险评估资源。
供应链金融。供应链金融的风险控制从授信主体向整个链条转变。供应链核心企业拥有良好的资产、充足的资金和高额的授信额度。而依附于核心企业的上下游企业可能需要资金,但是贷不到款。供应链金融可以由核心企业做担保,以产品或应收账款做质押,帮助上下游企业获得资金。
利用大数据技术,银行可以根据企业之间的投资、控股、借贷、担保以及股东和法人之间的关系,形成企业之间的关系图谱,利于关联企业分析及风险控制。知识图谱在通过建立数据之间的关联链接,将碎片化的数据有机的组织起来,让数据更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利。
在风控上,银行以核心企业为切入点,将供应链上的多个关键企业作为一个整体。利用交往圈分析模型,持续观察企业间的通信交往数据变化情况,通过与基线数据的对比来洞察异常的交往动态,评估供应链的健康度及为企业贷后风控提供参考依据。

云计算实验1 基于Hadoop的云计算平台配置和map-reduce编程案例相关推荐

  1. 云计算课程设计基于hadoop的词频统计设计

    云计算课程设计基于hadoop的词频统计设计实验报告 http://链接:https://pan.baidu.com/s/1ujUAg4q1sZZwmyeeKrNirg 提取码:maq7

  2. 基于Hadoop的数据分析平台搭建

    企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品.除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘 ...

  3. 大数据开发:基于Hadoop的数据分析平台

    互联网的发展,带来了各种数据的爆发式增长,所以接入互联网的相关操作行为,都化为虚拟的数据被记录了下来.大数据时代的带来,一个明显的变化就是全样本数据分析,面对TB/PB级及以上的数据规模,Hadoop ...

  4. 云计算实验2 Spark分布式内存计算框架配置及编程案例

    一. 实验目的 掌握分布式多节点计算平台Spark配置,Spark编程环境IDEA配置,示例程序启动与运行 二. 实验环境 Linux的虚拟机环境.线上操作视频和实验指导手册 三. 实验任务 完成Sp ...

  5. 基于Hadoop的云计算平台配置

    Hadoop安装部署 文章目录 Hadoop安装部署 1.实验描述 2.实验环境 3.相关技能 4.知识点 5.效果图 6.实验步骤 7.总结 1.实验描述 在若干节点中,安装部署hadoop分布式集 ...

  6. 学习笔记(1)stm32h743和ADXL355的SPI通信,基于cubeMX和keil5MDK平台,采用HAL库编程,代码已模块化处理

    今天是一个特别的日子,为什么呢?哈哈,因为从大四做毕业设计的时候,接触CSDN,到现在一整年了,终于创作了我的第一篇博客,内心难念有些激动! 首先声明,我不是嵌入式领域的技术大牛,只是普通的研一新生, ...

  7. CentOS7.0基于hadoop集群安装配置Hive

    前言 安装Apache Hive前提是要先安装hadoop集群,并且hive只需要在hadoop的namenode节点集群里安装即可(需要再有的namenode上安装),可以不在datanode节点的 ...

  8. 基于hadoop实现的关联规则挖掘的图书数据分析推荐系统

    资源下载地址:https://download.csdn.net/download/sheziqiong/86763735 资源下载地址:https://download.csdn.net/downl ...

  9. Hadoop大数据平台安装

    实验一:Hadoop大数据平台安装 16281002 杜永坤 1.实验目的 在大数据时代,存在很多开源的分布式数据采集.计算.存储技术,本实验将熟悉并搭建几种常用的大数据采集.处理分析技术环境. &l ...

最新文章

  1. 程序员的视角:java GC
  2. OSPF被隔离的区域
  3. vue监听h5页面返回健(微信和支付宝浏览器亲测):
  4. java反射 面试题_使用Java反射更改私有静态最终字段
  5. QT学习——Tcp客户端通信(本地回环)
  6. python里随机抽取样本_概率分布和抽样分布基础知识及Python实现
  7. python编程代码执行漏洞_代码执行漏洞 - 安全先师的个人空间 - OSCHINA - 中文开源技术交流社区...
  8. Golang实践录:我的工具包
  9. 搜索整理MyEclipse 快捷键
  10. kindle 新手入门
  11. VS2010 visual studio Microsoft 应用程序错误报告 Microsoft Application Error Reporting 下列组件安装失败 1603 1935解决方法
  12. 小马模拟器 (支持Android系统)
  13. Deep-Learned Regularization and Proximal Operator for Image Compressive Sensing
  14. 概率论_证明_切比雪夫大数定律
  15. jvm内存区域之虚拟机栈、pc计数器、本地方法栈
  16. 记深信服2018秋季校园招聘--技术服务工程师
  17. ppt矩形里面的图片怎么放大缩小_如何使用PPT调节图片的大小
  18. PHP 蒙太奇马赛克拼图,AndreaMosaic制作一幅马赛克拼图
  19. 一、MacBook Pro 使用eGPU-WTG篇,mac告别虚拟机
  20. 转--Android 文件外/内部存储的获取各种存储目录路径

热门文章

  1. windows的bat命令记录
  2. 迪文屏幕T5L平台学习笔记五:C51使用UART2打印log
  3. docker部署文件映射关系
  4. Error loading Python DLL python27.dll (error code 14001)
  5. vue+iview4.0 , vue+element实现下拉框可以自定义输入内容
  6. Debian Linux使用小米球Ngrok内网穿透
  7. 震惊!同是亚马逊运营,他居然不查关键词排名
  8. ATF原生篇(十八):Components-安全分区管理器(MM)(Secure Partition Manager (MM))(上)
  9. 泛娱乐头脑风暴年初上演,网易MCtalk解析科技与创意
  10. css背景图片的设置