一、项目要求

二、项目所需数据

使用爬虫对拉勾网进行爬取,爬取和python有关的数据。同时对数据进行处理,把薪资处理成int型,取中间值。

三、配置虚拟机

结合原本教学中已经配置好的三台虚拟机,之后创建第四台虚拟机hadoop004
之后修改IP地址、主机名、建立映射关系等。

同时使用zookeeper让Hadoop004加入原本的集群中,但是我没配,就没有图了。

四、flume日志采集(使用负载均衡)

过程:把data.txt上传到虚拟机中,同时使用flume监听另一个txt文件,使用重定向,将data.txt文件中的内容写入到这个txt文件中,将内容上传到HDFS中。
hadoop001的文件,和另外两台不一样。有需要的可以留言。

分别在01、02、03使用命令启动,先启动02和03



文件内容写入python.txt

cat pydata.txt >>python.txt

2.上传文件、查看

随机选择一个文件,下载到本地,查看。

这个薪资没有处理,可以先处理再传,也可以传两遍。

五、安装hive

1.下载hive压缩包并上传到虚拟机。

2.解压


3.配置、配置hive-site.xml




4.安装MySQL驱动、更换guava.jar



先删除低版本的


复制

5.进行初始化
./schematool -dbType mysql -initSchema

中间会有大片空白

6.启动Hadoop集群、Windows连接MySQL数据库


7.启动hive

8.出现问题,解决问题
解决办法,另一篇博客有
警告解决办法
9.进入hive

六、数据清洗分析——hive(azkaban)

过程:建立pydata数据库;使用它;建立data表格,从内部导入数据;建立分析表,包括地方岗位表,地方薪资表、学历薪资表和经验薪资表。之后逐个添加数据。
使用azkabban进行调度
新建job文件,编写命令,并打成压缩包。

在azkaban中新建项目,导入压缩包,之后执行这个项目。

建立sql文件,存放语句。这些语句也可以在hive中一个一个执行。这里由于是在hive中已经完成了数据分析的再次尝试,所以数据库名字不太一样,没有影响。

七、sqoop连接数据库,传输数据

sqoop连接数据库
把数据打开远程连接,hadoop也已经开启了。


数据库一致,连接成功。
2.建立数据库和表格。
建立pydata数据库,使用pydata,在下面建立岗位地方表jobname、地方薪资表address_sal、学历薪资表edu_sal和经验薪资表exper_sal。

3.利用sqoop传输数据
3.1岗位地方表jobname



这里只有传输的数据的表格不太一样,语句的其余地方不变

问题,很奇怪的问题

明明语句没有任何问题,但是就不成功,而且报错几乎没有。


这里的我是把端口前面的IP地址换成了主机名或者localhost或者是local host的IP地址,我之前是localhost的不行,换成虚拟机的IP就行了。有的人是连其他的虚拟机也有MySQL,可以尝试其他虚拟机的IP地址。

八、数据可视化

我这里只是一个例子,做的是静态的图片。如果想要做动态的,可以使用springboot,进行尝试。

hadoop实习项目——基于互联网招聘信息的统计分析相关推荐

  1. python3小项目——爬取招聘信息(智联招聘)

    2017年6月,花了大概一周的时间学习了以下内容,并基于此写了一个小项目.这里对其进行总结,说明其中遇到的问题和解决方案以及下一步计划. 学习的内容和网址: 斯巴达网站 斯巴达视频 python零基础 ...

  2. 实习僧——数据分析岗招聘信息分析 源代码

    爬取实习僧网站所有数据分析实习相关的岗位信息,对其做数据分析 import pandas as pd import matplotlib.pyplot as plt import seaborn as ...

  3. 手把手教你使用Python网络爬虫获取招聘信息

    1.前言 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. ...

  4. 综合项目:人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息

    ~~~~~~~~本文基于对三大主流招聘网站收集的信息进行清洗.处理.转换的基础上,对当前人工智能领域的行业现状进行了简要分析.通过对数据的特征工程处理生成适合于机器学习算法的数据集,并利用数据集对目前 ...

  5. 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)

    涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...

  6. 基于互联网的招聘信息统计与分析(作业)

    实习要求: ** 一.基于互联网的招聘信息统计与分析:** 项目流程 1.项目简介: 该项目通过挖掘和分析互联网的招聘信息,并将进行数据统计与分析,把不同的岗位薪酬,相同岗位的不同待遇等方面进行对比. ...

  7. visual画图软件_历史最全科技互联网类免费书籍、音乐、照片、软件、招聘信息整理汇总分享...

    本资源由科技爱好者周刊整理,收集了130多本与科技互联网相关的免费书籍资源,涉及Web 开发.系统管理.编程语言.数据库.软件开发.人工智能.理论书籍等方面.还包括音乐.图片.软件.招聘信息等方面资源 ...

  8. 互联网/计算机 校园招聘信息大全!

    要想找到好工作,及时获得大厂的招聘信息肯定是第一步啦! 微信公众号 "计算机校招",每天都会更新最新的"互联网/计算机/科技类 公司" 校园招聘信息,欢迎关注! ...

  9. Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

    Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...

最新文章

  1. 十步优化SQL Server中的数据访问
  2. linux 编译环境包,linux上war包编译环境搭建(示例代码)
  3. LeetCode-106:从中序与后序遍历序列构造二叉树
  4. 加拿大 计算机学校排名2015,2015年加拿大大学综合排名
  5. vue小练习(网页汇率器)
  6. mysql的right函数_MySQL数据库中系统函数right功能简介
  7. Linux挂载新硬盘与格式化数据盘和查看磁盘格式
  8. 计算机应用参考文献,计算机应用领域英文参考文献 哪里有计算机应用领域参考文献...
  9. 基于MindSpore复现Deeplabv3—语义分割
  10. SpringCloud Gateway 重试路由器的过滤器
  11. 北斗导航开始提供全球服务;个人所得税 App 已上线
  12. 目前国内常见医用显示器品牌
  13. vmstat 命令参数详解
  14. 告别学习,步入社会【学习网络推广,emmm】
  15. TZOJ 7034: 竹取飞翔 ~ Lunatic Princess 并查集+数学。
  16. BADUSB 橡皮鸭 键盘注入漏洞 USB协议漏洞
  17. 【bzoj4887】[Tjoi2017]可乐 矩阵乘法
  18. php招生广告语,学校招生广告语大全
  19. 3. kafka开启JMX
  20. web开发——前端基础(2)—— HTML属性的设置

热门文章

  1. 我的世界服务器怎么修改合成表,《我的世界》1.8原版自定义合成表教程 怎么自定义合成表...
  2. 10分钟完成蓝牙模块与手机之间的数据读写交互
  3. ResNet论文翻译——中英文对照
  4. delegate与event的区别
  5. MyEclipse启动报错The configuration area at is not writable
  6. C++连接CTP接口实现简单量化交易(行情、交易、k线、策略)
  7. 华为 单板硬件开发 2016校招
  8. java sqlserver2014_java 链接数据库 SQL Server 2014
  9. 企业云盘的协同办公模式可以让企业获得什么?
  10. linux直接运行程序加载动态库失败,扣丁学堂Linux培训详解程序运行时加载动态库失败解决方法...