hadoop实习项目——基于互联网招聘信息的统计分析
一、项目要求
二、项目所需数据
使用爬虫对拉勾网进行爬取,爬取和python有关的数据。同时对数据进行处理,把薪资处理成int型,取中间值。
三、配置虚拟机
结合原本教学中已经配置好的三台虚拟机,之后创建第四台虚拟机hadoop004
之后修改IP地址、主机名、建立映射关系等。
同时使用zookeeper让Hadoop004加入原本的集群中,但是我没配,就没有图了。
四、flume日志采集(使用负载均衡)
过程:把data.txt上传到虚拟机中,同时使用flume监听另一个txt文件,使用重定向,将data.txt文件中的内容写入到这个txt文件中,将内容上传到HDFS中。
hadoop001的文件,和另外两台不一样。有需要的可以留言。
分别在01、02、03使用命令启动,先启动02和03
文件内容写入python.txt
cat pydata.txt >>python.txt
2.上传文件、查看
随机选择一个文件,下载到本地,查看。
这个薪资没有处理,可以先处理再传,也可以传两遍。
五、安装hive
1.下载hive压缩包并上传到虚拟机。
2.解压
3.配置、配置hive-site.xml
4.安装MySQL驱动、更换guava.jar
先删除低版本的
复制
5.进行初始化
./schematool -dbType mysql -initSchema
中间会有大片空白
6.启动Hadoop集群、Windows连接MySQL数据库
7.启动hive
8.出现问题,解决问题
解决办法,另一篇博客有
警告解决办法
9.进入hive
六、数据清洗分析——hive(azkaban)
过程:建立pydata数据库;使用它;建立data表格,从内部导入数据;建立分析表,包括地方岗位表,地方薪资表、学历薪资表和经验薪资表。之后逐个添加数据。
使用azkabban进行调度
新建job文件,编写命令,并打成压缩包。
在azkaban中新建项目,导入压缩包,之后执行这个项目。
建立sql文件,存放语句。这些语句也可以在hive中一个一个执行。这里由于是在hive中已经完成了数据分析的再次尝试,所以数据库名字不太一样,没有影响。
七、sqoop连接数据库,传输数据
sqoop连接数据库
把数据打开远程连接,hadoop也已经开启了。
数据库一致,连接成功。
2.建立数据库和表格。
建立pydata数据库,使用pydata,在下面建立岗位地方表jobname、地方薪资表address_sal、学历薪资表edu_sal和经验薪资表exper_sal。
3.利用sqoop传输数据
3.1岗位地方表jobname
这里只有传输的数据的表格不太一样,语句的其余地方不变
问题,很奇怪的问题
明明语句没有任何问题,但是就不成功,而且报错几乎没有。
这里的我是把端口前面的IP地址换成了主机名或者localhost或者是local host的IP地址,我之前是localhost的不行,换成虚拟机的IP就行了。有的人是连其他的虚拟机也有MySQL,可以尝试其他虚拟机的IP地址。
八、数据可视化
我这里只是一个例子,做的是静态的图片。如果想要做动态的,可以使用springboot,进行尝试。
hadoop实习项目——基于互联网招聘信息的统计分析相关推荐
- python3小项目——爬取招聘信息(智联招聘)
2017年6月,花了大概一周的时间学习了以下内容,并基于此写了一个小项目.这里对其进行总结,说明其中遇到的问题和解决方案以及下一步计划. 学习的内容和网址: 斯巴达网站 斯巴达视频 python零基础 ...
- 实习僧——数据分析岗招聘信息分析 源代码
爬取实习僧网站所有数据分析实习相关的岗位信息,对其做数据分析 import pandas as pd import matplotlib.pyplot as plt import seaborn as ...
- 手把手教你使用Python网络爬虫获取招聘信息
1.前言 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息.可是招聘信息有一些是错综复杂的.而且不能把全部的信息全部罗列出来,以外卖的58招聘网站来看,资料整理的不清晰. ...
- 综合项目:人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息
~~~~~~~~本文基于对三大主流招聘网站收集的信息进行清洗.处理.转换的基础上,对当前人工智能领域的行业现状进行了简要分析.通过对数据的特征工程处理生成适合于机器学习算法的数据集,并利用数据集对目前 ...
- 基于SpringBoot框架Wbe Magic爬虫框架爬取招聘信息项目(1)
涉及的技术点:SpringBoot框架.Web Magic爬⾍框架.MySQL.mybatis. 使用语言:Java. 使用工具:idea. 本篇文章主要讲解搭建项目 以及 如何将页面数据输出打印到i ...
- 基于互联网的招聘信息统计与分析(作业)
实习要求: ** 一.基于互联网的招聘信息统计与分析:** 项目流程 1.项目简介: 该项目通过挖掘和分析互联网的招聘信息,并将进行数据统计与分析,把不同的岗位薪酬,相同岗位的不同待遇等方面进行对比. ...
- visual画图软件_历史最全科技互联网类免费书籍、音乐、照片、软件、招聘信息整理汇总分享...
本资源由科技爱好者周刊整理,收集了130多本与科技互联网相关的免费书籍资源,涉及Web 开发.系统管理.编程语言.数据库.软件开发.人工智能.理论书籍等方面.还包括音乐.图片.软件.招聘信息等方面资源 ...
- 互联网/计算机 校园招聘信息大全!
要想找到好工作,及时获得大厂的招聘信息肯定是第一步啦! 微信公众号 "计算机校招",每天都会更新最新的"互联网/计算机/科技类 公司" 校园招聘信息,欢迎关注! ...
- Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
最新文章
- 十步优化SQL Server中的数据访问
- linux 编译环境包,linux上war包编译环境搭建(示例代码)
- LeetCode-106:从中序与后序遍历序列构造二叉树
- 加拿大 计算机学校排名2015,2015年加拿大大学综合排名
- vue小练习(网页汇率器)
- mysql的right函数_MySQL数据库中系统函数right功能简介
- Linux挂载新硬盘与格式化数据盘和查看磁盘格式
- 计算机应用参考文献,计算机应用领域英文参考文献 哪里有计算机应用领域参考文献...
- 基于MindSpore复现Deeplabv3—语义分割
- SpringCloud Gateway 重试路由器的过滤器
- 北斗导航开始提供全球服务;个人所得税 App 已上线
- 目前国内常见医用显示器品牌
- vmstat 命令参数详解
- 告别学习,步入社会【学习网络推广,emmm】
- TZOJ 7034: 竹取飞翔 ~ Lunatic Princess 并查集+数学。
- BADUSB 橡皮鸭 键盘注入漏洞 USB协议漏洞
- 【bzoj4887】[Tjoi2017]可乐 矩阵乘法
- php招生广告语,学校招生广告语大全
- 3. kafka开启JMX
- web开发——前端基础(2)—— HTML属性的设置
热门文章
- 我的世界服务器怎么修改合成表,《我的世界》1.8原版自定义合成表教程 怎么自定义合成表...
- 10分钟完成蓝牙模块与手机之间的数据读写交互
- ResNet论文翻译——中英文对照
- delegate与event的区别
- MyEclipse启动报错The configuration area at is not writable
- C++连接CTP接口实现简单量化交易(行情、交易、k线、策略)
- 华为 单板硬件开发 2016校招
- java sqlserver2014_java 链接数据库 SQL Server 2014
- 企业云盘的协同办公模式可以让企业获得什么?
- linux直接运行程序加载动态库失败,扣丁学堂Linux培训详解程序运行时加载动态库失败解决方法...