八爪鱼数据抓取,智联招聘为例

一.八爪鱼抓取智联招聘信息

1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)

1.2点击下一步 基本流程如下点击下一步

1.3启动单机采集等待数据抓取完毕

1.4导出数据 csv格式

二.将信息导入到虚拟机

2.1 因访问外网需要建立socroueCRT映射

2.2使用Fz将数据导入虚拟机

2.3文件格式修改

iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码

iconv -f GBK -t UTF-8 file1 -o file2

三.将信息从虚拟机导入到hdfs

3.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的路径

四.将hdfs的csv文件导入到hive表中

4.1 创建表

4.2将数据导入

Load data input ‘/hdfs的路径’ into table 数据库名.表名;

五.将hive表换成hive中的事物表

5.1创建事物表

5.2将引号去除

5.3将工资平均导入新表

六.将salary的取值区间转换成平均值

七.分析工资最高的前三名职位

八.分析需求量最高的大数据职位前三名

九.分析需求量最高的三大行业

十.分析结果通过zeppelin展示

posted @ 2017-08-25 14:34 菜鸟的进击 阅读(...) 评论(...) 编辑 收藏

八爪鱼数据抓取,智联招聘为例相关推荐

  1. python爬虫招聘-Python爬虫抓取智联招聘(基础版)

    原标题:Python爬虫抓取智联招聘(基础版) 作者:C与Python实战 「若你有原创文章想与大家分享,欢迎投稿.」 对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪 ...

  2. Python爬虫项目:抓取智联招聘信息

    来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版 该文件运行后会产生一个代码,保存在这个Pyth ...

  3. 用python抓取智联招聘信息并存入excel

    用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...

  4. Python | 爬虫抓取智联招聘(基础版)

    对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工作的面试做准备?今天我们来抓取智联招聘的招聘信息,助你换工作成功! 运行平台: Windows   Python版本: ...

  5. Python爬虫:抓取智联招聘岗位信息和要求(基础版)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:王强 ( 想要学习Python?Python学习交流群 ...

  6. 北京python爬虫招聘信息_Python爬虫:抓取智联招聘岗位信息和要求(基础版)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:王强 ( 想要学习Python?Python学习交流群 ...

  7. Python爬虫:抓取智联招聘岗位信息和要求(进阶版)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:王强 ( 想要学习Python?Python学习交流群 ...

  8. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  9. Python爬虫抓取智联招聘(基础版)

    对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工作的面试做准备?今天我们来抓取智联招聘的招聘信息,助你换工作成功! 运行平台: Windows   Python版本: ...

  10. 手把手带你抓取智联招聘的“数据分析师”岗位!

    前言 很多网友在后台跟我留言,是否可以分享一些爬虫相关的文章,我便提供了我以前写过的爬虫文章的链接(如下链接所示),大家如果感兴趣的话也可以去看一看哦.在本文中,我将以智联招聘为例,分享一下如何抓取近 ...

最新文章

  1. python把图片另存为_pycharm sciview的图片另存为操作
  2. SSM学习(一)Mybatis
  3. Spring 从零開始-05
  4. java 常量区存放 new_java常量池与对象存储
  5. 力扣刷题【20,21,26,27,35】
  6. 测试Markdown
  7. [dfs] 洛谷 P1242 新汉诺塔
  8. C++ - 构造和析构 2018-01-10
  9. debian vbox设置_在Debian 9 Stretch系统上安装VirtualBox的两种方法
  10. 我如何判断漏洞奖励计划是否值得参加?如何获得最大收益?
  11. pythonATM,购物车项目实战3-视图函数
  12. JDBC学习(二、操作JDBC步骤,及相关API)
  13. USBVIEW(带已分配带宽显示功能)-电脑圈圈
  14. Android 读取U盘文件
  15. TCP socket 中的长连接与短连接的区别
  16. css直角线_CSS秘密花园:折角效果
  17. struts2系列-Real-BUUCTF平台
  18. 开发中常用的几种 Content-Type以及图片上传前后端分离开发处理方式
  19. 这就是神经网络 11:深度学习-语义分割-DFN、BiSeNet、ExFuse
  20. 中国人误传了数千年的七句话(不可不看!) 转帖

热门文章

  1. Unity3D 优化
  2. ucharts tooltip自定义换行及自定义弹窗位置
  3. 常见各种PLMN的含义(RPLMN,HPLMN...)以及自动选网原则
  4. Flink 第2章 状态及Checkpoint调优
  5. mysql grant 多个库_mysql grant 多个数据库
  6. Linux常用词汇及术语大全
  7. html粘贴代码后不显示图片,为什么我正确粘贴了背景源代码,并粘贴了图片地址后,看不到图片?...
  8. 随手记录JAVA微信扫码支付模式二功能
  9. 未来汽车产业新生态高峰论坛在深圳举行
  10. 读书笔记-《CNN真的需要下采样(上采样)吗?》