一、技能:

(1)scrapy爬虫的原理;

(2)xpath获取网页信息以及正则表达式的使用;

二、代码:

(1)创建工程:

  scrapy   startproject   wuyoujob1

  在spider文件夹scrapy genspider wuyoujob1 "search.chinahr.com" ---- 创建基础类

(1)定义要爬取返回的内容(items.py):

import scrapyclass WuyoujobItem(scrapy.Item):# define the fields for your item here like:name    = scrapy.Field()company = scrapy.Field()address = scrapy.Field()money   = scrapy.Field()data    = scrapy.Field()

(2)主要实现代码

# -*- coding: utf-8 -*-
import scrapy
import re
from wuyoujob.items import WuyoujobItem
import urllib as parseclass Wuyoujob1Spider(scrapy.Spider):name = 'wuyoujob1'allowed_domains = ['search.chinahr.com']start_urls = ['http://search.chinahr.com/sh/job/pn1/?key=IOS']def parse(self, response):#print response.body#定义workItem用于保存获取的信息,并定义xpath的根节点workItem = []workname_list = response.xpath('//div[@class="jobList pc_search_listclick"]')for each in workname_list:item = WuyoujobItem()#使用xpath工具截取需要的信息name = each.xpath('./ul[@class="l1"]/li[@class="job-name"]/text()').extract()address = each.xpath('./ul[@class="l2"]/li[@class="job-address"]/text()').extract()company = each.xpath('./ul[@class="l2"]/li[@class="job-company"]/text()').extract()data = each.xpath('./ul[@class="l1"]/li[@class="fabu-date"]/text()').extract()money = each.xpath('./ul[@class="l2"]/li[@class="job-salary"]/text()').extract()#保存获取到的信息item['name'] = name[0]item['company'] = company[0]item['address'] = address[0]item['data'] = data[0]   item['money'] = money[0]workItem.append(item)#搜索当前的页数curpage = re.search('(\d+)',response.url).group(1)#对页数进行加以操作page = int(curpage) + 1url = re.sub('(\d+)',str(page),response.url,1)#重新发送请求,并重新调用parse函数实现自动翻页的功能yield scrapy.Request(url, callback = self.parse)yield item#return workItem

三、效果:

  执行程序:  scrapy  crawl  wuyoujob1  -o  iso.csv,会生成对应的表格如下:

作者:frank_zyp
您的支持是对博主最大的鼓励,感谢您的认真阅读。
本文无所谓版权,欢迎转载。

python学习 爬取中华英才网工作职位相关推荐

  1. requests-bs4路线爬取中华英才网并分析热门职位及其薪资

    requests-bs4路线爬取中华英才网并分析热门职位及其薪资 在现在这个信息爆炸的时代,每人每分每秒都在产生数据,数据单位是PB量级.在如此巨大的数据中,通过数据分析可以使企业清晰的了解到目前的现 ...

  2. Scrapy模块爬取中华英才网招聘信息(分页)

    import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):name ...

  3. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  4. Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  5. Python 数据采集-爬取学校官网新闻标题与链接(基础)

    Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...

  6. Python+scrapy爬取36氪网

    Python+Scrapy爬取36氪网新闻 一.准备工作: ​ ①安装python3 ​ ②安装scrapy ​ ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...

  7. Python 数据采集-爬取学校官网新闻标题与链接(进阶)

    Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...

  8. python 学习 爬取证券之星的股票信息

    python 学习 爬取证券之星的股票信息 选择原因,数据好获取,便于操作! 第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站 ![在这里插入图片描述](https://img ...

  9. 使用python爬取猎聘网的职位信息

    闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...

最新文章

  1. 主程的晋升攻略(1):重要的引言
  2. js中对日期进行加减
  3. (转贴) C#编码标准--编码习惯
  4. 使用IAM保护您的AWS基础架构
  5. 32位系统win2008+mssql2008 6G内存折腾纪实
  6. 考研 | 研究生考试入门,送给刚刚进入寒假的大三的你
  7. 使用VS2010+OpenCV2.4.9简单图像水印代码
  8. 计算机英语讲课笔记05
  9. 如何用C#将tif格式的图片转化成jpg?
  10. c/c++中指针数组和数组指针的区别
  11. shedlock 重启系统报错问题_闲谈ShedLock解决分布式定时任务重复执行问题
  12. [三思笔记]一步一步学RMAN
  13. 良心安利三大游戏音效素材网站
  14. java外卖系统源码_java外卖订餐系统小项目
  15. Maven的setting配置详解
  16. imageview设置资源图片
  17. 直播预告 | 哈工大HIT-SCIR实验室专场二
  18. rsyslog 定义格式
  19. mysql的配置中主机地址怎么填_连接到mysql主机数据库配置命令-mysql主机地址
  20. 郑州市各区劳动仲裁委员会办公地址及电话

热门文章

  1. harrynull过关之路(11-20)
  2. 梅西百货公司 - Macy‘s - Shop Fashion Clothing Accessories
  3. Text Kit框架——动态字体及cell动态高度
  4. 解决邮件标题乱码问题
  5. AppScan 10中文版
  6. (附源码)springboot音乐播放器小程序 毕业设计 170900
  7. 5月29号,Python列表
  8. 从 .NET 开发人员的角度理解 Excel 对象模型 (From MSDN)
  9. 7-7 The Whimper of Universe (30 分)
  10. 思考如何概括“技术美术”(Technical Artist)的职责