python学习爬取中华英才网工作职位

一、技能：

（1）scrapy爬虫的原理；

（2）xpath获取网页信息以及正则表达式的使用；

二、代码：

（1）创建工程：

　　scrapy startproject wuyoujob1

　　在spider文件夹scrapy genspider wuyoujob1 "search.chinahr.com" ---- 创建基础类

（1）定义要爬取返回的内容(items.py)：

import scrapyclass WuyoujobItem(scrapy.Item):# define the fields for your item here like:name    = scrapy.Field()company = scrapy.Field()address = scrapy.Field()money   = scrapy.Field()data    = scrapy.Field()

（2）主要实现代码

# -*- coding: utf-8 -*-
import scrapy
import re
from wuyoujob.items import WuyoujobItem
import urllib as parseclass Wuyoujob1Spider(scrapy.Spider):name = 'wuyoujob1'allowed_domains = ['search.chinahr.com']start_urls = ['http://search.chinahr.com/sh/job/pn1/?key=IOS']def parse(self, response):#print response.body#定义workItem用于保存获取的信息,并定义xpath的根节点workItem = []workname_list = response.xpath('//div[@class="jobList pc_search_listclick"]')for each in workname_list:item = WuyoujobItem()#使用xpath工具截取需要的信息name = each.xpath('./ul[@class="l1"]/li[@class="job-name"]/text()').extract()address = each.xpath('./ul[@class="l2"]/li[@class="job-address"]/text()').extract()company = each.xpath('./ul[@class="l2"]/li[@class="job-company"]/text()').extract()data = each.xpath('./ul[@class="l1"]/li[@class="fabu-date"]/text()').extract()money = each.xpath('./ul[@class="l2"]/li[@class="job-salary"]/text()').extract()#保存获取到的信息item['name'] = name[0]item['company'] = company[0]item['address'] = address[0]item['data'] = data[0]   item['money'] = money[0]workItem.append(item)#搜索当前的页数curpage = re.search('(\d+)',response.url).group(1)#对页数进行加以操作page = int(curpage) + 1url = re.sub('(\d+)',str(page),response.url,1)#重新发送请求,并重新调用parse函数实现自动翻页的功能yield scrapy.Request(url, callback = self.parse)yield item#return workItem

三、效果：

　　执行程序： scrapy crawl wuyoujob1 -o iso.csv，会生成对应的表格如下：

作者：frank_zyp
您的支持是对博主最大的鼓励，感谢您的认真阅读。
本文无所谓版权，欢迎转载。

python学习爬取中华英才网工作职位相关推荐

requests-bs4路线爬取中华英才网并分析热门职位及其薪资
requests-bs4路线爬取中华英才网并分析热门职位及其薪资在现在这个信息爆炸的时代,每人每分每秒都在产生数据,数据单位是PB量级.在如此巨大的数据中,通过数据分析可以使企业清晰的了解到目前的现 ...
Scrapy模块爬取中华英才网招聘信息(分页)
import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):name ...
python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...
Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天,试着爬取了煎蛋网的图片. 用到的包: ...
Python 数据采集-爬取学校官网新闻标题与链接（基础）
Python 爬虫爬取学校官网新闻标题与链接一.前言二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
Python 数据采集-爬取学校官网新闻标题与链接（进阶）
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言一.拼接路径二.存储三.读取翻页数据四.完整代码展示五.小结前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
python 学习爬取证券之星的股票信息
python 学习爬取证券之星的股票信息选择原因,数据好获取,便于操作! 第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站 ![在这里插入图片描述](https://img ...
使用python爬取猎聘网的职位信息
闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...

python学习爬取中华英才网工作职位

python学习爬取中华英才网工作职位相关推荐

最新文章

热门文章

python学习 爬取中华英才网工作职位

python学习 爬取中华英才网工作职位相关推荐

最新文章

热门文章

python学习爬取中华英才网工作职位

python学习爬取中华英才网工作职位相关推荐