python学习 爬取中华英才网工作职位
一、技能:
(1)scrapy爬虫的原理;
(2)xpath获取网页信息以及正则表达式的使用;
二、代码:
(1)创建工程:
scrapy startproject wuyoujob1
在spider文件夹scrapy genspider wuyoujob1 "search.chinahr.com" ---- 创建基础类
(1)定义要爬取返回的内容(items.py):
import scrapyclass WuyoujobItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()company = scrapy.Field()address = scrapy.Field()money = scrapy.Field()data = scrapy.Field()
(2)主要实现代码
# -*- coding: utf-8 -*-
import scrapy
import re
from wuyoujob.items import WuyoujobItem
import urllib as parseclass Wuyoujob1Spider(scrapy.Spider):name = 'wuyoujob1'allowed_domains = ['search.chinahr.com']start_urls = ['http://search.chinahr.com/sh/job/pn1/?key=IOS']def parse(self, response):#print response.body#定义workItem用于保存获取的信息,并定义xpath的根节点workItem = []workname_list = response.xpath('//div[@class="jobList pc_search_listclick"]')for each in workname_list:item = WuyoujobItem()#使用xpath工具截取需要的信息name = each.xpath('./ul[@class="l1"]/li[@class="job-name"]/text()').extract()address = each.xpath('./ul[@class="l2"]/li[@class="job-address"]/text()').extract()company = each.xpath('./ul[@class="l2"]/li[@class="job-company"]/text()').extract()data = each.xpath('./ul[@class="l1"]/li[@class="fabu-date"]/text()').extract()money = each.xpath('./ul[@class="l2"]/li[@class="job-salary"]/text()').extract()#保存获取到的信息item['name'] = name[0]item['company'] = company[0]item['address'] = address[0]item['data'] = data[0] item['money'] = money[0]workItem.append(item)#搜索当前的页数curpage = re.search('(\d+)',response.url).group(1)#对页数进行加以操作page = int(curpage) + 1url = re.sub('(\d+)',str(page),response.url,1)#重新发送请求,并重新调用parse函数实现自动翻页的功能yield scrapy.Request(url, callback = self.parse)yield item#return workItem
三、效果:
执行程序: scrapy crawl wuyoujob1 -o iso.csv,会生成对应的表格如下:
作者:frank_zyp
您的支持是对博主最大的鼓励,感谢您的认真阅读。
本文无所谓版权,欢迎转载。
python学习 爬取中华英才网工作职位相关推荐
- requests-bs4路线爬取中华英才网并分析热门职位及其薪资
requests-bs4路线爬取中华英才网并分析热门职位及其薪资 在现在这个信息爆炸的时代,每人每分每秒都在产生数据,数据单位是PB量级.在如此巨大的数据中,通过数据分析可以使企业清晰的了解到目前的现 ...
- Scrapy模块爬取中华英才网招聘信息(分页)
import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):name ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- Python 数据采集-爬取学校官网新闻标题与链接(基础)
Python 爬虫爬取学校官网新闻标题与链接 一.前言 二.扩展库简要介绍 01 urllib 库 (1)urllib.request.urlopen() 02 BeautifulSoup 库 (1) ...
- Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻 一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
- Python 数据采集-爬取学校官网新闻标题与链接(进阶)
Python 爬虫爬取学校官网新闻标题与链接(进阶) 前言 一.拼接路径 二.存储 三.读取翻页数据 四.完整代码展示 五.小结 前言 ⭐ 本文基于学校的课程内容进行总结,所爬取的数据均为学习使用,请 ...
- python 学习 爬取证券之星的股票信息
python 学习 爬取证券之星的股票信息 选择原因,数据好获取,便于操作! 第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站 ![在这里插入图片描述](https://img ...
- 使用python爬取猎聘网的职位信息
闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...
最新文章
- 主程的晋升攻略(1):重要的引言
- js中对日期进行加减
- (转贴) C#编码标准--编码习惯
- 使用IAM保护您的AWS基础架构
- 32位系统win2008+mssql2008 6G内存折腾纪实
- 考研 | 研究生考试入门,送给刚刚进入寒假的大三的你
- 使用VS2010+OpenCV2.4.9简单图像水印代码
- 计算机英语讲课笔记05
- 如何用C#将tif格式的图片转化成jpg?
- c/c++中指针数组和数组指针的区别
- shedlock 重启系统报错问题_闲谈ShedLock解决分布式定时任务重复执行问题
- [三思笔记]一步一步学RMAN
- 良心安利三大游戏音效素材网站
- java外卖系统源码_java外卖订餐系统小项目
- Maven的setting配置详解
- imageview设置资源图片
- 直播预告 | 哈工大HIT-SCIR实验室专场二
- rsyslog 定义格式
- mysql的配置中主机地址怎么填_连接到mysql主机数据库配置命令-mysql主机地址
- 郑州市各区劳动仲裁委员会办公地址及电话
热门文章
- harrynull过关之路(11-20)
- 梅西百货公司 - Macy‘s - Shop Fashion Clothing Accessories
- Text Kit框架——动态字体及cell动态高度
- 解决邮件标题乱码问题
- AppScan 10中文版
- (附源码)springboot音乐播放器小程序 毕业设计 170900
- 5月29号,Python列表
- 从 .NET 开发人员的角度理解 Excel 对象模型 (From MSDN)
- 7-7 The Whimper of Universe (30 分)
- 思考如何概括“技术美术”(Technical Artist)的职责