爬取boss直聘网上海地区python相关职业招聘信息
比较简单的代码,有不少地方可以优化!
import requests
from lxml import etree
import osdef getpage(url):try:header={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}r=requests.get(url,headers=header)r.raise_for_status()r.encoding = r.apparent_encodinghtml = r.textreturn htmlexcept Exception as err:print(str(err))def parsepage(html):res=etree.HTML(html)quotes=res.xpath('//div[@class="job-primary"]')for quote in quotes:name=quote.xpath('//div[@class="job-title"]/text()')money=quote.xpath('//span[@class="red"]/text()')company = quote.xpath('//div[@class="company-text"]/h3/a/text()')url=quote.xpath('//div[@class="job-primary"]//h3[@class="name"]/a/@href')# didian=res.xpath('//*[@id="main"]/div/div[3]/ul/li[1]/div/div[1]/p/text()[1]')for i in range(0,len(name)):savepage(name[i],money[i],company[i],'http://www.zhipin.com'+url[i])def main(url):html=getpage(url)parsepage(html)def savepage(a,b,c,d):if not os.path.exists('jobinfo'):os.mkdir('jobinfo')with open('jobinfo/detail.json','a') as f:tplt="{0:{5}<30}\t{1:{5}<30}\t{2:{5}<30}\t{3:{5}<30}\t{4}"f.write(tplt.format(a,b,c,d,'\n',chr(12288)))f.close()if __name__=='__main__':list=[]for i in range(1,10):url='https://www.zhipin.com/c101020100-p100109/?page='+str(i)+'&ka=page-'+str(i)main(url)
爬取boss直聘网上海地区python相关职业招聘信息相关推荐
- python爬虫教程:Scrapy框架爬取Boss直聘网Python职位信息的源码
今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧 分析 使用Crawl ...
- 用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位 爬取python招聘 import requests from bs4 import BeautifulSoupdef fun(path):r1 ...
- 【python爬虫】在scrapy中利用代理IP(爬取BOSS直聘网)
同学们好,我又滚回来更新了,这一次我们要爬取的目标是BOSS直聘,BOSS直聘可以说是反爬虫一个很好的例子了,主要在于如果你访问他的次数过多,他就会出现验证码,要求你通过验证才能继续看,这样还算可以, ...
- Python3 爬取Boss直聘网 工作基本信息(数据清洗)
今天我们来搞一下Boss直聘网,试着拿一下工作相关的信息,有助于ITer们在找工作的时候,做决策分析. 说一下思路,跟之前做的小练习,动态爬取中国图书网相比,Boss直聘的网站是采取REST风格的GE ...
- python爬虫爬取Boss直聘网招聘信息
学校给我们大三同学找了一个培训组织,做了10天的实训,我学习的是python,最后是以一个爬虫程序为结业作业,就着这个实训,顺便发一个博客记录一下.考虑到我们即将就业,所以准备爬一个招聘网站,最终决定 ...
- Scrapy框架爬取Boss直聘网Python职位信息的源码
分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...
- Scrapy框架学习 - 爬取Boss直聘网Python职位信息
分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...
- Python爬取Boss直聘,获取全国Python薪酬榜
深感抱歉 本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了.晚上回来重装了系统,结果还是搞到了现在. 今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构 ...
- 爬取BOSS直聘信息并进行清理和可视化分析(python小白)
年底了,学习数据分析快四个月了.为了尽快找到一份数据分析相关的工作,计划把BOSS直聘上的相关职位都爬取下来分析分析,也好检验一下最近的学习成果.python新手,代码写的乱,将就看吧.首先,对给BO ...
最新文章
- JVM面试问题系列:JVM 配置常用参数和常用 GC 调优策略
- 编程之美读书笔记2.1—求二进制数中1的个数
- 大数据认知计算在内容安全管控中的应用
- 使用Html5+C#+微信 开发移动端游戏详细教程 :(三)使用html5引擎搭建游戏框架...
- 细胞自动机 c语言程序,Processing精彩例程之细胞自动机
- 视频压缩知识介绍(一)——评价标准及算法原理
- Another FTP daemon is already running?
- 如何生成UTF-16汉字编码表
- 2019-不得不了解的前端趋势
- Yate软交换机IPPBX与电话语音网关的初步配合
- python中终结一个循环的保留字_【单选题】以下可以终结一个循环的保留字是() (2.0分)
A. if B. break C. exit D. continue...
- 搜索引擎的网址收录链接
- 20个最佳的flash游戏教程
- java 批量读取excel表格内容_java 使用POI批量导入excel数据
- MFC制作Windows画图程序(二)
- 2020网络安全NISP一级(模拟题七)
- ARM中的字、半字、字节是多少位?
- From表单的属性action和method
- 二叉树思想实现的计算器
- Definition, Lemma ,Theorem ,Proposition ,Corollary ,Proof ,Conjecture ,Axiom 概念的含义和区别
热门文章
- oracle最新scn补丁,Oracle 系统改变号(SCN), Headroom, 安全和补丁信息
- python客户端调用freeradius实现认证授权功能
- 云计算的特点主要有哪些
- thymeleaf中th:field和th:value的区别
- 三菱FX3U与2台台达温控器modbus通讯案例
- word中的标题 设置了段前30磅 但是在每一页的最上边的标题显示的时候却显示不出来段前间距:
- Windows公网SSH远程公司内网linux
- 时序逻辑电路一——数字逻辑实验
- 洛谷P3355 骑士共存问题
- 什么是骨传导耳机,骨传导耳机原理?