比较简单的代码,有不少地方可以优化!

import requests
from lxml import etree
import osdef getpage(url):try:header={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}r=requests.get(url,headers=header)r.raise_for_status()r.encoding = r.apparent_encodinghtml = r.textreturn htmlexcept Exception as err:print(str(err))def parsepage(html):res=etree.HTML(html)quotes=res.xpath('//div[@class="job-primary"]')for quote in quotes:name=quote.xpath('//div[@class="job-title"]/text()')money=quote.xpath('//span[@class="red"]/text()')company = quote.xpath('//div[@class="company-text"]/h3/a/text()')url=quote.xpath('//div[@class="job-primary"]//h3[@class="name"]/a/@href')# didian=res.xpath('//*[@id="main"]/div/div[3]/ul/li[1]/div/div[1]/p/text()[1]')for i in range(0,len(name)):savepage(name[i],money[i],company[i],'http://www.zhipin.com'+url[i])def main(url):html=getpage(url)parsepage(html)def savepage(a,b,c,d):if not os.path.exists('jobinfo'):os.mkdir('jobinfo')with open('jobinfo/detail.json','a') as f:tplt="{0:{5}<30}\t{1:{5}<30}\t{2:{5}<30}\t{3:{5}<30}\t{4}"f.write(tplt.format(a,b,c,d,'\n',chr(12288)))f.close()if __name__=='__main__':list=[]for i in range(1,10):url='https://www.zhipin.com/c101020100-p100109/?page='+str(i)+'&ka=page-'+str(i)main(url)

爬取boss直聘网上海地区python相关职业招聘信息相关推荐

  1. python爬虫教程:Scrapy框架爬取Boss直聘网Python职位信息的源码

    今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧 分析 使用Crawl ...

  2. 用BeautifulSoup简单爬取BOSS直聘网岗位

    用BeautifulSoup简单爬取BOSS直聘网岗位 爬取python招聘 import requests from bs4 import BeautifulSoupdef fun(path):r1 ...

  3. 【python爬虫】在scrapy中利用代理IP(爬取BOSS直聘网)

    同学们好,我又滚回来更新了,这一次我们要爬取的目标是BOSS直聘,BOSS直聘可以说是反爬虫一个很好的例子了,主要在于如果你访问他的次数过多,他就会出现验证码,要求你通过验证才能继续看,这样还算可以, ...

  4. Python3 爬取Boss直聘网 工作基本信息(数据清洗)

    今天我们来搞一下Boss直聘网,试着拿一下工作相关的信息,有助于ITer们在找工作的时候,做决策分析. 说一下思路,跟之前做的小练习,动态爬取中国图书网相比,Boss直聘的网站是采取REST风格的GE ...

  5. python爬虫爬取Boss直聘网招聘信息

    学校给我们大三同学找了一个培训组织,做了10天的实训,我学习的是python,最后是以一个爬虫程序为结业作业,就着这个实训,顺便发一个博客记录一下.考虑到我们即将就业,所以准备爬一个招聘网站,最终决定 ...

  6. Scrapy框架爬取Boss直聘网Python职位信息的源码

    分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...

  7. Scrapy框架学习 - 爬取Boss直聘网Python职位信息

    分析 使用CrawlSpider结合LinkExtractor和Rule爬取网页信息 LinkExtractor用于定义链接提取规则,一般使用allow参数即可 LinkExtractor(allow ...

  8. Python爬取Boss直聘,获取全国Python薪酬榜

    深感抱歉 本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了.晚上回来重装了系统,结果还是搞到了现在. 今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构 ...

  9. 爬取BOSS直聘信息并进行清理和可视化分析(python小白)

    年底了,学习数据分析快四个月了.为了尽快找到一份数据分析相关的工作,计划把BOSS直聘上的相关职位都爬取下来分析分析,也好检验一下最近的学习成果.python新手,代码写的乱,将就看吧.首先,对给BO ...

最新文章

  1. JVM面试问题系列:JVM 配置常用参数和常用 GC 调优策略
  2. 编程之美读书笔记2.1—求二进制数中1的个数
  3. 大数据认知计算在内容安全管控中的应用
  4. 使用Html5+C#+微信 开发移动端游戏详细教程 :(三)使用html5引擎搭建游戏框架...
  5. 细胞自动机 c语言程序,Processing精彩例程之细胞自动机
  6. 视频压缩知识介绍(一)——评价标准及算法原理
  7. Another FTP daemon is already running?
  8. 如何生成UTF-16汉字编码表
  9. 2019-不得不了解的前端趋势
  10. Yate软交换机IPPBX与电话语音网关的初步配合
  11. python中终结一个循环的保留字_【单选题】以下可以终结一个循环的保留字是() (2.0分) A. if B. break C. exit D. continue...
  12. 搜索引擎的网址收录链接
  13. 20个最佳的flash游戏教程
  14. java 批量读取excel表格内容_java 使用POI批量导入excel数据
  15. MFC制作Windows画图程序(二)
  16. 2020网络安全NISP一级(模拟题七)
  17. ARM中的字、半字、字节是多少位?
  18. From表单的属性action和method
  19. 二叉树思想实现的计算器
  20. Definition, Lemma ,Theorem ,Proposition ,Corollary ,Proof ,Conjecture ,Axiom 概念的含义和区别

热门文章

  1. oracle最新scn补丁,Oracle 系统改变号(SCN), Headroom, 安全和补丁信息
  2. python客户端调用freeradius实现认证授权功能
  3. 云计算的特点主要有哪些
  4. thymeleaf中th:field和th:value的区别
  5. 三菱FX3U与2台台达温控器modbus通讯案例
  6. word中的标题   设置了段前30磅 但是在每一页的最上边的标题显示的时候却显示不出来段前间距:
  7. Windows公网SSH远程公司内网linux
  8. 时序逻辑电路一——数字逻辑实验
  9. 洛谷P3355 骑士共存问题
  10. 什么是骨传导耳机,骨传导耳机原理?