仅仅作为记录贴,无其余其他作用

import requests
from urllib.parse import quote
from openpyxl import Workbook
from openpyxl.styles import Alignment
from bs4 import BeautifulSoup
import timeheaders = {'Accept': 'application/json, text/javascript, */*; q=0.01','Host': 'www.lagou.com','Origin': 'https://www.lagou.com','Referer': 'https://www.lagou.com/jobs/list_python/p-city_252?px=default','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3754.400 QQBrowser/10.5.4034.400'
}
s = requests.Session()def get_pageNum(search_name):# 252是那个网站关于成都的编号res = s.get(f'https://www.lagou.com/jobs/list_{search_name}/p-city_252?px=default#filterBox', headers=headers)# 接下里获取文章页数soup = BeautifulSoup(res.text, 'lxml')page_num = int(soup.find('span', class_='span totalNum').string)return page_numdef get_info(url, page, search_name):data = {'first': 'false','pn': page,'kd': search_name}cookie = s.cookiesres = s.post(url, headers=headers, cookies=cookie, data=data)json_data = res.json()list_con = json_data['content']['positionResult']['result']info_list = []for i in list_con:info = []info.append(i.get('positionName', '暂暂无'))info.append(i.get('companyShortName', '暂无'))info.append(i.get('district', '暂无'))info.append(i.get('companyFullName', '暂无'))info.append(i.get('industryField', '暂无'))info.append(i.get('companySize', '暂无'))info.append(i.get('education', '暂无'))info.append(i.get('workYear', '暂无'))info.append(i.get('salary', '暂无'))info_list.append(info)return info_listdef main():print('当前时间:', time.strftime('%Y-%m-%d', time.localtime(time.time())), time.strftime('%H:%M:%S', time.localtime()))search_name = 'python'cityName = quote('成都')  # 查询地点 但其实只能查成都 有个参数除非你自己去查252那个page_num = get_pageNum(search_name)  # 这个可以随便修改wb = Workbook()  # 打开 excel 工作簿ws1 = wb.active  # 获取第一个sheetws1.title = search_namews1.merge_cells('A1:I1')  # 合并单元格ws1.cell(1, 1).value = 'Python职位信息'  # 合并的单元格内容ws1['A1'].alignment = Alignment(horizontal='center', vertical='center')ws1.append(['positionName', 'companyShortName', 'district', 'companyFullName', 'industryField', 'companySize', 'education','workYear', 'salary'])print(f'本次搜索结果共有{page_num}页')url = f'https://www.lagou.com/jobs/positionAjax.json?city={cityName}&needAddtionalResult=false'for i in range(page_num - 28):list = get_info(url, i + 1, 'python')for i in list:ws1.append(i)time.sleep(2)ws1.column_dimensions['A'].width = 36ws1.column_dimensions['B'].width = 35ws1.column_dimensions['C'].width = 8.78ws1.column_dimensions['D'].width = 44ws1.column_dimensions['E'].width = 23ws1.column_dimensions['F'].width = 12ws1.column_dimensions['G'].width = 9.78ws1.column_dimensions['H'].width = 10.89ws1.column_dimensions['I'].width = 8.11wb.save(f'{search_name}职位信息.xlsx')if __name__ == '__main__':main()

爬取拉勾网上求职信息,并导入Excel(记录代码贴)相关推荐

  1. python爬取拉勾网给定关键词职位信息存入数据库_Python 爬取拉勾网python职位信息...

    今天的任务是爬取拉勾网的职位信息. 首先,我们进入拉勾网,然后在职位搜索栏搜索Python 的同时,打开控制面板F12,来查看网页构成. 在XHR里,可以清楚的看见Ajax请求,所以需要使用sessi ...

  2. python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金

    原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...

  3. 利用Python爬取github上commits信息

    爬取github上commits在1200次以上的用户及commits分布情况 简介 准备 抓取用户个人页面 获取commits信息 打印符合条件用户最近一周commits信息 反爬虫问题 总结 简介 ...

  4. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  5. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  6. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  7. python爬取b站403_Python如何爬取b站热门视频并导入Excel

    代码如下 #encoding:utf-8 import requests from lxml import etree import xlwt import os # 爬取b站热门视频信息 def s ...

  8. 2020-09-22Python爬取基金的排名信息,写入excel中方便挑选基金

    基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择. 1.数据库准备 1.1.ub ...

  9. Python爬虫入门教程30:爬取拉勾网招聘数据信息

    前言

最新文章

  1. AWS 中国宁夏和北京区正式上线 Amazon SageMaker,中国用户终于能用到新工具和功能!
  2. Liferay标签(一):liferay-ui:search-container(1)
  3. ERROR in ./node_modules/element-ui/lib/theme-chalk/fonts/element-icons.ttf 1:0 Module parse failed:
  4. lodop+art-template实现web端漂亮的小票样式打印
  5. OpenGL HDR曝光的实例
  6. linux 内核驱动的poll,嵌入式Linux驱动开发(五)——poll机制原理以及驱动实现...
  7. PE文件结构详解(六)重定位
  8. Mac平台下安装与配置MySQL
  9. 横向的二级导航菜单,在多浏览器下可用
  10. Centos挂载iscsi存储
  11. 用户体验设计师、UI 设计师和交互设计师之间的区别,如何挑选图书?
  12. jsp中使用vue,jsp中使用elementUI
  13. 基于JAVA幼儿园管理系统计算机毕业设计源码+系统+lw文档+部署
  14. wireshark抓包红色_wireshark抓包常见提示含义解析
  15. vb与c语言数组传递,VB几种函数参数传递方法,Variant,数组,Optional,ParamArray
  16. 机器是如何学习的?(监督式学习)
  17. 2021-05-26SEO关键词KPI考核指标有哪些
  18. 使用ajax发送数组请求,Ajax请求传递数组参数
  19. 北京十大办公室租赁平台,高性价比
  20. DBMS的完整性违约处理机制

热门文章

  1. Protobuf—简介,优缺点
  2. Huffman编码的Matlab实现--用于单导联ECG数据的压缩和解压缩
  3. ARDUINO(os)基本介绍之开发版类型
  4. 21省人均GDP超过1万美元,北京以19.01万元继续稳居榜首
  5. IDEA 2022 Translation 翻译文档失败: 未知错误
  6. html5游戏ztype源码,新款HTML5游戏Z-type考验玩家的打字速度
  7. 【QT开发笔记-基础篇】| 第五章 绘图QPainter | 5.14 平移、旋转、缩放
  8. 小心C++的自动类型转换陷阱
  9. 流水线生产流程与批量生产流程的优缺点
  10. 鸿蒙启智 博学多才,明代大才子解缙博学多才, 对的下联构思巧妙, 让人佩服