selenium应用之拉勾简历邀约数据抓取与分析
需求故事:
又是一年一度的金三银四招聘季,拉勾上的简历邀请投递信息实在是看不过来了;于是决定利用强大的Python分析整理一下这些数据。
注:纯手打,如有错误欢迎评论区交流!
转载请注明出处:https://blog.csdn.net/testleaf/article/details/125982904
多谢!!!
目录
- 一、导入需要使用的库
- 二、打开拉勾简历邀约界面
- 三、提取拉勾简历邀约界面数据
- 四、存放数据到excel
- 五、制作词云图
一、导入需要使用的库
import time
from selenium import webdriver
import openpyxl
import wordcloud
说明:
1、time.sleep(x)
:可以控制程序休眠的时间(秒);
2、time.strftime("%Y-%m-%d %H-%M-%S", time.localtime())
:可以获取到当前的日期和时间数据;
3、selenium
:控制浏览器的一些自动操作;
4、openpyxl
:控制excel的读取和写入;
5、wordcloud
:根据字符串生成词云图片;
二、打开拉勾简历邀约界面
1、启动Chrome浏览器,最大化浏览器,并打开拉勾网站
driver = webdriver.Chrome()
driver.maximize_window()
driver.get('https://www.lagou.com/')
2、切换城市为广州,并点击登录按钮
driver.find_element_by_xpath('//a[@data-city="广州"]').click()
driver.find_element_by_xpath('//a[@class="login"]').click()
3、切换登录方式为密码登录,输入常用手机号/邮箱、密码,勾选同意用户协议及隐私政策,点击登录:
driver.find_element_by_xpath('//div[@class="change-login-type" and @data-lg-tj-no="0006"]').click()# 替换为自己的常用手机号/邮箱、密码
driver.find_element_by_xpath('//input[@placeholder="请输入常用手机号/邮箱"]').send_keys("XXXXXXXXXXX")
driver.find_element_by_xpath('//input[@placeholder="请输入密码"]').send_keys("XXXXXX")driver.find_element_by_xpath('//div[@class="login-checked"]/img[@class="no-checked"]').click()
driver.find_element_by_xpath('//div[@class="login-btn login-password sense_login_password btn-green"]').click()
4、图片识别验证
此处休眠10秒左右,供手动验证;
time.sleep(10)
手动验证完毕,点击确认,就登录成功了;
5、点击小铃铛,点击查看全部消息,跳转至简历邀约汇总界面
driver.find_element_by_xpath('//a[@class="msg_group"]').click()
driver.find_element_by_xpath('//div[@class="sc-dlnjwi dJXsSm"]/span').click()
6、简历投递邀约实在是太多了
selenium应用之拉勾简历邀约数据抓取与分析相关推荐
- python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据
python3爬虫系列23之selenium+腾讯OCR识别验证码登录微博且抓取数据 1.前言 上一篇是一个 python3爬虫系列22之selenium模拟登录需要验证码的微博且抓取数据, 我们是首 ...
- selenium模拟登录拉勾(超级鹰)
一.打开网页 url:https://www.lagou.com/ 二.关闭弹窗 三.点击登录 四.输入账号密码 五.勾选同意协议并登录 六.超级鹰验证码识别 七.判断是否登录成功与是否失败次数过多 ...
- Python爬虫selenium抓取Xbox
拿到一个网页先不着急抓取 首先分析网站 1.网站分析 1.1.用到的模块 selenium.time.csv.options 1.2.get请求后 设置 ...
- 爬虫抓取58简历之字库解密
爬虫抓取58同城 反反爬虫之字库解密 2019.03.01更新 前言 看不懂的字体 解密字库 字库自动解密API 2019.03.01更新 定制简历采集软件wechat联系13939147257. 解 ...
- 使用selenium+Chrome()无图版模拟浏览器进行抓取淘宝商品信息
说起淘宝,大家肯定先想起来的是各种各样的吃的喝的玩的,那么什么样的吃的喝的玩的销量高呢,有没有一种方法将商品信息抓下来我们做一个参考呢,下边就为大家带来我之前在崔庆才大神的参考下,将代码改写了,相对没 ...
- 拉勾招聘,自动化投递简历脚本
本人也只是出步了解自动化,脚本写得比较烂,但基本上运行没问题,希望有技术的大大能给些指导. 由于最近在找工作,智联跟前程无忧都有一键投递功能,拉勾跟BOSS直聘的话只能一个一个点,对于正在海投的小伙伴 ...
- 1.2亿美金“卖身”,拉勾在赌什么?
价值君注:拉勾被前程无忧控股一事,早在后者这家美股上市公司正式发布公告前传闻消息就已经扩散了很久.而受限于SEC公告规则,拉勾的高管团队未对外回应,直到9月21号晚上,才正式告知了公司的PR部门. & ...
- 麻雀虽小五脏俱全的Vue拉勾项目,看看应该有帮助
全栈系列Vue版拉勾,客官们来瞧瞧 模拟拉勾app系列---vue前端界面 github地址,来猛戳吧 前言 本项目是本人在闲暇时间编写的一个初级引导项目,麻雀虽小五脏俱全,所使用的东西绝大多数在开发 ...
- 拉勾教育-求职技巧总结
求职技巧 文章目录 求职技巧 把握投递简历的黄金时间段 读懂职位 JD,精准投递简历 做好充分的准备去面试 电话沟通 如何全面的介绍自己 内容 关键 工作离职原因 职业规划 工作中更看重的是什么 还有 ...
最新文章
- HTML的数据 转成 JSON数据中的 因HTML有大量及其它特殊符号会把JSON字符串截断该怎么...
- uva10050-罢工
- qgc地面站如何导入离线地图_地面站开发资源汇总
- cookie记录了服务器相关的信息,使用cookie记录信息(精选).ppt
- 【ES】ES 写入数据流程
- SpringCloud学习笔记013---Spring的@PostConstruct标签_初始化项目字典
- 记一次失败的RecycleView滑动定位
- ic 卡获取帐号apdu指令_APDU指令格式解析
- android 支付宝未安装,调用支付宝接口Android客户端没有支付宝APP的情况下解决无法调用支付宝页面的问题...
- AWS扩容硬盘(转)
- 用ros3.3中的nth进行带宽叠加
- Pandas05--变形
- php怎么读取txt文件_PHP读取文件内容的五种方式
- Android学习笔记_28_手势识别
- OpenHarmony轻量系统开发【11】移植MQTT
- Windows下清理redis缓存
- 照片损坏了无法显示还能修复么?
- 火爆全网的ChatGPT上手体验,文尾免费送账号!
- H.266视频编解码标准(H.266的新技术介绍)
- 五种JavaScript富文本编辑器,总有一款适合你
热门文章
- 教学管理系统的设计与实现(三)(主要模块的设计)
- 任务 04、Midjourney提示词使用初指南:AI绘画不再难
- 常见的几种normalization方法
- 王垠 解密计算机科学,王垠:谈“P=NP?”
- NestedScrollView和ScrollView常见问题总结
- 我对时间管理,对利用工具的一些看法
- 087:vue+openlayers 地图中某位置闪烁点动画 (示例代码)
- @Transactional(propagation=Propagation.REQUIRED) 事务传播行为种类(注解方式)
- yolov5:onnx2caffe
- 《你要相信 没有到不了的明天》支撑我走过无数艰难岁月