使用Selenium爬取前程无忧网站最新发布的前五页招聘信息

本文主要使用Selenium调用谷歌浏览器，爬取前程无忧（https://mkt.51job.com）网站最近发布的招聘信息的前五页内容（本文以数据分析师为例子进行爬取），完整代码如下。

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By

url='https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
driver=webdriver.Chrome()
driver.get(url)
wait=WebDriverWait(driver,20)

data=[]
details_links=[]
for j in range(5):
print('正在爬取第'+str(j)+'页信息')
#确认是否有下一页按钮
confirm_bon=wait.until(
EC.element_to_be_clickable(
(By.CSS_SELECTOR,'#resultList > div.dw_page > div > div > div > ul > li:nth-child(8) > a')
)
)
#解析网页
soup=BeautifulSoup(driver.page_source,'html.parser')
soup_findall= soup.find('div',class_="dw_table").find_all('div',class_='el')
for i in soup_findall[1:]: #此处不能去掉soup_findall后面的[1:]，如果去掉就会报错，因为上面使用的find_all方法返回的是列表
dic={}
job_title=i.find('p',class_='t1').a['title']
details_link=i.find('p',class_='t1').a['href']

company_name=i.find('span',class_='t2').a['title']
working_place=i.find('span',class_='t3').text
salary=i.find('span',class_='t4').text
public_time=i.find('span',class_='t5').text

details_links.append(details_link)

dic={'职位名':job_title,'公司':company_name,'工作地址':working_place,'工资':salary,'发布时间':public_time}
data.append(dic)
confirm_bon.click()

#data=pd.DataFrame(data)
#print(data)
pd.DataFrame(data)

运行出来的结果截图如下：（因为空间有限，只截取到了前面一点点）

使用Selenium爬取前程无忧网站最新发布的前五页招聘信息相关推荐

爬虫之selenium爬取斗鱼网站
爬虫之selenium爬取斗鱼网站示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...
通过爬取前程无忧网站数据分析上海互联网行业招聘状况
1.项目要求内容完整程度.可用性(可操作.易操作.美观).时间先后.先进性等. 2.项目内容爬取前程无忧网站(网址:https://www.51job.com/)上的工作招聘信息(截止2018年1 ...
python爬取BT之家特定频道前5页电影信息（小白操作）
python爬取BT之家特定频道前5页电影信息(小白操作) 想要爬的网页如下,希望得到BT之家恐怖频道的电影信息,并存档xls 代码如下 import requests,openpyxl wb=ope ...
selenium爬取薄荷网站食品食品信息
今天带大家一起学(复)习模拟浏览器运行的库Selenium,它是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9 ...
Python爬虫（三）Beautiful Soup 实战，爬取前程无忧网站
Beautiful Soup介绍 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. Beautiful Soup自动将输入文档转换为Unicode ...
爬取前程无忧网站数据
1.爬取中华英才网,前程无忧网站的数据. spiders下: # -*- coding: utf-8 -*- import scrapy,copy from ..items import QcwyIt ...
python程序爬电影_Python爬取电影天堂最新发布影片消息
从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习. 虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大. --------- ...
Selenium爬取前程无忧51job招聘信息
import csv import random import time from lxml import etree from selenium import webdriver #实现规避检测 f ...
基于Java + selenium 爬取某网站千张图片
预览(可以根据循环次数爬取大量图片) 一.网页分析 1 点击F12进入检查,将小箭头移到网页中随便一张图片上 2 进一步我们可以发现每一张图片的链接都包含在<ul>标签的子标签<li ...

使用Selenium爬取前程无忧网站最新发布的前五页招聘信息

使用Selenium爬取前程无忧网站最新发布的前五页招聘信息相关推荐

最新文章

热门文章