本文主要使用Selenium调用谷歌浏览器,爬取前程无忧(https://mkt.51job.com)网站最近发布的招聘信息的前五页内容(本文以数据分析师为例子进行爬取),完整代码如下。

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By

url='https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
driver=webdriver.Chrome()
driver.get(url)
wait=WebDriverWait(driver,20)

data=[]
details_links=[]
for j in range(5):
    print('正在爬取第'+str(j)+'页信息')
    #确认是否有下一页按钮
    confirm_bon=wait.until(
           EC.element_to_be_clickable(
           (By.CSS_SELECTOR,'#resultList > div.dw_page > div > div > div > ul > li:nth-child(8) > a')
           )
    )
    #解析网页
    soup=BeautifulSoup(driver.page_source,'html.parser')
    soup_findall= soup.find('div',class_="dw_table").find_all('div',class_='el')
    for i in soup_findall[1:]:       #此处不能去掉soup_findall后面的[1:],如果去掉就会报错,因为上面使用的find_all方法返回的是列表
        dic={}
        job_title=i.find('p',class_='t1').a['title']
        details_link=i.find('p',class_='t1').a['href']

company_name=i.find('span',class_='t2').a['title']
        working_place=i.find('span',class_='t3').text
        salary=i.find('span',class_='t4').text
        public_time=i.find('span',class_='t5').text

details_links.append(details_link)

dic={'职位名':job_title,'公司':company_name,'工作地址':working_place,'工资':salary,'发布时间':public_time}
        data.append(dic)
    confirm_bon.click()

#data=pd.DataFrame(data)
#print(data)
pd.DataFrame(data)

运行出来的结果截图如下:(因为空间有限,只截取到了前面一点点)

使用Selenium爬取前程无忧网站最新发布的前五页招聘信息相关推荐

  1. 爬虫之selenium爬取斗鱼网站

    爬虫之selenium爬取斗鱼网站 示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...

  2. 通过爬取前程无忧网站数据分析上海互联网行业招聘状况

    1.项目要求 内容完整程度.可用性(可操作.易操作.美观).时间先后.先进性等. 2.项目内容 爬取前程无忧网站(网址:https://www.51job.com/)上的工作招聘信息(截止2018年1 ...

  3. python爬取BT之家特定频道前5页电影信息(小白操作)

    python爬取BT之家特定频道前5页电影信息(小白操作) 想要爬的网页如下,希望得到BT之家恐怖频道的电影信息,并存档xls 代码如下 import requests,openpyxl wb=ope ...

  4. selenium爬取薄荷网站食品食品信息

    今天带大家一起学(复)习模拟浏览器运行的库Selenium,它是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9 ...

  5. Python爬虫(三)Beautiful Soup 实战,爬取前程无忧网站

    Beautiful Soup介绍 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. Beautiful Soup自动将输入文档转换为Unicode ...

  6. 爬取前程无忧网站数据

    1.爬取中华英才网,前程无忧网站的数据. spiders下: # -*- coding: utf-8 -*- import scrapy,copy from ..items import QcwyIt ...

  7. python程序爬电影_Python爬取电影天堂最新发布影片消息

    从今天开始我会把我学习python爬虫的一些心得体会和代码发布在我现在的博客,好记性不如烂笔头,以便以后的我进行复习. 虽然我现在的爬虫还很幼小,希望有一天她能长得非常非常的强大. --------- ...

  8. Selenium爬取前程无忧51job招聘信息

    import csv import random import time from lxml import etree from selenium import webdriver #实现规避检测 f ...

  9. 基于Java + selenium 爬取某网站千张图片

    预览(可以根据循环次数爬取大量图片) 一.网页分析 1 点击F12进入检查,将小箭头移到网页中随便一张图片上 2 进一步我们可以发现每一张图片的链接都包含在<ul>标签的子标签<li ...

最新文章

  1. MicroPython实例之TPYBoardv102自动浇花系统
  2. Ignite与Spark集成时,ClassNotFoundException问题解决
  3. JS中数据类型、内置对象、包装类型对象、typeof关系
  4. C++笔记-函数参数使用void *的野路子
  5. IOT---(7)Android Things 入门
  6. snapmix与Bi-Tempered Logistic Loss(自制数据集纯度不高效果好)
  7. win10无法启用shockwave flash object的解决
  8. 《深入理解计算机系统(CSAPP)》—— 实验一 数据表示与运算实验
  9. 面试问遇到最难的事情_太难的事情
  10. 692. Top K Frequent Words
  11. 如何基于深度学习实现商品识别技术|图普科技
  12. html中的div是什么意思?
  13. 非组蛋白带什么电荷_非组蛋白是构成真核生物染色体的基本结构蛋白, 富含带正电荷的精氨酸( Arg ) 和赖氨酸( Lys ) 等碱 性氨基酸。_学小易找答案...
  14. 如何在iPhone之间共享您的Wi-Fi密码?
  15. 断流测试软件,不用担心WiFi断流了!亲身测试:试了这个方法后,信号杠杠的...
  16. RDM1 软件需求与开发
  17. wordPress 安装
  18. 轻松学Python数据分析3-数据处理
  19. “花式提涨薪,结果被套路”,不懂怎么跟老板提加薪?这个方法真的很好用
  20. 实训总结(图书管理系统java)

热门文章

  1. Hive--临时表的三种方式
  2. java中int取值范围是怎么计算的?
  3. jz2440 ----移植自制的USB RTL8188EUS网卡驱动
  4. 案例:基于大数据的餐饮公司会员营销及O2O应用策略
  5. android ddms工具,请问Android Studio中怎么使用DDMS工具
  6. Activity 启动流程和 UML 时序图
  7. handlebars用法
  8. Mahout-0.3
  9. mysql skewed_hive mysql Table 'hive.tbls' doesn't exist
  10. 【观察】与“懂行人”一起,助推智慧高速发展“加速度”