[Python] 纯文本查看 复制代码#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-01-29 11:56:33

# Project: qcwy

from pyspider.libs.base_handler import *

import pymongo

class Handler(BaseHandler):

crawl_config = {

}

client=pymongo.MongoClient("localhost") # 本地的MongoDB数据库

db=client["tb_qcwy"] # 数据库名

@every(minutes=24 * 60)

def on_start(self):

self.crawl('http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=030200&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9',

callback=self.index_page,

validate_cert=False,

connect_timeout = 50,

timeout = 500

)

@config(age=10 * 24 * 60 * 60)

def index_page(self, response):

for each in response.doc('p > span > a').items(): # 每个职位详情链接

self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False)

next=response.doc('.bk > a').attr.href # 下一页链接

self.crawl(next,callback=self.index_page,validate_cert=False)

@config(priority=2)

def detail_page(self, response):

return {

"url": response.url, # 页面地址

"location": response.doc('h1').text(), # 地理位置

"company":response.doc('.cname > a').text(), # 公司名

"work_location":response.doc('.lname').text(), # 工作地点

"salary":response.doc('.cn > strong').text(), # 工资

"requirements":response.doc('.sp4').text(), # 工作需求

"zhiweixinxi":response.doc('.job_msg').text(), # 职位信息

"address":response.doc('.bmsg > .fp').text(), # 公司地址

}

# 保存到MongoDB

def on_result(self,result):

if result:

self.save_to_mongo(result)

def save_to_mongo(self,result):

if self.db["qcwy20180129"].insert(result): # 数据库表名

print("save to mongo",result)

python爬取前程无忧_【Python】爬虫框架PySpider爬取前程无忧职位相关推荐

  1. python爬去新浪微博_荐爬虫实战 新浪微博爬取 详细分析

    目标 #2020.5.22 #author:pmy #目标:爬取最爱的绵羊的微博,包含时间,文本内容,点赞数,评论数与转发数 #在更换博主时主要在于修改headers中的referer和参数中的con ...

  2. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  3. python scrapy框架 抓取的图片路径打不开图片_Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码...

    大家可以在Github上clone全部源码. 基本上按照文档的流程走一遍就基本会用了. Step1: 在开始爬取之前,必须创建一个新的Scrapy项目. 进入打算存储代码的目录中,运行下列命令: sc ...

  4. python的scrapy爬虫模块间进行传参_小猪的Python学习之旅 —— 4.Scrapy爬虫框架初体验...

    小猪的Python学习之旅 -- 4.Scrapy爬虫框架初体验 Python 引言: 经过前面两节的学习,我们学会了使用urllib去模拟请求,使用 Beautiful Soup和正则表达式来处理网 ...

  5. Python 爬虫框架 - PySpider

    Python爬虫进阶四之PySpider的用法:http://cuiqingcai.com/2652.html 网络爬虫剖析,以Pyspider为例:http://python.jobbole.com ...

  6. python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫

    在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...

  7. yelp纽约地区数据爬取。使用feapder爬虫框架

    yelp纽约地区数据爬取.使用feapder爬虫框架 本文使用了国内作者的一款feapder轻量级开源爬虫框架.进行yelp站点数据抓取. 第一部分为根据开放api获取店铺信息. 第二部分为根据商店i ...

  8. 使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)

    使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图) 初学Scrapy,实现爬取网络图片并保存本地功能 一.先看最终效果 保存在F:\pics文件夹下 二.安装scrapy 1.python的安装 ...

  9. Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)

    Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...

最新文章

  1. install tabix/bgzip
  2. Leetcode 98. 验证二叉搜索树 (每日一题 20210810)
  3. MySQL - 锁机制初探
  4. js解码与编码是什么意思?
  5. Java中使用ArrayList的10个示例–教程
  6. bootstrap-table之通用方法( 时间控件,导出,动态下拉框, 表单验证 ,选中与获取信息)
  7. HTML高仿哔哩哔哩(B站)视频网站整站模板
  8. linux lvm 删除pv磁盘,如何安全的删除Linux LVM中的PV物理卷(硬盘或分区)
  9. 基于swing的java系统_Java实验--基于Swing的简单的歌曲信息管理系统(一)
  10. 网页内容若使用gzip压缩--获得页面源码
  11. Illustrator 教程,如何在 Illustrator 中添加文本段落?
  12. 从eureka报错中得知的默认配置
  13. TDD测试驱动开发案例【水货】
  14. 浙江大学计算机专业介绍,浙江大学计算机科学与技术专业课程设置
  15. ignite安装及简单使用命令
  16. sqlserver 2017 windows版本下载
  17. 华硕服务器系统安装win7系统教程,华硕K751 U盘装系统win7教程
  18. Zabbix邮件告警配置
  19. C++ pair 和make_pair
  20. 网页中遇到的src=quot;data:image/png;base64,xxxxquot;知识点了解

热门文章

  1. layui日期格式化
  2. 中顶体育场馆管理系统
  3. 国家自然科学基金的“关键科学问题”(转)
  4. LPC1788和LPC1768时钟配置的差异
  5. 劳动仲裁究竟难不难,个人员工值得去做吗?
  6. CGSS2015数据及对应问卷
  7. StringTemplate-动态创建jenkinsfile
  8. v兔无痕补单是什么,无痕补单搭配运营知识怎样玩,无痕补单的意义,哪里可以找到无痕补单
  9. win10 计算机组件,win10系统删除那些不必要组件的操作步骤
  10. 攻防世界 sql注入