Python-Scrapy获取百望税务问题

  • Scrapy获取百望税务问题
    • 1. 创建scrapy项目:
    • 2.settings文件设置
    • 3. Itrm设置
    • 4. 创建Spider
    • 5. 爬取规则的编写
    • 6. pipeline.py文件的编写
    • 7. 爬取
    • 8. 结果

Scrapy获取百望税务问题

1. 创建scrapy项目:

进入F:/MyFile文件夹之后输入创建Scrapy项目的命令:

scrapy startproject test_project01

出现以下错误:

解决:

  • 问题描述: 从 typing 里面 import Deque发生错误。
  • 原因: python > 3.6.1 才有这个方法。请升级 python。

2.settings文件设置

 ROBOTSTXT_OBEY = FalseITEM_PIPELINES = {'test_project02.pipelines.TestProject02Pipeline': 300,}

3. Itrm设置

import scrapy
class TestProject01Item(scrapy.Item):# define the fields for your item here like:question = scrapy.Field()answer = scrapy.Field()

4. 创建Spider

  • 创建一个Spider,进入test_project02/test_project02/Spider

  • 输入scrapy genspider tax_questions http://bj.baiwang.com.cn/,以北京百旺金赋科技有限公司_百望baiwang.com.cn常见问题爬取

5. 爬取规则的编写

import scrapy
from test_project02.items import TestProject02Itemclass TaxQuestionsSpider(scrapy.Spider):name = 'tax_questions'allowed_domains = ['bj.baiwang.com.cn']start_urls = ['http://bj.baiwang.com.cn/channel/faq-1303191657581001-0-'+ str(i) for i in range(1,88)]def parse(self, response):questions = response.xpath("//div[@class='pb20']//a/text()").extract()questions_time = response.xpath(" //div[@class='pb20']//a/span/text()").extract()answers = response.xpath("//div[@class='pb20']//div").xpath('string(.)').extract()for q,a,t in zip(questions,answers,questions_time):item = TestProject02Item()item['question'] = qitem['question_time'] = titem['answer'] = a.strip()yield item

6. pipeline.py文件的编写

from itemadapter import ItemAdapter
import codecs
import jsonclass TestProject02Pipeline:def __init__(self):self.file = codecs.open('BJ_BaiWang_TaxQuestions.json','w',encoding = "utf-8")def process_item(self, item, spider):data = json.dumps(dict(item),ensure_ascii=False)+"\n"self.file.write(data)return itemdef spider_closed(self,spider):self.file.close()

7. 爬取

​ 命令行进入项目的根目录\test_project02,输入scrapy crawl TaxQuestionsSpider`

8. 结果

得到BJ_BaiWang_TaxQuestions.json文件。

Python-Scrapy获取百望税务问题相关推荐

  1. python高手 百家号_别犹豫,美剧想看就看,手把手教你用Python轻松获取经典美剧地址...

    最早一部<越狱>转变了我对美剧的看法.主人公scofield的聪明才智和坚强的毅力,<绝命毒师>里面主人公的中年逆袭,<纸牌屋>里面老谋深算的政客,等等,这些美剧和 ...

  2. python scrapy爬虫电影_python爬虫如何用scrapy获取影片?

    我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...

  3. python爬虫电影输出到文件中_python爬虫用scrapy获取影片的实例分析

    我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...

  4. Python Scrapy 验证码登录处理

    一.Form表单分析 以豆瓣登录页面为例分析,豆瓣登录页是:https://accounts.douban.com/login,浏览器打开之后查看源码,查找登录的form表单HTML结构.如下: 包括 ...

  5. python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...

    A8 书    名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版    次:01-01 页    数:212 开   ...

  6. python中scrapy框架_简述python Scrapy框架

    一.Scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛.利用框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...

  7. python经纬度获取县名_利用 Python 批量获取县镇运输距离

    起因 最近做规划项目,领导让查出某几个市的所有乡镇级行政区域,距离所在县级行政中心的交通运输距离.想着也不是啥难事儿,高德地图一搜就有. 当我把各市行政区划统计完,发现一共有五百多个乡镇,意味着要在地 ...

  8. python scrapy 基本操作演示代码

    python scrapy 基本操作演示代码 # -*- coding: utf-8 -*- import scrapy # from quotetutorial.items import Quote ...

  9. python 键盘输入int_Python编程 Python如何获取数据

    计算机的基本功能就是接受输入的数据,处理后再输出结果.print( )函数的功能是输出数据,那么Python如何获取输入的数据呢?在使用图形界面之前,Python主要从键盘获取数据,而从键盘获取数据方 ...

最新文章

  1. 数据结构-线性表的顺序结构
  2. 详解Batch Normalization及其反向传播
  3. 转大神的中国剩余定理
  4. PAT-1124. Raffle for Weibo Followers (20)
  5. 10个快速提升技术水平的方法
  6. 遥感图像场景分类常用数据集
  7. [渝粤教育] 四川农业大学 理论力学 参考 资料
  8. CCFCSP 2018年9月 -- 部分题目
  9. 关于单片机大循环结构编程
  10. SQL查询集合合并成字符串
  11. php 多级分成手机版,PHP 层级菜单数组处理,由一级数组转换为多级数组的递归实现...
  12. HR面试问题(工作动机、个人愿望 )
  13. ArcMAP TIN与栅格DEM的坡度坡向对比分析
  14. C盘空间丢失30G,怎么也找不到
  15. vue-table-with-tree-grid的使用(黑马笔记)
  16. 《CSS世界》(张鑫旭)pdf
  17. PAT Basic 1068 万绿丛中一点红
  18. Android数据编码之Base64
  19. 苹果发布iOS10.2.1 ,别升级!别问为什么
  20. 修改 win 快捷键适配 macOS

热门文章

  1. HTTP2和HTTPS有什么区别?
  2. 第1章 Django流程(后续章节有具体模块讲解)
  3. WebRTC进阶-SDP协议详解
  4. 把MAC开机密码设置成[ 1 ]位数
  5. Java知识汇总网站,算法题
  6. Collector详解
  7. 体育时空杂志体育时空杂志社体育时空编辑部2015年第2去i部分目录
  8. GPS模块的常见应用有哪些?
  9. linux的修炼:程序包的安装和卸载管理 rpmyum
  10. MyBatis框架的搭建以及使用教程