Scrapy获取百望税务问题

1. 创建scrapy项目：

进入F:/MyFile文件夹之后输入创建Scrapy项目的命令：

scrapy startproject test_project01

出现以下错误：

解决：

问题描述：从 typing 里面 import Deque发生错误。
原因： python > 3.6.1 才有这个方法。请升级 python。

2.settings文件设置

 ROBOTSTXT_OBEY = FalseITEM_PIPELINES = {'test_project02.pipelines.TestProject02Pipeline': 300,}

3. Itrm设置

import scrapy
class TestProject01Item(scrapy.Item):# define the fields for your item here like:question = scrapy.Field()answer = scrapy.Field()

4. 创建Spider

创建一个Spider，进入test_project02/test_project02/Spider
输入scrapy genspider tax_questions http://bj.baiwang.com.cn/，以北京百旺金赋科技有限公司_百望baiwang.com.cn常见问题爬取

5. 爬取规则的编写

import scrapy
from test_project02.items import TestProject02Itemclass TaxQuestionsSpider(scrapy.Spider):name = 'tax_questions'allowed_domains = ['bj.baiwang.com.cn']start_urls = ['http://bj.baiwang.com.cn/channel/faq-1303191657581001-0-'+ str(i) for i in range(1,88)]def parse(self, response):questions = response.xpath("//div[@class='pb20']//a/text()").extract()questions_time = response.xpath(" //div[@class='pb20']//a/span/text()").extract()answers = response.xpath("//div[@class='pb20']//div").xpath('string(.)').extract()for q,a,t in zip(questions,answers,questions_time):item = TestProject02Item()item['question'] = qitem['question_time'] = titem['answer'] = a.strip()yield item

6. pipeline.py文件的编写

from itemadapter import ItemAdapter
import codecs
import jsonclass TestProject02Pipeline:def __init__(self):self.file = codecs.open('BJ_BaiWang_TaxQuestions.json','w',encoding = "utf-8")def process_item(self, item, spider):data = json.dumps(dict(item),ensure_ascii=False)+"\n"self.file.write(data)return itemdef spider_closed(self,spider):self.file.close()

7. 爬取

命令行进入项目的根目录\test_project02，输入scrapy crawl TaxQuestionsSpider`

8. 结果

得到BJ_BaiWang_TaxQuestions.json文件。

Python-Scrapy获取百望税务问题相关推荐

python高手百家号_别犹豫，美剧想看就看，手把手教你用Python轻松获取经典美剧地址...
最早一部<越狱>转变了我对美剧的看法.主人公scofield的聪明才智和坚强的毅力,<绝命毒师>里面主人公的中年逆袭,<纸牌屋>里面老谋深算的政客,等等,这些美剧和 ...
python scrapy爬虫电影_python爬虫如何用scrapy获取影片？
我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...
python爬虫电影输出到文件中_python爬虫用scrapy获取影片的实例分析
我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...
Python Scrapy 验证码登录处理
一.Form表单分析以豆瓣登录页面为例分析,豆瓣登录页是:https://accounts.douban.com/login,浏览器打开之后查看源码,查找登录的form表单HTML结构.如下: 包括 ...
python爬取淘宝商品做数据挖掘_Python 3爬虫数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍运用Python工具获取电商平台页面数据挖掘书籍...
A8 书名:Python 3爬虫数据清洗与可视化实战作译者:零一,韩要宾,黄园园出版时间:2018-03 千字数:200 版次:01-01 页数:212 开 ...
python中scrapy框架_简述python Scrapy框架
一.Scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛.利用框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
python经纬度获取县名_利用 Python 批量获取县镇运输距离
起因最近做规划项目,领导让查出某几个市的所有乡镇级行政区域,距离所在县级行政中心的交通运输距离.想着也不是啥难事儿,高德地图一搜就有. 当我把各市行政区划统计完,发现一共有五百多个乡镇,意味着要在地 ...
python scrapy 基本操作演示代码
python scrapy 基本操作演示代码 # -*- coding: utf-8 -*- import scrapy # from quotetutorial.items import Quote ...
python 键盘输入int_Python编程 Python如何获取数据
计算机的基本功能就是接受输入的数据,处理后再输出结果.print( )函数的功能是输出数据,那么Python如何获取输入的数据呢?在使用图形界面之前,Python主要从键盘获取数据,而从键盘获取数据方 ...

Python-Scrapy获取百望税务问题

Python-Scrapy获取百望税务问题

Scrapy获取百望税务问题

1. 创建scrapy项目：

2.settings文件设置

3. Itrm设置

4. 创建Spider

5. 爬取规则的编写

6. pipeline.py文件的编写

7. 爬取

8. 结果

Python-Scrapy获取百望税务问题相关推荐

最新文章

热门文章