Python-Scrapy获取百望税务问题
Python-Scrapy获取百望税务问题
- Scrapy获取百望税务问题
- 1. 创建scrapy项目:
- 2.settings文件设置
- 3. Itrm设置
- 4. 创建Spider
- 5. 爬取规则的编写
- 6. pipeline.py文件的编写
- 7. 爬取
- 8. 结果
Scrapy获取百望税务问题
1. 创建scrapy项目:
进入F:/MyFile文件夹之后输入创建Scrapy项目的命令:
scrapy startproject test_project01
出现以下错误:
解决:
- 问题描述: 从 typing 里面 import Deque发生错误。
- 原因: python > 3.6.1 才有这个方法。请升级 python。
2.settings文件设置
ROBOTSTXT_OBEY = FalseITEM_PIPELINES = {'test_project02.pipelines.TestProject02Pipeline': 300,}
3. Itrm设置
import scrapy
class TestProject01Item(scrapy.Item):# define the fields for your item here like:question = scrapy.Field()answer = scrapy.Field()
4. 创建Spider
创建一个Spider,进入test_project02/test_project02/Spider
输入
scrapy genspider tax_questions http://bj.baiwang.com.cn/
,以北京百旺金赋科技有限公司_百望baiwang.com.cn常见问题爬取
5. 爬取规则的编写
import scrapy
from test_project02.items import TestProject02Itemclass TaxQuestionsSpider(scrapy.Spider):name = 'tax_questions'allowed_domains = ['bj.baiwang.com.cn']start_urls = ['http://bj.baiwang.com.cn/channel/faq-1303191657581001-0-'+ str(i) for i in range(1,88)]def parse(self, response):questions = response.xpath("//div[@class='pb20']//a/text()").extract()questions_time = response.xpath(" //div[@class='pb20']//a/span/text()").extract()answers = response.xpath("//div[@class='pb20']//div").xpath('string(.)').extract()for q,a,t in zip(questions,answers,questions_time):item = TestProject02Item()item['question'] = qitem['question_time'] = titem['answer'] = a.strip()yield item
6. pipeline.py文件的编写
from itemadapter import ItemAdapter
import codecs
import jsonclass TestProject02Pipeline:def __init__(self):self.file = codecs.open('BJ_BaiWang_TaxQuestions.json','w',encoding = "utf-8")def process_item(self, item, spider):data = json.dumps(dict(item),ensure_ascii=False)+"\n"self.file.write(data)return itemdef spider_closed(self,spider):self.file.close()
7. 爬取
命令行进入项目的根目录\test_project02,输入
scrapy crawl TaxQuestionsSpider`
8. 结果
得到BJ_BaiWang_TaxQuestions.json文件。
Python-Scrapy获取百望税务问题相关推荐
- python高手 百家号_别犹豫,美剧想看就看,手把手教你用Python轻松获取经典美剧地址...
最早一部<越狱>转变了我对美剧的看法.主人公scofield的聪明才智和坚强的毅力,<绝命毒师>里面主人公的中年逆袭,<纸牌屋>里面老谋深算的政客,等等,这些美剧和 ...
- python scrapy爬虫电影_python爬虫如何用scrapy获取影片?
我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...
- python爬虫电影输出到文件中_python爬虫用scrapy获取影片的实例分析
我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情.周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题.那么,一些好看的影片如果不去电影院的话,在 ...
- Python Scrapy 验证码登录处理
一.Form表单分析 以豆瓣登录页面为例分析,豆瓣登录页是:https://accounts.douban.com/login,浏览器打开之后查看源码,查找登录的form表单HTML结构.如下: 包括 ...
- python爬取淘宝商品做数据挖掘_Python 3爬虫 数据清洗与可视化实战 Python数据抓取技术 python3网络爬虫教程书籍 运用Python工具获取电商平台页面数据挖掘书籍...
A8 书 名:Python 3爬虫 数据清洗与可视化实战 作 译 者:零一,韩要宾,黄园园 出版时间:2018-03 千 字 数:200 版 次:01-01 页 数:212 开 ...
- python中scrapy框架_简述python Scrapy框架
一.Scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛.利用框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
- python经纬度获取县名_利用 Python 批量获取县镇运输距离
起因 最近做规划项目,领导让查出某几个市的所有乡镇级行政区域,距离所在县级行政中心的交通运输距离.想着也不是啥难事儿,高德地图一搜就有. 当我把各市行政区划统计完,发现一共有五百多个乡镇,意味着要在地 ...
- python scrapy 基本操作演示代码
python scrapy 基本操作演示代码 # -*- coding: utf-8 -*- import scrapy # from quotetutorial.items import Quote ...
- python 键盘输入int_Python编程 Python如何获取数据
计算机的基本功能就是接受输入的数据,处理后再输出结果.print( )函数的功能是输出数据,那么Python如何获取输入的数据呢?在使用图形界面之前,Python主要从键盘获取数据,而从键盘获取数据方 ...
最新文章
- 数据结构-线性表的顺序结构
- 详解Batch Normalization及其反向传播
- 转大神的中国剩余定理
- PAT-1124. Raffle for Weibo Followers (20)
- 10个快速提升技术水平的方法
- 遥感图像场景分类常用数据集
- [渝粤教育] 四川农业大学 理论力学 参考 资料
- CCFCSP 2018年9月 -- 部分题目
- 关于单片机大循环结构编程
- SQL查询集合合并成字符串
- php 多级分成手机版,PHP 层级菜单数组处理,由一级数组转换为多级数组的递归实现...
- HR面试问题(工作动机、个人愿望 )
- ArcMAP TIN与栅格DEM的坡度坡向对比分析
- C盘空间丢失30G,怎么也找不到
- vue-table-with-tree-grid的使用(黑马笔记)
- 《CSS世界》(张鑫旭)pdf
- PAT Basic 1068 万绿丛中一点红
- Android数据编码之Base64
- 苹果发布iOS10.2.1 ,别升级!别问为什么
- 修改 win 快捷键适配 macOS