1.简单爬虫————爬取古诗网
该文章仅供学习,如有错误,欢迎指出
1.开始创建一个项目
mkdir s古诗网
2.进入到文件夹下创建python3的虚拟环境
pipenv install scrapy
3.进入pipenv 下使用scrapy命令创建爬虫项目
pipenv shell
scrapy startproject gushi
cd gushi
scrapy genspider test www.gushiwen.org
完成项目的创建
4.写方法
这里对通用爬虫有两个方法
class TestSpider(scrapy.Spider):name = 'test' #启动爬虫的名字allowed_domains = ['www.lagou.com'] #域名,没啥start_urls = ['http://www.lagou.com/'] #开始爬取的地址def parse(self, response): passdef start_requests(self): pass
#爬虫运行之后,程序会先去访问start_requests方法,之后访问start_urls,得到response之后将response交给parse方法
5.使用css选择器解析response 并用yield返回
def parse(self,response):href = response.css('form .pagesright a::attr(href)')[0].extract()next_url = response.urljoin(href)item = gushiItem()all = response.css('.sons')for i in all[0:10]:title = i.css('.cont p a b::text')[0].extract()text = i.css('.contson p::text').extract()if len(text) == 0:text = i.css('.contson::text').extract()chaodai_name = i.css('.source')for j in chaodai_name:chaodai = j.css('a::text')[0].extract()name = j.css('a::text')[1].extract()item['title'] = titleitem['text'] = textitem['chaodai'] = chaodaiitem['name'] = nameyield itemyield Request(next_url,callback=self.parse)
6.设定自己的item
class gushiItem(scrapy.Item):title = scrapy.Field()text = scrapy.Field()chaodai = scrapy.Field()name =scrapy.Field()
运行程序
scrapy crawl -o test.json #生成json文件
scrapy crwal -o test.csv #生成csv文件
接下来会爬去拉勾网的数据
1.简单爬虫————爬取古诗网相关推荐
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取知网
python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
- [python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...
- python爬虫爬取东方财富网股票走势+一些信息
一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...
- Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
- Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...
- java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...
最新文章
- TensorFlow基础12-(keras.Sequential模型以及使用Sequential模型 实现手写数字识别)
- react native报错:Expected a component class,got[object object]
- 浅谈scatter-gather DMA
- python获取动态数据采集仪代理_Python3爬虫技术文档(3)——动态页面数据采集,三,获取...
- 【WebRTC---源码篇】(三)Windows/Linux音视频采集封装模块
- 搭建Android开发环境
- python画曲线图-python怎么画曲线图
- jsp 文件使用 include指令 导入 jspf 分析,及导入jspf 文件后出现乱码问题
- Java 学习路线一条龙版
- 汇编软件DOSBox使用教程
- jade2html 在线转换,jade转化为html
- 315|大数据杀熟,如何才不被坑?
- meo学习笔记4:C++中对象占用内存情况
- mysql spring lobhandler_Spring 让 LOB 数据操作变得简单易行()
- 攒外快网春节除夕夜红包抽奖活动预告
- 教你快速删除或/替换每个视频文件名中的空格、特殊符号
- servlet 中的ServletConfig与servletContext
- Android13 设备硬件不带振动马达去掉振动服务
- Log4j、Logback的使用以及日志门面模式(外观模式)
- 秋叶老师的《如何成为PPT高手》介绍