1.简单爬虫————爬取古诗网

该文章仅供学习，如有错误，欢迎指出

1.开始创建一个项目

mkdir s古诗网

2.进入到文件夹下创建python3的虚拟环境

pipenv install scrapy

3.进入pipenv 下使用scrapy命令创建爬虫项目

pipenv shell
scrapy startproject gushi
cd gushi
scrapy genspider test www.gushiwen.org

完成项目的创建

4.写方法
这里对通用爬虫有两个方法

class TestSpider(scrapy.Spider):name = 'test'                             #启动爬虫的名字allowed_domains = ['www.lagou.com']       #域名，没啥start_urls = ['http://www.lagou.com/']    #开始爬取的地址def parse(self, response):                passdef start_requests(self):                pass
#爬虫运行之后，程序会先去访问start_requests方法，之后访问start_urls，得到response之后将response交给parse方法

5.使用css选择器解析response 并用yield返回

    def parse(self,response):href = response.css('form .pagesright a::attr(href)')[0].extract()next_url = response.urljoin(href)item = gushiItem()all = response.css('.sons')for i in all[0:10]:title = i.css('.cont p a b::text')[0].extract()text = i.css('.contson p::text').extract()if len(text) == 0:text = i.css('.contson::text').extract()chaodai_name = i.css('.source')for j in chaodai_name:chaodai = j.css('a::text')[0].extract()name = j.css('a::text')[1].extract()item['title'] = titleitem['text'] = textitem['chaodai'] = chaodaiitem['name'] = nameyield itemyield Request(next_url,callback=self.parse)

6.设定自己的item

class gushiItem(scrapy.Item):title = scrapy.Field()text  = scrapy.Field()chaodai = scrapy.Field()name =scrapy.Field()

运行程序

scrapy crawl -o test.json   #生成json文件
scrapy crwal -o test.csv     #生成csv文件

接下来会爬去拉勾网的数据

1.简单爬虫————爬取古诗网相关推荐

在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
python爬虫爬取知网
python爬虫爬取知网话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
[python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据访问URL 解析数据保存数据所要用到的库 import requests from lxml import etree import xlwt ...
python爬虫爬取东方财富网股票走势+一些信息
一.目标我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息我的目标是爬取100张股票信息图片经过实际测试我的爬取范围为000001-000110,000 ...
Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片使用Java框架Jsoup和HttpClient实现,先看代码爬取目标页面 1.使用Maven构建一个普通Java工程加入依赖: org.jsoup j ...

1.简单爬虫————爬取古诗网

接下来会爬去拉勾网的数据

1.简单爬虫————爬取古诗网相关推荐

最新文章

热门文章