该文章仅供学习,如有错误,欢迎指出

1.开始创建一个项目

mkdir s古诗网

2.进入到文件夹下创建python3的虚拟环境

pipenv install scrapy

3.进入pipenv 下使用scrapy命令创建爬虫项目

pipenv shell
scrapy startproject gushi
cd gushi
scrapy genspider test www.gushiwen.org


完成项目的创建

4.写方法
这里对通用爬虫有两个方法

class TestSpider(scrapy.Spider):name = 'test'                             #启动爬虫的名字allowed_domains = ['www.lagou.com']       #域名,没啥start_urls = ['http://www.lagou.com/']    #开始爬取的地址def parse(self, response):                passdef start_requests(self):                pass
#爬虫运行之后,程序会先去访问start_requests方法,之后访问start_urls,得到response之后将response交给parse方法

5.使用css选择器解析response 并用yield返回

    def parse(self,response):href = response.css('form .pagesright a::attr(href)')[0].extract()next_url = response.urljoin(href)item = gushiItem()all = response.css('.sons')for i in all[0:10]:title = i.css('.cont p a b::text')[0].extract()text = i.css('.contson p::text').extract()if len(text) == 0:text = i.css('.contson::text').extract()chaodai_name = i.css('.source')for j in chaodai_name:chaodai = j.css('a::text')[0].extract()name = j.css('a::text')[1].extract()item['title'] = titleitem['text'] = textitem['chaodai'] = chaodaiitem['name'] = nameyield itemyield Request(next_url,callback=self.parse)

6.设定自己的item

class gushiItem(scrapy.Item):title = scrapy.Field()text  = scrapy.Field()chaodai = scrapy.Field()name =scrapy.Field()

运行程序

scrapy crawl -o test.json   #生成json文件
scrapy crwal -o test.csv     #生成csv文件

接下来会爬去拉勾网的数据

1.简单爬虫————爬取古诗网相关推荐

  1. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  2. python爬虫爬取慕课网中的图片

    我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...

  3. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  4. python爬虫爬取知网

    python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...

  5. [python爬虫]爬取天气网全国所有县市的天气数据

    [python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...

  6. python爬虫爬取东方财富网股票走势+一些信息

    一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...

  7. Python爬虫爬取东方财富网的股票信息

    简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...

  8. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  9. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

最新文章

  1. TensorFlow基础12-(keras.Sequential模型以及使用Sequential模型 实现手写数字识别)
  2. react native报错:Expected a component class,got[object object]
  3. 浅谈scatter-gather DMA
  4. python获取动态数据采集仪代理_Python3爬虫技术文档(3)——动态页面数据采集,三,获取...
  5. 【WebRTC---源码篇】(三)Windows/Linux音视频采集封装模块
  6. 搭建Android开发环境
  7. python画曲线图-python怎么画曲线图
  8. jsp 文件使用 include指令 导入 jspf 分析,及导入jspf 文件后出现乱码问题
  9. Java 学习路线一条龙版
  10. 汇编软件DOSBox使用教程
  11. jade2html 在线转换,jade转化为html
  12. 315|大数据杀熟,如何才不被坑?
  13. meo学习笔记4:C++中对象占用内存情况
  14. mysql spring lobhandler_Spring 让 LOB 数据操作变得简单易行()
  15. 攒外快网春节除夕夜红包抽奖活动预告
  16. 教你快速删除或/替换每个视频文件名中的空格、特殊符号
  17. servlet 中的ServletConfig与servletContext
  18. Android13 设备硬件不带振动马达去掉振动服务
  19. Log4j、Logback的使用以及日志门面模式(外观模式)
  20. 秋叶老师的《如何成为PPT高手》介绍

热门文章

  1. 不规则四边形回归框计算IOU与NMS
  2. 内嵌在app里的h5页面实现分享
  3. Linux配置主机名、IP、主机映射及其虚拟网络
  4. dwr的使用和ajax的标签使用
  5. 最全Python操作excel代码,让你每天早下班两小时
  6. 東京喰種_经典台词中日双语2
  7. HTML5系列代码:给图像添加边框
  8. 图书借阅管理系统c语言程序设计,图书管理系统课程设计
  9. 阿里云天池AI龙珠计划-Python训练营考试题
  10. PaaS是什么?什么定位?有什么优势?