1,总结一下,爬虫的工作量要么在反爬,要么在调度等业务逻辑,本身只是一个 requests.get 而已,scrapy 提供的种种抽象对于初学者太复杂,大型系统又用不上,所以个人不推荐使用包括但不限于 scrapy 在内的所有爬虫框架。
2,调用使用两个不同的item:
-item.py中
class SunproItem(scrapy.Item):
content=scrapy.Field()
class SunproItem_second(scrapy.Item):
title=scrapy.Field()
status=scrapy.Field()
-sun.py中
from sumPro.item import SunproItem_second,SunproItem
def parse_detail下
item=SunproItem()
item[‘content’]=content
yield item
def parse_item(self,response)下
item= SunproItem_second()
item[‘title’]=title
item[‘status’]=status
yield item
-pipelines.py
def process_item()
if items.class.name’SunproItem’:
content=item[‘content’]
执行sql
else:
title=item[‘title’]
status=item[‘status’]
执行sql
return item
3,用编号做数据统一标题和内容、内容--------用num=scrapy.Field()达到
-item.py
class SunproItem(scrapy.Item):
content=scrapy.Field()
num=scrapy.Field()
class SunproItem_second(scrapy.Item):
title=scrapy.Field()
status=scrapy.Field()
num=scrapy.Field()
-sun.py#tr_list=tr.xpath(‘/html/body/div[2]/div[3]/ul[2]/li’)
def parse_item()
status=tr.xpath()
num=tr.xpath(‘./span[1]/text()’).get()
item=SunproItem_second()
,…
item[‘num’]=num
def parse_detail()

content=‘’.join(content)
num=response.xpath(‘/html/body/div[3]/div[2]/div[2]/div[1]/span[4]/text()’).get()
#由于解析到的是编号:311241,需要的是:后面的数字,-1为要到最后所有的数字
num=num.split(‘:’)[-1]
item=SunproItem()

-pipelines.py
class SunproPipeline
def process_item()
if item.class.name
content=…
num=item[‘num’]
#执行sql
print(content,num)
else:

status=…
num=item[‘num’]
#执行sql
print(title.status,num)
-setting.py
#开启管道
item_pipelines={

}
4,scrapy crawl sun
5,由于有的编号存储不是上述格式,导致split的错误
-sun,py

num=response.xpath()
#若num不为空,提交item
if num:
num=num.split()p[-1]

yield item
3,zls为增量式scrapy根据redis的对4567电影网的爬取项目

爬虫学习总结——————血狱魔帝相关推荐

  1. Python爬虫学习实战

    Python爬虫学习实战 前期回顾 概述 技术要求 实战 网页分析与数据提取 小说目录提取 小说章节内容 总结 前期回顾 Python爬虫学习之requests Python爬虫学习之数据提取(XPa ...

  2. 爬虫学习日记1-豆瓣top250电影信息爬取

    @ 爬虫学习日记1-豆瓣top250电影信息爬去 学习任务:结合requests.re两者的内容爬取https://movie.douban.com/top250里的内容, 要求抓取名次.影片名称.年 ...

  3. 以下用于数据存储领域的python第三方库是-Python3爬虫学习之MySQL数据库存储爬取的信息详解...

    本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息.分享给大家供大家参考,具体如下: 数据库存储爬取的信息(MySQL) 爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在 ...

  4. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  5. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

  6. 爬虫学习笔记(七)——Scrapy框架(二):Scrapy shell、选择器

    一.Scrapy shell scrapy shell的作用是用于调试,在项目目录下输入scrapy shell start_urls (start_urls:目标url)得到下列信息: scrapy ...

  7. Python2爬虫学习系列教程

    http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

  8. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  9. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

最新文章

  1. 【图像分割模型】全景分割是什么?
  2. linux下eclipse+pdt(PHP集成开发环境安装)
  3. android 调用c wcf服务,如何使用命名管道从c调用WCF方法?
  4. urllib2.URLError: urlopen error [Errno 111] Connection refused
  5. 我是学渣,但是我零基础自学web前端成功了
  6. Spring Security基本原理
  7. Shiro 常用标签
  8. 日常笔记系列:java汉字判断
  9. 红旗Linux中文教程
  10. hadoop集群搭建(系统Debian,ssh工具MobaXterm)
  11. cl_long.py
  12. java树型结构数据根据条件移除节点(递归方式)
  13. 伤心----------绝望
  14. linux上使用openocd的问题
  15. Python中的文本替换
  16. 信息检索——BM25算法实现(自己写)
  17. codechef EBAIT Election Bait【欧几里得算法】
  18. 数据中心服务器大战:思科vs惠普vs…
  19. 利用VC++与MSXML解析XML文档
  20. 用Labelmx可变数据生成软件打印条码流水号

热门文章

  1. 12306自动刷票下单-下单
  2. 正则表达式的使用方法(基础教程)以及案例
  3. 转载一篇文章-这七句话被中国人误传了数千年
  4. java语言程序设计教程课后题答案魏永红_java语言程序设计课后习题答案
  5. 我国的“五岳”是哪五座山,分别在哪个省。
  6. 十代主板改win7_大神们, 大哥们 求告知WIN10原系统 , 在弄个WIN...-十代win7,十代处理器可以装win7吗...
  7. 【神经网络本质是多项式回归】Jeff Dean等论文发现逻辑回归和深度学习一样好
  8. 关于JavaScript的Prototype及原型对象的理解
  9. http中的反盗链技术的例子实现
  10. oracle委外加工工单,外协管理Oracle解决方案1