一、创建Scrapy工程

1 scrapy startproject 工程名

二、进入工程目录,根据爬虫模板生成爬虫文件

1 scrapy genspider -l # 查看可用模板2 scrapy genspider -t 模板名 爬虫文件名 允许的域名

三、定义爬取关注的数据(items.py文件)

四、编写爬虫文件

五、设置IP池或用户代理

(1)设置IP池

步骤1:在settings.py文件中添加代理服务器的IP信息,如:

1 # 设置IP池2 IPPOOL =[3   {"ipaddr": "221.230.72.165:80"},4   {"ipaddr": "175.154.50.162:8118"},5   {"ipaddr": "111.155.116.212:8123"}6 ]

步骤2:创建下载中间文件middlewares.py(与settings.py同一个目录),如:

#创建方法,cmd命令行,如项目为modetest,

E:\workspace\PyCharm\codeSpace\modetest\modetest>echo #middlewares.py

1 # -*- coding: utf-8 -*-

2 # 导入随机模块3 import random4 # 导入settings文件中的IPPOOL5 from.settings import IPPOOL6 # 导入官方文档对应的HttpProxyMiddleware7 fromscrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware8

9 classIPPOOlS(HttpProxyMiddleware):10   # 初始化11   def __init__(self, ip=''):12   self.ip =ip13

14   # 请求处理15   def process_request(self, request, spider):16   # 先随机选择一个IP17   thisip =random.choice(IPPOOL)18   print("当前使用IP是:"+ thisip["ipaddr"])19   request.meta["proxy"] = "http://"+thisip["ipaddr"]

步骤3:在settings.py中配置下载中间件

1 # 配置下载中间件的连接信息2 DOWNLOADER_MIDDLEWARES ={3   'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,4   'modetest.middlewares.IPPOOlS' : 125

5 }

(2)设置用户代理

步骤1:在settings.py文件中添加用户代理池的信息(配置几个浏览器'User-Agent'),如:

1 # 设置用户代理池2 UPPOOL =[3   "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

4 ]

步骤2:创建下载中间文件uamid.py(与settings.py同一个目录),如:

#创建方法,cmd命令行,如项目为modetest,

E:\workspace\PyCharm\codeSpace\modetest\modetest>echo #uamind.py

1 # -*- coding: utf-8 -*-#2 # 导入随机模块3 import random4 # 导入settings文件中的UPPOOL5 from.settings import UPPOOL6 # 导入官方文档对应的HttpProxyMiddleware7 fromscrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware8

9 classUamid(UserAgentMiddleware):10   # 初始化 注意一定要user_agent,不然容易报错11   def __init__(self, user_agent=''):12   self.user_agent =user_agent13

14   # 请求处理15   def process_request(self, request, spider):16     # 先随机选择一个用户代理17     thisua =random.choice(UPPOOL)18     print("当前使用User-Agent是:"+thisua)19     request.headers.setdefault('User-Agent',thisua)

步骤3:在settings.py中配置下载中间件

1 # 配置下载中间件的连接信息2 DOWNLOADER_MIDDLEWARES ={3   'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 2,4 'modetest.uamid.Uamid': 1

5 }

总而言之,有时候避免不了配置这类信息,所以直接在settings中都一起配置了如下,直接粘贴到settings.py文件的最后面

1 #========================================

2

3 #设置IP池和用户代理

4

5 #禁止本地Cookie

6 COOKIES_ENABLED =False7

8 #设置IP池

9 IPPOOL =[10 {"ipaddr": "221.230.72.165:80"},11 {"ipaddr": "175.154.50.162:8118"},12 {"ipaddr": "111.155.116.212:8123"}13 ]14

15 #设置用户代理池

16 UPPOOL =[17 "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

18 ]19

20 #配置下载中间件的连接信息

21 DOWNLOADER_MIDDLEWARES ={22 #'scrapy.contrib.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

23 #'modetest.middlewares.IPPOOlS' : 125,

24 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 2,25 'modetest.uamid.Uamid': 1

26 }27

28 #============================================

pythonscrapy爬虫ip代理池_在Scrapy中使用IP池或用户代理(python3)相关推荐

  1. 51cto 检测ip地址冲突_在Linux中发现IP地址冲突的方法

    IP冲突,是不会像Windows那样,在右下角弹出冲突提示的.博主就出过一次糗,记得当时是在VM虚拟机里面安装了4个 4个Redhat都是VM克隆出来的.完全一致的 原来,是那台频繁掉线的虚拟系统和其 ...

  2. C MySql封装类 高性能连接池_在vc中通过连接池操作mysql(api方式),附c++访问mysql的封装类...

    在有大量节点访问的数据库设计中,经常要使用到连接池来管理所有的连接. 一般方法是:建立两个连接句柄队列,空闲的等待使用的队列和正在使用的队列. 当要查询时先从空闲队列中获取一个句柄,插入到正在使用的队 ...

  3. scrapy中添加ip池的方法

    scrapy中添加ip池的方法 我使用的是scrapy2.2 setting 中写下ip池 IPPOOL = [{'ipaddr':'221.230.72.165:80'}, {'ipaddr':'1 ...

  4. 爬虫单个ip代理设置_爬虫怎样设置代理ip池

    在网络迅速发展的今天,互联网企业层出不穷,爬虫工作者也越来越多,大家都知道,代理ip是爬虫工作者的一个有力助手,今天小编在这里就与大家分享一下如何设置代理池以及伪装成浏览器的方法,请看下面的介绍. 1 ...

  5. 爬虫单个ip代理设置_爬虫怎么设置代理ip池?

    网络技术现在是如此发达,用户换ip再也不用自己手动来,很多ip代理都是傻瓜式操作,智能完成切换,完全不用使用者操心. 像在我们在利用网络爬虫开展数据采集,遇到爬取频率过高.频次过多的问题,会碰到ip被 ...

  6. python新闻爬虫系统的功能_基于Scrapy框架的Python新闻爬虫

    一.开发背景 Python作为数据处理方面的一把好手,近年来的热度不断增长.网络爬虫可以说是Python最具代表性的应用之一,那么通过网络爬虫来学习Python以及网络和数据处理的相关内容可以说是再合 ...

  7. Python采集网站ip代理, 检测IP代理是否可用,构建自己的ip代理池

    开发环境 Python 3.8 Pycharm 模块使用 requests >>> pip install requests parsel >>> pip inst ...

  8. python web ip_Python爬虫IP代理教程,让你不再为IP被封禁发愁!

    本文来源没啥特别,因为没使用ip代理导致爬取boos直聘数据时,ip被封了,不过好在已解决,想看看博主的爬虫文章的可以点击下方链接,还是蛮全的. 一.免费代理ip地址推荐 站大爷 快代理 芝麻代理芝麻 ...

  9. shiro设置ip白名单_亚马逊家庭IP:Luminati的搭建的步骤

    1.下载 luminati proxy manaer 2.双击运行lpm 3.浏览器中输入http://127.0.0.1:22999,表明lpm安装成功.要注意打开后弹出的如下窗口不能关闭,必须一直 ...

最新文章

  1. 牛逼!硬核图解 Tomcat 整体架构
  2. 对于任天堂你了解多少?
  3. H5支持度检测常用模式(仅干货)
  4. 前端论坛、博客及公众号汇总
  5. Helm 3 发布 | 云原生生态周报 Vol. 27
  6. C语言 socket listen()函数(socket()函数创建的socket(套接字描述符)默认是一个主动类型的,listen函数将socket变为被动类型的,等待客户的连接请求)
  7. JQuery中的类选择器
  8. 【MFC系列-第22天】GDI算法实战——过渡色
  9. matlab 传递函数 画出频率响应,MATLAB环境下频率响应曲线的绘制方法
  10. vivo手机删除内置应用及如何查看APP包
  11. 计算机应用基础实操题怎么操,计算机基础实操试题
  12. gdal、geos的 windows编译 openCL加速
  13. 使用esxcli命令升级VMware ESXi补丁
  14. 晶体二极管及其基本应用电路
  15. 应用分享:GIF压缩助手
  16. python控制步进电机驱动器_树莓派通过GPIO控制步进电机(python)
  17. Google Earth Engine ——重采样过程中的错误
  18. 全球区块链第9周看点 | 以太坊君士坦丁堡/圣彼得堡硬分叉正式完成;纳斯达克正式上线BTC和ETH指数...
  19. 汉服经济迎来“井喷式”发展!vr全景助力汉服数字化蜕变
  20. 灵动微基于 MM32SPIN040C 为主控的无感方波水泵应用方案

热门文章

  1. 京东青龙安装过程及 靠谱库推荐(无图教程,耐心看完)
  2. 官媒:发挥数字货币的正能量,服务于实体经济
  3. Redis 数据库的安装与常用命令解析
  4. JSDoc 安装教程
  5. D-Link无线wifi短信认证上网设置流程说明
  6. 查看微信小程序的累计访客(UV)
  7. Bootstrap系列之轻量弹框(Toasts)
  8. python使用turtle库绘制一个100长度的十字架_测验2: Python基本图形绘制 (第2周)
  9. 计算机ntc是什么功能,ntc是什么?
  10. 【LeetCode】二叉树的最大深度