python爬虫之ProxyPool（代理ip地址池的构建）

ProxyPool

2020-7-28

安装

安装Python

至少Python3.5以上

安装Redis

安装好之后将Redis服务开启

Redis环境安装（分布式爬虫数据存储）
https://blog.csdn.net/jia666666/article/details/82216937

配置代理池

cd proxypool

进入proxypool目录，修改settings.py文件

PASSWORD为Redis密码，如果为空，则设置为None

安装依赖

pip3 install -r requirements.txt

必要操作！！！

运行之前请更改
修改位置为ProxyPool-master\ProxyPool-master\proxypool\crawlers\base.py文件
添加以下代码在导入模块结束处

requests.packages.urllib3.disable_warnings()#忽视InsecureRequestWarning警告

打开代理池和API

python3 run.py
运行结果如下，程序会不停的进行ip地址的获取与检测ip地址是否可用，便于用户直接使用

代理获取

利用requests获取方法如下

import requests
#本地端口ip地址获取
PROXY_POOL_URL = 'http://localhost:5555/random'def get_proxy():try:#访问程序提供的ip地址获取链接response = requests.get(PROXY_POOL_URL)#如果获取成功，返回获取的ip地址if response.status_code == 200:return response.textexcept ConnectionError:return None

运行如下

代理使用及检测

import requests
from pyquery import PyQuery as pq
from faker import Factoryrequests.packages.urllib3.disable_warnings()#忽视InsecureRequestWarning警告User_Agent = Factory.create()       #实例造假工厂url = 'https://202020.ip138.com/'               # IP地址检测网址
PROXY_POOL_URL = 'http://localhost:5555/random' # 本地代理IP获取网址session=requests.Session()  # session会话# 随机UA与cookie
headers = {'User-Agent': User_Agent.user_agent(),'Cookie': 'ASPSESSIONIDCATSSDDQ=NIEMKCBDFNMFGGJDPEFDCDGD'
}#代理字典，类型为http，使用其后代理IP，类型为Https，使用其后代理。
proxies = {"http":"http://78.141.201.90:33723","https":"http://78.141.201.90:33723",
}
#获取代理IP，并打印
prox=requests.get(PROXY_POOL_URL).text
print('代理IP为：'+prox)#proxies字典重新赋值
proxies["http"],proxies["https"]=prox,prox#网页请求
response=session.get(url, proxies=proxies,headers=headers,verify=False)
session.close()
#可以根据状态码判断是否获取成功，200即获取成功
print('网页状态码为:'+str(response.status_code))#网页解析，提取IP检测信息
doc=pq(response.text)
ip=doc('title').text()# 打印IP
print(ip)