新人不会自己搭建代理池?快来引用大佬的

对于新人学习爬虫来说,虽然不会爬取太难的网站,但是有时候爬取的数据量过大的时候,也会遇到返回不了数据的问题,这时候打开网页一看.可能会看到"你的ip访问频率太高"这样的提示,出现这种问题的原因可能是,你被封ip啦.

但是爬虫不是还得继续不是吗?这时候就需要借助代理来突破自己ip访限制或者隐藏自己的ip来防止被封锁,关于代理则可以搭建代理池来解决,让网站防不胜防,但是都说了咱是新人!!!怎么会搭建代理池那玩意,这时候就需要像牛顿学习,站在巨人的肩膀上,借用他人的代理池来完成爬虫.

在这里我们借用了崔大写的开源代理池代理池地址 ,具体的运行方法崔大已经写好了,在这里我就想把自己运行这个代理池所遇到的问题做个总结

注:我在这里用的是windows系统.

1 关于代理池的下载前提

下载代理池 首先你需要创建一个github账号然后安装git,具体的流程请看git,因为git的安装在官网下载那简直是龟速,这里我分享我的网盘链接给大家,链接:https://pan.baidu.com/s/1gb6mPItCl9OLOAWSlryZMA

提取码:q1o4

(这个版本不是最新的)

2 关于代理池的下载

安装好git了我们打开cmd运行命令符,移动到想安装的盘,然后做出输入git clone https://github.com/Python3WebSpider/ProxyPool.git ,这样代理池就下载到本地啦,具体步骤如下图

3 关于运行所需要的条件

在这里我选择的是常规方式运行,没有用到docker,关于常规方式运行,需要满足以下条件

1.Python>=3.6

2. Redis

3. 安装依赖包

关于python的下载在这里推荐anaconda下载,安装最新的anaconda就好啦(虽然后面无法安装tensorflow,不过我们只爬虫的嘛),anaconda的安装教程地址是https://blog.csdn.net/weixin_43715458/article/details/100096496,当然如果你安装过anaconda或者python请略过这步,但是请确保你的python版本.后面打开代理池我用的是pycharam所以在这里在放一个链接关于anaconda安装与pycharm的配置anaconda与pycharm配置,啥都没有安装的请从次链接开始.

关于Redis的安装教程请参考此此链接Redis安装

另外redis常用的可视化工具 Redis Desktop Manager,但是0.9.4以上要给钱的,不过这里有免费的版本,链接redis可视化工具下载

关于依赖包的安装需要在虚拟环境下安装,这里我使用的是conda创建的虚拟环境,虚拟环境的安装请参考此链接conda安装虚拟环境,在这里继续强调你的python版本不能低于3.6,虚拟环境安装好了 请开启你的虚拟环境 然后移动到你代理池的文件位置,运行这个命令

pip3 install -r requirements.txt(安装了anaconda的命令为pip install -r requirements.txt),具体情况如下图所示

注:这里yu是我的虚拟环境名称 我已经安装好了依赖包了 这里做了个演示.

4 关于运行

关于运行其实也没啥好说的了,打开你的pycharm打开前面下载的代理池文件就好啦,这里对崔大写的一些做下解释,

关于这里 其实就在你的setting.py文件里的这里

你可以根据自己的情况进行修改,

关于这里

同样在setting.py文件里的

你可以根据自己的需要修改测试地址,构建专属于你所爬网站的代理池.

最后,打开你的 run.py文件点运行就能愉快的开启代理池啦.

原文链接:https://blog.csdn.net/weixin_48257295/article/details/107707037

python代理池好难啊_新人不会自己搭建代理池?快来引用大佬的相关推荐

  1. python编程小学生学难吗_为什么小学生都要学Python

    IT行业的人肯定都听过一句话,"人生苦短,我用Python."其实后面还有一句,学完Python,便可上天. Python已经被列入山东省小学教材,浙江省高考也会有Python的身 ...

  2. c#打开数据库连接池的工作机制_它是谁?一个比 c3p0 快 200 倍的数据库连接池!...

    什么是数据库连接池 连接池是一种常用的技术,为什么需要连接池呢?这个需要从 TCP 说起.假如我们的服务器跟数据库没有部署在同一台机器,那么,服务器每次查询数据库都要先建立连接,一般都是 TCP 链接 ...

  3. 对警报线程池的警报线程_检测和警报SQL Server代理丢失的作业

    对警报线程池的警报线程 摘要 (Summary) While alerting on failed SQL Server Agent jobs is straightforward, being no ...

  4. python零基础学难吗_零基础学习Python难吗?要怎么学Python才是最有效的?

    众所周知,Python是一种跨平台的计算机程序设计语言,也是最容易上手学习的编程语言.那么零基础学员学习Python难吗?要怎么样学Python才是最有效的?下面,我就带大家来看看如何学习Python ...

  5. python跟易语言的爬虫_新人Python,第一只爬虫,,我就只会re.findall,你咬我?

    [Python] 纯文本查看 复制代码import requests import re import os # 设置浏览器引擎 headers ={ 'User-Agent': 'Mozilla/5 ...

  6. python画三维立体图难吗_万万没想到,Python竟能绘制出如此酷炫的三维图

    作者 | Jay Alammar转载自 | 高级农民工 通常我们用 Python 绘制的都是二维平面图,但有时也需要绘制三维场景图,比如像下面这样的: 这些图怎么做出来呢?今天就来分享下如何一步步绘制 ...

  7. python的递归为什么难理解_为什么Python有最大的递归深度?

    实际上这里有几个问题.在 首先,正如NPE's answer很好地解释的那样,Python并没有消除尾部调用,所以在Python中允许无限递归的函数(比如Scheme)是有限的.在 其次,正如NPE所 ...

  8. python修饰器太难搞_【Python】小说爬虫界面版(各种BUG已修复)

    [Python] 纯文本查看 复制代码import tkinter as tk import re import urllib.request import os import time from u ...

  9. python游戏联机后直接掉线_新人想问一下和朋友联机时不时会掉线,这么解决啊?...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 有在天空上突然掉线--后果很严重-- 就是朋友开了个房,我和另一个朋友加他房玩,但有时候就会出现我们俩都掉线出来,他自己还玩的好好的,但我们就怎么都加不进 ...

最新文章

  1. 使用HtmlGenericControl控件动态产生一些HtmlControls
  2. Nvidia推边缘运算平台EGX 未来将提供企业AI模型参考框架
  3. 皮一皮:最头铁的汪峰...
  4. 制作网站设计项目进度表让用户充分了解网站制作进程
  5. python之迭代锁与信号量
  6. textfile 属性
  7. java实现二叉树的构建以及3种遍历方法
  8. 【ACM】nyoj_540_奇怪的排序_201308050951
  9. lisp 焊接符号标注_焊接符号标注大全
  10. 计算机科学学院参加些什么比赛,计算机科学学院学生在“2018年中国大学生计算机设计大赛(西北赛区)”中喜获佳绩...
  11. C#中数据类型转换-显式转换
  12. 【操作系统】进程的创建与终止过程中的父子进程
  13. VB.NET项目技术总结
  14. python3连接oracle 11G数据库
  15. linux下安装apache与php;Apache+PHP+MySQL配置攻略
  16. MFC教程(Visual C++ 6.0)|合集 |更新中
  17. JavaScript:延迟访问和延时执行函数
  18. java读取局域网种大华摄像机信息
  19. 工厂5S管理的内容和标准
  20. 本市医保定点专科医院、定点中医院及19家A类医疗机构

热门文章

  1. Unity3d鼠标点击屏幕来控制人物的走动
  2. 第四章 大网高级   NSSA
  3. php 递归创建目录、递归删除非空目录、迭代创建目录
  4. 40个漂亮的单页网站设计案例(上篇)
  5. Ubuntu 修改默认的PDF打开方式
  6. 深度学习数据集中数据差异大_使用差异隐私来利用大数据并保留隐私
  7. 朴素贝叶斯分类器 文本分类_构建灾难响应的文本分类器
  8. leetcode 48. 旋转图像
  9. leetcode954. 二倍数对数组(treemap)
  10. arduino joy_如何用Joy开发Kubernetes应用