写爬虫防止被封的关键有以下几点:

伪装请求报头(request header)

减轻访问频率,速度

使用代理IP

一般第一点都能做到,第二点减轻访问频率就会大大增加任务时间,而使用代理就能在不增加任务时长避免被封的关键(实际情况却是任务时间因为代理的使用而增加的,但这里不细说,知道就好)。

下面我们从 国内高匿代理IP 获得代理IP数据。

我们准备抓 国内高匿代理IP网 的十个页面的代理

fetch_proxy(10)

当前工作目录下的文件,你看!!有host.txt

打开host.txt,收集到了很多代理IP

但是有代理IP还不行,因为我们不知道这代理能不能用,是否有效。

下面我们用百度网进行检验(大公司不怕咱们短时间内高频率访问),上代码:

运行该代码,效果如下

代理Ip池生成函数

下面开始爬豆瓣电影的电影数据,我们要获取 电影名、演员、评分。

电影标签页 https://movie.douban.com/tag/

烂片详情页https://movie.douban.com/tag/烂片

烂片详情页

我们就只爬烂片标签页的部分数据吧,网页链接规律如下

第一页https://movie.douban.com/tag/烂片?start=0

第二页https://movie.douban.com/tag/烂片?start=20

第三页https://movie.douban.com/tag/烂片?start=40

开始上代码

执行上述写好的代码

Perfect

烂片休想糊弄我,Python代理爬虫豆瓣电影数据手到擒来相关推荐

  1. python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据

    这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

  2. python爬虫—豆瓣电影海报(按类别)

    原文地址:http://www.alannah.cn/2019/04/06/getdouban/ python爬虫-豆瓣电影海报 目标:通过python爬虫在豆瓣电影上按类别对电影海报等数据进行抓取, ...

  3. python豆瓣电影需研究的问题_基于Python对豆瓣电影数据爬虫的设计与实现

    本文基于 Python 实现了网络 爬虫豆瓣电影模块的数据信息, 可以根据爬虫得到的信息进行相 关的市场分析,具有一定的商业 价值. 摘 要 能够高效率得完成爬取目标数据. 2 网络爬虫的实现 本 文 ...

  4. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  5. python爬取豆瓣电影top250_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  6. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  7. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  8. 爬虫——豆瓣电影top250

    爬虫--豆瓣电影top250 无论是动态网页爬虫和静态网页爬虫,实现的思路基 本上都是获取页面 html.页面解析.数据保存或输出.虽然获取页面 html 以及数据保存都 已经封装为通用函数,但依然编 ...

  9. 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 大数据分析及可视化 豆瓣影评结构化分析 大屏可视化 文本可视化 总结 每文 ...

最新文章

  1. LeetCode() Remove duplicates from sorted list II
  2. 小巨型计算机应用什么领域,计算机应用基础 10
  3. 如何攻克异地协作难题?看 Tower 的 72 个月远程工作实践
  4. 使用CATT作批量数据导入
  5. 拯救颓废假期!快来和我们一起刷论文写笔记
  6. 【ES7(2016)】幂运算符**
  7. Recurrent Neural Network系列1--RNN(循环神经网络)概述
  8. 蓝桥杯 PREV-32 历届试题 分糖果
  9. Wireshark 的使用 —— 过滤器(filter)
  10. Angular学习笔记(五) - 自定义表单控件
  11. java学习笔记(二)图形用户接口
  12. Fij/imageJ下载使用
  13. 计算机专业买哪一款华硕电脑好,华硕笔记本哪款好 如何挑选笔记本电脑
  14. How to Register/Update Ad Muncher using TOR
  15. C++大写字母转小写字母
  16. CRM SaaS是什么?
  17. 排列组合和二项式定理
  18. 西部世界科普时间:FIL将从4月15日开始减产? 谣言!
  19. android7 boot root,一加7T/7TPro Root不求人,自己提取boot.img打补丁
  20. NLP的“第四范式”之Prompt Learning总结:44篇论文逐一梳理

热门文章

  1. android handlerthread 线程管理,Android线程之HandlerThread
  2. rs232接口_你知道RS232与RS485接口的区别吗?
  3. 大学生考证:七大类计算机认证考试介绍
  4. day07CSRF漏洞
  5. FZU-2253(咸鱼翻身)
  6. 合一算法求最一般合一_如何设置RetroArch,最终的多合一复古游戏模拟器
  7. 如何打造一个搞垮公司的中台系统?
  8. C#学习笔记整理(.net框架)
  9. java 标识符无效_查询y子查询中的标识符无效
  10. 1998考研阅读Text1翻译