爬虫:爬游民星空图片被封IP了
爬取下来的图片都打不开,没找到原因:
没有设置时间间隔,应该是被封ip了,网页可以看,但是点不开大图了。
import requests,urllib.request
from bs4 import BeautifulSoup
import os
import datetime#获取当前年月日并创建以年月日命名的文件夹
today=datetime.date.today()
if not os.path.exists(f'{today}'):os.makedirs(f'{today}') #如果没有这个path则直接创建#爬虫部分
#头文件
header={"User-Agent":"Mozila/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"} #利用header模拟是从谷歌浏览器发出请求name=1
for i in range(2,4):url='https://www.gamersky.com/ent/202009/1319344_{}.shtml'.format(i)r=requests.get(url,headers=header)r.encoding = r.apparent_encoding#解决中文乱码问题html=r.textsoup=BeautifulSoup(html,'lxml')#lxml是解析器
## print(soup.p)#soup.p只能获得第一个p元素
## print(soup.find_all('p'))#可以获取所有p元素list=soup.find_all('a') #图片地址在Mid2L_con类的P标签下的a标签里for li in list:address=li.get('href')if '.jpg' in str(address):print(address) #已经获得URL,接下来是保存图片
## urllib.request.urlretrieve(address, f'./{today}/{str(name)}.jpg')#这种方法保存的图片打不开pic=requests.get(address,headers=header)f=open(f'./{today}/{str(name)}.jpg','ab')f.write(pic.content)f.close()name +=1
爬虫:爬游民星空图片被封IP了相关推荐
- node:爬虫爬取网页图片 1
代码地址如下: http://www.demodashi.com/demo/13845.html 前言 周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...
- 小爬虫爬取小猫咪图片并存入本地文件夹
小爬虫爬取小猫咪图片并存入本地文件夹 本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...
- 爬虫爬取快代理网站动态IP
爬虫爬取快代理网站动态IP import requests, time from lxml import etree import time import randomcookie = "& ...
- python爬虫,爬取下载图片
python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...
- 【python爬虫】游民星空福利和壁纸帖图片爬虫
学习python中,写个爬虫小程序,基于2.7版本 代码源码贴在我的Github:https://github.com/qqxx6661/python/blob/master/gamerskyPic1 ...
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
- Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...
- 协程大批量爬取是要被封IP的,最优秀的方法就是在被封IP时候立马切换IP
一. 多协程爬虫遇到的难点 之前本着一封IP就切换IP的原则做了个协程爬虫.但是操作并发运行的爬虫和单线程的爬虫的难度真的是云泥之别.因为是并发运行的爬虫,用的IP是同一个,被封的时候当然是全部IP一 ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
最新文章
- SqlServer2008到期升级企业版 密钥+图解
- Android系统如何管理自己内存的?
- 面板什么都看不到 unity_杨幂今年第一封太敷衍!最新大片不露脸不秀身材,什么都看不到...
- 论文中要用到的SPSS基础分析
- SQL2008-显示表大小行数
- WPF管理系统自定义分页控件 - WPF特工队内部资料
- 计算机登录网站慢手机快,电脑上网慢但手机很快有什么解决方法
- 关于android分支无法下载的问题,revision froyo in manifests not found
- 如何解决 Chrome提示“adobe flash player 因过期而遭阻止?
- 计算机应用基础——计算机软件(三)
- 打桥位程序lisp_【下载】借花献佛,AutoLISP程序的安装包制作,感谢秋枫大侠的程序...
- Copyright ©的含义
- MySQL存储引擎概叙
- Linux版的led显示屏控制软件,led显示屏控制软件
- android pc游戏模拟器哪个好用,安卓模拟器吃鸡,哪款更好用? PC玩《绝地求生:刺激战场》实战体验...
- 20210429# Python解释器的下载和安装
- 亲身经历——短信诈骗
- Thinkbook 16重装win10/11后的网络和声卡没法使用的解决办法
- selenium+webdriver+chrome实现百度以图搜图
- 2023年ASO的深度指南