Python爬虫入门【4】:美空网未登录图片爬取
美空网未登录图片----简介
上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行。
美空网未登录图片----爬虫分析
首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html
在这个页面中,咱们要找几个核心的关键点,发现平面拍摄
点击进入的是图片列表页面。
接下来开始代码走起。
获取所有列表页面
我通过上篇博客已经获取到了70000(实际测试50000+)用户数据,读取到python中。
这个地方,我使用了一个比较好用的python库pandas,大家如果不熟悉,先模仿我的代码就可以了,我把注释都写完整。
import pandas as pd# 用户图片列表页模板
user_list_url = "http://www.moko.cc/post/{}/list.html"
# 存放所有用户的列表页
user_profiles = []def read_data():# pandas从csv里面读取数据df = pd.read_csv("./moko70000.csv") #文件在本文末尾可以下载# 去掉昵称重复的数据df = df.drop_duplicates(["nikename"])# 按照粉丝数目进行降序profiles = df.sort_values("follows", ascending=False)["profile"]for i in profiles:# 拼接链接user_profiles.append(user_list_url.format(i))if __name__ == '__main__':read_data()print(user_profiles)
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
数据已经拿到,接下来我们需要获取图片列表页面,找一下规律,看到重点的信息如下所示,找对位置,就是正则表达式的事情了。
快速的编写一个正则表达式
<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>
引入re,requests模块
import requests
import re
# 获取图片列表页面
def get_img_list_page():# 固定一个地址,方便测试test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"response = requests.get(test_url,headers=headers,timeout=3)page_text = response.textpattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>')# 获取page_listpage_list = pattern.findall(page_text)
运行得到结果
[('/post/da39db43246047c79dcaef44c201492d/category/304475/1.html', '85'), ('/post/da39db43246047c79dcaef44c201492d/category/304476/1.html', '2'), ('/post/da39db43246047c79dcaef44c201492d/category/304473/1.html', '0')]
继续完善代码,我们发现上面获取的数据,有"0"的产生,需要过滤掉
# 获取图片列表页面
def get_img_list_page():# 固定一个地址,方便测试test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"response = requests.get(test_url,headers=headers,timeout=3)page_text = response.textpattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>')# 获取page_listpage_list = pattern.findall(page_text)# 过滤数据for page in page_list:if page[1] == '0':page_list.remove(page)print(page_list)
获取到列表页的入口,下面就要把所有的列表页面全部拿到了,这个地方需要点击下面的链接查看一下
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.html
本页面有分页,4页,每页显示数据4*7=28
条
所以,基本计算公式为 math.ceil(85/28)
接下来是链接生成了,我们要把上面的链接,转换成
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/2.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/3.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/4.html
page_count = math.ceil(int(totle)/28)+1for i in range(1,page_count):# 正则表达式进行替换pages = re.sub(r'\d+?\.html',str(i)+".html",start_page)all_pages.append(base_url.format(pages))
当我们回去到足够多的链接之后,对于初学者,你可以先干这么一步,把这些链接存储到一个csv文件中,方便后续开发
# 获取所有的页面
def get_all_list_page(start_page,totle):page_count = math.ceil(int(totle)/28)+1for i in range(1,page_count):pages = re.sub(r'\d+?\.html',str(i)+".html",start_page)all_pages.append(base_url.format(pages))print("已经获取到{}条数据".format(len(all_pages)))if(len(all_pages)>1000):pd.DataFrame(all_pages).to_csv("./pages.csv",mode="a+")all_pages.clear()
让爬虫飞一会,我这边拿到了80000+条数据
好了,列表数据有了,接下来,我们继续操作这个数据,是不是感觉速度有点慢,代码写的有点LOW,好吧,我承认这是给新手写的其实就是懒
,我回头在用一篇文章把他给改成面向对象和多线程的
我们接下来基于爬取到的数据再次进行分析
例如 http://www.moko.cc/post/nimusi/category/31793/1.html 这个页面中,我们需要获取到,红色框框的地址,为什么要或者这个?因为点击这个图片之后进入里面才是完整的图片列表。
我们还是应用爬虫获取
几个步骤
- 循环我们刚才的数据列表
- 抓取网页源码
- 正则表达式匹配所有的链接
def read_list_data():# 读取数据img_list = pd.read_csv("./pages.csv",names=["no","url"])["url"]# 循环操作数据for img_list_page in img_list:try:response = requests.get(img_list_page,headers=headers,timeout=3)except Exception as e:print(e)continue# 正则表达式获取图片列表页面pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')img_box = pattern.findall(response.text)need_links = [] # 待抓取的图片文件夹for img in img_box:need_links.append(img)# 创建目录file_path = "./downs/{}".format(str(img[0]).replace('/', ''))if not os.path.exists(file_path):os.mkdir(file_path) # 创建目录for need in need_links:# 获取详情页面图片链接get_my_imgs(base_url.format(need[1]), need[0])
上面代码几个重点地方
pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')img_box = pattern.findall(response.text)need_links = [] # 待抓取的图片文件夹for img in img_box:need_links.append(img)
获取到抓取目录,这个地方,我匹配了两个部分,主要用于创建文件夹
创建文件夹需要用到 os 模块,记得导入一下
# 创建目录file_path = "./downs/{}".format(str(img[0]).replace('/', ''))if not os.path.exists(file_path):os.mkdir(file_path) # 创建目录
获取到详情页面图片链接之后,在进行一次访问抓取所有图片链接
#获取详情页面数据
def get_my_imgs(img,title):print(img)headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}response = requests.get(img, headers=headers, timeout=3)pattern = re.compile('<img src2="(.*?)".*?>')all_imgs = pattern.findall(response.text)for download_img in all_imgs:downs_imgs(download_img,title)
最后编写一个图片下载的方法,所有的代码完成,图片保存本地的地址,用的是时间戳。
def downs_imgs(img,title):headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}response = requests.get(img,headers=headers,timeout=3)content = response.contentfile_name = str(int(time.time()))+".jpg"file = "./downs/{}/{}".format(str(title).replace('/','').strip(),file_name)with open(file,"wb+") as f:f.write(content)print("完毕")
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
运行代码,等着收图
代码运行一下,发现报错了
原因是路径的问题,在路径中出现了…这个特殊字符,我们需要类似上面处理/
的方式处理一下。自行处理一下吧。
数据获取到,就是这个样子的
代码中需要完善的地方
- 代码分成了两部分,并且是面向过程的,非常不好,需要改进
- 网络请求部分重复代码过多,需要进行抽象,并且加上错误处理,目前是有可能报错的
- 代码单线程,效率不高,可以参照前两篇文章进行改进
- 没有模拟登录,最多只能爬取6个图片,这也是为什么先把数据保存下来的原因,方便后期直接改造
Python爬虫入门【4】:美空网未登录图片爬取相关推荐
- Python爬虫入门教程【4】:美空网未登录图片爬取
美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
- 美空网未登录图片爬取
美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
- Python爬虫入门教程 4-100 美空网未登录图片爬取
简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. ...
- Python爬虫入门教程 4-100 美空网未登录图片爬取 1
简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. ...
- 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...
- 浅谈Python爬虫(五)【网易云热评爬取实例】
浅谈Python爬虫(五) 目的:爬取网易云歌单所有歌曲的信息及热评 Python环境:3.7 编译器:PyCharm2019.1.3专业版 存储格式:JSON 1.分析网页 进入网易云音乐首页,点击 ...
- python爬虫入门——QQ音乐歌手照片及歌曲列表爬取
#刚入门,大佬莫入 #程序功能:输入歌手名称后,程序会生成一个Word文件,Word文件里包括歌手名称.照片和所有歌曲列表! import requests, time import math fro ...
- Python爬虫入门教程 15-100 石家庄政民互动数据爬取
写在前面 今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/1490066682000/ind ...
- Python爬虫入门教程15:音乐网站数据的爬取
前言
最新文章
- 5G 行业专网 — 公有云上的 5G 专网
- win11+AMD的cpu+3060GPU电脑安装 tensorflow-GPU+cuda11+cudnn
- idea terminal中文乱码_Terminal优雅的办公带来超高的效率
- 雅思8分大神叫你如何学习口语
- python 公司年会抽奖_用Python做个年会抽奖小程序吧
- scrapy框架_Python学习之Scrapy框架
- LeetCode LCP 06. 拿硬币
- Flowable 数据库表结构 ACT_RE_MODEL
- php标签class,dede模板标签以及dedetag.class.php模板类使用方法
- 《剑指offer》面试题34——丑数
- MT4API跟单软件详细分享
- Asp 解析 XML并分页显示
- LoRa及LoRaWAN简介
- 《东周列国志》第四十三回 智宁俞假鸩复卫 老烛武缒城说秦
- B1HTML5期末大作业:动漫网站设计——海贼王中乔巴漫画(5页) 学生动漫网页设计模板下载 海贼王大学生HTML网页制作作品 简单漫画网页设计成品 dreamweaver学生网站模板
- Jenkins+tomcat安装笔记
- C# GDAL 数字图像处理Part6 大气辐射矫正
- 会议记录录音转文字的软件哪个好?看完你就知道了
- 打包下载图片(文件)
- 电脑插入了一个加密U盘,拷贝东西,随后电脑就出现一个交换区的盘符,U盘拔走以后交换区还在怎么去掉?