requests+re模块爬取豆瓣排行版电影和图片保存至本地

设计思路：requests发送请求返回HTML→正则匹配电影名称+图片地址→电影名称+图片地址下载保存至本地

from loguru import logger
import requests
import redef douban_top250():# return html 页面def html_page():url = 'https://movie.douban.com/top250?start=0&filter='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url, headers=headers)res.encoding = "utf-8"html = res.textreturn htmli = 1number = 0paeg = int(re.findall(r'&amp;filter=" >(.*)</a>', html_page())[-2]) + 1  # 获取页面的返回值while i < paeg:url = f'https://movie.douban.com/top250?start={number}&filter='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url, headers=headers)res.encoding = "utf-8"html = res.textnumber += 25i += 1v = 0while v < 25:jpg_name = re.findall(' alt="(.*)" src="', html)[v]  # douban图片名称jpg_url = re.findall('" src="(.*)" class="">', html)[v]  # douban图片地址file_path = fr'D:\jpg\{jpg_name}.png'  # 本地图片地址v += 1try:myfile = requests.get(jpg_url)file_path = fr'D:\jpg\{jpg_name}.png'open(file_path, 'wb').write(myfile.content)except:logger.error(f'图片保存失败,请检查路径{file_path}')logger.info(f"{jpg_name}  {jpg_url}")douban_top250()

requests+re模块爬取豆瓣排行版电影和图片保存至本地相关推荐

爬去豆瓣网中电影信息并保存到本地目录当中
爬取豆瓣网中电影信息并保存到本地目录当中读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...
requests用法之爬取豆瓣排行
爬取豆瓣排行 import requestsurl = "https://movie.douban.com/j/chart/top_list?type_name=科幻&type=1 ...
Python 爬取周杰伦歌曲信息，爬取豆瓣top250的电影，并保存至excel中
使用requests.BeautifulSoup模块,在网上爬取信息.有的网页可以直接爬取到,有些则需要分步加载,这时就需要使用network进行分析找到信息对应的请求. 有的会反爬虫,则需要添加he ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件 xiaohu ...
使用requests与lxml爬取豆瓣正在上映电影
利用requests库与lxml解析,获取豆瓣电影展示的所有正在上映的电影.没有进行进一步详情查看.因此比较简单. 所有单个正在上映电影信息以字典存储,并整合在一张列表里.整理后格式如下: [ {'t ...
requests 获取div_爬虫系列第五篇使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析我们爬取的网页的url是https://book.douban.com/top250?i ...
python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...
昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...
day02 requests请求库爬取豆瓣电影信息+selenium请求库
一. requests请求库爬取豆瓣电影信息 - 请求url http://movie.douban.com/top250 - 请求方式 GET - 请求头 user-agent cookies ...
Python爬取豆瓣热映电影
Python爬取豆瓣热映电影 # encoding: utf-8import requests from lxml import etree# 1. 将目标网站上的页面抓取下来 headers = { ...

requests+re模块爬取豆瓣排行版电影和图片保存至本地

requests+re模块爬取豆瓣排行版电影和图片保存至本地相关推荐

最新文章

热门文章