设计思路:requests发送请求返回HTML→正则匹配电影名称+图片地址→电影名称+图片地址下载保存至本地

from loguru import logger
import requests
import redef douban_top250():# return html 页面def html_page():url = 'https://movie.douban.com/top250?start=0&filter='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url, headers=headers)res.encoding = "utf-8"html = res.textreturn htmli = 1number = 0paeg = int(re.findall(r'&amp;filter=" >(.*)</a>', html_page())[-2]) + 1  # 获取页面的返回值while i < paeg:url = f'https://movie.douban.com/top250?start={number}&filter='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url, headers=headers)res.encoding = "utf-8"html = res.textnumber += 25i += 1v = 0while v < 25:jpg_name = re.findall(' alt="(.*)" src="', html)[v]  # douban图片名称jpg_url = re.findall('" src="(.*)" class="">', html)[v]  # douban图片地址file_path = fr'D:\jpg\{jpg_name}.png'  # 本地图片地址v += 1try:myfile = requests.get(jpg_url)file_path = fr'D:\jpg\{jpg_name}.png'open(file_path, 'wb').write(myfile.content)except:logger.error(f'图片保存失败,请检查路径{file_path}')logger.info(f"{jpg_name}  {jpg_url}")douban_top250()

requests+re模块爬取豆瓣排行版电影和图片保存至本地相关推荐

  1. 爬去豆瓣网中电影信息并保存到本地目录当中

    爬取豆瓣网中电影信息并保存到本地目录当中 读者可以根据源代码来设计自己的爬虫,url链接不能通用,由于源代码中后续查找筛选中有不同类或者标签名,仅供参考,另外推荐b站上一个老师,叫路飞学城IT的,讲的 ...

  2. requests用法之爬取豆瓣排行

    爬取 豆瓣排行 import requestsurl = "https://movie.douban.com/j/chart/top_list?type_name=科幻&type=1 ...

  3. Python 爬取周杰伦歌曲信息,爬取豆瓣top250的电影,并保存至excel中

    使用requests.BeautifulSoup模块,在网上爬取信息.有的网页可以直接爬取到,有些则需要分步加载,这时就需要使用network进行分析找到信息对应的请求. 有的会反爬虫,则需要添加he ...

  4. scrapy爬取校花网男神图片保存到本地

    爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件 xiaohu ...

  5. 使用requests与lxml爬取豆瓣正在上映电影

    利用requests库与lxml解析,获取豆瓣电影展示的所有正在上映的电影.没有进行进一步详情查看.因此比较简单. 所有单个正在上映电影信息以字典存储,并整合在一张列表里.整理后格式如下: [ {'t ...

  6. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  7. python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...

    昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...

  8. day02 requests请求库爬取豆瓣电影信息+selenium请求库

    一. requests请求库爬取豆瓣电影信息 - 请求url http://movie.douban.com/top250 - 请求方式 GET - 请求头 user-agent    cookies ...

  9. Python爬取豆瓣热映电影

    Python爬取豆瓣热映电影 # encoding: utf-8import requests from lxml import etree# 1. 将目标网站上的页面抓取下来 headers = { ...

最新文章

  1. php中的interface和implements及其他
  2. avue 文字点击 弹窗_经验 | UI设计师必懂的App弹窗设计方法
  3. 百度全面开放HTTPS之我见
  4. leetcode990. 等式方程的可满足性(并查集)
  5. Traceroute程序
  6. python把空格替换成字符串,用空格替换字符串中的字符
  7. mask层--- ios开发view圆角属性的layer层的实质
  8. nlp-tutorial代码注释3-1,RNN简介
  9. 学习Python编程培训 有哪些爬虫技术课程需要掌握
  10. Robot Framework怎么导入selenium2library类库
  11. 汉字常用字unicode码表
  12. sql server 替换字段中的部分字符,替换指定字符的方法
  13. PTA 7-1 修理牧场
  14. 使用WordPress搭建个人网站
  15. 爬取哔哩哔哩综合排行榜信息及视频弹幕内容
  16. 智慧医疗中人工智能的7大应用|数据标注
  17. 技嘉服务器主板是什么型号,ASUS华硕/技嘉/微星MSI工作站服务器主板型号对比说明,注入win7驱动工具...
  18. 【广播剧后期】你一定要掌握的的几个方面
  19. 解决win10(联想电脑)自动删除一些破解文件
  20. python 实现FTP上传下载文件

热门文章

  1. 借力SPC,品质数据异常监控与分析仅需几分钟搞定
  2. Windows系统更新完后进不去Microsoft Store,报错:需要使用新应用以打开此ms-windows-store链接
  3. Android实现屏幕旋转方法
  4. 输电线路隐患在线监测装置(综合型装置)
  5. (win10)anaconda虚拟环境中安装特定版本cuda+tensorflow+pytorch+pycharm
  6. 如何将b站缓存的m4s视频转换成mp4格式
  7. 在桌面上用鼠标点击一个图标,结果附近若干个图标都被选中的原因?
  8. 成都的Java培训机构有哪些?
  9. 三种方法在当前目录下打开cmd命令窗口
  10. 我的24H(外企工作日/周末)