目录:

  • 1. 【案例】re屠戮电影天堂
    • 1.目的:
      • 1. 定位到2021新片精品
        • 1. 出现错误???
        • 2. 网页乱码???
      • 2.从2021新片精品中提取到子页面的链接地址
      • 3.请求子页面的链接地址,拿到我们想要的下载地址...

1. 【案例】re屠戮电影天堂

1.目的:

  1. 定位到2021新片精品
  2. 从2021新片精品中提取到子页面的链接地址
  3. 请求子页面的链接地址,拿到我们想要的下载地址…

1. 定位到2021新片精品

我想得到这里的电影的下载地址。


1. 出现错误???



2. 网页乱码???

python抓包回来,默认进行utf8编码了,但是 如果网页的编码不是utf8的话,就会出现这样的乱码

网站的编码通常会进行声明,


然后我们进行换一下编码就好了

我们的唯一标识就是 2021新片精品



2.从2021新片精品中提取到子页面的链接地址

3.请求子页面的链接地址,拿到我们想要的下载地址…

# -*- coding: utf-8 -*-
# @Time: 2021/5/5 14:05
# @Author: adam
# @File: demo2.pyimport csv
import re
import requests
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}
domain='https://www.dytt8.net/index.htm'res = requests.get(url=domain,headers=header,verify = False)
res.encoding='gb2312'  # 指定字符集
page_content = res.text
# print(page_content)# 拿到了ul中的url
obj1 = re.compile(r"手机浏览,推荐下载本站app,绿色小巧,简单实用!详情请点击!.*?</tr>(?P<ul>.*?)</table>",re.S)
obj2 = re.compile(r"最新电影下载.*?href='(?P<herf>.*?)'",re.S)child_href_list = []
result1 = obj1.finditer(page_content)
for it in result1:  # 这个只有一个,因为能够符合上述匹配的只有一个东西。ul = it.group('ul')# 提取子页面连接: https://www.dytt8.net/html/gndy/dyzz/20210430/61371.html需要加上前面的域名result2 = obj2.finditer(ul)for it in result2:# 拼接子页面和url地址child_herf = 'https://www.dytt8.net' + it.group('herf')child_href_list.append(child_herf) # 把子页面的连接保存在一个 列表中。# 提取 子页面内容。for herf in child_href_list:child_resp = requests.get(url=herf,verify=False)child_resp.encoding='gb2312'child_page_content = child_resp.textprint(child_page_content)break # 测试用的


进入页面之后,就是找下载地址了。

nice,就只有这个一个地方,直接就找到url了。

最终代码:

# -*- coding: utf-8 -*-
# @Time: 2021/5/5 14:05
# @Author: adam
# @File: demo2.pyimport csv
import re
import requests
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}
domain='https://www.dytt8.net/index.htm'res = requests.get(url=domain,headers=header,verify = False)
res.encoding='gb2312'  # 指定字符集
page_content = res.text
# print(page_content)# 拿到了ul中的url
obj1 = re.compile(r"手机浏览,推荐下载本站app,绿色小巧,简单实用!详情请点击!.*?</tr>(?P<ul>.*?)</table>",re.S)
obj2 = re.compile(r"最新电影下载.*?href='(?P<herf>.*?)'",re.S)
obj3 = re.compile(r'◎片  名(?P<movie_name>.*?)<br />.*?<br /><br /><br /><a target="_blank" href="(?P<movie_url>.*?)"')child_href_list = []
result1 = obj1.finditer(page_content)
for it in result1:  # 这个只有一个,因为能够符合上述匹配的只有一个东西。ul = it.group('ul')# 提取子页面连接: https://www.dytt8.net/html/gndy/dyzz/20210430/61371.html需要加上前面的域名result2 = obj2.finditer(ul)for itt in result2:# 拼接子页面和url地址child_herf = 'https://www.dytt8.net' + itt.group('herf')# print(child_herf)child_href_list.append(child_herf) # 把子页面的连接保存在一个 列表中。# 提取 子页面内容。for herf in child_href_list:child_resp = requests.get(url=herf,verify=False)child_resp.encoding='gb2312'child_page_content = child_resp.text# print(child_page_content)# break # 测试用的result3 = obj3.finditer(child_page_content)for ittt in result3:print(ittt.group('movie_name'),end='    ')print(ittt.group('movie_url'))

爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂相关推荐

  1. 爬虫概念与编程学习之如何爬取视频网站页面(三)

    先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二) 不多说,直接上代码. 编写代码 运行 <! ...

  2. python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站

    注意事项 版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...

  3. python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂

    网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看 复制代码 import requests,bs4,re,os,threadingclas ...

  4. python爬虫案例——根据网址爬取中文网站,获取标题、子连接、子连接数目、连接描述、中文分词列表

    全栈工程师开发手册 (作者:栾鹏) python教程全解 其中使用到了urllib.BeautifulSoup爬虫和结巴中文分词的相关知识. 调试环境python3.6 # 根据连接爬取中文网站,获取 ...

  5. python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据

    学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息 首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...

  6. 爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二)

    编写代码 运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" ...

  7. python爬虫教程网-python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  8. python爬取网页数据软件_python爬虫入门10分钟爬取一个网站

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  9. Python爬取招聘网站数据,给学习、求职一点参考

    1.项目背景 随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于"数据"方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么 ...

最新文章

  1. Ajax 完整教程(转载)
  2. mongoDB 数据库简介
  3. 如果公司的网络屏蔽了游戏【英雄联盟】的链接请求,使用这种方法玩游戏。
  4. 我python写的闭包为什么效率很低_GitHub - llzhi001/interview_python_practice: interview 面试题 CS-Notes之ME-技术总结...
  5. abp 打包部署到ubuntu_如何在Ubuntu中安装Docker和运行 Docker容器
  6. python开发工具和框架安装器_Python基础框架和工具
  7. java工具方法1(数组)
  8. 数据库SQL Server2012笔记(八)——Statement与PreparedStatement的区别,JDBC方式操作数据库...
  9. java重新打开jframe,Java的; Jframe不重新绘制
  10. SQL window身份登陆 SQL server不能登陆
  11. 大名鼎鼎的挖掘鸡最新版本6.5
  12. 计算机控制器如何调用打印机,怎样设置打印机的虚拟usb端口
  13. Android apk包生成二维码给他人体验
  14. java中打印俄罗斯方块游戏_java实现俄罗斯方块小游戏
  15. 有了抖音账号,应该这样做
  16. python挖掘B站猛男手游公主连结的另类操作!
  17. Logstash 原理分析/配置文件详解 时间 日期 时区 ip 反斜杠 grok在线地址 类型转换
  18. 【观察】甲骨文数据库掌门人的“中国情缘”
  19. 可视化大屏“华而不实”?了解数据可视化的重点!
  20. Java Reactor Stream

热门文章

  1. 考研计算机需要学复变函数与积分变换,《复变函数与积分变换》期末考研重点复习试题...
  2. 太吾绘卷第一世攻略_太吾绘卷剑冢难度顺序排名详解 太吾绘卷剑冢怎么打/通关玩法攻略...
  3. BZOJ 1218(二维前缀和)
  4. 旋流油水分离器内部结构说明
  5. 如何避免服务器被攻击
  6. php实现挖掘百度相关词,百度相关搜索关键词采集即长尾关键词挖掘脚本
  7. 串行LCM12864驱动程序
  8. html分享qq好友app接口,iOS-QQ分享功能实现
  9. pycharm更改黑色主题
  10. js实现bind函数