1. 【案例】re屠戮电影天堂

1.目的：

定位到2021新片精品
从2021新片精品中提取到子页面的链接地址
请求子页面的链接地址，拿到我们想要的下载地址…

1. 定位到2021新片精品

我想得到这里的电影的下载地址。

1. 出现错误？？？

2. 网页乱码？？？

python抓包回来，默认进行utf8编码了，但是如果网页的编码不是utf8的话，就会出现这样的乱码

网站的编码通常会进行声明，

然后我们进行换一下编码就好了

我们的唯一标识就是 2021新片精品

2.从2021新片精品中提取到子页面的链接地址

3.请求子页面的链接地址，拿到我们想要的下载地址…

# -*- coding: utf-8 -*-
# @Time: 2021/5/5 14:05
# @Author: adam
# @File: demo2.pyimport csv
import re
import requests
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}
domain='https://www.dytt8.net/index.htm'res = requests.get(url=domain,headers=header,verify = False)
res.encoding='gb2312'  # 指定字符集
page_content = res.text
# print(page_content)# 拿到了ul中的url
obj1 = re.compile(r"手机浏览,推荐下载本站app,绿色小巧,简单实用！详情请点击！.*?</tr>(?P<ul>.*?)</table>",re.S)
obj2 = re.compile(r"最新电影下载.*?href='(?P<herf>.*?)'",re.S)child_href_list = []
result1 = obj1.finditer(page_content)
for it in result1:  # 这个只有一个，因为能够符合上述匹配的只有一个东西。ul = it.group('ul')# 提取子页面连接： https://www.dytt8.net/html/gndy/dyzz/20210430/61371.html需要加上前面的域名result2 = obj2.finditer(ul)for it in result2:# 拼接子页面和url地址child_herf = 'https://www.dytt8.net' + it.group('herf')child_href_list.append(child_herf) # 把子页面的连接保存在一个 列表中。# 提取 子页面内容。for herf in child_href_list:child_resp = requests.get(url=herf,verify=False)child_resp.encoding='gb2312'child_page_content = child_resp.textprint(child_page_content)break # 测试用的

进入页面之后，就是找下载地址了。

nice，就只有这个一个地方，直接就找到url了。

最终代码：

# -*- coding: utf-8 -*-
# @Time: 2021/5/5 14:05
# @Author: adam
# @File: demo2.pyimport csv
import re
import requests
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}
domain='https://www.dytt8.net/index.htm'res = requests.get(url=domain,headers=header,verify = False)
res.encoding='gb2312'  # 指定字符集
page_content = res.text
# print(page_content)# 拿到了ul中的url
obj1 = re.compile(r"手机浏览,推荐下载本站app,绿色小巧,简单实用！详情请点击！.*?</tr>(?P<ul>.*?)</table>",re.S)
obj2 = re.compile(r"最新电影下载.*?href='(?P<herf>.*?)'",re.S)
obj3 = re.compile(r'◎片　　名(?P<movie_name>.*?)<br />.*?<br /><br /><br /><a target="_blank" href="(?P<movie_url>.*?)"')child_href_list = []
result1 = obj1.finditer(page_content)
for it in result1:  # 这个只有一个，因为能够符合上述匹配的只有一个东西。ul = it.group('ul')# 提取子页面连接： https://www.dytt8.net/html/gndy/dyzz/20210430/61371.html需要加上前面的域名result2 = obj2.finditer(ul)for itt in result2:# 拼接子页面和url地址child_herf = 'https://www.dytt8.net' + itt.group('herf')# print(child_herf)child_href_list.append(child_herf) # 把子页面的连接保存在一个 列表中。# 提取 子页面内容。for herf in child_href_list:child_resp = requests.get(url=herf,verify=False)child_resp.encoding='gb2312'child_page_content = child_resp.text# print(child_page_content)# break # 测试用的result3 = obj3.finditer(child_page_content)for ittt in result3:print(ittt.group('movie_name'),end='    ')print(ittt.group('movie_url'))

爬虫学习 ----- 第二章爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂相关推荐

爬虫概念与编程学习之如何爬取视频网站页面（三）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 爬虫概念与编程学习之如何爬取视频网站页面(用HttpClient)(二) 不多说,直接上代码. 编写代码运行 <! ...
python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂
网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看复制代码 import requests,bs4,re,os,threadingclas ...
python爬虫案例——根据网址爬取中文网站，获取标题、子连接、子连接数目、连接描述、中文分词列表
全栈工程师开发手册 (作者:栾鹏) python教程全解其中使用到了urllib.BeautifulSoup爬虫和结巴中文分词的相关知识. 调试环境python3.6 # 根据连接爬取中文网站,获取 ...
python爬虫爬取58网站数据_python实战学习笔记：爬取58同城平板电脑数据
学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
编写代码运行 <!DOCTYPE html><html><head><meta http-equiv="X-UA-Compatible" ...
python爬虫教程网-python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
python爬取网页数据软件_python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于"数据"方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么 ...

爬虫学习 ----- 第二章爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

目录：

1. 【案例】re屠戮电影天堂

1.目的：

1. 定位到2021新片精品

1. 出现错误？？？

2. 网页乱码？？？

2.从2021新片精品中提取到子页面的链接地址

3.请求子页面的链接地址，拿到我们想要的下载地址…

爬虫学习 ----- 第二章爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂相关推荐

最新文章

热门文章

爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

目录：

1. 【案例】re屠戮电影天堂

1.目的：

1. 定位到2021新片精品

1. 出现错误？？？

2. 网页乱码？？？

2.从2021新片精品中提取到子页面的链接地址

3.请求子页面的链接地址，拿到我们想要的下载地址…

爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂相关推荐

最新文章

热门文章

爬虫学习 ----- 第二章爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

爬虫学习 ----- 第二章爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂相关推荐