python 爬取电影天堂电影续编

在上一篇的基础上，添加了获取每部电影的下载链接的功能。

首先分析电影一部电影的页面的html。分析的网页的url：https://www.dy2018.com/i/99618.html

其中包含下载链接的标签为tbody：

因此，获取下载链接的函数可以这样来写：

def dlink(link):                            #获取下载链接dllink_list=[]response=requests.get(link)demo=response.content.decode('gb2312','ignore')doc=BeautifulSoup(demo,'lxml')for tbody in doc.select('tbody'):       #获取下载链接for a in tbody.select('tr td a'):dllink_list.append(a.string)link_str=';'.join(dllink_list)return link_str

这样就可以获取到每部电影的下载链接了。下面是全部的源码

import requests
from bs4 import BeautifulSoup
import csv
import timedef html_parser(url_start):#获取htmltry:headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}    #模拟浏览器登入 r=requests.get(url_start,headers=headers,timeout=10)  #获取网页except:passelse:html = r.content.decode('gb2312','ignore')  #防止在打印结果的时候乱码,解码gb2312，忽略其中有异常的编码，仅显示有效的编码,还有 replace 功能为替换       #解析网页soup = BeautifulSoup(html,'lxml')                                for li in soup.select('.co_area2 li'):  #选择所有class=co_area2 下的所有的 li 节点for a in li.select('a'):            #选择 li 节点下的 a 节点 link=url_start+a['href']        #构造每个电影的网页链接download_link=dlink(link)       #获取下载链接item={                          #将获取的结果存储为字典"name":a.string,"link":link,"download_link":download_link,}save_result(item)               #每次获取一个结果后，存储一次item.clear()                    #存储后清空字典，为下次存储做准备def save_result(item):                      #存储结果with open('dy.csv','a',newline='',encoding='utf-8') as csvfile:   #打开一个csv文件，用于存储fieldnames=['name','link','download_link']writer=csv.DictWriter(csvfile,fieldnames=fieldnames)writer.writerow(item)def dlink(link):                            #获取下载链接dllink_list=[]response=requests.get(link)demo=response.content.decode('gb2312','ignore')doc=BeautifulSoup(demo,'lxml')for tbody in doc.select('tbody'):       #获取下载链接for a in tbody.select('tr td a'):dllink_list.append(a.string)link_str=';'.join(dllink_list)return link_strdef main():                                          #主程序with open('dy.csv','a',newline='') as csvfile:   #写入表头writer=csv.writer(csvfile)            writer.writerow(['name','link','download_link'])url_start="https://www.dy2018.com/"#html=html_get(url_start)html_parser(url_start)if __name__ == '__main__':     #运行主程序start=time.time()print("It's workig ...")print("Please waiting")main()end=time.time()print("Have Done")print("总用时：")print(end-start)

爬取的数据结果如下：

python 爬取电影天堂电影续编相关推荐

python 爬取豆瓣top100电影页面
python 爬取豆瓣top100电影页面运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存避免多次访问 (登陆状态需页面cooki ...
python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站爬取html数据完整代码 python爬取豆瓣排行 ...
大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取前言一.配置环境二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息三.建立Excel表并导出总 ...
Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
1-3 用Python爬取微博上电影主题的热度（主题的阅读数和讨论数）
1-3 用Python爬取微博上电影主题的热度(主题的阅读数和讨论数) 1 weiboHeat.py 2 #-*- coding:utf-8 -*- 3 ''' 4 该脚本可以从wap版的微博网站上爬 ...
Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
Python爬取豆瓣Top250电影排名
# -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...
python爬取豆瓣排行榜电影数据(含GUI界面版)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬取知乎电影话题回答，采集提及次数前50的电影
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于苏生不惑,作者苏生不惑如果在家无聊推荐几部经典电影给你看看. 这 ...
Python 爬取 3000 部电影，最具人气烂片排行榜出炉！
作者 | 徐麟责编 | 刘静前言随着电影行业的蓬勃发展,越来越多的电影出现在了观众的视野中,丰富了大家的生活,好的电影也能让大家在放松自我的同时收获一些对人生的思考. 然而,也有那么一些&qu ...

python 爬取电影天堂电影续编

python 爬取电影天堂电影续编相关推荐

最新文章

热门文章