在上一篇的基础上,添加了获取每部电影的下载链接的功能。

首先分析电影一部电影的页面的html。分析的网页的url:https://www.dy2018.com/i/99618.html

其中包含下载链接的标签为tbody:

因此,获取下载链接的函数可以这样来写:

def dlink(link):                            #获取下载链接dllink_list=[]response=requests.get(link)demo=response.content.decode('gb2312','ignore')doc=BeautifulSoup(demo,'lxml')for tbody in doc.select('tbody'):       #获取下载链接for a in tbody.select('tr td a'):dllink_list.append(a.string)link_str=';'.join(dllink_list)return link_str

这样就可以获取到每部电影的下载链接了。下面是全部的源码

import requests
from bs4 import BeautifulSoup
import csv
import timedef html_parser(url_start):#获取htmltry:headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}    #模拟浏览器登入 r=requests.get(url_start,headers=headers,timeout=10)  #获取网页except:passelse:html = r.content.decode('gb2312','ignore')  #防止在打印结果的时候乱码,解码gb2312,忽略其中有异常的编码,仅显示有效的编码,还有 replace 功能为替换       #解析网页soup = BeautifulSoup(html,'lxml')                                for li in soup.select('.co_area2 li'):  #选择所有class=co_area2 下的所有的 li 节点for a in li.select('a'):            #选择 li 节点下的 a 节点 link=url_start+a['href']        #构造每个电影的网页链接download_link=dlink(link)       #获取下载链接item={                          #将获取的结果存储为字典"name":a.string,"link":link,"download_link":download_link,}save_result(item)               #每次获取一个结果后,存储一次item.clear()                    #存储后清空字典,为下次存储做准备def save_result(item):                      #存储结果with open('dy.csv','a',newline='',encoding='utf-8') as csvfile:   #打开一个csv文件,用于存储fieldnames=['name','link','download_link']writer=csv.DictWriter(csvfile,fieldnames=fieldnames)writer.writerow(item)def dlink(link):                            #获取下载链接dllink_list=[]response=requests.get(link)demo=response.content.decode('gb2312','ignore')doc=BeautifulSoup(demo,'lxml')for tbody in doc.select('tbody'):       #获取下载链接for a in tbody.select('tr td a'):dllink_list.append(a.string)link_str=';'.join(dllink_list)return link_strdef main():                                          #主程序with open('dy.csv','a',newline='') as csvfile:   #写入表头writer=csv.writer(csvfile)            writer.writerow(['name','link','download_link'])url_start="https://www.dy2018.com/"#html=html_get(url_start)html_parser(url_start)if __name__ == '__main__':     #运行主程序start=time.time()print("It's workig ...")print("Please waiting")main()end=time.time()print("Have Done")print("总用时:")print(end-start)

爬取的数据结果如下:

python 爬取电影天堂电影续编相关推荐

  1. python 爬取豆瓣top100电影页面

    python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...

  2. python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

    目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...

  3. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

  4. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  5. 1-3 用Python爬取微博上电影主题的热度(主题的阅读数和讨论数)

    1-3 用Python爬取微博上电影主题的热度(主题的阅读数和讨论数) 1 weiboHeat.py 2 #-*- coding:utf-8 -*- 3 ''' 4 该脚本可以从wap版的微博网站上爬 ...

  6. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  7. Python爬取豆瓣Top250电影排名

    # -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...

  8. python爬取豆瓣排行榜电影数据(含GUI界面版)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  9. Python爬取知乎电影话题回答,采集提及次数前50的电影

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 以下文章来源于苏生不惑,作者苏生不惑 如果在家无聊推荐几部经典电影给你看看. 这 ...

  10. Python 爬取 3000 部电影,最具人气烂片排行榜出炉!

    作者 | 徐麟 责编 | 刘静 前言  随着电影行业的蓬勃发展,越来越多的电影出现在了观众的视野中,丰富了大家的生活,好的电影也能让大家在放松自我的同时收获一些对人生的思考. 然而,也有那么一些&qu ...

最新文章

  1. 数据结构显示树的所有结点_您需要了解的有关树数据结构的所有信息
  2. 华为畅享max有没有人脸识别_谁说千元机就要将就?华为畅享Z全面测评:5G、屏幕、拍照无短板...
  3. 根据文法画出语法树_更多确定子句语法
  4. 通过NetMassDownloader批量下载和使用微软.NET框架源代码
  5. python知识点智能问答_基于知识图谱的智能问答机器人
  6. elk系列1之入门安装与基本操作
  7. c语言第一章节测试,计算机二级C语言教程章节测试:字符串
  8. java 蓝桥杯历届试题 分糖果(题解)
  9. python从入门到精通——完整教程
  10. linux自动定时关机命令,教大家使Ubuntu自动定时关机的方法
  11. 蓝牙sbc怎么解决_【科普】蓝牙音频常用的编解码格式
  12. 计算机关机时出现计划,如何在win7计算机上设置自动关机命令
  13. AI 上当,“苹果”变 “iPod”
  14. xxlJob定时任务,文章的上下架
  15. Android手机APP广告植入与产品上线
  16. 把ubuntu安装在U盘的教程之一:制作U盘启动盘
  17. c语言指针 —— 面试题
  18. document server java_Readme.md · ct_java/DocumentServer - Gitee.com
  19. 旧金山大学计算机科学,旧金山大学计算机科学理学硕士研究生申请要求及申请材料要求清单...
  20. 杰理之蓝牙连接成功自动播放【篇】

热门文章

  1. 现代学徒制计算机专业人才订单培养方案,【计算机教学论文】现代学徒制的学校计算机教学队伍建设(共2786字)...
  2. Python中单下划线和双下划线
  3. 智能除味器--整体硬件方案概述
  4. Ralink wifi driver WPA四次握手可能的问题
  5. [linux] shell 输入/输出重定向 、 文件包含
  6. 2022年全球市场电加热元件总体规模、主要生产商、主要地区、产品和应用细分研究报告
  7. 神隐模式云控信息 服务器,《游戏蜂窝免root版》关闭高耗电或神隐模式教程
  8. Discoverer
  9. ice-full与ice-lite
  10. 天府杯E题 Question E: New Energy Promotion And Environmental Protection.