IT Xiao Ang Zai 8月19号

版本:python3.64

编程软件:pycharm

接下来要学习网络爬虫了,那里面的东西是非常神奇的,平时我也有一些小爱好,比如听戏,谈到听戏的话,不如就先给大家展示一下一个简单的爬取豫剧的代码:

先运行如下代码:

​
import urllib.request
import re
from bs4 import BeautifulSoupdef main():url = "http://www.xiquwenhua.net/yuju/"response = urllib.request.urlopen(url)html = response.read()soup = BeautifulSoup(html,"html.parser")for each in soup.find_all(href=re.compile("/xiqudaquan/yuju/xiazai")):print(each)if __name__ == "__main__":main()​

这时候我们会发现,根据网页源码,会爬取下来如下信息:

接下来我们要进入第二链接,该怎样做呢。由于这里只是简单介绍,故我们由之前的基础知识来改代码。可以先把这些作为字符串写入文件再切片得到所需内容。加入如下语句:

for each in soup.find_all(href=re.compile("/xiqudaquan/yuju/xiazai")):print(each)with open("E:\\my.text","a+") as f:f.write(str(each)[9:42])f.write("\n")

效果如下:

我们显然需要去重,这时候就需要另写一个文件了,方法略过,最后得到文件如下:

再对比网页即可得到第二链接地址

然后我们由如下代码得到最终的下载链接:

a = [5810,6268,5832,6278,6277,6271,6274,6273,6272,6270,6269,6267]for i in range(len(a)):url2 = "http://www.xiquwenhua.net/xiqudaquan/yuju/xiazai/%d.html" % a[i]response2 = urllib.request.urlopen(url2)html2 = response2.read()soup2 = BeautifulSoup(html2,"html.parser")for each2 in soup2.find_all(href=re.compile("pan.baidu.com")):print(each2)

效果如下:

爬取百度链接的加密密码这里就不讲解了,方法类似。

python爬取豫剧音乐下载链接相关推荐

  1. python爬取qq音乐歌曲链接为什么播放不出来_手把手教你使用Python抓取QQ音乐数据(第一弹)...

    原标题:手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. ...

  2. python爬取qq音乐周杰伦_Python爬取QQ音乐url及批量下载

    QQ音乐还是有不少的好音乐,有些时候想要下载好听的音乐,如果在网页下载都是还需要登录什么的.于是,来了个QQmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧. 参考 ...

  3. Python爬取QQ音乐url及批量下载

    QQ音乐还是有不少的好音乐,有些时候想要下载好听的音乐,如果在网页下载都是还需要登录什么的.于是,来了个QQmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧. 参考 ...

  4. python爬取QQ音乐免费歌曲 2020.7.26

    python爬取qq音乐免费歌曲 2020.7.26 目标分析 获取音乐列表 1.浏览器网络请求追踪 2.寻找音乐列表 解析qq音乐 1.下载连接组成 2.获取vkey 3.获取sign参数 关系图 ...

  5. python爬取qq音乐标签_Python爬取qq音乐的过程实例

    一.前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元 ...

  6. 用python爬取阳光电影的链接

    用python爬取阳光电影的链接,并存入文本.把链接直接复制到迅雷软件即可下载电影,方便快捷.python代码如下: # -*- encoding: utf-8 -*- ""&qu ...

  7. 爬虫学习(一)---爬取电影天堂下载链接

    欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 主要利用了python3.5 requests,Bea ...

  8. 我用Python爬取了难下载的电子教材(内附代码)

    我用Python爬取了难下载的电子教材(内附代码) 第一次在CSDN上面分享经历,有点激动.本大二狗最近这段时间去不了学校又想看教材,不巧学习通上面的部分内容老师设置了不可下载啊.好在最近学习了一点P ...

  9. python爬取落网音乐

    任务 爬取"落网音乐"下载至本地(源码自己敲) 课前准备 工具:python 2.7,PyCharm 类库:Requests,BeautifulSoup4,os 注意: Beaut ...

最新文章

  1. 【Zookeeper】Zookeeper一致性协议——ZAB
  2. 人脸关键点 姿态笔记
  3. 基于Oracle11gR2 GRID的单实例库备份恢复
  4. ArgoCD + KubeVela:以开发者为中心的 GitOps
  5. 单元测试中Assert类的用法
  6. Docker+Teamcity+Maven+SVN搭建持续集成环境
  7. 关于http协议的理解
  8. 【BZOJ2744】【codevs2366】朋友圈,二分图最大匹配
  9. preg_replace的一些细节
  10. 灵魂拷问!mysqlproxy配置
  11. 利用深度学习从单个损伤和斑点中识别植物病害
  12. vue的路由怎么换端口_vue.js如何更改默认端口号8080为指定端口的方法
  13. mysql语句中多表查询_6.MySql中的SQL语句(五):多表查询
  14. LSOF 安装与使用
  15. excel中添加图片的代码
  16. Android Studio开发
  17. c语言小学生入门自学,啊哈C语言:小学生坐在马桶上都可以读懂的C语言编程入门书 PDF 扫描版[20M]...
  18. MySQL基础入门《2》创建数据库并插入数据
  19. riot修改服务器,riot改地区教程
  20. window10添加局域网计算机,Windows10系统创建局域网图文教程

热门文章

  1. bulk es 删除_分布式ES:批量操作 bulk 之 create、index、update、delete(十八)
  2. UI设计师需要学习什么?有哪些必备软件?
  3. 浅析关系数据库和NoSql非关系数据库
  4. 压力位和支撑位理论真的有效吗?-多收了三五斗
  5. 【Angular 4.0】在线竞拍网站开发
  6. Linux下面使用sqlplus热键冲突
  7. mudbox卸载/完美解决安装失败/如何彻底卸载清除干净mudbox各种残留注册表和文件的方法...
  8. gotify 推送服务器搭建使用
  9. 2021年中国橡胶轮胎行业市场供需及进出口情况分析:橡胶轮胎外胎产量89910.8万条,同比增涨11.35% [图]
  10. 第四篇:python基础之条件和循环