在开始之前,做一点小小的说明哈:

  • 我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除!
  • 本文需要有简单的python爬虫基础,主要用到两个爬虫模块(都是常规的)requests模块selenium模块
  • 建议使用谷歌浏览器,方便进行抓包和数据获取。私信小编01即可获取大量Python学习资料

Part1 进行网页分析

首先打开网易云的网页版网易云
然后搜索歌曲,这里我就搜索一首锦零的“空山新雨后”

这时我们来观察网页的url,可以发现s=后面就是我们搜索的关键字

当我们换一首歌,会发现也是这样的,正好验证了我们的想法

所以下一步让我们点进去一首歌,然后进行播放,看看能否直接获取音乐文件的url,如果能,那么直接对url进行requests.get访问,我们就能拿到.mp3文件了
点进第一首“空山新雨后”,我们可以看到有一个“生成外链播放器”

看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。

好吧,不过我们不能放弃,来我们分析一下网页
但当我们定位到两个最有可能出现外链的地方时,发现什么都没有

不过作为“规格严格,功夫到家”的传承者,我不能放弃啊,于是我又打开了抓包工具
按照常规套路,我们定位到XHR

点击播放后,出现了一大堆东西,我们要做的就是找到其中的content-type为audio一类的包
功夫不负有心人,在寻找了一(亿)会儿后,我找到了

于是我又满怀开心的复制了这个包对应的Request-URL
粘贴后访问这个url,结果非常满意,这就是我一直在找的url

现在我把那个url贴出来

https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

Part2 编写爬虫程序

接下来就超级简单了
下面的代码是最常规的操作,应该有爬虫基础的都能看懂;如果有不懂的,注释都在上面

#导入requests包import requests  #进行UA伪装headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'}#指定urlurl = 'https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3'#调用requests.get方法对url进行访问,和持久化存储数据audio_content = requests.get(url=url,headers=headers).content#存入本地with open('空山新雨后.mp3','wb') as f :    f.write(audio_content)print("空山新雨后爬取成功!!!")

Part3 更高级的

看到这里,你可能会想,为啥根本没用selenium模块呢?能不能直接爬取任何一首我想要的歌,而不用每首都去费心费力的找一个url呢?当然可以哒!
其实网易云在线播放每首歌曲时,都有一个外链地址,这是不会变的,跟每首歌的唯一一个id绑定在一起,每首歌audio文件的url如下:

url = 'http://music.163.com/song/media/outer/url?id=' + 歌曲的id值 + '.mp3'

id值的获取也很简单,当我们点进每首歌时,上方会出现对应的网址,那里有id值,如下图:

所以只需把上面程序中的url改成新的url即可
如果还想要更好的体验效果,实现在程序里直接搜索歌曲,拿到id值,就需要用到selenium模块
为什么用selenium而不用xpath或bs4?
因为搜索页面的数据是动态加载出来的,如果直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我目前的技术,就只能想到使用万能的selenium模块,下面大概说明一下步骤:

  1. 进行selenium无可视化界面设置
from selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')
  1. 导包
import requestsimport refrom selenium import webdriverfrom time import sleep
  1. 指定歌曲,得到对应搜索页面的url
name = input('请输入歌名:')url_1 = 'https://music.163.com/#/search/m/?s=' + name + '&type=1'
  1. 获取搜索页面的html文件
#初始化browser对象browser = webdriver.Chrome(executable_path='chromedriver.exe',chrome_options=chrome_options)#访问该urlbrowser.get(url=url_1)#由于网页中有iframe框架,进行切换browser.switch_to.frame('g_iframe')#等待0.5秒sleep(0.5)#抓取到页面信息page_text = browser.execute_script("return document.documentElement.outerHTML")#退出浏览器browser.quit()
  1. 用正则模块re匹配html文件中的id值、歌名和歌手
ex1 = ''ex3 = 'class="td w1">(.*?)

'id_list = re.findall(ex1,page_text,re.M)[::2]song_list = re.findall(ex2,page_text,re.M)singer_list = re.findall(ex3,page_text,re.M)

python 录制网易云登陆_Python爬虫教程,爬取网易云的音乐相关推荐

  1. python音乐相册_python爬虫之爬取网易云音乐的歌曲图片和歌词

    0.目录 1.分析页面 2.获取歌曲的id 3.获取歌曲信息 4.获取歌曲图片url 5.获取歌词 6.总结 7.完整代码 1.分析页面 这一次我们来爬取网易云音乐,爬取歌单内的所有歌曲的图片和歌词, ...

  2. python访问多个网页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  3. python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜

    利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...

  4. Python爬虫——selenium爬取网易云评论并做词云

    大家好!我是霖hero 到点了上号网易云,很多人喜欢到夜深人静的时候,在网易云听音乐发表评论,正所谓:自古评论出人才,千古绝句随口来,奈何本人没文化,一句卧槽行天下!评论区集结各路大神,今天我们来爬取 ...

  5. python爬虫之爬取网易云音乐的歌曲图片和歌词

    0.目录 1.分析页面 2.获取歌曲的id 3.获取歌曲信息 4.获取歌曲图片url 5.获取歌词 6.总结 7.完整代码 1.分析页面 这一次我们来爬取网易云音乐,爬取歌单内的所有歌曲的图片和歌词, ...

  6. 【Python爬虫】爬取网易云评论

    爬取网易云音乐最新评论 import requests import time import json import datetime import xlwt headers = {'Host': ' ...

  7. python爬虫爬取歌曲_python爬虫实战:爬取全站小说排行榜

    喜欢看小说的骚年们都知道,总是有一些小说让人耳目一新,不管是仙侠还是玄幻,前面更了几十章就成功圈了一大波粉丝,成功攀上飙升榜,热门榜等各种榜,扔几个栗子出来: 新笔趣阁是广大书友最值得收藏的网络小说阅 ...

  8. 来跟我学爬虫,爬取网易云音乐的邓紫棋歌单MP3,注意:VIP歌曲不可以爬取

    @Author:Runsen 我又回来了写几个爬虫案例了,这次是写一个简单的爬虫,我来教你如何爬取网易云音乐的歌单MP3,正所谓下载一个mp3很麻烦,你们的女朋友想听歌,秀即使帮她爬取所有MP3,从此 ...

  9. python爬取历史天气查询_Python爬虫实战-爬取历史天气数据

    最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析 这里我使用的是Python中的requests库Beau ...

  10. python接收弹幕_Python爬虫自动化爬取b站实时弹幕实例方法

    最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频.我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例 ...

最新文章

  1. c#chart背景透明_C# 二
  2. linux隐藏文件的方法,Linux下隐藏文件的操作方法
  3. getGeneratedKeys自动获取主键的方法
  4. python与seo应用_【张亚楠】Python在我SEO工作中的应用(1)
  5. Android小项目源码汇总
  6. Colidity-- Dominator
  7. 合理利用Java不可变对象,让你的代码更加优雅
  8. 22 C#中的异常处理入门 try catch throw
  9. Android-HandlerThread详解
  10. 通过创建一个位图的XY Chart来学习Android绘图类Rect,Paint,Bitmap,Canvas(附源码)
  11. 量子力学 计算机应用,有了九章计算机:但我们离量子力学还很远~
  12. 程序复杂度之圈复杂度
  13. 阿拉伯语系下状态栏图标不要反向显示
  14. PS教程-photoshop入门基础应用技术服务支持
  15. uniapp height高度 100% 无效的问题
  16. 与计算机相关的英语句子,计算机英语的常用句子
  17. 何为内核青年?内在觉醒、内在驱动更有助于人生的成功
  18. Linux系统下海康机器人MVS安装
  19. 代码中统计时间(计时)
  20. C#中,用户控件UserControl里面用Panl加载UserControl,并实现利用委托互相传值

热门文章

  1. CSS大美集(关于细节)
  2. CloudStack核心类ApiServlet、ApiServer、ApiDispatcher、GenericDaoBase源码分析
  3. pytest特色与实用插件
  4. 在django项目中使用django-ckeditor
  5. CentOS6.4将MySQL5.1升级至5.5.36
  6. Ajax与jQuery、json
  7. Animation中的scale、rotate、translate、alpha
  8. java截取文件名.后的字符串
  9. asp.net 获取IP地理位置的几个主要接口
  10. Android解决异常apk on device '0292bea1': Unable to open sync connection!