Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

一、豆瓣音乐

今天爬的是豆瓣音乐top250，比较简单，主要是练练手。

1、加了请求头，本来没加，调试几次突然没数据了，加了请求头开始也没好，后来又好了，可能是网络原因； 2、这次是进入信息页爬的数据，上次爬电影没采用这种方法，缺少了部分数据； 3、数据的预处理用了很多if函数

数据分析

1、部分数据可以见上图 2、中国音乐作者还是很多的。 3、随着音乐设备和网络的普及，流行音乐的发展，可以看出2000年后作品越来越多，到2010年又积极下滑（经典就是经典，无法吐槽现在的音乐） 4、风格大家可以看出流行，摇滚，民谣占了一大半。 5、最后弄了一首周董的《不能说的秘密》做词云，想想小时候都是回忆啊。

代码片段

import requests
import re
from bs4 import BeautifulSoup
import time
import pymongo
client = pymongo.MongoClient('localhost', 27017)
douban = client['douban']
musictop = douban['musictop']
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
def get_url_music(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
music_hrefs = soup.select('a.nbg')
for music_href in music_hrefs:
get_music_info(music_href['href'])
time.sleep(2)

二、微打赏

网站分析

打开网站，翻页网页不变，看看是post的请求，很好办，直接把参数怼进去，这里只要切换page就能进行翻页。

json格式，这里post返回的是json数据，解析json数据就行，小技巧：看preview，解析起来嗖嗖哒。这里需要提取活动的名称，id和参与打赏的人数。这个后面详细页用的到。

详细页，依旧是post，依旧是json数据，这里的参数pro_id为之前的爬取的id，这一页20个信息，通过前面的参与打赏人数构造出有多少页，继续怼参数。

代码片段

import requests
import json
import math
def get_sup_info(url,page):
params = {
'ajaxtype':1,
'page':page,
'category':1,
'pageSize':8
}
cookies = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
'Cookie':'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;
}
html = requests.post(url, data=params, headers=cookies)
json_data = json.loads(html.text)
des = json_data['des']
for data in des:
name = data['name']
id = data['id']
pay_count = data['pay_count']
all_page = math.ceil(int(pay_count)/20)
for i in range(1,int(all_page)+1):
get_app_info(i,id,name)

三、阳光电影

爬虫分析

这里涉及跨页的爬取，需要理清爬虫的思路。首先打开网站，需爬取前11个分类的电影数据,经典影片格式不一样，爬虫时过滤掉了。

进入电影列表页后，正则爬取页数和电影的分类标签，以此构造分页url，然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址，爬取结果如下：

代码片段

import requests
import re
from lxml import etree
import csv
def get_resource(url,cate_name,cate_url,movie_name):
res = requests.get(url)
res.encoding = 'gb2312'
html = etree.HTML(res.text)
movie_resource = html.xpath('//tbody//tr/td/a/text()')[0]
writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))
print(movie_resource)

本文作者

罗攀

Python中文社区专栏作者，《从零开始学Python网络爬虫》图书作者、简书知名博主、Python网络爬虫专家

获取本文完整源代码方式：

长按扫描上方二维码报名课程后，

添加微信：pythonpost，回复“0110”免费获取

Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）相关推荐

python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
[python爬虫]--爬取豆瓣音乐topX
最近在学习python爬虫,写出来的一些爬虫记录在csdn博客里,同时备份一个放在了github上. github地址:https://github.com/wjsaya/python_spider_ ...
Python爬虫实战案例一：爬取猫眼电影
背景笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...
Python爬虫实战，QQ音乐爬取全部歌曲
前景介绍最近小伙伴们听歌的兴趣大涨,网抑云综合症已经遍布各地. 咱们再来抬高一波QQ音乐的热度吧. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里 ...
python爬虫实战(一)——豆瓣top250(re)
文章目录一 . 原理二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式三 . 代码一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...
Python爬虫实战，完整的思路和步骤（附源码）
前言小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站. 本堂课使用正则表达式对文本类的数据进行提取,正则表达式是数据提取的通用方法. 环境介绍: python 3.6 pych ...
python爬虫实战——自动下载百度图片（文末附源码）
用Python制作一个下载图片神器前言这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...
python爬虫实战三：近十年中国电影票房数据爬取与分析
近十年中国电影票房数据爬取与分析前言爬取分析十年top10 年度top5 每年电影数每年总票房二八原则代码与数据前言这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...
Python爬虫实战——下载小说
Python爬虫实战--下载小说前言第三方库的安装示例代码效果演示结尾前言使用requests库下载开源网站的小说注意:本文仅用于学习交流,禁止用于盈利或侵权行为. 操作系统:wind ...
【初学疑惑】开发者工具可信度高吗？Python爬虫实战场景
本篇博客是一个小小的 Python 爬虫实践,重点为解释在 Python 爬虫实战过程中,浏览器的开发者工具和代码抓取的网页源码,存在数据差异. 翻译一下就是开发者工具和爬虫采集到的源码,不一样. 本 ...

Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）相关推荐

最新文章

热门文章