Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)
一、豆瓣音乐
今天爬的是豆瓣音乐top250,比较简单,主要是练练手。
1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因; 2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据; 3、数据的预处理用了很多if函数
数据分析
1、部分数据可以见上图 2、中国音乐作者还是很多的。 3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐) 4、风格大家可以看出流行,摇滚,民谣占了一大半。 5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。
代码片段
import requests
import re
from bs4 import BeautifulSoup
import time
import pymongo
client = pymongo.MongoClient('localhost', 27017)
douban = client['douban']
musictop = douban['musictop']
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
def get_url_music(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
music_hrefs = soup.select('a.nbg')
for music_href in music_hrefs:
get_music_info(music_href['href'])
time.sleep(2)
二、微打赏
网站分析
打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。
json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。
详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。
代码片段
import requests
import json
import math
def get_sup_info(url,page):
params = {
'ajaxtype':1,
'page':page,
'category':1,
'pageSize':8
}
cookies = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
'Cookie':'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;
}
html = requests.post(url, data=params, headers=cookies)
json_data = json.loads(html.text)
des = json_data['des']
for data in des:
name = data['name']
id = data['id']
pay_count = data['pay_count']
all_page = math.ceil(int(pay_count)/20)
for i in range(1,int(all_page)+1):
get_app_info(i,id,name)
三、阳光电影
爬虫分析
这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。
进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。
最后在详细页爬取电影的下载地址,爬取结果如下:
代码片段
import requests
import re
from lxml import etree
import csv
def get_resource(url,cate_name,cate_url,movie_name):
res = requests.get(url)
res.encoding = 'gb2312'
html = etree.HTML(res.text)
movie_resource = html.xpath('//tbody//tr/td/a/text()')[0]
writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))
print(movie_resource)
本文作者
罗攀
Python中文社区专栏作者,《从零开始学Python网络爬虫》图书作者、简书知名博主、Python网络爬虫专家
获取本文完整源代码方式:
长按扫描上方二维码报名课程后,
添加微信:pythonpost,回复“0110”免费获取
Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)相关推荐
- python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...
- [python爬虫]--爬取豆瓣音乐topX
最近在学习python爬虫,写出来的一些爬虫记录在csdn博客里,同时备份一个放在了github上. github地址:https://github.com/wjsaya/python_spider_ ...
- Python爬虫实战案例一:爬取猫眼电影
背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...
- Python爬虫实战,QQ音乐爬取全部歌曲
前景介绍 最近小伙伴们听歌的兴趣大涨,网抑云综合症已经遍布各地. 咱们再来抬高一波QQ音乐的热度吧. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里 ...
- python爬虫实战(一)——豆瓣top250(re)
文章目录 一 . 原理 二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式 三 . 代码 一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...
- Python爬虫实战,完整的思路和步骤(附源码)
前言 小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站. 本堂课使用正则表达式对文本类的数据进行提取,正则表达式是数据提取的通用方法. 环境介绍: python 3.6 pych ...
- python爬虫实战——自动下载百度图片(文末附源码)
用Python制作一个下载图片神器 前言 这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...
- python爬虫实战三:近十年中国电影票房数据爬取与分析
近十年中国电影票房数据爬取与分析 前言 爬取 分析 十年top10 年度top5 每年电影数 每年总票房 二八原则 代码与数据 前言 这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...
- Python爬虫实战——下载小说
Python爬虫实战--下载小说 前言 第三方库的安装 示例代码 效果演示 结尾 前言 使用requests库下载开源网站的小说 注意:本文仅用于学习交流,禁止用于盈利或侵权行为. 操作系统:wind ...
- 【初学疑惑】开发者工具可信度高吗?Python爬虫实战场景
本篇博客是一个小小的 Python 爬虫实践,重点为解释在 Python 爬虫实战过程中,浏览器的开发者工具和代码抓取的网页源码,存在数据差异. 翻译一下就是开发者工具和爬虫采集到的源码,不一样. 本 ...
最新文章
- 基于Web的浮动图片墙
- FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈
- Linux 100个常用指令
- springboot酒店客房预定管理系统
- 主流的商业智能BI工具推荐,学会数据分析没难度
- 小鸡饲料任务,蚂蚁庄园养鸡线下扫码付款收饲料地址,蚂蚁庄园养鸡线下扫码付款0.01元收饲料地址...
- 美元兑人民币汇率对黄金价格的预测
- ct是计算机软件分析报告吗,ct影像工作站|ct诊断报告系统|ct图文工作站|dicom软件系统|技易科技-医学影像软件网...
- 【Vue2.0学习】—数据绑定
- 10100cpu支持Linux,i3-10100 cpu能装win7吗?i3-10100 装win7详细教程(完美支持)
- 985 大学老师的工资并没有很高,为什么大家都挤破头想进高校?
- kali中的firefox无法打开:your tab just crashed
- 如何查看斐讯路由器的版本
- JDK JRE JVM ===》JavaSE 标准版
- Clickhouse Kafka Engin参数记录
- echart hightchart 区别
- java新闻管理系统代码下载_通用新闻管理系统
- RV1126 Linux AP6256调试、WIFI热点扫描
- [电路汇总] 强大、便捷的蓝牙技术应用方案分享
- 机械键盘音乐律动无效、改键无效等问题
热门文章
- 诚聘 新媒体运营专员
- 【前端面试宝典】前端学习掌握的四个知识点
- Android 崩溃活动,Android:向活动添加计时器会使其崩溃
- r语言中正定矩阵由于误差不正定_矩阵分解方式
- Dijkstra算法实现--铁路网出行规划
- Tableau学习摘录总结③(行级别合并:并集、连接与Desktop方法、视图级别合并:数据混合与Desktop方法、使用Prep Builder做数据合并、如何选择数据合并方式、数据模型:数据关系)
- 太空稻种上天满月发芽长到30厘米了 国稻种芯百团计划行动
- 【学习记录贴】09:在ArcScene中替换多个SU模型
- Eclipse控制台输入后 输出的中文带有拼音
- 易查分|百万老师发布成绩的重要小程序