一、豆瓣音乐

今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因; 2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据; 3、数据的预处理用了很多if函数

数据分析

1、部分数据可以见上图 2、中国音乐作者还是很多的。 3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐) 4、风格大家可以看出流行,摇滚,民谣占了一大半。 5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

代码片段

  
  1. import requests

  2. import re

  3. from bs4 import BeautifulSoup

  4. import time

  5. import pymongo

  6. client = pymongo.MongoClient('localhost', 27017)

  7. douban = client['douban']

  8. musictop = douban['musictop']

  9. headers = {

  10.    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

  11. }

  12. urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

  13. def get_url_music(url):

  14.    wb_data = requests.get(url,headers=headers)

  15.    soup = BeautifulSoup(wb_data.text,'lxml')

  16.    music_hrefs = soup.select('a.nbg')

  17.    for music_href in music_hrefs:

  18.        get_music_info(music_href['href'])

  19.        time.sleep(2)

二、微打赏

网站分析

打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。

json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。

详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。

代码片段

  
  1. import requests

  2. import json

  3. import math

  4. def get_sup_info(url,page):

  5.    params = {

  6.        'ajaxtype':1,

  7.        'page':page,

  8.        'category':1,

  9.        'pageSize':8

  10.    }

  11.    cookies = {

  12.        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',

  13.        'Cookie':'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;

  14.    }

  15.    html = requests.post(url, data=params, headers=cookies)

  16.    json_data = json.loads(html.text)

  17.    des = json_data['des']

  18.    for data in des:

  19.        name = data['name']

  20.        id = data['id']

  21.        pay_count = data['pay_count']

  22.        all_page = math.ceil(int(pay_count)/20)

  23.        for i in range(1,int(all_page)+1):

  24.            get_app_info(i,id,name)

三、阳光电影

爬虫分析

这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。

进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址,爬取结果如下:

代码片段

  
  1. import requests

  2. import re

  3. from lxml import etree

  4. import csv

  5. def get_resource(url,cate_name,cate_url,movie_name):

  6.    res = requests.get(url)

  7.    res.encoding = 'gb2312'

  8.    html = etree.HTML(res.text)

  9.    movie_resource = html.xpath('//tbody//tr/td/a/text()')[0]

  10.    writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))

  11.    print(movie_resource)

本文作者


罗攀

Python中文社区专栏作者,《从零开始学Python网络爬虫》图书作者、简书知名博主、Python网络爬虫专家

获取本文完整源代码方式:

长按扫描上方二维码报名课程后,

添加微信:pythonpost,回复“0110”免费获取

Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)相关推荐

  1. python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式

    一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...

  2. [python爬虫]--爬取豆瓣音乐topX

    最近在学习python爬虫,写出来的一些爬虫记录在csdn博客里,同时备份一个放在了github上. github地址:https://github.com/wjsaya/python_spider_ ...

  3. Python爬虫实战案例一:爬取猫眼电影

    背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信息,所以爬取猫眼电影数据进行补充.关于爬虫的 ...

  4. Python爬虫实战,QQ音乐爬取全部歌曲

    前景介绍 最近小伙伴们听歌的兴趣大涨,网抑云综合症已经遍布各地. 咱们再来抬高一波QQ音乐的热度吧. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里 ...

  5. python爬虫实战(一)——豆瓣top250(re)

    文章目录 一 . 原理 二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式 三 . 代码 一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...

  6. Python爬虫实战,完整的思路和步骤(附源码)

    前言 小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站. 本堂课使用正则表达式对文本类的数据进行提取,正则表达式是数据提取的通用方法. 环境介绍: python 3.6 pych ...

  7. python爬虫实战——自动下载百度图片(文末附源码)

    用Python制作一个下载图片神器 前言 这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...

  8. python爬虫实战三:近十年中国电影票房数据爬取与分析

    近十年中国电影票房数据爬取与分析 前言 爬取 分析 十年top10 年度top5 每年电影数 每年总票房 二八原则 代码与数据 前言 这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...

  9. Python爬虫实战——下载小说

    Python爬虫实战--下载小说 前言 第三方库的安装 示例代码 效果演示 结尾 前言 使用requests库下载开源网站的小说 注意:本文仅用于学习交流,禁止用于盈利或侵权行为. 操作系统:wind ...

  10. 【初学疑惑】开发者工具可信度高吗?Python爬虫实战场景

    本篇博客是一个小小的 Python 爬虫实践,重点为解释在 Python 爬虫实战过程中,浏览器的开发者工具和代码抓取的网页源码,存在数据差异. 翻译一下就是开发者工具和爬虫采集到的源码,不一样. 本 ...

最新文章

  1. 基于Web的浮动图片墙
  2. FD.io VSAP(VPP Stack Acceleration Project),通过FD.io VSAP构建用户态协议栈
  3. Linux 100个常用指令
  4. springboot酒店客房预定管理系统
  5. 主流的商业智能BI工具推荐,学会数据分析没难度
  6. 小鸡饲料任务,蚂蚁庄园养鸡线下扫码付款收饲料地址,蚂蚁庄园养鸡线下扫码付款0.01元收饲料地址...
  7. 美元兑人民币汇率对黄金价格的预测
  8. ct是计算机软件分析报告吗,ct影像工作站|ct诊断报告系统|ct图文工作站|dicom软件系统|技易科技-医学影像软件网...
  9. 【Vue2.0学习】—数据绑定
  10. 10100cpu支持Linux,i3-10100 cpu能装win7吗?i3-10100 装win7详细教程(完美支持)
  11. 985 大学老师的工资并没有很高,为什么大家都挤破头想进高校?
  12. kali中的firefox无法打开:your tab just crashed
  13. 如何查看斐讯路由器的版本
  14. JDK JRE JVM ===》JavaSE 标准版
  15. Clickhouse Kafka Engin参数记录
  16. echart hightchart 区别
  17. java新闻管理系统代码下载_通用新闻管理系统
  18. RV1126 Linux AP6256调试、WIFI热点扫描
  19. [电路汇总] 强大、便捷的蓝牙技术应用方案分享
  20. 机械键盘音乐律动无效、改键无效等问题

热门文章

  1. 诚聘 新媒体运营专员
  2. 【前端面试宝典】前端学习掌握的四个知识点
  3. Android 崩溃活动,Android:向活动添加计时器会使其崩溃
  4. r语言中正定矩阵由于误差不正定_矩阵分解方式
  5. Dijkstra算法实现--铁路网出行规划
  6. Tableau学习摘录总结③(行级别合并:并集、连接与Desktop方法、视图级别合并:数据混合与Desktop方法、使用Prep Builder做数据合并、如何选择数据合并方式、数据模型:数据关系)
  7. 太空稻种上天满月发芽长到30厘米了 国稻种芯百团计划行动
  8. 【学习记录贴】09:在ArcScene中替换多个SU模型
  9. Eclipse控制台输入后 输出的中文带有拼音
  10. 易查分|百万老师发布成绩的重要小程序