Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析
文章目录
- 项目说明
- Scrapy框架
- 网页分析
- 爬虫代码
- items
- spiders
- pipelines
- main
- 爬取结果
- PowerBI分析
- 分析结果
项目说明
近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。
网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。
豆瓣TOP250图书分析
该网址的数据会不定期更新,感兴趣的同学可以收藏~~~
Scrapy框架
网页分析
浏览网站,确定要爬取的数据
爬虫代码
打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook
进入项目路径,打开doubanBook文件夹
items
spiders
pipelines
main
爬取结果
PowerBI分析
- 出版信息列包含了很多信息,直接用power query清洗整理
- 评分人数、评分两列也需稍微处理一下
分析结果
说几点有趣的发现,时间截至2020.5(大家也可以随便点点,说不定就能邂逅一本好书呢~)
- Top250的图书中86.4%是在1996年——2015年中出版,其中上榜数最多的年份是2006,有22本书。
- 三毛/7本、金庸/6本、王小波/5本、鲁迅/5本分别是上榜作品数最多的四位作家
- 2018-2020年出版的新书中,仅有三部上榜:《房思琪的初恋乐园》、《失踪的孩子》和《你当像鸟飞往你的山》
- 哥伦比亚以三部小说斩获了平均评分人数最多的国家,以色列仅凭借一部《人类简史》也排在了第四。
- 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
- 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈
Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析相关推荐
- requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...
- python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
- R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
- scrapy mysql 豆瓣_利用Scrapy爬取豆瓣图书并保存至Mysql数据库
Scrapy是一个纯Python语言写的爬虫框架,本次用它来爬取豆瓣图书的数据. 准备工作 没有安装Scrapy的同学需要安装一下,有两种方式安装: 安装了Anaconda的同学直接在命令行输入con ...
- 爬取豆瓣图书top250
爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...
- Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
- Scrapy爬取豆瓣图书详情存入CSV并导入MySQL
目录 前言 一.新建爬虫工程 二.修改settings.py文件 三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果 八.后言 前言 ...
- Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
- Python爬虫学习之爬取豆瓣音乐Top250存入Excel表格中
前言 目标网站:https://music.douban.com/top250 任务: 爬取豆瓣音乐Top250的歌曲名 爬取豆瓣音乐Top250的歌曲对应的表演者.发行时间和音乐流派(分别对应下图斜 ...
最新文章
- oneinstack
- django model filter_Django框架使用流程(四)
- 推荐2020年度最佳的23个的机器学习项目(附源代码)
- Mybatis分页插件更新
- 首次摆脱对梯度的依赖,CMU等开源Score-CAM:基于置信分数的视觉可解释性
- PHP的引用传值值传递
- sync - 清空文件系统缓冲区
- YOLOv3通道+层剪枝,参数压缩98%,砍掉48个层,提速2倍!
- 重磅发布!36氪2020年度中国最具登陆科创板潜力企业TOP50榜单揭晓
- C++中泛型使用导致的膨胀问题
- OMAPL多核异构通信驱动AD9833波形发生器-Notify组件
- 解决在onedrive里无法打开onenote笔记本的问题
- html支付系统时间,中国人民银行支付系统介绍
- Linux history命令
- android app 用什么语言开发的?
- python 相关性检验_Python中的相关分析correlation analysis的实现
- 个人理财管理系统代码
- python 拼多多抢券_拼多多满减优惠 AC代码 python
- 简介:cs224n 2022 winter [Chris Manning]
- processing制作熊猫头像跟随鼠标拖尾
热门文章
- 区块链溯源技术的应用:区块链溯源在零售业中的应用
- 经典案例分析——如何对员工能力素质进行量化考评
- 资深程序员参加面试因穿着被认为是新手,拿下帽子后,被当场录取
- 金融行业数据存储首选金万维云备份
- 【数据结构笔记】绪论
- 今天许多的家庭有计算机翻译成英语,新视野英语教程课后翻译答案(高职高专版)...
- 那些三十几岁还转行的人,到底是怎么想的?
- 第十二届蓝桥杯省赛Python--暴力破解
- Win10系统自带Edge可上网,其他程序不能上网的解决方法(亲测有效)
- 利用nativefier把网站生成绿色版linux、windows桌面客户端