项目说明

近期在学习Python爬虫，看了很多大佬的项目，厉害又有趣！五一在家把《我们的时代》看完了，在豆瓣上评分后，随便逛了逛，简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地，后期通过脚本，隔一段时间就自动爬一下，看下有无新书上榜，对爱看书又数据控的人来说还蛮实用的哈哈。

网上搜了一下，爬豆瓣网的案例还挺多的，这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据，再导入PowerBI分析数据，后续做到自动爬数据，一键更新分析结果。

豆瓣TOP250图书分析

该网址的数据会不定期更新，感兴趣的同学可以收藏~~~

Scrapy框架

网页分析

浏览网站，确定要爬取的数据

爬虫代码

打开Anaconda Prompt，创建scrapy项目scrapy startproject doubanBook

进入项目路径，打开doubanBook文件夹

items

spiders

pipelines

main

爬取结果

PowerBI分析

出版信息列包含了很多信息，直接用power query清洗整理
评分人数、评分两列也需稍微处理一下

分析结果

说几点有趣的发现，时间截至2020.5（大家也可以随便点点，说不定就能邂逅一本好书呢~）

Top250的图书中86.4%是在1996年——2015年中出版，其中上榜数最多的年份是2006，有22本书。
三毛/7本、金庸/6本、王小波/5本、鲁迅/5本分别是上榜作品数最多的四位作家
2018-2020年出版的新书中，仅有三部上榜：《房思琪的初恋乐园》、《失踪的孩子》和《你当像鸟飞往你的山》
哥伦比亚以三部小说斩获了平均评分人数最多的国家，以色列仅凭借一部《人类简史》也排在了第四。
我们平时在选书选版本时，可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
以书上的定价作为参考，考虑网购折扣，假设所有图书都是8折，那么我们只需花费约8000元就可以把豆瓣Top250的所有图书（人类最宝贵的财富）带回家了哈哈哈

Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析相关推荐

requests 获取div_爬虫系列第五篇使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析我们爬取的网页的url是https://book.douban.com/top250?i ...
python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
scrapy mysql 豆瓣_利用Scrapy爬取豆瓣图书并保存至Mysql数据库
Scrapy是一个纯Python语言写的爬虫框架,本次用它来爬取豆瓣图书的数据. 准备工作没有安装Scrapy的同学需要安装一下,有两种方式安装: 安装了Anaconda的同学直接在命令行输入con ...
爬取豆瓣图书top250
爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...
Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
Scrapy爬取豆瓣图书详情存入CSV并导入MySQL
目录前言一.新建爬虫工程二.修改settings.py文件三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果八.后言前言 ...
Python3爬取豆瓣图书Top250并存入csv文件中
本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...
Python爬虫学习之爬取豆瓣音乐Top250存入Excel表格中
前言目标网站:https://music.douban.com/top250 任务: 爬取豆瓣音乐Top250的歌曲名爬取豆瓣音乐Top250的歌曲对应的表演者.发行时间和音乐流派(分别对应下图斜 ...

Scrapy爬取豆瓣图书Top250数据，在PowerBI中可视化分析

文章目录