文章目录

  • 项目说明
  • Scrapy框架
    • 网页分析
    • 爬虫代码
      • items
      • spiders
      • pipelines
      • main
      • 爬取结果
  • PowerBI分析
    • 分析结果

项目说明

近期在学习Python爬虫,看了很多大佬的项目,厉害又有趣!五一在家把《我们的时代》看完了,在豆瓣上评分后,随便逛了逛,简单浏览了一下Top250的书单。突然想到可以把这些数据爬到本地,后期通过脚本,隔一段时间就自动爬一下,看下有无新书上榜,对爱看书又数据控的人来说还蛮实用的哈哈。

网上搜了一下,爬豆瓣网的案例还挺多的,这里我试着用scrapy框架来爬豆瓣图书Top250的相关数据,再导入PowerBI分析数据,后续做到自动爬数据,一键更新分析结果。

豆瓣TOP250图书分析

该网址的数据会不定期更新,感兴趣的同学可以收藏~~~

Scrapy框架

网页分析

浏览网站,确定要爬取的数据

爬虫代码

打开Anaconda Prompt,创建scrapy项目scrapy startproject doubanBook

进入项目路径,打开doubanBook文件夹

items

spiders

pipelines

main

爬取结果

PowerBI分析

  • 出版信息列包含了很多信息,直接用power query清洗整理
  • 评分人数、评分两列也需稍微处理一下


分析结果

说几点有趣的发现,时间截至2020.5(大家也可以随便点点,说不定就能邂逅一本好书呢~)

  • Top250的图书中86.4%是在1996年——2015年中出版,其中上榜数最多的年份是2006,有22本书。
  • 三毛/7本、金庸/6本、王小波/5本、鲁迅/5本分别是上榜作品数最多的四位作家
  • 2018-2020年出版的新书中,仅有三部上榜:《房思琪的初恋乐园》、《失踪的孩子》和《你当像鸟飞往你的山》
  • 哥伦比亚以三部小说斩获了平均评分人数最多的国家,以色列仅凭借一部《人类简史》也排在了第四。
  • 我们平时在选书选版本时,可以优先关注人民文学、上海译文、三联、南海、译林这几家出版社
  • 以书上的定价作为参考,考虑网购折扣,假设所有图书都是8折,那么我们只需花费约8000元就可以把豆瓣Top250的所有图书(人类最宝贵的财富)带回家了哈哈哈

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析相关推荐

  1. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  2. python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250

    今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...

  3. R语言爬取豆瓣图书Top250

    新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...

  4. scrapy mysql 豆瓣_利用Scrapy爬取豆瓣图书并保存至Mysql数据库

    Scrapy是一个纯Python语言写的爬虫框架,本次用它来爬取豆瓣图书的数据. 准备工作 没有安装Scrapy的同学需要安装一下,有两种方式安装: 安装了Anaconda的同学直接在命令行输入con ...

  5. 爬取豆瓣图书top250

    爬取豆瓣图书top250 豆瓣网址:https://book.douban.com/top250 豆瓣图书第一页:https://book.douban.com/top250?start=0 豆瓣图书 ...

  6. Python3爬取豆瓣图书Top250并写入txt文件当中

    首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...

  7. Scrapy爬取豆瓣图书详情存入CSV并导入MySQL

    目录 前言 一.新建爬虫工程 二.修改settings.py文件 三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果 八.后言 前言 ...

  8. Python3爬取豆瓣图书Top250并存入csv文件中

    本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取. 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree i ...

  9. Python爬虫学习之爬取豆瓣音乐Top250存入Excel表格中

    前言 目标网站:https://music.douban.com/top250 任务: 爬取豆瓣音乐Top250的歌曲名 爬取豆瓣音乐Top250的歌曲对应的表演者.发行时间和音乐流派(分别对应下图斜 ...

最新文章

  1. oneinstack
  2. django model filter_Django框架使用流程(四)
  3. 推荐2020年度最佳的23个的机器学习项目(附源代码)
  4. Mybatis分页插件更新
  5. 首次摆脱对梯度的依赖,CMU等开源Score-CAM:基于置信分数的视觉可解释性
  6. PHP的引用传值值传递
  7. sync - 清空文件系统缓冲区
  8. YOLOv3通道+层剪枝,参数压缩98%,砍掉48个层,提速2倍!
  9. 重磅发布!36氪2020年度中国最具登陆科创板潜力企业TOP50榜单揭晓
  10. C++中泛型使用导致的膨胀问题
  11. OMAPL多核异构通信驱动AD9833波形发生器-Notify组件
  12. 解决在onedrive里无法打开onenote笔记本的问题
  13. html支付系统时间,中国人民银行支付系统介绍
  14. Linux history命令
  15. android app 用什么语言开发的?
  16. python 相关性检验_Python中的相关分析correlation analysis的实现
  17. 个人理财管理系统代码
  18. python 拼多多抢券_拼多多满减优惠 AC代码 python
  19. 简介:cs224n 2022 winter [Chris Manning]
  20. processing制作熊猫头像跟随鼠标拖尾

热门文章

  1. 区块链溯源技术的应用:区块链溯源在零售业中的应用
  2. 经典案例分析——如何对员工能力素质进行量化考评
  3. 资深程序员参加面试因穿着被认为是新手,拿下帽子后,被当场录取
  4. 金融行业数据存储首选金万维云备份
  5. 【数据结构笔记】绪论
  6. 今天许多的家庭有计算机翻译成英语,新视野英语教程课后翻译答案(高职高专版)...
  7. 那些三十几岁还转行的人,到底是怎么想的?
  8. 第十二届蓝桥杯省赛Python--暴力破解
  9. Win10系统自带Edge可上网,其他程序不能上网的解决方法(亲测有效)
  10. 利用nativefier把网站生成绿色版linux、windows桌面客户端