python爬取豆瓣书评排行榜_爬虫:爬取豆瓣读书排行榜
写在前面的话
单说爬虫豆瓣排行榜,好像有点无聊~
如果说,利用我们爬取的信息,可以做一个自己的年度读书展示,会不会感觉有趣一点呢,嘻嘻~
爬取豆瓣书籍的封面图,很快就可以做一个属于自己的读书小结啦~(参照下图)
读书展示
之前网友提示我,触发了豆瓣反爬机制, 。
感谢网友提醒。现已更改。——2020.01.06
完整代码
import requests # 获取网页数据
from bs4 import BeautifulSoup # 解析网页数据
import time # 设置爬虫等待时间
import xlwt
# 获取豆瓣网址并解析数据
def get_douban_books(url,num):
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
res = requests.get(url,headers=headers) # requests发起请求,静态网页用get
soup = BeautifulSoup(res.text, 'html.parser')
m = n = j = num
items_title = soup.find_all("div", class_="pl2")
for i in items_title:
tag = i.find("a")
# 去掉空格和换行符
name = ''.join(tag.text.split())
link = tag["href"]
title_markdown = "[{}]({})".format(name,link)
sheet.write(m, 0, title_markdown)
m += 1
items_author = soup.find_all("p", class_="pl")
for i in items_author:
author_markdown = i.text
sheet.write(n, 1, author_markdown)
n += 1
items_image = soup.find_all("a", class_="nbg")
for i in items_image:
tag = i.find("img")
link = tag["src"]
image_markdown = "![]({})".format(link)
sheet.write(j, 2, image_markdown)
j += 1
# 定义保存Excel的位置
workbook = xlwt.Workbook() #定义workbook
sheet = workbook.add_sheet('豆瓣读书') #添加sheet
head = ['书名', '作者', '图片'] #表头
for h in range(len(head)):
sheet.write(0, h, head[h]) #把表头写到Excel里面去
# 豆瓣一共有10页数据
# 先形成网址
url = 'https://book.douban.com/top250?start={}'
urls = [url.format(num * 25) for num in range(10)]
page_num = [num * 25+1 for num in range(10)]
for i in range(10):
get_douban_books(urls[i],page_num[i])
# 暂停 1 秒防止访问太快被封
time.sleep(1)
# 保存 Excel 文件
workbook.save('豆瓣读书.xls')
代码说明
上面这个代码,可以完整的爬取豆瓣读书排行榜前250本书籍的书名、作者、图片。
如果你想做一个网页,把你的书籍信息放上去,可以去网上下载一个照片墙模板。这边给大家提供一个我自己使用的(就是文章开头那种效果)https://github.com/yangyang0126/PythonSpider/tree/master/douban
把你爬取到的封面图链接写进网页就可以了
追风筝的人
解忧杂货店
小王子
python爬取豆瓣书评排行榜_爬虫:爬取豆瓣读书排行榜相关推荐
- python爬取豆瓣短评_爬虫-爬取豆瓣短评
爬虫-爬取豆瓣短评 啥是爬虫? 按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? 可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...
- python爬取qq音乐评论_爬虫:QQ音乐评论
QQ音乐评论 有些小伙伴反馈,对于爬虫的完整流程,还是不清楚,这边就按顺序,给大家梳理一下 反爬 首先查看一下,我们要爬取的网页,是否反爬(各种侵害人家服务器的事情,我们不能干) QQ音乐网址:htt ...
- python 百度百科 爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
- python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
- python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- java爬取网易云歌单_爬虫爬取网易云歌单
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...
- python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- python import request 不报错_爬虫学习路径整理及安装环境遇到的坑
学习路径是我自己提炼和精选的,只适合我个人,因为虽然有技术基础但是我刚入门爬虫视野很窄不专业,为避免误导你们,你们最好参考知乎上大牛已经回答的好答案.我发这篇文章,目的是给自己看的.ps,专栏下每篇文 ...
- python中plguba_Python量化交易进阶讲堂-爬虫抓取东方财富网股吧帖子
欢迎大家订阅<Python实战-构建基于股票的量化交易系统>小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍.本篇专栏为小册子内容的加推篇!!! 前言 ...
最新文章
- Android Display System --- Surface Flinger
- 靠纯技术是否能渡过中年危机
- 广东海洋大学微型计算机考试,广东海洋大学2007-2008微型计算机原理及应用
- make for arm
- HDU 4944 逆序数对
- 网站刷关键词_中小企业网站排名如何做SEO优化 - 刷百度关键词排名
- go websocket 关闭_Go实战--使用之gorilla/websocket
- 深度学习基础知识介绍
- php 掌握jquery,完全掌握jquery tmpl模板
- android深度探索 HAL及驱动开发 第八章
- RNA-Seq分析软件HTSeq的安装
- dns 修改html,CentOS 8 修改 DNS
- 将SolidWorks物料清单导出到Excel时可带缩略图了!
- pspice仿真错误
- 四、案例:北京二手房价影响因素分析
- 概率逻辑程序设计学习 一.预备知识
- 安卓盒子装mysql_小白学mysql第一天:mysql安装
- User Interface Process(UIP) Application Block 2.0 研究总结
- javascript弹出浏览器的三种提示框:提示信息框、确认框、输入文本框
- 一个开发神器,可助程序员实现副业赚钱