python爬取豆瓣书评排行榜_爬虫：爬取豆瓣读书排行榜

2024-05-13 07:43:05

写在前面的话

单说爬虫豆瓣排行榜，好像有点无聊~

如果说，利用我们爬取的信息，可以做一个自己的年度读书展示，会不会感觉有趣一点呢，嘻嘻~

爬取豆瓣书籍的封面图，很快就可以做一个属于自己的读书小结啦~(参照下图)

读书展示

之前网友提示我，触发了豆瓣反爬机制，。

感谢网友提醒。现已更改。——2020.01.06

完整代码

import requests # 获取网页数据

from bs4 import BeautifulSoup # 解析网页数据

import time # 设置爬虫等待时间

import xlwt

# 获取豆瓣网址并解析数据

def get_douban_books(url,num):

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}

res = requests.get(url,headers=headers) # requests发起请求，静态网页用get

soup = BeautifulSoup(res.text, 'html.parser')

m = n = j = num

items_title = soup.find_all("div", class_="pl2")

for i in items_title:

tag = i.find("a")

# 去掉空格和换行符

name = ''.join(tag.text.split())

link = tag["href"]

title_markdown = "[{}]({})".format(name,link)

sheet.write(m, 0, title_markdown)

m += 1

items_author = soup.find_all("p", class_="pl")

for i in items_author:

author_markdown = i.text

sheet.write(n, 1, author_markdown)

n += 1

items_image = soup.find_all("a", class_="nbg")

for i in items_image:

tag = i.find("img")

link = tag["src"]

image_markdown = "![]({})".format(link)

sheet.write(j, 2, image_markdown)

j += 1

# 定义保存Excel的位置

workbook = xlwt.Workbook() #定义workbook

sheet = workbook.add_sheet('豆瓣读书') #添加sheet

head = ['书名', '作者', '图片'] #表头

for h in range(len(head)):

sheet.write(0, h, head[h]) #把表头写到Excel里面去

# 豆瓣一共有10页数据

# 先形成网址

url = 'https://book.douban.com/top250?start={}'

urls = [url.format(num * 25) for num in range(10)]

page_num = [num * 25+1 for num in range(10)]

for i in range(10):

get_douban_books(urls[i],page_num[i])

# 暂停 1 秒防止访问太快被封

time.sleep(1)

# 保存 Excel 文件

workbook.save('豆瓣读书.xls')

代码说明

上面这个代码，可以完整的爬取豆瓣读书排行榜前250本书籍的书名、作者、图片。

如果你想做一个网页，把你的书籍信息放上去，可以去网上下载一个照片墙模板。这边给大家提供一个我自己使用的(就是文章开头那种效果)https://github.com/yangyang0126/PythonSpider/tree/master/douban

把你爬取到的封面图链接写进网页就可以了

追风筝的人

解忧杂货店

小王子

python爬取豆瓣书评排行榜_爬虫：爬取豆瓣读书排行榜相关推荐

python爬取豆瓣短评_爬虫-爬取豆瓣短评
爬虫-爬取豆瓣短评啥是爬虫? 按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? 可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...
python爬取qq音乐评论_爬虫：QQ音乐评论
QQ音乐评论有些小伙伴反馈,对于爬虫的完整流程,还是不清楚,这边就按顺序,给大家梳理一下反爬首先查看一下,我们要爬取的网页,是否反爬(各种侵害人家服务器的事情,我们不能干) QQ音乐网址:htt ...
python 百度百科爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
java爬取网易云歌单_爬虫爬取网易云歌单
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...
python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
python爬取大众点评评论_python爬虫抓取数据小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据小试Python--爬虫抓取大众点评上的数据发布时间:2017-04-07
python import request 不报错_爬虫学习路径整理及安装环境遇到的坑
学习路径是我自己提炼和精选的,只适合我个人,因为虽然有技术基础但是我刚入门爬虫视野很窄不专业,为避免误导你们,你们最好参考知乎上大牛已经回答的好答案.我发这篇文章,目的是给自己看的.ps,专栏下每篇文 ...
python中plguba_Python量化交易进阶讲堂-爬虫抓取东方财富网股吧帖子
欢迎大家订阅<Python实战-构建基于股票的量化交易系统>小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍.本篇专栏为小册子内容的加推篇!!! 前言 ...

最新文章

热门文章