写在前面的话

单说爬虫豆瓣排行榜,好像有点无聊~

如果说,利用我们爬取的信息,可以做一个自己的年度读书展示,会不会感觉有趣一点呢,嘻嘻~

爬取豆瓣书籍的封面图,很快就可以做一个属于自己的读书小结啦~(参照下图)

读书展示

之前网友提示我,触发了豆瓣反爬机制, 。

感谢网友提醒。现已更改。——2020.01.06

完整代码

import requests # 获取网页数据

from bs4 import BeautifulSoup # 解析网页数据

import time # 设置爬虫等待时间

import xlwt

# 获取豆瓣网址并解析数据

def get_douban_books(url,num):

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}

res = requests.get(url,headers=headers) # requests发起请求,静态网页用get

soup = BeautifulSoup(res.text, 'html.parser')

m = n = j = num

items_title = soup.find_all("div", class_="pl2")

for i in items_title:

tag = i.find("a")

# 去掉空格和换行符

name = ''.join(tag.text.split())

link = tag["href"]

title_markdown = "[{}]({})".format(name,link)

sheet.write(m, 0, title_markdown)

m += 1

items_author = soup.find_all("p", class_="pl")

for i in items_author:

author_markdown = i.text

sheet.write(n, 1, author_markdown)

n += 1

items_image = soup.find_all("a", class_="nbg")

for i in items_image:

tag = i.find("img")

link = tag["src"]

image_markdown = "![]({})".format(link)

sheet.write(j, 2, image_markdown)

j += 1

# 定义保存Excel的位置

workbook = xlwt.Workbook() #定义workbook

sheet = workbook.add_sheet('豆瓣读书') #添加sheet

head = ['书名', '作者', '图片'] #表头

for h in range(len(head)):

sheet.write(0, h, head[h]) #把表头写到Excel里面去

# 豆瓣一共有10页数据

# 先形成网址

url = 'https://book.douban.com/top250?start={}'

urls = [url.format(num * 25) for num in range(10)]

page_num = [num * 25+1 for num in range(10)]

for i in range(10):

get_douban_books(urls[i],page_num[i])

# 暂停 1 秒防止访问太快被封

time.sleep(1)

# 保存 Excel 文件

workbook.save('豆瓣读书.xls')

代码说明

上面这个代码,可以完整的爬取豆瓣读书排行榜前250本书籍的书名、作者、图片。

如果你想做一个网页,把你的书籍信息放上去,可以去网上下载一个照片墙模板。这边给大家提供一个我自己使用的(就是文章开头那种效果)https://github.com/yangyang0126/PythonSpider/tree/master/douban

把你爬取到的封面图链接写进网页就可以了

追风筝的人

解忧杂货店

小王子

python爬取豆瓣书评排行榜_爬虫:爬取豆瓣读书排行榜相关推荐

  1. python爬取豆瓣短评_爬虫-爬取豆瓣短评

    爬虫-爬取豆瓣短评 啥是爬虫? ​按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? ​可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...

  2. python爬取qq音乐评论_爬虫:QQ音乐评论

    QQ音乐评论 有些小伙伴反馈,对于爬虫的完整流程,还是不清楚,这边就按顺序,给大家梳理一下 反爬 首先查看一下,我们要爬取的网页,是否反爬(各种侵害人家服务器的事情,我们不能干) QQ音乐网址:htt ...

  3. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  4. python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章

    下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...

  5. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  6. java爬取网易云歌单_爬虫爬取网易云歌单

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...

  7. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  8. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  9. python import request 不报错_爬虫学习路径整理及安装环境遇到的坑

    学习路径是我自己提炼和精选的,只适合我个人,因为虽然有技术基础但是我刚入门爬虫视野很窄不专业,为避免误导你们,你们最好参考知乎上大牛已经回答的好答案.我发这篇文章,目的是给自己看的.ps,专栏下每篇文 ...

  10. python中plguba_Python量化交易进阶讲堂-爬虫抓取东方财富网股吧帖子

    欢迎大家订阅<Python实战-构建基于股票的量化交易系统>小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍.本篇专栏为小册子内容的加推篇!!! 前言 ...

最新文章

  1. Android Display System --- Surface Flinger
  2. 靠纯技术是否能渡过中年危机
  3. 广东海洋大学微型计算机考试,广东海洋大学2007-2008微型计算机原理及应用
  4. make for arm
  5. HDU 4944 逆序数对
  6. 网站刷关键词_中小企业网站排名如何做SEO优化 - 刷百度关键词排名
  7. go websocket 关闭_Go实战--使用之gorilla/websocket
  8. 深度学习基础知识介绍
  9. php 掌握jquery,完全掌握jquery tmpl模板
  10. android深度探索 HAL及驱动开发 第八章
  11. RNA-Seq分析软件HTSeq的安装
  12. dns 修改html,CentOS 8 修改 DNS
  13. 将SolidWorks物料清单导出到Excel时可带缩略图了!
  14. pspice仿真错误
  15. 四、案例:北京二手房价影响因素分析
  16. 概率逻辑程序设计学习 一.预备知识
  17. 安卓盒子装mysql_小白学mysql第一天:mysql安装
  18. User Interface Process(UIP) Application Block 2.0 研究总结
  19. javascript弹出浏览器的三种提示框:提示信息框、确认框、输入文本框
  20. 一个开发神器,可助程序员实现副业赚钱

热门文章

  1. 重新连接共享打印机报错0x00000002
  2. 【x86架构】中断基础介绍
  3. 用计算机做电子贺卡送祝福,春节祝福电子贺卡模板制作
  4. Python概念-Item系列(林海峰教的)
  5. Excel房贷计算表(商贷)1/2
  6. imap能和服务器同步文件夹吗,IMAP 同步
  7. 不要把敏感信息写在k8s的env上
  8. OSChina 周二乱弹 —— 仙女抚我顶,脱发不长生
  9. word字体号对应的磅数
  10. java 右下角_java实现桌面右下角弹窗效果