文章目录

  • 一、程序说明
  • 二、程序源码
  • 三、执行结果截图

一、程序说明

本程序可用于爬取豆瓣读书的书籍信息,包括书名、出版社、作者、出版时间及精选评论等。使用时只需修改path参数对应的目录,该路径是用于将爬取结果保存在本地的txt文件中。


二、程序源码

import requests
from bs4 import BeautifulSoup
from time import sleepheaders={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
path=r"G:\python_practice\1118\book_infos.txt"def get_one_page(url):res=requests.get(url=url,headers=headers)soup=BeautifulSoup(res.text,'html.parser')#将书名所在的a标签提取出来,存在一个列表里book_name_tags=soup.select('div.pl2 > a')#将书籍其他的信息提取出来,放在一个列表里book_info_tags=soup.select('p.pl')book_comments=soup.select('span.inq')with open(path,'a',encoding='utf-8') as file:for i in range(len(book_name_tags)):print(f'正在提取{url}中的书籍信息。。。')book_name=book_name_tags[i]['title']book_url=book_name_tags[i]['href']book_info_list=book_info_tags[i].text.split('/')book_publisher=book_info_list[-3].strip()book_author=book_info_list[0].strip()try:book_comment=book_comments[i].text.strip()except:book_comment='无'book_published_time=book_info_list[-2]file.write('\n')text=f'书名:《{book_name}》\n链接:{book_url}\n出版社:{book_publisher}\n出版时间:{book_published_time}\n精选评论:{book_comment}\n'file.write(text)def run():for i in range(10):number=i*25url=f'https://book.douban.com/top250?start={number}'get_one_page(url)sleep(0.5)run()
print('执行完毕!')

三、执行结果截图

豆瓣读书TOP250书籍信息爬虫脚本相关推荐

  1. 利用正则表达式爬取豆瓣读书top250书籍信息 附有详细分析

    import csv from lxml import etree import requestsfp=open('C:\\Users\我的电脑\Desktop\doubanbook.csv','wt ...

  2. 爬取豆瓣图书Top250书籍信息

    小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码 ...

  3. 爬虫项目实操三、用scrapy框架爬取豆瓣读书Top250的书名,出版信息和评分

    安装方法:Windows:在终端输入命令:pip install scrapy:mac:在终端输入命令:pip3 install scrapy,按下enter键,再输入cd Python,就能跳转到P ...

  4. Java网络爬虫--一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库

    一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 目录 一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 第一步:创建项目,搭建项目结构 p ...

  5. Requests爬虫实践:豆瓣读书Top250数据

    Requests爬虫实践:豆瓣读书Top250数据 本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址 参考书籍:<Python网络爬虫从入门到实践> 书中爬的是电影数据,自己想 ...

  6. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(一)

    由于刚上完了商业智能实训的课程,根据老师的要求我们做了一个完整的项目. 1. 项目要求与内容 项目具体要求:利用python爬取数据并进行清洗和预处理,将清洗后的数据存到数据库中,后端利用Java或是 ...

  7. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(二)

    之前的博客已经写了python爬取豆瓣读书top250的相关信息,接下来继续看如何清洗数据. 如果有没看懂的或是不了解上一部分说的是什么内容的,请看https://blog.csdn.net/qq_4 ...

  8. [爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

    这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息.  这里,仍然分为三步:  1.url分析  2.数据分析  3.爬取数据 1.url分析 豆瓣读书Top250的ur ...

  9. python爬虫豆瓣读书top250+数据清洗+数据库+Java后端开发+Echarts数据可视化(四)

    之前的博客已经写了python爬取豆瓣读书top250的相关信息和清洗数据.将数据导入数据库并创建相应的数据表,以及进行项目准备工作,接下来开始正式编写后台代码. 如果有没看懂的或是不了解上一部分说的 ...

  10. 爬虫豆瓣读书top250,保存为本地csv文件

    爬虫豆瓣读书top250,保存为本地csv文件 目的 将豆瓣读书top250排名保存到本地excel,包括书名,作者,评分,评论数,简评,网址.用到了requests,res,BeautifulSou ...

最新文章

  1. RMAN 与control文件和spfile文件的备份
  2. hdu 3265 线段树扫描线(拆分矩形)
  3. PHP手机号中间四位用星号*代替显示
  4. MySQL(8)数据库中的高级(进阶)正则和存储过程
  5. Spring Web MVC 随笔
  6. 解决pytouch导入模型报错:AttributeError: Can‘t get attribute ‘XXX‘ on <module ‘__main__‘ from XXX>
  7. 利润从‮而何‬来?​‎
  8. LookUpEditPopup自动调整宽度
  9. 7-7 整数的分类处理 (20 分)
  10. 免费使用正版金山词霸2006专业版
  11. 独家可用发卡小程序源码下载卡密系统支持多种卡密领取模式流量主内附教程
  12. ffmpeg bt709 to bt601
  13. oracle 11g DG 物理搭建 DG切换模式
  14. 重要且紧急的事,紧急但不重要的事,重要但不紧急的事,既不紧急又不重要的事
  15. 转载来自朱小厮博客的 一文看懂Kafka消息格式的演变
  16. 20190826——python对象实例搬家具
  17. 黑灰白箱测试+Ubuntu wireshark wifibluetooth
  18. git重新设置用户名密码
  19. EDM邮件群发:群发邮件不进垃圾箱的独家秘笈
  20. 基于微信小程序的高校毕业论文管理系统#毕业设计

热门文章

  1. matlab处理多光谱,多光谱数据处理教程
  2. 以太坊分片Sharding FAQ
  3. xmlDocument是什么?
  4. linux下chm阅读器kchmviewer中文乱码解决方法
  5. Echarts图列legend动态设置选中或者不选中 selected
  6. RRU、BBU、AAU
  7. 计算机系统与维护专科毕业论文,计算机系统维护毕业设计论文
  8. Excel如何简单快速的建立二级下拉菜单?
  9. TideSec远控免杀学习二(Evasion模块+veil)
  10. 移动通信客户价值数据挖掘分析实战