Python——爬取目标豆瓣图书TOP250

目标网址：https://book.douban.com/top250?start=0

参考资料：

Requests: http://docs.python-requests.org/zh_CN/latest/

BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

安装模块：

pip3 install Beautifulsoup4
pip install requests

导入模块：

import requests
from bs4 import BeautifulSoup

添加headers，模拟浏览器访问：

因为有些网页如果我们直接去请求的话，他会查看请求的对象是不是浏览器，如果没有浏览器信息就会禁止我们爬虫的访问

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

User-Agent在浏览器中，查看网页源代码，找到Network

爬取豆瓣图书信息（）：

i = 1
s = ""
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
for x in range(0,10):resp = requests.get("https://book.douban.com/top250?start=%d"%(x*25),timeout=None,headers = headers)#目标网址中，每一页都以25的倍数递增，timeout=None，在网络不佳的时候一直等待soup = BeautifulSoup(resp.text,'html.parser')book_names = soup.find_all('div',class_='pl2')#书名authors = soup.find_all('p','pl')#作者scores = soup.find_all('span',class_='rating_nums')#评分introducts = soup.find_all('table',width="100%")#简介for book_name,author,score,introduct in zip(book_names,authors,scores,introducts):s += str("%d.《%s》\n" % (i,book_name.find('a')['title']))s += str("%s\n" % (author.get_text()))s += str("评分：%s\n" % (score.get_text()))itd = introduct.find('span',class_='inq')if(itd != None):  #因为有些图书没有简介s += str("简介：\"%s\"\n" % (itd.get_text()))else:s += str("简介：None\n")s += str("===========================================================================\n")i += 1

现在我们爬取到了信息，然后把它保存到本地文本文件

在windows下面，新文件的默认编码是gbk，这样的话，python解释器会用gbk编码去解析我们的网络数据流txt，然而txt此时已经是decode过的unicode编码，这样的话就会导致解析不了，出现上述问题。解决的办法就是，改变目标文件的编码：

with open("豆瓣图书TOP250.txt","w",encoding = 'utf-8') as f:f.write(s)

这样就把豆瓣图书的信息保存在了本地文件里面

Python——爬取目标豆瓣图书TOP250相关推荐

python爬豆瓣top250书籍_Python——爬取目标豆瓣图书TOP250
目标网址:https://book.douban.com/top250?start=0 导入模块: import requests from bs4 import BeautifulSoup 添加he ...
Python爬取搜集豆瓣图书集，书荒的朋友们再也不用担心了
0. 前序本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学 ...
python爬取豆瓣影评理论依据_我用Python爬取了豆瓣的影评
使用Python爬取豆瓣的影评,比爬取网易云简单,因为不需要设置特定的headers,关于网易云说几句,很难爬取,对请求头有着严格的要求,前几年那会还好些. 爬取结果分为:用户名,评价的星级,评论的内 ...
我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密.........
大家好,我是IT界搬运喵. 相信大家在工作无聊时,总想掏出手机,看看电影刷刷视频.更加是夜深人静的时候,总是按耐不住自己的内心想要去看看小电影,当然我可没有开车.我说的是好电影,豆瓣高分电影,自己想歪 ...
用python爬取交大图书馆图书信息
由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...
requests 获取div_爬虫系列第五篇使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析我们爬取的网页的url是https://book.douban.com/top250?i ...
python爬取豆瓣图书（详细步骤讲解）
题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹.在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话, ...
Python爬取、存储、分析、可视化豆瓣电影Top250
Python爬取.存储.分析.可视化豆瓣电影Top250 网站链接: https://movie.douban.com/top250 @文章目录前言一.python爬取目标数据,并写入csv文件 ...
在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书
想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标爬取当当网前500本受欢迎的 ...

Python——爬取目标豆瓣图书TOP250

Python——爬取目标豆瓣图书TOP250相关推荐

最新文章

热门文章