Python——爬取目标豆瓣图书TOP250
目标网址:https://book.douban.com/top250?start=0
参考资料:
Requests: http://docs.python-requests.org/zh_CN/latest/
BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
安装模块:
pip3 install Beautifulsoup4
pip install requests
导入模块:
import requests
from bs4 import BeautifulSoup
添加headers,模拟浏览器访问:
因为有些网页如果我们直接去请求的话,他会查看请求的对象是不是浏览器,如果没有浏览器信息就会禁止我们爬虫的访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
User-Agent在浏览器中,查看网页源代码,找到Network
爬取豆瓣图书信息():
i = 1
s = ""
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
for x in range(0,10):resp = requests.get("https://book.douban.com/top250?start=%d"%(x*25),timeout=None,headers = headers)#目标网址中,每一页都以25的倍数递增,timeout=None,在网络不佳的时候一直等待soup = BeautifulSoup(resp.text,'html.parser')book_names = soup.find_all('div',class_='pl2')#书名authors = soup.find_all('p','pl')#作者scores = soup.find_all('span',class_='rating_nums')#评分introducts = soup.find_all('table',width="100%")#简介for book_name,author,score,introduct in zip(book_names,authors,scores,introducts):s += str("%d.《%s》\n" % (i,book_name.find('a')['title']))s += str("%s\n" % (author.get_text()))s += str("评分:%s\n" % (score.get_text()))itd = introduct.find('span',class_='inq')if(itd != None): #因为有些图书没有简介s += str("简介:\"%s\"\n" % (itd.get_text()))else:s += str("简介:None\n")s += str("===========================================================================\n")i += 1
现在我们 爬取到了信息,然后把它保存到本地文本文件
在windows下面,新文件的默认编码是gbk,这样的话,python解释器会用gbk编码去解析我们的网络数据流txt,然而txt此时已经是decode过的unicode编码,这样的话就会导致解析不了,出现上述问题。 解决的办法就是,改变目标文件的编码:
with open("豆瓣图书TOP250.txt","w",encoding = 'utf-8') as f:f.write(s)
这样就把豆瓣图书的信息保存在了本地文件里面
Python——爬取目标豆瓣图书TOP250相关推荐
- python爬豆瓣top250书籍_Python——爬取目标豆瓣图书TOP250
目标网址:https://book.douban.com/top250?start=0 导入模块: import requests from bs4 import BeautifulSoup 添加he ...
- Python爬取搜集豆瓣图书集,书荒的朋友们再也不用担心了
0. 前序 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学 ...
- python爬取豆瓣影评理论依据_我用Python爬取了豆瓣的影评
使用Python爬取豆瓣的影评,比爬取网易云简单,因为不需要设置特定的headers,关于网易云说几句,很难爬取,对请求头有着严格的要求,前几年那会还好些. 爬取结果分为:用户名,评价的星级,评论的内 ...
- 我用Python爬取了豆瓣影评,成功后居然发现了一个惊人的秘密.........
大家好,我是IT界搬运喵. 相信大家在工作无聊时,总想掏出手机,看看电影刷刷视频.更加是夜深人静的时候,总是按耐不住自己的内心想要去看看小电影,当然我可没有开车.我说的是好电影,豆瓣高分电影,自己想歪 ...
- 用python爬取交大图书馆图书信息
由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...
- requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...
- python爬取豆瓣图书(详细步骤讲解)
题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹.在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话, ...
- Python爬取、存储、分析、可视化豆瓣电影Top250
Python爬取.存储.分析.可视化豆瓣电影Top250 网站链接: https://movie.douban.com/top250 @文章目录 前言 一.python爬取目标数据,并写入csv文件 ...
- 在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书
想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标 爬取当当网前500本受欢迎的 ...
最新文章
- zlib和openssl相关库错误的解决
- Python-爬取中国天气网天气并通过邮箱定时发送
- 【三分钟刷一题力扣】移除元素
- C# numericUpDown控件用法总结及注意事项
- Windows 环境下运用Python制作网络爬虫
- Web框架——Flask系列之设置和读取cookie(十五)
- Pycharm中无法导入各种Python模块,pip不能更新的解决办法
- SpringCloud - Gateway 的使用
- NAS 百科 —— http://baike.baidu.com/item/NAS%E7%BD%91%E7%BB%9C%E5%AD%98%E5%82%A8
- java jtextfield 输入_【java】JTextField与JComboBox结合动态匹配输入信息
- Python字符串isdigit()
- ping 和 远程桌面 与防火墙的关系
- android java include_Android开发:javah的使用方法
- PhpStorm中如何使用FTP功能
- 西电计算机学院硕士生导师马,西安电子科技大学计算机学院研究生导师简介-周端...
- 计算机培训课堂感言,信息技术培训学习感言.docx
- Docker(八)Container无法正常启动Restarting (1) Less than a second ago的原因及解决办法
- 学大伟业 Day 3 培训总结
- 解决一直Gradle Build Running的问题
- 2021年中国学前教育行业发展现状及未来发展趋势分析:毛入学率达88.1%[图]
热门文章
- 上传文件报错——Required request part ‘*****‘ is not present“
- 布林通道参数用20还是26_boll参数20还是26好?布林线与macd一招鲜。
- mssql 计划怎每隔n秒_自闭症孩子各方面能力训练计划纲要
- 浅析计算机网络在市场营销,计算机网络在市场营销中的新应用
- 交大oj-1012-增长率问题 C++ 总结
- 从A股中获利读书总结
- SAP-S4HANA中新增的委外销售订单库存怎么玩
- 系统级性能调优工具Perf成功移植到龙芯处理器
- 尤尼克斯nr68_尤尼克斯NR-8羽毛球拍怎么样 手感评测
- 海外社交媒体营销之Facebook如何进行推广?