目标网址:https://book.douban.com/top250?start=0

参考资料:

Requests:               http://docs.python-requests.org/zh_CN/latest/

BeautifulSoup:           https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

安装模块:

pip3 install Beautifulsoup4
pip install requests

导入模块:

import requests
from bs4 import BeautifulSoup

添加headers,模拟浏览器访问:

因为有些网页如果我们直接去请求的话,他会查看请求的对象是不是浏览器,如果没有浏览器信息就会禁止我们爬虫的访问

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

User-Agent在浏览器中,查看网页源代码,找到Network

爬取豆瓣图书信息():

i = 1
s = ""
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
for x in range(0,10):resp = requests.get("https://book.douban.com/top250?start=%d"%(x*25),timeout=None,headers = headers)#目标网址中,每一页都以25的倍数递增,timeout=None,在网络不佳的时候一直等待soup = BeautifulSoup(resp.text,'html.parser')book_names = soup.find_all('div',class_='pl2')#书名authors = soup.find_all('p','pl')#作者scores = soup.find_all('span',class_='rating_nums')#评分introducts = soup.find_all('table',width="100%")#简介for book_name,author,score,introduct in zip(book_names,authors,scores,introducts):s += str("%d.《%s》\n" % (i,book_name.find('a')['title']))s += str("%s\n" % (author.get_text()))s += str("评分:%s\n" % (score.get_text()))itd = introduct.find('span',class_='inq')if(itd != None):  #因为有些图书没有简介s += str("简介:\"%s\"\n" % (itd.get_text()))else:s += str("简介:None\n")s += str("===========================================================================\n")i += 1

现在我们 爬取到了信息,然后把它保存到本地文本文件

在windows下面,新文件的默认编码是gbk,这样的话,python解释器会用gbk编码去解析我们的网络数据流txt,然而txt此时已经是decode过的unicode编码,这样的话就会导致解析不了,出现上述问题。 解决的办法就是,改变目标文件的编码:

with open("豆瓣图书TOP250.txt","w",encoding = 'utf-8') as f:f.write(s)

这样就把豆瓣图书的信息保存在了本地文件里面

Python——爬取目标豆瓣图书TOP250相关推荐

  1. python爬豆瓣top250书籍_Python——爬取目标豆瓣图书TOP250

    目标网址:https://book.douban.com/top250?start=0 导入模块: import requests from bs4 import BeautifulSoup 添加he ...

  2. Python爬取搜集豆瓣图书集,书荒的朋友们再也不用担心了

    0. 前序 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学 ...

  3. python爬取豆瓣影评理论依据_我用Python爬取了豆瓣的影评

    使用Python爬取豆瓣的影评,比爬取网易云简单,因为不需要设置特定的headers,关于网易云说几句,很难爬取,对请求头有着严格的要求,前几年那会还好些. 爬取结果分为:用户名,评价的星级,评论的内 ...

  4. 我用Python爬取了豆瓣影评,成功后居然发现了一个惊人的秘密.........

    大家好,我是IT界搬运喵. 相信大家在工作无聊时,总想掏出手机,看看电影刷刷视频.更加是夜深人静的时候,总是按耐不住自己的内心想要去看看小电影,当然我可没有开车.我说的是好电影,豆瓣高分电影,自己想歪 ...

  5. 用python爬取交大图书馆图书信息

    由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...

  6. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  7. python爬取豆瓣图书(详细步骤讲解)

    题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹.在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话, ...

  8. Python爬取、存储、分析、可视化豆瓣电影Top250

    Python爬取.存储.分析.可视化豆瓣电影Top250 网站链接: https://movie.douban.com/top250 @文章目录 前言 一.python爬取目标数据,并写入csv文件 ...

  9. 在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书

    想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标 爬取当当网前500本受欢迎的 ...

最新文章

  1. zlib和openssl相关库错误的解决
  2. Python-爬取中国天气网天气并通过邮箱定时发送
  3. 【三分钟刷一题力扣】移除元素
  4. C# numericUpDown控件用法总结及注意事项
  5. Windows 环境下运用Python制作网络爬虫
  6. Web框架——Flask系列之设置和读取cookie(十五)
  7. Pycharm中无法导入各种Python模块,pip不能更新的解决办法
  8. SpringCloud - Gateway 的使用
  9. NAS 百科 —— http://baike.baidu.com/item/NAS%E7%BD%91%E7%BB%9C%E5%AD%98%E5%82%A8
  10. java jtextfield 输入_【java】JTextField与JComboBox结合动态匹配输入信息
  11. Python字符串isdigit()
  12. ping 和 远程桌面 与防火墙的关系
  13. android java include_Android开发:javah的使用方法
  14. PhpStorm中如何使用FTP功能
  15. 西电计算机学院硕士生导师马,西安电子科技大学计算机学院研究生导师简介-周端...
  16. 计算机培训课堂感言,信息技术培训学习感言.docx
  17. Docker(八)Container无法正常启动Restarting (1) Less than a second ago的原因及解决办法
  18. 学大伟业 Day 3 培训总结
  19. 解决一直Gradle Build Running的问题
  20. 2021年中国学前教育行业发展现状及未来发展趋势分析:毛入学率达88.1%[图]

热门文章

  1. 上传文件报错——Required request part ‘*****‘ is not present“
  2. 布林通道参数用20还是26_boll参数20还是26好?布林线与macd一招鲜。
  3. mssql 计划怎每隔n秒_自闭症孩子各方面能力训练计划纲要
  4. 浅析计算机网络在市场营销,计算机网络在市场营销中的新应用
  5. 交大oj-1012-增长率问题 C++ 总结
  6. 从A股中获利读书总结
  7. SAP-S4HANA中新增的委外销售订单库存怎么玩
  8. 系统级性能调优工具Perf成功移植到龙芯处理器
  9. 尤尼克斯nr68_尤尼克斯NR-8羽毛球拍怎么样 手感评测
  10. 海外社交媒体营销之Facebook如何进行推广?