所有的一切都跟上一篇文章是一样的,不同的是不用写长长的正则表达式啦,上一期传送门https://blog.csdn.net/u010376229/article/details/114042780

这次我们需要用到BeautifulSoup,只需简单的学习一下就剋不用写正则表达式啦,而且更加清楚

def get_books_info_of_current_page(page):html = get_html("http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page))soup = BeautifulSoup(html, 'lxml')lis = soup.find("ul", class_="bang_list").find_all("li")  # 找到<ul class="bang_list">下所有的li元素get_book_info_and_write_to_txt(lis)
def get_book_info_and_write_to_txt(lis):for li in lis:book_info = {"range": li.find('div', class_="list_num").string,"img": li.find("div", class_="pic").a.img.get("src"),"title": li.find("div", class_="name").a.get("title"),"recommend": li.find("div", class_="star").find("span", class_="tuijian").string,"author": li.find("div", class_="publisher_info").a.get("title") if li.find("div", class_="publisher_info").a else "无","price": li.find("div", class_="price").span.string}write_item_to_file(book_info)

不过用这种方法用的时间比较久,取500条数据用时14s左右,用正则只需要10s左右

python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup相关推荐

  1. python爬虫实战1-获取当当网近30日好评榜前500本书籍

    1.首先打开当当网,点击好评榜,选择近30日,此时浏览器中的URL复制一下,备用 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00- ...

  2. python爬虫实战一|大众点评网

    PS:如果不懂的可以看我的上一篇文章快速入门Python爬虫 阶段 类型 问题 需要做到 1 请求 网页数据在哪里? 发现网址url规律 2 请求 如何获取网页数据 先尝试使用requests成功访问 ...

  3. Python爬虫深入 爬取当当网商品基本信息

    Python爬虫深入 爬取当当网商品基本信息 使用scrapy爬虫框架,创建爬虫项目. 基本命令: scrapy startproject dangdang scrapy genspider -l s ...

  4. python爬虫之--爬取当当网商品信息

                                    python爬虫之--爬取当当网图商品信息                                               ...

  5. python爬虫案例-爬取当当网数据

    输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...

  6. Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息

    今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...

  7. Python爬虫 离线爬取当当网畅销书Top500的图书信息

    本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

  8. Python爬虫 在线爬取当当网畅销书Top500的图书信息

    本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

  9. Python爬虫实战: 爬取网易云歌单

    这篇文章,我们就来讲讲怎样爬取网易云歌单,并将歌单按播放量进行排序,下面先上效果图 1.用 requests 爬取网易云歌单 打开 网易云音乐 歌单首页,不难发现这是一个静态网页,而且格式很有规律,爬 ...

  10. python爬虫实战(2)——爬取知乎热榜内容

    文章目录 一.前期准备 1.获取headers 2.查看网页源代码 二.python代码实现 1.解析网页 2.获取标签 3.完整代码 三.最终结果 一.前期准备 1.获取headers 登录知乎官网 ...

最新文章

  1. [Spring mvc 深度解析(一)] 详解Servlet
  2. 独家 | 如何全面解析数据并创造数据故事
  3. each 数据获取attr_调用高德POI数据,带你玩转长沙
  4. socket不能bind请求的地址_socket通信原理
  5. HDU4846Task treap + 贪心
  6. 感知机模型及其对偶形式
  7. 四 Spring的工厂类,xml的配置
  8. 【项目管理和构建】——Maven简介(一)
  9. Spring security/Shiro ---登陆成功后返回登陆前界面<页面重定向>
  10. Debian 7.8 通过 apt-get 安装 nodejs
  11. jquery操作radio,checkbox
  12. 微软 Build 2019 对开发者意味着什么?
  13. nginx(三)status状态页面的相关信息及配置,以及nginx的访问控制配置
  14. Android Fragment应用实战,使用碎片向ActivityGroup说再见
  15. -离散数学-期末练习题解析
  16. 服务器安全基础知识系列(三)关于网页木马
  17. 文章原创度检测神器:copyscape及duplichecker
  18. HTML-CSS常用元素居中对齐方法
  19. 创业 和 移动互联网
  20. 小学-知识与能力【10】

热门文章

  1. 据说这是今年高考第一篇负分滚粗作文
  2. 【漫画】SWOT模型助力程序员相亲:成功率高达100%!
  3. 免杀基础之一文学废PE文件格式
  4. NDC空间(归一化的设备坐标空间)整理记录
  5. codeforces 1549B. Gregor and the Pawn Game
  6. SQL Server 如何添加删除外键、主键,以及更新自增属性
  7. openVINO在Ubuntu18.04上使用GPU的一个问题?[CLDNN ERROR]. clGetPlatformIDs error -1001
  8. hibernate三级缓存
  9. 生活中如何靠行走来健身减肥
  10. HTML5 MathML