python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup

所有的一切都跟上一篇文章是一样的，不同的是不用写长长的正则表达式啦，上一期传送门https://blog.csdn.net/u010376229/article/details/114042780

这次我们需要用到BeautifulSoup，只需简单的学习一下就剋不用写正则表达式啦，而且更加清楚

def get_books_info_of_current_page(page):html = get_html("http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page))soup = BeautifulSoup(html, 'lxml')lis = soup.find("ul", class_="bang_list").find_all("li")  # 找到<ul class="bang_list">下所有的li元素get_book_info_and_write_to_txt(lis)

def get_book_info_and_write_to_txt(lis):for li in lis:book_info = {"range": li.find('div', class_="list_num").string,"img": li.find("div", class_="pic").a.img.get("src"),"title": li.find("div", class_="name").a.get("title"),"recommend": li.find("div", class_="star").find("span", class_="tuijian").string,"author": li.find("div", class_="publisher_info").a.get("title") if li.find("div", class_="publisher_info").a else "无","price": li.find("div", class_="price").span.string}write_item_to_file(book_info)

不过用这种方法用的时间比较久，取500条数据用时14s左右，用正则只需要10s左右

python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup相关推荐

python爬虫实战1-获取当当网近30日好评榜前500本书籍
1.首先打开当当网,点击好评榜,选择近30日,此时浏览器中的URL复制一下,备用 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00- ...
python爬虫实战一|大众点评网
PS:如果不懂的可以看我的上一篇文章快速入门Python爬虫阶段类型问题需要做到 1 请求网页数据在哪里? 发现网址url规律 2 请求如何获取网页数据先尝试使用requests成功访问 ...
Python爬虫深入爬取当当网商品基本信息
Python爬虫深入爬取当当网商品基本信息使用scrapy爬虫框架,创建爬虫项目. 基本命令: scrapy startproject dangdang scrapy genspider -l s ...
python爬虫之--爬取当当网商品信息
python爬虫之--爬取当当网图商品信息 ...
python爬虫案例-爬取当当网数据
输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...
Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...
Python爬虫离线爬取当当网畅销书Top500的图书信息
本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
Python爬虫在线爬取当当网畅销书Top500的图书信息
本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
Python爬虫实战：爬取网易云歌单
这篇文章,我们就来讲讲怎样爬取网易云歌单,并将歌单按播放量进行排序,下面先上效果图 1.用 requests 爬取网易云歌单打开网易云音乐歌单首页,不难发现这是一个静态网页,而且格式很有规律,爬 ...
python爬虫实战（2）——爬取知乎热榜内容
文章目录一.前期准备 1.获取headers 2.查看网页源代码二.python代码实现 1.解析网页 2.获取标签 3.完整代码三.最终结果一.前期准备 1.获取headers 登录知乎官网 ...

python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup

python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup相关推荐

最新文章

热门文章