python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup
所有的一切都跟上一篇文章是一样的,不同的是不用写长长的正则表达式啦,上一期传送门https://blog.csdn.net/u010376229/article/details/114042780
这次我们需要用到BeautifulSoup,只需简单的学习一下就剋不用写正则表达式啦,而且更加清楚
def get_books_info_of_current_page(page):html = get_html("http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page))soup = BeautifulSoup(html, 'lxml')lis = soup.find("ul", class_="bang_list").find_all("li") # 找到<ul class="bang_list">下所有的li元素get_book_info_and_write_to_txt(lis)
def get_book_info_and_write_to_txt(lis):for li in lis:book_info = {"range": li.find('div', class_="list_num").string,"img": li.find("div", class_="pic").a.img.get("src"),"title": li.find("div", class_="name").a.get("title"),"recommend": li.find("div", class_="star").find("span", class_="tuijian").string,"author": li.find("div", class_="publisher_info").a.get("title") if li.find("div", class_="publisher_info").a else "无","price": li.find("div", class_="price").span.string}write_item_to_file(book_info)
不过用这种方法用的时间比较久,取500条数据用时14s左右,用正则只需要10s左右
python爬虫实战2-获取当当网近30日好评榜前500本书籍-使用BeautifulSoup相关推荐
- python爬虫实战1-获取当当网近30日好评榜前500本书籍
1.首先打开当当网,点击好评榜,选择近30日,此时浏览器中的URL复制一下,备用 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00- ...
- python爬虫实战一|大众点评网
PS:如果不懂的可以看我的上一篇文章快速入门Python爬虫 阶段 类型 问题 需要做到 1 请求 网页数据在哪里? 发现网址url规律 2 请求 如何获取网页数据 先尝试使用requests成功访问 ...
- Python爬虫深入 爬取当当网商品基本信息
Python爬虫深入 爬取当当网商品基本信息 使用scrapy爬虫框架,创建爬虫项目. 基本命令: scrapy startproject dangdang scrapy genspider -l s ...
- python爬虫之--爬取当当网商品信息
python爬虫之--爬取当当网图商品信息 ...
- python爬虫案例-爬取当当网数据
输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...
- Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...
- Python爬虫 离线爬取当当网畅销书Top500的图书信息
本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
- Python爬虫 在线爬取当当网畅销书Top500的图书信息
本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
- Python爬虫实战: 爬取网易云歌单
这篇文章,我们就来讲讲怎样爬取网易云歌单,并将歌单按播放量进行排序,下面先上效果图 1.用 requests 爬取网易云歌单 打开 网易云音乐 歌单首页,不难发现这是一个静态网页,而且格式很有规律,爬 ...
- python爬虫实战(2)——爬取知乎热榜内容
文章目录 一.前期准备 1.获取headers 2.查看网页源代码 二.python代码实现 1.解析网页 2.获取标签 3.完整代码 三.最终结果 一.前期准备 1.获取headers 登录知乎官网 ...
最新文章
- [Spring mvc 深度解析(一)] 详解Servlet
- 独家 | 如何全面解析数据并创造数据故事
- each 数据获取attr_调用高德POI数据,带你玩转长沙
- socket不能bind请求的地址_socket通信原理
- HDU4846Task treap + 贪心
- 感知机模型及其对偶形式
- 四 Spring的工厂类,xml的配置
- 【项目管理和构建】——Maven简介(一)
- Spring security/Shiro ---登陆成功后返回登陆前界面<页面重定向>
- Debian 7.8 通过 apt-get 安装 nodejs
- jquery操作radio,checkbox
- 微软 Build 2019 对开发者意味着什么?
- nginx(三)status状态页面的相关信息及配置,以及nginx的访问控制配置
- Android Fragment应用实战,使用碎片向ActivityGroup说再见
- -离散数学-期末练习题解析
- 服务器安全基础知识系列(三)关于网页木马
- 文章原创度检测神器:copyscape及duplichecker
- HTML-CSS常用元素居中对齐方法
- 创业 和 移动互联网
- 小学-知识与能力【10】
热门文章
- 据说这是今年高考第一篇负分滚粗作文
- 【漫画】SWOT模型助力程序员相亲:成功率高达100%!
- 免杀基础之一文学废PE文件格式
- NDC空间(归一化的设备坐标空间)整理记录
- codeforces 1549B. Gregor and the Pawn Game
- SQL Server 如何添加删除外键、主键,以及更新自增属性
- openVINO在Ubuntu18.04上使用GPU的一个问题?[CLDNN ERROR]. clGetPlatformIDs error -1001
- hibernate三级缓存
- 生活中如何靠行走来健身减肥
- HTML5 MathML