八爪鱼 ajax 循环采集,网页数据采集五大循环方式详解 - 八爪鱼采集器
在八爪鱼中,创建循环列表有两种方式,一种是通过点击页面元素,选择相似的项,由八爪鱼自动创建的。适用于列表信息采集、列表及详情页采集。当自动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。
循环的高级选项中,有五大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。
一、URL循环(云采集可实现加速)
适用情况:在多个同类型的网页中,网页结构要相同
二、文本循环(云采集可实现加速)
适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息
实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。
三、单个元素循环
适用情况:需循环点击页面内的某个按钮。例如:循环点击“下一页”按钮进行翻页。
实现方式:通过单个元素循环方式,达到循环点击“下一页”按钮,进行翻页目的。
定位方式:使用XPath定位,始终定位到“下一页”按钮。
操作示例:
① 选中“下一页”按钮 → 选择“循环点击下一页”,建立翻页循环。
② 循环方式为“单个元素循环”,通过“单个元素循环”中的定位XPath,不断点击“下一页”按钮实现翻页。
四、固定元素列表循环(云采集可实现加速)
适用情况:网页上要采集的行数是固定数目的。
实现方式:通过固定元素列表循环,循环页面内的固定元素。
定位方式:使用XPath定位,一条XPath对应循环列表中的一个元素。
操作示例:
① 选中一个文章链接 →“选中全部”→ “循环点击每个链接”,建立循环列表。
② 自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条XPath,一一对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。
这里涉及了XPath相关内容,可参考此 XPath教程
五、不固定元素列表循环
适用情况:网页上要采集的行数不是固定数目。
实现方式:通过不固定因素列表循环,循环页面内的不固定元素。
定位方式:使用XPath定位,一条XPath对应循环列表中的多个元素。
操作示例:
① 通过观察八爪鱼固定元素列表循环中生成的XPath:
//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]
......
//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]
20条XPath具有相同的特征:只有LI后面的数字不同。根据这个特征,我们可以写一条通用XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这一条通用Xpath,可定位到页面中的全部10条文章链接。
将循环方式改为“不固定元素列表循环”,并将修改后的XPath填充进去。
② 可以看到,这条通用的XPath,对应循环列表中的所有20个元素(也可以看成对应浏览器页面的20条文章链接)。
同理反推,也可以将不固定元素列表改成固定元素列表。
这里涉及了XPath相关内容,可参考 XPath教程
八爪鱼 ajax 循环采集,网页数据采集五大循环方式详解 - 八爪鱼采集器相关推荐
- css五大布局方式详解
css布局方式 table布局 float布局 flex布局 响应式布局 Grid布局 table布局 table布局在如今已经很少使用,原因是:table布局比其它html标记占更多的字节,会阻挡浏 ...
- python中循环语句只有for和while两种_Python循环语句之while,for语句详解
下面为大家分享一篇Python 循环语句之 while,for语句详解,具有很好的参考价值,希望对大家有所帮助.一起过来看看吧 Python中有两种循环,分别为:for循环和while循环. for循 ...
- Java EE 8的五大新特性详解
Java EE 8的五大新特性详解 2018.4.3 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载. Java EE 8带来了很多新特性,其中最好的新特性有下面五个. 备受期待的Ja ...
- mvc jquery ajax分页实例,jQuery Ajax自定义分页组件(jquery.loehpagerv1.0)实例详解,mvcpagerajax分页...
jQuery Ajax自定义分页组件(jquery.loehpagerv1.0)实例详解,mvcpagerajax分页 简单的两个步骤即可实现分页功能 //回调里面进行业务处理 function lo ...
- WEB前端之网页设计③----最新最全详解/如何在网页上创建表格
WEB前端之网页设计③--最新最全详解/如何在网页上创建表格 一.表格效果图1: <table border="0px" cellspacing="1px" ...
- 网页设计:Meta标签详解
网页设计:Meta标签详解 很多人忽视了HTML标签META的强大功效,一个好的META标签设计可以大大提高你的个人网站被搜索到的可能性,有兴趣吗,谁我来重新认识一下META标签吧! META标签是H ...
- cs6导航栏代码html,总算认识网页设计教程|Dreamweaver-CS6工具栏详解
总算认识网页设计教程|Dreamweaver-CS6工具栏详解 日期:2019-08-31 16:18:59 浏览:194 核心提示:网页设计教程|DreamweaverCS6工具栏详解.为了更好地使 ...
- bom event周期_MRP运行五大步骤逻辑详解(含动态安全库存、安全时间、批量计算方法、BOM表扩展方法的详细说明)...
MRP运行五大步骤逻辑详解(含动态安全库存.安全时间.批量计算方法.BOM表扩展方法的详细说明) 作者:袁云飞(AlbertYuan)- 微信号yuanalbert 以下内容均为原创,希望对初学者有一 ...
- c语言while将字符循环,C语言 while语句的用法详解
在C语言中,共有三大常用的程序结构: 顺序结构:代码从前往后执行,没有任何"拐弯抹角": 选择结构:也叫分支结构,重点要掌握 if else.switch 以及条件运算符: 循环结 ...
- 视频直播技术详解之采集
声明:本文为CSDN原创投稿文章,未经许可,禁止任何形式的转载. 作者:七牛云 责编:钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,另有「CSDN 高级架构师群 ...
最新文章
- pycharm 常用代码签名
- 转:开火,移动-大神Joel 也浮躁
- 【Python】pip模块管理Python包的常用方法
- *[topcoder]IncrementingSequence
- DockOne技术分享:十个问题带你了解Windows Docker
- php 实现二叉树的最大深度_LeetCode题记——104二叉树的最大深度
- 螺钉装弹垫平垫机器人_一种批量组装螺钉、弹垫、平垫的工装及使用方法
- [转载] 为什么this()和super()必须是构造函数中的第一条语句?
- Linux系统学习之文件管理
- 最小生成树两种方法Prim+kruskal代码模板
- 开关灯(c语言数据结构习题)
- PDF处理控件Spire.PDF热门问题解答
- unity3d 台球源码_基于Unity3d的桌球游戏的设计与实现
- 区块链+边缘计算应用研究与探讨
- POC_Jenkins
- c语言算摄氏温度和绝对温度,将华氏度转换为绝对温度C语言
- python语音识别库kaldi_Kaldi 使用 DFSMN 训练语音模型
- 海外服务器租用主要要看三个方面
- 第七篇 indicators(4)自建指标
- 区块链的未来发展前景