《八爪鱼采集器》如何自定义抓取数据
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
步骤2:创建翻页循环
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,下拉页面,找到并点击“更多短评”按钮,选择“点击该链接”
2)将页面下拉到底部,点击“下页”按钮,在右侧的操作提示框中,选择“更多操作”
3)选择“循环点击单个链接”,以建立一个翻页循环
步骤3:创建列表循环并提取数据
1)移动鼠标,选中页面里的第一条电影评论区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”
2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环
3)我们可以看到,页面中第一条电影评论区块的所有元素均被选中,变为绿色。选择“采集以下数据”
4)选中字段,点击垃圾桶图标,可删除不需要的字段
5)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”
6)选择“启动本地采集”
步骤4:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出
2)这里我们选择excel作为导出为格式,数据导出后如下图
注意事项
说明:在未登录状态下,豆瓣电影短评只可翻页8次,采集160条左右的数据。如果想采集第8页以后的短评,需要在八爪鱼流程图中增加一个登录步骤(先登录豆瓣账号,再进行短评采集)。
如果觉得对您有些用处,就请点个赞或者收藏一下吧,谢谢。
《八爪鱼采集器》如何自定义抓取数据相关推荐
- html 抓取移动,网页采集提取数据教程,以自定义抓取方式为例 - 八爪鱼采集器...
网页上的数据类型十分丰富:文本.图片.链接.源码等.在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的.本文将讲解常见的数据类型与其抓取方式. 示例网址:https://movie.doub ...
- 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则
大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...
- 求助:为什么用八爪鱼采集器抓取特定时间段的微博会出现漏抓情况?
八爪鱼采集器抓取微博内容出现抓取不完整的问题 在原微博网址设置了特定的时间段,导入八爪鱼采集器后也显示了相应时间段内容.例如按一小时抓取,但采集完成后导出的数据发现,一般只抓取了半个小时就停止了. 微 ...
- 八爪鱼采集器爬取京东手机信息
1.下载八爪鱼采集器,运行 2.点击新建任务(高级模式) 3.在基本信息栏中输入任务名,点击下一步 4.流程栏里拖动打开网页到流程线上,并在右侧输入要打开的商品页面的url,点击保存 5.选中一个商品 ...
- 八爪鱼采集器使用笔记
Author: Lycan Date: 2023/3/26 22:01 八爪鱼官网: 数阔八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具 下载地址: 免费下载-Windows大数据采集软件下载 ...
- 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法
halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...
- 基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨 ...
- 使用Apache Flume抓取数据(1)
使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么? 一.什么是Apache Flume Apache Flume是用于数据采集的高 ...
- python抓取数据时失败_爬取数据缺失的补坑,Python数据爬取的坑坑洼洼如何铲平...
渣渣业余选手讲解,关于爬取数据缺失的补坑,一点点关于Python数据爬取的坑坑洼洼如何铲平,个人的一些心得体会,还有结合实例的数据缺失的补全,几点参考,仅供观赏,如有雷同,那肯定是我抄袭的! 在使用P ...
最新文章
- 微信小程序页面间通信的5种方式
- WCF第一个Demo
- call_user_func() expects parameter 1 to be a valid callback, cannot access private method
- C#关于MSMQ通过HTTP远程发送专有队列消息的问题
- 如何在VMware8虚拟机里安装Xp GHOST系统 解决不能启动Xp系统方法
- 如何将另外一个表里的数据与联动_跨境电商(亚马逊)后台财务数据包
- 数据结构实验之图论四:迷宫探索_迷宫搜索类的双向bfs问题(例题详解)
- arduino无源蜂鸣器歌曲编码_Arduino加无源蜂鸣器,播放音乐《葫芦娃》
- poj1273Drainage Ditches
- 【图论】最优乘车(最短路变形)
- js+java实现登录滑动图片验证功能
- SOAP协议的深度解析
- python微信公众号翻译功能_Python实现微信翻译机器人的方法
- 弗洛伊德的乌龟与兔子
- 战矛在线Java_战矛在线职业选择攻略 最强职业推荐
- 腾讯云服务器+RAKSmart国内外服务器使用记录
- 工作感悟--对上一份工作总结
- Linux常用命令笔记
- 计算机管理删除卷灰色,win10磁盘上的“删除卷”按钮是灰色无法删除怎么解决...
- Dds和cc哪一个对服务器伤害大
热门文章
- (一)Graphvite源码编译安装——faiss 源码安装
- 专家预言未来机器人性XX爱OO或成常态,并利于身心健康
- ERROR 2003 (HY000):Can‘t connect to MySQL server on ‘bj-xxx-xxx-xxx.sql.tencentcdb.com‘(10060)
- python读音-python读音
- 机器人命题的真伪(1)
- 搭建java开发环境
- 51单片机如何跳出wile循环_51单片机C语言程序100例分析(4)外设
- linux中配置 http_proxy 代理的方法
- 硬核数据治理体系(思维导图)
- 那些年我们嘲讽的特异功能可能是真的!?