步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

步骤2:创建翻页循环

1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,下拉页面,找到并点击“更多短评”按钮,选择“点击该链接”

2)将页面下拉到底部,点击“下页”按钮,在右侧的操作提示框中,选择“更多操作”

3)选择“循环点击单个链接”,以建立一个翻页循环

 

步骤3:创建列表循环并提取数据

1)移动鼠标,选中页面里的第一条电影评论区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”

2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环

3)我们可以看到,页面中第一条电影评论区块的所有元素均被选中,变为绿色。选择“采集以下数据”

4)选中字段,点击垃圾桶图标,可删除不需要的字段

5)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”

6)选择“启动本地采集”

步骤4:数据采集及导出

1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出

2)这里我们选择excel作为导出为格式,数据导出后如下图

注意事项

  • 说明:在未登录状态下,豆瓣电影短评只可翻页8次,采集160条左右的数据。如果想采集第8页以后的短评,需要在八爪鱼流程图中增加一个登录步骤(先登录豆瓣账号,再进行短评采集)。

  • 如果觉得对您有些用处,就请点个赞或者收藏一下吧,谢谢。

《八爪鱼采集器》如何自定义抓取数据相关推荐

  1. html 抓取移动,网页采集提取数据教程,以自定义抓取方式为例 - 八爪鱼采集器...

    网页上的数据类型十分丰富:文本.图片.链接.源码等.在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的.本文将讲解常见的数据类型与其抓取方式. 示例网址:https://movie.doub ...

  2. 大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则

    大数据信息资料采集:公众号武志红文章评论爬取八爪鱼采集器规则 大数据信息资料采集 公众号历史文章采集 公众号评论爬取 微信公众号历史文章导出 抓取微信公众号所有文章. 公众号文章抓取工具 抓取公众号所 ...

  3. 求助:为什么用八爪鱼采集器抓取特定时间段的微博会出现漏抓情况?

    八爪鱼采集器抓取微博内容出现抓取不完整的问题 在原微博网址设置了特定的时间段,导入八爪鱼采集器后也显示了相应时间段内容.例如按一小时抓取,但采集完成后导出的数据发现,一般只抓取了半个小时就停止了. 微 ...

  4. 八爪鱼采集器爬取京东手机信息

    1.下载八爪鱼采集器,运行 2.点击新建任务(高级模式) 3.在基本信息栏中输入任务名,点击下一步 4.流程栏里拖动打开网页到流程线上,并在右侧输入要打开的商品页面的url,点击保存 5.选中一个商品 ...

  5. 八爪鱼采集器使用笔记

    Author: Lycan Date: 2023/3/26 22:01 八爪鱼官网: 数阔八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具 下载地址: 免费下载-Windows大数据采集软件下载 ...

  6. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  7. 基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api

    TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨 ...

  8. 使用Apache Flume抓取数据(1)

    使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么? 一.什么是Apache Flume Apache Flume是用于数据采集的高 ...

  9. python抓取数据时失败_爬取数据缺失的补坑,Python数据爬取的坑坑洼洼如何铲平...

    渣渣业余选手讲解,关于爬取数据缺失的补坑,一点点关于Python数据爬取的坑坑洼洼如何铲平,个人的一些心得体会,还有结合实例的数据缺失的补全,几点参考,仅供观赏,如有雷同,那肯定是我抄袭的! 在使用P ...

最新文章

  1. 微信小程序页面间通信的5种方式
  2. WCF第一个Demo
  3. call_user_func() expects parameter 1 to be a valid callback, cannot access private method
  4. C#关于MSMQ通过HTTP远程发送专有队列消息的问题
  5. 如何在VMware8虚拟机里安装Xp GHOST系统 解决不能启动Xp系统方法
  6. 如何将另外一个表里的数据与联动_跨境电商(亚马逊)后台财务数据包
  7. 数据结构实验之图论四:迷宫探索_迷宫搜索类的双向bfs问题(例题详解)
  8. arduino无源蜂鸣器歌曲编码_Arduino加无源蜂鸣器,播放音乐《葫芦娃》
  9. poj1273Drainage Ditches
  10. 【图论】最优乘车(最短路变形)
  11. js+java实现登录滑动图片验证功能
  12. SOAP协议的深度解析
  13. python微信公众号翻译功能_Python实现微信翻译机器人的方法
  14. 弗洛伊德的乌龟与兔子
  15. 战矛在线Java_战矛在线职业选择攻略 最强职业推荐
  16. 腾讯云服务器+RAKSmart国内外服务器使用记录
  17. 工作感悟--对上一份工作总结
  18. Linux常用命令笔记
  19. 计算机管理删除卷灰色,win10磁盘上的“删除卷”按钮是灰色无法删除怎么解决...
  20. Dds和cc哪一个对服务器伤害大

热门文章

  1. (一)Graphvite源码编译安装——faiss 源码安装
  2. 专家预言未来机器人性XX爱OO或成常态,并利于身心健康
  3. ERROR 2003 (HY000):Can‘t connect to MySQL server on ‘bj-xxx-xxx-xxx.sql.tencentcdb.com‘(10060)
  4. python读音-python读音
  5. 机器人命题的真伪(1)
  6. 搭建java开发环境
  7. 51单片机如何跳出wile循环_51单片机C语言程序100例分析(4)外设
  8. linux中配置 http_proxy 代理的方法
  9. 硬核数据治理体系(思维导图)
  10. 那些年我们嘲讽的特异功能可能是真的!?