教程

  • 安装
  • 基本操作
    • 打开Web scraper
    • 使用Web scraper
      • 创建爬取
      • 运行爬虫,查看数据
      • 这里讲一个复杂一点的例子帮助大家学习
      • 参考:

安装

  • Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,适合轻度的数据爬取,而且免费

基本操作

打开Web scraper

当我们想要抓取某网页的时候,需要调出来Web scraper的开发界面,这点开发人员肯定很懂。
不懂的下面提供几种方法:

  • windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12
  • Mac 系统下可以使用快捷键 command+option+i
  • 在网页右键点击检查(ctrl+shift+i)
  • 直接在 Chrome 界面上操作,点击设置→\rightarrow→更多工具→\rightarrow→开发者工具
    打开之后长这样,如果不在网页的下方就点这三个竖着的小圆点,给它换到网页下方。


    换好之后长这样,就可以看的Web scraper插件了~

使用Web scraper

创建爬取

  1. 首先需要创建一个新的爬取:Create new sitemap →\rightarrow→Create sitemap
    Import sitemap是导入脚本
  2. 添加请求头,命名和将我们要爬取的网页url填好之后点Create Sitemap
    这里要说明一下,一个Sitemap可以有多个Selector,
  3. 理解工具

    创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
    1)Id - 爬取标题的命名,自己随意取
    2)Type - 抓取数据的类型名字
  • Text(文本)选择器;
  • Link(链接)选择器;
  • Popup LINK(弹出链接)选择器;
  • Image(图像)选择器;
  • Table(表格)选择器;
  • Element attribute(元素属性)选择器;
  • HTML 选择器;
  • Element;
  • Element scroll down(滑动);
  • Element click(点击);
  • Grouped(组块)选择器。

    3)selector - CSS 选择器选取所需元素;
    4)multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中;
    5)delay - 选择器生效前的延迟时长;
    6)parent selectors - 为此选择器选择母选择器以产生选择器树形结构;
    7)文本选择器(Text selector);
    8)链接选择器(Link selector);
    9)元素选择器(Element selector)。

运行爬虫,查看数据


1)Selector graph - 查看爬虫逻辑
2)Scrape - 运行爬虫
3)Browse - 查看数据
4)Export data as CSV - 保存数据

这里讲一个复杂一点的例子帮助大家学习

  • 任务:
    账号:中国日报(https://weibo.com/chinadailywebsite?is_all=1)
    时间:2020年3月11号——2021年3月10号
    关键词:新冠
    爬取符合以上条件的所有推送的文字部分,以及发布时间,和转发,评论和点赞的数量
  1. 利用微博自己的高级搜索,锁定关键词和具体时间段

    如果抓取多页网站,Start url可以设定page=[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2]。
  2. 建立selector,Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
  3. 建立新的selector,负责展开全文。Type选择Element click来模拟点击。
  4. 建立新的selector,负责抓取正文内容。Type选择Text。
  5. 建立新的selector,负责抓取时间日期。Type选择Text。
  6. 同理,建立新的selector,负责抓取转赞评。Type选择Text。就不放图了。

注意:每次选择网页元素一定要点击Mutiple,从top到bottom选择两次自己要抓取的内容,比如要抓取微博推送内容,抓取该页面第一条和第二条,接下来板块都会自动抓取。
speed要调整一下,不然抓取的内容会不全。

参考:

  1. 如何使用web scraper收集大量微博信息
  2. 使用Selenium实现微博爬虫(预登录、展开全文、翻页)
  3. Webscraper爬取使用总结(持续更新)
  4. Web Scraper官网教程
  5. 翻页选择器Element click selector --webscraper操作手册
  6. web scraper 里的 Element click 模拟点击「加载更多」
  7. Web Scraper 使用教程(五)- 进阶用法(Element scroll down)
  8. Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07
  9. web scraper 爬取微博粉丝性别以及微博内容
  10. web scraper中Selectors解析
  11. 简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
  12. 简易数据分析
  13. Web Scraper傻瓜式爬虫插件之进阶套路
  14. 有关webscraper的问题,看这个就够了
  15. 爬取2000篇 Matrix 文章,这是一份可视化踹门教程
  16. 介绍一款好用又易学的爬虫工具:web scraper
  17. Web Scraper 教程
  18. web scraper 入门到精通之路
  19. 不写代码,超级简单实用的爬虫工具:web scraper!
  20. Web Scraper教程

Web scraper 爬虫傻瓜教程(不断更新中)相关推荐

  1. 1分钟轻松爬数据(web scraper插件使用教程)

    1分钟轻松爬数据(web scraper插件使用教程) 前提你已安装web scraper(Google,FireBox商店都有). 说明:安装后右键查看元素或检查即可看到web scraper,简介 ...

  2. 《Autosar从入门到精通-实战篇》总目录_培训教程持续更新中...

    目录 一.Autosar入门篇: 1.1 DBC专题(共9篇) 1.2 ARXML专题(共35篇) 1.2.1 CAN Matrix Arxml(共28篇) 1.2.2 ASWC Arxml(共7篇) ...

  3. 《Autosar_BSW高阶配置》总目录_培训教程持续更新中...

    目录 0 基础"开胃菜"(共20+篇) 0.1 CANFD和Classic CAN介绍 0.2 UDS/OBD诊断网络层/传输层介绍 0.3 常用UDS诊断服务介绍 0.4 所有O ...

  4. 《Autosar_MCAL高阶配置》总目录_培训教程持续更新中...

    欢迎大家订阅<Autosar_MCAL高阶配置>专栏(可以理解为是Autosar培训教程),献上常用的案例和配置方法.下方整理了相关博文的链接(单击蓝色字体即可跳转),方便大家获取. 本专 ...

  5. Web Scraper爬虫

    前置准备 chrome浏览器.Web Scraper-0.2.0.18 一.插件安装 打开chrome浏览器,地址栏内输入:chrome://extensions/,点击加载已解压的扩展程序,选择we ...

  6. web scraper爬虫工具(简介)

    web scraper 简介 一.什么是web scraper web scraper是一款网站数据提取工具,类似于爬虫,但不需要像python爬虫那样编写代码,使用门槛较低,适用于轻度的数据爬取.w ...

  7. 【C++】C/C++系列教程汇总(更新中......)

    文章目录 01. C语言基础 02. C开发实战 03. 数据结构 04. C++语言基础 05. C++核心编程 06. C++开发实战 07. MFC 08. QT 09. Visual Stud ...

  8. VSTO开发入门教程[持续更新中......]

    Paragraph 01 VSTO课程学习路线图[持续更新中......] 第一阶段:熟悉 visual studio 编程环境 1.1--理解 VSTO 的概念 1.2--安装 visual stu ...

  9. 【2020】明哥版-JetBrains旗下常用开发工具教程目录更新中-建议收藏

    前言 我为什么要写这个系列的教程?很早以前我们在写Java代码时用的较多开发工具可能就是MyEclipse或eclipse,当然了如果你在企业中还能遇见很古老的项目的话,你维护的时候还是需要使用MyE ...

最新文章

  1. shell特殊符_cut命令 sort_wc_uniq命令tee_tr_split命令 shell特
  2. Android给自定义按键添加广播和通过广播给当前焦点输入框赋值
  3. strtok_r 和 strsep 使用实例
  4. 近期知识图谱顶会论文推荐,另附超详笔记解读
  5. AppCompat DayNight theme
  6. 重学java基础第十八课:卸载jdk和安装jdk
  7. 挖漏经验:在密码重置请求包中添加X-Forwarded-Host实现受害者账户完全劫持
  8. android 圆点指示器,ViewPager加上小圆点指示器效果
  9. redis连接数据库进行操作
  10. c# 数组不能直接=,需要clone
  11. 教育认证有效期 有道云笔记_有道云笔记使用指南
  12. 单片机动态从00到99C语言,单片机00~99秒表显示
  13. postman一直sending 常见问题
  14. C语言实现易语言变量框,【VC】发一个自己用c语言写的仿易语言的文本_取文本左边函数把...
  15. Unity VR(PicoVR)
  16. SQL语句中where 1=0是什么意思
  17. 笔记本外接显示器感觉鼠标有延迟解决办法
  18. 面试题 02.08. 环路检测-快慢指针+如何找到环的入口?(证明)Java
  19. matlab simulink 代数环问题解决
  20. 用 Wasm 为数据库增加用户定义函数

热门文章

  1. 请将磁盘插入‘‘U盘(F:)‘‘的解决方法
  2. Android的生命周期
  3. 代码维护服务器,维护服务器的利器-pubwin 2009程序代码
  4. sklearn 小白抱佛脚笔记3:模型选择和它们的参数
  5. 【工具-代码】OSS阿里云存储服务-代码实现
  6. html5怎么做相册影集,手机怎么做相册影集
  7. html导出excel
  8. Android Ui卡断的原因分析及常见的解决方式
  9. python做文本情感分析——某APP内评论内容作样本
  10. 计算机神经网络sci,神经网络方向sci期刊