Web scraper 爬虫傻瓜教程(不断更新中)
教程
- 安装
- 基本操作
- 打开Web scraper
- 使用Web scraper
- 创建爬取
- 运行爬虫,查看数据
- 这里讲一个复杂一点的例子帮助大家学习
- 参考:
安装
- Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,适合轻度的数据爬取,而且免费!
基本操作
打开Web scraper
当我们想要抓取某网页的时候,需要调出来Web scraper的开发界面,这点开发人员肯定很懂。
不懂的下面提供几种方法:
- windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12
- Mac 系统下可以使用快捷键 command+option+i
- 在网页右键点击检查(ctrl+shift+i)
- 直接在 Chrome 界面上操作,点击设置→\rightarrow→更多工具→\rightarrow→开发者工具
打开之后长这样,如果不在网页的下方就点这三个竖着的小圆点,给它换到网页下方。
换好之后长这样,就可以看的Web scraper插件了~
使用Web scraper
创建爬取
- 首先需要创建一个新的爬取:Create new sitemap →\rightarrow→Create sitemap
Import sitemap是导入脚本
- 添加请求头,命名和将我们要爬取的网页url填好之后点Create Sitemap
这里要说明一下,一个Sitemap可以有多个Selector,
- 理解工具
创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
1)Id - 爬取标题的命名,自己随意取
2)Type - 抓取数据的类型名字
- Text(文本)选择器;
- Link(链接)选择器;
- Popup LINK(弹出链接)选择器;
- Image(图像)选择器;
- Table(表格)选择器;
- Element attribute(元素属性)选择器;
- HTML 选择器;
- Element;
- Element scroll down(滑动);
- Element click(点击);
- Grouped(组块)选择器。
3)selector - CSS 选择器选取所需元素;
4)multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中;
5)delay - 选择器生效前的延迟时长;
6)parent selectors - 为此选择器选择母选择器以产生选择器树形结构;
7)文本选择器(Text selector);
8)链接选择器(Link selector);
9)元素选择器(Element selector)。
运行爬虫,查看数据
1)Selector graph - 查看爬虫逻辑
2)Scrape - 运行爬虫
3)Browse - 查看数据
4)Export data as CSV - 保存数据
这里讲一个复杂一点的例子帮助大家学习
- 任务:
账号:中国日报(https://weibo.com/chinadailywebsite?is_all=1)
时间:2020年3月11号——2021年3月10号
关键词:新冠
爬取符合以上条件的所有推送的文字部分,以及发布时间,和转发,评论和点赞的数量
- 利用微博自己的高级搜索,锁定关键词和具体时间段
如果抓取多页网站,Start url可以设定page=[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2]。 - 建立selector,Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
- 建立新的selector,负责展开全文。Type选择Element click来模拟点击。
- 建立新的selector,负责抓取正文内容。Type选择Text。
- 建立新的selector,负责抓取时间日期。Type选择Text。
- 同理,建立新的selector,负责抓取转赞评。Type选择Text。就不放图了。
注意:每次选择网页元素一定要点击Mutiple,从top到bottom选择两次自己要抓取的内容,比如要抓取微博推送内容,抓取该页面第一条和第二条,接下来板块都会自动抓取。
speed要调整一下,不然抓取的内容会不全。
参考:
- 如何使用web scraper收集大量微博信息
- 使用Selenium实现微博爬虫(预登录、展开全文、翻页)
- Webscraper爬取使用总结(持续更新)
- Web Scraper官网教程
- 翻页选择器Element click selector --webscraper操作手册
- web scraper 里的 Element click 模拟点击「加载更多」
- Web Scraper 使用教程(五)- 进阶用法(Element scroll down)
- Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07
- web scraper 爬取微博粉丝性别以及微博内容
- web scraper中Selectors解析
- 简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
- 简易数据分析
- Web Scraper傻瓜式爬虫插件之进阶套路
- 有关webscraper的问题,看这个就够了
- 爬取2000篇 Matrix 文章,这是一份可视化踹门教程
- 介绍一款好用又易学的爬虫工具:web scraper
- Web Scraper 教程
- web scraper 入门到精通之路
- 不写代码,超级简单实用的爬虫工具:web scraper!
- Web Scraper教程
Web scraper 爬虫傻瓜教程(不断更新中)相关推荐
- 1分钟轻松爬数据(web scraper插件使用教程)
1分钟轻松爬数据(web scraper插件使用教程) 前提你已安装web scraper(Google,FireBox商店都有). 说明:安装后右键查看元素或检查即可看到web scraper,简介 ...
- 《Autosar从入门到精通-实战篇》总目录_培训教程持续更新中...
目录 一.Autosar入门篇: 1.1 DBC专题(共9篇) 1.2 ARXML专题(共35篇) 1.2.1 CAN Matrix Arxml(共28篇) 1.2.2 ASWC Arxml(共7篇) ...
- 《Autosar_BSW高阶配置》总目录_培训教程持续更新中...
目录 0 基础"开胃菜"(共20+篇) 0.1 CANFD和Classic CAN介绍 0.2 UDS/OBD诊断网络层/传输层介绍 0.3 常用UDS诊断服务介绍 0.4 所有O ...
- 《Autosar_MCAL高阶配置》总目录_培训教程持续更新中...
欢迎大家订阅<Autosar_MCAL高阶配置>专栏(可以理解为是Autosar培训教程),献上常用的案例和配置方法.下方整理了相关博文的链接(单击蓝色字体即可跳转),方便大家获取. 本专 ...
- Web Scraper爬虫
前置准备 chrome浏览器.Web Scraper-0.2.0.18 一.插件安装 打开chrome浏览器,地址栏内输入:chrome://extensions/,点击加载已解压的扩展程序,选择we ...
- web scraper爬虫工具(简介)
web scraper 简介 一.什么是web scraper web scraper是一款网站数据提取工具,类似于爬虫,但不需要像python爬虫那样编写代码,使用门槛较低,适用于轻度的数据爬取.w ...
- 【C++】C/C++系列教程汇总(更新中......)
文章目录 01. C语言基础 02. C开发实战 03. 数据结构 04. C++语言基础 05. C++核心编程 06. C++开发实战 07. MFC 08. QT 09. Visual Stud ...
- VSTO开发入门教程[持续更新中......]
Paragraph 01 VSTO课程学习路线图[持续更新中......] 第一阶段:熟悉 visual studio 编程环境 1.1--理解 VSTO 的概念 1.2--安装 visual stu ...
- 【2020】明哥版-JetBrains旗下常用开发工具教程目录更新中-建议收藏
前言 我为什么要写这个系列的教程?很早以前我们在写Java代码时用的较多开发工具可能就是MyEclipse或eclipse,当然了如果你在企业中还能遇见很古老的项目的话,你维护的时候还是需要使用MyE ...
最新文章
- shell特殊符_cut命令 sort_wc_uniq命令tee_tr_split命令 shell特
- Android给自定义按键添加广播和通过广播给当前焦点输入框赋值
- strtok_r 和 strsep 使用实例
- 近期知识图谱顶会论文推荐,另附超详笔记解读
- AppCompat DayNight theme
- 重学java基础第十八课:卸载jdk和安装jdk
- 挖漏经验:在密码重置请求包中添加X-Forwarded-Host实现受害者账户完全劫持
- android 圆点指示器,ViewPager加上小圆点指示器效果
- redis连接数据库进行操作
- c# 数组不能直接=,需要clone
- 教育认证有效期 有道云笔记_有道云笔记使用指南
- 单片机动态从00到99C语言,单片机00~99秒表显示
- postman一直sending 常见问题
- C语言实现易语言变量框,【VC】发一个自己用c语言写的仿易语言的文本_取文本左边函数把...
- Unity VR(PicoVR)
- SQL语句中where 1=0是什么意思
- 笔记本外接显示器感觉鼠标有延迟解决办法
- 面试题 02.08. 环路检测-快慢指针+如何找到环的入口?(证明)Java
- matlab simulink 代数环问题解决
- 用 Wasm 为数据库增加用户定义函数
热门文章
- 请将磁盘插入‘‘U盘(F:)‘‘的解决方法
- Android的生命周期
- 代码维护服务器,维护服务器的利器-pubwin 2009程序代码
- sklearn 小白抱佛脚笔记3:模型选择和它们的参数
- 【工具-代码】OSS阿里云存储服务-代码实现
- html5怎么做相册影集,手机怎么做相册影集
- html导出excel
- Android Ui卡断的原因分析及常见的解决方式
- python做文本情感分析——某APP内评论内容作样本
- 计算机神经网络sci,神经网络方向sci期刊