如何不写代码通过爬虫软件采集表格数据
采集表格内容,包括列表形式的商品评论信息、正文中的表格等,凡是html代码采用<table>表单形式的表格,都可以不写代码,通过可视化的方式完成采集。
首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。
下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。
在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。
【需要多值存储的表格】
(一)创建表单
根据表格内容,创建一个存储表格数据的表单。在选项卡“表单”中,创建一个表单。
【多值的表结构】
1.主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)
【主键字段的配置】
2.其他字段
其他字段的变量类型选择“string”,取值类型选择“取所有子节点内容”。
【其他字段的配置】
(二)创建数据抽取
创建数据抽取,为其选择表单“表格”。
【创建数据抽取和字段】
(三)识别多值
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
【定位表格】
点击“多值”,选区扩大到整个表格。点击“保存”。
【保存表格】
(四)字段取值
主键字段不需要配置。存储表格内容的字段需要一一取值。
点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。
【配置descript字段】
点击“Apache”,按Ctrl点击第二列的任意单元格,点击“保存”。
【配置Apache字段】
其他字段同理。一一配置完成后,预览当前模板。表格被完整的采集下来。
【预览结果】
如何不写代码通过爬虫软件采集表格数据相关推荐
- 处理自己的数据集_手写代码实现KDD CUP99数据集的数据归一化处理
归一化是数据处理的常用方法之一,目的是消除不同评价指标之间的量纲对数据分析结果的影响,使各指标处于同一数量级,以解决数据指标之间的可比性问题. 目前学术界关于归一化和标准化的概念还不统一,常常会把这两 ...
- php html转成数组,PHP_php将HTML表格每行每列转为数组实现采集表格数据的方法,本文实例讲述了php将HTML表格每 - phpStudy...
php将HTML表格每行每列转为数组实现采集表格数据的方法 本文实例讲述了php将HTML表格每行每列转为数组实现采集表格数据的方法.分享给大家供大家参考.具体如下: 下面的php代码可以将HTML表 ...
- python爬表格数据_python爬虫,爬取表格数据
python爬虫,爬取表格数据 python爬虫,爬取表格数据 python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及 ...
- Java爬虫获取网页表格数据
//Java爬虫获取网页表格数据 public class Pachong implements Runnable { public void run() { String Rpt_date = nu ...
- 火车头采集表格数据,高效准确!
在当今互联网时代,数据已成为企业决策.市场营销.用户分析等方面的重要依据.而表格页面中的数据则是其中最为常见且重要的一种形式.然而,如何高效地采集表格页面中的数据却一直是一个麻烦和费时的问题.本文将介 ...
- layui 表格内容写temple函数_templet渲染layui表格数据的三种方式
layui前端框架是我一直在使用,也很好用. 今天记录一下,templet渲染layui表格数据的三种方式. 第一种:直接渲染(对于表格数据样式要求不高) 直接在动态表格字段声明,添加templet属 ...
- word表格导出html代码,(网页源代码中的表格数据怎么导出excel)如何将把从WORD、EXCEL中复制的内容转换成HTML源代码,再通过网页表单提交上传到数据库?...
如何将ASP页面中的表格生成一个Excel表,求源码 '给你个例子吧.保存为 asp文件看看.具体就在第一句. New Page 1PJ计画 第版 案件No 案件名 主门 顾客 PJ责任者 営业担当 ...
- python爬虫,爬取表格数据
python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及含义详细说明 #全国城市 import time import ...
- 前端写代码的推荐工具
有朋友,经常问到web前端开发写代码用那个软件好?今天在这里统一回答下,主流的web前端开发写代码的软件有这些Webstorm.Vscode.Sublime Text.HBuilder.Dreamwe ...
最新文章
- linux floating ip,Floating IP in OpenStack Neutron
- 嵌入式开发之赛灵思 xilinx Zynq芯片简介---Zynq-7000 EPP (XC7Z010 and XC7Z020)
- linux mono
- iOS上的jQuery.on()冒泡事件绑定 以及 iOS绝对定位元素中的输入框
- 最强写作AI竟然学会象棋和作曲,语言模型跨界操作引热议,在线求战
- System.Threading.Timer类的TimerCallback 委托
- WPF,Silverlight与XAML读书笔记第三十九 - 可视化效果之3D图形
- HDU 4915 Parenthese sequence
- 《Android开发卷——HTTP网络通信,HTTP网络连接》
- world2016论文脚注问题
- Linux嵌入式开发 -- imx6ull 主频配置
- android支持pcm格式转换,Android中Pcm文件转Amr文件
- 计算机ppt以学校生活为主题的作文,校园生活为话题的作文(精选10篇)
- 九。温暖地待人,你才会得到意想不到的惊喜结果。
- matlab计算惯性矩,梁单元有限元计算程序(matlab)
- gitlab常用网址
- SR研究(1)RCAN论文阅读上
- 华硕灵耀X双屏怎么样?华硕灵耀x2双屏缺点?详细性能评测
- [资料] [转载] 图形加速卡技术 [专业的基础技术文章]
- python 安装scrapy是报错 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is req