采集表格内容,包括列表形式的商品评论信息、正文中的表格等,凡是html代码采用<table>表单形式的表格,都可以不写代码,通过可视化的方式完成采集。

首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。

下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。

在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。

【需要多值存储的表格】

(一)创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“表单”中,创建一个表单。

【多值的表结构】

1.主键

采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。

表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

【主键字段的配置】

2.其他字段

其他字段的变量类型选择“string”,取值类型选择“取所有子节点内容”。

【其他字段的配置】

(二)创建数据抽取

创建数据抽取,为其选择表单“表格”。

【创建数据抽取和字段】

(三)识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

【定位表格】

点击“多值”,选区扩大到整个表格。点击“保存”。

【保存表格】

(四)字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。

点击数据抽取的字段,为其一一配置表格不同列的数据。点击“descript”,按Ctrl点击第一列的任意单元格,点击“保存”。

【配置descript字段】

点击“Apache”,按Ctrl点击第二列的任意单元格,点击“保存”。

【配置Apache字段】

其他字段同理。一一配置完成后,预览当前模板。表格被完整的采集下来。

【预览结果】

如何不写代码通过爬虫软件采集表格数据相关推荐

  1. 处理自己的数据集_手写代码实现KDD CUP99数据集的数据归一化处理

    归一化是数据处理的常用方法之一,目的是消除不同评价指标之间的量纲对数据分析结果的影响,使各指标处于同一数量级,以解决数据指标之间的可比性问题. 目前学术界关于归一化和标准化的概念还不统一,常常会把这两 ...

  2. php html转成数组,PHP_php将HTML表格每行每列转为数组实现采集表格数据的方法,本文实例讲述了php将HTML表格每 - phpStudy...

    php将HTML表格每行每列转为数组实现采集表格数据的方法 本文实例讲述了php将HTML表格每行每列转为数组实现采集表格数据的方法.分享给大家供大家参考.具体如下: 下面的php代码可以将HTML表 ...

  3. python爬表格数据_python爬虫,爬取表格数据

    python爬虫,爬取表格数据 python爬虫,爬取表格数据 python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及 ...

  4. Java爬虫获取网页表格数据

    //Java爬虫获取网页表格数据 public class Pachong implements Runnable { public void run() { String Rpt_date = nu ...

  5. 火车头采集表格数据,高效准确!

    在当今互联网时代,数据已成为企业决策.市场营销.用户分析等方面的重要依据.而表格页面中的数据则是其中最为常见且重要的一种形式.然而,如何高效地采集表格页面中的数据却一直是一个麻烦和费时的问题.本文将介 ...

  6. layui 表格内容写temple函数_templet渲染layui表格数据的三种方式

    layui前端框架是我一直在使用,也很好用. 今天记录一下,templet渲染layui表格数据的三种方式. 第一种:直接渲染(对于表格数据样式要求不高) 直接在动态表格字段声明,添加templet属 ...

  7. word表格导出html代码,(网页源代码中的表格数据怎么导出excel)如何将把从WORD、EXCEL中复制的内容转换成HTML源代码,再通过网页表单提交上传到数据库?...

    如何将ASP页面中的表格生成一个Excel表,求源码 '给你个例子吧.保存为 asp文件看看.具体就在第一句. New Page 1PJ计画 第版 案件No 案件名 主门 顾客 PJ责任者 営业担当 ...

  8. python爬虫,爬取表格数据

    python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及含义详细说明 #全国城市 import time import ...

  9. 前端写代码的推荐工具

    有朋友,经常问到web前端开发写代码用那个软件好?今天在这里统一回答下,主流的web前端开发写代码的软件有这些Webstorm.Vscode.Sublime Text.HBuilder.Dreamwe ...

最新文章

  1. linux floating ip,Floating IP in OpenStack Neutron
  2. 嵌入式开发之赛灵思 xilinx Zynq芯片简介---Zynq-7000 EPP (XC7Z010 and XC7Z020)
  3. linux mono
  4. iOS上的jQuery.on()冒泡事件绑定 以及 iOS绝对定位元素中的输入框
  5. 最强写作AI竟然学会象棋和作曲,语言模型跨界操作引热议,在线求战
  6. System.Threading.Timer类的TimerCallback 委托
  7. WPF,Silverlight与XAML读书笔记第三十九 - 可视化效果之3D图形
  8. HDU 4915 Parenthese sequence
  9. 《Android开发卷——HTTP网络通信,HTTP网络连接》
  10. world2016论文脚注问题
  11. Linux嵌入式开发 -- imx6ull 主频配置
  12. android支持pcm格式转换,Android中Pcm文件转Amr文件
  13. 计算机ppt以学校生活为主题的作文,校园生活为话题的作文(精选10篇)
  14. 九。温暖地待人,你才会得到意想不到的惊喜结果。
  15. matlab计算惯性矩,梁单元有限元计算程序(matlab)
  16. gitlab常用网址
  17. SR研究(1)RCAN论文阅读上
  18. 华硕灵耀X双屏怎么样?华硕灵耀x2双屏缺点?详细性能评测
  19. [资料] [转载] 图形加速卡技术 [专业的基础技术文章]
  20. python 安装scrapy是报错 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is req

热门文章

  1. 四足机器人champ项目和高程图构建elevation_mapping联合使用(Ubuntu18.04)
  2. 图解LeetCode——768. 最多能完成排序的块 II(难度:困难)
  3. Java千问:开发Java程序为什么要配置环境变量?
  4. 什么是多进程-多线程-多协程 ----进程和多进程
  5. 兰州大学本科生(学士学位)LaTeX模板-2021版
  6. 在同一网段和不同网段通信的区别
  7. 51nod 1113 矩阵快速幂
  8. AutoCAD Civil 3D-纵断面-创建曲面纵断面与布局纵断面
  9. 广告sdk是什么意思?广告SDK分类及用途介绍
  10. QT学习之路-资料收藏集锦