若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。
TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。
TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。
在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局:
-----------------------------------------------------------
...
|
+- example
     |
     +- class1
     |  |
     |  + file1.txt
     |  |
     |  + file2.txt
     |  |
     |  ...
     |
     +- class2
     |  |
     |  + another_file1.txt
     |  |
     |  + another_file2.txt
     |  |
     |  ...
-----------------------------------------------------------
按照上图所示的目录布局好文本数据后,将example文件夹放置在weka根目录下,我们利用WEKA的命令行界面(Simple CLI)输入以下命令:
java weka.core.converters.TextDirectoryLoader -dir example > example.arff
此时,可以发现在weka根目录下生成了一个example.arff文件,这说明文本数据已经成功转换成了WEKA需要的ARFF文件了。
example.arff文件内容下图所示,从图中可以发现example文件夹下的子文件夹名变成了每个文档的类标记。
-----------------------------------------------------------
@relation D__workspace_weka_example
@attribute text string
@attribute class {class1,class2,class3}
@data
‘文本内容’,class1
‘文本内容’,class3
‘文本内容’,class2
‘文本内容’,class1
‘文本内容’,class3
...
-----------------------------------------------------------
该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改WEKA的源码才能实现对中文文本数据的处理。

[WEKA]如何将英文文本数据集转换为ARFF格式相关推荐

  1. 将数据集转换为Excel格式的一个实现

    { 将数据集转换为Excel格式的一个实现 在做项目时,很多情况下,客户需要对我们保存在数据库中的数据再加工再利用, 如财务需要一份今年财务情况的电子报表,总经理需要今年销售情况的一个电子报表. 我们 ...

  2. python 文件格式转换_python实现txt文件格式转换为arff格式

    本文实例为大家分享了python实现txt文件格式转换为arff格式的具体代码,供大家参考,具体内容如下 将文件读取出来的时候默认都是字符型的,所以有转换出来有点问题,但是还是可以用的. 文件要求第一 ...

  3. python写文件格式转换程序_python实现txt文件格式转换为arff格式

    本文实例为大家分享了python实现txt文件格式转换为arff格式的具体代码,供大家参考,具体内容如下 将文件读取出来的时候默认都是字符型的,所以有转换出来有点问题,但是还是可以用的. 文件要求第一 ...

  4. php arff文件,python实现txt文件格式转换为arff格式

    本文实例为大家分享了python实现txt文件格式转换为arff格式的具体代码,供大家参考,具体内容如下 将文件读取出来的时候默认都是字符型的,所以有转换出来有点问题,但是还是可以用的. 文件要求第一 ...

  5. 将CityScapes数据集转换为COCO格式的实例分割数据集

    ##¥##2019年结束前最后两小时,写出本年度最后一篇博客,不是博主没地方去跨年,实在是Coding乐趣无穷ahhhh ##¥## COCO数据集是研究实例分割的通用数据集,但是针对道路环境的数据较 ...

  6. python读取CIFAR10数据集并将数据集转换为PNG格式存储

    CIFAR10数据集介绍 CIFAR10数据集包括10类图像,每张图像的大小为32*32,包含如上图的十个类别的对象.每个类都包含6000张图片,总共有60000张图片,数据集平衡.其中,训练组图像包 ...

  7. Excel中如何将文本数值转换为数值格式

    问题 在做表格的时候我们经常会遇到数字的数值格式和文本格式交叉出现的现象,利用单元格格式将它们都调整为统一格式往往不奏效,那么我们可以利用下面两种方法. 原始数据 这里可以看到是数字的文本格式和数值格 ...

  8. python实现将txt文件格式转换为arff格式

    将文件读取出来的时候默认都是字符型的,所以有转换出来有点问题,但是还是可以用的. 文件要求第一行是你对应的属性名,之后是数字. import sys import rerelationname = & ...

  9. 将数据集转换为VOC格式

    xml文件操作 方式一 import sysimport timeimport stringfrom lxml import etree#设置默认字符集为UTF8 不然有些时候转码会出问题defaul ...

最新文章

  1. LSGO代码小组第18周复盘日志
  2. 外观设计模式(门面模式)
  3. 二分搜索 POJ 3273 Monthly Expense
  4. 成功解决ValueError: Expected 2D array, got 1D array instead: Reshape your data either using array.reshap
  5. 【PAT乙级】1028 人口普查 (20 分)
  6. Kettle使用_19 HTTP Client与XML JavaSript解析
  7. 05-xpath爬虫数据解析
  8. SAP CRM WebClient UI的搜索条件是怎么渲染出来的
  9. 一切为了孩子——一位IT麻麻的新西兰移民记录
  10. Tensorflow修改张量特定位置元素的值
  11. 做完四个小项目的收获
  12. linux检测系统是否被入侵(上)
  13. 数据结构的时间复杂度与空间复杂度、及相关证明
  14. java图片对比度调整
  15. 横坐标设置_默认设置解决不了?!三种办法来解决,保住了Excel的“面子”
  16. ABAP 中的搜索帮助
  17. 惠普电脑u盘重装系统步骤_惠普笔记本u盘重装系统|惠普笔记本怎么用u盘重装系统...
  18. html 有序无序列表,无序列表、有序列表和定义列表
  19. 软件测试自学摄影审美,【摄影讲评】摄影常用的5种透视 第1234讲?
  20. 记录下2015申请apple开发者企业账号过程

热门文章

  1. 超赞的 PyTorch 资源大列表,有人把它翻译成了中文版!
  2. 如何将.py文件转换为.exe
  3. 试利用记录型信号量和pv操作写出_计算机操作系统知识点汇总
  4. c 语言常用宏定义 模板
  5. MySQL 数据库的备份和恢复
  6. 一、目前在ASP.NET中页面传值共有这么几种方式:
  7. 养成重构的习惯有多重要
  8. 23种设计模式C++源码与UML实现--适配器模式
  9. docker desktop一直starting不变化
  10. python编程题二