一、weka简介

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话，可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

二、数据集的导入及编辑

打开weka软件后，点击Explorer，进入主界面，点击openfile，可打开自己的数据集或软件自带的数据集（数据集位于软件安装位置的data文件夹中）。

weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。此外，weka还提供了对CSV文件的支持，而这种格式是被很多其他软件所支持的，weka还提供了通过JDBC访问数据库的功能。

将文件转为CSV文件
可以通过EXCEL将文件转为CSV格式：打开文件另存为，可见EXCEL支持CSV的存储格式。

也可以通过matlab将数据存储为CSV格式

%% table方式存储%需要保存的矩阵
A=[1 2 3;4 5 6; 7 8 9];
%行名称
m=['m1';'m2';'m3'];
%列名称
col={'test' 'c_1', 'c_2', 'c_3'};
%生成表格，按列生成
result_table=table(m,A(:,1),A(:,2),A(:,3),'VariableNames',col);
%保存表格
writetable(result_table, 'test.csv');

%% fopen打开CSV文件存储fid = fopen('test.csv', 'w+', 'n', 'utf8');    % 创建一个csv文件
for i=1:3fprintf(fid, '%d,%d,%d\n', A(i,1),A(i,2),A(i,3)); % 一行3个数据，用逗号分隔；每行结束后加上\n换行
end

将CSV文件转为ARFF文件
weka打开CSV文件后，可以选择希望存储的位置后将文件存储为ARFF格式。

导入数据集后，点击edit对数据集内数据进行编辑（此处以系统自带的鸢尾花数据集为例），编辑后并不会直接改变数据集内容，如果想进行保存，可以点击save对更改后的数据集进行存储。

打开数据集后，可查看对数据集的分类情况，如果是数据型，可以查看数据的最小值、最大值、平均值和标准偏差。

三、建立一个分类器（J48分类器）

以系统自带的glasses数据集为例，点击进入分类器面板，自上而下分别是贝叶斯分类器、函数分类器、线性分类器、元分类器、misc分类器（没查到是什么意思）、基于规则的分类器、决策树分类器。

点击决策树分类器的J48，并start运行，便可以得到分类结果。

可以在classifier output中看到决策树的信息，并可知该决策树共有30个叶节点和59个节点，总准确度为66.8%
可得到混淆矩阵，不在对角线的数值表示错误的分类结果。

此外可点击choose右侧数值对J48的参数进行配置，如点击unpruned，将数值设为True，即可获得未修剪的决策树；点击minNumObj对每个叶节点所含示例的最少数量进行修改。

右键点击Result list中的运行结果，选择Visualize tree，可视化决策树的结果。

四、使用一个过滤器

以系统自带的天气数据集为例，点击Filter，AllFilter和MultiFilter用于合并使用多种过滤器，还有监督和无监督过滤器。
选择无监督的属性过滤器，点击Remove，像之前J48决策树配置参数一样点击并在属性索引处选择3（湿度），apply后运行，并可点击Undo撤销刚才的操作。
选择无监督的实例过滤器，点击RemoveWithValues，并打开配置面板，更改属性索引和NormalIndics，apply后运行，并可点击Undo撤销刚才的操作。

五、可视化数据

以系统自带的鸢尾花数据集为例，点击visualize，得到二维的5×5矩阵图。
点击右上角的五行，左键点击改变X轴属性，右键点击改变Y轴属性。Jitter可通过抖动给X轴、Y轴增加随机性。

可以点击Select Instance选择目标区域并submit后对图像进行调整，保存后生成新的数据集，这也是清理数据中异常数据的一个方法。

继续使用J48分类器，右键点击Result list中的运行结果，选择Visualize classifier errors，可视化决策树分类器的误差，得到实际分类和预测分类的对比图。

可以使用有监督的属性过滤器，点击增加分类，并使用J48决策树，输出分类结果。

【数据挖掘软件 weka】第一部分开始使用weka相关推荐

一款数据挖掘软件——WEKA
目录 Weka 分类算法数据预处理决策树算法朴素贝叶斯分类器 KNN算法聚类算法关联规则数据挖掘软件--WEKA:WEKA全名为怀卡托智能分析环境(Waikato Environment ...
数据挖掘软件weka
一种好的数据挖掘软件 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数 ...
好用的数据挖掘软件介绍
好用的数据挖掘软件介绍 WEKA 下载地址: Orange 下载地址: RapidMiner 下载地址: 八爪鱼下载地址: WEKA WEKA的全名是怀卡托智能分析环境(Waikato Enviro ...
业界常见的数据挖掘软件介绍
业界常见的数据挖掘软件介绍一.主要介绍12种 1.传统的数据挖掘套件(Classic suites): SAS Enterprise Miner 5.3 SPSS Clementine 12 2.开 ...
[Data]数据挖掘软件的分类
目前市场上发布的数据挖掘软件大致分为三类:通用工具类:综合工具类:面向特定应用工具类.其中: 1．通用工具类占有较大和成熟的一块市场.从定义上说.它们是非面向特定应用的.从本质上说,它们的范围是水平 ...
常用数据挖掘软件/软件包大盘点
本文来自网易云社区. 数据挖掘软件首推R,它的优点在于函数都给你写好了,你只需要知道参数的形式就行了,有时候即使参数形式不对,R也能"智能地"帮你适应.这种简单的软件适合想要专注于 ...
SPSS Modeler18.0数据挖掘软件教程（三）：逻辑回归分析
教程传送门: SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介 SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化 SPSS Modeler18.0数 ...
怎样学习一款数据挖掘软件？
要充分的掌握一款数据挖掘软件,可以分为三个层面: 第一,软件的操作层面,通过实际操作,尽快掌握软件的使用方法和处理步骤: 第二,结果的分析层面,大家可以通过案例演示,基本明白软件的输出结果,从而得出正 ...
软件构造第一章第二节软件开发的质量属性
软件构造第一章第二节软件开发的质量属性 1.软件系统质量指标 External quality factors affect users 外部质量因素影响用户 Internal quality ...
【喜报】JEEWX荣获“2016 年度码云新增热门开源软件排行榜”第一名！
为什么80%的码农都做不了架构师?>>> 2016 年度码云新增项目排行榜 TOP 50 正式出炉!根据 2016 年在码云上新增开源项目的 Watch.Star.Fork 数 ...

【数据挖掘软件 weka】第一部分开始使用weka

文章目录

一、weka简介

二、数据集的导入及编辑

三、建立一个分类器（J48分类器）

四、使用一个过滤器

五、可视化数据

【数据挖掘软件 weka】第一部分开始使用weka相关推荐

最新文章

热门文章

【数据挖掘软件 weka】第一部分 开始使用weka

文章目录

一、weka简介

二、数据集的导入及编辑

三、建立一个分类器（J48分类器）

四、使用一个过滤器

五、可视化数据

【数据挖掘软件 weka】第一部分 开始使用weka相关推荐

最新文章

热门文章

【数据挖掘软件 weka】第一部分开始使用weka

【数据挖掘软件 weka】第一部分开始使用weka相关推荐