基于weka的数据分类分析实验报告

姓名:学号:

1实验基本内容

本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

2数据的准备及预处理

2.1格式转换方法

原始数据是老师直接给的arff文件,因此不用转换,可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据,则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。

转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”,则在excel中打开“breast-cancer.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“breast-cancer”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“breast-cancer.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“filename”文件,点击“save”按钮,在弹出的对话框中,文件名输入“breast-cancer”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“breast-cancer.arff”。

weka使用训练集分类测试集_weka实验报告相关推荐

  1. weka使用训练集分类测试集_科学网—使用独立测试集对分类模型进行评估 - 李向东的博文...

    这两天还是纠结于分类模型的准确率.因为对从网上随机摘录的文本进行分类时,结果总是不甚理想,不像使用cross-validation得到的结果那么好. 于是决定使用独立测试集(含1402个实例)进行评估 ...

  2. weka使用训练集分类测试集_技术分享

    一.实验目的熟悉weka基本功能和使用方法 学习对数据集进行分类训练并测试 比较不同分类算法对本实验测试集预测的准确率 二.实验环境平台:Weka3.8 数据集:将Weka的data文件夹下默认数据集 ...

  3. weka使用训练集分类测试集_Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性...

    Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性 前言 GIAO 13C NMR计算对于小分子结构归属有很重要的作用,尤其对于需要提高准确性和可信性的复杂有机分子的结构归属.准确度是 ...

  4. Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例

    Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例 目录

  5. python尝试不同的随机数进行数据划分、使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征的卡方检验的p值,如果所有p值都大于0.05则训练集和测试集都具有统计显著性、数据划分合理

    python尝试不同的随机数进行数据划分.使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征(categorical)的卡方检验的p值,如果所有p值都大于0.05则退出循环.则训练集和测试 ...

  6. 数据集划分,Oxford Flower102花卉分类数据集,分为训练集、测试集、验证集

    数据集划分,Oxford Flower102花卉分类数据集,分为训练集.测试集 Oxford Flower102数据集链接:https://www.robots.ox.ac.uk/~vgg/data/ ...

  7. 102类花卉分类数据集(已划分,有训练集、测试集、验证集标签)

    102类花卉分类数据集(已划分,有训练集.测试集.验证集标签)+完整运行代码 数据集已经经过处理划分好了,并且附带了训练集,测试集,验证集的txt文本标签.配合完整运行代码即可训练. 数据集链接在文章 ...

  8. ML基础 : 训练集,验证集,测试集关系及划分 Relation and Devision among training set, validation set and testing set...

    首先三个概念存在于 有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...

  9. 1. 训练集、开发集、测试集(Train/Dev/Test sets)

    1.在以往的机器学习中 如上图所示,以往机器学习中,对训练集.开发集.测试集的划分比例为60/20/20,如此划分通常可以获得较好的效果. 训练集(training set):训练算法. 开发集(de ...

最新文章

  1. Asp.Net Web API 2第一课——入门
  2. Android 数据存储与IO (一)
  3. linux用户ftp失败,vsftpd本地用户登录密码错误的解决方法
  4. SpringBoot事件与监听机制
  5. 计算机网络实验3:网络设备基本配置
  6. mysql 优化表的作用_mysql实战优化之三:表优化
  7. 使用Flying-Saucer生成PDF中的条形码
  8. 揭秘人工智能(系列):人工智能带来的网络安全威胁
  9. jtessboxeditorfx 界面显示不出来_华为Mate40 Pro开箱简评,有点不开心
  10. 从减少DNS查找来优化网站
  11. 字符串匹配(一)—— KMP / MP
  12. java系列7:构造方法
  13. Num70 债权查询 债权审核
  14. [转载]无线通信系统中的调制解调基础(一):AM和FM
  15. typescript之prototype
  16. 文本的垂直居中 WPF
  17. C++ 原子操作 std::atomic<int>
  18. windows10安装更新很慢ndows,win10系统更新后运行速度变慢的解决方法 - 系统家园...
  19. 浅谈输入阻抗、输出阻抗和阻抗匹配
  20. c语言编写用户注册程序,如何用c实现登录和注册的程序?

热门文章

  1. Continuations
  2. 周易运用于计算机专业,电子计算机与《易经》有啥关系?
  3. Springboot 自定义mybatis 拦截器,实现我们要的扩展
  4. 百度站长平台上线落地页视频转存功能,对于站长有何用处?
  5. android 根据区号判断手机号码是否符合格式
  6. 解决“System.Data.OracleClient需要Oracle客户端软件8.1.7或更高版本”
  7. JavaScript获取B站分集视频标题及各集时长、累计时长
  8. 【excel函数使用】
  9. 深圳市各区初中学区图
  10. 分享几个常用的可以从外部攻击视角发现甲方公司安全问题的开源工具