作业一(part1):使用威斯康辛大学关于乳腺癌诊断数据集的相关数据, 采用决策树算法(或随机森林)分析乳腺癌诊断数据集,推断肿瘤发病可能情况,然后用5分类
仅供自己学习使用!!!
这篇博客先对数据集做一些介绍
参考链接:http://docode.techyoung.cn/breast_cancer_wisconsin.html
乳腺癌的早期诊断意义重大!
数据集:威斯康辛大学关于乳腺癌诊断数据集
链接:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
数据集共有30个特征,前10个特征是样本图像中细胞核特征值的平均值:
第11到第20个特征为样本图像中细胞核特征值的标准差,反映的是在一个样本图像中不同细胞核在各个特征数值上的波动情况:
第21到30个特征为样本图像中细胞核特征值的最大值,这个最大值并非是整个样本最大值,而是特征值前三名的平均值,这样可以减弱计算和测算过程中误差所带来的影响:
为数据集作一个整体总结:
均值可以看出样本中细胞核总体形态特征;标准差反映各个细胞核中的差异程度,是一个良好的分类特征;恶性与良性有些细胞核面积差异较大,用最大值能够较好反映特征。
特征讲解
半径
纹理
周长和面积
平滑度
凹点
凹度
对称性
分形维数
前十个均值特征之间的关系
小结
代码
1.数据加载
原数据集中有30个特征,样本数量为569
import numpy as np
import pandas as pd
dataset = pd.read_csv(r'D:\Documents\myProject\dadaists\wdbc.csv', header=0,usecols = range(0,32,1))
dataset
print(dataset)
上面尝试失败,下面用导包的方式:
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data = load_breast_cancer()#导入数据集,探索数据
data.data.shape
print(data.data.shape)#输出乳腺癌数据集中的数据情况,从输出结果可以看出乳腺癌数据集有569条数据,30个特征
正式开始:
1.若使用sklearn库,则代码实现如下:
从sklearn库中导入该乳腺癌数据集,主体代码中,首先load,第三行中的cv=5是指实现五折交叉验证
2.不使用sklearn库,而是自己定义:
作业一(part1):使用威斯康辛大学关于乳腺癌诊断数据集的相关数据, 采用决策树算法(或随机森林)分析乳腺癌诊断数据集,推断肿瘤发病可能情况,然后用5分类相关推荐
- 威斯康辛大学《机器学习导论》2020秋季课程完结,课件、视频资源已开放(附下载)...
来源:机器之心 本文约2000字,建议阅读8分钟 对于机器学习领域的初学者来说,这会是很好的入门课程.目前,课程的笔记.PPT 和视频正在陆续发布中. 2020 年就这么悄无声息地走完了,想必大多数人 ...
- 威斯康辛大学《机器学习导论》2020秋季课程完结,课件、视频资源已开放
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 转载自:机器之心 对于机器学习领域的初学者来说,这会是很好的入门课程.目前,课程的笔记.PPT ...
- 基于随机森林的乳腺癌分类判别
基于随机森林的乳腺癌分类判别 摘要 关键词 一.随机森林原理 二.随机森林算法在乳腺癌中的判别应用 (一).数据预处理 (二)特征向量的提取和分析 1.样本特征对标签影响 2.相关性判断 三.模型建立 ...
- CART分类树算法与随机森林
说明:本博客是学习<python机器学习算法>赵志勇著的学习笔记,其图片截取也来源本书. CART分类树算法与随机森林 对于一个复杂的分类问题,训练一个复杂的分类模型通常比较耗时,同时为了 ...
- 决策树算法模型的归类与整理(ID3&C4.5&CART&线性二分类&非线性二分类)
决策树算法模型的归类与整理(ID3&C4.5&CART&线性二分类&非线性二分类) 一. 总结摘要 决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归. ...
- 数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户...
原文链接:http://tecdat.cn/?p=23518 项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人).银行拥有不断增长的客户(点击文末" ...
- 基于随机森林算法的人脸数据集分类
目录 1. 作者介绍 2. 关于理论方面的知识介绍 随机森林 3. 实验过程 3.1 数据集介绍 3.2 实验代码 3.3 运行结果 3.3 实验总结 参考 1. 作者介绍 李佳敏,女,西安工程大学电 ...
- 威斯康星大学麦迪逊分校计算机专业排名,威斯康星大学麦迪逊分校的计算机专业如何?...
威斯康辛大学麦迪逊分校(University of Wisconsin, Madison,有时缩写为UWM)是一所大型公立综合性全国大学,成立于1848年,位于美国威斯康辛州首府麦迪逊市,是威斯康辛大 ...
- 威斯康星大学计算机专业找工作,威斯康星麦迪逊大学计算机申请条件有哪些?...
申请威斯康星大学麦迪逊分校计算机专业需要以下条件:语言成绩(托福92分;雅思7.0分);需要提交GRE成绩,建议申请学生GPA一定要在3.0以上,文书材料则包括PS.CVEssay.推荐信.资产证明. ...
最新文章
- 关于get和post两种提交方式
- 选择自己用的到的文件编译一个CEGUISample(二)
- vue2.0 -- watch监听
- pyqt按钮关闭窗口_PyQt5按钮单击事件,退出程序
- 抢先看!Kubernetes v1.21 新特性一览
- 链路层:ARP和RARP命令arp -a/tcpdump -en
- python fortran混合编程输入矩阵_如何将动态数组从Python传递到Fortran动态链接库
- 修改注册表解决SVN状态图标不显示问题
- 如何在终端窗口中在Linux中创建文件?
- pytorch---在训练中动态的调整学习率
- Appium+Robotframework实现Android应用的自动化测试-3:一个必不可少的工具介绍
- Linux中文件的分类
- matlab2014演示在哪,matlab2014安装时crack文件在哪里,从哪个文件下面
- Eclipse PHPEclipse 配置
- java 缓存文件_java实现酷狗音乐临时缓存文件转换为MP3文件的方法
- 硬件电路设计基础知识
- R750 H750 H755 阵列卡磁盘次序
- 24个希腊字母(符号) 附字母表
- 【经典算法题】用两个鸡蛋和100层的楼来测鸡蛋硬度
- JaCoCo Report结果转换成excel
热门文章
- Ubuntu下运行Open WebOS
- Notepad++美化SQL插件:poor man‘s T-SQL Formatter
- 编译tolua——3、以pbc为例子,添加第三方库
- ILOVEYOU代码
- 安卓通话记录转移到iphone_安卓手机上的信息和通话记录怎么备份到苹果手机上?...
- layui 的checkbox事件
- 第11周—— 存储班长信息的学生类
- python 识别图片中的中文_Python中利用Tesseract软件来识别图片中的英文与中文
- 计算机网络末端的RTT,RTT(渲染到纹理)_百度百科
- 如何安装和使用Ubuntu的新Web应用功能