作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

仅供自己学习使用！！！

这篇博客先对数据集做一些介绍

参考链接：http://docode.techyoung.cn/breast_cancer_wisconsin.html

乳腺癌的早期诊断意义重大！

数据集：威斯康辛大学关于乳腺癌诊断数据集

链接：https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

数据集共有30个特征，前10个特征是样本图像中细胞核特征值的平均值：

第11到第20个特征为样本图像中细胞核特征值的标准差，反映的是在一个样本图像中不同细胞核在各个特征数值上的波动情况：

第21到30个特征为样本图像中细胞核特征值的最大值，这个最大值并非是整个样本最大值，而是特征值前三名的平均值，这样可以减弱计算和测算过程中误差所带来的影响：

为数据集作一个整体总结：

均值可以看出样本中细胞核总体形态特征；标准差反映各个细胞核中的差异程度，是一个良好的分类特征；恶性与良性有些细胞核面积差异较大，用最大值能够较好反映特征。

特征讲解

半径

纹理

周长和面积

平滑度

凹点

凹度

对称性

分形维数

前十个均值特征之间的关系

小结

代码

1.数据加载

原数据集中有30个特征，样本数量为569

import numpy as np
import pandas as pd
dataset = pd.read_csv(r'D:\Documents\myProject\dadaists\wdbc.csv', header=0,usecols = range(0,32,1))
dataset
print(dataset)

上面尝试失败，下面用导包的方式：

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data = load_breast_cancer()#导入数据集，探索数据
data.data.shape
print(data.data.shape)#输出乳腺癌数据集中的数据情况，从输出结果可以看出乳腺癌数据集有569条数据，30个特征

正式开始：

1.若使用sklearn库，则代码实现如下：

从sklearn库中导入该乳腺癌数据集，主体代码中，首先load，第三行中的cv=5是指实现五折交叉验证

2.不使用sklearn库，而是自己定义：

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类相关推荐

威斯康辛大学《机器学习导论》2020秋季课程完结，课件、视频资源已开放（附下载）...
来源:机器之心本文约2000字,建议阅读8分钟对于机器学习领域的初学者来说,这会是很好的入门课程.目前,课程的笔记.PPT 和视频正在陆续发布中. 2020 年就这么悄无声息地走完了,想必大多数人 ...
威斯康辛大学《机器学习导论》2020秋季课程完结，课件、视频资源已开放
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货转载自:机器之心对于机器学习领域的初学者来说,这会是很好的入门课程.目前,课程的笔记.PPT ...
基于随机森林的乳腺癌分类判别
基于随机森林的乳腺癌分类判别摘要关键词一.随机森林原理二.随机森林算法在乳腺癌中的判别应用 (一).数据预处理 (二)特征向量的提取和分析 1.样本特征对标签影响 2.相关性判断三.模型建立 ...
CART分类树算法与随机森林
说明:本博客是学习<python机器学习算法>赵志勇著的学习笔记,其图片截取也来源本书. CART分类树算法与随机森林对于一个复杂的分类问题,训练一个复杂的分类模型通常比较耗时,同时为了 ...
决策树算法模型的归类与整理（ID３＆C４.５＆CART＆线性二分类＆非线性二分类）
决策树算法模型的归类与整理(ID3&C4.5&CART&线性二分类&非线性二分类) 一. 总结摘要决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归. ...
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖掘潜在贷款客户...
原文链接:http://tecdat.cn/?p=23518 项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人).银行拥有不断增长的客户(点击文末" ...
基于随机森林算法的人脸数据集分类
目录 1. 作者介绍 2. 关于理论方面的知识介绍随机森林 3. 实验过程 3.1 数据集介绍 3.2 实验代码 3.3 运行结果 3.3 实验总结参考 1. 作者介绍李佳敏,女,西安工程大学电 ...
威斯康星大学麦迪逊分校计算机专业排名,威斯康星大学麦迪逊分校的计算机专业如何？...
威斯康辛大学麦迪逊分校(University of Wisconsin, Madison,有时缩写为UWM)是一所大型公立综合性全国大学,成立于1848年,位于美国威斯康辛州首府麦迪逊市,是威斯康辛大 ...
威斯康星大学计算机专业找工作,威斯康星麦迪逊大学计算机申请条件有哪些？...
申请威斯康星大学麦迪逊分校计算机专业需要以下条件:语言成绩(托福92分;雅思7.0分);需要提交GRE成绩,建议申请学生GPA一定要在3.0以上,文书材料则包括PS.CVEssay.推荐信.资产证明. ...

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类相关推荐

最新文章

热门文章

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据， 采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据， 采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类相关推荐

最新文章

热门文章

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类相关推荐