python sklearn是什么_Sklearn到底是什么?
更多详细代码关注sklearn中文官方文档:
1.概念
Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。
2.方法
2.1有监督学习的分类任务(Classification)
分类算法:
from sklearn import SomeClassifier
from sklearn.linear_model import SomeClassifier
from sklearn.ensemble import SomeClassifier
2.2有监督学习的回归任务(Regression)
回归算法:
from sklearn import SomeRegressor
from sklearn.linear_model import SomeRegressor
from sklearn.ensemble import SomeRegressor
2.3无监督学习聚类任务(Clustering)
聚类算法:
from sklearn.cluster import SomeModel
2.4无监督学习的降维任务(Dimensionality Reduction)
from sklearn.decomposition import SomeModel
2.5模型选择任务(Model Selection)
from sklearn.model_selection import SomeModel
2.6数据的预处理任务(Preprocessing)
from sklearn.preprocessing import SomeModel
2.7引入某个数据集
from sklearn.datasets import SomeData
3.部分代码详细分析
3.1自带的数据集
例如导入乳腺癌数据集:
#导入乳腺癌数据集
from sklearn.datasets import load_breast_cancer
数据是以「字典」格式存储的,详细查看一下里面的键:
breast = load_breast_cancer()
print(breast.keys())
结果:
键的名词解释:
data:特征值 (数组)
target:标签值 (数组)
target_names:标签 (列表)
DESCR:数据集描述
feature_names:特征 (列表)
filename:iris.csv 文件路径
详细查看一下数据集:
#定义两个分别为数据集的样例个数、特征个数
n_samples,n_features = breast.data.shape
#输出数据集的样例个数和特征个数,类似数据集的规模
print(n_samples,n_features)
#输出数据集的特征名称
print(breast.feature_names)
#输出数据集的前5个特征示例
print(breast.data[0:5])
可以看到输出分别为——样例个数以及特征个数:
数据集中30个特征的名称为:
前五个示例为(每一个示例中都有30个数据,分别对应30个特征):
输出数据集的标签大小:
#输出数据集的标签数量(也就是最后的那个是乳腺癌良性还是恶性):
print(breast.target.shape)
输出数据集标签名称看看:
#输出数据集标签名称:
print(breast.target_names)
输出全部标签示例:
即数据集中有569个标签,2个类别(malignant恶性、benign良性),分别用0和1来表示。
使用pandas下的工具DataFrame来把数据集创建成表格来读取数据集中的详细数据
Seaborn 的 pairplot (看每个特征之间的关系)来用图来展示一下数据集的内容。
import seaborn as sns
from matplotlib import pyplot as plt
sns.pairplot(breast_data,hue='species',palette='husl');
plt.show()
python sklearn是什么_Sklearn到底是什么?相关推荐
- python sklearn svm 权重_sklearn svm基本使用
SVM基本使用 SVM在解决分类问题具有良好的效果,出名的软件包有libsvm(支持多种核函数),liblinear.此外python机器学习库scikit-learn也有svm相关算法,sklear ...
- Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理 数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...
- Python+sklearn随机森林算法使用入门
随机森林是一种集成学习方法,基本思想是把几棵不同参数的决策树(参考:Python+sklearn决策树算法使用入门)打包到一起,每棵决策树单独进行预测,然后计算所有决策树预测结果的平均值(适用于回归分 ...
- Python+sklearn使用朴素贝叶斯算法识别中文垃圾邮件
总体思路与步骤: 1.从电子邮箱中收集垃圾和非垃圾邮件训练集. 2.读取全部训练集,删除其中的干扰字符,例如[]*..,等等,然后分词,删除长度为1的单个字. 3.统计全部训练集中词语的出现次数,截取 ...
- Python+sklearn使用支持向量机算法实现数字图片分类
关于支持向量机的理论知识,大家可以查阅机器学习之类的书籍或网上资源,本文主要介绍如何使用Python扩展库sklearn中的支持向量机实现数字图片分类. 1.首先编写代码生成一定数量的含有数字的图片 ...
- KNN分类算法原理与Python+sklearn实现根据身高和体重对体型分类
KNN算法是k-Nearest Neighbor Classification的简称,也就是k近邻分类算法.基本思路是在特征空间中查找k个最相似或者距离最近的样本,然后根据k个最相似的样本对未知样本进 ...
- Python+sklearn使用线性回归算法预测儿童身高
问题描述:一个人的身高除了随年龄变大而增长之外,在一定程度上还受到遗传和饮食以及其他因素的影响,本文代码中假定受年龄.性别.父母身高.祖父母身高和外祖父母身高共同影响,并假定大致符合线性关系. imp ...
- python入门先学什么-所以学完 Python 入门课的孩子到底能干啥?
原标题:所以学完 Python 入门课的孩子到底能干啥? 画个四色螺旋线 ▼ 绘制一个五彩橡皮筋球 ▼ 弄一朵同心花瓣 ▼ 螺旋花瓣 ▼ 随机万花筒 ▼ 还可以搞些表情包 ▼ 以上是学完Python ...
- [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...
最新文章
- MSTP技术支撑大客户专线——Vecloud
- Java如何让小球随机运动_用java模拟两球的随机运动及碰撞
- pom文件报错_maven-resources-plugin修改了我的文件
- Microsoft Access、MySQL 以及 SQL Server 所使用的数据类型和范围。
- Interactive Python:Mini-project # 1 - Guess the number game
- linux下mysql日志管理及mysql备份还原
- 代码评审系统 ReviewBoard 和 Gerrit
- PCI Express转并口卡不能是被HJtag识别的解决办法
- Confluence(wiki)配置数据库及修改数据库地址
- 厘米换算英寸英尺(PTA题解)
- 什么是单子?Java开发人员的基本理论
- iOS-AFNetworking源码解析(五)
- 求解线性方程组的方法Matlab程序
- Easycwmp_源码分析
- 用js,css做一个音乐播放器
- supervisor查询状态报错
- 2021互联网大厂职级对应薪资一览表
- excel matlab日期,Excel日期格式在matlab中的转换
- 一种简单的图形旋转算法
- 抖音小店VS淘宝店铺,哪个更有优势?
热门文章
- 医疗大数据应用面临哪些挑战
- 不花一分钱,利用免费电脑软件将视频MV变成歌曲音频MP3
- TI-RTOS Kernel(SYS/BIOS)---内存模块
- C++ 单冒号: 和双冒号:: 的作用
- 25、基于51单片机声控光控灯红外人体感应控制声光控开关亮灭设计
- linux mv 非空文件夹,linux mv 移动文件夹的指令?
- 到底是不是隔壁老王?责任链模式帮小头爸爸洗绿
- 妻子抑郁,多次自杀!美国41岁男子爱上AI女友竟挽救了婚姻
- [OC学习笔记]系统框架
- 李成山与吴乾云、吴家胜借款合同纠纷案