python sklearn是什么_Sklearn到底是什么？

更多详细代码关注sklearn中文官方文档：

1.概念

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上，里面的 API 的设计非常好，所有对象的接口简单，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

2.方法

2.1有监督学习的分类任务(Classification)

分类算法：

from sklearn import SomeClassifier

from sklearn.linear_model import SomeClassifier

from sklearn.ensemble import SomeClassifier

2.2有监督学习的回归任务(Regression)

回归算法：

from sklearn import SomeRegressor

from sklearn.linear_model import SomeRegressor

from sklearn.ensemble import SomeRegressor

2.3无监督学习聚类任务(Clustering)

聚类算法：

from sklearn.cluster import SomeModel

2.4无监督学习的降维任务(Dimensionality Reduction)

from sklearn.decomposition import SomeModel

2.5模型选择任务(Model Selection)

from sklearn.model_selection import SomeModel

2.6数据的预处理任务(Preprocessing)

from sklearn.preprocessing import SomeModel

2.7引入某个数据集

from sklearn.datasets import SomeData

3.部分代码详细分析

3.1自带的数据集

例如导入乳腺癌数据集：

#导入乳腺癌数据集

from sklearn.datasets import load_breast_cancer

数据是以「字典」格式存储的，详细查看一下里面的键：

breast = load_breast_cancer()

print(breast.keys())

结果：

键的名词解释：

data：特征值 (数组)

target：标签值 (数组)

target_names：标签 (列表)

DESCR：数据集描述

feature_names：特征 (列表)

filename：iris.csv 文件路径

详细查看一下数据集：

#定义两个分别为数据集的样例个数、特征个数

n_samples,n_features = breast.data.shape

#输出数据集的样例个数和特征个数，类似数据集的规模

print(n_samples,n_features)

#输出数据集的特征名称

print(breast.feature_names)

#输出数据集的前5个特征示例

print(breast.data[0:5])

可以看到输出分别为——样例个数以及特征个数：

数据集中30个特征的名称为：

前五个示例为(每一个示例中都有30个数据，分别对应30个特征)：

输出数据集的标签大小：

#输出数据集的标签数量(也就是最后的那个是乳腺癌良性还是恶性)：

print(breast.target.shape)

输出数据集标签名称看看：

#输出数据集标签名称：

print(breast.target_names)

输出全部标签示例：

即数据集中有569个标签，2个类别(malignant恶性、benign良性)，分别用0和1来表示。

使用pandas下的工具DataFrame来把数据集创建成表格来读取数据集中的详细数据

Seaborn 的 pairplot (看每个特征之间的关系)来用图来展示一下数据集的内容。

import seaborn as sns

from matplotlib import pyplot as plt

sns.pairplot(breast_data,hue='species',palette='husl');

plt.show()

python sklearn是什么_Sklearn到底是什么？相关推荐

python sklearn svm 权重_sklearn svm基本使用
SVM基本使用 SVM在解决分类问题具有良好的效果,出名的软件包有libsvm(支持多种核函数),liblinear.此外python机器学习库scikit-learn也有svm相关算法,sklear ...
Python: sklearn库——数据预处理
Python: sklearn库 -- 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均 ...
Python+sklearn随机森林算法使用入门
随机森林是一种集成学习方法,基本思想是把几棵不同参数的决策树(参考:Python+sklearn决策树算法使用入门)打包到一起,每棵决策树单独进行预测,然后计算所有决策树预测结果的平均值(适用于回归分 ...
Python+sklearn使用朴素贝叶斯算法识别中文垃圾邮件
总体思路与步骤: 1.从电子邮箱中收集垃圾和非垃圾邮件训练集. 2.读取全部训练集,删除其中的干扰字符,例如[]*..,等等,然后分词,删除长度为1的单个字. 3.统计全部训练集中词语的出现次数,截取 ...
Python+sklearn使用支持向量机算法实现数字图片分类
关于支持向量机的理论知识,大家可以查阅机器学习之类的书籍或网上资源,本文主要介绍如何使用Python扩展库sklearn中的支持向量机实现数字图片分类. 1.首先编写代码生成一定数量的含有数字的图片 ...
KNN分类算法原理与Python+sklearn实现根据身高和体重对体型分类
KNN算法是k-Nearest Neighbor Classification的简称,也就是k近邻分类算法.基本思路是在特征空间中查找k个最相似或者距离最近的样本,然后根据k个最相似的样本对未知样本进 ...
Python+sklearn使用线性回归算法预测儿童身高
问题描述:一个人的身高除了随年龄变大而增长之外,在一定程度上还受到遗传和饮食以及其他因素的影响,本文代码中假定受年龄.性别.父母身高.祖父母身高和外祖父母身高共同影响,并假定大致符合线性关系. imp ...
python入门先学什么-所以学完 Python 入门课的孩子到底能干啥？
原标题:所以学完 Python 入门课的孩子到底能干啥? 画个四色螺旋线 ▼ 绘制一个五彩橡皮筋球 ▼ 弄一朵同心花瓣 ▼ 螺旋花瓣 ▼ 随机万花筒 ▼ 还可以搞些表情包 ▼ 以上是学完Python ...
[Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...

python sklearn是什么_Sklearn到底是什么？

python sklearn是什么_Sklearn到底是什么？相关推荐

最新文章

热门文章