更多详细代码关注sklearn中文官方文档:

1.概念

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

2.方法

2.1有监督学习的分类任务(Classification)

分类算法:

from sklearn import SomeClassifier

from sklearn.linear_model import SomeClassifier

from sklearn.ensemble import SomeClassifier

2.2有监督学习的回归任务(Regression)

回归算法:

from sklearn import SomeRegressor

from sklearn.linear_model import SomeRegressor

from sklearn.ensemble import SomeRegressor

2.3无监督学习聚类任务(Clustering)

聚类算法:

from sklearn.cluster import SomeModel

2.4无监督学习的降维任务(Dimensionality Reduction)

from sklearn.decomposition import SomeModel

2.5模型选择任务(Model Selection)

from sklearn.model_selection import SomeModel

2.6数据的预处理任务(Preprocessing)

from sklearn.preprocessing import SomeModel

2.7引入某个数据集

from sklearn.datasets import SomeData

3.部分代码详细分析

3.1自带的数据集

例如导入乳腺癌数据集:

#导入乳腺癌数据集

from sklearn.datasets import load_breast_cancer

数据是以「字典」格式存储的,详细查看一下里面的键:

breast = load_breast_cancer()

print(breast.keys())

结果:

键的名词解释:

data:特征值 (数组)

target:标签值 (数组)

target_names:标签 (列表)

DESCR:数据集描述

feature_names:特征 (列表)

filename:iris.csv 文件路径

详细查看一下数据集:

#定义两个分别为数据集的样例个数、特征个数

n_samples,n_features = breast.data.shape

#输出数据集的样例个数和特征个数,类似数据集的规模

print(n_samples,n_features)

#输出数据集的特征名称

print(breast.feature_names)

#输出数据集的前5个特征示例

print(breast.data[0:5])

可以看到输出分别为——样例个数以及特征个数:

数据集中30个特征的名称为:

前五个示例为(每一个示例中都有30个数据,分别对应30个特征):

输出数据集的标签大小:

#输出数据集的标签数量(也就是最后的那个是乳腺癌良性还是恶性):

print(breast.target.shape)

输出数据集标签名称看看:

#输出数据集标签名称:

print(breast.target_names)

输出全部标签示例:

即数据集中有569个标签,2个类别(malignant恶性、benign良性),分别用0和1来表示。

使用pandas下的工具DataFrame来把数据集创建成表格来读取数据集中的详细数据

Seaborn 的 pairplot (看每个特征之间的关系)来用图来展示一下数据集的内容。

import seaborn as sns

from matplotlib import pyplot as plt

sns.pairplot(breast_data,hue='species',palette='husl');

plt.show()

python sklearn是什么_Sklearn到底是什么?相关推荐

  1. python sklearn svm 权重_sklearn svm基本使用

    SVM基本使用 SVM在解决分类问题具有良好的效果,出名的软件包有libsvm(支持多种核函数),liblinear.此外python机器学习库scikit-learn也有svm相关算法,sklear ...

  2. Python: sklearn库——数据预处理

    Python: sklearn库 -- 数据预处理 数据集转换之预处理数据:       将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化.       原因:数据集的标准化(服从均 ...

  3. Python+sklearn随机森林算法使用入门

    随机森林是一种集成学习方法,基本思想是把几棵不同参数的决策树(参考:Python+sklearn决策树算法使用入门)打包到一起,每棵决策树单独进行预测,然后计算所有决策树预测结果的平均值(适用于回归分 ...

  4. Python+sklearn使用朴素贝叶斯算法识别中文垃圾邮件

    总体思路与步骤: 1.从电子邮箱中收集垃圾和非垃圾邮件训练集. 2.读取全部训练集,删除其中的干扰字符,例如[]*..,等等,然后分词,删除长度为1的单个字. 3.统计全部训练集中词语的出现次数,截取 ...

  5. Python+sklearn使用支持向量机算法实现数字图片分类

    关于支持向量机的理论知识,大家可以查阅机器学习之类的书籍或网上资源,本文主要介绍如何使用Python扩展库sklearn中的支持向量机实现数字图片分类. 1.首先编写代码生成一定数量的含有数字的图片 ...

  6. KNN分类算法原理与Python+sklearn实现根据身高和体重对体型分类

    KNN算法是k-Nearest Neighbor Classification的简称,也就是k近邻分类算法.基本思路是在特征空间中查找k个最相似或者距离最近的样本,然后根据k个最相似的样本对未知样本进 ...

  7. Python+sklearn使用线性回归算法预测儿童身高

    问题描述:一个人的身高除了随年龄变大而增长之外,在一定程度上还受到遗传和饮食以及其他因素的影响,本文代码中假定受年龄.性别.父母身高.祖父母身高和外祖父母身高共同影响,并假定大致符合线性关系. imp ...

  8. python入门先学什么-所以学完 Python 入门课的孩子到底能干啥?

    原标题:所以学完 Python 入门课的孩子到底能干啥? 画个四色螺旋线 ▼ 绘制一个五彩橡皮筋球 ▼ 弄一朵同心花瓣 ▼ 螺旋花瓣 ▼ 随机万花筒 ▼ 还可以搞些表情包 ▼ 以上是学完Python ...

  9. [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()

    Python - sklearn 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split() 功能: 将数组或矩阵拆分为随机的训练子集和测试子集 ...

最新文章

  1. MSTP技术支撑大客户专线——Vecloud
  2. Java如何让小球随机运动_用java模拟两球的随机运动及碰撞
  3. pom文件报错_maven-resources-plugin修改了我的文件
  4. Microsoft Access、MySQL 以及 SQL Server 所使用的数据类型和范围。
  5. Interactive Python:Mini-project # 1 - Guess the number game
  6. linux下mysql日志管理及mysql备份还原
  7. 代码评审系统 ReviewBoard 和 Gerrit
  8. PCI Express转并口卡不能是被HJtag识别的解决办法
  9. Confluence(wiki)配置数据库及修改数据库地址
  10. 厘米换算英寸英尺(PTA题解)
  11. 什么是单子?Java开发人员的基本理论
  12. iOS-AFNetworking源码解析(五)
  13. 求解线性方程组的方法Matlab程序
  14. Easycwmp_源码分析
  15. 用js,css做一个音乐播放器
  16. supervisor查询状态报错
  17. 2021互联网大厂职级对应薪资一览表
  18. excel matlab日期,Excel日期格式在matlab中的转换
  19. 一种简单的图形旋转算法
  20. 抖音小店VS淘宝店铺,哪个更有优势?

热门文章

  1. 医疗大数据应用面临哪些挑战
  2. 不花一分钱,利用免费电脑软件将视频MV变成歌曲音频MP3
  3. TI-RTOS Kernel(SYS/BIOS)---内存模块
  4. C++ 单冒号: 和双冒号:: 的作用
  5. 25、基于51单片机声控光控灯红外人体感应控制声光控开关亮灭设计
  6. linux mv 非空文件夹,linux mv 移动文件夹的指令?
  7. 到底是不是隔壁老王?责任链模式帮小头爸爸洗绿
  8. 妻子抑郁,多次自杀!美国41岁男子爱上AI女友竟挽救了婚姻
  9. [OC学习笔记]系统框架
  10. 李成山与吴乾云、吴家胜借款合同纠纷案