使用K-means聚类算法筛实现鸢尾花聚类

  • 鸢尾花数据集描述
  • 导入相关包
  • 直接从sklearn.datasets中加载数据集
  • 绘制二维数据分布图
  • 实例化K-means类&定义训练函数
  • 训练
  • 可视化展示

对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大

鸢尾花数据集描述

  1. 包含3种类型数据集,共150条数据
  2. 包含4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度

导入相关包


import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn import datasets

直接从sklearn.datasets中加载数据集

# 直接从sklearn中获取数据集
iris = datasets.load_iris()
X = iris.data[:, :4]    # 表示我们取特征空间中的4个维度
print(X.shape)

绘制二维数据分布图

每个样本使用两个特征,绘制其二维数据分布图

# 取前两个维度(萼片长度、萼片宽度),绘制数据分布图
plt.scatter(X[:, 0], X[:, 1], c="red", marker='o', label='see')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc=2)
plt.show()

实例化K-means类&定义训练函数

def Model(n_clusters):estimator = KMeans(n_clusters=n_clusters)# 构造聚类器return estimatordef train(estimator):estimator.fit(X)  # 聚类

训练

# 初始化实例,并开启训练拟合
estimator=Model(3)
train(estimator)

可视化展示

label_pred = estimator.labels_  # 获取聚类标签
# 绘制k-means结果
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label2')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc=2)
plt.show()

# 法一:直接手写实现
# 欧氏距离计算
def distEclud(x,y):return np.sqrt(np.sum((x-y)**2))  # 计算欧氏距离# 为给定数据集构建一个包含K个随机质心centroids的集合
def randCent(dataSet,k):m,n = dataSet.shape #m=150,n=4centroids = np.zeros((k,n)) #4*4for i in range(k): # 执行四次index = int(np.random.uniform(0,m)) # 产生0到150的随机数(在数据集中随机挑一个向量做为质心的初值)centroids[i,:] = dataSet[index,:] #把对应行的四个维度传给质心的集合return centroids# k均值聚类算法
def KMeans(dataSet,k):m = np.shape(dataSet)[0]  #行数150# 第一列存每个样本属于哪一簇(四个簇)# 第二列存每个样本的到簇的中心点的误差clusterAssment = np.mat(np.zeros((m,2)))# .mat()创建150*2的矩阵clusterChange = True# 1.初始化质心centroidscentroids = randCent(dataSet,k)#4*4while clusterChange:# 样本所属簇不再更新时停止迭代clusterChange = False# 遍历所有的样本(行数150)for i in range(m):minDist = 100000.0minIndex = -1# 遍历所有的质心#2.找出最近的质心for j in range(k):# 计算该样本到4个质心的欧式距离,找到距离最近的那个质心minIndexdistance = distEclud(centroids[j,:],dataSet[i,:])if distance < minDist:minDist = distanceminIndex = j# 3.更新该行样本所属的簇if clusterAssment[i,0] != minIndex:clusterChange = TrueclusterAssment[i,:] = minIndex,minDist**2#4.更新质心for j in range(k):# np.nonzero(x)返回值不为零的元素的下标,它的返回值是一个长度为x.ndim(x的轴数)的元组# 元组的每个元素都是一个整数数组,其值为非零元素的下标在对应轴上的值。# 矩阵名.A 代表将 矩阵转化为array数组类型# 这里取矩阵clusterAssment所有行的第一列,转为一个array数组,与j(簇类标签值)比较,返回true or false# 通过np.nonzero产生一个array,其中是对应簇类所有的点的下标值(x个)# 再用这些下标值求出dataSet数据集中的对应行,保存为pointsInCluster(x*4)pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]]  # 获取对应簇类所有的点(x*4)centroids[j,:] = np.mean(pointsInCluster,axis=0)   # 求均值,产生新的质心# axis=0,那么输出是1行4列,求的是pointsInCluster每一列的平均值,即axis是几,那就表明哪一维度被压缩成1print("cluster complete")return centroids,clusterAssmentdef draw(data,center,assment):length=len(center)fig=plt.figuredata1=data[np.nonzero(assment[:,0].A == 0)[0]]data2=data[np.nonzero(assment[:,0].A == 1)[0]]data3=data[np.nonzero(assment[:,0].A == 2)[0]]# 选取前两个维度绘制原始数据的散点图plt.scatter(data1[:,0],data1[:,1],c="red",marker='o',label='label0')plt.scatter(data2[:,0],data2[:,1],c="green", marker='*', label='label1')plt.scatter(data3[:,0],data3[:,1],c="blue", marker='+', label='label2')# 绘制簇的质心点for i in range(length):plt.annotate('center',xy=(center[i,0],center[i,1]),xytext=\(center[i,0]+1,center[i,1]+1),arrowprops=dict(facecolor='yellow'))#  plt.annotate('center',xy=(center[i,0],center[i,1]),xytext=\# (center[i,0]+1,center[i,1]+1),arrowprops=dict(facecolor='red'))plt.show()# 选取后两个维度绘制原始数据的散点图plt.scatter(data1[:,2],data1[:,3],c="red",marker='o',label='label0')plt.scatter(data2[:,2],data2[:,3],c="green", marker='*', label='label1')plt.scatter(data3[:,2],data3[:,3],c="blue", marker='+', label='label2')# 绘制簇的质心点for i in range(length):plt.annotate('center',xy=(center[i,2],center[i,3]),xytext=\(center[i,2]+1,center[i,3]+1),arrowprops=dict(facecolor='yellow'))plt.show()dataSet = X
k = 3
centroids,clusterAssment = KMeans(dataSet,k)
draw(dataSet,centroids,clusterAssment)


实践 | k-means聚类(使用鸢尾花数据集)相关推荐

  1. 机器学习 K均值聚类(K-means) 鸢尾花数据集

    聚类的目标是使聚类后的各个簇,具有簇内聚合,簇间分离的特点. 如何度量簇之间,簇内样本之间的差异度?常用距离计算,最常用的是"闵可夫斯基距离"(Minkowski distance ...

  2. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  3. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  4. k means聚类算法_K-Means 聚类算法 20210108

    说到聚类,应先理解聚类和分类的区别 聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来. K-Means 聚类算法有很多种 ...

  5. k means聚类算法_一文读懂K-means聚类算法

    1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...

  6. 基于K均值聚类的葡萄酒品种判别

    特别注意:主要思路.程序和分析过程来源于:https://www.kaggle.com/xvivancos/tutorial-clustering-wines-with-k-means.本文在此基础上 ...

  7. 机器学习(十四):K均值聚类(kmeans)

    k均值聚类方法是一种无监督机器学习技术,用于识别数据集中的数据对象集群.有许多不同类型的聚类方法,但k -means是最古老和最平易近人的方法之一.这些特性使得在 Python 中实现k -means ...

  8. 基于K均值算法的鸢尾花聚类实验(Sklearn实现)

    实验代码 ##### 相关库导入部分 ##### from sklearn.datasets import load_iris import pandas as pd from sklearn.pre ...

  9. python鸢尾花数据集聚类_R语言鸢尾花iris数据集的层次聚类分析

    介绍 本文在数据集上展示了如何使用dendextend R软件包来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析). 背景 鸢尾花数据集 我们可以看到,Set ...

最新文章

  1. jQuery.append()、jQuery.html()存在的XSS漏洞
  2. HTML语义化的理解
  3. C++笔记-shared_ptr与weak_ptr需要注意的地方
  4. 响应式精美列商城发卡源码
  5. 牛顿法与拟牛顿法学习笔记
  6. Pika在360的应用与实践
  7. 2021-03-14-爬香山
  8. Fully Convolutional Networks for Semantic Segmentation 个人总结
  9. L2-1 特立独行的幸福 (25分)
  10. 最新县及县以上行政区划代码(截止2014年10月31日)
  11. PC端页面如何调用QQ进行在线聊天?
  12. excel公式编辑器_让同事看傻,用Excel制作 “抽奖”小软件
  13. jquery学习总结
  14. git操作与vscode,码市的结合
  15. Android从一个应用程序启动第三方应用app
  16. tornado 自定义WEB框架 、与Tyrion组件做表单验证
  17. Python实现BOA蝴蝶优化算法优化支持向量机回归模型(SVR算法)项目实战
  18. 淘晶驰串口屏_提示p0.pic 初始值无效:图片ID无效
  19. python 背景音乐程序代码_python中加背景音乐如何操作
  20. 墨迹天气总显示内部服务器更新,为什么墨迹天气无法更新_墨迹天气无法更新解决办法 - 驱动管家...

热门文章

  1. VBA学习——对“快速将多个excel表合并成一个excel表”进行说明及优化
  2. MOS管被静电击穿的原因和防护措施解决方案
  3. 【转】完全用Linux工作-王垠
  4. python3 zipfile_python3-zipfile模块打包
  5. HTML复选框,默认打勾
  6. Qt Quick 开发案例:触摸版游戏开发
  7. 【Adobe Premiere】将视频的每一帧导出
  8. “知感冒防流感”全民科普公益行9月10日走进中山
  9. imagemagick php windows,php ImageMagick windows下安装教程
  10. 怎么去除mp4视频的水印?教你去视频水印的方法