聚类算法




K-MEANS







python实现K-MEANS
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")plt.scatter(data[:,0],data[:,1])
plt.show()



训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist:  minDist  = distance # 更新最小距离clusterData[i, 1] = minDist# 更新样本所属的簇minIndex = j  # 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()
# 设置k值
k = 4
# centroids 簇的中心点
# cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差
centroids, clusterData = kmeans(data, k)
if np.isnan(centroids).any():print('Error')
else:print('cluster complete!')   # 显示结果
showCluster(data, k, centroids, clusterData)



做预测

def predict(datas):return np.array([np.argmin(((np.tile(data,(k,1))-centroids)**2).sum(axis=1)) for data in datas])

画出簇的作用区域

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)

sklearn-K-MEANS
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4
# 训练模型
model = KMeans(n_clusters=k)
model.fit(data)

# 分类中心点坐标
centers = model.cluster_centers_
print(centers)

# 预测结果
result = model.predict(data)
print(result)

model.labels_

# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

Mini Batch K-Means



sklearn-Mini-Batch-K-MEANS

from sklearn.cluster import MiniBatchKMeans
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4
# 训练模型
model = MiniBatchKMeans(n_clusters=k)
model.fit(data)

# 分类中心点坐标
centers = model.cluster_centers_
print(centers)

# 预测结果
result = model.predict(data)
print(result)

# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()






python实现K-MEANS优化1
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")

训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist:  minDist  = distance  # 更新样本所属的簇minIndex = j  # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()
list_lost = []
for k in range(2,10):min_loss = 10000min_loss_centroids = np.array([])min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k)  loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterDatalist_lost.append(min_loss)#     print('loss',min_loss)
# print('cluster complete!')
# centroids = min_loss_centroids
# clusterData = min_loss_clusterData# 显示结果
# showCluster(data, k, centroids, clusterData)

plt.plot(range(2,10),list_lost)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()


做预测

画出簇的作用区域

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)

K-MEANS代价函数应用
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")

训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist:  minDist  = distance  # 更新样本所属的簇minIndex = j  # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()
# 设置k值
k = 4  min_loss = 10000
min_loss_centroids = np.array([])
min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k)  loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterData#     print('loss',min_loss)
print('cluster complete!')
centroids = min_loss_centroids
clusterData = min_loss_clusterData# 显示结果
showCluster(data, k, centroids, clusterData)




DBSCAN







sklearn-DBSCAN1

from sklearn.cluster import DBSCAN
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 训练模型
# eps距离阈值,min_samples核心对象在eps领域的样本数阈值
model = DBSCAN(eps=1.5, min_samples=4)
model.fit(data)

result = model.fit_predict(data)
result

# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy', 'ok', 'om']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])plt.show()


sklearn-DBSCAN2

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x1, y1 = datasets.make_circles(n_samples=2000, factor=0.5, noise=0.05)
x2, y2 = datasets.make_blobs(n_samples=1000, centers=[[1.2,1.2]], cluster_std=[[.1]])x = np.concatenate((x1, x2))
plt.scatter(x[:, 0], x[:, 1], marker='o')
plt.show()

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

from sklearn.cluster import DBSCAN
y_pred = DBSCAN().fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

y_pred = DBSCAN(eps = 0.2).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

y_pred = DBSCAN(eps = 0.2, min_samples=50).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

机器学习基础-聚类算法-15相关推荐

  1. [Python] [机器学习] 基础聚类算法(K-means、AHC、DBSCAN)简介及可视化代码

    之前写的入门级介绍,有点久远有些ref找不着了 文章目录 简介 目标 作用 类型 聚类vs分类 K-means [K-means] 伪代码 [K-means] 过程详解 [K-means] 初始点的选 ...

  2. 机器学习基础-经典算法总结

    机器学习基础-经典算法 逻辑回归 逻辑回归的原理,问题的假设 为什么逻辑回归也可称为对数几率回归 推导逻辑回归损失函数 逻辑回归损失函数求导 逻辑回归为什么使用交叉熵作为损失函数 LR是不是凸优化问题 ...

  3. 机器学习之聚类算法——聚类效果评估可视化

    我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...

  4. 【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现

    [机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现 一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理 基于数据分布密度不同对数据进行聚类,把 ...

  5. [Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  6. Python机器学习---2.聚类算法理论部分

    文章目录 1.聚类分析 1.1 无监督学习与聚类算法 1.1.1.旨在理解数据自然结构的聚类 1.1.2 用于数据处理的聚类 1.2 核心概念 1.2.1 聚类分析 1.2.2 簇 1.3 基于原型的 ...

  7. em算法怎么对应原有分类_机器学习基础-EM算法

    EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等.本文就对 ...

  8. 【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.聚类任务 设样本集S={x_1,x_2,-,x_m}包含m个未标记样本,样本x_i=(x_i^(1),x_i^(2),-,x_i^(n))是一 ...

  9. C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码

    摘要:本文简述了人工智能的重要分支--机器学习的核心算法之一--聚类算法,并用C#实现了一套完全交互式的.可由用户自由发挥的,适用于聚类算法的训练数据集生成软件--Clustering.用户使用鼠标左 ...

最新文章

  1. linux python fcntl模块 程序加锁 简介
  2. (五)Redis在项目中应用
  3. java文件上传maven_ssm+maven框架搭建实现ajax多文件上传功能
  4. ThinkPHP V5.0 正式版发布
  5. 特殊人物请遵循公司工作的基本准则
  6. OpenCV-膨胀cv::dilate
  7. 北大先修课 计算机,解读:北大清华大学先修课的那些事
  8. Visual Studio自定义调试窗体两个小技巧
  9. shell脚本中一些日期的定义
  10. 国外图片分享网站有哪些?20个国外免费、高清图片素材网站、图库全合集
  11. Dialogue System for Unity文档中英对照版(简雨原创翻译)第六篇(音序器相关,语音同步)
  12. 完美转换: Word表格转HTML
  13. 大作家超级写作软件_3种对作家有用的Atom文本编辑器软件包
  14. 计算机usb接口管理软件,大势至电脑USB端口管理软件
  15. sklearn机器学习:随机森林学习与调参
  16. 阿里“小前台、大中台”的解读
  17. 无线局域网设备安装与调试
  18. Problem solved list
  19. PS如何批量处理图片尺寸大小?免费哟
  20. PPT实用功能——布尔运算

热门文章

  1. 用友老是显示服务器错误,客户端连服务器出现这样的错误框
  2. c语言 库 键盘,python 函数 map 、lambda
  3. 接口使用jwt返回token_JWT实现token验证
  4. 计算机组成原理_在线作业_2,计算机组成原理_在线作业_2讲述.docx
  5. 在c语言中什么意思,\c在C语言中是什么意思?
  6. linux ls使用方法,Linux/Ubuntu ls命令详解使用格式和方法
  7. linux alsa 录音程序,Linux下alsa直接录音代码
  8. Access to script at ‘xxx‘ from origin ‘null‘ has been blocked by CORS policy: Cross origin requests
  9. while用法_语法||由一句译文聊聊while的用法
  10. linux终端使用python3,3 个 Python 命令行工具 | Linux 中国