机器学习基础-聚类算法-15

聚类算法

K-MEANS

python实现K-MEANS

import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")plt.scatter(data[:,0],data[:,1])
plt.show()

训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心，列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本，计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离，则更新最小距离if distance < minDist:  minDist  = distance # 更新最小距离clusterData[i, 1] = minDist# 更新样本所属的簇minIndex = j  # 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()

# 设置k值
k = 4
# centroids 簇的中心点
# cluster Data样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差
centroids, clusterData = kmeans(data, k)
if np.isnan(centroids).any():print('Error')
else:print('cluster complete!')   # 显示结果
showCluster(data, k, centroids, clusterData)

做预测

def predict(datas):return np.array([np.argmin(((np.tile(data,(k,1))-centroids)**2).sum(axis=1)) for data in datas])

画出簇的作用区域

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似，多维数据转一维。flatten不会改变原始数据，ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)

sklearn-K-MEANS

from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4

# 训练模型
model = KMeans(n_clusters=k)
model.fit(data)

# 分类中心点坐标
centers = model.cluster_centers_
print(centers)

# 预测结果
result = model.predict(data)
print(result)

model.labels_

# 画出各个数据点，用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似，多维数据转一维。flatten不会改变原始数据，ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点，用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

Mini Batch K-Means

sklearn-Mini-Batch-K-MEANS

from sklearn.cluster import MiniBatchKMeans
import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4

# 训练模型
model = MiniBatchKMeans(n_clusters=k)
model.fit(data)

# 分类中心点坐标
centers = model.cluster_centers_
print(centers)

# 预测结果
result = model.predict(data)
print(result)

# 画出各个数据点，用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似，多维数据转一维。flatten不会改变原始数据，ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点，用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()

python实现K-MEANS优化1

import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")

训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心，列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本，计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离，则更新最小距离if distance < minDist:  minDist  = distance  # 更新样本所属的簇minIndex = j  # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()

list_lost = []
for k in range(2,10):min_loss = 10000min_loss_centroids = np.array([])min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k)  loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterDatalist_lost.append(min_loss)#     print('loss',min_loss)
# print('cluster complete!')
# centroids = min_loss_centroids
# clusterData = min_loss_clusterData# 显示结果
# showCluster(data, k, centroids, clusterData)

plt.plot(range(2,10),list_lost)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()

做预测

画出簇的作用区域

# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似，多维数据转一维。flatten不会改变原始数据，ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)

K-MEANS代价函数应用

import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")

训练模型

# 计算距离
def euclDistance(vector1, vector2):  return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k):  numSamples, dim = data.shape# k个质心，列数跟样本的列数一样centroids = np.zeros((k, dim))  # 随机选出k个质心for i in range(k):  # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples))  # 作为初始化的质心centroids[i, :] = data[index, :]  return centroids  # 传入数据集和k的值
def kmeans(data, k):  # 计算样本个数numSamples = data.shape[0]   # 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2)))  # 决定质心是否要改变的变量clusterChanged = True  # 初始化质心  centroids = initCentroids(data, k)  while clusterChanged:  clusterChanged = False  # 循环每一个样本 for i in range(numSamples):  # 最小距离minDist  = 100000.0  # 定义样本所属的簇minIndex = 0  # 循环计算每一个质心与该样本的距离for j in range(k):  # 循环每一个质心和样本，计算距离distance = euclDistance(centroids[j, :], data[i, :])  # 如果计算的距离小于最小距离，则更新最小距离if distance < minDist:  minDist  = distance  # 更新样本所属的簇minIndex = j  # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex:  # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k):  # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index]  # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
#         showCluster(data, k, centroids, clusterData)return centroids, clusterData  # 显示结果
def showCluster(data, k, centroids, clusterData):  numSamples, dim = data.shape  if dim != 2:  print("dimension of your data is not 2!")  return 1  # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']  if k > len(mark):  print("Your k is too large!")  return 1  # 画样本点  for i in range(numSamples):  markIndex = int(clusterData[i, 0])  plt.plot(data[i, 0], data[i, 1], mark[markIndex])  # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb']  # 画质心点 for i in range(k):  plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20)  plt.show()

# 设置k值
k = 4  min_loss = 10000
min_loss_centroids = np.array([])
min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k)  loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterData#     print('loss',min_loss)
print('cluster complete!')
centroids = min_loss_centroids
clusterData = min_loss_clusterData# 显示结果
showCluster(data, k, centroids, clusterData)

DBSCAN

sklearn-DBSCAN1

from sklearn.cluster import DBSCAN
import numpy as np
import matplotlib.pyplot as plt

# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")

# 训练模型
# eps距离阈值，min_samples核心对象在eps领域的样本数阈值
model = DBSCAN(eps=1.5, min_samples=4)
model.fit(data)

result = model.fit_predict(data)
result

# 画出各个数据点，用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy', 'ok', 'om']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])plt.show()

sklearn-DBSCAN2

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

x1, y1 = datasets.make_circles(n_samples=2000, factor=0.5, noise=0.05)
x2, y2 = datasets.make_blobs(n_samples=1000, centers=[[1.2,1.2]], cluster_std=[[.1]])x = np.concatenate((x1, x2))
plt.scatter(x[:, 0], x[:, 1], marker='o')
plt.show()

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

from sklearn.cluster import DBSCAN
y_pred = DBSCAN().fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

y_pred = DBSCAN(eps = 0.2).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

y_pred = DBSCAN(eps = 0.2, min_samples=50).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()

机器学习基础-聚类算法-15相关推荐

[Python] [机器学习] 基础聚类算法(K-means、AHC、DBSCAN)简介及可视化代码
之前写的入门级介绍,有点久远有些ref找不着了文章目录简介目标作用类型聚类vs分类 K-means [K-means] 伪代码 [K-means] 过程详解 [K-means] 初始点的选 ...
机器学习基础-经典算法总结
机器学习基础-经典算法逻辑回归逻辑回归的原理,问题的假设为什么逻辑回归也可称为对数几率回归推导逻辑回归损失函数逻辑回归损失函数求导逻辑回归为什么使用交叉熵作为损失函数 LR是不是凸优化问题 ...
机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...
【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现
[机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理基于数据分布密度不同对数据进行聚类,把 ...
[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发（K-Means、BIRCH、树状聚类、MeanShift）
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
Python机器学习---2.聚类算法理论部分
文章目录 1.聚类分析 1.1 无监督学习与聚类算法 1.1.1.旨在理解数据自然结构的聚类 1.1.2 用于数据处理的聚类 1.2 核心概念 1.2.1 聚类分析 1.2.2 簇 1.3 基于原型的 ...
em算法怎么对应原有分类_机器学习基础-EM算法
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等.本文就对 ...
【Python机器学习】聚类算法任务，评价指标SC、DBI、ZQ等系数详解和实战演示（附源码图文解释）
需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.聚类任务设样本集S={x_1,x_2,-,x_m}包含m个未标记样本,样本x_i=(x_i^(1),x_i^(2),-,x_i^(n))是一 ...
C#，人工智能，机器学习，聚类算法，训练数据集生成算法、软件与源代码
摘要:本文简述了人工智能的重要分支--机器学习的核心算法之一--聚类算法,并用C#实现了一套完全交互式的.可由用户自由发挥的,适用于聚类算法的训练数据集生成软件--Clustering.用户使用鼠标左 ...

机器学习基础-聚类算法-15

聚类算法

K-MEANS

python实现K-MEANS

sklearn-K-MEANS

Mini Batch K-Means

python实现K-MEANS优化1

K-MEANS代价函数应用

DBSCAN

机器学习基础-聚类算法-15相关推荐

最新文章

热门文章