机器学习基础-聚类算法-15
聚类算法
K-MEANS
python实现K-MEANS
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")plt.scatter(data[:,0],data[:,1])
plt.show()
训练模型
# 计算距离
def euclDistance(vector1, vector2): return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k): numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim)) # 随机选出k个质心for i in range(k): # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples)) # 作为初始化的质心centroids[i, :] = data[index, :] return centroids # 传入数据集和k的值
def kmeans(data, k): # 计算样本个数numSamples = data.shape[0] # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2))) # 决定质心是否要改变的变量clusterChanged = True # 初始化质心 centroids = initCentroids(data, k) while clusterChanged: clusterChanged = False # 循环每一个样本 for i in range(numSamples): # 最小距离minDist = 100000.0 # 定义样本所属的簇minIndex = 0 # 循环计算每一个质心与该样本的距离for j in range(k): # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :]) # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist: minDist = distance # 更新最小距离clusterData[i, 1] = minDist# 更新样本所属的簇minIndex = j # 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex: # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k): # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index] # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
# showCluster(data, k, centroids, clusterData)return centroids, clusterData # 显示结果
def showCluster(data, k, centroids, clusterData): numSamples, dim = data.shape if dim != 2: print("dimension of your data is not 2!") return 1 # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr'] if k > len(mark): print("Your k is too large!") return 1 # 画样本点 for i in range(numSamples): markIndex = int(clusterData[i, 0]) plt.plot(data[i, 0], data[i, 1], mark[markIndex]) # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb'] # 画质心点 for i in range(k): plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20) plt.show()
# 设置k值
k = 4
# centroids 簇的中心点
# cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差
centroids, clusterData = kmeans(data, k)
if np.isnan(centroids).any():print('Error')
else:print('cluster complete!') # 显示结果
showCluster(data, k, centroids, clusterData)
做预测
def predict(datas):return np.array([np.argmin(((np.tile(data,(k,1))-centroids)**2).sum(axis=1)) for data in datas])
画出簇的作用区域
# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)
sklearn-K-MEANS
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4
# 训练模型
model = KMeans(n_clusters=k)
model.fit(data)
# 分类中心点坐标
centers = model.cluster_centers_
print(centers)
# 预测结果
result = model.predict(data)
print(result)
model.labels_
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()
# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()
Mini Batch K-Means
sklearn-Mini-Batch-K-MEANS
from sklearn.cluster import MiniBatchKMeans
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 设置k值
k = 4
# 训练模型
model = MiniBatchKMeans(n_clusters=k)
model.fit(data)
# 分类中心点坐标
centers = model.cluster_centers_
print(centers)
# 预测结果
result = model.predict(data)
print(result)
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()
# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])# 画出各个分类的中心点
mark = ['*r', '*b', '*g', '*y']
for i,center in enumerate(centers):plt.plot(center[0],center[1], mark[i], markersize=20)plt.show()
python实现K-MEANS优化1
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
训练模型
# 计算距离
def euclDistance(vector1, vector2): return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k): numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim)) # 随机选出k个质心for i in range(k): # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples)) # 作为初始化的质心centroids[i, :] = data[index, :] return centroids # 传入数据集和k的值
def kmeans(data, k): # 计算样本个数numSamples = data.shape[0] # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2))) # 决定质心是否要改变的变量clusterChanged = True # 初始化质心 centroids = initCentroids(data, k) while clusterChanged: clusterChanged = False # 循环每一个样本 for i in range(numSamples): # 最小距离minDist = 100000.0 # 定义样本所属的簇minIndex = 0 # 循环计算每一个质心与该样本的距离for j in range(k): # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :]) # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist: minDist = distance # 更新样本所属的簇minIndex = j # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex: # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k): # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index] # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
# showCluster(data, k, centroids, clusterData)return centroids, clusterData # 显示结果
def showCluster(data, k, centroids, clusterData): numSamples, dim = data.shape if dim != 2: print("dimension of your data is not 2!") return 1 # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr'] if k > len(mark): print("Your k is too large!") return 1 # 画样本点 for i in range(numSamples): markIndex = int(clusterData[i, 0]) plt.plot(data[i, 0], data[i, 1], mark[markIndex]) # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb'] # 画质心点 for i in range(k): plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20) plt.show()
list_lost = []
for k in range(2,10):min_loss = 10000min_loss_centroids = np.array([])min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k) loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterDatalist_lost.append(min_loss)# print('loss',min_loss)
# print('cluster complete!')
# centroids = min_loss_centroids
# clusterData = min_loss_clusterData# 显示结果
# showCluster(data, k, centroids, clusterData)
plt.plot(range(2,10),list_lost)
plt.xlabel('k')
plt.ylabel('loss')
plt.show()
做预测
画出簇的作用区域
# 获取数据值所在的范围
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1# 生成网格矩阵
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))z = predict(np.c_[xx.ravel(), yy.ravel()])# ravel与flatten类似,多维数据转一维。flatten不会改变原始数据,ravel会改变原始数据
z = z.reshape(xx.shape)
# 等高线图
cs = plt.contourf(xx, yy, z)
# 显示结果
showCluster(data, k, centroids, clusterData)
K-MEANS代价函数应用
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
训练模型
# 计算距离
def euclDistance(vector1, vector2): return np.sqrt(sum((vector2 - vector1)**2))# 初始化质心
def initCentroids(data, k): numSamples, dim = data.shape# k个质心,列数跟样本的列数一样centroids = np.zeros((k, dim)) # 随机选出k个质心for i in range(k): # 随机选取一个样本的索引index = int(np.random.uniform(0, numSamples)) # 作为初始化的质心centroids[i, :] = data[index, :] return centroids # 传入数据集和k的值
def kmeans(data, k): # 计算样本个数numSamples = data.shape[0] # 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差clusterData = np.array(np.zeros((numSamples, 2))) # 决定质心是否要改变的变量clusterChanged = True # 初始化质心 centroids = initCentroids(data, k) while clusterChanged: clusterChanged = False # 循环每一个样本 for i in range(numSamples): # 最小距离minDist = 100000.0 # 定义样本所属的簇minIndex = 0 # 循环计算每一个质心与该样本的距离for j in range(k): # 循环每一个质心和样本,计算距离distance = euclDistance(centroids[j, :], data[i, :]) # 如果计算的距离小于最小距离,则更新最小距离if distance < minDist: minDist = distance # 更新样本所属的簇minIndex = j # 更新最小距离clusterData[i, 1] = distance# 如果样本的所属的簇发生了变化if clusterData[i, 0] != minIndex: # 质心要重新计算clusterChanged = True# 更新样本的簇clusterData[i, 0] = minIndex# 更新质心for j in range(k): # 获取第j个簇所有的样本所在的索引cluster_index = np.nonzero(clusterData[:, 0] == j)# 第j个簇所有的样本点pointsInCluster = data[cluster_index] # 计算质心centroids[j, :] = np.mean(pointsInCluster, axis = 0)
# showCluster(data, k, centroids, clusterData)return centroids, clusterData # 显示结果
def showCluster(data, k, centroids, clusterData): numSamples, dim = data.shape if dim != 2: print("dimension of your data is not 2!") return 1 # 用不同颜色形状来表示各个类别mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr'] if k > len(mark): print("Your k is too large!") return 1 # 画样本点 for i in range(numSamples): markIndex = int(clusterData[i, 0]) plt.plot(data[i, 0], data[i, 1], mark[markIndex]) # 用不同颜色形状来表示各个类别mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '<b', 'pb'] # 画质心点 for i in range(k): plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 20) plt.show()
# 设置k值
k = 4 min_loss = 10000
min_loss_centroids = np.array([])
min_loss_clusterData = np.array([])for i in range(50):# centroids 簇的中心点 # cluster Data样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差centroids, clusterData = kmeans(data, k) loss = sum(clusterData[:,1])/data.shape[0]if loss < min_loss:min_loss = lossmin_loss_centroids = centroidsmin_loss_clusterData = clusterData# print('loss',min_loss)
print('cluster complete!')
centroids = min_loss_centroids
clusterData = min_loss_clusterData# 显示结果
showCluster(data, k, centroids, clusterData)
DBSCAN
sklearn-DBSCAN1
from sklearn.cluster import DBSCAN
import numpy as np
import matplotlib.pyplot as plt
# 载入数据
data = np.genfromtxt("kmeans.txt", delimiter=" ")
# 训练模型
# eps距离阈值,min_samples核心对象在eps领域的样本数阈值
model = DBSCAN(eps=1.5, min_samples=4)
model.fit(data)
result = model.fit_predict(data)
result
# 画出各个数据点,用不同颜色表示分类
mark = ['or', 'ob', 'og', 'oy', 'ok', 'om']
for i,d in enumerate(data):plt.plot(d[0], d[1], mark[result[i]])plt.show()
sklearn-DBSCAN2
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x1, y1 = datasets.make_circles(n_samples=2000, factor=0.5, noise=0.05)
x2, y2 = datasets.make_blobs(n_samples=1000, centers=[[1.2,1.2]], cluster_std=[[.1]])x = np.concatenate((x1, x2))
plt.scatter(x[:, 0], x[:, 1], marker='o')
plt.show()
from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()
from sklearn.cluster import DBSCAN
y_pred = DBSCAN().fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()
y_pred = DBSCAN(eps = 0.2).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()
y_pred = DBSCAN(eps = 0.2, min_samples=50).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()
机器学习基础-聚类算法-15相关推荐
- [Python] [机器学习] 基础聚类算法(K-means、AHC、DBSCAN)简介及可视化代码
之前写的入门级介绍,有点久远有些ref找不着了 文章目录 简介 目标 作用 类型 聚类vs分类 K-means [K-means] 伪代码 [K-means] 过程详解 [K-means] 初始点的选 ...
- 机器学习基础-经典算法总结
机器学习基础-经典算法 逻辑回归 逻辑回归的原理,问题的假设 为什么逻辑回归也可称为对数几率回归 推导逻辑回归损失函数 逻辑回归损失函数求导 逻辑回归为什么使用交叉熵作为损失函数 LR是不是凸优化问题 ...
- 机器学习之聚类算法——聚类效果评估可视化
我曾在机器学习之聚类算法应用篇中介绍过,聚类算法常使用轮廓系数来评估聚类效果,不过有时候并不是轮廓系数越大越好,如下面两幅图所示,图中的红色虚线表示聚类系数分数: 显然将簇数据设置为2的时候得到的轮廓 ...
- 【机器学习】聚类算法DBSCAN、K-means、Mean Shift对比分析及具体代码实现
[机器学习]聚类算法DBSCAN.K-means.Mean Shift对比分析及具体代码实现 一.DBSCAN算法(具有噪声的基于密度的聚类方法) 1.算法原理 基于数据分布密度不同对数据进行聚类,把 ...
- [Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- Python机器学习---2.聚类算法理论部分
文章目录 1.聚类分析 1.1 无监督学习与聚类算法 1.1.1.旨在理解数据自然结构的聚类 1.1.2 用于数据处理的聚类 1.2 核心概念 1.2.1 聚类分析 1.2.2 簇 1.3 基于原型的 ...
- em算法怎么对应原有分类_机器学习基础-EM算法
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等.本文就对 ...
- 【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)
需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.聚类任务 设样本集S={x_1,x_2,-,x_m}包含m个未标记样本,样本x_i=(x_i^(1),x_i^(2),-,x_i^(n))是一 ...
- C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码
摘要:本文简述了人工智能的重要分支--机器学习的核心算法之一--聚类算法,并用C#实现了一套完全交互式的.可由用户自由发挥的,适用于聚类算法的训练数据集生成软件--Clustering.用户使用鼠标左 ...
最新文章
- linux python fcntl模块 程序加锁 简介
- (五)Redis在项目中应用
- java文件上传maven_ssm+maven框架搭建实现ajax多文件上传功能
- ThinkPHP V5.0 正式版发布
- 特殊人物请遵循公司工作的基本准则
- OpenCV-膨胀cv::dilate
- 北大先修课 计算机,解读:北大清华大学先修课的那些事
- Visual Studio自定义调试窗体两个小技巧
- shell脚本中一些日期的定义
- 国外图片分享网站有哪些?20个国外免费、高清图片素材网站、图库全合集
- Dialogue System for Unity文档中英对照版(简雨原创翻译)第六篇(音序器相关,语音同步)
- 完美转换: Word表格转HTML
- 大作家超级写作软件_3种对作家有用的Atom文本编辑器软件包
- 计算机usb接口管理软件,大势至电脑USB端口管理软件
- sklearn机器学习:随机森林学习与调参
- 阿里“小前台、大中台”的解读
- 无线局域网设备安装与调试
- Problem solved list
- PS如何批量处理图片尺寸大小?免费哟
- PPT实用功能——布尔运算
热门文章
- 用友老是显示服务器错误,客户端连服务器出现这样的错误框
- c语言 库 键盘,python 函数 map 、lambda
- 接口使用jwt返回token_JWT实现token验证
- 计算机组成原理_在线作业_2,计算机组成原理_在线作业_2讲述.docx
- 在c语言中什么意思,\c在C语言中是什么意思?
- linux ls使用方法,Linux/Ubuntu ls命令详解使用格式和方法
- linux alsa 录音程序,Linux下alsa直接录音代码
- Access to script at ‘xxx‘ from origin ‘null‘ has been blocked by CORS policy: Cross origin requests
- while用法_语法||由一句译文聊聊while的用法
- linux终端使用python3,3 个 Python 命令行工具 | Linux 中国