今日分享:啤酒数据集聚类

一:流程

1、利用pandas库读取数据集文件,加载数据,选取目标数据用于训练

2、使用kmeans模型进行聚类训练

3、使用matpotlib库以可视化的方式来展示聚类效果

二:数据集介绍

KMeans聚类理解起来还是比较容易的,在这里使用一个简单的啤酒数据集进行演示说明。该数据集包括20个样本数据,5个数据特征(品牌,热量,含钠量,酒精量,成本),在聚类时只使用后4个数值特征。

三:代码演示

导入相关库

from sklearn.cluster import KMeansimport pandas as pd

聚类代码

# 读取本地文件,由于是制表符文件,利用sep指定分割方式beer = pd.read_csv('data.txt',sep=' ')

print('数据行列信息:\n',beer.shape,'\n')

#聚类时只使用以下四列特征数据data = beer[["calories","sodium","alcohol","cost"]]

#模型加载数据,括号中参数指定聚类数量 3类km = KMeans(n_clusters=3).fit(data)

print('类别标签\n',km.labels_)

#将聚类后的标签作为新的一列特征加入到原始数据集中data['cluster'] = km.labels_#查看此时数据集的最后五个样本样式data.tail()

聚类结果

可视化代码

#导入相关库import matplotlib.pyplot as pltimport numpy as np

#定义一个颜色数组,便于后面与类别一一对应colors = np.array(['red','green','blue'])

#散点图,由于原始数据集中有4个特征,但是四维空间无法展示,#所以这里选取两个特征,即可把相应的数据展示在二维平面中,即是聚类数据分布plt.scatter(beer['calories'],beer['alcohol'],c=colors[beer['cluster']])

#添加横纵坐标标签plt.xlabel('Calories')plt.ylabel('Alcohol')plt.show()

可视化结果

注:数据集已上传至QQ学习群


Python基础知识专题文章集锦

Python爬虫专题文章集锦

Python数据分析专题文章集锦

Python数据可视化专题文章集锦


公众号     QQ群

扫QQ群二维码进交流学习群

或在后台回复:加群

Kmeans聚类:啤酒数据集聚类相关推荐

  1. 通过K-means对iris数据集进行处理 Kmeans聚类算法实例

    Python from sklearn import datasets import matplotlib.pyplot as plt from sklearn.cluster import KMea ...

  2. ML之K-means:基于(完整的)手写数字图片识别数据集利用K-means算法实现图片聚类

    ML之K-means:基于(完整的)手写数字图片识别数据集利用K-means算法实现图片聚类 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 metrics.adjusted_ran ...

  3. Python计算机视觉编程第六章——图像聚类(K-means聚类,DBSCAN聚类,层次聚类,谱聚类,PCA主成分分析)

    Python计算机视觉编程 图像聚类 (一)K-means 聚类 1.1 SciPy 聚类包 1.2 图像聚类 1.1 在主成分上可视化图像 1.1 像素聚类 (二)层次聚类 (三)谱聚类 图像聚类 ...

  4. KMeans聚类并绘制聚类后的决策边界

    KMeans聚类并绘制聚类后的决策边界 # 导数基础包和函数 from sklearn import datasets import matplotlib.pyplot as plt # 使用skel ...

  5. 机器学习算法之 K-means、层次聚类,谱聚类

    k-means 和层次聚类都属于划分聚类,实际中最常用的是k-means,k-means效果不好的情况下才会采用其他聚类 K-means算法 K-means算法,也称为K-平均或者K-均值,是一种使用 ...

  6. 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)

    文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...

  7. 聚类分析(K-means、系统聚类和二阶聚类)的原理、实例及在SPSS中的实现(一)

    目录 聚类分析的定义及原理 聚类方法及其在SPSS中的实现 总结及拓展 聚类分析的定义及原理 1.定义 所谓物以类聚.人以群分.聚类分析,即是基于研究对象的特征,将他们分门别类,以让同类别的个体之间差 ...

  8. KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数...

    阅读全文:http://tecdat.cn/?p=24198 <世界幸福报告>是可持续发展解决方案网络的年度报告,该报告使用盖洛普世界民意调查的调查结果研究了150多个国家/地区的生活质量 ...

  9. K-means算法及文本聚类实践

    K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果. 基本思想 k-means算法需要事先指定 ...

最新文章

  1. Nginx 动静态访问分离
  2. cydia收费插件源_Cydia消失了怎么办 Cydia错误汇总介绍【图文】
  3. 蓝桥杯java第三届决赛第四题--DNA比对
  4. 5.2.2 OS之I/O设备假脱机技术(SPOOLing)
  5. Java web—Servlet过滤器(Filter)
  6. Nacos-NacosRule负载均衡
  7. 如何实现线程池的 QueueUserWorkItem 方法的延续?
  8. python sftp_python中实现sftp
  9. 創建oracle用戶及表空間,window,linux下創建oracle用戶及表空間 對比 易於學習
  10. Java回调函数使用
  11. 模拟运行php,window_PHP+Javascript模拟Matrix画面, 直接存为*.php文件运行即 - phpStudy...
  12. 详细对比9门主流编程语言
  13. Vue----常见面试题
  14. PHPstrom的Disable Power Save Mode
  15. 《色彩解答》系列之二 色彩比例
  16. NSString 与 Unicode
  17. 如何解决网页无法复制文字问题
  18. Ubuntu18.04搭建本地RTMP服务器librtmp+nginx,推送flv文件播放
  19. 【技能积累】写邮件时的常用表达
  20. SaaS应用12原则

热门文章

  1. mysql 5.6 开启gtid_MySQL 5.6 GTID 原理以及使用
  2. Revolut新一代的网络银行
  3. .net core通过PinYinConverterCore实现汉字转拼音,获取中文字符串首字母
  4. 私有化构造方法如何实例化对象
  5. 用C语言编写低耦合程序
  6. 真·0秒死机(瞬间死机)
  7. [noip模拟赛2017.7.7]
  8. 最新云核泛目录自带MIP模板开源站群系统源码
  9. 微博新增“炸毁”评论功能,网友:新型掩耳盗铃
  10. iOS 自定义下拉线条动画