数据挖掘或机器学习在商业智能领域的案例在Kaggle 很多,我今天分享一下红酒数据。

按照CRISP模型第一步去了解业务,也就是数据集描述的业务场景,如果不理解这一点,那么数据分析的意义又在哪儿呢,就比如你做出了一个数学题,可是更现实没什么用一样。道理就是这样的。

好了,首先看看数据集各个变量的意思:

1 - fixed acidity: most acids involved with wine or fixed or nonvolatile (do not evaporate readily)

1-固定酸性:这个概念是指大多数红酒酒类的酸性都是固定或不变化的(基本不会挥发)

2 - volatile acidity: the amount of acetic acid in wine, which at too high of levels can lead to an unpleasant, vinegar taste

2-可挥发性酸性:红酒醋酸的含量,含量水平过高会导致出现口感不悦的醋酸味

3 - citric acid: found in small quantities, citric acid can add 'freshness' and flavor to wines

3 - 柠檬酸:少量的柠檬酸可以增加葡萄酒“新鲜”的口感

4 - residual sugar: the amount of sugar remaining after fermentation

stops, it's rare to find wines with less than 1 gram/liter and wines

with greater than 45 grams/liter are considered sweet

4 - 残糖:发酵停止后剩余的糖量,很少发现葡萄酒少于1克/升,葡萄酒

内大于45克/升被认为是甜的口感

5 - chlorides: the amount of salt in the wine

5 - 氯化物:酒中的盐量

6 - free sulfur dioxide: the free form of SO2 exists in equilibrium

between molecular SO2 (as a dissolved gas) and bisulfite ion; it

prevents microbial growth and the oxidation of wine

6 - 游离二氧化硫:游离态二氧化硫存在

在分子SO2(作为溶解气体)和亚硫酸氢根离子之间的平衡状态;它可以

防止微生物生长和葡萄酒的氧化

7 - total sulfur dioxide: amount of free and bound forms of S02; in

low concentrations, SO2 is mostly undetectable in wine, but at free SO2

concentrations over 50 ppm, SO2 becomes evident in the nose and taste of

wine

7 - 总二氧化硫:游离和结合形式的SO 2的量;低浓度SO2在葡萄酒中几乎检测不到,但在游离SO2中浓度超过50 ppm时,二氧化硫闻起来和品尝都比较明显了

8 - density: the density of water is close to that of water depending on the percent alcohol and sugar content

8 - 密度:水的密度接近水的密度,取决于酒精和糖的百分比

9 - pH: describes how acidic or basic a wine is on a scale from 0

(very acidic) to 14 (very basic); most wines are between 3-4 on the pH

scale

9 - :描述葡萄酒的酸度或碱度是从0开始的

(非常酸性)到14(非常基本的);大多数葡萄酒的酸碱度pH值在3-4之间

10 - sulphates: a wine additive which can contribute to sulfur

dioxide gas (S02) levels, wich acts as an antimicrobial and antioxidant

10 - 硫酸盐:可以促成硫的葡萄酒添加剂,会增加二氧化硫气体(SO 2)的水平,即抗微生物剂和抗氧化剂

11 - alcohol: the percent alcohol content of the wine Output variable (based on sensory data):

11 - 酒精:酒的百分比酒精含量输出变量(基于感官数据):

12 - quality (score between 0 and 10)

12 - 品质(0到10分)

该数据来源:

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.

Modeling wine preferences by data mining from physicochemical properties.

In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

根据该数据的特点,我们来用python 做kMeans 分析,

第一步 加载要用的5个库numpy, pandas, matplotlib.pyplot, ggplot, KMeans(sklearn.cluster),类似R的5个包

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

plt.style.use('ggplot')

from sklearn.cluster import KMeans

导入要分析的数据集:

wine = pd.read_csv('data/wine.csv', header=0)

wine_cluster = pd.read_csv('data/wine.csv', header=0)

查看数据情况

wine.head()

Wine Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue OD280/OD315 of diluted wines Proline 0 1 14.23 1.71 2.43 15.6 127 2.80 3.06 0.28 2.29 5.64 1.04 3.92 1065 1 1 13.20 1.78 2.14 11.2 100 2.65 2.76 0.26 1.28 4.38 1.05 3.40 1050 2 1 13.16 2.36 2.67 18.6 101 2.80 3.24 0.30 2.81 5.68 1.03 3.17 1185 3 1 14.37 1.95 2.50 16.8 113 3.85 3.49 0.24 2.18 7.80 0.86 3.45 1480 4 1 13.24 2.59 2.87 21.0 118 2.80 2.69 0.39 1.82 4.32 1.04 2.93 735

稍后再补充扩展。。。。

python葡萄酒数据集_Python 数据挖掘- Kaggle红酒品质数据相关推荐

  1. python npv 计算公式_Python numpy 中常用的数据运算

    Numpy 精通面向数组编程和思维方式是成为Python科学计算大牛的一大关键步骤.--<利用Python进行数据分析> Numpy(Numerical Python)是Python科学计 ...

  2. python数据分析知识点_Python基础知识点总结:数据

    首先, 什么是Python? 用python作者Guido van Rossum自己的话来说,Python是这样的一门语言: 它是一门高级编程语言, 它的核心设计理念是让所有代码变得更易阅读,并给开发 ...

  3. python考勤记录_python连接中控考勤机分析数据

    用python连接中控考勤机. 下载并分析数据,把结果邮件给人事. SDK包建议用32位的,在win7 64位系统上用64位开发包不行,用32可以. python还要pywin32 注意版本,我这用的 ...

  4. python葡萄酒数据集_利用python分析红葡萄酒数据

    在本次分析中,我使用了随机森林回归,并涉及数据标准化和超参数调优.在这里,我使用随机森林分类器,对好酒和不太好的酒进行二元分类. 首先导入数据包: importnumpy as npimportpan ...

  5. python预测糖尿病_Python数据挖掘 | 实战案例之预测糖尿病

    今天给大家讲解一个实战案例:如何根据现有数据预测糖尿病.在这个案例开始之前,希望大家回忆一下大学里讲过的线性回归的知识,这是数据挖掘里非常重要的一部分知识.当然,鉴于大家都学过,本篇就不再赘述. 一. ...

  6. python鸢尾花数据集_Python数据分析01-Iris鸢尾花数据集

    0. 项目背景: 好久没碰代码了,今天开始重新捡起Python.首先对环境做个简单的介绍: Python环境:Python3.7 编译器:Pycharm Community 具体怎么配环境我就不细说了 ...

  7. python划分数据集_Python数据集切分实例

    在处理数据过程中经常要把数据集切分为训练集和测试集,因此记录一下切分代码. ''' data:数据集 test_ratio:测试机占比 如果data为numpy.numpy.ndarray直接使用此代 ...

  8. python分类算法_python数据挖掘中的分类算法有哪些?

    一直以来,对于机器学习领域,Python都是人们津津乐道的话题,大家知道我们在用python学习机器技术时候,用到的方法内容和一般情况下的是一样的吗?想必,了解过的小伙伴一定是知道有哪些的,不知道的小 ...

  9. python数据分类方法_Python数据挖掘—分类—贝叶斯分类

    pandas之get_dummies 方法:pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,co ...

最新文章

  1. Things That Cannot Change
  2. 介绍一个好用的Chrome扩展,能高效管理cookie
  3. SM_INTEGRATION_SRV
  4. .NET 6新特性试用 | 可空引用类型
  5. Ribbon 客户端负载均衡
  6. mysql 更新错误1062_mysql 出现1062错误怎么办
  7. Ubuntu中安装python3
  8. Android的HTTP方式网络通信---HttpURLConnection
  9. AD中如何查看快捷键
  10. JetBrains PyCharm选中内容后Backspace删除无法使用,Ctrl+c/Ctrl+v/Ctrl+s/Ctrl+d等等快捷键无法使用的问题的解决
  11. [渝粤教育] 郑州工程技术学院 试验设计与数据处理 参考 资料
  12. 2022年要知悉的9大互联网前沿科技
  13. 北京大学计算机学院刘利,信息科学学院 科研动态 深化新文科计算机教学改革,实施分类分层次教学体系研讨会在京召开...
  14. 计算机共享打印怎么设置密码,共享打印机需要密码的解决方法
  15. lae界面开发工具入门之介绍七--组件篇-文本篇
  16. U281819 糟心的语文课
  17. 中秋节后如何留住客户?
  18. 日有所思,夜有所梦:考研数学答卷有感
  19. 将js对象转为json对象属性加上引号
  20. putty+xming树莓派远程显示图片/图形界面

热门文章

  1. 万福之地——和珅恭王府蝙蝠纹样解读…
  2. 【数学建模论文】数学模型分析红楼梦作者
  3. 【SQL经典50题】9.查询和“ 01 “号的同学学习的课程完全相同的其他同学的信息【正解】
  4. 4.1.3.9 监听网络状态,3G,WIFI,
  5. 深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)
  6. 一篇文章带你搞定二维插值的 MATLAB 计算
  7. 2013年6月2日星期日
  8. 这个IDEA插件可以帮你少写30%的代码
  9. 【信号去噪】基于改进的阈值高斯脉冲信号去噪含Matlab源码
  10. writeline是什么意思_c语言console.WriteLine什么意思?