Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析

一、Basic Statistics 简介
Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。
Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法，包括Summary statistics，Correlations，Stratified sampling，Hypothesis testing等数据分析方法。

二、Summery statistic (汇总统计)
汇总统计主要是对RDD数据集进行整体的统计性描述，主要通过调用colStats函数返回一个MultivariateStatisticalSummary 对象，包括：
count：long(大小)
max: vector (每列的最大值)
mean：vector(样本均值)
min：vector(每列最小值)
normL1: vector(每列的L1范数)
normL2: vector(每列的欧几里得数)
numNonzeros: Vector(每列非零向量的个数)
Variance：vector(样本方差)

三、Correlations (相关系数)
Correlations，相关度量，是反映变量之间相关关系密切程度的统计指标。相关系数绝对值越大(值越接近1或者-1)，则二者关系越密切，越可进行线性拟合；当取值为0表示不相关，取值为(0~-1]表示负相关，取值为(0, 1]表示正相关。
目前Spark支持两种相关性系数：皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。

四、Stratified Sampling (分层抽样)
Stratified sampling是一个根据RDD的Key-Value来抽样的功能，可以为每个key设置其被选中的概率。
spark对于分层抽样支持两个版本sampleByKey和sampleByKeyExact。使用sampleByKeyExact方法进行采样，该方法资源消耗较sampleByKey更大，但采样后的大小与预期大小更接近。

五、Hypothesis Testing (假设检验)
假设检验用于确定结果是否具有统计学意义，无论该结果是否偶然发生。
Spark MLlib目前支持Pearson的卡方(χ2)检验，以获得适合度和独立性。适合度测试输入数据类型的Vector，而独立性测试输入数据类型Matrix。
Spark MLlib还支持输入类型RDD [LabeledPoint]，通过卡方检验来启用特征选择。

六、Random data generation (随机数生成)
随机数据生成对于随机算法，原型设计和性能测试很有用。Spark MLlib支持使用独立同分布(independent identically distributed,IID) 生成随机RDD。从给定分布绘制的值服从分布的类型包括：均匀，标准正常或泊松。

七、Kernel density estimation (核密度估计)
核心密度估计是一种用于可视化经验概率分布的技术，不需要对所观察到的样本的特定分布进行假设。它主要是对给定的一组数据样本点的随机变量的概率密度函数的估计。
通过将特定点的经验分布的PDF(密度分布函数)表示为以每个样本为中心的正态分布的PDF的平均值来实现该估计。
主要用于进行原始数据的理解。

由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。
参数估计
参数回归分析
需要假定数据分布符合某种特定的性态，如线性、可化线性或指数性态等，然后在目标函数族中寻找特定的解，即确定回归模型中的未知参数。
参数判别分析需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明，参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距，这些方法并非总能取得令人满意的结果。
非参数估计
由于上述缺陷，Rosenblatt和Parzen提出了非参数估计方法，即核密度估计方法。核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。由于核密度估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法，因而，在统计学理论和应用领域均受到高度的重视。核密度估计，就是采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。
非参数估计：
核密度估计（Kernel density estimation），是一种用于估计概率密度函数的非参数方法，为独立同分布F的n个样本点，设其概率密度函数为f，核密度估计为以下：

K(.)为核函数（非负、积分为1，符合概率密度性质，并且均值为0），h>0为一个平滑参数，称作带宽(bandwidth)，也看到有人叫窗口。Kh(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。

Spark MLlib数据挖掘2--基础统计分析相关推荐

Spark MLlib 机器学习
本章导读机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l&qu ...
大数据Spark MLlib推荐算法
目录 1 相似度算法 1.1 欧几里德距离算法 1.2 基于夹角余弦相似度算法 2 最近邻域 3 交替最小二乘法 3.1 最小二乘法 3.2 交替最小二乘法 3.3 ALS算法流程 3.4 ALS算法 ...
Spark学习之路——8.Spark MLlib
MLlib的官网文档: http://spark.apache.org/docs/latest/ml-guide.html 本节主要内容: 一.MLlib简述二.基本数据类型三.汇总统计四.实例 ...
基于Spark MLlib平台的协同过滤算法---电影推荐系统
协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一.协同过滤算法概述本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理. 通常,协同过滤算法按照数据使用 ...
spark.mllib：GradientBoostedTrees
Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富. ...
spark mllib源码分析之DecisionTree与GBDT
我们在前面的文章讲过,在spark的实现中,树模型的依赖链是GBDT-> Decision Tree-> Random Forest,前面介绍了最基础的Random Forest的实现,在 ...
spark.mllib源码阅读：GradientBoostedTrees
Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富. ...
Spark MLlib: Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
Spark MLlib学习
1. 机器学习机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能.机器学习利用数据或以往的经验,以此优化计算机程序的性能标准. 机器学习强调三个关键词:算法.经验.性能,其处理过程 ...

Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析

Spark MLlib数据挖掘2--基础统计分析相关推荐

最新文章

热门文章