Spark MLlib数据挖掘2–基础统计分析

一、Basic Statistics 简介
Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。
Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法,包括Summary statistics,Correlations,Stratified sampling,Hypothesis testing等数据分析方法。

二、Summery statistic (汇总统计)
汇总统计主要是对RDD数据集进行整体的统计性描述,主要通过调用colStats函数返回一个MultivariateStatisticalSummary 对象,包括:
count:long(大小)
max: vector (每列的最大值)
mean:vector(样本均值)
min:vector(每列最小值)
normL1: vector(每列的L1范数)
normL2: vector(每列的欧几里得数)
numNonzeros: Vector(每列非零向量的个数)
Variance:vector(样本方差)

三、Correlations (相关系数)
Correlations,相关度量,是反映变量之间相关关系密切程度的统计指标。相关系数绝对值越大(值越接近1或者-1),则二者关系越密切,越可进行线性拟合;当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。
目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。

四、Stratified Sampling (分层抽样)
Stratified sampling是一个根据RDD的Key-Value来抽样的功能,可以为每个key设置其被选中的概率。
spark对于分层抽样支持两个版本sampleByKey和sampleByKeyExact。使用sampleByKeyExact方法进行采样,该方法资源消耗较sampleByKey更大,但采样后的大小与预期大小更接近。

五、Hypothesis Testing (假设检验)
假设检验用于确定结果是否具有统计学意义,无论该结果是否偶然发生。
Spark MLlib目前支持Pearson的卡方(χ2)检验,以获得适合度和独立性。 适合度测试输入数据类型的Vector,而独立性测试输入数据类型Matrix。
Spark MLlib还支持输入类型RDD [LabeledPoint],通过卡方检验来启用特征选择。

六、Random data generation (随机数生成)
随机数据生成对于随机算法,原型设计和性能测试很有用。Spark MLlib支持使用独立同分布(independent identically distributed,IID) 生成随机RDD。 从给定分布绘制的值服从分布的类型包括:均匀,标准正常或泊松。

七、Kernel density estimation (核密度估计)
核心密度估计是一种用于可视化经验概率分布的技术,不需要对所观察到的样本的特定分布进行假设。它主要是对给定的一组数据样本点的随机变量的概率密度函数的估计。
通过将特定点的经验分布的PDF(密度分布函数)表示为以每个样本为中心的正态分布的PDF的平均值来实现该估计。
主要用于进行原始数据的理解。

由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。
参数估计
参数回归分析
需要假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。
参数判别分析 需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。
非参数估计
由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法。核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。
非参数估计:
核密度估计(Kernel density estimation),是一种用于估计概率密度函数的非参数方法,为独立同分布F的n个样本点,设其概率密度函数为f,核密度估计为以下:

K(.)为核函数(非负、积分为1,符合概率密度性质,并且均值为0),h>0为一个平滑参数,称作带宽(bandwidth),也看到有人叫窗口。Kh(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。

Spark MLlib数据挖掘2--基础统计分析相关推荐

  1. Spark MLlib 机器学习

    本章导读 机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...

  2. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...

  3. 大数据Spark MLlib推荐算法

    目录 1 相似度算法 1.1 欧几里德距离算法 1.2 基于夹角余弦相似度算法 2 最近邻域 3 交替最小二乘法 3.1 最小二乘法 3.2 交替最小二乘法 3.3 ALS算法流程 3.4 ALS算法 ...

  4. Spark学习之路——8.Spark MLlib

    MLlib的官网文档: http://spark.apache.org/docs/latest/ml-guide.html 本节主要内容: 一.MLlib简述 二.基本数据类型 三.汇总统计 四.实例 ...

  5. 基于Spark MLlib平台的协同过滤算法---电影推荐系统

    协同过滤算法概述 基于模型的协同过滤应用---电影推荐 实时推荐架构分析     一.协同过滤算法概述 本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理. 通常,协同过滤算法按照数据使用 ...

  6. spark.mllib:GradientBoostedTrees

    Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富. ...

  7. spark mllib源码分析之DecisionTree与GBDT

    我们在前面的文章讲过,在spark的实现中,树模型的依赖链是GBDT-> Decision Tree-> Random Forest,前面介绍了最基础的Random Forest的实现,在 ...

  8. spark.mllib源码阅读:GradientBoostedTrees

    Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富. ...

  9. Spark MLlib: Decision Tree源码分析

    http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...

  10. Spark MLlib学习

    1. 机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能.机器学习利用数据或以往的经验,以此优化计算机程序的性能标准. 机器学习强调三个关键词:算法.经验.性能,其处理过程 ...

最新文章

  1. Linux安装mysql,一步到位!
  2. Redis集群两种配置方式
  3. 基本操作:win10系统磁盘分区
  4. sun.misc.Unsafe和堆外内存
  5. MySQL-5.7.21非图形化下载、安装、连接问题记录
  6. 让自己开发的Web应用程序与SharePoint共存
  7. Python精通-运算符与基本数据类型(二)
  8. 【Kafka】Kafka 2.6新功能:消费者主动触发Rebalance
  9. [转载] JAVA从菜鸟【入门】到新手【实习】一一一一Python 内置函数,标准库与第三方库(拓展库),常用框架
  10. WIN7、WIN8 右键在目录当前打开命令行Cmd窗口(图文)
  11. SecurityError: Blocked a frame with origin from accessing a cross-origin frame
  12. [uboot 移植]uboot 移植过程
  13. php vld 安装,PHP性能之语言性能优化:vld
  14. 计算机视觉基础教程笔记索引
  15. 关于Retinex理论的一些理解
  16. html5京东页面布局,京东移动端页面布局(一)
  17. 123321是一个非常特殊的数,它从左边读和从右边读是一样的。输入一个正整数n, 编程求所有这样的五位和六位十进制数,满足各位数字之和等于n 。
  18. 应有尽有,Python 程序员需要掌握的机器学习“四大名著”发布啦
  19. 什么是旅行商问题(Traveling Salesman Problem, TSP)?
  20. POI导出word表格 office打开没问题 wps打开列有问题

热门文章

  1. 不同框架模型的对比试验
  2. Pytorch 神经网络模型量化分析基本框架
  3. 美国电话号码正则表达式
  4. 什么是最小可行产品 MVP?
  5. 密码如何改变了我的一生
  6. Android自定义组件之日历控件-精美日历实现(内容、样式可扩展)
  7. 逻辑或、与、非、或非、与非、异或、同或运算
  8. 微信外卖小程序 怎么计算与客户的距离_3分钟搞定微信小程序类美团用户商家距离计算...
  9. 从零开发全网搜索引擎
  10. 微带线贴片天线尺寸的计算,利用Matlab计算+常见的RF计算在线公式