一.概述

任何统计模型都是对现实世界复杂联系的简化

根据目的分类

聚类方法（细分类模型）：市场细分，协同推荐

预测方法：回归模型，时间序列模型

关联归纳方法：购物篮分析，序列分析

根据方法原理分类

基于传统统计模型的推断性方法：在抽样理论的支持下，首先假定预测变量和影响因素间呈现某种公式化的联系，然后采用假设检验的方法来验证相应的假设是否成立，并给出相应的参数估计值

基本机器识别技术的自动化方法：也被称为非推断性方法，没有什么前提假设，就是从数据中寻找关联，然后采用验证数据集对找到的关联加以验证

损失函数：用于衡量模型的信息损失或者预测错误程度的函数

模型拟合的最终目标是使得损失函数达到最小值

分类：错分比例（及其所导致的损失）

分类预测正确率

熵

连续：残差所代表的信息量的综合（及其所导致的损失）

最小二乘法的残差平方和

离均差绝对值之和（最小一乘法）

凸函数：局部最小值即全局最小值

非凸函数：存在多个局部最小值/局部最优解

显然，凸函数在求解极值时容易很多

正则化：控制模型复杂度

模型应该复杂到什么程度才合适？在理想的损失函数的基础上增加一个惩罚项，用于表达模型复杂程度所带来的影响，以避免模型为了追求精确性而过于复杂

原损失函数 = 模型精确性衡量指标

新损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指标

新损失函数 = 模型精确性衡量指标 + landa * 模型复杂度衡量指标

一个东西，三个名称：正则化（机器学习），模型惩罚项（统计学），范数（数学）

基本作用：保证模型尽可能简单，避免参数过多导致过拟合

约束模型特性，加入一些先验知识，例如稀疏，低秩等

正则化函数一般是模型复杂度的单调递增函数：模型越复杂，代价越大

L0正则化：复杂度指标为模型中非零参数的个数，容易理解，但数学上很难求解

L1正则化：模型中各个参数绝对值（加权）之和，几何学上的曼哈顿距离，主要用于特征选择/筛选变量（实例：lasso回归）

L2正则化：为模型各个参数平方（加权）之和（的开方），几何学上的欧几里得距离，主要用于防止过拟合（实例：岭回归）

二.回归

希望描述某个群体的月收入状况，该如何给出相应的信息？

除了给出平均水平以外，还应当给出离散程度

均数：能够表示集中趋势

标准差：能够表示离散趋势

单因变量回归类模型的基本框架

三.线性回归

研究一个连续性变量（因变量）的取值随着其它变量（自变量）的数值变化而变化的趋势

通过回归方程解释两变量之间的关系显得更为精确，可以计算出自变量改变一个单位时因变量平均改变的单位数量，这是相关分析无法做到的

除了描述两变量的关系以外，通过回归方程还可以进行预测和控制，这在实际工作中尤为重要

线性回归假定自变量对因变量的影响强度始终保持不变

常用指标

决定系数：模型整体价值的衡量指标

相应的相关系数的平方

反映因变量的全部变异中能够通过回归关系被自变量解释的比例

偏回归系数：反映某一个自变量在数量上对因变量的影响强度

相应的自变量上升一个单位时，因变量取值的变动情况

标化偏回归系数：量纲问题

用于自变量间重要性的比较

四.分类

五.聚类

按照个体（案例或者变量）的特征将它们分类，使同一类别内的个体具有尽可能高的同质性，而类别之间则具有尽可能高的异质性，随后总结每一类的基本特征，从而更清晰地了解问题的实质

无因变量，无监督学习方法

聚类分析前所有个体所属的类别是未知的，类别个数一般也是未知的，分析的依据就是原始数据。可能事先没有任何有关类别的信息可参考，当然如果有的话更好

本质是一种统计描述方法，或者说是一种建立假设而不是验证假设的方法

往往被作为一个中间步骤

基本原理

为了得到比较合理的分类，首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度

直观的理解为按空间距离的远近来划分类别

假定研究对象均用自变量所构成的高维空间中的点来表示

在聚类分析中，一般的规则是将距离较小的点归为同一类，将距离较大的点归为不同的类

常见的是对个体分类，也可以对变量分类，此时一般使用相似系数作为距离测量指标

常见分类

①划分聚类：K-Means

将数据集分割为k个部分，然后基于统计指标进行优化调整

计算速度相对比较快

适用于中小规模的数据库中的球状类别

②层次聚类：BIRCH

依次将数据点合并入同一类别，结果由不同层次的聚类结果组成

聚类结果较丰富，不同层次的结果间有嵌套的关系

计算量相对较大

③基于密度：DBSCAN

只要一个区域中的点的密度大过某个阈值，就应当被归入同一类中

擅长发现各种特殊形状的类

计算量较大

④基于网格：STING

首先将数据空间划分成为有限个单元的网格结构，然后基于单元格进行聚类

处理速度很快

⑤基于模型：SOM，高斯混合模型

六.主成分分析

只是一种中间手段，其背景是研究中经常会遇到多指标的问题，这些指标间往往存在一定的相关，直接纳入分析不仅复杂，变量间难以取舍，而且可能因多重共线性而无法得出正确结论

主成分分析的目的就是通过线性变换，将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标，便于进一步分析，尽可能保留原始变量的信息，且彼此不相关

主成分的提取

提取出的每个主成分都是原来多个指标的线性组合

原则上如果有n个变量，则最多可以提取出n个主成分，但将它们全部提取出来就失去了该方法简化数据的实际意义（往往提取出前2~3个主成分已包含了90%以上的信息，其他可以忽略不计）

提取出的主成分包含主要信息即可，不一定非要有准确的实际含义

用途

主成分评价：当进行多指标的综合评价时，用主成分分析将多指标中的信息集中为若干个主成分，然后加权求和，得到综合评价指数

主成分回归：通过存在共线性的自变量进行主成分分析，从而在提取多数信息的同时解决共线性问题

python实现

#主成分分析
#用协方差阵而不是相关系数阵进行提取
sklearn.decomposition.PCA()#因子分析
#方法太简单，不能进行因子旋转
sklearn.decomposition.FactorAnalysis()

解决变量间多重共线性

新变量集能够更有利于简化和解释问题

有太多的变量，希望能够消减变量，用一个新的，更小的由原始变量集组合成的新变量集作进一步分析

探讨变量内在联系和结构

观测变量之间存在相互依赖关系

这反映的实际上是变量间的内在关联结构

统计模型 | 学习笔记相关推荐

现代统计模型——学习笔记
第1节现代统计模型重难点:半参数回归模型出勤+作业+结课论文(基于R:有创新.解决实际问题) 非参数统计分析相关知识现代非参数统计--薛留根科学出版社 R语言(区分大小写) 1.+.-.*. ...
OpenCV学习笔记（二十一）——绘图函数core OpenCV学习笔记（二十二）——粒子滤波跟踪方法 OpenCV学习笔记（二十三）——OpenCV的GUI之凤凰涅槃Qt OpenCV学习笔记（二十
OpenCV学习笔记(二十一)--绘图函数core 在图像中,我们经常想要在图像中做一些标识记号,这就需要绘图函数.OpenCV虽然没有太优秀的GUI,但在绘图方面还是做得很完整的.这里就介绍一下相关 ...
深度学习笔记(待续)
背景知识好的特征应具有不变性(大小.尺度和旋转等)和可区分性):例如Sift的出现,是局部图像特征描述子研究领域一项里程碑式的工作.由于SIFT对尺度.旋转以及一定视角和光照变化等图像变化都具有不变 ...
Deep Learning（深度学习）学习笔记整理系列三
Deep Learning(深度学习)学习笔记整理系列声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明 ...
.NET 大数据实时计算--学习笔记
摘要纯 .Net 自研大数据实时计算平台,在中通快递服务数百亿包裹,处理数据万亿计!将分享大数据如何落地以及设计思路,技术重难点. 目录背景介绍计算平台架构项目实战背景介绍计算平台架构分 ...
linux运维需要哪些网络知识,Linux运维学习笔记-网络技术知识体系总结
jTemplates部分语法介绍 1.{#if} {#if |COND|}..{#elseif |COND|}..{#else}..{#/if} Examples: {#if 2*8==16} goo ...
深度学习笔记 | 第16讲：语音识别——一份简短的技术综述
原标题:深度学习笔记 | 第16讲:语音识别--一份简短的技术综述大家好!又到了每周一狗熊会的深度学习时间了.在上一讲中,小编给大家介绍了经典的 seq2seq,以及著名的注意力模型,并且小编在这些 ...
《知识图谱》赵军学习笔记
知识图谱读书笔记文章目录知识图谱读书笔记一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期知识体系构建知识获取知识融合知识存储 ...
学习笔记：匿名通信与暗网研究综述
本文仅为作者学习笔记,内容源自论文"匿名通信与暗网研究综述--罗军舟等"本身以及相关网络搜索 1.匿名通信与暗网匿名通信指采取一定的措施隐蔽通信流中的通信关系,使窃听者难以获取或 ...

统计模型 | 学习笔记