目录

分析方法论

SWOT

4P:产品、价格、促销、渠道

PEST

SMART

5W2H

用户使用行为

AARRR

思路

趋势分析

多维分解

用户分群

漏斗分析

留存分析

A/B 测试

对比分析

交叉分析

算法

回归算法

线性回归Linear Regression

二元logistic回归Logistic Regression

分类算法

决策树

随机森林

adaboost

xgboost

KNN

朴素贝叶斯

SVM

聚类算法

k-means

FCM

GMM

DBSCAN

Mean-Shift

凝聚式层次聚类HAC


分析方法论

SWOT

4P:产品、价格、促销、渠道

PEST

SMART

5W2H

用户使用行为

AARRR

每个环节分别对应生命周期的5个重要过程,即从获取用户,到提升活跃度,提升留存率,并获取收入,直至最后形成病毒式传播。

思路

https://www.jianshu.com/p/986ca2b0a717

趋势分析

一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。

可以看出数据有哪些趋势上的变化,有没有周期性,有没有拐点等,继而分析原因。

多维分解

通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。

举个例子,对网站维护进行数据分析,可以拆分出地区、访问来源、设备、浏览器等等维度。

用户分群

针对符合某种特定行为或背景信息的用户,进行特定的优化和分析,将多维度和多指标作为分群条件,有针对性地优化供应链,提升供应链稳定性。

漏斗分析

按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况。

例如将漏斗图用于网站关键路径的转化率分析,不仅能显示用户的最终转化率,同时还可以展示每一节点的转化率。

留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。

衡量留存的常见指标有次日留存率、7日留存率、30日留存率等。

A/B 测试

A/B测试是为了达到一个目标,采取了两套方案,通过实验观察两组方案的数据效果,判断两组方案的好坏,需要选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。

对比分析

分为横向对比(跟自己比)和纵向对比(跟别人比),常见的对比应用有A/B test,A/B test的关键就是保证两组中只有一个单一变量,其他条件保持一致。

交叉分析

交叉分析法就是将对比分析从多个维度进行交叉展现,进行多角度的结合分析,从中发现最为相关的维度来探索数据变化的原因。

算法

回归算法

线性回归Linear Regression

y=a+bx+e

其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值

https://blog.csdn.net/jiangzhali1623/article/details/103307166

二元logistic回归Logistic Regression

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。

https://blog.csdn.net/weixin_41792682/article/details/89639993

https://www.cnblogs.com/SweetZxl/p/11227692.html

分类算法

决策树

树状结构 分类判断

决策树可以分为ID3算法,C4.5算法,和CART算法。ID3算法,C4.5算法可以生成二叉树或者多叉树,CART只支持二叉树,既可支持分类树,又可以作为回归树。

https://www.cnblogs.com/pythonzwd/p/10561566.html

https://blog.csdn.net/lilu916/article/details/73438071

https://www.cnblogs.com/pythonzwd/p/10578106.html

随机森林

bagging放回抽样 多个决策树 输出众数

https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/84801175

adaboost

boosting 多个弱分类器组合成强分类器 调整权重

如果某个样本已经被准确地分类,那么在构造下一个训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。同时,得到弱分类器对应的话语权。然后,更新权值后的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。

误差率低的弱分类器在最终分类器中占的比例较大,反之较小。

Bagging和Boosting的区别

http://blog.sina.com.cn/s/blog_ab12a33f0102x468.html

https://blog.csdn.net/kalath_aiur/article/details/105234675

xgboost

CART树 不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。

https://www.jianshu.com/p/2e07e4186cfe

https://blog.csdn.net/u012535605/article/details/80078903

https://www.sohu.com/a/226265476_609569

KNN

1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

https://www.cnblogs.com/xiaotan-code/p/6680438.html

朴素贝叶斯

https://www.cnblogs.com/caiyishuai/p/9316917.html

https://blog.csdn.net/sinat_34072381/article/details/84571451

SVM

将每一个数据项作为一个点在n维空间中(其中n是拥有的特征数)作为一个点,每一个特征值都是一个特定坐标的值。然后,通过查找区分这两个类的超平面来进行分类。

其学习方法是把数据映射到一个高维空间上,使数据变稀疏,比较容易找到一个分割面来将数据分类,而这个高维的分割面就是超平面。而SVM做的就是找到这样一个超平面使得数据点离这个超平面尽可能的远。

https://blog.csdn.net/comway_Li/article/details/81137651

https://blog.csdn.net/u010665216/article/details/78382984

https://blog.csdn.net/woaidapaopao/article/details/52664833

聚类算法

层次聚类 划分聚类(kmeans PCM) 密度聚类(DBSCAN) 网格聚类 模型聚类

https://www.cnblogs.com/newdate/p/10199006.html

k-means

KNN与K-MEANS的区别

step1:选定要聚类的类别数目k(如上例的k=3类),选择k个中心点。

step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。

step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4。

step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2。
https://www.cnblogs.com/pinard/p/6164214.html

https://blog.csdn.net/Dhane/article/details/86661208

FCM

模糊C均值算法

基于划分的聚类算法,思想是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。

https://blog.csdn.net/on2way/article/details/47087201

https://www.cnblogs.com/sddai/p/6259553.html

GMM

Gaussian Mixture Model高斯混合聚类

用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型

https://blog.csdn.net/weixin_45488228/article/details/102463264

https://zhuanlan.zhihu.com/p/60672386

k-means、GMM聚类、KNN原理概述

DBSCAN

基于高密度连通区域的、基于密度的聚类算法,能够将具有足够高密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇。

基于距离测量(通常为欧几里德距离)和最小点数将彼此接近的点组合在一起。

https://blog.csdn.net/zhangbaoanhadoop/article/details/82377554

https://www.jianshu.com/p/e8dd62bec026

https://cloud.tencent.com/developer/article/1447824

https://blog.csdn.net/j2IaYU7Y/article/details/80060996

Mean-Shift均值漂移算法

对于Mean Shift算法,是一个迭代的步骤,即先算出当前点的偏移均值,将该点移动到此偏移均值,然后以此为新的起始点,继续移动,直到满足最终的条件。

https://www.cnblogs.com/liqizhou/archive/2012/05/12/2497220.html

https://www.cnblogs.com/developerdaily/p/9284093.html

凝聚式层次聚类HAC

把数据自顶向下分裂成或者自底向上合并成一棵树

凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足

分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。

https://blog.csdn.net/resourse_sharing/article/details/44175983

https://blog.csdn.net/sinat_31337047/article/details/52777669

https://blog.csdn.net/zhangyonggang886/article/details/53510767

https://blog.csdn.net/weixin_45488228/article/details/102493562

https://zhuanlan.zhihu.com/p/27659767

数据分析常用方法思路算法相关推荐

  1. 统计学出身但编程一般,该选择数据分析还是挖掘算法?

    来自公众号:木东居士 0x00 前言 本文的话题来自一名应届生关于毕业后职业发展方向的选择. 在职业选择上,数据分析和算法工程师是很多小伙伴都会纠结选择的地方,本文正好对该问题进行了讨论,也希望给更多 ...

  2. ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)

    ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 目录 利用[数据分析+数据处理]算法对链家房价数据集[12+1 ...

  3. 【数据分析】:数据分析三大思路及方法

    数据分析三大思路及方法 在上一篇博文[什么是数据分析]中,我们介绍了数据分析的基本概念.流程.方法.这篇文章我们来看看数据分析的基本思路以及常见的数据分析方法.在互联网分析中,基本遵循以下三个步骤: ...

  4. string.h包含哪些函数_Excel进行数据分析常用方法及函数汇总—【杏花开生物医药统计】...

    Excel是数据分析工作中经常使用的一种工具,经常包含着大量的原始数据,它功能十分强大,除了能录入.整理数据之外,还能进行一些常规的基础的数据分析,那么这里面就需要用到很多函数,今天就来给大家介绍一些 ...

  5. 7种常见的数据分析基本思路,满足你职场95%的需求

    这几天在私信里常看到有新入门的数据分析师来跟我吐槽:"工作时没有自己的分析思路,常常是机械地完成老板布置的任务,无法形成自己的数据分析方法论." 的确,作为一名商业数据分析师我也能 ...

  6. 互联网时代/数据分析时代,一张思维导图带你学习数据分析的思路

    相信大家对数据分析都有所耳闻,近几年来,数据分析已经成为一个热门岗位,很多互联网公司甚至可以小到一个小程序商城都有相关的数据分析工作.举个例子:你在关注了一个关于户外美食的抖音博主之后,接下来的你刷到 ...

  7. 互联网数据分析的思路(一)

    互联网数据分析的思路(一) 首先,明确数据分析的目的. 因为 数据是在产品上线后收集到的,所以便于得到后续一系列全面合理的数据,必须需提前做好数据的规划,明确每一个数据所能产生的价值. 不同的分析目的 ...

  8. 投入产出核算的知识应用于业务数据分析的思路

    <国民经济核算>是经济统计学本科生的重要课程,在这门课程里会涉及到一个章节,叫做"投入产出核算".该章节的核心是编制一个投入产出表,用来搭建经济学中理论和事实之间的桥梁 ...

  9. 探索性数据分析的思路整理

    探索性数据分析的思路整理 读取数据 清洗数据,对构建的数据进行整理 探索全局特征, 通过直方图,散点图,聚合函数对数据进行全局的了解 探索数据的分组特征,通过分组操作分析数据集 %matplotlib ...

最新文章

  1. Android EdgeEffect 使用 和 源码解析
  2. 解决The server cannot be started because one or more of the ports are invalid.
  3. phpcmsv9mysql扩展_phpcmsV9升级到php7.1+mysql5.6+nginx1.9迁移步骤nginx中文伪静态rewrite配置...
  4. VTK:可视化算法之TensorEllipsoids
  5. .NET Core Agent
  6. ARM TK1 安装kinect驱动
  7. Mybatis一级缓存、整合第三方缓存ehcache、Mybatis二级缓存
  8. android banner动画框架,Android Studio Banner轮播图使用
  9. Windows 系统软件有哪些「必备」软件?
  10. NSIS例子-TSE3.6.2脚本
  11. 手机软件APP下载类网站Pbootcms模板 游戏软件应用网站源码 模板自适应手机端
  12. 便捷的收集数据工具—Sniffer嗅探器
  13. 用HTML语言编写下图所示网页,2019-02-21第一章 HTML基础
  14. 软件测试人员常用的SQL语句
  15. flutter onPressed onTap等手势检测及触摸事件处理
  16. Maximize The Beautiful Value (前缀和贪心)
  17. 拖拽功能之水平拖动图片
  18. 向日葵远程桌面连接教程(Windows与Linux互连)
  19. Android保持屏幕常亮的两种方法
  20. GlobalMapper20:10分钟根据CAD、shp等离散高程点生成一份精准边界的地形数据

热门文章

  1. OpenCV Using Python——应用统计肤色模型和相对于块原点能量的肤色分割
  2. 《Python知识手册》更新到V4.1版,快拿走学习
  3. 医院临床信息管理系统
  4. UVA10820欧拉函数求互质的对数
  5. 【蓝桥杯摆烂篇】蓝桥模拟赛【摆烂day3】
  6. linux 网络拦截ws,如何拦截linux信号? (在C中)
  7. rust怎么存水_rust怎么装水 | 手游网游页游攻略大全
  8. win11更新后任务栏空白电脑卡死怎么办?
  9. 手机百度浏览器底部fixed悬浮框屏蔽问题,终极解决方案
  10. ConcurrentHashMap 是如何保证线程安全的,你知道么?