指标波动多大才算是异常?
指标数据波动,是各种业务场景下都会遇见的情况,如每日GMV、每日订单量等,都是在不断变化的。大多数情况下,变化是“正常”的波动,但有一些波动,源于突然发生的外部原因或其他未被预期的因素,导致其表现出不同于正常模式的异常状态。若能准确地识别异常波动,从而做出波动预警,并及时应对,就能一定程度上保证所关心的业务场景系统的整体稳定性。

波动类型
数据+时间构成了波动的两个基本属性。
(1)一次性波动:偶发的、突然性的波动。一般是由于短期、突发的事件而影响的指标的波动,比如说某头部主播在某次直播里上了严选的商品、某明星的同款商品在严选有库存等,就会造成订单量临时性的超出预期的上涨。

(2)周期性波动:这种波动和时间节点强相关,且经常以周或者季、年为循环节点。如羽绒服秋冬季节卖的比较好,到了春天销量就下降,夏天几乎没有销量,且每年几乎都是这样。

(3)持续性波动:从某一时间开始,指标一直呈现上涨/下降趋势。如从今年4月开始,浴室香氛品类的销售量一直呈现上涨趋势,这就属于持续性波动。而持续性波动背后的原因往往是更深刻的,如订单结构的变化、环境因素的影响,从而出现了这种持续性趋势。

异常识别
(1)绝对值预警:即是通过设定一定的阈值,当指标低于/高于阈值的时候,就认为此时指标波动为异常,并进行预警。
举例 严选作为一个品牌,毛利是其核心的一个指标。对毛利可设置绝对值预警:当毛利为负时,就认为此时是异常的情况,需要探究其发生的原因,并解释这种异常的波动。通过对毛利的绝对值预警,严选及时发现了部分用户利用咖啡机进行薅羊毛、从而导致咖啡机毛利为负的行为,并完善了规则减少了严选的损失。

不仅可以设置低于某一个定值,也可以当指标高于某一定值的时候进行预警,比如在供应链中,某个大仓的分仓比高于40%,就会导致仓库负荷过重从而影响生产。

(2)相对值预警:相对值预警可以根据历史数据及波动情况,来判断当前的波动是否为异常。
【同比环比】:同比环比是业务场景中比较常用的一种异常检测方式,利用当前时间周期与前一个时间周期(同比)和过去的同一个时间周期(同比)比较,超过一定的阈值即认为该点是异常的。实际中常用周/日环比、年同比来进行比较。

【周期平滑】:同比/环比仅使用1~2个时间点的数据,容易受到数据本身质量的影响:当历史同期或上个周期的数据本身就是“异常”的时候,用“异常”的数据来判断是否“异常”就不太合适。

一个很自然的想法就是将所参考的时间点拓展,利用多个时间点的周期数据进行平滑,得到当前时刻指标的对比值。

【假设检验(3σ原则)】:根据大数定律和假设检验,如当z=1.96时,置信水平为95%,即可认为在100次的波动下,有95次是在正常范围内波动的(置信水平及其对应的值可参考标准正态分布表)。当z=2.58,置信水平为99%,即为著名的“3σ原则”。

数据分析见解-数据异常波动相关推荐

  1. python图片自动校正流量_案例:基于自动节点树的数据异常原因下探分析(python_029)...

    在流量数据化运营中,数据异常波动时,就需要分析师找到主要影响因素,并分析原因.这种异常数据检测的场景包括:监测网站平均订单价值.订单量.订单转化率波动:注册或登录的异常变化:某个登录页面浏览量趋势:正 ...

  2. 怎么计算一组数据的波动_数据分析(一):数据描述统计

    一. 数据描述统计 看了一个纪录片 - The Joy Of Stats <统计的乐趣>,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思 ...

  3. 点线面数据异常分析,鱼骨图找原因

    某超市本月付费用户较上月下降了 10%,老板非常担心,希望数据分析团队能够针对该问题进行深入分析,定位到问题所在,如果你是该团队中的一员,接下来你该如何进行分析,请把分析思路及拆解指标进行详细描述和展 ...

  4. 数据分析(3)——数据描述

    在前面的文章中介绍了平均数和数据的尺度,但仅仅通过它们来描述数据是不够的,还需要通过更多的度量描述数据. 测度中心 上一章已经介绍过测度中心(measure of center),测度中心也被称为数据 ...

  5. 震惊!(竟有这么好的)时序数据异常检测算法简述与分类

                       时序数据异常检测算法简述与分类 摘要:异常检测是目前时序数据分析最成熟的应用之一,有效的异常检测被广泛用于现实世界的很多领域,例如量化交易,网络安全检测.自动驾驶 ...

  6. 指标搭建篇:如何快速定位数据异常?——ROI异常实战案例

    前面我们已经了解了指标体系的搭建,当完成指标体系之后,商业智能就成了指标体系最常见的应用,其中数据报表和指标监控也成了大多数数据分析师每天最重要的工作. 虽然指标是一个确定的值,但是反应在时间轴上,却 ...

  7. 解读:大数据分析及其数据来源

    当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深 ...

  8. 大数据分析的“数据来源”有哪些?

    当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深 ...

  9. Excel数据分析入门-数据图表

    相比于冗长枯燥的文字报告,Excel 中的数据表格显得更有说服力:之前的文章讲过,我们可以借助函数和公式自定义数据,也可以用数据透视表来实现数据的分类和归纳:但有时当数据量过大,或数字过于抽象时,表格 ...

最新文章

  1. mybatis注解详解
  2. 标准粒子群算法(PSO)及其Matlab程序和常见改进算法
  3. Day 26: TogetherJS —— 让我们一起来编程!
  4. mysql pxc测试_Mysql同步机制 - PXC 压力测试 tpcc安装及使用
  5. 学成在线案例——黑马程序员pink老师\思路讲解\完整源代码
  6. html5邀请函在线制作,很炫的html5年会邀请函
  7. 数据库-MySQL中间的注释
  8. Oracle把Java EE的未来押在Rest API上了?
  9. ant-mobile的Toast的样式修改(react)
  10. 牛津计算机科学要求,牛津布鲁克斯大学计算机科学本科申请条件.pdf
  11. B站崩了,一群跟着躺枪!「小破站」到底发生了什么?
  12. 短信平台市场蒸蒸日上的根本原因
  13. 无需root对oppo内置软件卸载方法
  14. 进入web端进行来源判断后 自动跳转至wap端页面
  15. 如何防止工具(八门神器)进行内存修改(转)
  16. MybatisPlus整合SpringBoot全教程,用起来不要太方便
  17. 注册ActiveX控件简单方法及控件未被正确授权解决方案
  18. 哈尔滨工业大学计算机考研复试分数线,34所自划线院校2021考研复试分数线-2021哈尔滨工业大学考研分数线已公布...
  19. 磁盘阵列RAID技术大讲堂
  20. 用秩的定义求矩阵的秩

热门文章

  1. Android Studio Error: Google Play requires that apps target API level 30 or higher.
  2. 未来的计算机450字,未来的手机作文450字
  3. WiFi的一些连接信息
  4. python做万花筒代码_Python实现PS滤镜的万花筒效果示例
  5. java毕业设计公告管理mybatis+源码+调试部署+系统+数据库+lw
  6. 备战2022春招和暑期实习!我建了一个AI算法岗求职群!
  7. hosts修改突然不起作用
  8. halcon给图像添加不同颜色的透明遮罩(叠加透明ROI)
  9. 编译原理:2. 词法分析
  10. SharePoint 2013 的软件边界和限制