什么是数据洞察

随着企业积累数据量增多,数据分析师常常需要处理“长且宽”的数据集。依靠人的经验处理海量数据,从海量数据中发掘出有用的信息无异于大海捞针。虽然人工智能技术的普及和单位算力价格的下降大大降低了数据挖掘的门槛,但是面对一个“长且宽”的稀疏数据集时,仍然需要一定数据预处理技术,降低自动化挖掘的复杂度的同时提高计算效率。因此后续仍然需要研究如何通过人工智能技术帮助数据分析师快速从多维数据集中锁定有用数据切片,这项任务重要且艰巨。

这其中的阻碍体现在:

(1)面对海量信息,无法识别数据中相对重要的部分,业务人员分析无从下手;

(2)难以发现预期以外的信息,人类常掉进思维定式的陷阱;

(3)对于数据的解读,通常需要可视化的手段,大量的数据分析师表示:他们花费的大部分时间都在搜索数据并制作图表上。

元年给出一种构建全流程自动化的多维数据挖掘框架(数据洞察)。通过使用该框架,使用者可以快速的从多维数据集中快速获取关键的信息。

本架构可分为三个部分,解决数据分析过程中的最主要的三个问题:

问题1:如何自动找出数据中相对重要的部分

在处理多维数据时,由于时间和算力的限制,不可能对多维数据集进行无限制的空间检索,因此需要本着“重要则优先”的原则对数据集中相对重要的信息进行优先计算。为此,元年设计了一种有效的多维数据集切分方法能够从多维数据集中找到相对“重要”的数据切片,我们参考了数据挖掘中常用的部分立方体物化技术,减少访问多维数据的计算消耗。提高计算效率。部分立方体物化技术的宗旨是在不遍历数据集的基础上尽可能地预计算数据集中“重要的”数据切片。元年针对多维数据库的特性结合部分物化技术给出了自动挖掘重要的“数据切片”的解决方案,大大提高了数据分析、查询的效率。

问题2:通过算法识别数据具备的特殊模式

在识别了每个重要的数据切片后,每个进程会独立调用查询模块(Subject Query Engine)生成该数据切片的具体数据信息。具体数据信息会按照“重要性优先”原则保存到Subject队列(Subject Queue)中。队列从首位开始进行模式检验(AI Analysis)计算,模式检验模块主要是通过使用数理统计、机器学习、模式识别等技术实现对Subject数据是否满足某种特殊规律的检验。

那么如何才能衡量一个数据是否具备某一个模式。为此元年设计了诸多识别特定模式的算法:

除此之外,也可以根据业务特征定制一些个性化的算以满足模式识别的需要。例如对于监控门店人流量场景而言,其日流量数据呈现明显的周期性,显然从数据中发现这种信息是毫无营养的,因此,可以根据需要定义,符合哪些特征的数据才算是异常,针对上述场景而言,我们可以定义,日流量明显不符合周期性的门店才是“异常”的。

问题3:如何通过智能可视化技术将结构化数据转换为合适的图表

通过检验的洞察结果(Insight)会按照类型进行分类。同时计算洞察得分(score)。最终数据的结果会按照得分进行排序。但在形成最终结果前,需要对洞察结果进行筛选,剔除那些看上去毫无营养的发现。例如通过计算发现,“身高和体重呈现正相关的关系”。该模块会记录用户的反馈,并将反馈结果结构化为剔除条件,对洞察结果集合进行剪枝。对于这些发现是显而易见(Easily Inferable Insight) 我们需要将这些洞察发现在结果中进行剔除。

最后,业务人员是无法直观的从表格数据中获取信息的,这就不可避免地需将洞察结果进行可视化呈现。对于不同的事实类型的需要转换成不同的图表,为此元年设计了专门针对结构化数据进行图表推荐的算法(Smart Data Visualization),通过SDV模块的推荐,结构化数据可以转换为合适的图表,形成数据卡片,以供业务人员查看。

案例介绍

最后我们通过一个案例看一下数据洞察是如何提示企业数据发现的效率的。某服装业龙头企业A日常的经营数据进行监控,通过使用元年数据洞察技术,每日可从数以亿计的数据中自动获取有效的信息,通过结合业务特性定制化开发的模式识别算法,可以快速的将数据中满足该模式的数据抽取出来,平时需要耗费数据分析师3-5天才能“发现”信息,仅需要几分钟就可获取。降低分析成本的同时用户还可以无障碍的访问数据“发现”,在用户之间进行分享,进一步增强了用户的体验,形成了良好的数据驱动氛围。

总结

元年数据洞察对一般业务人员是十分友好的,财务人员无需掌握复杂的数理统计方法。仅需一个指令,多维数据集中,关于业财的重要信息,就会以图表的方式直观的呈现出来。解决了用户在面对“长且宽”的多维数据时无从下手分析的困境。

通过对多维业财数据集进行洞察算法研究,可以为企业内部财务分析人员、财务BP等业财相关人员直接数据赋能和算法赋能,让其变为公民级数据科学家,帮助他们从数据中快速获取值得关注的信息(例如趋势的变化)、发现异常数据(例如某些产品的表现异常),获得业务层级的行动建议(例如某个大客户可能会流失,需要进行维护),最终实现更为敏捷的数据驱动。

元年智答|数据洞察功能介绍相关推荐

  1. EZDML的SQL数据查询功能介绍

    EZDML自带了一个SQL查询工具,当然它比较简单,不能代替我们常用的开发工具,但在救急时也能当个临时工,同时它跟模型结合来做一些数据查询操作也非常方便.接下来我们以之前导入过的MES模型为例简单介绍 ...

  2. SQLServer CDC数据迁移和数据抽取功能介绍 2

    数据库环境: 1.SQLServer 2008R2 2.SQLServer 代理打开 一.新建一个数据库 创建数据库 Incremental_DB image.png 二.创建俩张测试表 数据库脚本链 ...

  3. 群智大数据:感知、优选与理解

    摘要:移动群智感知是一种新的大规模感知模式,它利用随身携带的智能移动终端(智能手机.可穿戴设备等)形成大规模.随时随地且与人们日常生活密切相关的感知系统.通过广大用户参与获取的感知数据具有多模态.富内 ...

  4. 当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

    原文链接:当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么? 课件获取:关注公众号__ "数栈研习社",后台私信 "Taier"__ ...

  5. Agora 教程丨一个典型案例,教你如何使用水晶球“数据洞察”

    7 月初,声网Agora 水晶球的"数据洞察"功能正式版上线."数据洞察"可显示两种数据,一种是用量,另一种是质量. "数据洞察"的&quo ...

  6. 水晶球“数据洞察”正式上线:洞悉用量趋势变化,觉察互动体验细节

    声网"水晶球"是声网基于实时通信全链路数据,提供的全周期质量监测.回溯的自主数据分析工具,可以帮开发者及时发现问题,定位原因,并高效解决问题,以提升客户的运营效率和用户的体验. 近 ...

  7. 数据智仓功能介绍(四)

    字段设置 使用场景介绍 字段设置,即在数据智仓中,对输入上一数据处理节点的字段进行显示和隐藏.排序.重命名等操作. 操作配置 对数据类型的转换,主要用户复杂数据的处理的情况下 ,例如某个字段是JSON ...

  8. 【实践案例】Databricks 数据洞察 Delta Lake 在基智科技(STEPONE)的应用实践

    简介: 获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:https://www.aliyun.com/product/bigdata/spark 作者 高爽,基智科技数据中心 ...

  9. 1、solr包结构介绍,solrCore的安装配置,solr部署到Tomcat,多solrCore配置,配置中文分词器,界面功能介绍,Schema.xml的基本使用,数据导入

    一.下载solr,下载地址是:http://archive.apache.org/dist/lucene/solr/,选择自己想要的solr的版本,本项目使用的版本是4.10.3 二.如果想下载Luc ...

最新文章

  1. readelf和ldd分析elf文件
  2. scipy.sparse.coo_matrix、csr_matrix、lil_matrix、dia_matrix
  3. python装饰器实例-python 装饰器的使用示例
  4. Spring Boot CLI 入门项目
  5. Kubernetes API 聚合开发汇总
  6. 从深度学习选择什么样的gpu来谈谈gpu的硬件架构
  7. Mongodb在Linux下的安装和启动和配置
  8. GitHub中watch、star、fork的作用
  9. 有BRT,为啥还建公交港湾
  10. 正态分布概率表_三、统计概率思维
  11. Redis面试刁难大全
  12. 给年轻工程师的十大忠告[转载]
  13. JavaWeb程序的目录结构(2)
  14. vb6 控件未注册问题解决
  15. 数据分析项目: 链家房源分析
  16. ps-ef命令linux,【Linux】- ps -ef |grep 命令
  17. 13个坏习惯让IT工作者过度劳累
  18. 宏碁笔记本u盘装系统如何进入bios设置u盘启动图文教程
  19. 关于网络安全里蜜罐的详细介绍
  20. 1型错误和2型错误_明光1型分开式轨道扣件系统工厂

热门文章

  1. TIKTOK公会怎么申请?
  2. House-GAN 论文阅读
  3. 鸿蒙石boss 怎么杀,横少西游各帮派BOSS打法攻略
  4. 小学生关于上计算机课的感受,《如何上好小学信息技术课》小学信息技术优课听课体会...
  5. (转载)云计算系统测试_manok_新浪博客
  6. C - Rumor CodeForces - 893C
  7. GTX1660Ti不支持cuda8.0
  8. 养成番:0基础入门学习Python---Day05(元组、二维元组、字典、set集合以及操作方法)
  9. 好用的三维绘图软件CREO学习检查
  10. 绝地求生刺激战场怎么维护服务器,绝地求生刺激战场更新维护公告