分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请点击http://www.captainbed.net

不要盲目相信数据质量,但凡数据都值得怀疑,因为这里面出错的可能性太高了。数据在分析前后,经历了很多道工序,从数据定义、上报、汇总、加工、到分析使用,每一道工序都可能出错,这使得数据风险大大提升。

本文为大家总结了数据出错的各种可能性,以及对应的分析应对方法,帮助大家更好的使用数据。

一、数据可能出错的环节:

1.数据来源:

  • 使用同源数据:同一个数据,有很多种来源。有些可能来自于埋点平台,有些来自于服务端记录,甚至还有些来自于人工记录。这些数据可能存在微弱的区别,使用的时候需要统一一个来源,不要盲目拼接,这样很容易出错。
  • 数据定义一致:有时候甚至同一种来源里,也有很多不同的记录和统计逻辑,这意味着在使用数据前,我们需要确认数据定义的一致性。举个例子,同样都是人均消费数量,如果A的理解是人均消费数量=消费总数量/日活人数。B的理解是人均消费数量=消费总数量/消费人数。那么数据完全不可比较
  • 排除错误数据:有的时候,功能迭代后,数据上报会出现问题。导致某个阶段的数据没法正常统计,这些数据需要排除,否则会极大干扰结果

2.数据内容:

  • 排除虚假数据:有的时候,不是所有数据都是真实可信的数据。一些竞争对手可能会恶意刷我们的数据,导致我们没法正常分析。也有可能我们自己出于一些功能测试的考虑,会设置一些虚假流量数据。在进行数据分析的时候,要留意这些虚假值,不要因为他们的存在影响分析判断。
  • 了解字段覆盖情况:实际工作过程里,出于种种原因,我们会发现很多数据字段的覆盖率不全。比如性别、年龄等等字段,这个时候需要弄明白,究竟什么情况下数据会缺失,不要盲目相信数据是随机采样的。因为很可能部分用户因为共同的问题,没有提供类似字段,导致样本存在明显偏差。举个例子,如果用户的性别、年龄字段是根据身份证号取得的,而只有核心粉丝才会填写自己的身份证号,那么我们在分析这个性别、年龄分布的时候,就要有个思想准备,它不代表真实的用户情况
  • 清洗错误数据:数据出错,是最常见的问题了。比如你可能会发现性别字段里,除了男女,还出现了数字。这可能是因为上报逻辑不统一。又比如你可能会发现一些浏览时长出现了“年”级别的数值,这可能也是上报错误。又比如一些用户ID类的字段,数字位数不正确等等。这些错误,有些很难发现,但是如果在使用数据前,抽样浏览一下明细数据,能极大程度上避免犯错。

3.数据加工过程:

  • 谨慎对待人工处理:但凡涉及人的环节,都很容易出错。比如复杂的excel处理,大量的数据问卷采集工作等等。在实践工作里,但凡能让机器处理的,就都尽可能交给机器。自动化的加工远比人工处理来得放心,也更容易批量处理。如果一定要人处理,也可以通过一些模板、格式要求,来限定人们的输入范围,避免离谱的错误,和后期的纠正成本。
  • 格式转换要小心:数据有很多类型,不同类型互相转换的过程中,也很容易出错。常见的字符串类型转数值,浮点转整数等等,都很容易丢失信息。这个过程只能小心,并且多加检查,没有别的好办法。

二、应对数据不准确的问题:

1.数据校验:

数据校验,也就是检验数据的准确性。没有经历这一步的数据分析,都将充满巨大风险。数据校验有很多种方法:

  • 外部数据印证:外部数据印证,是指拿多个数据源的数据进行相互对比,如果发现对不上,就可能存在着问题。一定不要轻易放过这些偏差,觉得仅仅只是误差。这些问题的背后,往往藏着一些程序错误,或者流程漏洞。
  • 数据相互印证:数据相互印证,是指数据加工过程中的前后对比,比如数据处理前后,同一个指标的平均值出现了巨大差异,而又不符合逻辑时,就说明加工过程出了问题。又比如通过不同的数据,算出来的类似指标之间,存在明显区别,那么也说明了数据加工错误。
  • 数据合理性判断:正常来说,数据有自己合理的范围,比如每次阅读文章大概在几分钟,用户每天登录的次数大概在十几次,广告点击率在百分之十以下,如果出现了一个特别异常的值,那么就值得特别注意。此外,除了这些参考值以外,还可以同比环比横向比,如果发现某个值不符合预期,那么也应该仔细分析。

2.使用数据的习惯:

即便数据一时半会没有发现问题,也需要注意数据的使用习惯。遵循这些经验,你将避开很多潜在的坑点。

  • 了解数据问题:如果你刚刚接手一批数据,那么最好不要直接开始自己探索,问问数据管理者和使用者,让他们告诉你数据有哪些问题,这样能节约你很多的时间
  • 用前先扫一眼:在使用数据之前,需要先抽样扫读一下明细数据,这样能帮你发现大部分明显问题。解决了这20%的关键问题后,剩下的数据问题,对结果的影响也就没那么大了
  • 及时报告问题:如果发现数据有问题,需要及时进行沟通上报,因为如果不修复这个问题,问题就一直在,而且很可能会因为这些错误数据,带来有误导性的结论

总结一下:

完美的数据很少见,绝大部分时候我们接触到的数据都是不健全的,我们需要做的,是严格审视自己面对的数据,带着怀疑态度处理,千万不要盲目相信。一些严谨的使用习惯和分析习惯,能帮你避免数据有误带来的大坑。

Software Testing - 如何保证数据准确性相关推荐

  1. 数分面试:如何保证数据准确性?

    如何用科学的方法,保障数据准确性 |0x00 问题描述 我是小z 前几天面试问了一个问题:怎么保证数据的正确性? 以下是原文: 上游,会遇到根源性问题,比如客户端在数据上报时就传错的情况,比如手抖把下 ...

  2. 关于数据准确性,精益求精,神策数据矢志不渝的坚持

    你是否遭遇过以下场景? 老板:"你提交的报告,怎么和我查的不一样?" 业务部:"ERP 后台显示成单 687 笔,你怎么告诉我成单 620 笔?" 运营:&qu ...

  3. 关于ETL过程如何保证数据量的准确性和数据的正确性的讨论

    关于 ETL 过程如何保证数据量的准确性和数据的正确性的讨论 Flywolf2000 这个问题很简单,就是 ETL 过程中,你怎么保证数据的准确性,这个准确性包含两个方面:数据量的准确性,数值的正确性 ...

  4. 手机软件测试英语,手机软件测试,mobile phone software testing,音标,读音,翻译,英文例句,英语词典...

    补充资料:软件测试 软件测试 software testing 配置项测试和系统测试. 加强测试管理对于保证测试可靠性十分重要,应按系统化的流程做好4步工作:①制定测试计划,确定总方针.资源及进度:② ...

  5. 软件测试自学英语计划,软件测试计划,software testing plan,音标,读音,翻译,英文例句,英语词典...

    补充资料:软件测试 软件测试 software testing 配置项测试和系统测试. 加强测试管理对于保证测试可靠性十分重要,应按系统化的流程做好4步工作:①制定测试计划,确定总方针.资源及进度:② ...

  6. 探索式软件测试—Exploratory Software Testing

    最近找到去年上半年看过一本关于测试方面书籍的总结笔记,一直放在我的个人U盘里,当时是用Xmind记录的,现在重新整理下分享给大家了! James A.Whittaker [美] 詹姆斯·惠特克(软件测 ...

  7. c# mysql代码中写事务_代码中添加事务控制 VS(数据库存储过程+事务) 保证数据的完整性与一致性...

    [c#]代码库代码中使用事务前提:务必保证一个功能(或用例)在同一个打开的数据连接上,放到同一个事务里面操作. 首先是在D层添加一个类为了保存当前操作的这一个连接放到一个事务中执行,并事务执行打开同一 ...

  8. 如何用科学的方法,保障数据准确性

    |0x00 问题描述 上周收到一位读者的询问:怎么保证数据的正确性? 以下是原文: 上游,会遇到根源性问题,比如客户端在数据上报时就传错的情况,比如手抖把下单时间不小心上报成了用户点击商品详情的时间. ...

  9. 如何设计账户余额的数据准确性?

    文章目录 前言 如何设计账户余额的数据准确性? 1.为什么对不住账? 2.如何设计 2.1.设计账户流水的原则: 2.2.详细设计: 前言   如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连 ...

最新文章

  1. hbase java 端口_HBase远程Java客户端尝试通过随机端口进行身份验证
  2. python性能解决_Python性能优化的20条建议
  3. SEO优化技巧:16个方法优化网页中的图片
  4. Java并发编程—volatile关键字(保证变量的可见性、有序性机制)
  5. memcache在ThinkPHP中的使用1---PHP下安装memcache
  6. Linux下的程序调试——GDB
  7. day 05 字典dic(增删改查 嵌套)
  8. SpringMVC之安全性(三)Twitter登入
  9. zip和unzip命令使用
  10. 应用计算机测量伏安特性实验报告,传感器原理与应用实验报告(共10篇).doc
  11. 算法设计与分析——背包问题(Java)
  12. Twitter引流如何开发客户
  13. 2015年1月9日XX大学XX学院考试题
  14. vuex 是什么? 以及它的基本使用
  15. Excel如何为单元格内的部分文字添加超链接
  16. 老王课程学习,第八课
  17. php语言加减乘除函数,php的chr和ord函数实现字符加减乘除运算实现代码_PHP教程...
  18. 全息成像与重建内容的一些补充
  19. 探讨10kV配电运维风险及检修对策-易电务
  20. 计算机专业大学生未来展望,计算机专业大学生毕业自我鉴定2020

热门文章

  1. 经验总结之 小黄狗智能回收App2.0
  2. 企业如何做好数据管理?产品选型怎么做?
  3. 微信小程序宠物论坛4
  4. 【从零开始学Skynet】基础篇(五):简易聊天室
  5. 如下现有一个保险政策类InsurancePolicy
  6. [WINDOWS]蓝屏0x00000050错误分析(转)
  7. redis系列五redis-cluste集群的搭建
  8. 【干活】关于拦截封包的两个不同版本的recv函数
  9. iPad断触问题,iPencil正常,手指断触11个简便解决方法
  10. python画静态烟花_新年快乐! python实现绚烂的烟花绽放效果