最近这两天老看到这样的观点,在当代,人们更应该放更多的时间在事物的相关性,数据的相关性,而非去努力的寻找原因。事实上“因果”的关系非常的复杂,绝对意义上的因果,也是不存在的。

http://www.china-cloud.com/yunhudong/yunzhuanlan/guhongwen/2013/1201/21934.html

作为一本科技类的图书,《大数据时代》出版一年时间依旧火热,并且在机场书店畅销书架和地铁附近盗版书摊都能够看得到,不能不说是个传奇。“大数据释放出的极高价值不但会让它成为一笔不错的交易,而且也是不可避免的。但是在我们到达最终目的地之前,我们有必要了解我们怎样到达。”维克托·迈尔·舍恩伯格在《大数据时代》一书中这样说。事实真是这样吗?就是在一年的火爆之中,我们也时常能够听到一些对于《大数据时代》质疑的声音。其中最多的,就是作者过多偏重对于大数据案例实用角度的功利性解读,有时甚至是重复或过度解读,以及过分的强调相关性,而对于追求因果性绝对的放弃。比如,作者提出强调“强关系”,而不是弱关系。认为知道“是什么”就够了,没有必要知道“为什么”。

的确,舍恩伯格在《大数据时代》一书中这样写道:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声。”以及“相关关系能够帮助我们更好地了解这个世界。”他认为,建立在相关关系分析法上面的预测是大数据的核心。通过找到“关联物”并监控它,我们就能够预测未来。另外书中也存在一些摇摆和含混的概念,例如和他提出的全量数据理论相悖的是,从实用角度,他也建议当收集、分析、存储数据成本比较高的时候,应当适时的丢弃一些数据。即便是关于什么是“全量数据”,作者也是处于摇摆之中,有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。

有些读者也认为,就是作者在书中提出的“大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。前两者很多时候也是相悖的,尤其是在我们今天很多的情况下,即历史数据占有的不够充分,通过大数据的收集方法和分析方法,要把所有能收集的数据都收集,再集中展开分析,这种研究方法是缺乏时效性的。

即便是该书的译者成都科技大学的周涛教授,也在序言中对于“大数据时代相关关系比因果关系更重要”这个观点表示不能苟同。他认为,这是一种机器学习以结果为导向的研究思路,让我们注重“计算机工程”,而忽略了“科学”,得到了“结果”,但失去了“过程”。更让周涛教授担心的是,放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。

事实上我和周涛的观点类似,“因果性和相关性”这样的问题在本质上可以认为是人类思维和机器思维的区别。我们不能说让机器数据分析更加关注因果性,而应该考虑怎么加入人类文化、心智以及经验这样的因素,也就是考虑结果的人工干预的方式和深度,以及在未来人类和机器智能共生的时代,人类怎么能够发挥独特的优势?通过两种思维、文化的融合、互补而达到和谐共处和相互提升。

截止到目前以及在可见的将来,计算机所能够提供给我们的结论都应该是相关性的。但是,我们人类常说“有因必有果”,是要说明一种必然的联系,它是哲学或者佛学使用较多的概念。当然,在它们的解释中因果也经常被描述为一种前后顺延的思维关系,指的很多还是经验的归纳或者习惯的联想。而其中最最关键的,因果必须是从“人”的立场才能理解的,是“自然的人化”。

即便我们认为理所当然的因果,也有时间或者条件的限制,比如“种瓜得瓜,种豆得豆”,或者说“从9层高楼坠落会死掉的”,在这些里面也需要很多限制条件,即“外部数据”或者“概率”。所以佛教里面还有个“缘”的概念,也是指的外部条件,或者是概率。比如“种瓜得瓜”,“缘”就是还需要季节、雨露以及种子不被破坏这些因素,“种了瓜”但是种子被小鸟叼走了再不小心丢下一颗豆子,种瓜的人“得到豆”也是可能的。在这样的条件下如果没有足够信息,当初种瓜的人回来只会看到得到一棵“豆”的果。更进一步,这样的因果性强调更多是人/甚至人类整体的记忆,或者经验,另外还有规律性等等条件。俗话“一因对应一果”,事实上“因果”的关系非常的复杂,绝对意义上的因果,也是不存在的。

叶·扎米亚京在《我们》一书中谈到一则“野蛮人”和“晴雨计”的故事。说“野蛮人”发现,每当晴雨计停在“雨”宇上的时候,确实就会下雨。野蛮人正想求雨,他就把晴雨计中的水银弄出来些,使晴雨计正好停在“雨”上。很多读者对于《大数据时代》的批评也是基于这样的简单例子。比如说“公鸡打鸣与太阳升起总是同时发生,这并不表示把全世界所有的公鸡都杀光了后太阳就升不起来了。”,以及“有数据表明打太极拳的人和不打太极拳的人平均寿命相同。事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性。”

人类渴求确定性,但是整个科学研究和社会过程都充满了不确定性。尤其是在目前大数据研究的情况下,我们并不能据此就批评作者“过分地”强调“相关性”是不对的,这不仅是限于机器智能的内因,也是有大数据探索初期阶段的外因。

首先,科学研究鼓励试错,我们人类的发展就是在不断试错,寻找相关性的过程中前进的。其次,在一场变革或者技术的初期,我们总要找到最简单、甚至看起来很粗糙的方式发挥出它的效能。当然,这也还跟目前数据量、数据化和数据保存以及分析工具等错综复杂的因素有关,这也有待于大数据发展中的“缘”的积累。

在今天对大数据我们最为关键的,就是利用这样的相关性关系研究,把数据里面的金子挖出来,或者利用相关性,预防或促成某些结果的发生。我们需要一定的速度,应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”很高的问题,然后才是对其过程和背后原因的探询。

正如有读者提出来的,“大数据的强大之处就在于通过数据挖掘,能够披露珍藏在海浪数据下的潜信息、隐信息,让我们获得第三只眼,越来越多拥有未卜先知的能力。大数据不提供关于世界的真相和原理,只通过知其然而不知其所以然的那些判断。”“有时候,影响因素成千上万,解释的理论更加是多如牛毛,强找因果关系很难。”很多读者也都会认同。“对要求快速反应的事件(如股票预测和流感趋势),我们更迫切的是想知道接下来要怎么做,而并非要找因果关系。”

著名的《蒸汽朋克》杂志的座右铭是“热爱机器,憎恨工厂”。我们都知道技术对于整个社会发展的作用,甚至是决定性的。而且,技术太快或者太慢都可能导致社会崩溃。我们不会是路德主义者,也不是纯技术主义者。不是实用主义者,也不是理想主义者。在今天,我们只是探索者和开拓者。事实上,互联网独立评论人谢文在《大数据时代》一书的序中也说:“最重要的,人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力防在相关关系的发现和使用上。”他认为,弄清而者为什么相关,可以留待学者们慢慢研究。只要发现了两个现象之间存在的显著相关性,就可以创造出巨大的经济或者社会效益。

在自己的书中,舍恩伯格也提到了人类有急于寻找因果性的冲动,而有时候找到的所谓“因果”也并非真正的因果。表面理性的人常常被非理性所迷惑,满足于想当然的解释。在这种情况下,片面甚至错误的因果性还真的没有相关性靠谱。因此,尽管他也认为因果关系是有用的,但不能作为理论基础。最终,舍恩伯格也提出:“在大多数情况下,一旦我们完成了对大数据的相关性分析,而又不再仅仅满足于‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的为什么。”

强关系若因果,趋势胜过精准度,证伪而非证实的方法论,相关推荐

  1. razer鼠标测试软件,比HERO更强么,雷蛇FOCUS+引擎蝰蛇V2精准度测试

    在鼠标引擎上,罗技HERO曾经一枝独秀,虽然赛睿有TrueMove.冰豹有Owl-Eye夜枭,但都不具备低功耗的特性,只能归类为传统游戏类引擎.作为体量接近罗技的一线品牌,雷蛇成为了一些人期待与之抗衡 ...

  2. 将你一张表的值覆盖_精准度可达亚米级,山东“北斗一张网”向社会免费开放...

    齐鲁晚报·齐鲁壹点记者张阿凤通讯员苏彬 8月21日,山东省北斗卫星导航定位基准站网(以下简称"北斗一张网")推广应用座谈会在济南举行."北斗一张网"自2019年 ...

  3. 安卓3d游戏开发引擎_鲁大师安卓3D引擎更新,跑分测试精准度再升级

    去年十月份的时候,鲁大师曾发布了针对安卓性能跑分的重大升级版本v9.0.与国内知名游戏工作室"西山居"合作,更换了全新的Unity 3D渲染引擎,又将原有的测试项目进行了部分精简, ...

  4. SEM竞价推广如何提升流量精准度,增加展现、排名、线索量?

    SEM竞价推广如何提升流量精准度,增加展现.排名.线索量?   SEM竞价推广的核心在于流量的精准度.那么,可以从那几个角度来提升SEM竞价推广流量的精准度呢? 1.在搭建账户,选定核心市场阶段: 选 ...

  5. sensei鼠标测试软件,「硬核测试:游戏鼠标精准度」赛睿SENSEI 310

    原标题:「硬核测试:游戏鼠标精准度」赛睿SENSEI 310 作为赛睿最热销游戏鼠标之一,310有SENSEI(对称)和RIVAL(右手)两个版本,均采用今天要测的TrueMove3引擎,是基于PMW ...

  6. 景联文智能标注平台将数据处理效率提升十倍以上!数据精准度最高可达99%

    目前主流的机器学习方式是以有监督的深度学习方式为主,这对标注数据有着强较依赖性需求,未经标注处理过的原始数据多以非结构化数据为主,这些数据难以被机器识别和学习.这就需要标注员借助数据标注工具对数据进行 ...

  7. l5630鲁大师跑分_鲁大师安卓3D引擎更新,跑分测试精准度再升级

    今年十月份的时候,鲁大师曾发布了针对安卓性能跑分的重大升级版本v9.0.与国内知名游戏工作室"西山居"合作,更换了全新的Unity 3D渲染引擎,又将原有的测试项目进行了部分精简, ...

  8. 如何一步让你图像分类达到90%以上精准度

    这段时间一直在做图像分类相关的项目,也认识了很多这个领域的小伙伴们,有不少小伙伴们都是刚接触图像分类,对着各种个样的图像分类算法:AlexNet.VGG-16.VGG-19.ResNet-都是一脸茫然 ...

  9. 不知道血糖仪精准度如何调 看看这篇文章就知道了

    随着生活水平的提高,越来越多的人和高血糖搭上了关系,于是,家用血糖仪也出现在越来越多的人家中,方便大家进行血糖自我监测. 不过还是有不少患者会提出一些疑问,比如"为什么我买的血糖仪测量出来的 ...

最新文章

  1. 远程服务器如何传文件大小,linux服务器远程传文件大小
  2. matlab科学计算及分析,matlab科学计算
  3. python学习笔记---字符串
  4. Administer Service Cloud
  5. Ubuntu14.04下安装wineqq国际版和卸载QQ
  6. 购买使用vps建站(3)
  7. 1xx、101、100 状态详解
  8. 精彩十年(2)——阴沟里也翻船
  9. python gevent教程_Python的gevent框架的入门教程
  10. oracle 性能优化 07_诊断事件
  11. 利用nginx建立windows软连,实现IP访问文件
  12. 方法重写(重点)-->多态
  13. c++ 多线程 垃圾回收器_并行并发CMS垃圾回收器:-XX:+UseConcMarkSweepGC
  14. 安装python的pip模块
  15. java 1.6 最大化_关于java:JDK 1.6和1.7中的新功能
  16. python 拟牛顿法 求非线性方程_9-非线性优化
  17. ASP.NET Core 的启动和运行机制
  18. 千万58招聘人员的选择值得信赖-米苏 58自动循环发帖器V9.03
  19. 怎么使用svn下载到本地
  20. ffmpeg 源代码简单分析 :av_read_frame()

热门文章

  1. 自定义控件之AndroidSegmentControlView,仿IOS平台UISegmentControlView,继承自View
  2. A股信息披露质量KV指数上市公司研发支出
  3. 链表ListNode基本用法,力扣第2题,两数相加
  4. 怎么用ChemDraw绘制动物细胞结构
  5. 最专业的人工智能学习网站推荐
  6. pitch yaw roll
  7. RAFT:Recurrent All-Pairs Field Transforms for Optical Flow
  8. 用“8”个字谈谈华为Dorado V3产品和技术
  9. 华为手机正式发布鸿蒙,华为鸿蒙 2.0正式发布!明年华为手机将全面支持
  10. 高通历年旗舰机处理器