【导读】机器学习热潮掀起,关于机器学习的误读也随之盛行。为此,机器学习专家、《主算法》作者、华盛顿大学计算机科学教授 Pedro Domingos 日前撰文,指出当下对于机器学习最为常见的十大误解。结合他以前写的文章《机器学习那些事》,能让你更准确地理解机器学习。“机器学习比我们想像的更强大,也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。”

机器学习过去常常在背后发挥作用:亚马逊会根据你的点击给你推荐商品,谷歌基于用户搜索的内容放置广告,Facebook会挖掘你的社交网络以选择显示在你时间线上的帖子。但如今机器学习已经成为新闻头条,处在激烈讨论的浪口风尖。学习算法可以驾驶汽车、翻译演讲,甚至赢得 Jeopardy!

那么,哪些是机器学习能做到的,哪些它们是做不到的呢?它们是否会成为终结隐私、工作甚至人类种群的开端呢?

人们对机器学习的关注越来越多是件好事,因为机器学习必将是塑造未来的主要推动力,我们需要去掌握这项技术。但是,关于机器学习存在一些误解,我们先要理清这些误解。所以,来快速看一下主要的一些误解吧:

误解一:机器学习就是总结数据

实际上,机器学习的主要目的是预测未来。知道你过去看过的电影,仅仅能帮助预测你将来可能会喜欢的电影。你的信用记录能预测你是否会准时还款。如同机器人科学家,学习算法能提出假设、不断改进,但只在预测正确时相信它们。 学习算法还没有科学家那么聪明,但是它们要快上数百万倍。

误解二:学习算法只能发现事物之间的联系

这种印象通常来源于媒体对机器学习的报道。一个著名的例子是,谷歌搜索里“flu”的搜索量增加是流感爆发的早期信号。这挺不错的,但大多数机器学习算法能探索更深层的知识,例如“假如痣的形状不规则,颜色深,而且在增长,那么可能是皮肤癌”。

误解三:机器学习只能发现相关性,无法发现因果关系

实际上,机器学习的最流行的类型之一就包含发现因果关系的本质——尝试不同的行动并观察相应的结果。例如,电商网站可以尝试不同的方式呈现商品并选择那个会产生最大购买量的去部署。你可能已经参与过无数这样的实验而不自知。机器学习甚至可以在无法进行试验的情况下发现因果关系,计算机所做的就是观察过去的数据。

误解四:机器学习无法预测没有发生过的事件

如果某件事从未发现,那么它未来会发生的概率肯定是0——不然是什么呢?相反,机器学习能以高准确率预测罕见事件。如果 A 是 B 的致因,而 B 又是 C 的致因,那么 A 可以导致 C 发生,即使我们从未见过A导致C的事件。每天,垃圾邮件过滤器都在准确地标注垃圾邮件。如 2008 年次贷危机这样的“黑天鹅事件”实际上已经被广泛预测过——当然不是使用当时银行的一些问题很大的风险模型。

误解五:数据越多,越可能产生模式幻觉

一般来说,NSA 有越多的通话记录,就越可能将一个无辜群众当做是潜在的恐怖分子,因为他偶然地匹配到了一个恐怖分子检测规则。挖掘同一实体的更多属性可以增加幻觉的风险,但是机器学习专家非常擅长将其降到最低。另外,挖掘同样的属性集的更多的实体能降低这种风险,因为从中学到的规则将会有更强的支持。一些学习算法可以找到包含多个实体的模式,这样可以提升模型的可靠性:一个在拍摄 NY City Hall 的人并不一定是疑犯,另一个购买了大量的硝酸铵的人也不一定可疑;但是如果这两人存在在一个紧密的电话联系中,可能 FBI 需要去看看,确保这不是一个爆炸点。

误解六:机器学习忽略了已有的知识

在机器学习已经渗透的领域里,专家怀疑地看待他们已经知道的一些机器学习算法的“空盘”方式。真实的知识是推理和实验的长期过程的结果,这个你不可能通过运行一个通用的算法进行模仿。但不是所有的学习算法是从一个空盘开始的,一些算法使用数据去提炼已有的知识,这个非常精妙,当然是依照机器可以理解的方式进行编码。

误解七:人类难以理解机器学到的模型

这是一种自然的顾虑。如果一个学习算法是黑盒,我们如何才能相信它做出的推荐?一些类型的模型实际上很难理解,如代表着机器学习取得最显著成功的深度神经网络(能够识别YouTube视频里的猫)。但是,其他的方法确实是可以理解的,比如上面提到的诊断皮肤癌的规则。这种误解是悲观的,就是说他们假设了机器学习比它实际表现更为受限。

但是,也有一些乐观的误解:

误解八:越简单的模型越准确

这个信念有时候会和奥卡姆剃刀等同起来,但是剃刀法则仅仅是说倾向于更简单的解释,而不是原因。简单模型受欢迎仅仅是它们更加容易被理解、记忆和推理。有时候,与数据一致的最简假设,对预测相对复杂的模型不够准确。一些最强大的学习算法输出的模型,看起来复杂精密得不必要——有时候它们在已经完美地拟合数据后还持续增加。但是,这就是它们能够击败那些相对简单的模型的原因。

误解九:计算机发现的模式可以被当做权威规则使用

假设一个学习算法输出了皮肤癌诊断的规则并且这个规则特别准确(就是能够完全准确地预测出是否确诊),但这不是说你就要相信这些规则。因为数据中微小的变化就可能使得算法导出一个非常不同的——但同样准确的——规则。只有那些可信的规则而不是数据中的随机变化可以被用作相应的权威规则。

误解十:机器学习将很快迈向超人智能

AI 发展的新闻中,很容易得到计算机在视觉、听觉和推理上已经达到了人类的水准,很快就将超越人类的错觉。我们已经走过了人工智能的前 50 年,机器学习是人工智能近期的成就的主要原因,但是我们还有很长的路要走。计算机可以做很多专门的任务,但是它们仍旧没有常识的概念,也没有人真正知道如何去教会它们这些。

现在,你已经知道这些误解。机器学习比我们想像的更强大,也更弱小。如何应用它们是我们的任务——前提是我们对其要有准确的认识。

深度丨《主算法》作者 Pedro Domingos 谈机器学习十大误解相关推荐

  1. 机器学习算法_五分钟了解机器学习十大算法

    本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的机器学习算法. 机器学习是该行业的一个创新且重要的领域.我们为机器学习程序选择的算法类型,取决于我们想要实现的目标. 现在,机器学习有很多算法 ...

  2. 《主算法》作者Pedro Domingos:做机器学习硬件不能只考虑深度学习

    当前,软件进步的速度已经远远超过了芯片制造商可以实现的进步,这使得他们不知道该从何处开始,更不要说如何将它们已经年老的智慧整合起来. [编者按]本文选自The Next Platform,由机器之心编 ...

  3. 面试浅谈之十大排序算法

    面试浅谈之十大排序算法 HELLO,各位博友好,我是阿呆

  4. 【深度学习】Deep Learning必备之必背十大网络结构

    深度学习网络结构: [深度学习]Deep Learning必备之必背十大网络结构 (从公众号转发过来发现图片不能引用,直接点上面链接吧) 昨天的文章介绍了在学习Deep Learning过程中必须背熟 ...

  5. 【深度学习计算机指令系统,彻底搞懂指令十大寻址方式】

    系列文章目录 1.<带你深挖计算机底层逻辑,打通你计算机基础知识的任督二脉> 2.<深度学习计算机底层原理,深度剖析存储器> 3.<基于内存全面理解高速缓冲存储器> ...

  6. 机器学习十大算法之Matlab-9降维算法

    机器学习十大算法之Matlab-9降维算法 降维算法 PCA算法 对数据集进行PCA后再重构 PCA降维-Matlab代码 例子1-系统pca做降维pca_mat.m 例子2-系统pca对简单数据集降 ...

  7. Algorithm:【Algorithm算法进阶之路】之十大经典排序算法

    Algorithm:[Algorithm算法进阶之路]之十大经典排序算法 相关文章 Algorithm:[Algorithm算法进阶之路]之数据结构二十多种算法演示 Algorithm:[Algori ...

  8. 新手入门机器学习十大算法

    新手入门机器学习十大算法 2018年9月17日 磐石 TensorFlowNews, 机器学习 0 在机器学习的世界中,有一种被称为"无免费午餐"的定理. 它意在说明没有哪种算法能 ...

  9. 机器学习十大经典算法之岭回归和LASSO回归

    机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理:https://blog.csdn.net/weixin_43374551/article/details/83688913

最新文章

  1. Spring Boot持久化的简单实现
  2. 权重随机算法的java实现
  3. 【演讲实录】下一代企业级应用架构管理体系
  4. 关于getResource(/)的读取路径问题
  5. CFS 调度器数据结构篇
  6. 全球首个用户分享区块链+AI大数据体系,专业跨境医疗机构“海医通”发布XMC“海医链”
  7. 中国移动MM7API开发问题
  8. AD转换的一个硬件实现原理
  9. Linux裸机开发|LCD背光调节实验
  10. MCU 配置 Cyclone FPGA
  11. html5 苹果 风格,[网页设计]8个超炫酷仿苹果应用的HTML5动画
  12. 个人网站学习实践(wordpress教程)
  13. 【大数据】为什么要学习大数据
  14. 修改迅雷下载链接的方法。
  15. STM32 驱动 GY-302 光照传感器 BH1750 模块(软件IIC与硬件IIC驱动)
  16. Python-OpenCV图像处理(二):模糊操作
  17. 网络摄像机镜头毫米数如何选择
  18. 【STM32】两轮自平衡小车学习笔记1
  19. 2006-4-23八达岭长城
  20. cgcs2000高斯平面直角坐标_如何巧妙记忆高斯积分

热门文章

  1. 译者招募 | 这本“顶级”微积分教材,中文版要来了!
  2. 《写给大家看的Web设计书(第3版)》即将上市
  3. 我和大师Jeffrey Richter相约@北京
  4. 人工智能中图神经网络GNN是什么?
  5. 继Facebook开源PyTorch3D后,谷歌开源TensorFlow 3D场景理解库
  6. 数据科学很性感?不,其实它非常枯燥!
  7. 近期活动盘点:车路协同与智能驾驶思享会(1.22)
  8. 收藏 | 知识图谱论文大合集,干货满满的笔记解读(附资源)
  9. 性能加速最高可达28倍!这个NLP工具包太NB了!
  10. linux如何关闭udp端口,如何阻止linux RHEL7中的udp端口范围(How to block udp ports range in linux RHEL7)...