大数据仍然是1%的游戏。 正如奥赖利(O'Reilly)的新调查数据所表明的那样,这是15%。 根据调查,大多数企业(85%)仍未破解AI和机器学习的代码。 仅有15%的“老练”企业在生产中运行模型已经超过五年。 重要的是,这些相同的公司往往将更多的时间和精力放在关键领域,例如模型偏差和数据隐私,而相对较新手仍在尝试找到“打开”按钮。

不幸的是,对于那些希望通过Google的AutoML之类的自动快捷方式或通过付费顾问来缩小数据科学差距的公司,答案似乎是正确完成数据科学需要时间。 没有捷径。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 。 • 掌握机器学习的13个框架 • 揭秘了机器学习管道 •回顾: 6个机器学习云 • 您应使用哪个Spark机器学习API? ]

精明的公司专注于数据的深度端

首先,需要注意的是,O'Reilly的调查数据来自一个自选群体:参加过O'Reilly事件或通过网络研讨会或其他方式与公司进行过接触的人。 这样的人对数据科学抱有积极的兴趣,即使(如调查数据所示)大多数人并没有真正做很多事情。 但是,对于那些沉迷于大数据经验的人来说,这是一个巨大的人口统计,被称为“老练”的人拥有运行已超过五年的模型。

调查得出的一个有趣的数据点是这些人如何谈论自己。 具有丰富数据经验的公司称数据科学黑桃为数据科学黑桃。 如图所示,那些陷于1990年代“数据挖掘”思维方式的人更喜欢“分析师”。

奥赖利

大数据仍然是1%的游戏。 正如奥赖利(O'Reilly)的新调查数据所表明的那样,这是15%。 根据调查,大多数企业(85%)仍未破解AI和机器学习的代码。 仅有15%的“老练”企业在生产中运行模型已经超过五年。 重要的是,这些相同的公司往往将更多的时间和精力放在关键领域,例如模型偏差和数据隐私,而相对较新手仍在尝试找到“打开”按钮。

不幸的是,对于那些希望通过Google的AutoML之类的自动快捷方式或通过付费顾问来缩小数据科学差距的公司,答案似乎是正确完成数据科学需要时间。 没有捷径。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 。 • 掌握机器学习的13个框架 • 揭秘了机器学习管道 •回顾: 6个机器学习云 • 您应使用哪个Spark机器学习API? ]

精明的公司专注于数据的深度端

首先,需要注意的是,O'Reilly的调查数据来自一个自选群体:参加过O'Reilly事件或通过网络研讨会或其他方式与公司进行过接触的人。 这样的人对数据科学抱有积极的兴趣,即使(如调查数据所示)大多数人并没有真正做很多事情。 但是,对于那些沉迷于大数据经验的人来说,这是一个巨大的人口统计,被称为“老练”的人拥有运行已超过五年的模型。

调查得出的一个有趣的数据点是这些人如何谈论自己。 具有丰富数据经验的公司称数据科学黑桃为数据科学黑桃。 如图所示,那些陷于1990年代“数据挖掘”思维方式的人更喜欢“分析师”。

奥赖利

如图所示,无论公司选择称呼其数据专业人员如何,拥有AI和机器学习功能的企业越有经验,他们就越有可能依靠内部数据科学团队来构建他们的模型。

奥赖利

几乎没有人希望使用云机器学习服务(至少现在还没有),而只有不到两年生产经验的公司倾向于依靠外部顾问来构建他们的机器学习模型。 对于这样的公司来说,这似乎是一个机会,无需对人员进行投资即可获得数据科学的好处,但这是愚蠢的做法。

公司拥有的数据越复杂,其数据科学团队就越会建立模型评估关键指标以确保项目成功。 在所有公司中,产品经理倾向于定义项目成功指标(36%),其中还包括执行管理层(29%)和数据科学团队(21%)。

但是对于经验丰富的公司,虽然产品经理仍然获得最多的引用(34%),但数据科学的领导者(27%)与执行人员大致相等(28%)。

经验最少的公司倾向于寻求执行管理(占31%),而很少寻求数据科学方面的领导(占16%)。 但这不是问题,但事实上,这些数据科学团队最有能力弄清楚如何使用数据并衡量其成功。

常常是盲人带领盲人

依靠高管管理层来推动数据科学的发展让人们想到了一项调查 , 调查显示高管称自己为数据驱动型,但随后却忽略了不支持因直觉而做出的决策的数据(62%的人承认这样做)。

缺乏精通大数据的企业似乎想对数据进行口头上的服务,但是他们不了解有效的数据科学的细微差别。 他们只是缺乏必要的经验来确保他们收集有意义的,公正的数据见解。

当Gartner的安德鲁·怀特 ( Andrew White)谈论理解机器学习模型以及如何培养对结果的信任时,更精明的企业将掌握什么:

[使用AI]的新功能是AI能够重划界限-认为我们过于复杂且不常规的东西现在可以被AI利用。 与以往的技术相比,人工智能(可以兑现承诺)可以处理更复杂,更具认知性的工作。

如果将留给AI的自动化工作的结果说得通的话,那么这个新现实将无法生存。 如果新出现的黑匣子做出决策并改变了人类不了解的结果,那么这些人类很可能会关闭盒子。 因此,一定程度上了解决策非常重要。

但是,了解或解释决策与了解算法的工作原理完全不同。 即使算法将其中的许多内容组合到某种程度,我们甚至都无法证明该过程,但人类应该能够掌握输入,选择,权重和结果的原理。 如果结果和近似输入之间的差异太大,则对算法的信任很可能会失败,这只是人的本性。

不能以顾问的价格购买达到这种理解水平的服务。 它也无法在云中现成。 诸如Google的AutoML之类的工具旨在“使具有有限机器学习知识的开发人员能够训练针对其业务需求的高质量模型。” 这听起来不错,但是从数据科学中获得的很多好处都需要具有数据科学经验。 这不仅仅是调整模型的问题,而是知道如何做到的,这源于经验的反复试验。

此外,正确进行数据科学需要一种文化心态,而这种文化心态又要有经验。 没有捷径。 实际上,这意味着那些在数据科学方面进行了早期投资的公司应该领先于那些没有这样做的公司,而这种竞争优势很可能会持续下去。

对于那些希望追赶的公司,Gartner分析师Svetlana Sicular的经典建议仍然正确:“公司应该向内看。 组织已经拥有比神秘数据科学家更了解自己数据的人。” 只要公司了解好的数据科学需要在企业中花费时间,并为这些人提供学习和发展的空间,他们就不需要捷径。

这个故事“为什么没有捷径来学习机器”最初由InfoWorld发布 。

From: https://www.idginsiderpro.com/article/3297063/why-there-are-no-shortcuts-to-machine-learning.html

为什么机器学习没有捷径相关推荐

  1. 机器学习与分布式机器学习_为什么机器学习没有捷径

    机器学习与分布式机器学习 大数据仍然是1%的游戏. 正如奥赖利(O'Reilly)的新调查数据所暗示的那样,这是15%. 根据调查,大多数企业(85%)仍未破解AI和机器学习的代码. 仅有15%的&q ...

  2. 机器学习没有捷径,根据机器学习算法地图学习是最有效的一种方式!

    <机器学习与应用>由清华大学出版社出版,是机器学习和深度学习领域又一高质量的入门与提高教材.该书系统.深入地讲述了机器学习与深度学习的主要方法与理论,并紧密结合工程实践与应用. https ...

  3. 5个令人兴奋的机器学习深度技术项目

    From time to time I would read some ML/AI/DL papers just to keep up with what's going on in the tech ...

  4. 那些数学不好的程序员?最后都如何了(文末送书)

    不能说每个深耕机器学习的人都学过吴恩达的<机器学习>课程,但他的这门课确是目前让机器学习初学者能够快速对整个体系知识点有比较整体的认识,便于快速入门的首选及最热课程. 根据2019年Fre ...

  5. 《复杂》作者梅拉妮·米歇尔发文直指AI四大谬论,探究AI几度兴衰背后的根源...

    来源:AI科技评论  作者:梅拉妮·米歇尔  论文题目: Why AI is Harder Than We Think 论文地址: https://arxiv.org/pdf/2104.12871.p ...

  6. 文末送书|那些数学不好的程序员?最后都如何了

    不能说每个深耕机器学习的人都学过吴恩达的<机器学习>课程,但他的这门课确是目前让机器学习初学者能够快速对整个体系知识点有比较整体的认识,便于快速入门的首选及最热课程. 根据2019年Fre ...

  7. 为什么机器学习之路没有捷径可走

    https://mp.weixin.qq.com/s/iW56ZsKGVfzVh89tg8AYMQ 作者|Matt Asay 译者|Sambodhi 编辑|Debra 导读:机器学习如火如荼.很多公司 ...

  8. 为什么机器学习之路没有捷径可走?

    来源:AI前线 本文约2200字,建议阅读6分钟. 正确进行数据科学研究不仅仅是一个调整模型的问题. [ 导读 ]机器学习如火如荼.很多公司都想走捷径,试图实现"弯道超车".但是, ...

  9. 机器学习中的数学基础(4.1):支持向量机Support Vector Machine(SVM)

    SVM可以说是一个很经典的二分类问题,属于有监督学习算法的一种.看过那么多的博客知乎解释SVM我一定要自己总结一篇,加深一下自己的理解. 带着问题去读文章会发现,柳暗花明又一村,瞬间李敏浩出现在眼前的 ...

最新文章

  1. android开发之svg全面总结
  2. webstorm设置注释颜色_简单5步了解相关矩阵的注释热图
  3. 【深夜思考】转行学java找不到工作
  4. Coroutine in Java - Quasar Fiber实现--转载
  5. 常见 Serverless 架构模式
  6. SQLserver分页 高效率
  7. batchnorm and relu_日本AND荷重传感器
  8. 【QT】QT从零入门教程(四):菜单栏、工具栏、状态栏
  9. 计算机应用基础复制3,计算机应用基础3(答案)
  10. 数值方法与计算机算法试卷,《数值方法与计算机算法》课程教学大纲.pdf
  11. Python之Numpy操作基础
  12. python系统学习:第二周之字典应用
  13. ms sql server 2005 select guid返回null的问题
  14. Nginx设置跨域配置
  15. 欠采样和过采样_过采样和欠采样
  16. 计算机术语 打桩,动力打桩公式
  17. 「mt4软件」均线指标的应用方法
  18. 腾讯bugly的使用,以及全局抓包配置
  19. 科学巨星的美丽轨迹——走近博弈论大师纳什
  20. 强烈建议你把这5个跨境神器都收藏了

热门文章

  1. 老公与老婆-这才是爱(看完不许哭) (今天情人节一时感动,转载了过来)
  2. BoggleSolver 普林斯顿 算法第四版
  3. 【数据结构】判断两棵树是否相等的算法
  4. 极客日报:京东:应届博士生年薪最高达200万元;苹果暂停俄罗斯App Store广告投放;3月编程语言排行榜出炉|极客头条
  5. 搜索框模糊查询并选中
  6. Android7.0从蓝牙导入联系人开发的实现
  7. 【excel vba】循环和判断
  8. NBP Lumizone(PS亮度蒙版调色插件)v1.1.001版本更新
  9. mysql的最小存储单元_数据库最小的存储单位是
  10. 二手机回收被随意压价?如何“避坑”