全世界只有3.14 % 的人关注了

数据与算法之美

编者按:随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于非专业人士来说略为玄幻。这篇文章为读者梳理了包括这些在内的12个关键词,希望帮助读者更清晰地理解,这项人工智能技术的内涵和潜能。

1、 机器学习

汤姆·米歇尔教授任职于卡内基梅陇大学计算机学院、机器学习系,根据他在《机器学习》一书中的定义,机器学习是“研究如何打造可以根据经验自动改善的计算机程序”。机器学习在本质上来说是跨学科的,使用了计算机科学、统计学和人工智能以及其他学科的知识。机器学习研究的主要产物是算法,可以帮助基于经验的自动改善。这些算法可以在各个行业有广泛应用,包括计算机视觉、人工智能和数据挖掘。推荐阅读《机器学习实战》。

2、 分类

分类的含义是,打造模型,将数据分类进入不同的类别。这些模型的打造方式,是输入一个训练数据库,其中有预先标记好的类别,供算法进行学习。然后,在模型中输入类别未经标记的数据库,让模型基于它从训练数据库中所学到的知识,来预测新数据的类别。

因为这类的算法需要明确的类别标记,因此,分类算是“监督学习”的一种形式。

3、 回归

回归是与分类紧密联系在一起的。分类是预测离散的类别,而回归则适用的情况,是当预测“类别”由连续的数字组成。线性回归就是回归技术的一个例子。

4、 聚集

聚集是用来分析不含有预先标记过的类别的数据,甚至连类别特性都没有标记过。数据个体的分组原则是这样的一个概念:最大化组内相似度、最小化组与组之间的相似度。这就出现了聚集算法,识别非常相似的数据并将其放在一组,而未分组的数据之间则没那么相似。K-means聚集也许是聚集算法中最著名的例子。

由于聚集不需要预先将类别进行标记,它算是“无监督学习”的一种形式,意味着算法通过观察进行学习,而不是通过案例进行学习。

5、 关联

要解释关联,最简单的办法是引入“购物篮分析”,这是一个比较著名的典型例子。购物篮分析是假设一个购物者在购物篮中放入了各种各样的物品(实体或者虚拟),而目标是识别各种物品之间的关联,并为比较分配支持和置信度测量(编者注:置信度是一个统计学概念,意味着某个样本在总体参数的区间估计)。这其中的价值在于交叉营销和消费者行为分析。关联是购物篮分析的一种概括归纳,与分类相似,除了任何特性都可以在关联中被预测到。 Apriori 算法被称为最知名的关联算法。

关联也属于“无监督学习”的一种形式。

决策树的例子,分步解决并分类的方式带来了树形结构。图片来源: SlideShare 。

6、 决策树

决策树是一种自上而下、分步解决的递归分类器。决策树通常来说由两种任务组成:归纳和修剪。归纳是用一组预先分类的数据作为输入,判断最好用哪些特性来分类,然后将数据库分类,基于其产生的分类数据库再进行递归,直到所有的训练数据都完成分类。打造树的时候,我们的目标是找到特性来分类,从而创造出最纯粹的子节,这样,要将数据库中所有数据分类,只需要最少的分类次数。这种纯度是以信息的概念来衡量。

一个完整的决策树模型可能过于复杂,包含不必要的结构,而且很难解读。因而我们还需要“修剪”这个环节,将不需要的结构从决策树中去除,让决策树更加高效、简单易读并且更加精确。

右上箭头:最大间隔超平面。左下箭头:支持向量。图片来源: KDNuggets 。

7、 支持向量机(SVM)

SVM可以分类线性与非线性数据。SVM的原理是将训练数据转化进入更高的维度,再检查这个维度中的最优间隔距离,或者不同分类中的边界。在SVM中,这些边界被称为“超平面”,通过定位支持向量来划分,或者通过最能够定义类型的个例及其边界。边界是与超平面平行的线条,定义为超平面及其支持向量之间的最短距离。

SVM的宏伟概念概括起来就是:如果有足够多的维度,就一定能发现将两个类别分开的超平面,从而将数据库成员的类别进行非线性化。当重复足够多的次数,就可以生成足够多的超平面,在N个空间维度中,分离所有的类别。

8、 神经网络

神经网络是以人类大脑为灵感的算法,虽然,这些算法对真实人脑功能的模拟程度有多少,还存在很多的争议,我们还没法说这些算法真正模拟了人类大脑。神经网络是由无数个相互连接的概念化人工神经元组成,这些神经元在互相之间传送数据,有不同的相关权重,这些权重是基于神经网络的“经验”而定的。“神经元”有激活阈值,如果各个神经元权重的结合达到阈值,神经元就会“激发”。神经元激发的结合就带来了“学习”。

9、 深度学习

深度学习相对来说还是个比较新的词汇,虽然在网络搜索大热之前就已经有了这个词汇。这个词汇在研究和业界都名声大噪,主要是因为其他一系列不同领域的巨大成功。深度学习是应用深度神经网络技术——具有多个隐藏神经元层的神经网络架构——来解决问题。深度学习是一个过程,正如使用了深度神经网络架构的数据挖掘,这是一种独特的机器学习算法。推荐阅读《Python深度学习》。

10、增强学习

对于“增强学习”最好的描述来自剑桥大学教授、微软研究科学家Christopher Bishop,他用一句话精确概括:“增强学习是在某一情景中寻找最适合的行为,从而最大化奖励。”增强学习中,并没有给出明确的目标;机器必须通过不断试错的方式进行学习。我们来用经典的马里奥游戏举个例子。通过不断试错,增强学习算法可以判断某些行为、也就是某些游戏按键可以提升玩家的游戏表现,在这里,试错的目标是最优化的游戏表现。

K层交叉检验的例子,在每一轮使用不同的数据进行测试(蓝色为训练数据、黄色为测试数据),方框下为每一轮的验证精度。最终的验证精度是10轮测试的平均数。图片来源: GitHub 。

11、K层交叉检验

交叉检验是一种打造模型的方法,通过去除数据库中K层中的一层,训练所有K减1层中的数据,然后用剩下的第K层来进行测验。然后,再将这个过程重复K次,每一次使用不同层中的数据测试,将错误结果在一个整合模型中结合和平均起来。这样做的目的是生成最精确的预测模型。

12、贝叶斯

当我们讨论概率的时候,有两个最主流的学派:经典学派概率论看重随机事件发生的频率。与之对比,贝叶斯学派认为概率的目标是将未确定性进行量化,并随着额外数据的出现而更新概率。如果这些概率都延伸到真值,我们就有了不同确定程度的“学习”。

via:KDNuggets

精品课程推荐:

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选   


数据与算法之美

用数据解决不可能

长按扫码关注

12个关键词,告诉你到底什么是机器学习相关推荐

  1. 科普 | 12个关键词,告诉你到底什么是机器学习

    科普 | 12个关键词,告诉你到底什么是机器学习 时间 2016-05-27 18:31:00  雷锋网 相似文章 (1) 原文  http://www.leiphone.com/news/20160 ...

  2. 资深HR 告诉你到底怎么写一份好的简历

    赵本山的一个小品里说:猫走不走直线取决于耗子.一个求职者简历好不好,完全取决于 招聘者.有些人觉得自己的简历做的不错,为什么一投出去就石沉大海,杳无音信?很大 的原因是你的简历并没有吸引住招聘者的眼球 ...

  3. 去重之后统计条数_BOPET:12的普通包装膜到底去哪了?

    导语 近期BOPET市场多数客户反映,12μ的普通包装膜现货一货难求,前期订单交货紧张,新订单交期较长,12μ的普通包装膜到底去哪了呢? 对于BOPET市场来说,12μ普通包装膜交货紧.交货慢的现象从 ...

  4. 饿了么2020外卖备注图鉴:12个关键词覆盖我们的生活

    12月31日,2020年即将过去,饿了么发布2020年度外卖备注的12个关键词,通过每月1个关键词串联起2020年人们日常生活的点滴记忆. 这12个关键词分别是:祈福.无接触配送.白衣天使.辛苦.开学 ...

  5. 计算机html二级难度,计算机二级考试越来越难的实锤!真实数据告诉你到底难在哪里?...

    原标题:计算机二级考试越来越难的实锤!真实数据告诉你到底难在哪里? 相信参加过3月考试的小伙伴都有这样的感觉,选择题新考点虽然没有增加很多,但是操作题就一言难尽,不仅新增了4套新题,而且原题也进行了更 ...

  6. java地位_这12条理由告诉你,为什么Java的地位无法被撼动!

    从招聘信息你就可以知道,跟iOS相关的开发有2500个左右的招聘,Java则有17000多个.数据不一定能完美的衡量技术的价值,但是在不断推陈出新的技术推广压力下,Java职位是iOS的7倍之多可以说 ...

  7. 干货!学霸用12个决策模型告诉你,如何判断你到底需不需要区块链!

    作者 | Sebastien Meunier 编译 | 火火酱 责编 | Carol 出品 | 区块链大本营(blockchain_camp) 区块链自2017年大火至今,已经2年了. 众所周知,现在 ...

  8. 【完结】12篇文章告诉你深度学习理论应该学到什么水平

    专栏<AI初识境>正式完结了,在这一个专题中,我们给大家从神经网络背景与基础,讲到了深度学习中的激活函数,池化,参数初始化,归一化,优化方法,正则项与泛化能力,讲到了深度学习中的评测指标, ...

  9. 我们分析了50万条拼多多商品数据,告诉你到底是消费升级还是降级?

    作者:放开那个猕猴桃 来源:人工智能与大数据生活 转自:知乎,恋习Python 一.缘起 我在杭州有位朋友,提到有家做社交的电商很火,叫拼多多,我没有在意,直到有一天,我居然在电视上看到了它的广告,广 ...

最新文章

  1. Vue.js实现前段评论展示
  2. Leonbao:MapKit学习笔记
  3. json数据解析详解---代码每行进行分析
  4. 实践编译LINUX0.11源码,感觉真爽。
  5. SAP UI5框架 component.js的加载原理
  6. 在Debian 6 安装pptpd ×××。
  7. Mutes锁_递归锁_信号量semaphore
  8. android加不进去百度云,安装android-x86教程。(没法再贴吧发表,只有百度网盘在线阅读...
  9. Intel APIC Configuration
  10. java rslinx_如何使用AB PLC仿真软件Studio 5000 Logix Emulate
  11. 第四天作业发布时间:2021-05-31 09:57:49相关课程:RHCSA2021-05-22 
  12. Win11无线网络适配器显示感叹号怎么办
  13. 计算机输入法切换用户,输入法切换不出来电脑输入法不见了的最佳解决方案
  14. 2143.replace.favo.xrcch.com Dns劫持解决方案
  15. 大学计算机信息技术实践教程,清华大学出版社-图书详情-《大学信息技术基础实验教程(Windows7 + Office2010)》...
  16. linux ps aux tty,linux ps命令中的tty表示什么意思?
  17. docker磁盘空间满了怎么清理
  18. 基于php新闻发布平台 毕业设计-附源码141646
  19. DNS中的正向解析与反向解析 及 nslookup命令使用
  20. QGIS中安装Python第三方库

热门文章

  1. 微服务、容器和Kubernetes的2020你怎么看?
  2. 在.net core3.0中使用SignalR实现实时通信
  3. [NewLife.XCode]高级查询(化繁为简、分页提升性能)
  4. NET Core微服务之路:实战SkyWalking+Exceptionless体验生产下追踪系统
  5. 积极参与开源项目,促进.NET Core生态社区发展
  6. 在ASP.NET Core中使用brotli压缩
  7. ASP.NET Core远程调试
  8. 跨平台与云端创新,为企业和开发者开辟更广阔的未来
  9. 计算机系统怎么算页面大小,电脑网页的设计尺寸是多少
  10. 鸿蒙系统大疆,华为操作系统“鸿蒙OS”来了!