机器学习 - 什么是机器学习
目录
1. 机器学习、统计学习和统计学的基本概念
2. 机器学习和统计学的区别与关系
3. 统计模型和机器学习的应用场景示例
4. 参考
1. 机器学习、统计学习和统计学的基本概念
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
统计学习是使用统计方法的一种机器学习。可视作基于数据的机器学习问题的一个特例。从一些观测(训练)样本出发,试图得到一些不能通过原理分析得到的规律,并利用这些规律来分析客观对象,从而对未来的数据进行较为准确的预测。
统计学习可以理解为在机器学习的学科下,利用统计学知识和数值型数据来进行机器学习(或优化)。当然对于机器学习来说,除了统计学习还有其它的学习方法。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
统计学主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。统计学主要分为描述统计学和推断统计学(统计推断)。统计推断主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。
统计学的目的就是进行统计推断,即根据样本数据对总体进行统计推断(假设检验或预测)。
2. 机器学习和统计学的区别与关系
机器学习和统计学的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。
统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。说得更直白些就是,有很多统计模型可以做出预测,但预测效果比较差强人意。而机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。
以线性回归为例,线性回归是一种统计方法,通过这种方法第一种情况我们可以训练一个线性回归器,第二种情况可以通过最小二乘法拟合出一个有着相同结果的统计回归模型。
第一种情况中我们是在训练模型,它只用到了数据的一个子集,而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。这个过程就是机器学习,机器学习的最终目的是在测试集上获得最佳性能。
第二种情况首先假设数据是一个具有高斯噪声的线性回归量,然后试图找到一条线,最大限度地减少了所有数据的均方误差。这种方法不需要训练集或测试集,建模的目的是描述数据与输出变量之间的关系,而不是对未来数据进行预测。我们称此过程为统计推断,而不是预测,尽管我们可以使用此模型进行预测,但评估模型的方法不再是测试集,而是评估模型参数的显著性和健壮性。
综上,机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释,机器学习只在乎结果。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,只是恰巧迎合了预测。
3. 统计模型和机器学习的应用场景示例
对于一名环境科学家,工作的主要内容是和传感器数据打交道。如果科学家试图证明传感器能够对某种刺激(如气体浓度)做出反应,,那么科学家将使用统计模型来确定信号响应是否具有统计显著性。并且科学家会尝试理解这种关系,并测试其可重复性,以便能够准确地描述传感器的响应,并根据这些数据做出推断。科学家还可能测试响应是否是线性的?响应是否归因于气体浓度而不是传感器中的随机噪声?等等。这就是统计模型的使用场景。
而同时科学家也可以拿着从20个不同传感器得到的数据,去尝试预测一个可由他们表征的传感器的响应。用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测,而且科学家也没期待模型是可解释的。要知道,由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素,可能会使这个模型非常深奥,就像神经网络那样难以解释。尽管科学家希望这个模型能让人看懂,但其实只要它能做出准确的预测,科学家就相当高兴了。这就是机器学习的使用场景。
很明显,这两种方法在目标上是不同的,尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性。因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。
4. 参考
- 机器学习
- 统计学习
- The Actual Difference Between Statistics and Machine Learning
- 「统计学」「统计推断」「统计学习」有什么区别?
机器学习 - 什么是机器学习相关推荐
- matlab 职坐标,机器学习入门之机器学习实战ByMatlab(四)二分K-means算法
本文主要向大家介绍了机器学习入门之机器学习实战ByMatlab(四)二分K-means算法,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助.前面我们在是实现K-means算法的时候,提到 ...
- Jeff Dean| 面向系统的机器学习和面向机器学习的系统
来源:全球人工智能 概要:我们将发布一系列内容,展示 Google 在 NIPS 2017 上发布的工作成果.首当其冲的便是来自 Jeff Dean 的 PPT <面向系统的机器学习和面向机器学 ...
- python机器学习库_Python机器学习库 Top 10,你值得拥有!
随着人工智能技术的发展与普及,Python超越了许多其他编程语言,成为了机器学习领域中最热门最常用的编程语言之一.有许多原因致使Python在众多开发者中如此受追捧,其中之一便是其拥有大量的与机器学习 ...
- python3中多项式创建_机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures 欠拟合与过拟合...
本文主要向大家介绍了机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures 欠拟合与过拟合,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 分享 ...
- 机器学习——01、机器学习的数学基础1 - 数学分析
机器学习与数学分析 机器学习概述 什么是机器学习 1.对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T和经验E:随着提供合适.优质.大量的经验E,该程序对于任务T的性 ...
- 【机器学习_4】机器学习算法分类
[机器学习_4]机器学习算法分类 机器学习算法可以分为传统的机器学习算法和深度学习. 传统机器学习算法主要包括以下五类: 回归:建立一个回归方程来预测目标值,用于连续型分布预测 分类:给定大量带标签的 ...
- l2正则化python_机器学习入门之机器学习之路: python线性回归 过拟合 L1与L2正则化...
本文主要向大家介绍了机器学习入门之机器学习之路: python线性回归 过拟合 L1与L2正则化,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 正则化: 提高模型在未知数据上的 ...
- 机器学习与分布式机器学习_机器学习的歧义
机器学习与分布式机器学习 超越最高精度 (Beyond Achieving Top Accuracy) We are familiar with the idea of using machine l ...
- 机器学习 可视化_机器学习-可视化
机器学习 可视化 机器学习导论 (Introduction to machine learning) In the traditional hard-coded approach, we progra ...
- 机器学习与分布式机器学习_我将如何再次开始学习机器学习(3年以上)
机器学习与分布式机器学习 重点 (Top highlight) I'm underground, back where it all started. Sitting at the hidden ca ...
最新文章
- c语言修仙角色,C语言修仙手游-C语言修仙手游安卓版V7.4.0预约_第一手游网
- AI换脸在电竞圈火了!大司马PDD大秀肌肉辣舞,网友:上头,流鼻血了
- proc文件的简单读写
- 安装多个java后,java版本不对
- Android成长日记-使用GridView显示多行数据
- [jQuery]JQuery一个对象可以同时绑定多个事件,这是如何实现的?
- SOA (面向服务的架构)
- 服务器系统网卡驱动装不上,网卡驱动装不上去怎么办?
- 5月5日——更改手机状态栏的背景颜色
- 你真的懂线程同步么?
- 小程序 省市区地址选择器
- MySQL必知必会——数据库基础知识和MySQL基本使用
- 快速开发项目的前端框架主要针对后台界面
- 基于QT实现的旅游路线查询系统
- 2020算法设计与分析 官方考前模拟卷 参考答案
- 关于RecyclerView 设置条目间距
- 不死僵尸木马lpt7.asp.asp与lpt5.cnzzz.asp的删除方法
- python计算FID
- cmd结束指定端口号的进程
- java 小程序 多线程_《多线程练习—买票小程序——Java第十四周》
热门文章
- java发微信_java访问微信接口发送消息
- supermicro服务器通过U盘安装部署vmware vsphere并使用
- 如何打造一款适合中老年人群体的产品?
- 计算机与网络信息技术的核心,内容提要:21世纪,以计算机和网络通讯为核心的信息技术在社….doc...
- java input是关键字吗_Java中对象的串行化(Serialization)和transient关键字 - 金色阳光...
- 10条网站易用性设计改进技巧
- 计算机网络--网卡配置调优
- Java 变量运算符
- 游戏设计自学记录(1)
- 服务器IP地址与网络上的其他系统有冲突问题诊断及解决