首先,提到机器学习,必然少不了《西瓜书》,由南京大学周志华教授主编的全面概述和讲解机器学习的专著,给人们学习和认识并且改造机器学习带来了极大帮助。首先推荐一个比较靠谱的学习笔记:https://github.com/Vay-keen/Machine-learning-learning-notes

除了周志华教授的《机器学习》之外,还有台湾大学林田轩教授的《机器学习基石》,深入浅出,非常具有感染力。课程视频网址:https://www.bilibili.com/video/av12463015/ 课后习题答案汇总链接:https://blog.csdn.net/a1015553840/article/details/51085129
林田轩教授的***原生态课程***连接:https://www.csie.ntu.edu.tw/~htlin/mooc/

机器学习第一、二讲:
【1】什么时候用机器学习:首先定义学习(通过观察—>学习—>技能)VS 机器学习(data—>机器—>技能—>改善预测准确性)
【2】give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.
【3】使用机器学习方式必须要有三个前提条件:存在某些规则联系、不知道如何数学化定义规则、必须要有数据

机器学习第三讲:
【1】food: 基于Twitter数据(根据语义、位置等)----> 判断出食物中毒
clothing: 基于销售数据+客户数据 ---->推荐顾客偏好衣服
housing: 基于过去相似房子特征和能源配置----->预测新建房子的能耗
transportation: 基于交通信号的语义和图片数据---->准确辨别交通号
education: 线上的教学系统和测试---->预测学生是否可以准确答出题目
entertainment: 基于观影者的评价—>使用推荐系统算法(Netflix电影线上推荐系统)

【2】补充:KDDCup全球性的机器学习算法比赛。基本上所有领域都可以用上机器学习!!!

机器学习第四讲:
【1】信用卡授权发卡给用户,直接算作是一种机器学习的模型。
X:表示输入,Y:表示输出 F:这个映射关系是无法直接找出来的,采用机器学习能够得到近似假设(G)。这个G关系和F关系越靠近表示性能越好。

机器学习第五讲:
KDD(资料的勘探):
(1)机器学习与数据挖掘,基本上是相互依存的,必须都要会;
(2)机器学习与人工智能:机器学习是实现人工智能的一种方法,从大量的数据中来进行学习,与传统的博弈树不一样;
(3)机器学习:来源于统计学。

机器学习第六讲:

这里主要讲解了多维度的输入,输出为符号函数Sign,threshold为门槛值。

在这里,我们把输出Y称之为“标签”,perceptrons(感知器)又可以成为“线性分类器”

机器学习第七讲:
在所有的H空间里面,找到一个G函数,保证是最优的情况,然后与输出相匹配。

初始化:任选一条线,再进行试错,修正,如此循环,直至不再犯错,即可停止计算。(PLA:perceptron learning algorithm 演算法)

演算法在分类的过程中,不一定会收敛。如果需要演算法停止下来,则必须满足:线性可分的条件。

机器学习第八讲:全部都是数学推导,关于收敛性的证明。

机器学习第九讲:存在一定的噪声。

在这里表示:寻找一个函数,使得分类出错的总次数是最少的。

机器学习第10讲:
多类别分类,与经典的二元分类存在较大差别。
回归分析:预测股票+天气变换情况(输出要是一个实数)
自然语言辨识:根据词性来进行判断。

机器学习第11讲:
监督学习:
非监督学习:聚类算法
半监督学习:照片的标签标注+没有标注的照片

(1)强化学习:非常不同于机器学习
采用奖励、惩罚的方式来对机器进行训练、学习。没有直接的输出训练结果,而是利用部分的信息来进行学习。

机器学习第12讲:
(1)batch演算法方式:(batch表示一堆的数据资料)最常用的人与机器沟通方式协议。这个是“填鸭式”学习:给你所有的资料,自己去学
(2)online学习方式:不是直接将所有的数据输入机器,而是来一个数据,就对G函数进行调整更新。这个是教学式学习:老师给一个知识要求,机器再学习
(3)强化学习方式:不是一步到位,而是逐步递进的。
(4)主动学习:机器可以主动且“有技巧”的问问题。通常用在数据标签的标注资料代价太大情况下。

机器学习第13讲:
对于数据的输入端存在的相关细节:
(1)具有明确的数据特征:存在人类的智能。
(2)原始特征:对于机器来说更加困难。需要抽取数据的特征,这样训练学习才更有效。
(3)总结:四个维度:
应对不同的输出空间(有分类、回归和结构式两种)、
应对不同的输出数据标签(有监督式:全部的数据标签都已弄好、半监督式:部分标记,部分数据没有标注、无监督式:全部数据都没有标注特征、强化学习:是间接的数据学习,鼓励奖惩机制,不是一步到位的)、
应对不同与机器打交道的协议(堆叠式数据学习、在线学习、主动式学习:机器对于不清楚的分类会进行提问)
应对数据的输入端(有明确数据特征学习、原始特征学习和抽象特征学习)

机器学习第14讲:(Feasibility of Learning)
(1) 当使用机器学习算法的时候,只有在确定的数据情况下,我们才能够确切地说f与g相同的,处理的结果也是类似的。
(2)在处理非确定的情况时,存在不同的环境设置,因此假设不同,得出的结果也不一样,这样也就导致学习结果存在偏差。

机器学习第15讲:(Inferring Something Unknown)
(1) Hoeffding Inequality. (霍夫丁不等式)


首先从这个Hoeffding Inequality不等式开始计算,我们可以知道:在大概率情况下,抽样的概率与原始数据出现的概率是相同的。前提条件是:在计算过程中,我们可以看出样本足够大的时候,样本出现概率就与真是数据出现概率相同。

机器学习第16讲:(连接学习)

要解决Learnign 的问题,可以用h(x)为止的错误率来表征学习的正确率。在这里面,我们可以看出:我们可以通过已知的情况来推断未知的情况。

当仅存在一个hypothesis时,这样你不需要进行学习,只要进行Verification.

机器学习第17讲:
(1)增加很多的hypothesis,则需要进行选择。
(2)如何来评价资料的好坏?? 主要是看E_in与E_out之间的差异,差异越大,则资料的数据效果越差,越接近则越好。
(3)演算法必须要能进行自由选择:采用bad的统计学习的方式:

在数据处理的时候,我们只要发现存在一个“BDA”(糟糕的情况),则我们就称该数据集对于hypothesis是无效的。

在这里,利用学习算法我们可以选择出一个比较靠谱的hypothesis中的一个h.

机器学习第18讲:
为什么可以使用机器学习??

机器学习第19讲:对出错的概率进行推导和计算:

在这里,作者需要计算的是存在一个h函数(直线)来对这三个数据点进行分类。总共有8情况,其中画叉叉的那两种情况不存在。

机器学习第20讲:Dichotomy: mini-hypotheses



四种典型的成长函数!!!

机器学习第21讲:未完待续

机器学习算法资料汇总相关推荐

  1. 良心推荐:机器学习入门资料汇总及学习建议(2018版)

    本文转载自:机器学习初学者 作者           :黄海广 机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发 ...

  2. 良心推荐:机器学习入门资料汇总及学习建议(2018版)--黄海广

    机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发过的文章进行分类和汇总,以便初学者更好地学习.(作者:黄海广) ...

  3. 深度学习试题_初学者入门宝典-机器学习入门资料汇总及学习建议(2018版)

    机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发过的文章进行分类和汇总,以便初学者更好地学习. 机器学习入门,初 ...

  4. 我爱机器学习--机器学习方向资料汇总

    转载:http://blog.csdn.net/shuimanting520/article/details/45748505 机器学习爱好者资料 机器学习领域的几种主要学习方式 From Stump ...

  5. 机器学习算法大汇总--线性回归、逻辑回归、正则化、神经网络、SVM、K-Means、PCA、集成学习等!

    本文很长~请耐心观看 另:本文主要用于本人的复习使用,欢迎大佬的指正和添加. 还有:本人也只是初出茅庐,希望大佬手下留情,谢谢!! 1.算法分类 机器学习算法分为: 有监督,无监督 两大阵营 1.有监 ...

  6. 人工智能之机器学习算法体系汇总

    https://www.toutiao.com/i6638371599303049731/ 2018-12-24 09:52:12 此处梳理出面向人工智能的机器学习方法体系,主要体现机器学习方法和逻辑 ...

  7. 机器学习算法——评价指标汇总

    准确率,精确率,召回率和F1 准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure ROC-AUC ROC曲线 需要提前说明的是,我们这里只讨论二 ...

  8. 常用机器学习算法汇总

    常用机器学习算法汇总 从一个项目的终极目标.寻找和获取数据,到数据预处理,做特征工程,接下来就需要开始选择合适的算法模型,进行训练评估和测试了. 所以接下来会整理下比较常用的机器学习算法的汇总比较,包 ...

  9. 全网最全:机器学习算法模型自动超参数优化方法汇总

    什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter).还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper ...

最新文章

  1. 原型 原型链 call / apply
  2. DBA生存警示:防范频发的数据误删除操作
  3. 石青建站养站大师 v1.8.6.1
  4. 【Nginx】第一章 快速入门
  5. flex布局演示(可线上运行项目)
  6. python dendrogram_收藏 | Python数据可视化的一些简单总结
  7. opencv的第一个lena图片显示
  8. Unity游戏基本框架
  9. 博科交换机常用配置命令
  10. MD5摘要算法的几种破解方法!
  11. 转载:ultraiso制作超过4G的系统U盘启动盘教程
  12. 使用grub启动虚拟软盘的方法
  13. AspectJ自定义注解报错:error Type referred to is not an annotation type:xxx -----IllegalArgumentException
  14. 描述性统计-正态性检验(SPSS,SAS)P-P图,Q-Q图,直方图,KS检验
  15. pstack 安装linux_linux下跟踪进程调用栈strace pstack gstack
  16. webpack 3/4踩坑,我太难了,从安装、卸载、到使用,各相应的版本号,sass-loader报错-版本的原因,webpack -v 不识别,没卸载干净...
  17. SEO面试题与面试攻略,SEO面试技巧以及常见问题分享
  18. element-ui中tree组件双击事件的实现
  19. 国际主流商业BI产品对比分析报告
  20. Dropout Batch Normolization

热门文章

  1. 天翼云服务器 80 端口无法访问
  2. 用一年时间读一本英文版书籍
  3. 时空序列预测:SimVP: Simpler yet Better Video Prediction解读
  4. JAVA Calendar获取某月第一天、最后一天,某周的第一天、最后一天
  5. C#:用Playwright实现截长图
  6. python图片识别论文_Python识别文字,实现看图说话 | CSDN博文精选
  7. PPT提示“office未获得合适的许可…”及快捷键复制一次粘贴两次问题的解决办法
  8. 高速公路视联网解决方案来了!全面助力行业智能运行监测升级
  9. Hexo-Next主题更改字体
  10. 2019第二十一届高交会精彩纷呈 华信物联全球首款智能床垫公示