回归可以做什么?

pm2.5的预测案例;
股票的预测:找一个函数 input可能是过去的股票资料 output是明天的点数;
无人车:input是information output是方向盘等;
推荐系统。

应用案例:

预测宝可梦的CP值

我们要做的是:找一个函数,输入是一只宝可梦,输出是进化后的CP值
Xcp是进化前的CP值,Xs是所属物种,Xhp是生命值,Xw是重量,Xh是高度。

Step1 :Model

w、b是参数

Step 2:评估函数的好坏


函数的输入:用上标表示一个完整的object (个体)的编号,用下标表示component

收集了十只神奇宝贝的数据;
蓝色点代表一只宝可梦。

定义一个Loss Function,输入是一个函数,衡量参数的好坏。估测的误差越大,选择的函数越差。

图中的一个点代表一个function 颜色代表Loss函数的值,越偏红色,定义的函数越糟糕,越偏蓝色误差越小。

Step3:选择Best Function

上述操作衡量了函数的好坏,然后需要挑选一个最好的function。

只要L(f)是可微分的 梯度下降法都可以用来求较好的参数。L(f)即是Loss函数。

L(w)可能是可微分的任意的函数。
穷举所有w的可能值,看哪一个w的值最小。此做法效率很低。
所以,随机选取一个初始的点W0,在该点处计算微分(切线的斜率),斜率是负的,Loss值左高右低,所以想减小Loss值,需要增加w的值。

在该例中,w会增加,增加量如何?
增加量取决于,1.现在的微分值 2.学习率(常数)
依据
来更新w的值

然后再重复上述的步骤。

经过多次的更新,会找到一个l局部最小值,此时的微分为0.

有两个参数的情况。


颜色代表Loss的数值;选择红色的点计算偏微分,更新参数,其实红色箭头所指的方向就是等高线的法线的方向。

Gradient Decent有一个让人担心的地方:如果Loss如上图所示,取点的不同会导致不同的最小值。但是在线性回归中,Loss函数都是凸函数,没有局部最优点。



以上是求的对新数据的误差,比training data上的误差值大一些。
可以做的更好吗?重新选择Model。
可能要引入二次式。

引入三次方。

可能Model更复杂。


Model更复杂,Testing Data上的误差反而更大了。


在测试集上的误差随着Model变的复杂而变大,此时发生了过拟合。

选三次式作为结果。

搜集更多的宝可梦。

考虑宝可梦的物种的影响。
所以重新设计Model。

将上述的式子改写成线性的。


输入的是Pidgey。

不同种类的宝可梦,他们的Model就会不一样。

其他可能会影响CP值的因素。

将所想到因素全都加入模型。出现了过拟合现象,使用正则化来解决。

在Loss中加入而外的项。当 wi 接近0时,曲线是比较平滑的,即当输入有变化时,输出对输入的变化不敏感。
为何喜欢更加平滑的函数?如果有一个被杂讯干扰的输入,平滑的函数会受到比较小的影响。

λ值越大,曲线越平滑。Training data上的误差越大。因为当λ越大,越倾向于考虑w本来的值,考虑error就越小。当function太平滑,在Testing Data 上的误差反而会增大。


最后的选择。

Machine Learning Regression-Case Study相关推荐

  1. 李宏毅机器学习课程---2、Regression - Case Study

    李宏毅机器学习课程---2.Regression - Case Study 一.总结 一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果 有这样的因素存在的话 模型不够好,可能是因素没有找全 ...

  2. (To Learn More) ML Lecture 1: Regression - Case Study(下)

    ML Lecture 1: Regression - Case Study(下) 视频链接: https://www.youtube.com/watch?v=fegAeph9UaA \qquad li ...

  3. 【李宏毅2020 ML/DL】P3 Regression - Case Study

    资源: Bilibili BV1JE411g7XF http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html Machine Learning 202 ...

  4. Introduction to Machine Learning

    Introduction to Machine Learning 引言 本系列文章是本人对Andrew NG的机器学习课程的一些笔记,如有错误,请读者以课程为准. 在现实生活中,我们每天都可能在不知不 ...

  5. AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读

    AI:Algorithmia<2020 state of enterprise machine learning-2020年企业机器学习状况>翻译与解读 目录 <2020 state ...

  6. Machine Learning introduction

    Contents Mathematics 最大似然(Maximum Likelihood)&最小二乘(Least Square Method) basic knowledge subcateg ...

  7. 论文笔记: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case s

    论文笔记1: Local climate zone mapping as remote sensing scene classifcation using deep learning: A case ...

  8. Machine Learning Algorithms Study Notes--Supervised Learning

    转载自:http://www.tuicool.com/articles/VvuIvqU Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Mic ...

  9. Machine Learning Algorithms Study Notes

    2    Supervised Learning    3 2.1    Perceptron Learning Algorithm (PLA)    3 2.1.1    PLA -- " ...

  10. 【Machine Learning实验2】 Logistic Regression求解classification问题

    classification问题和regression问题类似,区别在于y值是一个离散值,例如binary classification,y值只取0或1. 方法来自Andrew Ng的Machine ...

最新文章

  1. 制药企业SAP项目中CSV认证需要准备的文档
  2. RTlinux3.2安装
  3. 感谢有您--我的51CTO【与51CTO的故事】
  4. java基础系列:集合总结(6)
  5. shell初级-----控制脚本
  6. Python——pip批量安装和卸载package
  7. 【DND图形库】五、按钮控件与音效
  8. Matlab中fixdt数据类型
  9. 7-1 输入学生姓名,输出问候信息。
  10. 【CNN】CNN是不是一种局部self-attention?
  11. java学习资料整理(开发必备)
  12. Java基本语法格式
  13. Pycharm处理 E501 line too long 警告
  14. 程序员课外拓展001:EI收录号Accession number中的数字的含义
  15. 搭建一个用于工作和学习的Linux桌面环境的尝试
  16. 【深度学习】Numpy实现简单神经网络
  17. 下载m3u8文件中的视频,使用FFMpeg解密合并.ts文件
  18. Android进阶之路 - 拉伸的弹簧效果
  19. 人人商城物流信息接口设置不生效(快递鸟)
  20. 【git系列】从远端仓库获取最新代码合并到本地分支里

热门文章

  1. 两张动图-彻底明白TCP的三次握手与四次挥手
  2. cs1.6自动退出服务器,CS1.6菜单被流氓服务器修改
  3. python分析数据走势图_python数据分析-11数据分析实战案例
  4. 【翻译】ASML Automatic Streaming Machine Learning
  5. Spring 第二篇 注解+ xml 配置 与 纯注解开发 与集成 junit测试
  6. 爬虫爬取的网页源代码是\uxxxx格式的,如何进行解码?
  7. OpenJudge 河中跳房子
  8. 拒绝6家公司offer,最后降薪入职小公司感叹:不要追求高薪去跳槽!
  9. HBase流程框架图
  10. 黑客如何用线程注射技术隐藏自己的病毒