什么是稀疏向量(向量的稀疏表示)

对数据进行预处理时,一般需要对类别型特征进行编码:

序号编码
独热编码
二进制编码
其中独热编码用的是最多的。但是当类别数十分巨大时,独热编码是一个非常稀疏的向量,只有一个值不为0,其他值均为0。可以使用向量的稀疏表示来大大的节省空间,并且目前大多数的算法都接受稀疏向量形式的输入。

举个例子:
v = [ 0 , 0 , 0 , 0 , 1 , 0 , 3 , 0 , 0 , 0 ] 

对于向量 v ,其稀疏表示为
( 10 , [ 4 , 6 ] , [ 1 , 3 ] ) 

10代表v 的长度,[ 4 , 6 ] 表示非零元素的下标,[ 1 , 3 ] 表示非零元素的值

准确率和召回率

准确度:正例和负例中预测正确数量占总数量的比例,用公式表示:



召回率 Recall:以实际样本为判断依据,实际为正例的样本中,被预测正确的正例占总实际正例样本的比例。

召回率的另一个名字,叫做“查全率”,评估所有实际正例是否被预测出来的覆盖率占比多少,我们实际黑球个数是3个,被准确预测出来的个数是2个,所有召回率r=2/3。

1、什么情况下精确率很高但是召回率很低?

一个极端的例子,比如我们黑球实际上有3个,分别是1号、2号、3号球,如果我们只预测1号球是黑色,此时预测为正例的样本都是正确的,精确率p=1,但是召回率r=1/3。

2、什么情况下召回率很高但是精确率很低?

如果我们10个球都预测为黑球,此时所有实际为黑球都被预测正确了,召回率r=1,精确率p=3/10。

Precision值和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器尽量在更有把握时才把样本预测为正样本,但此时往往会过于保守而漏掉很多没有把握的正样本,导致Recall值降低。

F1 score综合地反映,F1是精准率和召回率的调和平均值。

ROC曲线的横坐标为假阳性率,纵坐标真阳性率。

AUC是ROC曲线下面积的大小,AUC一般在0.5-1之间,越大说明分类器越可能把真正的正样本排在前面,分类性能越好。

训练数据不足

让模型采用特定的内在结构、条件假设或添加一些约束条件;去调整、变换或拓展训练数据,让其展现出更多的更有用的信息。如在图像分类任务中,可对训练集中的每幅图像进行以下变换。

余弦距离

在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是[-1,1],相同的两个向量之间的相似度为1。如果希望得到类似于距离的表示,将1减去余弦相似度即 余弦距离。因此,余弦距离的取值范围为[0,2],相同的两个向量余弦距离为0。

余弦相似度为两个向量夹角的余弦,余弦相似度在高维情况下保持“相同时为1,正交为0,相反为-1” 。余弦距离会认为(1,10)和(10,100)两个距离很近,但显然有很大差异,此时我们更关注数值绝对差异,应当使用欧式距离。

A/B测试

在互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效,新算法、新模型的效果是否有提升,新设计是否受到用户欢迎,新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段。

在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?

(1)离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果。

(2)离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。因此,离线评估的结果是理想工程环境下的结果。

(3)线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。比如,上线了新的推荐算法,离线评估往往关注的是ROC曲线、P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。这些都要由A/B测试来进行全面的评估。

超参数调优

一般会采用网格搜索、随机搜索、贝叶斯优化等算法。

超参数搜索算法一般包括:

一是目标函数,即算法需要最大化/最小化的目标

二是搜索范围,一般通过上限和下限来确定;

三是算法的其他参数,如搜索步长。

网格搜索:先使用较广的搜锁范围和较大的步长,来寻找全局最优值可能的位置,然后逐渐缩小搜索范围和步长,但由于目标函数一般是非凸的,所以很可能错过全局最优值。

随机搜索:理论依据是如果样本点集足够大,那么随机采样也能大概率找到全局最优值或其近似值。一般笔网格搜锁快。

贝叶斯优化算法:容易陷入局部最优值。

降低过拟合风险的方法

  • 使用更多的训练数据。
  • 降低模型的复杂度。
  • 正则化方法。
  • 集成学习方法。将多个模型集成在一起,降低单一模型的过拟合风险,如Bagging

《算法工程师带你去》读书笔记相关推荐

  1. 读书笔记 | 墨菲定律

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  2. 读书笔记 | 墨菲定律(一)

    1. 有些事,你现在不做,永远也不会去做. 2. 能轻易实现的梦想都不叫梦想. 3.所有的事都会比你预计的时间长.(做事要有耐心,要经得起前期的枯燥.) 4. 当我们的才华还撑不起梦想时,更要耐下心来 ...

  3. 洛克菲勒的38封信pdf下载_《洛克菲勒写给孩子的38封信》读书笔记

    <洛克菲勒写给孩子的38封信>读书笔记 洛克菲勒写给孩子的38封信 第1封信:起点不决定终点 人人生而平等,但这种平等是权利与法律意义上的平等,与经济和文化优势无关 第2封信:运气靠策划 ...

  4. 股神大家了解多少?深度剖析股神巴菲特

    股神巴菲特是金融界里的传奇,大家是否都对股神巴菲特感兴趣呢?大家对股神了解多少?小编最近在QR社区发现了<阿尔法狗与巴菲特>,里面记载了许多股神巴菲特的人生经历,今天小编简单说一说关于股神 ...

  5. 2014巴菲特股东大会及巴菲特创业分享

     沃伦·巴菲特,这位传奇人物.在美国,巴菲特被称为"先知".在中国,他更多的被喻为"股神",巴菲特在11岁时第一次购买股票以来,白手起家缔造了一个千亿规模的 ...

  6. 《成为沃伦·巴菲特》笔记与感想

    本文首发于微信公众帐号: 一界码农(The_hard_the_luckier) 无需授权即可转载: 甚至无需保留以上版权声明-- 沃伦·巴菲特传记的纪录片 http://www.bilibili.co ...

  7. 读书笔记002:托尼.巴赞之快速阅读

    读书笔记002:托尼.巴赞之快速阅读 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<快速阅读>之后,我们就可以可以快速提高阅读速度,保持并改善理解嗯嗯管理,通过增进了解眼睛和大脑功能 ...

  8. 读书笔记001:托尼.巴赞之开动大脑

    读书笔记001:托尼.巴赞之开动大脑 托尼.巴赞是放射性思维与思维导图的提倡者.读完他的<开动大脑>之后,我们就可以对我们的大脑有更多的了解:大脑可以进行比我们预期多得多的工作:我们可以最 ...

  9. 读书笔记003:托尼.巴赞之思维导图

    读书笔记003:托尼.巴赞之思维导图 托尼.巴赞的<思维导图>一书,详细的介绍了思维发展的新概念--放射性思维:如何利用思维导图实施你的放射性思维,实现你的创造性思维,从而给出一种深刻的智 ...

  10. 产品读书《滚雪球:巴菲特和他的财富人生》

    作者简介 艾丽斯.施罗德,曾经担任世界知名投行摩根士丹利的董事总经理,因为撰写研究报告与巴菲特相识.业务上的往来使得施罗德有更多的机会与巴菲特亲密接触,她不仅是巴菲特别的忘年交,她也是第一个向巴菲特建 ...

最新文章

  1. android monkey原理_Monkey与Appium的使用
  2. 绝对经典的滑轮新闻显示(javascript+css)实现
  3. 基因课 15天入门生物信息(2021年) 第三天 Linux基础命令(3)
  4. flash socket通信问题
  5. jQuery 常用方法总结
  6. 你可能没有听说过 js中的 DOM操作还有这个: HTMLCollection 和 NodeList
  7. 对话系统答非所问?快试试这篇ACL'21的连贯性评估大法
  8. BZOJ 3697: 采药人的路径 [点分治] [我想上化学课]
  9. 如果微软开发了 Android,会有何不同?
  10. 3.1~4 处理器架构IA32/x86介绍+IA32架构下汇编基本介绍
  11. 51单片机mysql_[学习笔记]15个QA让你快速入门51单片机开发
  12. Word转换PDF:pdf虚拟打印机怎么用操作技巧详解
  13. 计算机存储器的容量单位有哪些,存储器容量单位有哪些,它们之间的关系是什么?...
  14. 下载网络图片并上传微信公众平台素材库
  15. flash cs3下停止movieClip的播放
  16. linux 分配git用户名和密码,配置Git记住用户名密码的俩种方法
  17. ios微信抓https包提示证书安全警告解决办法
  18. 2018.8.18日,直播笔记
  19. 控制iphone音乐播放器的相关函数
  20. 基础概念之电路板的概念

热门文章

  1. java 新手入门电子书_Java基础入门指导(适合所有初学者).pdf
  2. 2021研面准备 -- 计算机网络知识点整理(一)概述
  3. matlab moler,MATLAB软件创始人Cleve Moler来我校做讲座
  4. 1946年计算机的诞生来自于,计算机诞生于哪年?
  5. JavaScript设计模式读书笔记(一)= 创建型设计模式
  6. 实用工具—SimpleMind 和Sublime Text
  7. 让淘宝流量迅速翻倍的实用技巧
  8. 酒店管理与计算机未来的结合,智慧酒店:未来酒店发展新方向
  9. 英飞凌 | 140W(28V/5A) USB-PD3.1 高功率密度方案
  10. 有限体积法(11)——交错网格