别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best …本文细数了恺明大神的各项工作,一探究竟大神的荣誉史。

荣誉

别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best …,裂开了

干货推荐

  • 深度盘点:机器学习这6套技术资料真香啊
  • 比 PyTorch 的官方文档还香啊,吃透PyTorch中文版来了
  • 赶快收藏,PyTorch 常用代码段PDF合辑版来了
  • Github大盘点:2021年最惊艳的38篇AI论文
  • 我最喜欢的10个顶级数据科学资源,kaggle、TDS、arXiv…

研究兴趣

据我观察,何恺明的研究兴趣大致分成这么几个阶段:

传统视觉时代:Haze Removal(3篇)、Image Completion(2篇)、Image Warping(3篇)、Binary Encoding(6篇)

深度学习时代:Neural Architecture(11篇)、Object Detection(7篇)、Semantic Segmentation(11篇)、Video Understanding(4篇)、Self-Supervised(8篇)

代表作

2009 CVPR best paper Single Image Haze Removal Using Dark Channel Prior

利用实验观察到的暗通道先验,巧妙的构造了图像去雾算法。现在主流的图像去雾算法还是在Dark Channel Prior的基础上做的改进。

2016 CVPR best paper Deep Residual Learning for Image Recognition

通过残差连接,可以训练非常深的卷积神经网络。不管是之前的CNN,还是最近的ViT、MLP-Mixer架构,仍然摆脱不了残差连接的影响。

2017 ICCV best paper Mask R-CNN

在Faster R-CNN的基础上,增加一个实例分割分支,并且将RoI Pooling替换成了RoI Align,使得实例分割精度大幅度提升。虽然最新的实例分割算法层出不穷,但是精度上依然难以超越Mask R-CNN。

2017 ICCV best student paper Focal Loss for Dense Object Detection

构建了一个One-Stage检测器RetinaNet,同时提出Focal Loss来处理One-Stage的类别不均衡问题,在目标检测任务上首次One-Stage检测器的速度和精度都优于Two-Stage检测器。近些年的One-Stage检测器(如FCOS、ATSS),仍然以RetinaNet为基础进行改进。

2020 CVPR Best Paper Nominee Momentum Contrast for Unsupervised Visual Representation Learning

19年末,NLP领域的Transformer进一步应用于Unsupervised representation learning,产生后来影响深远的BERT和GPT系列模型,反观CV领域,ImageNet刷到饱和,似乎遇到了怎么也跨不过的屏障。就在CV领域停滞不前的时候,Kaiming He带着MoCo横空出世,横扫了包括PASCAL VOC和COCO在内的7大数据集,至此,CV拉开了Self-Supervised研究新篇章。

近期工作

62-Exploring Simple Siamese Representation Learning

SimSiam:孪生网络表征学习的顶级理论解释

https://zhuanlan.zhihu.com/p/452659570

65-Masked Autoencoders Are Scalable Vision Learners

NLP和CV的双子星,注入Mask的预训练模型BERT和MAE

https://zhuanlan.zhihu.com/p/435874456

时间线

1-Single Image Haze Removal Using Dark Channel Prior

kaiming he通过大量无雾图片统计发现了dark channel prior—在无雾图的局部区域中,3个通道的最小亮度值非常小接近于0(不包括天空区域)。

dark channel prior通过暗通道先验对haze imaging model进行化简,近似计算得到粗糙的transmission,然后将haze imaging model和matting model联系起来,巧妙的将图像去雾问题转化为抠图问题,得到refined transmission,精彩!

何恺明经典之作—2009 CVPR Best Paper | Dark Channel Prior

https://zhuanlan.zhihu.com/p/418174496

3-Guided Image Filtering

Guided image filtering是结合两幅图片信息的过程,一个filtering input image(表示为p)和一个guide image(表示为I)生成一个filtering output image(表示为q)。p决定了q的颜色,亮度,和色调,I决定了q的边缘。对于图像去雾来说,transmission就是p,雾图就是I,refined transmission就是q。

guided filter则通过公式转换,和滤波联系起来,提出新颖的guided filter,巧妙的避开了linear system的计算过程,极大加快了transmission优化的速度。

何恺明经典之作—2009 CVPR Best Paper | Dark Channel Prior

https://zhuanlan.zhihu.com/p/418174496

37-Focal Loss for Dense Object Detection

构建了一个One-Stage检测器RetinaNet,同时提出Focal Loss来处理One-Stage的类别不均衡问题,在目标检测任务上首次One-Stage检测器的速度和精度都优于Two-Stage检测器。近些年的One-Stage检测器(如FCOS、ATSS),仍然以RetinaNet为基础进行改进。

Soft Sampling:探索更有效的采样策略

https://zhuanlan.zhihu.com/p/63954517

38-Mask R-CNN

在Faster R-CNN的基础上,增加一个实例分割分支,并且将RoI Pooling替换成了RoI Align,使得实例分割精度大幅度提升。虽然最新的实例分割算法层出不穷,但是精度上依然难以超越Mask R-CNN。

62-Exploring Simple Siamese Representation Learning

SimSiam的理论解释意味着带stop-gradient的孪生网络表征学习都可以用EM算法解释。stop-gradient起到至关重要的作用,并且需要一个预测期望E的方法进行辅助使用。但是SimSiam仍然无法解释模型坍塌现象,SimSiam以及它的变体不坍塌现象仍然是一个经验性的观察,模型坍塌仍然需要后续的工作进一步讨论。

Self-Supervised: 如何避免退化解

https://zhuanlan.zhihu.com/p/365700730

SimSiam:孪生网络表征学习的顶级理论解释

https://zhuanlan.zhihu.com/p/452659570

63-A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

指出时空的Self-Supervised采样同一个视频的positive pair时间跨度越长效果越好,momentum encoder比优化目标重要,训练时间、backbone、数据增强和精选数据对于得到更好性能至关重要。

何恺明+Ross Girshick:深入探究无监督时空表征学习

https://zhuanlan.zhihu.com/p/369159211

64-An Empirical Study of Training Self-Supervised Vision Transformers

MoCov1通过dictionary as a queue和momentum encoder和shuffle BN三个巧妙设计,使得能够不断增加K的数量,将Self-Supervised的威力发挥的淋漓尽致。MoCov2在MoCov1的基础上,增加了SimCLR实验成功的tricks,然后反超SimCLR重新成为当时的SOTA,FAIR和Google Research争锋相对之作,颇有华山论剑的意思。MoCov3通过实验探究洞察到了Self-Supervised+Transformer存在的问题,并且使用简单的方法缓解了这个问题,这给以后的研究者探索Self-Supervised+Transformer提供了很好的启示。

65-Masked Autoencoders Are Scalable Vision Learners

MAE设计了一个encoder-decoder预训练框架,encoder只送入image token,decoder同时送入image token和mask token,对patch序列进行重建,最后还原成图片。相比于BEiT,省去了繁琐的训练tokenizer的过程,同时对image token和mask token进行解耦,特征提取和图像重建进行解耦,encoder只负责image token的特征提取,decoder专注于图像重建,这种设计直接导致了训练速度大幅度提升,同时提升精度,真称得上MAE文章中所说的win-win scenario了。

NLP和CV的双子星,注入Mask的预训练模型BERT和MAE

https://zhuanlan.zhihu.com/p/435874456

kaiming科研嗅觉顶级,每次都能精准的踩在最关键的问题上,提出的方法简洁明了,同时又蕴含着深刻的思考,文章赏心悦目,实验详尽扎实,工作质量说明一切。

网友怒赞:都是best....,何恺明编年史绝了相关推荐

  1. 男子刷机多次拒绝来电 维修师傅的做法被网友怒赞

    昨日,一段男子到维修店刷机的视频在抖音上火了,目前已经有18万人点赞. 视频画面中,一男子前往手机维修店,表示忘记密码要刷机. 师傅查看时手机突然来了个电话,维修师问男子要不要接一下电话,男子说&qu ...

  2. 支付宝上线直播功能,网友怒赞:YunOS成了

    文章原创来自(洞见网www.localonline.com.cn)支付宝上线直播功能,网友怒赞:YunOS成了http://www.localonline.com.cn/view/internet/7 ...

  3. 何恺明编年史之深度残差网络ResNet

    文章目录 前言 一.提出ResNet原因 二.深度残差模块 1.数学理论基础 2.深度网络结构 三.Pytorch代码实现 四.总结 前言 图像分类是计算机视觉任务的基石,在目标监测.图像分割等任务中 ...

  4. 时隔3年员工收到以前公司短信要追发数月薪水,获网友怒赞!

    3年时间,说长不长,说短不短,要是放在小时候3年时间无非就是你从1年级升到3年级而已,也没有什么大的变化,而在成年人的世界里,工作与生活节奏都是特别的快,在3年的时间里可能你会经历了很多很多,你可能经 ...

  5. 董明珠拒帮哥哥走后门被踢出族谱!网友怒赞:不愧是铁娘子

    近日,播妞注意到,格力电器董事长董明珠参加了综艺节目<初入职场的我们>,在最新一期节目中,回答了接班人.下一代.退休等大家关心的问题. 此前,董明珠在格力2019届大学生入职大会上的劲爆讲 ...

  6. 东京奥运会73枚动态图标刷爆朋友圈,中国网友怒赞:不愧是设计大国!

    本文转载自公众号"日本设计小站"(ID:japandesign),已获得其授权. 前不久,东京奥组委.残奥组委 公布了73个奥运比赛项目的动态图标 视觉效果堪称惊艳! 图标先以碎片 ...

  7. 64+48+95+11 ,这是什么神仙项目?网友怒赞

    最近,播妞太太太难了 关注我们时间久的朋友都知道 播妞经常要和粉丝沟通 不少人竟然以为 我每天的工作就是和不同小哥哥撩天 享受 后宫佳丽三千「猿」 万千宠爱于一身 的快乐 其实不然 还有你根本想不到的 ...

  8. 紧跟大佬的步伐:关于我亲自动手复现了恺明新作MAE这件事

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨CW不要無聊的風格@知乎(已授权) 来源丨https://zh ...

  9. 鸿蒙系统三大亮点,华为操作系统“鸿蒙”再次被确认!拥有三大亮点 网友:怒赞...

    原标题:华为操作系统"鸿蒙"再次被确认!拥有三大亮点 网友:怒赞 在3月10日,德国媒体发布了一篇文章,是有关华为CEO余承东被问到:华为是否会打造一款属于自己的操作系统用于智能手 ...

最新文章

  1. 用Python爬虫破解滑动验证码
  2. Python可视化应用实战-三万字长文(建议收藏)matplotlib可视化实例,实操有效
  3. linux tar打包、压缩、解压到指定目录
  4. POJ2259,luoguUVA540-Team Queue【队列】
  5. VxWorks动态加载
  6. java中输出值保留四位小数_Java工程师(3).变量和数据类型
  7. python-opencv学习笔记(三)
  8. Python保留字,keyword
  9. 在Python中手动引发(抛出)异常
  10. 爬虫的步骤解析内容xpath介绍_Xpath的基本方法和使用详解 Python爬虫中最好用解析库...
  11. eclipse设置Tomcat超级详细
  12. 计算机组成与系统结构习题
  13. MATLAB求余运算
  14. chrome 浏览器地址栏快速搜索设置
  15. 手把手搭个vue的脚手架 - 2. 模板搭建
  16. Java读取OPC DA报错:org.jinterop.dcom.common.JIException: Access is denied. [0x80070005]
  17. docke网络之bridge、host、none
  18. win10 c盘压缩卷只能压出一半?或只能压缩出一点空间的完美解决方案
  19. Android 工程打包资源文件-OBB文件设置
  20. 字符串、列表、字典、元组的基本操作

热门文章

  1. 使用鼎阳科技SDS2074X Plus示波器的波特图功能求RC滤波器的频率响应
  2. Android画布画圆,android_studio的canvas画圆
  3. c语言张宗杰,《基于C语言的学校图书管理系统》.doc
  4. 地表最强APP推荐合集,让你甩别人一条街
  5. 东软载波M0,HR8P506开发应用初阶-搭建环境及点亮LED.
  6. 华硕T100可以装linux,华硕为 T300 Chi 再带来两个小号的兄弟 T100 Chi 和 T90 Chi
  7. el-descriptions没能实现垂直居中,改为位置top
  8. WebRTC的拥塞控制和带宽策略(转)
  9. C语言猜数字游戏(1-100)
  10. oracle开启关闭严格模式,Flowable DMN 用户手册 (v 6.4.2-SNAPSHOT)