点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:作者丨花花,OLDPAN

来源丨知乎问答

编辑丨极市平台

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

来源链接:https://www.zhihu.com/question/463585564/answer/1927466979

# 回答一

作者:花花

阿里巴巴高级技术专家

来源链接:https://www.zhihu.com/question/463585564/answer/1927466979

分类任务:transformer在分类任务上超过cnn让大家欣喜若狂,用pretrain进行finetune是一件合理的事情,但可能大家也有意识到,imagenet-1k, imagenet-21k等pretrain的跨domain问题。
其次,实际项目中,包括模型转化,量化,SDK集成直到模型上线仍然有很大量的工作,链条不完善的情况下,不太容易落地,同时在inference速度上当前没有足够好的优化,也是一个劣势。

检测任务:说完分类再来考虑检测,目前两套思路,一种是换掉backbone,以pretrain的方式进行下游任务,部署难度和分类任务一样;另一种是类似DETR这种训练方式,想要取得较好的精度需要更大量的数据,对于实际项目并不容易获取,且训练相较于普通检测方法多了5到10倍的时间,在没有取得很明显的提升的情况下,也不太适合盲目进行落地。

值得一提的几点:
1. 在public dataset 上杀疯了并不代表在实际业务数据上就能很好的work,这点就不展开了,做过落地的都明白。
2. 当前另外一个方向是自监督+transformer(SSL+Transformer),个人认为非常有潜力,包括微软的swin-ssl,Facebook的dino等,都是这方面的尝试
3. 落地场景不同,情况就不同,人脸上亿量级的数据如果要train from scratch,要直接硬上transformer,计算资源是非常非常可观的。

个人一点不成熟的观点,轻喷:
我认为现在transformer还处于不成熟的阶段,大部分的工作都在分类任务上进行尝试,因为训练成本较高,部分paper的实验结果并不solid,提点也有限,虽然百花齐放但还没有一个较为统一的认知和共识,下游任务(detection,segmentation)的验证也不是很solid。同时底层硬件,CUDA,训练框架对transformer的优化也不够完善。

类比CNN的发展历程,我认为目前transformer在CV领域应该还处于AlexNet阶段,距ResNet阶段还有一定的距离,一方面是research这条线继续推陈出新,另一方面是工程部署这条线的持续跟进(可以看到很多社区的框架也在多分布式训练,transformer训练进行优化和加速)。

  1. 需要另一个里程碑来统一大家的认知

  2. 落地是肯定要落地的,大家一起加油。

# 回答二

作者:OLDPAN

来源链接:

https://www.zhihu.com/question/463585564/answer/1940309173

这个问题问得好呀,说不定楼主都已经踩过坑了 。

在我们组的CV中,识别组大部分的结构都包含transformer,也有一些LSTM和attention,其中有部分模型可以转化为tensorrt然后使用triton部署。相比原生的TensorFlow server要快些。不过仍有提升空间。

而检测组则没有使用transformer,一方面是因为原先的结构比较好部署(ssd,centernet,fcos等结构)比较熟悉,二是cv检测上的transformer结构还不是很成熟,没有比较通用性的backbone可以替换之前使用的resnet这类的通用backbone。

如果之后会使用transformer,我会考虑:

  • 精度提升有多大,对于检测任务来说。如果不是质的提升(十分之一),尽量不考虑

  • 速度能有多快,相比resnet50,同等精度或者高于这个精度能有多快

  • 还是那句话,好不好部署,能否转化为tensorrt,转化后支不支持动态尺寸 这都是问题

其实也简单尝试了一下swin transformer,目前可以转化为tensorrt但只支持固定尺寸,在分类任务上,swin最小结构的精度比res50要高些,但速度嘛,慢了一倍多 ,唉性价比瞬间降低了。

对于我们来说,用不用transformer,关键还是取决于精度和速度能否超过之前的backbone,性价比高不高。不高的话,大概率不会用……

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

2021年,作为算法工程师的你们会在CV业务上用Transformer吗?相关推荐

  1. 2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗?

    作者丨花花,OLDPAN 来源丨知乎问答 编辑丨极市平台 [导读]众所周知,Transformer 已经日常在CV学术领域"杀疯了",那么在工业领域情况如何呢? 来源链接:http ...

  2. 2021年后一个算法工程师的门槛有多高?

    链接:https://www.zhihu.com/question/437429362 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 想知道2021年后一个算法工程师的门槛有多高,现在我在读研 ...

  3. 2021年,算法工程师必备的能力是什么?

    到底算法工程师需要具备什么样的能力?才能满足"越来越卷"的要求 近年来,关于算法岗位"越来越卷"的声音持续热烈. 我们经常收到一些同学提问:算法岗位听说人才过剩 ...

  4. 算法工程师面试题【集锦cv/ml/dl】

    (一)            机器学习方面 SVM 1.  支撑平面---和支持向量相交的平面:::分割平面---支撑平面中间的平面(最优分类平面) 2.  SVM不是定义损失,而是定义支持向量之间的 ...

  5. 算法工程师落地_模型的更新升级能力

    20210728 https://mp.weixin.qq.com/s/lAJV1QPy_ZWJeQ1cIpUdEg 2021年,算法工程师必备的能力是什么? 数据分析和代码编写,java的能力 20 ...

  6. 从杉数到滴滴——未入门算法工程师工作日记(快手篇)

    大家好!好久不见了!今天猹哥迎来了自己的23岁生日,也迎来了自己人生的第一个在职场赶项目ddl度过的生日(泪).祝自己生日快乐的同时,也加班加点的把<从杉数到滴滴>系列又更新了一篇- 熟悉 ...

  7. 两成开发者月薪超 1.7 万、算法工程师最紧缺! | 中国开发者年度报告

    整理 | 郭芮 责编 | 唐小引 出品 | CSDN(ID:CSDNnews) "求知若饥,虚心若愚"--这个原本出自<全球概览>的俳句,因为乔布斯在斯坦福大学毕业演讲 ...

  8. 2019年:两成开发者月薪超1.7万,算法工程师最紧缺

    "求知若饥,虚心若愚"--这个原本出自<全球概览>的俳句,因为乔布斯在斯坦福大学毕业演讲中的引用而备受推崇,流传成为IT界的至理名言之一.在编程界,亦有"代码 ...

  9. 如何准备算法工程师面试,斩获一线互联网公司机器学习岗offer?

    最近互联网公司的秋招如火如荼的进行,我也收到过不少同学的关于面试和选择offer的咨询,因为在之前的专栏文章和一些回答中已经介绍过一些相关经验,这篇文章就做一个全面的总结. 本文将分三个部分: 1.机 ...

最新文章

  1. swift_012(Swift 的字面量)
  2. predicate java 作用_Java函数式编程接口详解之Predicate
  3. 华为BGP动态路由协议理论
  4. win10计算机添加右键菜单,win10系统如何对鼠标右键菜单进行手动管理和添加
  5. 使用WildFly 8.2.0.Final,Primefaces 5.1和MySQL 5的JDBC领域和基于表单的身份验证
  6. 爱立信与中国联通成功完成国内首个LTE三载波聚合大规模部署测试
  7. Revit二次开发示例:APIAppStartup
  8. 我的YUV播放器MFC小笔记:添加删除自定义分辨率
  9. 自定义文件系统下的磁盘访问次数计算
  10. MySQL IFNULL函数
  11. android MVC和MVP探讨
  12. 利用python将excel导入SQL Server数据库
  13. bulk insert java_oracle bulk Insert 比insert 快不是一点啊.
  14. 2008年希赛软考学院招生
  15. 软件测评师--第九小时 web应用测试
  16. (杂谈)攻击者与开发者的无形碰撞--逻辑漏洞的挖掘实战及反思(一)
  17. 如何免费获取国外硕博学位论文全文资源
  18. bitbake如何clean
  19. wps打印错误未定义书签怎么解决_wps书签_如何利用WPS书签来进行快速定位_wps书签怎么用_wps错误未定义书签...
  20. VA虚拟平台十大亮点

热门文章

  1. python 验证码图片 模拟登录_Python 模拟生成动态产生验证码图片的方法
  2. debian9为什么默认是pip2_Debian9 安装后基本配置
  3. hough变换直线检测_CV学习笔记(十五):直线检测
  4. RedHat未注册 无法使用yum的解决办法
  5. 2运行内存多大_电脑有没有必要升到16GB内存?今年内存这么便宜?要不要抄底升级到16GB?...
  6. 复制release文件到另一台电脑.exe文件无法运行_电脑技巧:电脑版微信双开(或微信多开)?用start指令可以解决...
  7. mysql数据库sql语法_Mysql数据库SQL语句整理
  8. 分子机制研究的五个层次,你的研究在哪个层次--转载
  9. C++的三大特性之一继承
  10. GET和POST方式提交参数给web应用