提起Transformer,就会想到BERT、GPT-3。

但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在「计算机视觉」的道路上越走越远了。

这不最近,北京大学,联合华为诺亚方舟实验室、悉尼大学、鹏城实验室提出了一个图像处理Transformer(IPT)。

它是一种处理底层视觉任务(如降噪、超分、去雨)的全新预训练模型。

为了最大化挖掘模型的能力,研究人员使用 ImageNet 数据集对模型进行预训练,结果经过预训练的模型只需要做一些简单微调即可适用于多种下游任务。

最终,IPT模型在多个底层视觉任务中的表现都达到了SOTA的水准。

图像处理Transformer

从IPT的结构上看,它具备「多头多尾」结构,对于不同的视觉任务,只需要改变头和尾部的结构即可,多种任务共享同一个Transformer 模块。

我们知道Transformer在自然语言处理任务中,输入是单词序列。那么在图像处理任务中,输入输出的都是图像。

除了处理超分辨率任务之外,其他视觉任务图片输入输出的维度相同。Transformer模块在这当中负责特征图处理的任务,头部和尾部的结构则负责图像维度匹配。

具体来说,IPT整体架构由四个部分组成:

头部,采用多头架构,每个头由三个卷积层组成来分别处理每个任务。

这部分主要负责从输入的损坏图像中提取特征,比如低分辨率、需降噪的图像。

Transformer 编码器,在特征输入Transformer模块前,将给定的特征分割成特征块,每个特征块被视作一个「word」。

Transformer 解码器,与编码器采用了同样的架构。将解码器的输出作为Transformer的输入。

为了适应多任务,研究人员还加入了一个可学习的任务编码。

总的来说,这两部分用于恢复输入数据中的缺失信息。

△去雨任务上的视觉效果

尾部,与头部结构相同,用于将特征映射到重建图像中。

随后,研究人员使用 ImageNet 数据集对模型进行预训练。最终,该模型只需要在特定任务的数据集上进行「微调」,即可在此任务上达到很好的效果。

在微调阶段,只有特定任务所对应的头尾结构以及 Transformer 模块被激活训练,与此任务无关的头尾模块会被暂时冻结。

在多个底层视觉任务中达到SOTA

IPT与HAN、RDN、RCDNet在超分辨率、降噪、去雨任务上的性能对比中,均取得了0.4到2.0dB不等的性能提升。

具体到超分任务上,在 Set5、Set14、B100 以及 Urban100 四个数据集上的结果,IPT 模型在所有设定下均取得了最好的结果。

尤其是在 Urban100 数据集上,和当前最好的超分辨率算法相比,IPT 模型展现出了大幅度的优势。

而在降噪任务上,IPT也都表现出了类似的性能。

△降噪任务上的性能对比

从实验结果看到,Transformer在底层视觉任务上的表现似乎还不错,甚至超过了CNN的实力。

想要了解更多论文细节的旁友,点击下方链接即可研读。欢迎与我们分享你的「读后感」哦~

论文链接:
https://arxiv.org/abs/2012.00364

— 完 —

华为北大等打造的Transformer竟在CV上超过CNN相关推荐

  1. 华为北大等联手打造的Transformer竟在CV领域超过了CNN:多项底层视觉任务达到SOTA...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 提起Transformer,就会想到BERT.GPT-3. 但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在 ...

  2. 华为诺亚最新视觉Transformer综述

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 华为诺亚方舟实验室联合北大和悉 ...

  3. TPAMI 2022|华为诺亚最新视觉Transformer综述

    来源丨机器之心 编辑丨极市平台 导读 华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述. 2021 年对计算机视觉来说是非常重要的一年,各个任务的 SOTA 不断被刷新. ...

  4. NeurIPS 2021 Transformer部署难?北大华为诺亚提出Vision Transformer的后训练量化方法...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联 ...

  5. 再拔头筹,FusionInsight为华为云大数据打造硬实力

    近日,IDC发布<IDC MarketScape: 中国大数据管理平台厂商评估,2020>报告.该报告从能力.市场.战略三大维度对中国主流大数据厂商进行全面评估,报告显示华为云位居&quo ...

  6. 华为鸿蒙系统手机央视,央视再次确认!华为投入巨资打造鸿蒙系统生态:体验媲美七成安卓...

    [9月8日讯]相信大家都知道,自从华为被列入到"实体清单"以后,华为为了应对所遭受到软硬件产品断供,也是推出了"备胎芯片"."鸿蒙OS系统" ...

  7. 大势智慧与华为云联合打造全国首个云原生城市智能中枢时空计算服务

    大势智慧与华为云联合打造全国首个云原生城市智能中枢时空计算服 实景三维是未来世界的基础设施,具备建构数字中国时空数字底座的强大能力,能够撬动起整个行业,引发产业链巨变.基于此,大势智慧与华为云联合打造 ...

  8. 释放海量数据价值,尽显数据之美,华为云大数据打造智能数据底座

    释放海量数据价值,尽显数据之美,华为云大数据打造智能数据底座 伴随企业的不断发展,企业信息化.智能化水平的提升,企业内部数据的重要性不言而喻.不夸张的讲,企业数据处理的好坏直接影响着任务是否达标.直接 ...

  9. CV领域,Transformer在未来有可能替代CNN吗?

    Transformer在CV领域得到广泛关注,从Vision Transformer到层出不穷的变种,不断地刷新了各项任务地榜单.在CV领域的应用,Transformer在未来有可能替代CNN吗? 在 ...

最新文章

  1. 【每日一算法】杨辉三角 II
  2. 自动驾驶资料合集:视频、书籍与开源项目
  3. 个人作品:EasyPicker(轻取)简洁而又实用的文件收取Web应用
  4. Ubuntu常见命令记录
  5. Spring MVC 的跨域解决方案
  6. Spring boot的Webjars
  7. python 按钮事件_从django vi中的按钮获取click事件
  8. [Swift]LeetCode1146. 快照数组 | Snapshot Array
  9. linux常用命令:touch 命令
  10. 怎么把php查询到的值显示到下拉框中_RazorSQL for Mac(数据库工具查询) v8.5.0
  11. bigdecimal保留4位小数_四年级数学小数的加减乘法知识点汇总,带练习!
  12. Visual C++编程中的文件操作
  13. 腾讯百度等22家股东退出 链家注册资本缩水34%
  14. Linux内核中makefile有什么作用?深入解析makefile工作过程和原理
  15. 两个条件一个为false就运行_【上古十大神马,其中一个以虎为食,一个诛杀相柳,两个龙王之子】缅怀金庸—射雕英雄传200...
  16. HEVC学习 —— HM的使用
  17. Git发生SSL certificate problem: certificate ha错误的解决方法
  18. 医疗软件测试工作流程
  19. Tensorflow分布式机器学习平台
  20. 悲剧历史人物(一)李广难封

热门文章

  1. 信息上传服务器加速cpu处理,英特尔发布全新第二代至强可扩展处理器携手浪潮加速新型应用发展...
  2. 2432功率计使用说明_为什么说功率计是自行车开挂神器?
  3. pandas中两个dataframe差集
  4. comparator 与comparable之间的关系 注意实现接口comparable<T>时候,T的取值为实现类的类型,眼高手低容易犯迷糊的地方提醒
  5. 散布矩阵与相关系数的实践应用
  6. keras如何解决局部最小问题
  7. 青源Forum | 人工智能的数理基础前沿系列报告 · 第 3 期
  8. 有奖活动:写书评赢O'Reilly Velocity大会门票
  9. 程序员成长路上的团队修炼之道
  10. openSUSE中文输入的安装和设置