MLP is Best?

众所周知，CNN是计算机视觉的首选模型，最近还流行用vision transformer做视觉，谁又能想到用多层感知机(MLPs)去做图像相关的模型呢？《MLP-Mixer: An all-MLP Architecture for Vision》这篇论文就用了基于MLP的框架，依然取得了很高的分类精度。

MLP-Mixer简介

MLP-Mixer不用卷积，也不用attention，完全基于multi-layer perceptrons(MLPs)，仅依赖最基本的矩阵相乘，数据输出的改变(reshape，转置)，和标量的非线性。上图展示了MLP-Mixer的宏观框架。说好的MLP，为啥看着这么像transfromer。

从上图我们可以看到，一张图片会被等分切成多个patchs，然后每个patch会有很多channels，最终一张图片的输入就是patches * channels的一张表。通俗点说，如上图左下角那张图片，假如它是9 * 9 * 3 ，会被划分成9个patch，每个patch就是3 * 3 * 3 = 27，所以这张图片的输入就是 9 * 27，如果输入多张图片，就是batch_size * 9 * 27。

从图中，我们可以看到Mixer使用两种类型的MLP层，channel-mixing MLPS和token-mixing MLPs。channel-mixing MLPs使得channel内之间有交互，而token-mixing MLPs使得不同位置(不同patch)之间有交互。这两种类型的MLP交错使用使得输入各个维度之间不断学习交叉特征。

如论文所说，channel-mixing就相当于使用1维卷积，对于token-mixing就可以看作为一个单通道的depth-wise卷积。CNN并不能看作是Mixer的特例，要远比这种结构复杂。

Mixer架构

其实Mixer架构非常简单，看上面的图解就已经很清楚了。Mixer把一个图片拆解为S个patchs，每个patch之间并无重叠。

每个patch会被同一个矩阵做线性映射为X(S * C)，然后输入到上文所说的多个Mixer层中，先是遇到token-mixing MLP block，对矩阵每列做映射，再是通过channel-mixing对每行做映射，这里映射是共享embedding的。每个MLP层都包含两个全连接和一个非线性函数。Mixer layers用公式定义如下:

每层mixer的输入都是同样尺寸的table，这个和transformer很类似，和CNN就很不同了。Mixer也没有使用position embedding，因为token-mixing MLPs对位置已经很敏感了。最后Mixer用了一个很标准的pooling层和全连接层做分类任务。

实验

从实验中我们可以看到mixer在精度上离vit模型已经相差不多了，论文还对比了pretrain后的效果对比，感兴趣的可以看原文。

MLP-Mixer: An all-MLP Architecture for Vision.

https://arxiv.org/pdf/2105.01601.pdf

代码路径：https://github.com/google-research/vision_transformer

MLP is Best?

MLP is Best?相关推荐

谷歌提出纯 MLP 构成的视觉架构，无需卷积、注意力！
来源 | 迈微AI研习社责编 | 寇雪芹头图 | 下载于视觉中国当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络 ...
AI从入门到放弃2：CNN的导火索，用MLP做图像分类识别？
来源 | 腾讯知乎专栏作者 | AIoys(腾讯员工,后台工程师) 项目文档和代码在此:github项目地址: https://github.com/zsysuper/AI_Notes ▌一.前言 ...
CV之后，纯MLP架构又来搞NLP了，性能媲美预训练大模型
视学算法报道编辑:陈萍.小舟搞不起大模型,试一下超高性能的纯 MLP 架构? 去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出 MLP-Mixer ,这是一个纯 MLP 构建的视觉架构. ...
2021年机器学习什么风向？把注意力放在MLP上
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源:机器之心本文约2600字,建议阅读5分钟Attention i ...
CNN、Transformer、MLP架构的经验性分析
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨pprp 来源丨GiantPandaCV 编辑丨极市平台导读 ViT的兴起挑战了CNN的地位, ...
假设你有一个多层感知机网络（MLP），输入层有10个节点、一个单隐层共50个神经元，最后是一个3个神经元的输出层。请问网络的结构是什么样子的使用数学形式进行描述？
假设你有一个多层感知机网络(MLP),输入层有10个节点.一个单隐层共50个神经元,最后是一个3个神经元的输出层.请问网络的结构是什么样子的使用数学形式进行描述? 输入矩阵X的形状是什么? 隐藏层的权 ...
多层感知机MLP常见的超参数有哪些？如果MLP模型对于数据集过拟合了，如何调整这些超参数来进行解决？
多层感知机MLP常见的超参数有哪些?如果MLP模型对于数据集过拟合了,如何调整这些超参数来进行解决? 目录
多层感知机MLP、RBF网络、Hopfield网络、自组织映射神经网络、神经网络算法地图
多层感知机MLP.RBF网络.Hopfield网络.自组织映射神经网络.神经网络算法地图目录
sklearn MLP（多层感知机、Multi-layer Perceptron）模型使用RandomSearchCV获取最优参数及可视化
sklearn MLP(多层感知机.Multi-layer Perceptron)模型使用RandomSearchCV获取最优参数及可视化 Deep Learning 近年来在各个领域都取得了 sta ...
【神经网络】MLP 编码器-解码器注意力机制残差连接
[1] 多层感知机(MLP) 最典型的MLP包括包括三层:输入层.隐层和输出层,MLP神经网络不同层之间是全连接的(全连接的意思就是:上一层的任何一个神经元与下一层的所有神经元都有连接). 由 ...

MLP is Best?

MLP-Mixer简介

Mixer架构

实验

MLP is Best?相关推荐

最新文章

热门文章