车辆的跨模态语义图像生成囧囧囧
目录
- 掩膜 mask
- 定义
- 用法
- 细粒度图像分类(fine-grained image classification)
- 双线性CNN
- 双线性注意力池化方法(BAP)
- BN(批量标准化)和IN(实例标准化)
- BN
- IN
- 激活函数
- Pytorch:autograd及Variable
掩膜 mask
定义
掩膜,通俗地讲就是一个遮挡板,喷漆,或者雕刻或者喷漆的时候,会用一个特定形状的遮板放在被修改的材料上,按照挡板的形状就可以很贴合地得到最后你想要的图案。掩膜就是这么个东西。
binary Mask 叫做二元掩膜,什么意思呢。因为在图像处理的时候,计算机识别图像是将图像当作一个矩阵,你要把一个遮挡板放在一个图像上进行操作,图像矩阵和另外一个“遮挡板”矩阵进行乘积运算,从而得到你想要的结果。举例来说:
图中可以看出,经过掩膜处理之后,其他的部分都被“掩膜”中的0值过滤掉了,剩余的部分就是想要的部分。
(一般机器学习矩阵之间都用点乘)
用法
- 提取感兴趣区:用预先制作的感兴趣区掩膜与待处理图像相乘,得到感兴趣区图像。感兴趣区内图像值保持不变,而区外图像值都为0;
- 屏蔽作用:用掩膜对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计;
- 结构特征提取:用相似性变量或图像匹配方法检测和提取图像中与掩膜相似的结构特征;
- 特殊形状图像的制作。
细粒度图像分类(fine-grained image classification)
相比(通用)图像分类,细粒度图像分类需要判断的图像类别更加精细。比如,我们需要判断该目标具体是哪一种鸟、哪一款的车、或哪一个型号的飞机。通常,这些子类之间的差异十分微小。比如,波音737-300和波音737-400的外观可见的区别只是窗户的个数不同。因此,细粒度图像分类是比(通用)图像分类更具有挑战性的任务。
细粒度图像分类的经典做法是先定位出目标的不同部位,例如鸟的头、脚、翅膀等,之后分别对这些部位提取特征,最后融合这些特征进行分类。这类方法的准确率较高,但这需要对数据集人工标注部位信息。目前细粒度分类的一大研究趋势是不借助额外监督信息,只利用图像标记进行学习,有以下几种方法。
双线性CNN
模型:包含两个特征提取器,其输出经过外积相乘,然后池化,最后获得图片描述
双线性注意力池化方法(BAP)
全局池化:把A×B的矩阵pooling成一个数字。因为每个part feature maps都有N个“A×B的矩阵”,所以全局池化池化并且拼接以后变成了一个N×M的矩阵。
BN(批量标准化)和IN(实例标准化)
BN
Why BN?
我们知道网络一旦train起来,那么参数就要发生更新,除了输入层的数据外(因为输入层数据,我们已经人为的为每个样本归一化),后面网络每一层的输入数据分布是一直在发生变化的,因为在训练的时候,前面层训练参数的更新将导致后面层输入数据分布的变化。以网络第二层为例:网络的第二层输入,是由第一层的参数和input计算得到的,而第一层的参数在整个训练过程中一直在变化,因此必然会引起后面每一层输入数据分布的改变。我们把网络中间层在训练过程中,数据分布的改变称之为:“Internal Covariate Shift”。BN的提出,就是要解决在训练过程中,中间层数据分布发生改变的情况。
How BN?
不仅仅对输入层做标准化处理,还要对每一中间层的输入(激活函数前) 做标准化处理,使得输出服从均值为 0,方差为 1 的正态分布,从而避免内部协变量偏移的问题。之所以称之为 批 标准化:是因为在训练期间,我们仅通过计算 当前层一小批数据 的均值和方差来标准化每一层的输入。
IN
BN 和 IN 其实本质上是同一个东西,只是 IN 是作用于单张图片(对单个图片的所有像素求均值和标准差),但是 BN 作用于一个 batch(对一个batch里所有的图片的所有像素求均值和标准差)。
激活函数
各种激活函数的介绍
GLU(Gated Liner Unit)
表达式为:f(X) = (X * W + b) * O(X * V + c)
组成结构:Relu激活单元:(X * W + b),加上一个Sigmoid激活单元:O(X * V + c),构成的gate unit,就构成了GLU单元。
Pytorch:autograd及Variable
Pytorch的Variable相当于一个Wraper,如果你想将数据传送到Pytorch构建的图中,就需要先将数据用Variable进行包装,包装后的Variable有三个attribute:data,creater,grad:(如下图所示)
其中data就是我们被包裹起来的数据,creator是用来记录通过何种计算得到当前的variable,grad则是在进行反向传播的时候用来记录数据的梯度的。
车辆的跨模态语义图像生成囧囧囧相关推荐
- 文献记录(part63)--跨模态社交图像聚类
学习笔记,仅供参考,有错必纠 关键词 :跨模态学习:共轭词典学习: WordNet :图像聚类:社交图像:语义相似度度量 文章目录 跨模态社交图像聚类 摘要 引言 相关工作(略) 跨模态特征学习 优化 ...
- 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015
期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀 文末附人脸标注相关论文下载地址 文章目录 摘要 技术 人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...
- 百度“知识增强的跨模态语义理解技术”获国家技术发明奖
11月3日,2020年度国家科学技术奖励大会在京举行,百度"知识增强的跨模态语义理解关键技术及应用"获国家技术发明二等奖. 该技术旨在通过构建大规模知识图谱,关联跨模态信息,通过知 ...
- 跨模态语义关联对齐检索-图像文本匹配(Image-Text Matching)CVPR2022
- 可见光-红外的跨模态行人重识别最新研究成果汇总
目录 Introduction Challenges Advantages Methods [2020 AAAI] Cross-Modality Paired-Images Generation fo ...
- 调用百度文心AI作画API实现中文-图像跨模态生成
作者介绍 乔冠华,女,西安工程大学电子信息学院,2020级硕士研究生,张宏伟人工智能课题组. 研究方向:机器视觉与人工智能. 电子邮件:1078914066@qq.com 一.文心AI作画API介绍 ...
- 你说我画,你画我说:全球最大中文跨模态生成模型文心ERNIE-ViLG来了!
来源:机器之心 本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型. 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的 ...
- 文献阅读-用于图文检索的跨模态信息交互推理网络
DOI:10.3778/j.issn.1002-8331.2205-0056 引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程 与应用. https://kns. ...
- 从图像生成自动描述:对模型,数据集和评估方法的综述
摘要 从自然图像生成自动描述是一个具有挑战性的问题,近来受到计算机视觉和自然语言处理社区的大量关注. 在本次调查中,我们根据他们如何将这个问题概念化的现有方法进行分类,即将描述作为生成问题或作为视觉或 ...
最新文章
- 2021-2027年中国中高端女装行业市场分析预测及投资方向研究报告
- ue4android相机拍照插件,cordova-plugin-camera相機插件使用
- Android sqlite 数据库保存Date 类型
- 修改android virtual device路径
- Verilog中wire与reg类型的区别
- crashdumpandroid_Android 中Crash时如何获取异常信息详解及实例
- 【Boost】系列03:内存管理之shared_ptr智能指针
- python学习之文件读写
- js 动态绑定事件 on click 完美解决绑定不成功
- 【cornerstone】多边形标注组件(FreehandRoi)的Area悬浮文本项的消除
- 浅谈SpringMVC之DispatcherServlet
- 如何解读vmlinux.lds.S文件
- KISSY - A Powerful JavaScript Framework
- ds—at1000s说明书_DS-1000操作手册.pdf
- matlab晶闸管整流电路,三相桥式全控整流电路 MATLAB/SIMULINK电力电子电路仿真
- Qt Creator配置FreeImage库
- 深度学习GPU显卡的浮点计算性能指标分析
- HTML5期末考核大作业:华为官网 ( 2页带轮播图)
- Arduino作为编程器读写BIOS、bootloader、uboot或者breed
- 零基础使用Xmind