1 词袋模型

李菲菲认为图像可以类比文档,图像的子块或特征点可以看作是单词,则可以统计图像中所有特征的直方图表示图像,即得到图像的BoW(bag of words)模型。图1是BoW模型的示例图,对于已经获得的视觉码本,统计新的图像在各个子块上的直方图,例如人像中直方图最大的是人眼和皮肤,自行车中直方图突出的是车座。通过直方图的映射,可以简单有效的获得图像的特征描述。

bow模型的构建主要包括:特征提取、生成码本、统计直方图三个步骤,算法流程如图2所示。

(1)特征提取:对训练集中的每一张图片提取特征,常见如SIFT特征,获得M张图片共计N个特征向量。

(2)生成码本:对训练集中获得的特征进行聚类,如使用K-means算法将训练特征集合聚成K个簇,每一个簇代表一类相似的特征(即一个视觉单词),构造K个视觉词典的码本。对于字典的详细描述,可见我的另一篇博客:稀疏编码及字典学习。

(3)统计直方图:根据聚类获得的视觉码本(字典),对于每一幅图像(训练集或测试集),统计其特征点在码本上的直方图分布,获得图像的视觉描述,作为图像最终的特征表示。

关于词袋模型的详细解释以及磁带模型和支持向量机相结合用于图像分类,可见http://blog.csdn.net/loadstar_kun/article/details/39450137

2 空间金字塔模型

bow模型在统计特征直方图分布时,未考虑特征在原始图像中的空间位置信息。空间金字塔模型(Spatial Pyramid Matching, SPM)对图像进行不同粒度的切分,构造多个不同尺度的子块(关于尺度的介绍,可以查询小波分析),然后同样按照BOW模型分别统计子块中的特征表达(直方图),最后拼接所有子块中的特征作为图像的特征描述。SPM模型流程如图3所示。

经过类似BOW模型的方法获得图像的视觉码本后,为了构建空间金字塔,SPM将图像划分为0,1,...,L-1个尺度空间,在尺度下,属于0到L-1,将图像划分为的图像子块,依次统计尺度下各个子块中包含的特征点在码本中的直方图表示:

式中,表示在尺度下的第i个子块中的特征码本直方图表示。对不同尺度下的特征进行加权,最后合并不同尺度下的多个直方图表示得到图像的最终特征表达f。SPM特征映射示意图如图4所示。

词袋模型和空间金字塔模型相关推荐

  1. 实体链接(Entity Linking)、依存句法分析、成分句法树、词袋模型、文本向量空间模型(TF-IDF)、

    实体链接(Entity Linking).依存句法分析.成分句法树.词袋模型.文本向量空间模型(TF-IDF) 目录

  2. SPM空间金字塔模型

    1 基本介绍 SPM 全称是Spatial Pyramid Matching,出现的背景是bag of visual words模型被大量地用在了图像表示(Image representation)中 ...

  3. Spatial Pyramid Pooling(空间金字塔池化)-变尺度CNN训练

    1. 需求创造好的产品,产品拓宽原始的需求 当前的深度神经网络一般都需要固定的输入图像尺寸(如224*224). 这种需求很明显是人为的,潜在性的弊端会降低识别精度(为了使图像尺寸相同,一定会涉及到图 ...

  4. 词向量之词袋模型(BOW)详解

    目录 前言 词袋模型 词袋模型的作用 词袋模型的实现 前言   自然语言处理面临的文本数据往往是非结构化杂乱无章的文本数据,而机器学习算法处理的数据往往是固定长度的输入和输出.因而机器学习并不能直接处 ...

  5. java词袋模型_自然语言处理——词袋模型与向量化

    词袋模型 词袋模型(Bag of Words,简称BoW),所谓的词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法. 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词 ...

  6. 【特征工程】词袋模型/TF-IDF模型/词汇表模型的代码实现(文本特征提取)

    文章目录 1.词袋模型 2.TF-IDF模型 3.词汇表模型 1.词袋模型 词集模型:单词构成的集合,集合中仅统计单词的有无,不统计具体单词的出现的次数 词袋模型:在词集模型的基础上,统计单词出现的次 ...

  7. R语言构建文本分类模型:文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、基于自定义函数构建xgboost文本分类模型

    R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.基于自定义函数构建xgboost文本分类模型 目录

  8. R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理、构建词袋模型、构建xgboost文本分类模型、基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化

    R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理.构建词袋模型.构建xgboost文本分类模型.基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化 目录

  9. R语言构建文本分类模型:文本数据预处理、构建词袋模型(bag of words)、构建xgboost文本分类模型、xgboost模型预测推理并使用混淆矩阵评估模型、可视化模型预测的概率分布

    R语言构建文本分类模型:文本数据预处理.构建词袋模型(bag of words).构建xgboost文本分类模型.xgboost模型预测推理并使用混淆矩阵评估模型.可视化模型预测的概率分布 目录

最新文章

  1. 图像切割之(一)概述
  2. Luogu P1607 庙会班车【线段树】By cellur925
  3. zoj3381 Osaisen Choudai!
  4. 基于用例的工作量估计
  5. CSS3透明背景表单
  6. rx 异步执行耗时_使用rx-java的异步抽象
  7. ConstantSourceNode
  8. 中国开放教育资源协会
  9. iOS UITextField设置起始字符开始位置
  10. 如何在WORD中给数字加上圈,教程在这里,怎么在WORD中给数字加圈
  11. AutoResetEvent和ManualResetEvent的区别
  12. plsql如何显示表结构图_如何用PLSQL导出数据库存表结构信息
  13. C语言程序入门(零基础入门)
  14. 微信域名防红是怎么做出来的,原理是什么?_域名微信防封
  15. 有趣的MATLAB小程序
  16. Windows中快速获取文件目录的方法
  17. mkfs fat32 卷标 linux,fdisk_mkfs分区格式化课件.pdf
  18. android 各个版本的发布时间和信息
  19. 电容式触摸屏调试常见问题汇总(连载贴)
  20. 如何根据实际需求选择合适的三维实景建模方式?

热门文章

  1. MeterSphere开发者手册
  2. 将字符串中的小写字母转换为相应的大写字母
  3. java socket 长连接事例
  4. 快速傅里叶变换使用方法
  5. C语言的快乐-表白代码
  6. PowerDesigner删除外键关系,而不删除外键列
  7. 关于论文格式要求及字体大小
  8. 刷题刷题(个人记录)
  9. 总谐波失真(THD)的定义
  10. coursera无法播放视频