本文原载于我们的主页,转载于此。

译自:A picture is worth a thousand (coherent) words: building a natural description of images  –FROM:Google Research Blog

“两块披萨在炉灶烤箱顶上。”

“一群人在一个露天市场购物。”

“室内最好的座位”

人类可以轻松的从一整个复杂场景中提取重点并简单描述之。而这对计算机来说十分困难。但我们推进了一步:我们发展了一套机器学习系统,当它初次看到图像场景时便可以自动产生标题来精确描述这些图像。这种系统最终可以帮助视障人士理解图像内容、在网速较慢的环境可以用文本替代图像、也更容易使人们在Google上搜寻图片。

目前的研究多集中在物体识别、分类、标注等,并取得较大进展。但精确描述一个复杂场景需要更深入的知道在场景中发生着什么事儿,捕捉各种事物之间的联系并把它转化成自然用语。

自动产生的标题: “Two pizzas sitting on top of a stove top oven”

创建计算机生成图像自然描述的很多努力是合并最先进的计算机视觉和自然语言处理技术以形成一套完整的图像描述方法。但是如果我们不考虑把最新的计算机视觉技术和语言模型合并为联合训练系统,而是拿一张图片直接生成人类可读的文字序列描述呢?

这个想法源自语言之间机器翻译的最新进展,比如说,用一个递归神经网络(RNN)转换,把一个法语句子转换成一个向量表示,第二个递归神经网络利用这个向量表示来生成一个德语句子。

现在,如果我们把上述第一个递归神经网络(RNN)和输入的文字替换为训练过的深度卷积神经网络(CNN),以此来分类图像中的事物会怎样呢?通常,卷积神经网络的最后一层被用在各对象类的最终Softmax函数中,给出每个对象在图像中的概率。但是如果我们移除最后一层,我们可以将卷积神经网络(CNN)丰富的编码代替图像喂给设计好的递归神经网络(RNN)以产生短语。我们可以直接在所有图像及它们的标题上训练整个系统,所以它最大化了这种可能性:对每一张图片系统产生的描述能够最优的匹配训练描述。

模型把视觉CNN和产生语言的RNN相结合,所以输入一张图片便能产生合理的自然语言标题描述之。

我们的系统已经在几个公开的数据集上进行了实验,包括Pascal、Flickr8k、Flickr30k、SBU等,实验表明图像描述的结果具有鲁棒性:产生的句子非常合理。它在机器翻译的评估标准BLEU中也表现良好。

Google图像描述系统生成的图说,经由人工为图说品质评分,分成描述无误、轻微错误、还算与图片有相关、与图片无关四种表现。

一张图片可能胜过千言,但有时就是这些文字才最有意义。所以我们找到把图像自动准确地转换成文字的方法非常重要。随着适合学习图像描述的数据集的丰富和成熟,所有图像对应描述会更精确。我们期待着系统继续发展,可以读取图像并生成良好的自然语言描述。若想得到更多从图像生成描述的框架的细节信息,以及模型评估,可读论文。

一张图胜千言万语:创建图像的自然描述相关推荐

  1. 大数据可视化 让一张图胜过千言万语

    ZD至顶网CIO与应用频道 06月03日 人物访谈(文/王聪彬):谈到大数据,就必然要谈到可视化分析,因为大数据分析的目的是发现有价值的信息,供决策者和业务人员使用,更好地做出企业的决策. 所以每次T ...

  2. coreldraw矫正两张图_coreldraw软件怎样图像倾斜矫正?

    coreldraw软件怎样图像倾斜矫正? 选中一个位图图像.我们可以看到这张位图的海平面是呈斜线形状的. 单击位图,执行"位图"→"矫正图像"命令. 矫正图像对 ...

  3. 数据可视化:一张图胜过千言万语

    信息爆炸时代,一组经过精心设计.形象生动的信息图往往要比一篇深度长文章更容易赢得眼球和青睐.在社交媒体上,你会发现,出色的可视化产品很容易就获得海量转发和分享. "媒介即讯息"这是 ...

  4. 数据可视化 一张图胜过千言万语

    信息爆炸时代,一组经过精心设计.形象生动的信息图往往要比一篇深度长文章更容易赢得眼球和青睐.在社交媒体上,你会发现,出色的可视化产品很容易就获得海量转发和分享. "媒介即讯息"这是 ...

  5. 一张图学会Xmind创建思维导图【转载】

    博文转载自:李龙_XMind有哪些鲜为人知的使用技巧?[知乎]

  6. python Matplotlib 可视化总结归纳(二) 绘制多个图像单独显示多个函数绘制于一张图

    1. 绘制多个图像单独显示(subplot) import numpy as np import matplotlib.pyplot as plt #创建自变量数组 x= np.linspace(0, ...

  7. 3dmax图像采样器抗锯齿_内幕揭秘!同样的场景同一张图,用3DMAX网渲平台进行二次渲染时间竟然相差3个小时之多!...

    一个分辨率:4000*2000的室内客餐厅,3dmax版本是2014版本,渲染器版本为vray3.63,机器:阿里云1台服务器,这个同样的场景同样的参数同一张图,用3dmax网渲平台进行二次渲染发现时 ...

  8. 一张图系列——为什么在DllMain里面创建了线程并Wait会卡死

    这是一个老话题了,推荐一篇文章: http://blog.csdn.net/breaksoftware/article/details/8150476#0-tsina-1-83826-39723281 ...

  9. pytorch 笔记:torch_geometric (1)创建一张图

    1 torch_geometric介绍 PyTorch geometric 是一个基于pytorch的图网络处理库,里面封装了处理图网络需要用到的基础结构. 一个单个的图被描述为torch_geome ...

最新文章

  1. 谷歌新App观妙中国发布:AR传承文化艺术,小米vivo应用宝可体验
  2. @PreAuthorize 权限控制的原理
  3. DbVisualizer Personal 7.0 数据库连接工具免安装版本获取,直接解压即可使用!
  4. 生活质量衡量系统_一文看懂质量管理精髓——“零缺陷”管理
  5. Selenium 窗口切换
  6. linux内存管理(十三)-内存规整过程分析
  7. 利用IAR调试Mini2440
  8. PAT (Basic Level) Practice1015 德才论
  9. 编程范式:命令式编程(Imperative)、声明式编程(Declarative)和函数式编程(Functional)...
  10. java PDF转jpg
  11. Unity写lua代码的vs插件:BabeLua
  12. cmmi分为哪几个等级?
  13. 为什么短除法能求最小公倍数?
  14. python timer怎么用_python定时器(Timer)用法简单实例
  15. 终端怎么退出python命令行
  16. LCP 63 弹珠游戏
  17. 计算机调查作文600字,电脑迷作文600字
  18. redhat KVM 桥接网络br0启动失败问题
  19. 铺砖 动态规划 DP
  20. 【软件推荐】用mamsds把高考倒计时添加到电脑桌面

热门文章

  1. 大学生所面临的网络安全问题有哪些?
  2. 测试用例设计方法_边界值分析法(游戏向)
  3. 性能值得期待,AMD Ryzen 5/Ryzen 3处理器模拟测试
  4. 计算机中云计算器可以完成,Windows电脑计算器快捷键在哪里打开及敬业签云便签在线计算器怎么使用...
  5. win7系统下samba服务器无法登陆,“Windows7如何解决无法访问NAS或Samba服务器”的解决方案...
  6. python淘宝时间戳转换日期(毫秒级)
  7. Gym - 103055J - Grammy and Jewelry ( dijkstra + 完全背包 )
  8. PHP小皮使用,Phpstudy(小皮面板) nginx 解析漏洞
  9. break和continue的作用和区别
  10. 大数据毕业设计如何选题