在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第 28 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @duinodu本文研究的问题是深度学习中的网络工程问题。如何设计更好的网络结构,是目前的一个研究热点。这样的网络结构一旦被设计出来,可以马上用于很多其他任务。

本文贡献主要有两点:

1. 把语法模型和深度神经网络模型结合起来,设计的模型同时兼顾特征的 exploration and exploitation(探索和利用),并在网络的深度和宽度上保持平衡;

2. 设计的网络结构,在分类任务和目标检测任务上,都比基于残差结构的方法要好。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:杜敏,华中科技大学硕士生,研究方向为模式识别与智能系统。

■ 论文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

■ 链接 | https://www.paperweekly.site/papers/1315

■ 作者 | duinodu

论文亮点

网络工程问题,属于深度学习中比较基础的问题。网络工程的最大难点在于,由于缺乏对深度神经网络的理论理解,无法根据某种理论来设计网络结构,实际中更多的不断地尝试,根据实验反馈来确定某种结构是不是好。

而使用像增强学习、进化算法等自动学习网络结构的方法,搜索空间巨大。有两个子空间,一个是结构连接子空间,一个是运算符子空间,搜索空间是这两个空间的乘积,自动学习网络结构的算法需要昂贵的计算资源。

本文的解决办法是,把语法模型(grammer model)放到神经网络的设计中来,在分类和目标检测任务中,均取得比基于残差结构的模型更好的效果

模型介绍


整个模型概览图如下:


中间有 4 个 AOG 构建块,每个 AOG 块的结构如下图所示:

AOG 的全称叫 AND-OR graph,是一种语法模型(grammer model)。在人工智能的发展历程中,大体有两种解决办法:一种是自底向上,即目前非常流形的深度神经网络方法,另一种方法是自顶向下,语法模型可以认为是一种自顶向下的方法。

所谓的语法模型,即规定 3-4 条规则,构建 graph,graph 可以认为是一种特征表达的范式,它没有具体规定特征表达是什么形式,但是如果遵循这种规则构建特征表达,却能达到比较好的效果。本文使用如下三条语法规则:

AOGNet 的构建流程如下:

可以配合视频[1],看这个流程图。

网络工程分为两个部分:设计连接结构和设计运算操作符(structure space 和 operator space)。

整个的 CNN 发展历程,都可以归结到这两点。论文的相关工作部分,很好地对 CNN 网络结构的演变,梳理了一番,有如下网络结构:

  • LeNet-5(20 年前)

  • AlexNet(8 层,在 operator space 提出两种新的操作符:ReLU 和 Dropout))

  • VGG Net(19 层,多个连续的重复的小卷积核,且卷积的 stride 很小)

  • network-in-network(用 1x1 的卷积,在层层之间,增大或者较少特征的维数)

  • GoogleNet(inception, bottleneck)

  • Highway network(skip connection)

  • Residual Network(Residual connection)

  • Fractal Net(another short path without residual)

  • DenseNet(concatenation scheme)

  • Dual Path Network SE-Net(channel-wise encoding)

  • Hourglass(subsampling & upsampling)

使用三条语法规则构建了网络连接方式,网络中每个节点的运算操作符采用 Bottleneck + Conv_BN_ReLU 的方式。

其实可以不同的节点,设计不同的运算符,作者这里都统一成一样的。处理上面统一的运算符,各个不同的节点还要分别做下面的运算。

实验结果

在 CIFAR 和 ImageNet-1k 上做了分类的实验,在 VOC0712 做了目标检测的实验(使用 fasterRCNN 框架)。

文章评价

本文作者团队是朱松纯教授[2]组的,他们组一直在做语法模型。之前读过他写的《人工智能的现状、任务、架构和统一》[3],看到这篇文章以及了解了语法模型,才算是了解朱松纯组到底要做什么样的事情。

语法模型和深度神经网络,是可以相互融合的方法,前者基于规则,后者基于大量数据拟合。本文只是语法模型的冰山一角,另一篇论文 Interpretable R-CNN [4],也用到了语法模型,和 RFCN 方法结合,获得一种目标的 part configuration。

这种语法模型目前还在探索之中,尤其是和深度神经网络结合的工作,以及和 GAN、RL 等不同范式的深度学习方法结合,应该会有有趣的工作。

相关链接

[1] AOGNet 构建流程视频

http://v.youku.com/v_show/id_XMzIxNDU4MTQ4NA

[2] 朱松纯教授主页

http://www.stat.ucla.edu/~sczhu/

[3] 人工智能的现状、任务、架构和统一

http://www.stat.ucla.edu/~sczhu/Blog_articles/浅谈人工智能.pdf

[4] Interpretable R-CNN

https://www.paperweekly.site/papers/1215

本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!

  我是彩蛋 


解锁新功能:热门职位推荐!

PaperWeekly小程序升级啦

今日arXiv√猜你喜欢√热门职位

找全职找实习都不是问题

 解锁方式 

1. 识别下方二维码打开小程序

2. 用PaperWeekly社区账号进行登陆

3. 登陆后即可解锁所有功能

 职位发布 

请添加小助手微信(pwbot01)进行咨询

长按识别二维码,使用小程序

*点击阅读原文即可注册


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 查看原论文

AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28相关推荐

  1. 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?

    研究背景 语音合成系统主要分为两类,拼接合成系统和参数合成系统.其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.另一方面,物联网设备(例如智能音箱和智能电视)的大量普 ...

  2. 双向长短期记忆网络模型_基于深度双向长短期记忆网络的空气质量预测方法与流程...

    [技术领域] 本发明涉及一种基于深度双向长短期记忆网络的空气质量预测方法,属于空气污染预测领域. 背景技术: 空气污染物浓度的预测拥有很强的学科交叉性,一直是环境.气象.数学.地理及计算机科学领域研究 ...

  3. 基于文本和图像的网络舆情分析方法研究

    基于文本和图像的网络舆情分析方法研究 一.舆情分析技术 (1)舆情数据采集与提取技术: (2)自动文摘技术: (3)事件发现与追踪技术: (4)舆情情感分析技术. 二.舆情情感分析模型 (1)基于知识 ...

  4. 3种基于深度学习的有监督关系抽取方法

    摘要:本文对几种基于深度学习的有监督关系抽取方法进行了介绍,包括CNN关系抽取.BiLSTM关系抽取以及BERT关系抽取. 本文分享自华为云社区<基于深度学习的有监督关系抽取方法简介>,作 ...

  5. DeepARG——一种基于深度学习更加准确预测ARG的方法

    DeepARG--一种基于深度学习更加准确预测ARG的方法 本文介绍的是发表于Microbiome名为DeepARG: a deep learning approach for predicting ...

  6. Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点

    今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...

  7. 基于深度强化学习的智能车间调度方法研究

    摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路.智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度.首先, ...

  8. 基于深度学习的指针式仪表图像智能读数方法

    针对传统图像处理的仪表识别方法鲁棒性较差,难以满足复杂环境下的指针式仪表图像读数,而深度学习的方法通过样本的训练能够适应更多的复杂场景,越来越多的仪表读数解决方案更偏向于使用深度学习的方法.而现在的基 ...

  9. 基于深度对抗学习的智能模糊数据生成方法

    目录 第一节 介绍: 第二节:相关工作 第三节:背景 A.深度学习 B.生成对抗网 C.WGAN 第四节 模糊系统设计 A.概述 1)数据帧预处理 2)对抗训练 3)模糊测试和再培训 B.数据帧预处理 ...

最新文章

  1. rpcgen的简单讲解及例子程序
  2. 2017-2018 ACM-ICPC Asia East Continent League Final (ECL-Final) 题解(10 / 13)
  3. J.U.C 提供的阻塞队列
  4. 怎样在PHP中通过ADO调用Asscess数据库和COM程序
  5. zynq linux opencv效率,2 - 基于ZYNQ7000的交叉编译工具链Qt+OpenCV+ffmpeg等库支持总结
  6. c语言 段错误 指针,求教为什么指针动态申请了空间,scanf的时候还会段错误
  7. vi - vim的一些遗忘点
  8. SQL Server 2008 卸载报错
  9. sdr 软件_购买软件定义无线电(SDR)还是传统无线电台?|追求欲望无止境
  10. 贪心 汽车加油 java_汽车加油问题之贪心算法
  11. 计算机专业游戏留学,启程:一个游戏专业留学生的第一周
  12. 采用全球面螺旋线的 光纤陀螺仪
  13. 删除文件夹显示找不到该项目,也无法改名、移动等
  14. 磁盘管理以及文件系统管理
  15. 2021级程序设计ICODING答案分享
  16. MatrikonOPC与欧姆龙PLC以太网通讯
  17. 为什么要用Modbus转MQTT网关?
  18. Python 语言中的 “鸭子类型”
  19. LORA模块初始化失败
  20. 分享一个门店会员管理系统模板

热门文章

  1. SOA架构下的人事信息管理系统的构建与分析
  2. 02python 中的线程
  3. 数据结构实验之查找七:线性之哈希表
  4. 找工作笔试面试那些事儿(10)---SQL语句总结
  5. IOS 项目名称修改(XCODE4.6)
  6. Qt ObjectModel (from Qt doc)
  7. python界面开发pyqt_Python2.7+PyQt4进行界面开发
  8. matlab 双向链表,双向链表基本操作(C语言实现)
  9. 计算机简单游戏有什么用,简单又好玩的互动游戏 简单又好玩的互动游戏有哪些...
  10. numpy 若干行和列_Numpy的轴,pandas的行和列