硬件不给力，如何穷玩深度神经网络？

选自LinkedIn机器之心编译参与：吴攀、蒋思源、李亚洲

深度学习的力量为其在真实世界的应用创造出了巨大的机会。但深度学习的训练往往需要巨大的计算能力，有时候我们却没法（或没钱）去使用强大的服务器或 NVIDIA 的 Jetson 那样的嵌入式加速平台。假如你需要使用一块树莓派开发板为你家的小院子开发一个目标跟踪器呢？换句话说，如果你需要在没有加速器的 ARM CPU 上运行一个 CNN，你该怎么做？德国 BuddyGuard GmbH 的机器学习工程师 Dmytro Prylipko 近日在 LinkedIn 上发表了一篇文章，分享了他在弱硬件上运行深度神经网络的经验方法。

机器学习社区已经在加速神经网络推理上进行了很长一段时间的研究了，也已经出现了大量可能有效的解决方案。在这篇文章中，我将尝试回答一个简单的问题：什么软件库/工具包/框架可以帮助改善我们训练好的模型的推理时间？出于文章篇幅的考虑，这篇文章我不会考虑修改网络架构（尽管这确实是一个好方法，比如 SqeezeNet），而是仅仅探讨那些已经可以在 ARM 设备上投入生产并且提供了 C/C++ 接口（因为我们很少在嵌入式设备上使用 Lua 或 Python）的工具包和软件库。所以在这里我仅仅实验了 Caffe、TensorFlow 和 MXNet。

我们可以做什么

要加速你的计算，我们有两个主要的大方向：1）修改模型；2）加速框架。当然，也可能是将这两者结合起来（而且确实是不错的想法）。前一种方法往往需要使用更低的权重精度（也被称为量化（quantization））和/或权重剪枝（weights pruning）。剪枝背后的思想是深度学习模型中的重要参数化冗余，而低精度方法（为浮点数使用了定点或动态定点表示）则利用了这样一个事实——即推理过程并不需要高精度：因为运算的线性本质和非线性的动态范围压缩（dynamic range compression），量化误差（quantization errors）往往倾向于亚线性地（sub-linearly）传播，而不会引起数值不稳定性（Vanhoucke, V., Senior, A., & Mao, M. (2011). Improving the speed of neural networks on CPUs）。此外，我们甚至可以使用低精度乘法来训练模型。结合 SIMD 指令（比如 SSE3），参数量化可以实现非常有效的计算加速。但是目前我们还很难找到同时使用了这两者的解决方案。比如 Ristretto 可以执行自动量化，但它却并没有利用其来降低计算成本。TensorFlow 也可以执行量化，但其推理时间实际上却增加了 5 到 20 倍，因为其向图（graph）中还引入了辅助量化/去量化节点（auxiliary quantize/dequantize nodes）。所以，如果空间上的考虑很重要，那么实际上我们可以将量化仅仅看作是一种压缩网络权重的方法。至少对于当前的状态而言，我们可以这样考虑。

另一方面，我们也有用于框架的加速执行时间（execution time）的方法，而不会影响到模型参数。这些方法基本上都是试图优化矩阵之间的乘法（GEMM）的通用计算技巧，并因此会同时影响卷积层（其计算通常是 im2col + GEMM）和全连接层。除此之外是 NNPACK：一个用于深度学习框架的加速包。这个加速包还曾得到过 Yann LeCun 的推荐！就我所知，NNPACK 使用了 FFT 来将时间域中的卷积运算替换成了频域中的乘法计算。

另一个方法是将网络定义和权重翻译成针对目标进行优化过的代码，而不是将它们运行在同样一个框架内。这种方法的典型案例是 TensorRT。还有 CaffePresso 可以将 Caffe prototxt 翻译成针对各种不同后端的更低级的规格。但是，TensorRT 的运行需要 CUDA，而且只能在 NVIDIA GPU 上使用，而 CaffePresso 也需要某种硬件加速器（DSP、FPGA 或 NoC），所以这两种都不适合用于我的测试硬件——树莓派。

相关链接：

ajtulloch 制作的 Caffe 分支：http://github.com/ajtulloch/caffe/tree/nnpack-pr NNPACK API 编译问题：https://github.com/Maratyszcza/NNPACK/issues/1#issuecomment-266416638Maratyszcza/caffe-nnpack：http://github.com/Maratyszcza/caffe-nnpackNNPACK Linux/ARM 问题：https://github.com/Maratyszcza/NNPACK/issues/35

硬件

所有的这些评估都是在四核 1.3 GHz CPU 和 1 GB RAM 的树莓派 3 上执行。操作系统是 32 位的 Raspbian，所以 CPU 不是 ARMv8 架构，而是 ARMv7 架构。

model name : ARMv7 Processor rev 4 (v7l)BogoMIPS : 38.40Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt vfpd32 lpae evtstrm crc32CPU implementer : 0x41CPU architecture: 7CPU variant : 0x0CPU part : 0xd03CPU revision : 4

测试草案

为了评估上述每个配置的性能，我们会使用相同的神经网络。也就是一个有 3 个卷积层和两个全连接层且在顶部有 softmax 的微型卷积神经网络：

conv1: 16@7x7relu1pool1: MAX POOL 2x2conv2: 48@6x6relu2pool2: MAX POOL 3x3conv3: 96@5x5relu3fc1: 128 unitsfc2: 848 unitssoftmax

该卷积神经网络有 1039744 个参数。虽然非常小，但它足够处理许多计算机视觉任务。

该网络使用 Caffe 进行训练人脸识别任务，并将其转换为 TensorFlow 和 MXNet 格式从而使用这些框架进行评估。为了评估前向通过时间（forward pass time），从 1 到 256 的批大小都进行了测试，因为批大小对性能有很大的影响。而对于每个批大小，网络执行了 100 次前向通过，并为每一张图像计算了平均时间。

评估结果和讨论

在下面的表格中，列出了平均前向通过的时间。其中，A 是 caffe-openblas, B 是 caffe-openblas-dl, C 代表 tf-vanilla, D 是 tf-neon-vfpv4, E 是 mxnet-openblas, F 是 mxnet-openblas-dl。

在对数尺度（logarithmic scale）尺度上我们来看一下：

这些结果让我大吃一惊。首先，我没有预料到在 CPU 上运行 MXNet 有如此差的表现。但这看起来已经是一个众所周知的问题。此外，因为存储限制，它无法运行 256 张图片的 batch。第二个惊奇是优化过的 TensorFlow 竟有如此好的表现。它甚至比 Caffe 的表现还好（在超过 2 的批大小上）；光是从原始框架上看是很难预料这个结果的。但小心：不保证你能在任意 ARM 设备上使用这些 flags。

众所周知，Caffe 的速度非常快。如果你要一张接一张地处理图片，使用优化过的 OpenBLAS 的 Caffe 将会是你最好的选择。想要有 10ms 的改进，你所要做的就只是简单的输入：

cd OpenBLASgit checkout optimized_for_deeplearning

为了将我的小研究转变成正式的东西，我仍需要做大量的工作：评估更多的模型，集成 NNPACK，以及研究更多的框架与 BLAS 后端的结合。但我希望它能帮助你了解目前最流行的解决方案的推理速度。

硬件不给力，如何穷玩深度神经网络？相关推荐

深度 | 硬件不给力，如何穷玩深度神经网络？
深度学习的力量为其在真实世界的应用创造出了巨大的机会.但深度学习的训练往往需要巨大的计算能力,有时候我们却没法(或没钱)去使用强大的服务器或 NVIDIA 的 Jetson 那样的嵌入式加速平台.假如 ...
深度神经网络全面概述：从基本概念到实际模型和硬件基础
本文转载自:深度神经网络全面概述:从基本概念到实际模型和硬件基础本文旨在提供一个关于实现 DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查. 作者:机 ...
【深度学习论文综述】深度神经网络全面概述：从基本概念到实际模型和硬件基础
本文转载自:深度神经网络全面概述:从基本概念到实际模型和硬件基础本文旨在提供一个关于实现 DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查. 作者:机 ...
焦李成教授谈深度神经网络发展历程
来源:西电人工智能学院摘要:焦李成教授谈深度神经网络发展历程 2018年11月18日下午,计算机科学与技术学部主任.人工智能学院焦李成教授在成都参加了由中国人工智能学会主办的人工智能大讲堂并做特邀报 ...
玩深度学习选哪块英伟达 GPU？有性价比排名还不够！
本文來源地址:https://www.leiphone.com/news/201705/uo3MgYrFxgdyTRGR.html 与"传统" AI 算法相比,深度学习(DL)的计 ...
神经网络深度神经网络,最新的深度神经网络
深度学习的职业发展方向有哪些? 当前,人工智能发展借助深度学习技术突破得到了全面关注和助力推动,各国政府高度重视.资本热潮仍在加码,各界对其成为发展热点也达成了共识. 本文旨在分析深度学习技术现状,研 ...
2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析
2021年5月12日收到, 2021年6月4日接受, 出版日期2021年6月9日, 当前版本日期2021年6月24日. 原论文下载地址摘要 - Abstract 表格识别的第一阶段是检测文档中的 ...
神经网络深度神经网络,主流的神经网络的框架
有哪些深度神经网络模型目前经常使用的深度神经网络模型主要有卷积神经网络(CNN).递归神经网络(RNN).深信度网络(DBN).深度自动编码器(AutoEncoder)和生成对抗网络(GAN)等. ...
通过深度神经网络和树搜索掌握围棋游戏
Article 作者:David Silver*, Aja Huang*, Chris J. Maddison etc. 文献题目:通过深度神经网络和树搜索掌握围棋游戏文献时间:2016 发表期刊: ...

硬件不给力，如何穷玩深度神经网络？

硬件不给力，如何穷玩深度神经网络？相关推荐

最新文章

热门文章