Fast multi-language LSTM-based online handwriting recognition 在线手写识别

paper
在线手写识别，是区别于离线手写识别，即带书写轨迹的字符识别，比如平板，写字板等触摸屏活着触控笔等。带有笔迹时许信息。
也区分单字识别（触屏输入法）和行识别（一次性写一行直接识别出来，666）

本文是2019年的论文,我写一下论文概要

谷歌的在线手写识别系统，在IAM-OnDB英文在线行识别数据集上最好。
该系统将来自序列识别的方法与使用贝塞尔曲线的新输入编码相结合。102种语言，各种文字符号都可以，快了10倍，更精确了20%

在线手写越来越重要的原因：
1 新兴市场中许多设备专门是手写的，很多母语不像英文一样好输入（由于有字素簇，字母不一样大，小语种键盘不好设计）
2 触屏设备越来越多

2020年我们取代了自己2017年的分割-解码的系统25(先将笔迹ink过度的细分，再将细分分组转换为字符假设），计算每个字符的特征，然后使用浅层网络分类器。
识别结果使用最佳路径搜索解码算法，结合语言模型等额外信息。以来大量预处理，分割和知识启发内容。但是现在不需要这些了。
新模型就是双向LSTM+CTC

早期方法HMM，比如TDNNs，延时神经网络
近期RNN比如LSTM （6,7,14）
数据上也有所变化：早期用一系列基于手工特征的，每个点都用一组特征表示，或者用全局特征代表整个字符。
现在扫除了大量工程上的努力，变成可学习的特征。

上图你看这识别，各国语言千差万别，多行的，符号的，也能识别

论文创新点：

详细描述我们调整网络的过程，与之前论文做详细实验比较
一个创新的输入表达特方式：贝塞尔曲线插值。更短的输入序列，更快的识别
IAM-OnDB数据集最佳精度，包括限制的训练集和开放的训练集（自己有内部数据集）
为生僻的IBM——UB引入一个评估方式
消融实验，分析每个部件

训练方法上，早期：显式的分割变为：
CTC loss 或者 encoder-decode方法再加最大似然估计

我们的模型类似于语音识别那个CLDNN（卷积+LSTM+DNNs），有四点不同

不使用卷积，相比语音，我们的笔迹序列较短
双向LSTM，时间延迟不太影响
不用双向LSTM前后的全连接层
CTC而不是HMM

如上图，序列输入+双向LSTM+softmax+CTC 序列预测在线手写数据

输入：老论文中，每个点特征23维
我们现在提出两种表示：

原始接触点
贝塞尔曲线

原始笔画：

we use a sequence of 5-dimensional points (xi , yi , ti , pi , ni )
一个点用5维的信息
ti是时间戳
pi代表落笔和笔拿开
ni代表新的笔画
二者之间有冗余，但是大量数据实验中逐渐形成的，简化后不太会有很大提升。
实际输入是坐标差值：
5维：
( x_i - x_i-1 , y _i - y_i-1 , t_i - t_i-1 , p_i , n_i )

贝塞尔曲线：

自己看论文吧，一种三次多项式拟合笔画的方法，还有很多工程信息，比如笔画过长过弯，拟合不好时，先切断笔画，拟合，再合起来，拟合时可以少量点控制多个笔触点，
对不同采样率适应得很好

1由于不同设备采样率不一致，需要重采样，
2重新选择采样率后，可以代表小特征，但是直线这种会被过度采样
3模型复杂度，模型必须学会绘制小图且能映射到全局特征
贝塞尔曲线是描述轨迹的自然方法空间，论文21主要是消除异常值的方法，22是上采样稀疏数据，35是屏幕上平滑手写数据
贝塞尔曲线可以表示潜在很长的序列，我们使用输入点序列作为参数三次多项式的序列。
s在0-1之间
x(s) = α0 + α1s + α2s2 + α3s3

对精度影响不太大，主要是更快，长度短为四分之一

精度差别不大，速度快好几倍

贝塞尔曲线的数据预处理：

1平移使得x0=0,缩放使得y在0-1之间，若未知大小，则使输入范围大于书写范围20%
2沿着笔画等距离的重采样，δ = 0.05，即长度为1的线采样20个点

双层LSTM

根据不同语种的识别任务设定不同层数

层数大一些还是更精确一些
数据更多也是更精确，LSTM节点数大概64或者128就饱和了

softmax层

每个LSTM层的每个帧都输入到softmax层，来获得C上的概率分布。

decode

按照论文12的步骤，softmax层的输出是T时间序列
使用CTC解码器，softmax层的logit输出与特定语言先验知识结合（decoder权值），将其线性的合并
在解码时使用beam search，可以提高精度

重要的引用
12. Graves, A., Fernández, S., Gomez, F.J., Schmidhuber, J.: Con- nectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In: ICML (2006)
12是谷歌上一版本的论文，用了很多工程技巧拆分结构
25.Keysers, D., Deselaers, T., Rowley, H., Wang, L.L., Carbune, V.: Multi-language online handwriting recognition. IEEE Trans. Pat- tern Anal. Mach. Intell. 39(6), 1180–1194 (2017)
这篇论文数据处理方面比较好

后记

看完这些，希望你已经没有想复现的冲动了。
如果是这样的话，不妨点个赞吧。

为何要点赞？

如果本文解决了你的困惑，不妨点个赞鼓励一下。
不管你信不信，也不管你同不同意，实际上，你的每一次点赞都标志着你自身的进步。而打赏乃是点赞的高级形式
曾经有无数个点赞的机会，但是我都没有好好珍惜，假如时光可以倒流，我一定为他们也为自己点赞。