CTC Loss和Focal CTC Loss

Posted 2022-05-31 爆米花好美啊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CTC Loss和Focal CTC Loss相关的知识，希望对你有一定的参考价值。

最近一直在做手写体识别的工作，其中有个很重要的loss那就是ctc loss，之前在文档识别与分析课程中学习过，但是时间久远，早已忘得一干二净，现在重新整理记录下

本文大量引用了- CTC Algorithm Explained Part 1：Training the Network（CTC算法详解之训练篇），只是用自己的语言理解了一下，原论文：Connectionist Temporal Classification: Labelling UnsegmSequence Data with Recurrent Neural Networ

解决的问题

套用知乎上的一句话，CTC Loss要解决的问题就是当label长度小于模型输出长度时，如何做损失函数。
一般做分类时，已有的softmax loss都是模型输出长度和label长度相同且严格对齐，而语音识别或者手写体识别中，无法预知一句话或者一张图应该输出多长的文字，这时做法有两种：seq2seq+attention机制，不限制输出长度，在最后加一个结束符号，让模型自动和gt label对齐；另一种是给定一个模型输出的最大长度，但是这些输出并没有对齐的label怎么办呢，这时就需要CTC loss了。

输出序列的扩展

所以，如果要计算?(?│?)，可以累加其对应的全部输出序列o (也即映射到最终label的“路径”)的概率即可，如下图。

前向和后向计算

由于我们没有每个时刻输出对应的label，因此CTC使用最大似然进行训练(CTC 假设输出的概率是（相对于输入）条件独立的)
给定输入 $x$ ，输出序列 $o$ 的条件概率是：
$p(\\pi|x) = \\prod y^t_\\pi_t, \\forall \\pi \\in L^\\prime T$
$\\pi _t$ 是序列 $o$ 中的一个元素， $y$ 为模型在所有时刻输出各个字符的概率，shape为T*C(T是时刻，提前已固定。C是字符类别数，所有字符+blank(不是空格，是空) , $y^t_\\pi_t$ 是模型t时刻输出为 $\\pi _t$ 的概率

我们模型的目标就是给定输入x，使得能映射到最终label的所有输出序列o的条件概率之和最大，该条件概率就是 $p(\\pi|x)$ ，和模型的输出概率 $y$ 直接关联

那么我们如何计算这些条件概率之和呢？首先想到的就是暴力算法，一一找到可以映射到最终label的所有输出序列，然后概率连乘最后相加，但是很耗时，有木有更快的做法？联系一下HMM模型中的前向和后向算法，它就是利用动态规划求某个序列出现的概率，和此处我们要计算某个输出序列的条件概率很相似
比如HMM模型中，我们要求红白红出现的概率，我们就可以利用动态规划的思想，因为红白红包含子问题红白的产生，红白包含子问题红的产生，参考引用的图片。
而这里我们以apple这个label都可以由哪些输出序列映射过去为例（T为8）：
其中的一种 _ _ a p _ p l e

当然其他也可以如 a p p _ p p l e，但是考虑到我们最终对输出序列的处理(两个空字符之间的重复元素会去除，字符是从左到右的，且是依次的)，我们的路径(状态转移)不是随便的，根据这样的规则，我们可以找到所有可以映射到apple的输出序列

很明显可以看到这和HMM很像，包含很多相同子问题，可以用动态规划做

定义在时刻t经过节点s的全部前缀子路径的概率总和为前向概率 $\\alpha_t (s)$ ，如 $\\alpha_3 (4)$ 为在时刻3所有经过第4个节点的全部前缀子路径的概率总和: $\\alpha_3 (4)$ = p(_ap) + p(aap) + p(a_p) + p(app)，该节点为p

类似的定义在时刻t经过节点s的全部后缀子路径的概率总和为前向概率 $\\beta_t (s)$ ，如 $\\beta_6 (8)$ 为在时刻6所有经过第8个节点的全部后缀子路径的概率总和: $\\beta_3 (4)$ = p(lle) + p(l_e) + p(lee) + p(le_)，该节点为l

总结

Focal CTC Loss

实现

参考论文 Focal CTC Loss for Chinese Optical Character Recognition on Unbalanced Datasets

以上是关于CTC Loss和Focal CTC Loss的主要内容，如果未能解决你的问题，请参考以下文章