pytorch如何导入ctc库

Posted 2023-05-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pytorch如何导入ctc库相关的知识，希望对你有一定的参考价值。

导入PyTorch CTC库非常容易，只需要在Python控制台中运行以下命令即可：import torch.nn.functional as F。然后您就可以使用F.ctc_loss、F.ctc_decode等PyTorch CTC函数了。参考技术A 使用pytorch导入CTC库非常简单，可以通过在python代码中引入torch.nn.ctc模块的方式快速导入。

如何在 keras 中使用 tensorflow ctc_batch_cost 函数？

【中文标题】如何在 keras 中使用 tensorflow ctc_batch_cost 函数？【英文标题】：How do you use tensorflow ctc_batch_cost function with keras? 【发布时间】：2020-07-02 01:23:21 【问题描述】：

我这几天一直在尝试在 keras 中实现 CTC 损失函数。

不幸的是，我还没有找到一种适合 keras 的简单方法。我找到了 tensorflow 的 tf.keras.backend.ctc_batch_cost 函数，但没有太多关于它的文档。我对一些事情感到困惑。首先，input_length 和 label_length 参数是什么？我正在尝试制作一个手写识别模型，我的图像是 32x128，我的 RNN 有 32 个时间步长，我的字符列表的长度为 80。我尝试对两个参数都使用 32，这给了我下面的错误。

函数不应该已经从前两个参数（y_true 和y_pred）的形状中知道input_length 和label_length 吗？

其次，我需要对我的训练数据进行编码吗？这一切都是自动完成的吗？

我知道 tensorflow 也有一个叫做 tf.keras.backend.ctc_decode 的函数。这仅在进行预测时使用吗？

def ctc_cost(y_true, y_pred):
    return tf.keras.backend.ctc_batch_cost(
        y_true, y_pred, 32, 32)


model = tf.keras.Sequential([
    layers.Conv2D(32, 5, padding="SAME", input_shape=(32, 128, 1)),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.MaxPool2D(2, 2),
    layers.Conv2D(64, 5, padding="SAME"),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.MaxPool2D(2, 2),
    layers.Conv2D(128, 3, padding="SAME"),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.MaxPool2D((1, 2), (1, 2)),
    layers.Conv2D(128, 3, padding="SAME"),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.MaxPool2D((1, 2), (1, 2)),
    layers.Conv2D(256, 3, padding="SAME"),
    layers.BatchNormalization(),
    layers.Activation("relu"),
    layers.MaxPool2D((1, 2), (1, 2)),
    layers.Reshape((32, 256)),
    layers.Bidirectional(layers.LSTM(256, return_sequences=True)),
    layers.Bidirectional(layers.LSTM(256, return_sequences=True)),
    layers.Reshape((-1, 32, 512)),
    layers.Conv2D(80, 1, padding="SAME"),
    layers.Softmax(-1)
])

print(model.summary())

model.compile(tf.optimizers.RMSprop(0.001), ctc_cost)

错误：

tensorflow.python.framework.errors_impl.InvalidArgumentError：squeeze_dims[0] 不在 [0,0) 中。对于具有输入形状的“loss/softmax_loss/Squeeze”（操作：“Squeeze”）：[]

型号：

Layer (type)                 Output Shape              Param #
=================================================================
conv2d (Conv2D)              (None, 32, 128, 32)       832
batch_normalization (BatchNo (None, 32, 128, 32)       128
activation (Activation)      (None, 32, 128, 32)       0
max_pooling2d (MaxPooling2D) (None, 16, 64, 32)        0
conv2d_1 (Conv2D)            (None, 16, 64, 64)        51264
batch_normalization_1 (Batch (None, 16, 64, 64)        256
activation_1 (Activation)    (None, 16, 64, 64)        0
max_pooling2d_1 (MaxPooling2 (None, 8, 32, 64)         0
conv2d_2 (Conv2D)            (None, 8, 32, 128)        73856
batch_normalization_2 (Batch (None, 8, 32, 128)        512
activation_2 (Activation)    (None, 8, 32, 128)        0
max_pooling2d_2 (MaxPooling2 (None, 8, 16, 128)        0
conv2d_3 (Conv2D)            (None, 8, 16, 128)        147584
batch_normalization_3 (Batch (None, 8, 16, 128)        512
activation_3 (Activation)    (None, 8, 16, 128)        0
max_pooling2d_3 (MaxPooling2 (None, 8, 8, 128)         0
conv2d_4 (Conv2D)            (None, 8, 8, 256)         295168
batch_normalization_4 (Batch (None, 8, 8, 256)         1024
activation_4 (Activation)    (None, 8, 8, 256)         0
max_pooling2d_4 (MaxPooling2 (None, 8, 4, 256)         0
reshape (Reshape)            (None, 32, 256)           0
bidirectional (Bidirectional (None, 32, 512)           1050624
bidirectional_1 (Bidirection (None, 32, 512)           1574912
reshape_1 (Reshape)          (None, None, 32, 512)     0
conv2d_5 (Conv2D)            (None, None, 32, 80)      41040     
softmax (Softmax)            (None, None, 32, 80)      0

这是我参考的 tensorflow 文档：

https://www.tensorflow.org/api_docs/python/tf/keras/backend/ctc_batch_cost

【问题讨论】：

【参考方案1】：