如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?

Posted

技术标签:

【中文标题】如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?【英文标题】:How can I run Neural Machine Translation with Attention in Google Colab with a different paired language? 【发布时间】:2019-05-27 13:13:58 【问题描述】:

我想在 TernsorFlow 网站提供的示例中使用不同的语言对,Google Colab 笔记本只选择西班牙语-英语 https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/r2/tutorials/text/nmt_with_attention.ipynb

我尝试更改指向从中下载的 esp-eng 数据的链接,但这没有帮助

如何在没有本地设置 colab 的情况下尝试不同的语言集,它确实在该页面的末尾提到,我可以尝试不同的语言集。

【问题讨论】:

【参考方案1】:

关于使用不同数据集的最后说明是指this website,其中包括制表符分隔的文件。

您主要需要根据您需要的zip文件的链接更改此单元格中的值。

# Download the file
path_to_zip = tf.keras.utils.get_file(
    'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
    extract=True)

path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt"

您可以尝试其他数据集:

OPUS WMT

但是,在这些语料库中,源和目标位于两个单独的文件中,因此您必须调整提取对的代码,而不是 split('\t') 它应该打开两个文件并逐行获取源和目标。

【讨论】:

以上是关于如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?的主要内容,如果未能解决你的问题,请参考以下文章

如何修复 google colab 上的 cuda 运行时错误?

Google colab 上的结果与本地结果不同

我们如何在 colab.research.google.com 中使用 Selenium Webdriver?

如何在google colab中有效地使用内存?

如何在 Google Colab 上安装和使用底图?

运行 R 内核时如何在 google Colab 中访问 shell