如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?
Posted
技术标签:
【中文标题】如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?【英文标题】:How can I run Neural Machine Translation with Attention in Google Colab with a different paired language? 【发布时间】:2019-05-27 13:13:58 【问题描述】:我想在 TernsorFlow 网站提供的示例中使用不同的语言对,Google Colab 笔记本只选择西班牙语-英语 https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/r2/tutorials/text/nmt_with_attention.ipynb
我尝试更改指向从中下载的 esp-eng 数据的链接,但这没有帮助
如何在没有本地设置 colab 的情况下尝试不同的语言集,它确实在该页面的末尾提到,我可以尝试不同的语言集。
【问题讨论】:
【参考方案1】:关于使用不同数据集的最后说明是指this website,其中包括制表符分隔的文件。
您主要需要根据您需要的zip文件的链接更改此单元格中的值。
# Download the file
path_to_zip = tf.keras.utils.get_file(
'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
extract=True)
path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt"
您可以尝试其他数据集:
OPUS WMT但是,在这些语料库中,源和目标位于两个单独的文件中,因此您必须调整提取对的代码,而不是 split('\t')
它应该打开两个文件并逐行获取源和目标。
【讨论】:
以上是关于如何使用不同的配对语言在 Google Colab 中运行带注意力的神经机器翻译?的主要内容,如果未能解决你的问题,请参考以下文章
如何修复 google colab 上的 cuda 运行时错误?