如何从头开始训练通用句子编码器

Posted

技术标签:

【中文标题】如何从头开始训练通用句子编码器【英文标题】:How to train universal sentence encoder from scratch 【发布时间】:2020-09-09 18:42:17 【问题描述】:

我想使用通用句子编码器,但问题是 Google 的预训练版本不支持我的语言(甚至不支持多语言版本:https://tfhub.dev/google/universal-sentence-encoder-multilingual/3)

是否有任何教程或方法如何使用我自己的语料库从头开始训练我自己的通用句子编码器?

【问题讨论】:

【参考方案1】:

根据此处打开的问题(https://github.com/tensorflow/hub/issues/36),该模型似乎没有发布到开源。您需要自己构建它或针对特定任务进行微调。

【讨论】:

是否有类似的模型可以提供训练它的功能以及与 Universal Sentence Encoder 类似的工作方式。? 尝试基于转换器的模型(在这里找到一些文档github.com/huggingface/transformers)

以上是关于如何从头开始训练通用句子编码器的主要内容,如果未能解决你的问题,请参考以下文章

从通用句子编码器输出为 LSTM 生成输入

在 Keras 中使用通用句子编码器嵌入层

使用beam&tf变换创建通用句子编码器嵌入时出错

您能否从头开始训练具有特定任务架构的BERT模型?

预训练句子表征——ICLR 2021CT

将句子表示为向量(下):基于监督学习的句子表示学习(sentence embedding)