如何从头开始训练通用句子编码器

Posted 2023-02-16

技术标签:

【中文标题】如何从头开始训练通用句子编码器【英文标题】：How to train universal sentence encoder from scratch 【发布时间】：2020-09-09 18:42:17 【问题描述】：

我想使用通用句子编码器，但问题是 Google 的预训练版本不支持我的语言（甚至不支持多语言版本：https://tfhub.dev/google/universal-sentence-encoder-multilingual/3）

是否有任何教程或方法如何使用我自己的语料库从头开始训练我自己的通用句子编码器？

【问题讨论】：

【参考方案1】：

根据此处打开的问题（https://github.com/tensorflow/hub/issues/36），该模型似乎没有发布到开源。您需要自己构建它或针对特定任务进行微调。

【讨论】：

是否有类似的模型可以提供训练它的功能以及与 Universal Sentence Encoder 类似的工作方式。？尝试基于转换器的模型（在这里找到一些文档github.com/huggingface/transformers）

以上是关于如何从头开始训练通用句子编码器的主要内容，如果未能解决你的问题，请参考以下文章