[详细过程] | 使用tokenizers训练wordpiece模型

Posted 亓官劼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[详细过程] | 使用tokenizers训练wordpiece模型相关的知识,希望对你有一定的参考价值。

[详细过程] | 使用tokenizers训练wordpiece模型

  大家好,我是亓官劼(qí guān jié ),在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文,主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文,时光荏苒,未来可期,加油~

  如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié),里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言,我会尽快回复消息,其他平台私信回复较慢。

注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释
注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释
注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释


tokenizers是hugging face开源的一个工具包,GitHub:tokenizers

安装直接pip install tokenizers也可以

使用tokenizers训练wordpiece如下,具体看代码注释,非常的简单。

以上是关于[详细过程] | 使用tokenizers训练wordpiece模型的主要内容,如果未能解决你的问题,请参考以下文章

nerf训练自己的数据,过程记录十分详细

Yolov5训练自己的数据集(详细完整版)

DDIM代码详细解读:分类器classifier的网络设计训练推理

用github的Actions来自动训练AI模型(包含YAML的详细配置过程)

[人工智能-深度学习-41]:开发环境 - GPU进行训练安装与搭建(PytrochTensorFlowNvidia CUDA)详细过程

用github的Actions来自动训练AI模型(包含YAML的详细配置过程)