[详细过程] | 使用tokenizers训练wordpiece模型

Posted 2022-02-23 亓官劼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[详细过程] | 使用tokenizers训练wordpiece模型相关的知识，希望对你有一定的参考价值。

[详细过程] | 使用tokenizers训练wordpiece模型

大家好，我是亓官劼（qí guān jié ），在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文，主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文，时光荏苒，未来可期，加油~

如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié)，里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言，我会尽快回复消息，其他平台私信回复较慢。

注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释
注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释
注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释

tokenizers是hugging face开源的一个工具包，GitHub：tokenizers

安装直接pip install tokenizers也可以

使用tokenizers训练wordpiece如下，具体看代码注释，非常的简单。

以上是关于[详细过程] | 使用tokenizers训练wordpiece模型的主要内容，如果未能解决你的问题，请参考以下文章

nerf训练自己的数据，过程记录十分详细

Yolov5训练自己的数据集（详细完整版）

DDIM代码详细解读：分类器classifier的网络设计训练推理

用github的Actions来自动训练AI模型（包含YAML的详细配置过程）

[人工智能-深度学习-41]：开发环境 - GPU进行训练安装与搭建（PytrochTensorFlowNvidia CUDA）详细过程

用github的Actions来自动训练AI模型（包含YAML的详细配置过程）