BPE vs WordPiece Tokenization - 何时使用/哪个?
Posted
技术标签:
【中文标题】BPE vs WordPiece Tokenization - 何时使用/哪个?【英文标题】:BPE vs WordPiece Tokenization - when to use / which? 【发布时间】:2020-09-21 01:16:21 【问题描述】:选择 BPE 与 WordPiece 标记化之间的一般权衡是什么?什么时候一个比另一个更可取?两者之间的模型性能有什么不同吗?我正在寻找一个一般性的整体答案,并以具体示例为后盾。谢谢!
【问题讨论】:
这能回答你的问题吗? How is WordPiece tokenization helpful to effectively deal with rare words problem in NLP? 问题是什么时候用哪个?应该如何选择一个而不是另一个? 【参考方案1】:与 BPE 相比,WordPiece 不会选择最频繁的符号对,而是选择将训练数据添加到词汇表后的可能性最大化的符号对。最大化训练数据的似然性相当于找到符号对,其概率除以第一个符号后第二个符号的概率是所有符号对中最大的。
直观地说,WordPiece 与 BPE 稍有不同,它通过合并两个符号来评估它所失去的东西,以确保它是值得的。
因此,WordPiece 针对给定的训练数据进行了优化。 WordPiece 的词汇量较小,因此要训练的参数也更少。收敛速度会更快。但是当训练数据改变时,这可能不成立。
如果您的训练数据是固定的或与新的训练数据非常相似,请使用 WordPiece。
如果您的训练数据发生重大变化,请选择 BPE。
【讨论】:
以上是关于BPE vs WordPiece Tokenization - 何时使用/哪个?的主要内容,如果未能解决你的问题,请参考以下文章