BERT-TensorFlow预处理create_pretraining_data太慢的解决方法

Posted 亓官劼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BERT-TensorFlow预处理create_pretraining_data太慢的解决方法相关的知识,希望对你有一定的参考价值。

BERT-TensorFlow预处理create_pretraining_data太慢的解决方法

  大家好,我是亓官劼(qí guān jié ),在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文,主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文,时光荏苒,未来可期,加油~

  如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié),里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言,我会尽快回复消息,其他平台私信回复较慢。

注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释
注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释
注:本专栏仅为个人解决问题过程中简单记录,除非标题中带有详细过程的文章,其他均没有详细过程以及解释


BERT-TensorFlow预处理create_pretraining_data太慢的解决方法

这里在预处理大文件的时候这个预处理进程会非常慢,慢得离谱根本没法接受,而且不展示进度条。这里建议讲文件分割,然后开多线程进行并发处理。

例如我这里的小数据集使用的是1500万行的语料库,使用split -l 100000 small small_corpu/small_将它按10

以上是关于BERT-TensorFlow预处理create_pretraining_data太慢的解决方法的主要内容,如果未能解决你的问题,请参考以下文章

urllib:处理网络异常

ChCore—实验 3:进程与线程异常处理 部分记录

'CREATE VIEW'必须是查询批处理中的第一个语句

Error creating bean with name 'XXX'的错误处理

DUILIB消息处理过程

hadoop上传文件失败报错(put: Cannot create file/eclipse.desktop._COPYING_. Name node is in safe mode.)