Kaldi如何统计data数据集

Posted jarvanwang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Kaldi如何统计data数据集相关的知识,希望对你有一定的参考价值。

  • 统计时长

    wav-to-duration scp:data/train/wav.scp ark,t:- 2>/dev/null|awk ‘BEGIN{SUM=0}{SUM+=$2}END{print SUM/3600}‘

    awk ‘BEGIN{SUM=0}{SUM+=$2}END{print SUM/3600}‘ data/train/utt2dur

  • 生成utt2dur

    utils/data/get_utt2dur.sh data/train

  • 统计句子

    wc -l data/train/text

   

以上是关于Kaldi如何统计data数据集的主要内容,如果未能解决你的问题,请参考以下文章

[语音识别] kaldi -- aidatatang_200zh脚本解析:单音素解码

如何按照某些标准将数据集拆分为子集?

R语言自学笔记-2内置数据集

如何从统计意义上判断两个数据集的相似度?

K折交叉验证

Python/Keras如何将给定的数据集打乱