如何使用 Python 规范化印地语文本?

Posted

技术标签:

【中文标题】如何使用 Python 规范化印地语文本?【英文标题】:How to normalize text in hindi language using Python? 【发布时间】:2021-07-26 18:01:37 【问题描述】:

我正在一些包含印地语语音的音频文件上测试自动语音识别模型。

我使用 WER,字错误率作为指标。

reference (ground truth) - वह शादीशुदा नहीं है
hypothesis(model output) - वह शादी शुदा नहीं है

我需要一些方法来规范参考和假设句子,以便 WER 更有意义。上面的例子实际上应该有 WER = 0,但是由于 शादी शुदा 之间的空间,WER 变为 2/4=0.5

我无法为印地语文本找到任何方法。

有人可以帮我解决这个问题吗?谢谢

【问题讨论】:

【参考方案1】:

我在 Google 上搜索了“使用 Python 对印地语文本进行规范化”,我得到了一个为印地语文本开发的 NLP 库 bt iitB。您可以查看以下链接:

https://www.cse.iitb.ac.in/~anoopk/pages/softwares.html

https://github.com/anoopkunchukuttan/indic_nlp_library

也许对你有帮助。

【讨论】:

这看起来不错。我会调查一下。谢谢

以上是关于如何使用 Python 规范化印地语文本?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 jsp 文件中使用印地语内容? [复制]

如何使用ajax请求将印地语字体从客户端传递到服务器

导出为 pdf 时如何正确呈现印地语?

如何以应用程序的默认语言设置 google api 对话框的文本

如何修复翻译无法使用TextView.setText()?

在codenameone中获得服务响应中的问号