论文泛读133衡量代码混合文本复杂性的指标的挑战和局限性

Posted 2021-06-29 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读133衡量代码混合文本复杂性的指标的挑战和局限性相关的知识，希望对你有一定的参考价值。

论文链接：《Challenges and Limitations with the Metrics Measuring the Complexity of Code-Mixed Text》

一、摘要

代码混合是多语言使用者之间的一种常见交流方式，他们将来自两种不同语言的单词和短语混合在同一个文本或语音中。识别和过滤代码混合文本是一项具有挑战性的任务，因为它与单语和嘈杂的文本共存。多年来，多种代码混合指标已被广泛用于识别和验证代码混合文本质量。本文通过各种实验中广泛使用的现有数据集的示例，展示了代码混合指标的几个固有局限性。

二、结论

在本文中，我们广泛地讨论了代码混合度量的局限性。我们探索了10个印度英语数据集，以提供支持我们的主张的例子。总的来说，我们展示了在解决这些限制方面进行广泛努力的必要性。在未来，我们计划开发一个健壮的代码混合度量，测量代码混合的程度，并量化文本的可读性和语法正确性。此外，我们的目标是创建一个大规模的印式英语数据集的手工标记级语言注释。

三、model

印地语与英语的混合：
在这里插入图片描述

是觉得这个点比较不错，比如中文和英文的混合中，加入的英语单词一般就能反映出情感，是需要重点考察的地方。

以上是关于论文泛读133衡量代码混合文本复杂性的指标的挑战和局限性的主要内容，如果未能解决你的问题，请参考以下文章

论文泛读194用于中文评论文本的中文情感分析的 Transformer-Encoder-GRU (TE-GRU)

论文泛读127SSMix：用于文本分类的基于显着性的跨度混合

论文泛读189研究文本简化评估

论文泛读157文本分类数据增强调查