文本文件规范化和模式匹配

Posted

技术标签:

【中文标题】文本文件规范化和模式匹配【英文标题】:Text file normalization and pattern matching 【发布时间】:2016-07-04 07:56:41 【问题描述】:

我得到了一个用一种元语言编写的文件,它描述了验证某些数据所需的过程。 我需要生成验证函数来验证数据。 数据已经存储在结构中

我做的步骤:

    使用 char like(' . , ; == >= ) 将文本拆分为字符串 [] 删除冠词、介词... 规范化文本(如何?) 使用正则表达式或文本匹配将单词与标记匹配 使用 Token 类型匹配模式 根据匹配的模式规则生成函数

您会在第 3 步或一般情况下使用什么来改进此过程?

【问题讨论】:

是什么输入法?英语?代码?一些常规模式的数据? 如果没有正确的输入/预期的输出,将很难提供任何帮助。就问题而言,它有点像在黑暗中闲逛...... 【参考方案1】:

引用自wiki,正则表达式是实现“文本规范化”的技术之一:

用于简单的、与上下文无关的规范化,例如移除 非字母数字字符或变音符号、正则表达式 就足够了。例如,sed 脚本 sed -e "s/\s+/ /g" inputfile 会将空白字符的运行规范化为单个 空间。更复杂的归一化需要相应复杂的 算法,包括语言和词汇的领域知识 被规范化。在其他方法中,文本规范化已经 建模为对文本流进行标记和标记的问题 [5] 和 作为机器翻译的一个特例。[6][7]

在我看来,数据涉及语言注释。您可以查看The IMS Open Corpus Workbench (CWB) 等工具。此外,还有一个您可能会觉得有用的网站(带有示例代码):What Is Text Normalization?。

【讨论】:

以上是关于文本文件规范化和模式匹配的主要内容,如果未能解决你的问题,请参考以下文章

perl模糊匹配文件名

C# - 正则表达式匹配模式、替换和捕获行号 [来自 Txt 文件]

在bash中将文本附加到具有模式匹配名称的文件[重复]

在文本字符串中搜索模式,然后提取匹配的模式

GLib 正则表达式匹配在特定匹配和模式上给出分段错误

如何从两个文本文件之间的单列中查找前三位匹配模式[关闭]