N-gram:解释 + 2 个应用
Posted
技术标签:
【中文标题】N-gram:解释 + 2 个应用【英文标题】:N-grams: Explanation + 2 applications 【发布时间】:2010-11-05 03:51:17 【问题描述】:我想用 n-gram 实现一些应用程序(最好用 php)。
哪种类型的 n-gram 更适合大多数用途?单词级别还是字符级别 n-gram?如何在 PHP 中实现 n-gram-tokenizer?
首先,我想知道 N-gram 到底是什么。它是否正确?这就是我对 n-gram 的理解:
句子:“我住在纽约。”
字级二元组(n 为 2):“# I”、“I live”、“live in”、“in NY”、“NY #”
字符级二元组(n 为 2):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in "、"n#"、"#N"、"NY"、"Y#"
当你有这个 n-gram-parts 数组时,你删除重复的,并为每个部分添加一个计数器,给出频率:
词级二元组:[1, 1, 1, 1, 1]
字符级二元组:[2, 1, 1, ...]
这对吗?
此外,我想进一步了解您可以使用 n-gram 做什么:
如何使用 n-gram 识别文本的语言? 即使您没有双语语料库,是否可以使用 n-gram 进行机器翻译? 如何构建垃圾邮件过滤器(垃圾邮件、垃圾邮件)?将 n-gram 与贝叶斯过滤器相结合? 如何进行主题定位?例如:关于篮球或狗的文字?我的方法(对“狗”和“篮球”的***文章执行以下操作):为两个文档构建 n-gram 向量,对其进行归一化,计算曼哈顿/欧几里得距离,结果越接近 1 越高相似度您如何看待我的应用方法,尤其是最后一种?
我希望你能帮助我。提前致谢!
【问题讨论】:
【参考方案1】:对于您提到的大多数文本分析应用程序,单词 n-gram 通常会更有用,但语言检测可能除外,在这种情况下,诸如字符三元组之类的东西可能会提供更好的结果。实际上,您将为您有兴趣检测的每种语言的文本语料库创建 n-gram 向量,然后将每个语料库中三元组的频率与您正在分类的文档中的三元组进行比较。例如,三元组the
在英语中的出现频率可能比在德语中的出现频率高得多,并且会提供某种程度的统计相关性。获得 n-gram 格式的文档后,您可以选择多种算法进行进一步分析、Baysian 滤波器、N-最近邻、支持向量机等。
在您提到的应用程序中,机器翻译可能是最牵强附会的,因为单独的 n-gram 不会让您走得很远。将输入文件转换为 n-gram 表示只是将数据转换为格式以进行进一步特征分析的一种方式,但由于您会丢失大量上下文信息,因此可能对翻译没有用处。
需要注意的一点是,为一个文档创建一个向量 [1,1,1,2,1] 为另一个文档创建一个向量 [2,1,2,4] 是不够的,如果尺寸不匹配。也就是说,向量中的第一个条目不能在一个文档中为the
,在另一个文档中为is
,否则算法将不起作用。你最终会得到像 [0,0,0,0,1,1,0,0,2,0,0,1] 这样的向量,因为大多数文档不会包含你感兴趣的大多数 n-gram。这个“衬里”特征的增加是必不可少的,它要求您“提前”决定您将在分析中包含哪些 ngram。通常,这是作为两遍算法实现的,首先确定各种 n-gram 的统计显着性以决定保留什么。谷歌“功能选择”了解更多信息。
基于单词的 n-gram 和支持向量机是执行主题定位的绝佳方式,但您需要预先分类为“主题”和“主题外”的大量文本语料库来训练分类器。您会在citeseerx 等网站上找到大量研究论文,解释解决此问题的各种方法。我不推荐使用欧几里得距离方法来解决这个问题,因为它不会根据统计显着性对单个 n-gram 进行加权,因此两个包含 the
、a
、is
和 of
的文档将是被认为比两个都包含 Baysian
的文档更好的匹配。从您感兴趣的 n-gram 中删除停用词会有所改善。
【讨论】:
非常感谢您的详细解答!我还有最后一个问题:向量的 n-gram 与向量的简单词相比有什么优势?我的意思是:为什么要把“我住在纽约”拆分成“我住在纽约”而不是简单的“我住在纽约”? 使用单词作为特征等同于 n=1 的基于单词的 n-gram。增加 n 的好处是您可以在特征中获得更多的上下文。例如,知道两个文档都包含 n-gram“The Who”可能比知道它们都分别包含“The”和“Who”更有用。 另外,请注意,如果为 n=3(例如)n-gram 构建向量,我还将包括 n=2 和 n=1 ngram。我不确定这是否规范,但我过去从事的项目经常这样做。增加 n 的优点是额外的上下文,但缺点是样本集较小(任何给定的 3 词短语在语料库中的出现频率都不会像 2 词短语那样频繁)。将 n=1,2,3 n-gram 加在一起可以让您两全其美,但缺点是额外的存储和计算需求 这是我在 SO 上看到的任何主题的最佳答案之一。 这里有另一篇文章可能对***.com/questions/21656861/…有帮助【参考方案2】:你对 n-gram 的定义是正确的。
您可以将词级 n-gram 用于搜索类型的应用程序。字符级 n-gram 可以更多地用于分析文本本身。例如,为了识别文本的语言,我将使用字母的频率与语言的既定频率进行比较。也就是说,文本应该与该语言中字母的出现频率大致匹配。
可以使用 strtok 完成 PHP 中单词的 n-gram 分词器:
http://us2.php.net/manual/en/function.strtok.php
对于字符使用拆分:
http://us2.php.net/manual/en/function.str-split.php
然后您可以根据需要将数组拆分为任意数量的 n-gram。
贝叶斯过滤器需要经过训练才能用作垃圾邮件过滤器,可以与 n-gram 结合使用。但是你需要给它大量的输入才能让它学习。
就学习页面的上下文而言,您的最后一种方法听起来不错……但这仍然相当困难,但 n-gram 听起来是一个很好的起点。
【讨论】:
谢谢。我认为 strtok 对于良好的标记化来说太简单了,因为您必须添加很多标记,例如:空格、逗号、点、下划线、括号等。但是第一段,用例,真的很有帮助。谢谢! :)以上是关于N-gram:解释 + 2 个应用的主要内容,如果未能解决你的问题,请参考以下文章