第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar

Posted flying_1314

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar相关的知识,希望对你有一定的参考价值。

 

目录

 

解析中的歧义

大纲

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

使用 PCFG 随机生成

一棵树的可能性有多大?

PCFG parsing

CYK for PCFGs

概率 CYK:检索解析

算法

 Limitations of CFG

CFG 问题 1:较差的独立性假设

解决方案:父母条件

CFG 问题 2:缺乏词汇条件

协调歧义

解决方案:中心词词法化

中心词词法化

最后


解析中的歧义

• 上下文无关文法为语言分配层次结构
    ‣ 公式化为生成语言中的所有字符串
    ‣ 预测给定字符串的结构

• 产生歧义问题——哪个更好?
• 概率CFG!

大纲

• Basics of Probabilistic CFGs (PCFGs)
• PCFG parsing
• Limitations of CFG

概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)

• 相同的符号集:
    ‣ 终结符:单词比如书籍
    ‣ 非终结符:NP 或 NN 等句法标签
• 相同的制作(规则)
‣ LHS 非终结符 → RHS 符号的有序列表

• 此外,存储每个产生式的概率,如下:

• 概率值表示有条件
    ‣ P(LHS → RHS)
    ‣ P(RHS | LHS)
• 因此他们:
    ‣ 必须为正值,介于 0 和 1 之间
    ‣ 必须为给定的 LHS 求和为 1

使用 PCFG 随机生成

几乎与 CFG 相同,但有一点不同:
1.以S开头,句号
2. 选择一个以 S 作为 LHS 的规则
‣ 根据P(RHS | LHS)随机选择一个RHS
例如,S → VP
‣ 应用此规则,例如,将 VP 替换 S
3. 对字符串中的每个非终结符重复步骤 2(此处为 VP)
4.当没有非终端剩余时停止
给我们一棵树,和以前一样,用一句话作为产出

一棵树的可能性有多大?

• 给定一棵树,我们可以计算它的概率
    ‣ 分解为每个产生式的概率

有对应的每个产生式的概率表,查表计算即可获得树的概率

PCFG parsing

• 在我们查看之前
    ‣ CYK
    ‣ 未加权文法 (CFG)
    ‣ 查找所有可能的树
• 但通常有 1000 个,许多完全是荒谬的
• 我们能解出最可能的树吗?

CYK for PCFGs

• CYK 查找一个句子的所有树; 我们想要最好的树
• 概率CYK 遵循与标准 CYK 类似的流程
• 将语法转换为乔姆斯基范式 (CNF)

‣ 其中 NP+NP 是新符号。

概率 CYK:检索解析

• 解析表右上角的 S 表示成功
• 保留指向最佳分析的反向指针
• 要获取解析,请按照每个匹配项的指针返回
• 通过删除新的非终结符从 CNF 转换回来

算法

 

 Limitations of CFG

CFG 问题 1:
较差的独立性假设

• 改写独立做出的决策,而捕捉全局结构通常需要相互依赖。
    • NP → DT NN [0.28]
    • NP → PRP [0.25]
    • 独立于树其余部分的规则的概率
    • 无法在 PCFG 概率中表示这种上下文差异

• NP → PRP 作为主语应该上升到 0.91
• NP → DT NN 作为宾语应该是 0.66
• 解决方案:添加一个条件来表示 NP 是主语还是宾语

解决方案:父母条件

• 通过将父亲节点符号合并到每个符号中,使非终结符更加明确

• NP^S 代表主语位置(左)
• NP^VP 表示宾语位置(右)

CFG 问题 2:
缺乏词汇条件

• 对树中的单词缺乏敏感性
• 介词短语 (PP) 附属歧义
    ‣ 工人将麻袋倒入垃圾箱 Worker dumped sacks into a bin

歧义在于,是要讲麻袋倒入垃圾箱,还是要去倒在垃圾箱中的麻袋,这是由介词短语所导致的

协调歧义

• dogs in houses and cats

歧义在于,句子是说:在房间里的狗 和 猫 还是说, 在房间和猫里的 狗

• 从语义上来说,狗比房子更适合和猫并列(狗不能在猫里面!)

解决方案:中心词词法化

• 用父节点符号记录中心词
    ‣ 成分中最显着的孩子,通常是 NP 中的名词,VP 中的动词等

 ‣ VP → VBD NP PP :
    VP(dumped) → VBD(dumped) NP(sacks) PP(into)

中心词词法化

• 将主词纳入产生式规则中,以捕捉词之间最重要的联系
‣ 捕获短语中心词之间的相关性
‣ PP(into): VP(dumped) vs. NP(sacks)
• 语法符号库存大幅增加!
‣ 很多产生式规则过于具体,很少见
‣ 学习更多内容以避免稀疏问题(例如,零概率)

最后

• PCFG 被广泛使用,并且有高效的解析器可用。
‣ 柯林斯解析器、伯克利解析器、斯坦福解析器
‣ 都使用某种形式的词汇化
• 但还有其他语法形式
‣ 词法函数语法
‣ Head-driven(中心词驱动) 短语结构语法
‣ 下一篇:依赖语法!

好热~~~,哈哈,辛苦各位的观看,有问题评论区留言交流哦!

 

以上是关于第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar的主要内容,如果未能解决你的问题,请参考以下文章

PowerBI开发 第十四篇:DAX 表达式(时间+过滤+关系)

Python开发第十四篇装饰器

C++从青铜到王者第十四篇:STL之stack类的初识和模拟实现

python成长之路第十四篇:HTML初步认识

第十四篇 现象

开始写游戏 --- 第十四篇