第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar
Posted flying_1314
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar相关的知识,希望对你有一定的参考价值。
目录
概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)
解析中的歧义
• 上下文无关文法为语言分配层次结构
‣ 公式化为生成语言中的所有字符串
‣ 预测给定字符串的结构
• 产生歧义问题——哪个更好?
• 概率CFG!
大纲
• Basics of Probabilistic CFGs (PCFGs)
• PCFG parsing
• Limitations of CFG
概率CFGs的基本Basics of Probabilistic CFGs (PCFGs)
• 相同的符号集:
‣ 终结符:单词比如书籍
‣ 非终结符:NP 或 NN 等句法标签
• 相同的制作(规则)
‣ LHS 非终结符 → RHS 符号的有序列表
• 此外,存储每个产生式的概率,如下:
• 概率值表示有条件
‣ P(LHS → RHS)
‣ P(RHS | LHS)
• 因此他们:
‣ 必须为正值,介于 0 和 1 之间
‣ 必须为给定的 LHS 求和为 1
使用 PCFG 随机生成
几乎与 CFG 相同,但有一点不同:
1.以S开头,句号
2. 选择一个以 S 作为 LHS 的规则
‣ 根据P(RHS | LHS)随机选择一个RHS
例如,S → VP
‣ 应用此规则,例如,将 VP 替换 S
3. 对字符串中的每个非终结符重复步骤 2(此处为 VP)
4.当没有非终端剩余时停止
给我们一棵树,和以前一样,用一句话作为产出
一棵树的可能性有多大?
• 给定一棵树,我们可以计算它的概率
‣ 分解为每个产生式的概率
有对应的每个产生式的概率表,查表计算即可获得树的概率
PCFG parsing
• 在我们查看之前
‣ CYK
‣ 未加权文法 (CFG)
‣ 查找所有可能的树
• 但通常有 1000 个,许多完全是荒谬的
• 我们能解出最可能的树吗?
CYK for PCFGs
• CYK 查找一个句子的所有树; 我们想要最好的树
• 概率CYK 遵循与标准 CYK 类似的流程
• 将语法转换为乔姆斯基范式 (CNF)
‣ 其中 NP+NP 是新符号。
概率 CYK:检索解析
• 解析表右上角的 S 表示成功
• 保留指向最佳分析的反向指针
• 要获取解析,请按照每个匹配项的指针返回
• 通过删除新的非终结符从 CNF 转换回来
算法
Limitations of CFG
CFG 问题 1:
较差的独立性假设
• 改写独立做出的决策,而捕捉全局结构通常需要相互依赖。
• NP → DT NN [0.28]
• NP → PRP [0.25]
• 独立于树其余部分的规则的概率
• 无法在 PCFG 概率中表示这种上下文差异
• NP → PRP 作为主语应该上升到 0.91
• NP → DT NN 作为宾语应该是 0.66
• 解决方案:添加一个条件来表示 NP 是主语还是宾语
解决方案:父母条件
• 通过将父亲节点符号合并到每个符号中,使非终结符更加明确
• NP^S 代表主语位置(左)
• NP^VP 表示宾语位置(右)
CFG 问题 2:
缺乏词汇条件
• 对树中的单词缺乏敏感性
• 介词短语 (PP) 附属歧义
‣ 工人将麻袋倒入垃圾箱 Worker dumped sacks into a bin
歧义在于,是要讲麻袋倒入垃圾箱,还是要去倒在垃圾箱中的麻袋,这是由介词短语所导致的
协调歧义
• dogs in houses and cats
歧义在于,句子是说:在房间里的狗 和 猫 还是说, 在房间和猫里的 狗
• 从语义上来说,狗比房子更适合和猫并列(狗不能在猫里面!)
解决方案:中心词词法化
• 用父节点符号记录中心词
‣ 成分中最显着的孩子,通常是 NP 中的名词,VP 中的动词等
‣ VP → VBD NP PP :
VP(dumped) → VBD(dumped) NP(sacks) PP(into)
中心词词法化
• 将主词纳入产生式规则中,以捕捉词之间最重要的联系
‣ 捕获短语中心词之间的相关性
‣ PP(into): VP(dumped) vs. NP(sacks)
• 语法符号库存大幅增加!
‣ 很多产生式规则过于具体,很少见
‣ 学习更多内容以避免稀疏问题(例如,零概率)
最后
• PCFG 被广泛使用,并且有高效的解析器可用。
‣ 柯林斯解析器、伯克利解析器、斯坦福解析器
‣ 都使用某种形式的词汇化
• 但还有其他语法形式
‣ 词法函数语法
‣ Head-driven(中心词驱动) 短语结构语法
‣ 下一篇:依赖语法!
好热~~~,哈哈,辛苦各位的观看,有问题评论区留言交流哦!
以上是关于第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar的主要内容,如果未能解决你的问题,请参考以下文章
PowerBI开发 第十四篇:DAX 表达式(时间+过滤+关系)