利用递归层次遍历句法结构树(Stanfordcorenlp及nltk)

Posted Icy Hunter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用递归层次遍历句法结构树(Stanfordcorenlp及nltk)相关的知识,希望对你有一定的参考价值。

在自然语言处理中,处理句法结构树是比较常见的处理问题,如何对句法结构树进行遍历,以及如何抽取出其中的层次关系,是值得去深究的。
本文将从Stanfordcorenlp的句法结构树和nltk中的Tree的数据结构入手,进行对句法结构树的层次遍历,抽取出句子中所包含的句法的层次结构。
首先需要安装Stanfordcorenlp(请自行CSDN),然后安装nltk(pip一下就可以用其中的Tree模块了)

例句:公安部治安局局长刘绍武介绍,这次销毁的非法枪支来源于三个方面。

句法结构树可以通过nltk中draw()画出来如下图:

(字体有些变形)

通过递归来进行对句法结构的遍历,代码简洁,运行结果如下:

对照上面的结构树可见 “->”代表的是层次关系,“->”前是上一层的叶节点(这一层的根节点),‘->’后是这一层的叶节点,然后同层的叶节点以空格连接,从而反应出句法结构的层次关系。

代码如下:

from stanfordcorenlp import StanfordCoreNLP
from nltk import Tree


cen = []
def cenxun(tree):
    c = []  # 每一层结果的储存
    if type(tree[0]) == str:  # 如果遇到字符,即到达了叶子节点,便返回
        return
    else:
        root = []  # 储存子树,即遍历下一层时,每个子树的开始都是作为根
        r = tree.label()  # 取出当前节点的句法英文标注
        for i in range(len(tree)):  # 遍历这棵树的子树,root中储存子树,c中保留每棵子树根节点的标注
            root.append(tree[i])    # 即这棵树的叶节点的标注,作为一层的信息
            c.append(tree[i].label())
        c = " ".join(c)  # 每层的叶子节点用空格连接
        c = r + "->" + c  # 根节点用->连接每层的叶节点
        cen.append(c)  # 将每次遍历的结果存cen中
        for rt in root:  # 遍历得到的子树,将每个子树作为新的一棵树进行遍历
            cenxun(rt)  # 递归调用就可以
        return


def main():
    lang = "zh"
    nlp = StanfordCoreNLP(r'E:\\stanford-corenlp-4.2.2', lang=lang)
    try:
        sentence = "公安部治安局局长刘绍武介绍,这次销毁的非法枪支来源于三个方面。"
        parse = nlp.parse(sentence)
        t = Tree.fromstring(parse)
        cenxun(t[0])
        t.draw()  # 展示句法结构树
    except:
        print("meet error")
    nlp.close()
    print("\\n".join(cen))


if __name__ == '__main__':
    main()
``

以上是关于利用递归层次遍历句法结构树(Stanfordcorenlp及nltk)的主要内容,如果未能解决你的问题,请参考以下文章

iOS:转储视图和约束的层次结构树

从具有父字段的平面列表构造层次结构树? [复制]

XCUITest - 选定的单元格未显示在 iOS 15 的层次结构树中

java代码递归部门结构树

第五章学习小结

org-mode,如何使用格式良好的组织链接自动生成漂亮的文件层次结构树