大数据语义分析 NLPIR是怎么实现的
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据语义分析 NLPIR是怎么实现的相关的知识,希望对你有一定的参考价值。
语义分析,指的是将给定的自然语言(包括篇章和句子)转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。它是面向整个句子的,而不仅是句子中主要谓词与其论元之间的语义关系,还含有非主要谓词包含的语义信息,如数量(quantity)、属性(attribute)和频率(frequency)等。
自然语言处理语义分析是自然语言处理技术走向深层应用的瓶颈.当前在概念、关系层次上的语义分析方法主要有两种:基于统计的特征向量抽取方法和基于语义词典(WordNet、HowNet等)的语义相似度计算方法.对于具体应用这两种方法都具有较大不足,前者由于统计模型的关系只适用于段落、篇章或多文档等粗粒度的语义分析,而不适合在句子词汇一级的应用;后者能方便处理实体概念之间的各种关系。
NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。
一、中文分词
1、基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。
2、全切分方法。它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。
3、由字构词的分词方法。可以理解为字的分类问题,也就是自然语言处理中的sequence labeling问题。
4、于词典和规则的汉字分词
切分时,用待切分的字符串去匹配词典中的词条,如果匹配成功,则将其切分成一个词。
5、基于大规模语料库的统计学习的分词方法
这类方法主要是利用从大规模语料库中通过统计得到的各种概率信息,来对中文字符串进行切分。这种方法往往不需人工维护规则,也不需复杂的语言学知识,且扩展性较好,是现今分词算法中较常用的做法。
6、规则和统计方法相结合的汉字分词方法
现在多数分词算法都采用规则和统计相结合的方法,这样做既可降低统计对语料库的依赖性,充分利用已有的词法信息,同时又能弥补规则方法的不足。
二、分词标注
一个文本串除了分词,还需要做词性标注,命名实体识别,新词发现等。通常有两种方案,一种是先分词,再做词性标注;另一种是把这些任务用一个模型来完成。
三、语言模型
语言模型是用来计算一个句子产生概率的概率模型,即P(w_1,w_2,w_3…w_m),m表示词的总个数。
N-Gram语言模型简单有效,但是它只考虑了词的位置关系,没有考虑词之间的相似度,词语法和词语义,并且还存在数据稀疏的问题,所以后来,又逐渐提出更多的语言模型
神经网络语言模型,它是基于N-Gram的,首先将每个单词w_{m-n+1},w_{m-n+2} … w_{m-1}映射到词向量空间,再把各个单词的词向量组合成一个更大的向量作为神经网络输入,输出是P(w_m)。
以上是关于大数据语义分析 NLPIR是怎么实现的的主要内容,如果未能解决你的问题,请参考以下文章