用CRF做命名实体识别

Posted 2020-11-19 lookfor404

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了用CRF做命名实体识别相关的知识，希望对你有一定的参考价值。

一. 摘要

本文是对上文用CRF做命名实体识别做一次升级。多添加了5个特征(分别是词性，词语边界，人名，地名，组织名指示词)，另外还修改了特征模板，最终训练了11个小时，F1值为0.98。

二. 目录

整个流程的思路
一些概念解释
- 实体指示词
- 词语边界
- 为什么要用jieba再次分词标注词性
具体流程实现
总结与展望

三. 正文

1. 整个流程的思路：
根据人民日报语料库建立命名实体指示词库
构建人名，地名，组织名指示词特征
构建词性特征以及词语边界特征
将这五个特征合并，形成CRF++的训练数据格式
编写特征模板
划分数据集为训练集和测试集
用CRF++训练模型
测试模型
***

2. 上面出现的一些概念解释

2.1 实体指示词

在中文中，有些词的出现通常标志着该词周围很可能出现相应的命名实体，这样的词，我们称之为命名实体指示词。命名实体指示词是文本中非常有意义的上下文信息，可以有效的帮助识别命名实体。通常可以分为人名指示词、地名指示词和组织名指示词。
比如：温家宝总理主持了政府工作报告。这句话中“总理”这个词很大程度上指示着人名实体温家宝的出现。

2.2 词语边界

一个词有头有尾，我们给它进行位置标注。B代表词语的头部，M代表词语的中间部位，E代表词语的尾部，W代表一个词。如下所示：
```
迈   B
向   E
充   B
满   M
希   M
望   E
的   W
新   B
世   M
纪   E
```
2.3 为什么要用jieba再次分词标注词性

因为人民日报标注语料是人工标注的。我们构造了词性这个特征，测试的时候我们不可能对要测试的语料进行人工标注词性，这样工程量太大了，所以我们直接用jieba分词标注，这样训练和测试都是用的jieba标注的词性。
***

3. 具体流程实现

3.1 根据人民日报语料库建立命名实体指示词库

1）建立地名指示词库

（1）从人民日报标记语料库中按顺序读取一个词；
（2）如果这个词是一个标记了的命名实体则转（3），否则转（1）；
（3）读取当前词左边的 2 个词和右边的 2 个词，组成上下文词汇集合word_text，若当前词左边或者右边的词数少于 2 个，则取尽可能多个；
（4）如果当前词的标记为地名，则在备选地名指示词集合 Indication_l 中查找 word_text中的词，如果找到了，则相应词的频度加 1；否则，将此词加入到 Indication_l 集合中，该词频度设为 1；
（5）如果当前词是语料中的最后一个词，转（6），否则转（1）；
（6）统计备选备选地名指示词集合 Indication_l中所有词汇在单位语料中出现的频度 f；
（7）如果频度 f 小于阈值(我设置的是20) ，删除该词；
下图便是地名指示词
```
[‘向/p‘,
 ‘同胞/n‘,
 ‘和/c‘,
 ‘是/v‘,
 ‘发展/vn‘,
 ‘历史/n‘,
 ‘年/q‘,
 ‘人民/n‘,
 ‘建设/v‘,
 ‘有/v‘,
 ‘特色/n‘,
 ‘社会主义/n‘,
 ‘恢复/v‘,
 ‘对/p‘,
 ‘主权/n‘,
......]
```
2）同理建立人名指示词库以及组织名指示词库

3.2 构建人名，地名，组织名指示词特征

1）构建地名指示词特征

A. 读入数据

[‘迈向/v  充满/v  希望/n  的/u  新/a  世纪/n  ——/w  一九九八年/t  新年/t  讲话/n  (/w  附/v  图片/n  1/m  张/q  )/w‘,
 ‘中共中央/nt  总书记/n  、/w  国家/n  主席/n  江某某/nr‘,
 ‘(/w  一九九七年/t  十二月/t  三十一日/t  )/w‘,
 ‘12月/t  31日/t  ,/w  中共中央/nt  总书记/n  、/w  国家/n  主席/n  江某某/nr  发表/v  1998年/t  新年/t  讲话/n  《/w  迈向/v  充满/v  希望/n  的/u  新/a  世纪/n  》/w  。/w  (/w  新华社/nt  记者/n  兰红光/nr  摄/Vg  )/w‘,
 ‘同胞/n  们/k  、/w  朋友/n  们/k  、/w  女士/n  们/k  、/w  先生/n  们/k  :/w‘,......]

B. 提取上面列表里的地名实体

空列表表示这句话里面没有我们的地名实体

[[],
 [],
 [],
 [],
 [],
 [‘香港特别行政区/ns‘, ‘澳门/ns‘, ‘台湾/ns‘],
 [‘中国/ns‘, ‘中国/ns‘, ‘中国/ns‘, ‘香港/ns‘, ‘香港/ns‘, ‘中国/ns‘],
 [‘中国/ns‘, ‘中国/ns‘],
......]

C. 将列表里的每个元素变成只含有中文的句子

[‘迈向充满希望的新世纪——一九九八年新年讲话(附图片1张)‘,
 ‘中共中央总书记、国家主席江某某‘,
 ‘(一九九七年十二月三十一日)‘,
 ‘12月31日,中共中央总书记、国家主席江某某发表1998年新年讲话《迈向充满希望的新世纪》。(新华社记者兰红光摄)‘,
 ‘同胞们、朋友们、女士们、先生们:‘,......]

D. 对列表里的每个元素进行jieba分词标注词性

[‘迈向/v  充满希望/nz  的/uj  新世纪/nz  —/x  —/x  一九九八年/m  新年/t  讲话/n  (/x  附图片/n  1/m  张/nr  )/x‘,
 ‘中共中央/nt  总书记/n  、/x  国家/n  主席/n  江某某/nr‘,
 ‘(/x  一九九七年/m  十二月/m  三十一日/m  )/x‘,
 ‘12/m  月/m  31/m  日/m  ,/x  中共中央/nt  总书记/n  、/x  国家/n  主席/n  江某某/nr  发表/v  1998/m  年/m  新年/t  讲话/n  《/x  迈向/v  充满希望/nz  的/uj  新世纪/nz  》/x  。/x  (/x  新华社/nt  记者/n  兰红光/nr  摄/vg  )/x‘,
 ‘同胞们/n  、/x  朋友/n  们/k  、/x  女士们/n  、/x  先生/n  们/k  :/x‘,......]

E. 去掉列表里面的空格，让它更紧凑

[‘迈向/v充满希望/nz的/uj新世纪/nz—/x—/x一九九八年/m新年/t讲话/n(/x附图片/n1/m张/nr)/x‘,
 ‘中共中央/nt总书记/n、/x国家/n主席/n江某某/nr‘,
 ‘(/x一九九七年/m十二月/m三十一日/m)/x‘,
 ‘12/m月/m31/m日/m,/x中共中央/nt总书记/n、/x国家/n主席/n江某某/nr发表/v1998/m年/m新年/t讲话/n《/x迈向/v充满希望/nz的/uj新世纪/nz》/x。/x(/x新华社/nt记者/n兰红光/nr摄/vg)/x‘,
 ‘同胞们/n、/x朋友/n们/k、/x女士们/n、/x先生/n们/k:/x‘,......]

F. 读取我们前面构建的地名指示词表

[‘向/p‘,
 ‘同胞/n‘,
 ‘和/c‘,
 ‘是/v‘,
 ‘发展/vn‘,
 ‘历史/n‘,
 ‘年/q‘,
 ‘人民/n‘,
 ‘建设/v‘,
 ‘有/v‘,
 ‘特色/n‘,
 ‘社会主义/n‘,
 ‘恢复/v‘,
 ‘对/p‘,
 ‘主权/n‘,
......]

G. 取出每一句话的地名指示词

[[[]],
 [[]],
 [[]],
 [[]],
 [[]],
 [[], [], []],
 [[‘是/v‘], [‘是/v‘], [‘是/v‘], [‘对/p‘], [‘对/p‘], [‘是/v‘]],
 [[], []],
 [[‘和/c‘], [‘和/c‘], [‘与/p‘], [], [], [], [‘和/c‘], [‘和/c‘], [], [‘和/c‘], []],
 [[‘有/v‘, ‘建设/vn‘], [‘有/v‘, ‘建设/vn‘]],
 [[], [‘和/c‘], [‘和/c‘]],
 [[], [‘是/v‘], [‘是/v‘], [], [], [‘是/v‘]],......]

H. 美化一下

[[],
 [],
 [],
 [],
 [],
 [],
 [‘是/v‘, ‘是/v‘, ‘是/v‘, ‘对/p‘, ‘对/p‘, ‘是/v‘],
 [],
 [‘和/c‘, ‘和/c‘, ‘与/p‘, ‘和/c‘, ‘和/c‘, ‘和/c‘],
 [‘有/v‘, ‘建设/vn‘, ‘有/v‘, ‘建设/vn‘],
 [‘和/c‘, ‘和/c‘],
 [‘是/v‘, ‘是/v‘, ‘是/v‘],......]

J. 替换取出来的地名指示词里面的标签

[[],
 [],
 [],
 [],
 [],
 [],
 [‘是/pi‘, ‘是/pi‘, ‘是/pi‘, ‘对/pi‘, ‘对/pi‘, ‘是/pi‘],
 [],
 [‘和/pi‘, ‘和/pi‘, ‘与/pi‘, ‘和/pi‘, ‘和/pi‘, ‘和/pi‘],
 [‘有/pi‘, ‘建设/pi‘, ‘有/pi‘, ‘建设/pi‘],
 [‘和/pi‘, ‘和/pi‘],
 [‘是/pi‘, ‘是/pi‘, ‘是/pi‘],......]

K. 改变每句话里的实体指示词的标签

# 发现下面的 ‘与/p‘ 被改成了 ‘与/pi‘
‘ ... 通过/p  高层/n  互访/v  ,/x  中国/ns  与/pi  美国/ns  、/x  俄罗斯/ns  、/x  法国/ns  ... ‘

L. 对上面列表里面的每句话进行切分，做成列表

[[‘迈向/v‘,
  ‘充满希望/nz‘,
  ‘的/uj‘,
  ‘新世纪/nz‘,
  ‘—/x‘,
  ‘—/x‘,
  ‘一九九八年/m‘,
  ‘新年/t‘,
  ‘讲话/n‘,
  ‘(/x‘,
  ‘附图片/n‘,
  ‘1/m‘,
  ‘张/nr‘,
  ‘)/x‘],
 [‘中共中央/nt‘, ‘总书记/n‘, ‘、/x‘, ‘国家/n‘, ‘主席/n‘, ‘江某某/nr‘],......]

M. 写入外部文件
- 写成下面的形式，是地名指示词就标注为Y，不是就标注为N

未   N
来   N
发   N
展   N
的   N
目   N
标   N
和   Y
指   N
导   N
方   N
针   N
。   N
中   N
国   N
与   Y
周   N
边   N
国   N
家   N
和   Y

到这里我们就构建好了地名指示词特征了

2）同理构建人名，组织名指示词特征

3.3 构建词性特征以及词语边界特征

1）构建词性特征

迈   v
向   v
充   nz
满   nz
希   nz
望   nz
的   uj
新   nz
世   nz
纪   nz

2）构建词语边界特征

迈   B
向   E
充   B
满   M
希   M
望   E
的   W
新   B
世   M
纪   E

3.4 将这五个特征合并，形成CRF++的训练数据格式

从左到右的特征依次为字符，词性，词语边界，地名指示词，组织名指示词，人名指示词，标签。(最后一列在用CRF做命名实体识别中有讨论过，这里不再赘述)

年   a   B   N   N   N   O
轻   a   E   N   N   N   O
时   n   W   N   N   N   O
,   x   W   N   N   N   O
在   p   W   Y   N   N   O
重   ns  B   N   N   N   B_LOCATION
庆   ns  E   N   N   N   E_LOCATION
山   ns  B   N   N   N   O
城   ns  E   N   N   N   O
,   x   W   N   N   N   O
在   p   W   Y   N   N   O
红   n   B   N   N   N   B_LOCATION
岩   n   E   N   N   N   M_LOCATION
嘴   n   W   N   N   N   E_LOCATION
山   n   B   N   N   N   O
头   n   E   N   N   N   O
的   uj  W   N   N   N   O
楼   n   B   N   N   N   O
房   n   E   N   N   N   O
,   x   W   N   N   N   O
我   r   B   N   N   N   O
们   r   E   N   N   N   O
红   nr  B   N   N   N   B_ORGANIZATION
岩   nr  E   N   N   N   M_ORGANIZATION
歌   n   B   N   N   N   M_ORGANIZATION
咏   n   E   N   N   N   M_ORGANIZATION
团   n   W   N   N   N   E_ORGANIZATION
的   uj  W   N   N   N   O
男   n   B   N   N   N   O
女   n   E   N   N   N   O
青   t   B   N   N   N   O
年   t   E   N   N   N   O

3.5 特征模板

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[0,0]/%x[0,1]
U11:%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[-1,0]
U13:%x[-1,0]/%x[0,1]
U14:%x[0,0]/%x[1,1]
U15:%x[-1,0]/%x[-1,1]
U16:%x[-1,0]/%x[-2,0]
U17:%x[-2,0]/%x[-2,1]
U18:%x[1,0]/%x[2,0]
U19:%x[-1,1]/%x[1,0]
U20:%x[0,1]/%x[1,0]
U21:%x[-2,1]/%x[-1,1]
U22:%x[0,1]/%x[-2,1]
U23:%x[-1,1]/%x[0,1]
U24:%x[-1,1]/%x[1,1]
U25:%x[0,1]/%x[1,1]
U26:%x[0,1]/%x[2,1]
U27:%x[1,1]/%x[2,1]
U28:%x[-1,2]
U29:%x[-2,2]
U30:%x[-1,2]/%x[-2,2]
U31:%x[0,1]/%x[-1,2]
U32:%x[0,1]/%x[-2,2]
U33:%x[0,1]/%x[1,2]
U34:%x[0,0]/%x[-1,2]
U35:%x[0,0]/%x[-2,2]
U36:%x[0,0]/%x[1,2]
U37:%x[0,1]/%x[-1,2]/%x[-2,2]
U38:%x[-1,2]/%x[0,1]/%x[1,1]
U39:%x[-1,2]/%x[-1,1]/%x[0,1]
U40:%x[-1,2]/%x[0,1]/%x[0,0]
U41:%x[-2,2]/%x[-1,2]/%x[0,1]
U42:%x[-2,3]/%x[-1,3]/%x[1,3]%x[2,3]
U43:%x[-2,4]/%x[-1,4]/%x[1,4]%x[2,4]
U44:%x[-2,5]/%x[-1,5]/%x[1,5]%x[2,5]

# Bigram
B

3.6 划分数据集为训练集和测试集

这里我是70%为训练集，30%为测试集。主要是为了测F1值

3.7 训练的方法同用CRF做命名实体识别(一)

3.8 测试模型
F1值的计算用了sklearn库，最终得值是0.98
从网上下载了一些新闻语料库，也是要处理成上面的那种格式(CRF++可以训练数据的格式)，最终效果还可以，主要还是得看jieba分词标注词性的效果
***

四. 总结与展望

整个流程走完了，最后得出的效果也很不错，接下来打算把CRF的原理好好理一遍，以及用BI-LSTM-CRF方法做命名实体识别，据说这是目前的主流处理方法。