原创丨一种基于间隙的超深卷积网络中文分词框架
Posted 智察
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了原创丨一种基于间隙的超深卷积网络中文分词框架相关的知识,希望对你有一定的参考价值。
来源:arXiv
编辑:智察(ID:Infi-inspection)
点击“阅读原文”下载论文英文原文
文章字数:7268 预计阅读用时:11分钟
摘要
现存的大多数中文分词可以被分为基于字符和基于词两种形式。前者将这个任务看作序列标注问题,而后者直接将字符分割成单词。然而,如果我们分割一个给定的句子,最直观的思想是预测是否为两个连续字符之间的每个间隙进行分段,相比之下,以前的方法似乎过于复杂。所以,本文中我们提出一种基于间隙的框架来实施这个想法。再者,超深卷积神经网络,也就是DenseNets和ResNets已经在实验中使用过了。结果表明,在5种基准测试中,我们的方法优于基于字符和基于词的方法,无需进一步的后处理模块。
不同于英语,中文没有明确的分割符,这使得分词成为中文自然语言处理的基础和初级任务。近年来,神经网络方法在汉语分词中吸引了大量的眼球,大量的神经网络模型给出了与最优统计模型相比具有竞争力的结果。以往对中文分词的神经方法大致可分为基于字符和基于词的方法。前者将这个任务看作序列标注问题,而后者直接将字符分割成单词。
图1:一种带有直接分段密集块的间隙分词卷积网络:从“希望你能好好学习”到“希望(hope)你(you)能(can)好好(happily)学习(study)”
自从Xue开始,大多数基于字符的方法都使用标签{B、I、E、S}来分别表示单词开头,内部和结束。为了得到每个字符的标签分数,张量神经网络、递归神经网络、长短期记忆和卷积神经网络都被提出。引入在连续字符中从i标签跳到j标签对应的转移分数,以处理标签到标签的转换,并给出结构化输出。在转移分数的帮助下一个标签分数序列可以解码成一个标签for inference序列。这里的是句子中的字符数。例如条件随机场或最大间距准则可以用来加强结构的一致性,并提供一个目标函数。
在基于词的框架中,Zhang等人提出了一种基于转移的模型,该模型将句子从左向右递增地解码。Cai和Zhao等人在2016年和Cai等人在2017年提出直接对候选分词输出进行评分。Yang等人将部分词引入基于词的模型。对于这些基于词的模型,LSTM或它们的变种被用于特征提取,最大间距准则被用于训练,而束搜索用于推理。
尽管这些方法取得了巨大的成功,但基于字符的框架和基于词的框架之间仍然存在问题。基于字的框架中的主要问题是后处理模块的使用,例如中文分词框架或最大间距准则。在计算机视觉文献中,目前最先进的模型往往是端到端的模式,直接从神经网络得到输出,相比之下,这些后处理模块似乎设计过度了。此外,使用{B,I,E,S}标签可能会产生多余的信息。例如,“B”可能会比“E”更像“S”或“I”。这些冗余并不是所有基于字符的模型都能考虑到的。我们对这些后处理模块在当前基于字符的最新模型中的广泛使用的解释是,它们不善于捕获字符组合特征。此外,基于词的模型还存在着非平行性问题,只能使用前几个时间步的分割信息。
本文提出了一种简洁有效的方法,克服了基于字符的模型和基于词的模型中的问题:为了提高特征组合,我们引入深度卷积神经网络提取特征进行分割。此外,我们直接对两个连续字符间间隙进行分词预测。因此,我们不需要构造我们的打分并避免了推理解码。因为从技术上讲,我们的框架是基于间隙的,所以我们把我们的方法称为基于间隙的卷积网络(Gap-based ConvNets)。图1演示了我们的模型是如何工作的。
我们在5个不同的基准数据集上评估基于间隙的卷积网络,他们分别是CTB6, PKU, MSR, AS和CityU。作为一种纯粹的监督模型,我们的方法在所有这些平台上表现都比目前最先进的纯监督的结果好得多,同时也可以与最好的半监督的结果相竞争。我们希望,我们的简单框架将开辟一条新的道路,成为中文分词研究的坚实基准。我们也希望本文能为今后为其他序列标注任务中的研究提供帮助。本文的贡献可以概括如下:
l 我们提出了一个端到端的中文分词框架,直接分类两个连续字符之间的间隙,我们的结果优于最先进的基于字符的和基于词的方法。
l 首先为中文分词框架引入了超深神经网络,提出了残差块和稠密块的概念,以融合多层特征。我们还表明,在中文分词框架中深度神经网络可以获得更好的性能。
本节将详细描述我们基于间隙的框架。首先,如果我们考虑将给定的句子(字符特点)划分成块(词),最直观的想法是预测对于两个连续字符之间的每一个间隔是否要进行划分。也就是说个预测可以确定句子的分词。
2.1、 间隙特征表示
我们在前人工作的基础上,在将独热稀疏离散序列s转化为实数表示时同时考虑单字符嵌入和双字符嵌入。两个分开的查找表用于生成大小为的二维表示形式用于单字符嵌入,和大小为的二维表示形式用于双字符嵌入。是单字符嵌入的维数,是双字符嵌入的维数。
间隙的表示则是其两个连续字符各自的单字符嵌入及其双字符嵌入的级联。将核尺寸为1的时间卷积层(Conv)应用于级联,以实现单字符和双字符信息的集成。将卷积层的输出作为特征提取块的输入。
我们遵循Gehring等人的观点,用门控线性单元(GLU)激活卷积,它是一个非线性运算,它在卷积Y=[AB]上实现了门控机制:
此外,在通过门(B)进行缩放之前,批量归一化(BN)跟踪先每个卷积层A。偏差不用于卷积。
在图1中,和分别代表单字符表示和双字符表示,“Concatenate”是指一个级联操作。“Conv-BN-GLU, k, d”表示内核大小K和内核编号D的时间卷积运算,然后进行批量归一化并由GLU激活。
2.2、 特征抽取
以前神经网络在中文分词框架中的应用大多采用了一种比较浅层的结构(最多至5层)。Wang和Xu提出一种5层卷积神经网络。Chen等人发现将他们的LSTM模型在不同层数下进行对比,发现一层的LSTM最有效。Chen等人,Cai等人, Yang等人和Zhou等人也使用单层LSTM或双向LSTM来提取特征。这些体系结构与深度卷积网络相比较浅层,后者推动了计算机视觉领域的发展。此外,在这些模型中使用5个字符的上下文窗口表明,他们的模型不擅长捕捉字符组合特征。
图2:具有卷积核大小3、输入深度和输出深度1024的4层残差块,用“Residual Block,3,4”表示。
在这一部分中,我们提出了深层特征提取块,即用残差块和稠密块来捕捉字符组合特征。据我们所知,这是第一次将超深卷积网络应用于序列标注。
残差块 传统的卷积前馈网络将第l层的输出端连接到第l+1层的输入端。我们可以将此方案表示为一个层转换:,我们观察到深层前馈网络很难训练,ResNets添加一个跳越连接,该连接使用标识函数绕过非线性转换:
我们的L层残差块设计遵循Zagoruyko和Komodakis提出的观点。我们将定义为两个门控线性单元的组合。其中,它们将核大小为3的卷积(Conv)分成两个部分,即A和B,并用门σ(B)控制卷积层A。每个A在门前被批量归一化(BN)。
在本文的其余部分中,带有一个残差块基于间隙的卷积网络被称为基于间隙的ResNets。图2示意性地说明了一个示例残差块的布局。
图3:一个非瓶颈的四层密集块,其生长率为128,卷积核大小为3,输入深度512,输出深度1024,记为“Dense Block,3, 128´4”。而且每个层都将所有前面的特征图进行连接作为输入。
稠密块 密集连接的体系结构是残差体系结构的延伸。间隙表示通过了密集块,而我们的密集块有L层。然后,每一层实现一个非线性转换来将前几层的特征图连接起来:
其中l为层索引,指在层生成的特征图的级联。
与残差块相似,我们将定义为一个具有时间卷积层(CONV)的门控线性单元(GLU),其卷积层具有大小为3的核并且批量归一化(BN)。随着级联层深度的增加,时间卷积层中的单元数被称为生长速率k。具有这种密集块的基于间隙的卷积网络被称为基于间隙的DenseNets。
在核尺寸为3的每个卷积层之前,引入一个核尺寸为1的时间卷积层,以减少输入特征图的数量。我们在瓶颈层中设置了一些数量与增长率k一致的核单元。因此会变成Conv1-BN-GLU-Conv3-BN-GLU。
图3示意性地展示出了示例性非瓶颈密集块的布局。值得注意的是,密集块可以显式地连接多级字符组合特征。
2.3、 分词预测
在深度特征提取块的末尾,实现了核尺寸为1、单元数为2的时间卷积层。然后,附加一个softmax层,使输出成为概率分布。最终我们为我们的得到了一个矩阵。在第二维度的值代表的是“分词”和“不分词”的预测评分。
我们通过对几个单独训练的模型的预测分数的平均值来将它们集成。
因为我们的模型将间隙直接分类为“分词”和“不分词”,我们可以简单地使用交叉熵(CE)作为我们的损失函数:
其中是第i个差距的真实概率分布,(1,0)可以代表“分词”,(0,1)代表“不分词”。是我们的第i个间隙模型预测的概率分布,即softmax层的输出。
考虑到当前数据集中存在大量的注释不一致性,我们使用一个带有因子β=0.1的标签平滑来防止过拟合,提高模型的鲁棒性。我们使用最小批处理大小为n的Adam来优化模型参数,在前8000步中初始学习速率为,剩余步骤中。模型参数使用由Glorot和Bengio建议的正态分布初始化。对于间隙表示,采用了一个dropout率为p1的dropout来减少过拟合。我们设置了预训练的双字符嵌入为固定并只微调了预训练的单字符嵌入。
表1:CTB 6模型选择结果。
4.1、 实验设置
数据 我们使用CBT6作为我们的主要数据集。我们遵循官方文件并将数据集划分为训练、开发和测试数据。为了验证模型的鲁棒性,我们还对sighan2005bakeoff数据集进行了评估,在这些数据集中,我们随机选10%的数据作为开发数据从训练数据中分离出来。我们将文章所有标点符号都替换为“<PUNC>”,将英文字母替换成“<ENG>”,用“<NUM>”替换阿拉伯数字。在句首和句尾都添加“</s>”。我们将word2vec应用于中文字词语料库(LDC2011T13),得到了单字符和双字符的预训练嵌入。我们选择50作为单字符嵌入EU和双字符嵌入尺寸EB的尺寸。注意,由于我们不需要词嵌入,所以我们不需要其他分词器自动分割语料库。在基于间隙的框架中使用词嵌入的工作将留在以后。
评估 我们采用标准词精度、召回和F1值对分词性能进行评价。取4个相同训练设置的分别独立训练的模型的预测分数进行组合,来对不同的模型结构和超参数进行评价。
微调 我们对开发数据的超参数进行微调。当我们在不同的数据集上评估我们的模型时,我们让几乎所有超参数保持一致,但是,对于AS 数据集,批次大小要设置为256,对于其他数据集,则要设置为64;对于CTB 6和PKU数据集,则将dropout率p1设置为0.3,而对于其他数据集,则设置为0.2。
表2:不同的间隙表示的影响。
4.2、 模型分析
我们在CTB 6数据集上进行了开发实验,验证了不同配置和不同损失目标的有效性。
4.2.1、 模型选择
我们评估了我们的有不同层数L的残差块或密集块的基于间隙的卷积网络。CTB 6的主要结果如表1所示,我们在表1中用黑体字表示我们的最佳结果。第一卷积层(间隙表示)的维数设置为512。
我们发现,我们的12层和28层基于间隙的DenseNets都获得了最佳性能,增长率为128。因此,为了同时获得性能和速度,我们在后面的实验中只使用了12层基于间隙的Densenet,其增长率为128。
4.2.2、 间隙表示
我们比较了不同的间隙表示法。结果如表2所示,其中“both”代表原来的模型,“单字符”和“双字符”分别仅代表带有单字符嵌入和双字符嵌入的间隙表示。“combined”表示纯单字符模型和纯双字符模型的组合结果。
从表中可以看出,去掉单字符和双字符嵌入,F分数分别下降到94.8和95.8。我们发现单字符嵌入比双字符嵌入更有鲁棒性,更有效,这是与Yang等人相反的一个结论。我们认为,这是由双字符嵌入的稀疏性造成的。
表3:不同字符上下文的分割结果。正确的分割应该是:“他(he)才(just)又(again)有(have)机会(chance)站到(stand)火车(train)修复(repair)的(’s)第一线(frontier)”和“美不胜收(beautiful)的(of)阿里山(Ali Mountain)”
此外,我们还对纯单字和纯双字模型的组合进行了简单的实验。
由于纯单字符模型和纯双字符模型对间隙有不同的表示,因此它们对分词的预测也是独立的。它们产生不同的分词错误分布,并为它们相互学习提供了机会,如表3所示。
因此,我们提供了一个甲骨文组合模型来结合这两个模型的结果。对于合并后的结果,我们接受了纯单字符模型和纯双字符模型的分词结果,并使用我们称为“Oracle”的结果来确定谁的结果可以被接受。“Oracle”代表着我们总能做出正确的选择。合并的结果也列于表2。
我们发现,在比纯单字符和纯双字符模型表现更好的同时,我们的甲骨文组合结果也超出了原始模型一大截,这表明单字符信息和双字符信息具有很强的互补性,在特征提取之前,单字符信息和双字符信息的结合可能使得原始模型不能充分利用深度神经网络的特征组合能力。
然而,“Oracle”意味着我们需要事先知道答案,这在实践中是不可能的。因此,未来将对纯单字符和纯双字符模型的结果进行组合的一种实用方法进行研究。
表4:不同中文分词框架的影响。
表5:一个不同的框架下分词的例子。正确的分割应该是“中国(Chinese)证券(stock)市场(market)目前(currently)仍(still)处(in)于(the)初创(start)阶段(period)”
4.2.3、 与基于字符的框架进行比较
我们的基于间隙的模型和基于字符的模型都将中文分词任务视为序列标注任务。然而,它们之间的一个很大的区别是,虽然基于字符的模型必须对每个字符给出4个分数,并且使用一个后处理模块,但是基于间隙的模型只需要给出一个用于分类间隙的二分类。
为了验证基于间隙的方案的有效性,我们在相同的神经网络体系结构(即基于间隙的密集网络)中,比较了基于字符的方案和基于间隙的方案。为了将基于字符的方案与原有的体系结构相结合,我们对该体系结构进行了如下修改:
·我们用字符的单字符嵌入和连续字符的双字符嵌入来表示字符信息。
·在基于字符的序列标注方案中,我们使用卷积层和softmax层,用4个单元代替了2个单元来表示{B、I、E、S}的分数。
为了充分研究基于字符的方案的性能,本文采用两种方法对网络进行了训练。第一种方法使用一个转移矩阵来建模和CRF进行结构化推理,第二种方法使用贪婪损失直接将字符划分为{B,I,E,S}。结果如表4所示,其中“character-based CRF”表示第一种方法“character-based greedy”表示第二种方法。
我们可以看到,基于间隙的方案与基于字符的方案相比具有竞争性的结果,而我们没有后处理模块。此外,我们的简单分类方案使得我们更方便地在大型受监督的学习文献中使用大量成熟的技巧,例如,平滑标签和信任惩罚。
表5给出了一个示例分词结果,我们基于间隙的框架提供了正确的分词,而基于字符的框架的答案是错误的。结果表明,基于间隙的分词框架能够修复基于字符的框架所产生的一些错误。
表6:CTB 6和SIGHAN 2005backoff数据集的主要结果与其他最佳的纯监督结果。带有*的结果是Cai和Zhao不使用外部中文词典实现的结果
表7:CTB 6和SIGHAN 2005backoff数据集的主要结果与其他最佳半监督结果。用*和†标记的结果分别是使用自动分段数据获取预先训练的单词嵌入和字符嵌入。
4.3、 最终结果
除了CTB 6数据集是最近分词研究中最常用的数据集之外,此外,我们还评估了SIGHAN 2005 backoff数据集上的模型,以检测跨领域鲁棒性。在这些数据集中,PKU和MSR数据集采用简体中文,AS和CityU数据集采用繁体中文,在分词前必须将它们映射成简体中文。
我们的最终结果如表6和表7所示,并列出了当前最先进的几种方法的最终结果。从表6中可以看出,我们提出的方法在所有数据集中都提供了在所有统计和神经网络方法中最好的纯监督性能,并且差距很大。
此外,我们的方法与最佳半监督方法相比,也具有很强的竞争力,其包括了那些具有大量比如互信息,标点符号,自动分段文本,POS数据,语境嵌入等预训练信息的方法。如表7所示,我们在CTB 6、AS和CityU数据集上的表现优于最好的半监督模型。
总之,当可与最好的半监督方法相提并论的同时,我们的基于间隙的方法可以在所有语料库上提供最好的纯监督性能。据我们所知,我们是第一个同时在CTB 6和所有SIGHAN 2005 backoff基准取得最先进结果的方法。它验证了基于间隙的框架,虽然简单,但对于中文分词来说是非常有效的。
Xue(2003)首次提出将中文分词任务作为字符标注,他使用最大熵模型对每个字符使用{B,I,E,S}来进行标记。Peng(2004)等人遵循这种字符标注方案,提出了一个条件随机场(CRF)方法,以进一步提高性能。自那时以来,这种序列标注CRF方案在随后的文献中成为了主流。
Zheng等人(2013)首次提出了神经网络模型,并使用一个大小为5的字符窗口为中文分词引入了字符嵌入。这种5个字符长的窗口设计还出现在最近的最先进的模型中。Pei等人(2014)利用张量神经网络进一步挖掘字符组合特征,并将双字符嵌入到神经网络中文分词模型中。Chen等人(2015a)提出了一个门控递归神经网络来进行特征组合。Chen(2015b)等人提出了一种LSTM模型,以便摆脱这种5字符的窗口设计。Xu和Sun(2016)提出了一个基于依赖的门控递归神经网络,以有效地结合局部和全局特征。Wang和Xu(2017)提出了一种卷积神经网络来提取特征。这些基于特征的模型都利用了最近兴起的神经网络体系结构。
Andrew引入了对数条件概率,即根据给定的标记序列根据生成模型构成模块。Zhang和Clark(2007)首次提出了种基于词的方法,为中文分词提供了一个直接的解决方案。Zhang和Clark(2011)提出了一个束搜索模型。Zhang等人(2016)提出了一种基于神经转移的束搜索模型,该模型明确地按顺序产生块。Cai和Zhao(2016)、Cai等人(2017)提出了一种直接对候选分词输出进行评分的模型。这些基于词的模型可以充分利用词特征,如词嵌入。
通过观察自然语言处理(NLP)文献中序列分割计算机视觉文献中的语义切分的相似性和,我们可以发现“最简单的东西是最好的”奥卡姆剃刀方法不适用于NLP序列分割任务。Zhang等人(2016)提出利用全卷积密集网对每个像素直接进行分类来进行语义分割,并击败其他如全连接CRF之类的复杂框架(Krahenb Dec.uhlü和Koltun,2011年)。本文提出了对间隙进行直接分类的思路。
Wang和Xu(2017)的模型结构与我们的相似,因为我们都使用卷积神经网络来提取字符组合特征。然而,它们的模型相当浅(最多5层),只使用前馈连接,而受He等人(2016)和Huang等人(2017)的启发,我们引入了包含残差连接或密集连接的深度特征提取块。此外,它们的模型仍属于基于字符的框架,而我们的基于间隙的框架可以进一步利用深度神经网络的表示能力。
我们的方法仍有很大潜力,今后可以进一步研究和改进。例如,我们的模型可能还会受益于最近流行的半监督学习方法,例如词上下文字符嵌入(Zhou等人,2017),丰富的预训练(Yang等人,2017)。)和预训练过的词嵌入(Wang和Xu,2017)。它们都可以从自动分割文本中获得更多信息。LSTM-RNN及其变体在基于间隙的框架中的应用也是值得研究的问题。
在本文中,我们提出了一个新的基于间隙的中文分词框架,它直接预测两个连续字符之间的间隔是否分段。此外,我们引入了用于特征提取的超深卷积网络(残差块和密集块)。
实验结果表明,本文提出的基于间隙的卷积网络是解决中文分词问题的有效方法。我们的研究大大超过了以前最好的基于字符和基于词的方法。据我们所知,我们的方法是第一个同时在CTB 6和所有SIGHAN 2005backoff基准上得到最先进结果的方法。
(完)
转载声明
End.
以上是关于原创丨一种基于间隙的超深卷积网络中文分词框架的主要内容,如果未能解决你的问题,请参考以下文章