CS224N WINTER 2022 前沿问题探讨(QANLG知识集成与检索Coreference)
Posted 囚生CY
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS224N WINTER 2022 前沿问题探讨(QANLG知识集成与检索Coreference)相关的知识,希望对你有一定的参考价值。
CS224N WINTER 2022(一)词向量(附Assignment1答案)
CS224N WINTER 2022(二)反向传播、神经网络、依存分析(附Assignment2答案)
CS224N WINTER 2022(三)RNN、语言模型、梯度消失与梯度爆炸(附Assignment3答案)
CS224N WINTER 2022(四)机器翻译、注意力机制、subword模型(附Assignment4答案)
CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)
序言
第十讲往后属于自然语言处理前沿领域的内容,这部分内容目前暂且过了一遍,做了少量的笔注,因为很多最新的研究和经典的成果仍需细读推荐阅读中提供的paper才能有所得,目前只是做记录性质的,问答(QA)这部分是很有趣的,知识集成与检索又与问答是息息相关的,Coreference就是我们常说的本体识别问题,自然语言生成是一个很宽广的研究领域,大部分的seq2seq任务都可以视为NLG
至此,CS224N告一段落,接下来会重点看几篇这里面的paper,然后抽空把CS224W做一下记录,再之后就该干正事了。
文章目录
- 序言
- 后记
lecture 11 问答系统
slides
[slides]
-
问答系统的类型:
- 答案参考来源:文本信息、网络文档、知识库、表格、图片。
- 问题类型:陈述句(factoid)或非陈述句(non-factoid)、开放领域(open-domain)或限定领域(closed-domain)、简单(simple)问题或复杂(compositional)问题。
- 答案类型:一句话、一段话、枚举所有结果、判断题。
-
Freebase:基于非结构化的文本
-
SQuAD:斯坦福问答数据集,下面推荐阅读部分有较为详细的说明;
其他的一些问答数据集:TriviaQA,Natural Questions,HotpotQA;
如何构建模型解决SQuAD:
-
模型输入: C = c 1 , . . . , c N , Q = ( q 1 , . . . , q M ) , c i ∈ V , q i ∈ V C=\\c_1,...,c_N\\,Q=(q_1,...,q_M),c_i\\in V,q_i\\in V C=c1,...,cN,Q=(q1,...,qM),ci∈V,qi∈V,其中 N ≈ 100 , M ≈ 15 N\\approx100,M\\approx15 N≈100,M≈15
-
模型输出: 1 ≤ start ≤ end ≤ N 1\\le\\textstart\\le \\textend\\le N 1≤start≤end≤N
-
2016~2018年大部分使用的是带注意力机制的LSTM模型:
下面介绍上图这种BiDAF模型框架的思想(参考论文是推荐阅读的第二篇)。
输入的 C C C到一个BiLSTM中,输入Q到另一个BiLSTM中,然后将两者的隐层状态取注意力,继续输出到两层的BiLSTM中,最后由全连接层输出结果。(这个模型架构叫作BiDAF)
具体而言,BiDAF的嵌入用的GloVe拼接上CNN编码得到的嵌入charEmb:
emb ( c i ) = f ( [ GloVe ( c i ) ; charEmb ( c i ) ] ) emb ( q i ) = f ( [ GloVe ( q i ) ; charEmb ( q i ) ] ) \\textemb(c_i)=f([\\textGloVe(c_i);\\textcharEmb(c_i)])\\\\ \\textemb(q_i)=f([\\textGloVe(q_i);\\textcharEmb(q_i)]) emb(ci)=f([GloVe(ci);charEmb(ci)])emb(qi)=f([GloVe(qi);charEmb(qi)])
然后输入到BiLSTM中:
c i → = LSTM ( c i − 1 → , e ( c i ) ) ∈ R H c i ← = LSTM ( c i − 1 ← , e ( c i ) ) ∈ R H c i = [ c i → ; c i ← ] ∈ R 2 H q i → = LSTM ( q i − 1 → , e ( q i ) ) ∈ R H q i ← = LSTM ( q i − 1 ← , e ( q i ) ) ∈ R H q i = [ q i → ; q i ← ] ∈ R 2 H \\overset\\rightarrowc_i=\\textLSTM(\\overset\\rightarrowc_i-1,e(c_i))\\in\\R^H\\\\ \\overset\\leftarrowc_i=\\textLSTM(\\overset\\leftarrowc_i-1,e(c_i))\\in\\R^H\\\\ \\bf c_i=[\\overset\\rightarrowc_i;\\overset\\leftarrowc_i]\\in\\R^2H\\\\ \\overset\\rightarrowq_i=\\textLSTM(\\overset\\rightarrowq_i-1,e(q_i))\\in\\R^H\\\\ \\overset\\leftarrowq_i=\\textLSTM(\\overset\\leftarrowq_i-1,e(q_i))\\in\\R^H\\\\ \\bf q_i=[\\overset\\rightarrowq_i;\\overset\\leftarrowq_i]\\in\\R^2H ci→=LSTM(ci−1→,e(ci))∈RHci←=LSTM(ci−1←,e(ci))∈RHci=[ci→;ci←]∈R2Hqi→=LSTM(qi−1→,e(qi))∈RHqi←=LSTM(qi−1←,e(qi))∈RHqi=[qi→;qi←]∈R2H
接下来的注意力层就是计算 c i \\bf c_i ci和 q i \\bf q_i qi的点积注意力,这里有两个注意力(context-to-query attention与query-to-context attention)
具体而言有如下表达式:
S i , j = w s i m ⊤ [ c i ;以上是关于CS224N WINTER 2022 前沿问题探讨(QANLG知识集成与检索Coreference)的主要内容,如果未能解决你的问题,请参考以下文章
CS224N WINTER 2022 前沿问题探讨(QANLG知识集成与检索Coreference)
论文阅读自然语言模型的尺度法则(CS224N WINTER 2022 Lecture17 推荐阅读整理)
论文阅读自然语言模型的尺度法则(CS224N WINTER 2022 Lecture17 推荐阅读整理)
论文阅读自然语言模型的尺度法则(CS224N WINTER 2022 Lecture17 推荐阅读整理)
-