论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》

Posted 静待花开s0

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》相关的知识,希望对你有一定的参考价值。

CAsT-19: A Dataset for Conversational Information Seeking

SIGIR-2020

paper link:https://dl.acm.org/doi/abs/10.1145/3397271.3401206

Conversational search benchmark at TREC:http://www.treccast.ai/

1.简介

CAsT-19是一个支持对话信息检索(对话式检索)研究的新数据集,该数据集共有来自TREC Complex Answer Retrieval(CAR)和MS MARCO的38,426,252篇passage,80个信息检索对话(30train,50test)每个对话9-10个问题。对话中会宽泛地讨论一个Topic,或者深入探讨子话题。问题中包含了省略,隐式上下文,话题转换以及其他人类对话特征,因此,问题不能被孤立得理解。

CAsT-19 通过将对话信息检索定义为一项需要理解问题上下文(对话历史)才能有效选择文章的任务,来促进对话信息搜索的研究。它关注于用户建模先前检索结果的分析问题转化为有效查询,以及其他难以用现有数据集研究的主题。

2. Background

目前针对该邻域的数据集规模小,或者应用范围窄,难以重用和推广使用。

数据建模方法:

针对一个Topic,用户使用对话助手 (Conversational Assistant)来探索或学习该主题,其中包含了一些列question,这些question共同代表了一个复杂的信息需求,而一个简单的答案或者单个响应(response)无法满足需求,每个Topic的对话中包含了典型的对话组成部分如省略,回指以及隐含上下文等;同时还有典型的对话结构,如深入了解Topic,宽泛的探索Topic,转移关注点,上下文切换等。每个回答被限制在一个简短的passage,由对话助手返回或者传递给下文。

3.数据集构建

**数据集构建信息需求:**复杂的(需要多轮的细化)、多样化的(不同的信息类别)、开放领域的(不需要专家领域知识的访问)和可回答的(在集合中足够的覆盖)。主题被设计成信息(而不是任务),不需要时间或外部背景,不包含个人或主观的决定,避免敏感或有争议的主题,不是小众(即,是普遍感兴趣的),也不太宽泛。

指导方针:对话序列的编写是为了模仿“真实”对话的特征,使用以下指导原则

•应有连贯过渡的问题。

•应有共同的自然语言特征,包括关联、遗漏和省略。

•应有子主题,可以通过广度优先(“探索”)、深度优先(“钻取”)或其他策略进行遍历。

•有些主题会在子主题之间进行比较。

•大多数话题转变需要的不仅仅是一个简短的回答(例如,一个简单的事实是不够的)。

•就复杂性而言,大多数对话应依赖上文。

Topic示例如下:

passage来源于TREC CAR和MS MARCO(https://microsoft.github.io/msmarco/)

4. 结论

CAsT-19是第一次尝试构建的针对对话式信息检索任务的可重用数据集,具有真实世界中的对话结构和信息检索过程,对于信息检索领域的研究者研究对话式检索提供了方便。同时,该数据集揭示了对话式检索的结构,一些开放性的研究问题以及为该研究进行评估时所遇到的问题。CAsT-19数据集使用静态对话序列,其中下一个问题基于用户的兴趣,而不是系统的预先反应。这种选择使数据集可重用,但阻碍了一些问题的研究。参加TREC 2019 CAsT研讨会的与会者认为,可重用性比动态会话结构更重要,并建议在之后的数据集中保留这一特性。

以上是关于论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》的主要内容,如果未能解决你的问题,请参考以下文章

论文阅读之A Challenge Dataset and Effective Models for Aspect-Based Sentiment Analysis(2019)

论文阅读A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems

论文笔记:CTSpine1K: A Large-Scale Dataset for Spinal Vertebrae Segmentation in Computed Tomography

bigtable论文阅读笔记

论文阅读笔记

程序算法艺术与实践关于 AlphaGo 论文的阅读笔记