深度学习常用数据集资源(自然语言处理)
Posted 大数据与人工智能Lab
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习常用数据集资源(自然语言处理)相关的知识,希望对你有一定的参考价值。
自然语言也是深度学习的一个重要应用方向,下面介绍几个常用的深度学习数据集资源(自然语言处理)。
一、数据集
SQuAD
斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。
推荐度:★★★
推荐应用方向:文本挖掘、自然语言理解、智能问答
https://rajpurkar.github.io/SQuAD-explorer/
MS MARCO
MS MARCO是一种新的大规模阅读理解和问答数据集。在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。
推荐度:★★★
推荐应用方向:自然语言理解、智能问答
http://www.msmarco.org/
Question Pairs
第一个来源于Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。
推荐度:★★★
推荐应用方向:自然语言理解、智能问答
https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
Maluuba Datasets
这是一个用于自然语言理解研究的复杂的人工数据集,主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。
推荐度:★★
推荐应用方向:自然语言理解、智能问答
https://datasets.maluuba.com/
Maluuba NewsQA
Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。
推荐度:★★
推荐应用方向:文本挖掘、自然语言理解、智能问答
https://datasets.maluuba.com/NewsQA
https://github.com/Maluuba/newsqa
20 Newsgroups
该数据集包含大约20000个新闻组文档,在20个不同的新闻组中平均分配,是一个文本分类的经典数据集,它是机器学习技术的文本应用中的实验的流行数据集,如文本分类和文本聚类。
推荐度:★★
推荐应用方向:文本挖掘
http://qwone.com/~jason/20Newsgroups/
1 Billion Word Language Model Benchmark
这是一个大型、通用的语言建模数据集,该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。
推荐度:★★
推荐应用方向:文本挖掘、自然语言理解
http://www.statmt.org/lm-benchmark/
Common Crawl
Common Crawl包含了超过7年的网络爬虫数据集,拥有PB级规模,常用于学习词嵌入。
推荐度:★★
推荐应用方向:文本挖掘、自然语言理解
http://commoncrawl.org/the-data/
二、数据平台
国外(特别是美国)开放的数据更多、更齐全,有助于国外的技术人员进行研究。而国内对于公开数据的开放较晚、且只有部分,不够齐全,目前也有一些机构贡献了一些数据集出来,如有需要可在上面下载。
1、数据堂
数据堂是国内比较大的大数据交易平台,该平台上的许多数据覆盖面很广,但是要收费,可根据需要再评估有多少成本可以用于交易数据。
网址:
http://www.datatang.com/
2、搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高,而且数据是免费的,提供了多种类型,值得尝试。
网址:
http://www.sogou.com/labs/
3、自然语言处理与信息检索共享平台
这是中科大的信息平台,在上面有一些自然语言相关的数据集可供下载。
网址:
http://www.nlpir.org/?action-category-catid-28
以上是关于深度学习常用数据集资源(自然语言处理)的主要内容,如果未能解决你的问题,请参考以下文章
清华自然语言处理科学家孙茂松:深度学习碰壁之后,我们还能做什么?
AI深度学习市场前景广阔,英特尔自然语言处理技术助力方案落地