疫期研学丨资源推介之互联网机器学习数据库(中)
Posted 华东师范大学图书馆
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了疫期研学丨资源推介之互联网机器学习数据库(中)相关的知识,希望对你有一定的参考价值。
上期推文中,慧小源向大家介绍了互联网机器学习数据库的9个数据集,然而作为宝藏数据库,这些怎么够?本期慧小源继续带您挖掘互联网机器学习数据库的宝藏,助您宅家研学~
助力抗疫资源第四波
互联网机器学习数据库
基于开源协议,慧源平台“互联网机器学习数据库”集中揭示了26个来自Kaggle的开源数据集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/),你一定不陌生吧!它是由联合创始人、首席执行官Anthony Goldbloom于2010年在墨尔本正式创立,主要为公司和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的一个平台。目前平台已经吸引了80万名数据科学家。在慧源平台,你既能看到这26个数据集的中文元数据信息,同时还可以很方便地查找并下载你所需的数据集。
本期将重点介绍其中9个数据集,快来看看有没有你需要的那个ta吧!
数据集介绍(中)
1️⃣1908年以来空难数据
数据集来自:Socrata,收集了从1908年至今全世界空难的完整历史数据,包含空难发生的时间、地点、机型、机上载员和遇难人数等数据。
2️⃣2016年美国总统选举辩论数据
数据集来自:the University of California,收集了2016年第一季举行的每次民主党和共和党以及共和党Undercard辩论的数据,包含了辩论者、辩论记录、时间、地点、党派等字段。
3️⃣美国假新闻数据
数据集来自:Megan Risdal,收集了由丹尼尔·西拉德斯基(Daniel Sieradski)的BS Detector Chrome扩展程序标记为“ bullshit”的244个网站所抓取的假新闻的文本和元数据。
4️⃣斯坦福问答数据
数据集来自:Stanford University,Stanford Question answer Dataset(SQuAD) 是一个全新的阅读理解数据集,由众包工作者根据维基百科文章提出的问题组成,其中每个问题的答案都对应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万个以上的问答对。
5️⃣某人基因序列数据
数据集来自:Zeeshan-ul-hassan Usmani,为他的DNA遗传基因序列原始数据,以23andMe作为DNA表型SNP。
6️⃣历史棒球数据
数据集来自:Lahman’s Baseball Database,其中包含美国职业棒球大联盟(Major League Baseball)从1871年到2015年的完整击球和投球统计数据,以及守备数据、排名、球队、球场、球员、奖励、季后赛数据等。
7️⃣2015年航班延误和取消数据
数据集来自:U.S. Department of Transportation's (DOT) Bureau,包含2015年延误和取消的航班和机场数据。字段包括航班代码、名称、时间、机场代码、名称、航班延误或取消的原因等。
8️⃣美国H1-B签证申请数据(2011-2016)
数据集来自:Office of Foreign Labor Certification (OFLC) ,包含2011-2016年的H-1B申请数据,总共约有300万条记录,H-1B是美国为外国人提供的非移民工作签证。字段包括申请签证状态、雇主名称、工作地点坐标、职务、工资、职业代码和申请年份。
9️⃣2013年美国社区统计数据
数据集来自:US Census Bureau,由美国人口普查局每年进行的美国社区普查数据,每年调查350万社区居民,问题包括居民的居住和生活情况,主体包括:籍贯、教育、工作、交通、互联网使用等诸多方面,从不同角度反映了美国居民的生活状况。
使用方法
1️⃣分类浏览——互联网机器学习数据库。
2️⃣点击“查看全文”字段。
3️⃣即可查阅相关信息或进行下载。
如果您无法使用该资源,或在使用平台时遇到问题,请随时联系我们:
以上是关于疫期研学丨资源推介之互联网机器学习数据库(中)的主要内容,如果未能解决你的问题,请参考以下文章
谷歌开源的 Kubernetes 机器学习工具集 | 软件推介