推荐系统领域常见公共数据集整理分享
Posted 深度学习与NLP
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐系统领域常见公共数据集整理分享相关的知识,希望对你有一定的参考价值。
本资源整理了推荐系统(RS)相关的高质量的公共数据集。它们是从Stack Overflow,学术论文,推荐站点和学术实验中收集和整理的。这里介绍的大多数数据集都是免费的,开放式的。
数据集下载链接及数据集描述。
Book
· Book Crossing(http://www2.informatik.uni-freiburg.de/~cziegler/BX/):: BookCrossing(BX)数据集是Cai-Nicolas在花费了4周时间,(2004年8月/ 2004年9月)中从Book-Crossing社区收集的。
Dating
· Dating Agency(http://www.occamslab.com/petricek/data/)::该数据集包含2006年4月4日导出的135,359位LibimSeTi用户对168,791个配置文件的17,359,346个匿名评分。
电子商务
· Amazon(http://jmcauley.ucsd.edu/data/amazon/) ::该数据集包含来自亚马逊的产品评论和元数据,其中包括1996年5月至2014年7月的1.428亿条评论
· Retailrocket推荐系统数据集(https://www.kaggle.com/retailrocket/ecommerce-dataset) ::该数据集由三个文件组成:一个具有行为数据的文件(events.csv),一个具有项目属性的文件(item_properties.сsv)和一个描述类别树的文件(category_tree.сsv)。数据是从真实世界的电子商务网站收集的。
音乐
· 亚马逊音乐数据集(http://jmcauley.ucsd.edu/data/amazon/) ::此数字音乐数据集包含来自亚马逊的评论和元数据
· Yahoo Music(https://webscope.sandbox.yahoo.com/catalog.php?datatype=r)::此数据集是Yahoo!音乐的快照。音乐社区对各种音乐艺术家的偏爱。
· LastFM(Implicit)(https://grouplens.org/datasets/hetrec-2011/) ::此数据集包含来自Last.fm在线音乐系统的2K用户集的社交网络,标签和音乐艺术家收听信息。
· Million Song数据集(https://labrosa.ee.columbia.edu/millionsong/):: The Million Song数据集是免费提供的音频功能和元数据的集合,用于一百万条当代流行音乐曲目。
电影
· MovieLens (https://grouplens.org/datasets/movielens/):: GroupLens Research从其电影网站收集并提供了评级数据集
· Yahoo电影(https://webscope.sandbox.yahoo.com/catalog.php?datatype=r)::该数据集包含从两个不同来源收集的歌曲的评级。第一个来源包括用户在与Yahoo音乐服务正常互动期间提供的评分。
· CiaoDVD(https://drive.google.com/file/d/1w1FuVSQC9nqxcK5xj0Aw5Oxc1qV7d09A/view?usp=sharing):: CiaoDVD是2013年12月从dvd.ciao.co.uk网站上的整个DVD类别中抓取的数据集。
· FilmTrust(https://drive.google.com/file/d/1ohQ9oo8aaR7aWlpe56hXx66x-bwXxB56/view?usp=sharing):: FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小数据集
· Netflix(http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a)::这是Netflix竞赛中使用的官方数据集。
游戏类
· Steam Video Games(http://www.ieor.berkeley.edu/~goldberg/jester-data/):: 该数据集是用户行为的列表,其中包括:用户ID,游戏标题,行为名称,值。包括的行为是“购买”和“玩耍”。该值表示行为的执行程度-在“购买”的情况下,该值始终为1;在“玩游戏”的情况下,该值表示用户玩游戏的小时数。
Jokes
· Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)::这个笑话数据集包含来自73,496位用户的100个笑话的410万个连续评分(-10.00至+10.00)
餐饮
· Chicago Entree (http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data)::该数据集包含用户与Entree Chicago餐厅推荐系统互动的记录。
日本动漫
· 动漫推荐数据库(https://www.kaggle.com/CooperUnion/anime-recommendations-database) ::该数据集包含有关来自12,294动漫的73,516用户的用户偏好数据的信息。每个用户都可以将动漫添加到他们的完整列表中并给它一个评分,并且该数据集是这些评分的汇总。
还有一些其他优质数据集:
这里有更多相关数据集:
· GroupLens Datasets:https://grouplens.org/datasets
· LibRec Datasets:https://www.librec.net/datasets.html
· Yahoo Research:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r
· Datasets for Machine Learning:https://gist.github.com/entaroadun/1653794
· Stanford Large Network Dataset Collection:https://snap.stanford.edu/data/
往期精品内容推荐
DeepLearning_NLP
深度学习与NLP
以上是关于推荐系统领域常见公共数据集整理分享的主要内容,如果未能解决你的问题,请参考以下文章