推荐系统领域常见公共数据集整理分享

Posted 深度学习与NLP

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐系统领域常见公共数据集整理分享相关的知识,希望对你有一定的参考价值。




    本资源整理了推荐系统(RS)相关的高质量的公共数据集。它们是从Stack Overflow,学术论文,推荐站点和学术实验中收集和整理的。这里介绍的大多数数据集都是免费的,开放式的。

     


    数据集下载链接及数据集描述。

    Book

    · Book Crossing(http://www2.informatik.uni-freiburg.de/~cziegler/BX/):: BookCrossing(BX)数据集是Cai-Nicolas在花费了4周时间,(2004年8月/ 2004年9月)中从Book-Crossing社区收集的。


    Dating

    · Dating Agency(http://www.occamslab.com/petricek/data/)::该数据集包含2006年4月4日导出的135,359位LibimSeTi用户对168,791个配置文件的17,359,346个匿名评分。

推荐系统领域常见公共数据集整理分享 交易担保 深度学习与NLP的书店 深度书店

    电子商务

    · Amazon(http://jmcauley.ucsd.edu/data/amazon/) ::该数据集包含来自亚马逊的产品评论和元数据,其中包括1996年5月至2014年7月的1.428亿条评论


    · Retailrocket推荐系统数据集(https://www.kaggle.com/retailrocket/ecommerce-dataset) ::该数据集由三个文件组成:一个具有行为数据的文件(events.csv),一个具有项目属性的文件(item_properties.сsv)和一个描述类别树的文件(category_tree.сsv)。数据是从真实世界的电子商务网站收集的。


    音乐

    · 亚马逊音乐数据集(http://jmcauley.ucsd.edu/data/amazon/) ::此数字音乐数据集包含来自亚马逊的评论和元数据


    · Yahoo Music(https://webscope.sandbox.yahoo.com/catalog.php?datatype=r)::此数据集是Yahoo!音乐的快照。音乐社区对各种音乐艺术家的偏爱。


    · LastFM(Implicit)(https://grouplens.org/datasets/hetrec-2011/) ::此数据集包含来自Last.fm在线音乐系统的2K用户集的社交网络,标签和音乐艺术家收听信息。


    · Million Song数据集(https://labrosa.ee.columbia.edu/millionsong/):: The Million Song数据集是免费提供的音频功能和元数据的集合,用于一百万条当代流行音乐曲目。


    电影

    · MovieLens (https://grouplens.org/datasets/movielens/):: GroupLens Research从其电影网站收集并提供了评级数据集


    · Yahoo电影(https://webscope.sandbox.yahoo.com/catalog.php?datatype=r)::该数据集包含从两个不同来源收集的歌曲的评级。第一个来源包括用户在与Yahoo音乐服务正常互动期间提供的评分。


    · CiaoDVD(https://drive.google.com/file/d/1w1FuVSQC9nqxcK5xj0Aw5Oxc1qV7d09A/view?usp=sharing):: CiaoDVD是2013年12月从dvd.ciao.co.uk网站上的整个DVD类别中抓取的数据集。


    · FilmTrust(https://drive.google.com/file/d/1ohQ9oo8aaR7aWlpe56hXx66x-bwXxB56/view?usp=sharing):: FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小数据集


    · Netflix(http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a)::这是Netflix竞赛中使用的官方数据集。


    游戏类

    · Steam Video Games(http://www.ieor.berkeley.edu/~goldberg/jester-data/):: 该数据集是用户行为的列表,其中包括:用户ID,游戏标题,行为名称,值。包括的行为是“购买”和“玩耍”。该值表示行为的执行程度-在“购买”的情况下,该值始终为1;在“玩游戏”的情况下,该值表示用户玩游戏的小时数。


    Jokes

    · Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)::这个笑话数据集包含来自73,496位用户的100个笑话的410万个连续评分(-10.00至+10.00)


    餐饮

    · Chicago Entree (http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data)::该数据集包含用户与Entree Chicago餐厅推荐系统互动的记录。


    日本动漫

    · 动漫推荐数据库(https://www.kaggle.com/CooperUnion/anime-recommendations-database) ::该数据集包含有关来自12,294动漫的73,516用户的用户偏好数据的信息。每个用户都可以将动漫添加到他们的完整列表中并给它一个评分,并且该数据集是这些评分的汇总。


    还有一些其他优质数据集:

    这里有更多相关数据集:

    · GroupLens Datasets:https://grouplens.org/datasets


    · LibRec Datasets:https://www.librec.net/datasets.html


    · Yahoo Research:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


    · Datasets for Machine Learning:https://gist.github.com/entaroadun/1653794


    · Stanford Large Network Dataset Collection:https://snap.stanford.edu/data/





往期精品内容推荐













推荐系统领域常见公共数据集整理分享
扫描下方二维码可以订阅哦!
推荐系统领域常见公共数据集整理分享
推荐系统领域常见公共数据集整理分享

DeepLearning_NLP

推荐系统领域常见公共数据集整理分享

深度学习与NLP

以上是关于推荐系统领域常见公共数据集整理分享的主要内容,如果未能解决你的问题,请参考以下文章

吐血整理 | 史上最全推荐系统资料合集

推荐系统原理工程大厂(YoutubeBATTMB)架构干活分享

Merlin:基于深度学习的推荐系统框架

深度学习推荐系统CTR预估工业界实战论文整理分享

推荐领域数据集

吐血整理!内部包含大数据机器学习推荐系统实战资料,仅分享一次!