知乎联合清华:开放国内最大个性化推荐实际交互数据集

Posted AI科技大本营

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知乎联合清华:开放国内最大个性化推荐实际交互数据集相关的知识,希望对你有一定的参考价值。

5月21日,知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集“ZhihuRec”。该数据集包含了知乎上的1亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。

作为一个大型数据集,ZhihuRec具有社交化问答场景中的详细信息,覆盖了知乎10天内、79.8万用户、16.5万个问题、55.4万个回答、24万个作者、7万话题以及50.1万用户搜索行为日志,保留了完整的用户交互(例如点击、跳过、搜索等)、时机和内容信息,且所有数据均经过脱敏处理。

该数据集可用于评估常规top-N推荐、顺序推荐和上下文感知推荐中的算法应用,还可用于集成搜索和推荐以及带有负反馈的推荐。 此外,该数据集不仅可以用于推荐研究,还可以应用于用户建模(例如,性别预测,用户兴趣预测),搜索和推荐系统的组合以及其他有趣的主题。

个性化推荐技术已经广泛应用于购物、视频、阅读、社交等互联网场景。但开放式大规模真实场景数据集十分罕有。ZhihuRec数据集的开放,不仅丰富了开放式大规模真实场景数据集的研究样本,更填补了推荐系统中用户交互日志的空白。

知乎成立十年来,聚集了超过3 .53亿条内容,每天会新增超过2000万条创作和互动。2018年,知乎曾联合中国信息检索学术会议(CCIR)、清华大学计算机系信息检索课题组(THUIR)共同举办了“移动环境下知识分享平台上的内容推荐”大赛,首次在比赛中开放ZhihuRec数据集,吸引了众多高校和企业技术团队参赛和关注。此次知乎联合清华大学将该数据集进一步丰富并全面开放,旨在通过更大范围的数据开源,为行业算法技术突破与演进提供更多数据和场景支持。

以上是关于知乎联合清华:开放国内最大个性化推荐实际交互数据集的主要内容,如果未能解决你的问题,请参考以下文章

直聘智能一点诚聘:NLP&推荐算法-北京

清华博士教你如何用推荐算法技术「找到女朋友」

清华博士教你如何用 Python 推荐算法「找到女朋友」

国内知名的自然语言处理(NLP)团队

转行AI?清华博士为你定制AI推荐算法学习路径

尚大视频开放周基于阿里云搭建数据仓库(离线)项目视频开放下载!