谷歌提出推荐系统模拟平台RecSim,让算法与模型开发走上便利的快车道
Posted 将门创投
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌提出推荐系统模拟平台RecSim,让算法与模型开发走上便利的快车道相关的知识,希望对你有一定的参考价值。
From:Google 编译:T.R
机器学习、语音识别与自然语言处理的飞速发展极大地改变了推荐系统与用户的交互方式。推荐系统通过与用户的交互来更好地满足用户的需求,这种被称为协同交互推荐(collaborative interactive recommenders, CIRs)的方式逐渐成为在线推荐服务的新目标。
尽管如此,对于CIRs的应用和部署还受限于模型和算法。如何开发出能够真正反映用户点击序列定量化特点的算法和模型还面临着很大的挑战。而强化学习则为这种序列决策问题提供了有力的支持,可以为推荐系统中建模和优化序列交互提供有效的方法。然而对于CIRs来说,无论是在工业界还是学术界,强化学习都还没有得到充分的研究和利用。其中最主要的障碍来自于目前缺乏对于序列推荐设置的通用仿真平台,而仿真环境下的强化学习却已经在机器人等领域结出了大量硕果。
为了解决推荐系统与强化学习结合的挑战,来自谷歌的研究人员开发出了一套可以配置和自定义的仿真平台RecSim,用于为强化学习应用与推荐系统特别是CIRs提供便捷的研究条件。
RecSim可以为研究人员提供测试算法和模型极限的环境,它致力于通过真实推荐系统的用户数据来构建模拟可控的仿真环境,为推荐系统模型算法的开发、测评以及对比提供了便利的环境,同时对于序列用户系统交互研究提供了特别的强化学习系统设计。
RecSim作为开源系统为研究人员提供了强化学习与推荐系统交叉研究环境、并鼓励模型算法的重用与分享,为前沿研究人员提供了测试算法的有效环境,使他们在耗费巨大的真实实验前能够对算法的表现了然于胸。最后也为学术界和工业界提供了协作的平台,无需暴露用户数据和敏感的行业策略就能进行有效的研究。
强化学习与推荐系统
将强化学习应用推荐系统的一大挑战在于利用静态的数据无法反映真实情况下用于与系统间序列、重复的交互情况。即使在拥有时序信息的MovieLens 1M数据集上,也很难预测系统在新策略下的长期表现,这主要是由于收集到的用户行为数据无法覆盖千变万化的因素。这也使得即使对基本的强化学习算法进行测评也是十分困难的事情,特别是当新策略加入系统时更难以预测其长期效果。但现有的也研究也显示,推荐系统策略的改变会对用户行为产生长期的积累效应。
所以仿真环境对于用户行为的模拟能力成为了问题的关键。在有效的仿真环境中设计和测试新的推荐算法、包括使用强化学习方法来改进推荐系统,将极大地加速这类问题的研究和开发。
RecSim概览
Recsim模拟了推荐系统主体与环境的交互,环境中包含了用户模型、文件模型以及用户选择模型三个部分。主体通过向用户推荐一系列资料或列表来与环境发生交互,并通过模拟个体用户于文件的观测特征来进行推荐。用户模型从用户特征中进行采样来得到用户实例,这些用户特征包括像满意度和兴趣一类的隐含特征、用户地域一类的观测特征以及访问频率和流量时间一类的行为特征。
而文件模型则从文件的先验分布中进行采样,包括文件质量一类的隐含特征、文件长度和活跃度等可观测特征等。这些先验信息和其他RecSim中的所有部件都可以被开发者定义,并针对应用场景的数据来进行处理。
此外文件和用户特征的可观测层级可以进行定制化开发。当主体向用户推荐文档时,用户的响应由用户选择模型通过可观测的用户特征与文件特征来决定。其它诸如浏览时间这样的用户响应可以基于潜在文件特征得到,包括文档主题和文件质量等等。当文档被用户接受,那么用户的状态就可以通过自定义的状态转移模型进行转换,同时用来为用户满意度和兴趣进行描述。
值得一提的是,RecSim还提供了一项特殊的功能。研究人员可以使用它选取用户行为的特定方面进行研究。这一关键的能使得研究人员可以集中于对于特定的新现象进行算法和模型的设计,这种抽象对于科学模型的建立至关重要。RecSim的目标不仅仅是创造一个高度逼真的用户行为模型,同时也将作为支撑从模拟到实际进行算法转换和部署的有效平台。
应 用
研究人员也展示了RecSim在很多关键领域的应用。例如将强化学习与候选推荐结合,利用RecSim开发了新颖的解构策略,对于用户选择行为构建广泛适用的假设,从而计算整个推荐候选的Q值。还将RecSim用于测试一系列实验性的假设,包括在不同用户假设下算法的表现和鲁棒性等等。
展 望
RecSim除了为学术界和工业界提供了良好的模拟环境,同时在继续研究和探索如何将程式化的用户模型用于真实情况的方法论;基于Tensorflow概率编程接口开发了一系列用于模型定义和学习,包括规模化的训练与推理,充分利用并行加速与分布式计算能力;还包括对于全因素、混合模式的交互行为模型拓展,用于对CIRs系统的特征建模。
研究人员期待在未来RecSim将为推荐系统和强化学习间搭建起沟通的桥梁,并继续增加对于工业界和学术界合作的支持,通过共享用户行为模型、提升对于真实情况的相似程度来促进优秀模型及算法的研发。
如果想要了解更多的详细内容,包括模拟环境的实现细节以及强化学习、推荐系统的最新发展,请参看论文和代码:
paper: https://arxiv.org/pdf/1909.04847.pdf
code: https://github.com/google-research/recsim
http://www.sohu.com/a/224469699_499730
http://www.sohu.com/a/323932768_99979179
tensorflow probability: https://www.tensorflow.org/probability
https://pypi.org/project/recsim/
dataset: https://grouplens.org/datasets/movielens/1m/
来扫我呀
-The End-
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
将门创投
让创新获得认可!
微信:thejiangmen
bp@thejiangmen.com
点击“❀在看”,让更多朋友们看到吧~
以上是关于谷歌提出推荐系统模拟平台RecSim,让算法与模型开发走上便利的快车道的主要内容,如果未能解决你的问题,请参考以下文章