AI 相关术语了解记录
Posted Cong0ks
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AI 相关术语了解记录相关的知识,希望对你有一定的参考价值。
RLFH (Reinforcement Learning from Human Feedback) 从人类反馈中学习的强化学习
# 训练过程
Collect human feedback 收集人类反馈
Train reward model 训练奖励模型
RM Reward Model 奖励模型
Train policy with PPO 训练策略模型
Policy Gradient RL ,策略梯度强化学习
PPO Proximal Policy Optimization,近端策略优化
LLM (Large language model) 大型语言模型
RL Reinforcement Learning 强化学习
强化学习是一种机器学习类型,它通过最大化奖励来训练代理在环境中做出决策
术语记录机器学习
Evernote Export
- 实例:要对其进行预测的事物。例如,实例可以是一个网页,您希望将其分类为“与猫相关”或“与猫无关”。
- 标签:预测任务的答案,它可以是由机器学习系统生成的答案,也可以是训练数据中提供的正确答案。例如,某个网页的标签可能是“与猫相关”。
- 特征:预测任务中使用的实例的属性。例如,某个网页可能具有“包含字词‘猫’”这一特征。特征列:一组相关特征,例如用户可能居住的所有国家/地区的集合。样本的特征列中可能包含一个或多个特征。
- 特征列是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 VM 系统中被称为“命名空间”或场。
- 样本:一个实例(及其特征)和一个标签。模型:预测任务的统计表示法。您使用样本训练一个模型,然后使用该模型进行预测。
- 指标:您关心的一个数值。也许(但不一定)可以直接得到优化。
- 目标:算法尝试优化的一种指标。
- 管道:机器学习算法的基础架构。管道包括从前端收集数据、将数据放入训练数据文件、训练一个或多个模型以及将模型运用到生产环境。
- 点击率:点击广告中的链接的网页访问者所占的百分比。
更多细节关于机器学习术语
以上是关于AI 相关术语了解记录的主要内容,如果未能解决你的问题,请参考以下文章