“RLHF”的版本历史

跳转至: 导航搜索

差异选择:选中要对比的版本的单选按钮,按Enter键或下方的按钮。
说明:(当前)=与最后版本之间的差异,(之前)=与上一版本之间的差异,=小编辑。

  • (当前 | 之前) 2023年11月8日 (三) 01:38江南仁讨论 | 贡献. . (797字节) (+797). . (创建页面,内容为“{{4}} RLHF(Reinforcement Learning from Human Feedback):这是一种强化学习方法,主要关注如何通过人类反馈来优化智能系统的行为。...”)