机器学习(ML)(二十七) — AGI探析
机器学习(ML)(二十六) — 强化学习探析
论文解读
这篇文章SFT记忆,RL泛化:基础模型后训练的比较研究,从标题中也可以看出比较的的对象主要是监督微调(SFT
)和强化学习(RL
),主要探讨了监督微调(SFT
)和强化学习(RL
)在基础模型后训练(post training
)中的不同作用。特别是在模型的泛化能力和记忆力方面的比较。
机器学习(ML)(二十五) — 强化学习探析
机器学习(ML)(二十四) — 强化学习探析
机器学习(ML)(二十三) — 强化学习探析
递归内省
递归内省(Recursive Introspection
)是一种新方法,旨在教授语言模型智能体(如大语言模型,LLMs
)如何自我改进。该方法的核心在于使模型能够对自身行为进行内省、推理并纠正错误。其主要特点:自我改进能力,递归内省的目标是使语言模型能够在多轮交互中逐步改善其响应。这种方法强调通过反复的反馈和调整,模型能够识别并纠正先前的错误;RISE
方法,该方法被称为RISE
(Recursive IntroSpEction
),是一种微调技术,允许模型在面对复杂问题时,通过观察之前的失败尝试和额外的环境反馈来调整其策略;多轮数据收集与训练,RISE
借鉴了在线模仿学习和强化学习的原则,提出了多轮数据收集和训练策略,以增强LLM
在后续迭代中递归检测和纠正错误的能力。