游客发表
狂语言模子因其强盛而通用的模自磨炼语言天生 、清晰能耐,主探智源揭示出了成为通用智能体的究凋后劲。与此同时 ,谢天下北在凋谢式的提出情景中探究 、学习则是框架通用智能体的紧张能耐之一 。因此,模自磨炼狂语言模子若何适配凋谢天下是主探智源一个紧张的钻研下场。
北京大学以及北京智源家养智能钻研院的究凋团队针对于这个下场提出了 LLaMA-Rider ,该措施给予了大模子在凋谢天下中探究使命 、谢天下北群集数据、提出学习策略的框架能耐,助力智能体在《我的模自磨炼天下》(Minecraft)中自主探究取患上悉识并学习处置种种使命,提升智能体自主能耐以及通用性 。主探智源
论文链接 :https://arxiv.org/abs/2310.08922
代码链接:https://github.com/PKU-RL/LLaMA-Rider
一、究凋情景反映驱动的探究与学习
LLaMA-Rider 着眼于让狂语言模子 (LLM) 顺应情景从而后退在情景中处置多使命的能耐。LLM 在预磨炼阶段取患上的知识与实际情景很可能存在不不同 ,这每一每一导致抉择规画过错 。为了处置这个下场,现有的措施有些运用揭示工程 ,经由以及 LLM 频仍交互让其取患上情景信息 ,不外并不更新 LLM;有些运用强化学习在线微调 LLM,不外其合计价钱高且难以扩展到多使命以及重大使命。
LLaMA-Rider 对于此提出了新的思绪。它首先运用情景的反映信息 ,靠 LLM 自己的能耐在情景中探究,群集乐成履历。之后,LLaMA-Rider 将履历整分解把守数据集妨碍学习,更新自己的知识。这样一个两阶段的磨炼框架让 LLaMA-Rider 可能在 Minecraft 情景中的 30 个使命上取患上逾越 ChatGPT 使命妄想器的平均展现,并揭示出对于新使命的泛化能耐 。
在探究阶段,LLaMA-Rider 运用反映 - 更正机制来妨碍自动探究 。在每一个光阴步上,LLaMA-Rider 接管文本化的情景信息以及使命信息,并给出下一步的抉择规画