语言模子做先验，不同强化学习智能体，DeepMind抉择走这条通用AI之路-永昌mm丶网

语言模子做先验，不同强化学习智能体，DeepMind抉择走这条通用AI之路

2025-02-26 03:43:19 来源：

在智能体的语言用开拓中，强化学习与狂语言模子、先验学习视觉语言模子等根基模子的不同进一步融会事实能擦出奈何样的火花？google DeepMind 给了咱们新的谜底。

不断以来，强化DeepMind 引领了强化学习（RL）智能体的智能择走睁开，从最先的体D条通 AlphaGo、AlphaZero 到其后的语言用多模态、多使命、先验学习多具身 AI 智能体 Gato ，不同智能体的强化磨炼措施以及能耐都在不断演进。

从中不难发现，智能择走随着大模子越来越成为家养智能睁开的体D条通主流趋向，DeepMind 在智能体的语言用开拓中不断试验将强化学习与做作语言处置、合计机视觉规模融会，先验学习自动实现差距模态使命的不同不同。Gato 很好地剖析了这一点。

克日，google DeepMind 在一篇新论文《Towards A Unified Agent with Foundation Models》中，品评辩说了运用根基模子打造不同的智能体。

一作 Norman Di Palo 为帝国理工学院机械学习博士生，在google DeepMind 实习时期（任职钻研迷信家）退出完老本论文。

论文地址：https://arxiv.org/pdf/2307.09668.pdf

何谓根基模子（Foundation Models）呢？咱们知道，近些年来，深度学习取患了一系列使人瞩目的下场，特意在 NLP 以及 CV 规模实现突破。尽管模态差距，但具备配合的妄想，即大型神经收集，艰深为 transformer，运用自把守学习措施在大规模收集数据集上妨碍磨炼。

尽管妄想重大，但基于它们开拓出了极其实用的狂语言模子（LLM），可能处置以及天生具备卓越类强人干的文本。同时，ViT 可能在无把守的情景下从图像以及视频中提取分心义的展现，视觉语言模子（VLM）可能衔接形貌语言中视觉输入或者将语言形貌转换为视觉输入的数据模态。

这些模子的规模以及能耐使社区缔造出了「根基模子」一词，这些模子可能用作涵盖种种输入模态的卑劣使命的支柱。

下场来了：咱们是否运用（视觉）语言模子的功能以及能耐来妄想更高效以及通用的强化学习智能体呢？

在接受收集规模的文本以及视觉数据磨炼后，这些模子的知识推理、提出以及排序子目的、视觉清晰以及其余属性也泛起了。这些都是需要与情景交互并从情景中学习的智能体的根基特色，但可能需要破费大批的光阴能耐从一再试错中展现进去。而运用存储在根基模子中的知识，咱们可能极大地向导这一历程。

受到这一思绪的开辟，google DeepMind 的钻研者妄想了一个全新的框架，该框架将语言置于强化学习机械人智能体的中间，特意是在重新开始学习的情景中。

他们展现，这个运用了 LLM 以及 VLM 的框架可能处置强化学习配置中的一系列根基下场，详细如下：

1）高效探究浓密处分情景

2）重新运用群集的数据来有序向导新使命的学习

3）调解学患上的能耐来处置新使命

4）从专家智能体的审核中学习

在最近的使掷中，这些使命需要差距的、特意妄想的算法来径自处置，而本文证明了运用根基模子开拓更不同措施的可能性。

此外，google DeepMind 将在 ICLR 2023 的 Reincarnating Reinforcement Learning Workshop 中揭示该钻研。

以语言为中间的智能体框架

该钻研旨在经由火析根基模子的运用，妄想出更通用的 RL 机械人智能体，其中根基模子在大批图像以及文本数据集上妨碍预磨炼。该钻研为 RL 智能体提出了一个新框架，运用 LLM 以及 VLM 的卓越能耐使智能体可能推理情景、使命，并残缺凭证语言接管行动。

为此，智能体首先需要将视觉输入映射到文本形貌；而后该钻研要用文本形貌以及使命形貌 prompt LLM ，以向智能体提供语言指令。最后，智能体需要将 LLM 的输入转化为行动。

运用 VLM 衔接视觉以及语言

为了以语言方式形貌从 RGB 相机取患上的视觉输入，该钻研运用了大型比力视觉语言模子 CLIP 。

CLIP 由图像编码器以及文本编码器组成，在含有噪声的大型图像 - 文本形貌对于数据集上妨碍磨炼。每一个编码器输入一个 128 维的嵌入向量：图像嵌入以及立室的文本形貌会经由优化以具备较大的余弦相似度。为了从情景中天生图像的语言形貌，智能体味将审核 Ot提供给 �，如下图 2 所示：

，并将可能的文本形貌 ln提供给

用 LLM 妨碍推理

语言模子将语言方式的 prompt 作为输入，并经由自回归合计下一个 token 的多少率扩散并日后扩散中采样来天生语言方式的输入。该钻研旨在让 LLM 取患上表征使命的文本指令，并天生一组供机械人处置的子目的。在模子方面，该钻研运用 FLAN-T5，定性合成表明，FLAN-T5 的展现略好于未凭证指令妨碍微调的 LLM。

LLM 的 in-context 学习能耐使该钻研可能直接运用它们，无需妨碍域内微调，并仅需要提供两个使命指令以及所需的语言输入样原本教育 LLM 的行动。

将指令转化为行动

而后，运用语言条件策略收集将 LLM 提供的语言目的转化为行动。该参数化为 Transformer 的收集将语言子目的的嵌入以及光阴步 t 时的 MDP 形态（搜罗物体以及机械人终端实施器的位置）作为输入，每一个输入都用差距的向量表征，而后输入机械人在光阴步 t + 1 时要实施的措施。如下所述，该收集是在 RL 循环中重新开始磨炼的。

群集与判断的学习范式

智能体从与情景的交互中学习，其措施受到群集与推理范式的开辟。

在「群集」阶段，智能体与情景互动，以形态、察看成果、行动以及之后目的（s_t, o_t, a_t, g_i）的方式群集数据，并经由其策略收集 f_θ(s_t, g_i) → a_t 预料行动。每一集停止后，智能体都市运用 VLM 来判断群集到的数据中是否泛起了任何子目的，从而取患上格外处分，将在前面详细剖析。

在「判断」阶段，钻研者会在每一个智能体实现一集后，即每一实现 N 集后，经由行动克隆对于履历缓冲区中的策略妨碍磨炼，从而在乐成的情节上实现一种自我模拟。而后，更新后的策略权重将与所有扩散式智能体同享，全部历程一再妨碍。

运用与下场

将语言作为智能体的中间，这为处置 RL 中的一系列根基挑战提供了一个不同的框架。在这部份外容中，钻研者品评辩说了这些贡献：探究、重用以前的履历数据、调解以及重用本领以及从审核中学习。算法 1 形貌了部份框架：

探究：经由语言天生课程

Stack X on Y 以及 Triple Stack 的服从。不才图 4 中，钻研者所提出框架与仅经由情景处分妨碍学习的基线智能体妨碍了比力。从学习曲线可能清晰地看到，在所有使掷中，本文的措施都比基线措施高效良多。

值患上留意的是，在 Triple Stack 使掷中，本文智能体的学习曲线快捷削减，而基线智能体依然只能取患上一个处分，这是由于使命的浓密度为 10^6 。

这些服从剖析了一些值患上留意的下场：可能将使命的浓密水平与抵达确定乐成率所需的步骤数妨碍比力，如下图 5 所示。钻研者还在「抓取红色物体」使命上磨炼了该措施，这是三个使掷中最重大的一个，其浓密水平约为 10^1 。可能看到，在本文的框架下，所需步骤数的削减速率比使命的浓密水平更慢。这是一个特意紧张的服从，由于个别在强化学习中，情景是偏偏相同的。

提取以及转移：经由重用离线数据妨碍高效的不断使命学习

钻研者运用基于语言的框架来揭示基于智能体以前履历的向导。他们挨次磨炼了三个使命：将红色物体重叠在蓝色物体上、将蓝色物体重叠在绿色物体上、将绿色物体重叠在红色物体上，将其称之为 [T_R,B、T_B,G 、T_G,R]。

挨次使命学习的履历重勤勉效。智能体运用这种措施不断学习了 [T_R,B、T_B,G、T_G,R] 。在每一个新使命开始时，钻研者都市重新初始化策略权重，目的是探究本文框架提取以及重用数据的能耐，因此要阻止并消除了可能由收集泛化组成的影响。

下图 7 中绘制了智能体需要在情景中接管多少多交互步骤能耐在每一个新使掷中抵达 50% 的乐成率。试验清晰地剖析了本文运用技术在一再运用从前使命群集的数据方面的实用性，从而后退了新使命的学习功能。

这些服从表明，本文提出的框架可用于释放机械人智能体的一生学习能耐：不断学习的使命越多，学习下一个使命的速率就越快。

调解以及一再运用所学本领

至此，咱们已经懂取患上框架若何使智能体可能高效地探究以及学习，以处置酬谢浓密的使命，并为一生学习一再运用以及传输数据。此外，框架还能让智能体调解以及一再运用所学到的 M 本领来处置新使命，而不规模于智能体在磨炼历程中碰着的使命。

这种方式与前多少节中碰着的步骤相同：一条指令会被输入到 LLM，如将绿色物体叠放在红色物体上，或者将红色叠放在蓝色物体上，再将绿色叠放在红色物体上，而后 LLM 会将其分解为一系列更短视距的目的，即 g_0:N。而后，智能体可能运用策略收集将这些目的转化为行动，即 f_θ(s_t, g_n) → a_t。

从审核中学习：将视频映射到本领

经由审核外部智能体学习是艰深智能体的事实能耐，但这每一每一需要特意妄想的算法以及模子。而本文智能体可能以专家实施使命的视频为条件，实现 one-shot 审核学习。

在测试中，智能体拍摄了一段人类用手重叠物体的视频。视频被分为 F 个帧，即 v_0:F。而后，智能体运用 VLM ，再配上以子目的 g_0:M 展现的对于所学本领的 M 文本形貌来检测专家轨迹碰着了哪些子目的，详细如下图 8 ：