admin管理员组

文章数量:1633030

创新点

利用LLM 以及文本知识和记忆来创建我的世界中的通用智能体。

相比于强化学习方法,获取钻石任务成功率高 ,通用性可泛化性好,训练成本低。能处理长周期、复杂的任务并应对开放世界中的不确定性。

RL的缺点

  • 训练的步数太多
  • 面对新任务时,泛化性太差。
  • 将要获取的目标硬编码进模型的weights中,对于训练好的RL模型改变目标时较为困难

由于上述两点,RL面对获取所有物品的任务时,所需要的训练步骤非常多。

RL agent 需要考虑如何将长周期的复杂任务映射为键鼠操作,难度大。

LLM-based agent 考虑分层处理的方式,将目标分解为多个子目标,然后转化为结构化动作,最终转化为键鼠操作。

这种处理的方式和人类思考的过程很像,通过文本知识和记忆,可以获得发更好的泛化性和训练性能。

架构

LLM Decomposer

将goal 分解为 sub-goal

  • 将goal输入LLM Decomposer,会将goal递归分解,构成一个sub-goal tree
  • 给予额外的文本知识来辅助目标分解过程。

LLM Planner

  • 当给予一个目标,生成一系列结构动作
  • 接收反馈,并修改计划。有了反馈机制,使得训练过程成了闭环。
  • Instruction制定了LLM在指定计划时必须要遵守的规则。
  • 一旦goal达成,整个执行的action list 将会被储存在记忆中。
  • LLM可能在达成同一个目标时,使用不同的action list。多个plan会被总结成一个通用的plan。这个总结的过程也由LLM来完成。

LLM Interface

作用:

  • 通过键鼠操作实现 结构动作,将观察到的环境转换为反馈信息
  • 结构化的动作可以通过 人工脚本或者RL学习实现
  • 反馈信息包含,是否结构化的动作执行成功,当前智能体的库存和环境状态。

本文标签: CapableAgentsgenerallyghostMinecraft