# 2309.02427_❇️CoALA: Cognitive Architectures for Language Agents * 首页: * PDF: * 引用: 347(2025-08-10) * 组织: Princeton University * 引用链接 * memory 定义与运作机制: ## 总结 * 产生式系统(具体看第2章,重新整理了❇️) * 用于字符串操作 * 控制流(算法) * 认知架构(符号AI的巅峰) * LLM与智能体 ## From Deepseek ### 论文背景与目标 该论文探讨了如何将**认知架构**(Cognitive Architectures)与**语言智能体**(Language Agents)相结合,以构建更高效、灵活且具备人类-like推理能力的AI系统。传统语言模型(如LLMs)虽在文本生成上表现优异,但在复杂任务中常缺乏系统性、可解释性和长期推理能力。作者提出,通过借鉴认知科学中的架构设计(如SOAR、ACT-R),可以增强语言智能体的认知能力,使其更好地模拟人类思维过程。 * 定义:认知架构是对人类认知过程的计算建模框架,旨在模拟人类思维、学习、记忆、决策和问题解决等核心能力。它提供了一种结构化的方式,将感知、推理、记忆和行动等模块整合到一个统一的系统中,使AI或计算模型能够像人类一样处理复杂任务。 ### 核心内容 1. **认知架构的整合**: - 论文分析了经典认知架构(如基于规则的推理、记忆系统、注意力机制)如何为语言智能体提供结构化框架,弥补纯数据驱动方法的局限性。 - 提出将符号逻辑、子目标分解、工作记忆等模块与LLMs结合,实现更可控的推理流程。 2. **关键设计原则**: - **模块化**:分离记忆、推理、学习等组件,提升透明性和可扩展性。 - **迭代优化**:通过反馈循环(如自我监控或外部反馈)动态调整决策。 - **情境感知**:利用长期记忆和上下文管理增强智能体的环境适应性。 3. **应用场景**: - 复杂问题求解(如数学推理、规划任务) - 交互式环境(如虚拟助手、游戏NPC) - 持续学习场景(如动态知识更新) 4. **实验与验证**: - 通过对比实验,展示了融合认知架构的语言智能体在任务完成率、推理步骤可解释性等方面的优势。 ### 意义与贡献 - **理论层面**:为语言智能体的设计提供了认知科学视角的框架, bridging AI与认知心理学。 - **实践层面**:提出可实现的架构设计方案,推动语言智能体向更可靠、可解释的方向发展。 ## Abstract 本节主要介绍了研究的背景、动机和贡献。 **背景与动机**:近年来,研究人员通过引入外部资源(如互联网)或内部控制流程(如提示链)来增强大语言模型(LLMs),以处理需要事实依据或推理能力的任务,从而催生出一类新型系统——语言智能体(language agents)。这些智能体在实际应用中取得了显著成果,但目前缺乏一个系统性的框架来组织现有研究并指导未来的发展。 **贡献与核心思想**:针对这一问题,本文借鉴认知科学和符号主义人工智能的丰富历史,提出了 **CoALA(Cognitive Architectures for Language Agents)** 这一框架。CoALA 描述了一个语言智能体的结构,包括模块化的记忆组件、用于与内部记忆和外部环境交互的结构化动作空间,以及用于选择动作的通用决策过程。 **研究方法与目的**:作者利用 CoALA 对近期大量相关工作进行了**回顾性**的整理和分析,并通过这一框架**前瞻性**地识别出提升语言智能体能力的可行方向。 **结论与意义**:综合来看,CoALA 将当前的语言智能体放置在人工智能发展史的更广阔背景中,并为迈向基于语言的一般智能(general intelligence)指明了路径。 ## 1 Introduction ![](https://img.zhaoweiguo.com/uPic/2025/08/o2sXrI.png) Figure 1:Different uses of large language models (LLMs). * 图片说明 * A: In natural language processing (NLP), an LLM takes text as input and outputs text. * B: Language agents (Ahn et al., 2022; Huang et al., 2022c) place the LLM in a direct feedback loop with the external environment by transforming observations into text and using the LLM to choose actions. * C: Cognitive language agents (Yao et al., 2022b; Shinn et al., 2023; Wang et al., 2023a) additionally use the LLM to manage the agent’s internal state via processes such as learning and reasoning. In this work, we propose a blueprint to structure such agents. ### 语言代理概述(*Language agents*) 语言代理是一种新兴的人工智能(AI)系统,它们利用大语言模型(LLMs)与外界进行交互。这种系统结合了LLM的最新进展和传统智能体设计,具有双向促进效果:一方面,LLM本身知识和推理能力有限,而语言代理通过连接内部记忆和环境,解决了这一问题;另一方面,传统代理通常依赖人工规则或强化学习,难以适应新环境,而语言代理通过LLM中的常识先验知识来提高适应性。 ### 语言代理的发展 最初的语言代理直接利用LLM来选择或生成动作,但近年来,代理也开始利用LLM进行推理、规划和长期记忆管理,以提升决策能力。新一代“认知型”语言代理内部结构复杂,但当前研究中术语不统一,导致难以比较和演进。 ### 提出概念框架:CoALA 为了解决术语混乱的问题,作者借鉴了计算机科学和AI历史中的两个概念:**生产系统**(production systems)和**认知架构**(cognitive architectures)。这些系统通过规则迭代生成结果,能实现复杂行为。作者提出,LLM与生产系统有相似之处,都可以看作是对文本进行变换,因此可以借鉴认知架构中的控制机制来构建语言代理。 ### CoALA 框架简介 作者提出了 **CoALA(Cognitive Architectures for Language Agents)**,这是一个用于描述和设计通用语言代理的概念框架。该框架基于三个核心维度: - **信息存储**(Memory):包括工作记忆和长期记忆; - **动作空间**(Action):分为内部动作和外部动作; - **决策过程**(Decision-making):结构化为交互循环,包含规划与执行。 通过这三个维度,CoALA 能清晰地表达现有代理系统,并帮助识别未来发展方向。相比已有研究,本文不仅提出了理论框架,还将其应用于组织大量实证工作,既理论扎实,又具有指导意义。 ## 2 Background: From Strings to Symbolic AGI 本节首先介绍**产生式系统**和**认知架构**,并从逻辑与计算理论的历史视角出发,介绍认知科学与人工智能的发展历程,从早期的逻辑与计算理论(Post, [1943])一直延伸到构建符号通用人工智能(Newell et al., [1989])的努力。随后,简要介绍**语言模型**与**语言智能体**。第3节将连接这些概念,探讨产生式系统与语言模型之间的类比关系。 --- ### 2.1 用于字符串操作的产生式系统 在20世纪上半叶,数学与计算被形式化为符号操作的领域(Whitehead & Russell, [1997]; Church, [1932]; Turing et al., [1936])。 **产生式系统**是一种形式化方法,其核心思想是:由一组规则构成,每条规则由**前提条件**和**动作**组成。当前提条件满足时,执行相应动作。Post([1943])提出,任意逻辑系统可以形式化为字符串的生成规则,例如规则形式为: $$ XYZ \rightarrow XWZ $$ 这表明字符串 XYZ 可以被重写为 XWZ。这种字符串重写在形式语言理论中发挥重要作用,特别是**乔姆斯基短语结构语法**(Chomsky, [1956]),它进一步发展了语言结构的形式化描述。 **产生式系统(Production Systems)的定义** - **基本组成**:一组**规则(Rules)**,每条规则包含: - **前提(Precondition)**:当前状态或字符串的匹配条件。 - **动作(Action)**:若前提满足,则执行动作(通常是字符串的改写)。 - **直观理解**:类似于“如果……那么……”的规则,例如: - *如果* 字符串是 `XYZ`,*那么* 可将其改写为 `XWZ`。 --- ### 2.2 控制流:从字符串到算法 **核心概念解析** 1. **基本产生式系统的局限性** 单纯的产生式系统只能生成字符串(如通过重写规则从初始字符串派生新字符串),但无法体现**算法**的步骤性。例如,它无法决定“先应用哪条规则”或“何时停止”。 2. **引入控制流(Control Flow)** 通过为产生式规则添加**执行顺序**和**优先级**,可将字符串重写升级为完整的算法。 - **关键机制**: - **优先级排序**:规则按固定顺序尝试匹配(如从上到下)。 - **匹配方向**:通常从左到右扫描字符串,选择第一个匹配的子串。 - **终止条件**:某些规则触发后停止算法(如标记 `→∙`)。 **示例:马尔可夫算法(Markov Algorithm)** * 论文中的例子是一个**表示数字的除法的算法** - **输入**:`|||||||||||`(11条竖线,表示数字11)。 - **输出**:`||*|`(表示11 ÷ 5 = 2余1)。 * **规则解析** | 规则 | 作用 | 优先级 | 示例步骤 | |------|------|--------|----------| | `*\|\|\|\|\| → \|*` | 每匹配5条竖线,替换为1个`\|*`(即“商+1”) | 最高 | `*\|\|\|\|\|\|\|\|\|\|\| → \|*\|\|\|\|\|\|` | | `* →∙ *` | 若无法继续匹配5条竖线,剩余竖线为余数,终止计算 | 中 | `\|\|*\| →∙ \|\|*\|` | | ` → *` | 处理空输入(边界情况) | 最低 | 无 | **执行过程** 1. **初始字符串**:`*|||||||||||`(注:初始需补`*`以标记起始)。 2. **第一步**:应用最高优先级规则 `*||||| → |*`,匹配最左边的5条竖线: - 替换后:`|*||||||`(表示已减5,商+1)。 3. **第二步**:重复同一规则,再次匹配5条竖线: - 替换后:`||*|`(商变为2,剩余1条竖线)。 4. **第三步**:无法继续匹配 `*|||||`,触发终止规则 `→∙ *`,输出 `||*|`(即2余1)。 --- ### 2.3 认知架构:从算法到智能体 ![](https://img.zhaoweiguo.com/uPic/2025/08/iBsWXw.png) Figure 2:Cognitive architectures augment a production system with sensory groundings, long-term memory, and a decision procedure for selecting actions. A: The Soar architecture, reproduced with permission from Laird (2022). B: Soar’s decision procedure uses productions to select and implement actions. These actions may be internal (such as modifying the agent’s memory) or external (such as a motor command). **1. 产生式系统的进化:从字符串到逻辑规则** - **早期产生式系统**:仅支持字符串重写(如2.1节所述)。 - **Newell和Simon的贡献**: - 将产生式规则**泛化为逻辑操作**,规则形式变为: **`IF (前提条件) THEN (动作)`** - **示例(恒温器智能体)**: ``` IF (温度>70° ∧ 温度<72°) THEN 停止加热 IF (温度<32°) THEN 呼叫维修并开启电暖器 IF (温度<70° ∧ 炉子关闭) THEN 开启炉子 ``` - **意义**:规则不再局限于字符串,而是能直接操作**智能体的目标、环境状态和行动**。 **认知架构的诞生** * 产生式系统与感知、记忆、规划等模块结合,形成**认知架构**(Cognitive Architectures),目标是模拟人类认知的灵活性。 * **核心组件(以Soar为例)** 1. **记忆系统**(仿照心理学理论) - **工作记忆(Working Memory)**:存储当前感知、目标和中间推理结果(类似人类短期记忆)。 - **长时记忆(Long-Term Memory)**:分为三类: - **程序性记忆**:存储产生式规则(即“技能”)。 - **语义记忆**:存储世界知识(如“鸟会飞”)。 - **情景记忆**:存储过去行为序列(如“昨天我打开了炉子”)。 2. **决策循环** - **步骤**: 1. 匹配:检查工作记忆内容是否匹配某条产生式规则的前提。 2. 提议:生成候选动作(如“开启炉子”)。 3. 评估:选择最优动作(若冲突则触发**子目标分解**)。 4. 执行:修改记忆或触发外部动作(如发送指令给机器人)。 3. **学习能力** - **强化学习**:根据结果调整规则权重。 - **自动编写新规则**:动态更新程序性记忆(类似“自我编程”)。 **认知架构的局限性** 1. **依赖逻辑谓词**:仅适用于可符号化的领域(难以处理模糊信息)。 2. **规则需人工设计**:大规模系统需大量专家知识(难以扩展)。 **总结** - **认知架构**是符号AI的巅峰,通过模块化设计实现类人推理,但受限于人工规则。 - **LLM**为认知架构注入新活力: - 弥补其**灵活性不足**和**知识获取成本高**的缺陷。 - 未来方向可能是**神经符号融合**的智能体架构。 --- ### 2.4 语言模型与智能体 **语言模型的基础** - **定义**:语言模型(Language Model, LM)的核心是学习一个**条件概率分布** \( P(w_i | w_{