React¶

论文: https://arxiv.org/abs/2210.03629
标题: ReAct: Synergizing Reasoning and Acting in Language Models
作者: Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
虽然大型语言模型（LLMs）在语言理解和交互式决策方面在任务中表现出令人印象深刻的能力，但它们的推理能力（例如思维链提示）和行动能力（例如行动计划生成）主要被作为单独的主题进行研究。在本文中，我们探索了使用 LLMs 以交错方式生成推理跟踪和特定于任务的操作，从而在两者之间实现更大的协同作用：推理跟踪帮助模型诱导、跟踪和更新行动计划以及处理异常，而操作允许它与外部源（如知识库或环境）交互，以收集更多信息。我们将名为 ReAct 的方法应用于各种语言和决策任务，并证明了其在最先进的基线上的有效性，以及在没有推理或行动组件的情况下，提高了人类的可解释性和可信度。具体来说，在问答（HotpotQA）和事实验证（Fever）方面，ReAct通过与简单的维基百科API交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，并生成了类似人类的任务解决轨迹，这些轨迹比没有推理痕迹的基线更具可解释性。在两个交互式决策基准测试（ALFWorld 和 WebShop）上，ReAct 只用一两个上下文示例来提示，但它的绝对成功率分别优于模仿和强化学习方法 34% 和 10%。

https://img.zhaoweiguo.com/uPic/2024/08/A8fkID.png — Comparison of 4 prompting methods, (a) Standard, (b) Chain-of-thought (CoT, Reason Only), (c) Act-only, and (d) ReAct (Reason+Act), solving a HotpotQA (Yang et al., 2018) question. (2) Comparison of (a) Act-only and (b) ReAct prompting to solve an AlfWorld (Shridharet al., 2020b) game. In both domains, we omit in-context examples in the prompt, and only show task solving trajectories generated by the model (Act, Thought) and the environment (Obs).¶

主页

索引

模块索引

搜索页面