Tel: 13929592192

广州GDYF化妆品销毁公司:复旦NLP团队发表80页大模型Agent综述,一文纵览AI智能体的现状与未来

智能体会成为打开 AGI 之门的钥匙吗?复旦 NLP 团队全面思量 LLM-based Agents。

近期,复旦大学自然语言处置团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达86页,共有600余篇效尤文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包含:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们商量了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

团队成员还将为每篇相关论文增补「一句话概括」,欢迎 Star 仓库。

考虑背景

长期以来,酌量者们一直在追求与人类相当、乃至超越人类水平的通用人工智能(Artificial General Intelligence,AGI)。早在1950年代,Alan Turing 就将「智能」的概念扩充到了人工实体,并提出了著名的图灵测试。这些人工智能实体普遍被称为 —— 代理(Agent*)。「代理」这一概念起出于哲学,描述了一种持有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、响应性、积极性和社交能力特征的智能实体

*Agent 术语的中文译名并未形成共识,有学者将其翻译为智能体、行为体、代理或智能代理,本文中展现的「代理」和「智能代理」均指代 Agent。

从那时起,代理的设计就成为人工智能社区的焦点。然而,往时的工作要紧集中在增强代理的既定能力,如符号推理或对铁定任务的掌控(国际象棋、围棋等)。这些思考更加注重算法造型和训练策略,而忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效对话等。事实声明,增强模型固有能力是推动智能代理进一步发展的主要因素。

大型语言模型(LLMs)的显现为智能代理的逐渐发展带来了希望。假如将 NLP 到 AGI 的发展路线分为五级:语料库、互联网、感知、具身和社会属性,那么日前的大型语言模型已经来到了第二级,具有互联网规模的文本输入和输出。在这个基础上,倘若赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。逐步地,多个代理经过互动、互助解决更复杂的任务,或然反映显出实世界的社会行为,则有潜力来到第五级 —— 代理社会。

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

作者们设想的一个由智能代理构成的和谐社会,人类也允许参与其中。场景取材自《原神》中的海灯节。

一个 Agent 的诞生

占有大模型加持的智能代理会是什么样?作者们受到达尔文「适者生存」法则的启发,提出了基于大模型的智能代理通用框架。一个人倘若想方设法在社会中生存,就必须学会适应环境,因此需要具有认知能力,并且也许感知、应对外界的变化。相仿,智能代理的框架也由三个部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

LLM-based Agent 的概念框架,包罗三个组成部分:控制端(Brain)、感知端(Perception)和行动端(Action)。

作者们用一个例子来表明来了 LLM-based Agent 的工作流程:当人类询问是否会下雨时,感知端(Perception)将指令转换为 LLMs 可以理解的表示。然后控制端(Brain)开始根据眼前天气和互联网上的天气预报进行推理和行动规划。最后,行动端(Action)做出反应并将雨伞递给人类。

通过重复上述工序,智能代理允许不断获得反应并与环境交互。

控制端:Brain

控制端算作智能代理最核心的组成成分,作者们从五个方面展开介绍其能力:

自然语言交互:语言是对话的媒介,其中包含着丰富的报导。得益于 LLMs 强大的自然语言生成和理解能力,智能代理或者经过自然语言与外界进行多轮交互,进而实行目标。具体而言,可以分为两个方面:

知识:基于大批量语料训练的 LLMs,拥有了存储大宗知识(Knowledge)的能力。除了语言知识以外,常识知识和专门技能知识都是 LLM-based Agents 的重要组成部分。

虽然 LLMs 其本身依旧存在知识假冒、幻觉等问题,现有的一些琢磨经过知识编辑或调用外部知识库等方法,允许在一定程度上得到缓解。

记忆:在本文框架中,记忆模块(Memory)储存了代理过往的观察、商讨和行动序列。通过肯定的记忆机制,代理允许有效地反思并应用先前的策略,使其借鉴过去的经验来适应陌生的环境。

一般用于提升记忆能力的方法有三种:

此外,记忆的检索方法也很严重,只有检索到合适的内容,代理才没准访问到最相关和确切的消息。

推理 & 规划:推理能力(Reasoning)对于智能代理进行决策、分析等复杂任务而言至关重要。具体到 LLMs 上,就是以 思维链(Chain-of-Thought,CoT) 为代表的一序列提示方法。而规划(Planning)则是面对大型挑战时常用的策略。它协助代理组织思维、设定目标并必定实现这些目标的步骤。在具体实行中,规划可以包含两个步骤:

迁移性 & 泛化性:拥有地球知识的 LLMs 赋予智能代理具备强大的迁移与泛化能力。一个好的代理不是静态的知识库,还应具备动态的学习能力:

感知端:Perception

人类通过多模态的方式感知地球,所以考虑者们对 LLM-based Agents 抱有相同的期许。多模态感知能加深代理对工作环境的理解,显著提升了其通用性。

文本输入:看成 LLMs 最基础的能力,这里不再赘述。

视觉输入:LLMs 自身并不具备视觉的感知能力,只能理解离散的文本内容。而视觉输入一般涵盖有关世界的大批讯息,网罗对象的属性,空间关系,场景布局等等。常见的方法有:

听觉输入:听觉也是人类感知中的重大组成部分。出于 LLMs 有着优异的工具调用能力,一个直观的想法就是:代理可以将 LLMs 作为控制枢纽,经过级联的方式调用现有的工具集恐怕专家模型,感知音频讯息。此外,音频也允许通过频谱图(Spectrogram)的方式进行直观表态。频谱图可以视为平面图像来显示2D 新闻,因此,一些视觉的处理方法可以迁移到语音领域。

其他输入:现实全国中的信息远不止文本、视觉和听觉。作者们期望在将来,智能代理能配备更丰盛的感知模块,举例触觉、嗅觉等器官,用于获取目标物体更加充足的属性。同时,代理也能对周围环境的温度、湿度和明暗程度有清楚的感受,采取更 Environment-aware 的行动。

此外,还可以为代理引入对更广阔的整体环境的感知:采用激光雷达、GPS、惯性测量单元等成熟的感知模块。

行动端:Action

在大脑做出分析、决策后,代理还需要做出行动以适应或改变环境:

文本输出:看成 LLMs 最基础的能力,这里不再赘述。

工具使用:虽然 LLMs 持有出色的知识储备和专业能力,但在面对具体问题时,也大概会出现鲁棒性问题、幻觉等一序列挑战。与此同时,工具当成使用者能力的增补,可以在专注性、事实性、可解释性等方面供应帮助。打个比方,允许通过使用计算器来计算数学问题、使用搜索引擎来搜寻实时采访。

另外,工具也可以添加智能代理的行动空间。例如,通过调用语音生成、图像生成等专家模型,来获得多模态的行动方式。因此,如何让代理成为优异的工具使用者,即学会怎样有效地利用工具,是格外重大且有前景的方向。

而今,紧要的工具学习方法包括从演示中学习和从反映中学习。此外,也允许经过元学习、课程学习等方式来让代理程序在使用各种工具方面具备泛化能力。更一步步,智能代理还允许一步步学习应该「自给自足」地制造工具,从而提升其自主性和独立性。

具身行动:具身(Embodyment)是指代理与环境交互工序中,理解、改造环境并更新自身状态的能力。具身行动(Embodied Action)被算作虚拟智能与物理现实的互通桥梁。

传统的基于强化学习的 Agent 在样本影响、泛化性和复杂问题推理等方面存在局限性,而 LLM-based Agents 经过引入大模型充实的内在知识,使得 Embodied Agent 恐怕像人类相仿主动感知、影响物理环境。根据代理在任务中的自主程度大概说 Action 的复杂程度,可以有以下的原子 Action:

经过组合这些原子行动,代理允许实现更为复杂的任务。打个比方「厨房的西瓜比碗大吗?」这类具身的 QA 任务。为了解决这个问题,代理需要导航到厨房,并在考核二者的大小后得出答案。

受限于物理地球硬件的高成本和具身数据集缺乏等问题,日前具身行动的商酌仍首要集中于游戏平台《我的天下》等虚拟沙盒环境中。因此,一方面作者们期许有一种更贴近现实的任务范式和评价标准,另一方面,也需要大家在高效构建相关数据集上面有更多的酌量。

Agent in Practice:多样化的应用场景

此刻,LLM-based Agents 早已映现出了令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL 以及 GPT Engineer 等耳熟能详的应用实例今朝过去所未有的速度蓬勃发展。

在介绍的具体的应用之前,作者们讨论了 Agent in Practice 的造型原则:

1. 帮忙用户从每天任务、重复劳动中解脱出来,减轻人类的工作压力,提高解决任务的功用;

2. 不再需要用户提出显式的低级指令,就可以完全自主的分析、规划、解决问题;

3. 在解放用户的双手往后,尝试解放大脑:在前沿科学领域充分发挥潜能,兑现立异性的、探索性的工作。

在这个基础上,代理的应用可以有三种范式:

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

LLM-based Agent 的三种应用范式:单代理、多代理、人机交互。

单代理场景

允许接受人类自然语言命令,执行平素任务的智能代理此刻备受用户钟情,具有很高的现实使用价值。作者们首先在单智能代理的应用场景中,阐述了其多样化的应用场景与对应能力。

在本文中,单智能代理的应用被划分为如下三个层次:

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

单代理应用场景的三个层次:任务导向、研发导向、生命周期导向。

多代理场景

早在1986年,Marvin Minsky 就做出了具有前瞻性的预言。他在《心智社会》(The Society of Mind)一书中提出了一种新颖的智力理论,认为智力是在许多较小的、必定功能的代理的相互用意中产生的。譬如,一些代理可能负责识别模式,而其他代理或然负责做出决策或生成解决方案。

这一想法随着分布式人工智能的兴起得到了具体实践。多代理系统(Multi-Agent System)当成其中重要的探索问题之一,重大关注代理们如何有效地协调并合作解决问题。本文作者将多代理之间的交互划分为以下两种形式:

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

多代理应用场景的两种交互形式:合作型对话、对抗型交流。

合作型对话:算作实际应用中部署最为广泛的类型,协作型的代理系统允许有效提升任务作用、合伙革新决策。具体来说,根据合作形式的不同,作者们又将合作型互动细分为无序互助与有序协作。

对抗型互动:智能代理以一种针锋相对(tit for tat)的方式进行交流。通过竞争、谈判、辩论的形式,代理抛弃原来恐怕错误的信念,对本身的行为也许推理工序进行有意义的反思,最终带来整个系统响应质量的提升。

人机交互场景

人机交互(Human-Agent Interaction),顾名思义,是智能代理经过与人类交互,合作实现任务。一方面,代理的动态学习能力需要对话交流来支持;另一方面,而今的代理系统在可解释性上的显露仍旧不足,可能会存在安全性、合法性等方面的问题,因此需要人类参与进行规范与监督。

作者们在论文中将 Human-Agent 的交互划分为以下两种模式:

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

人机交互场景的的两种模式:Instructor-Executor 模式 vs. Equal Partnership 模式。

Agent 社会:从个性到社会性

长期以来,探求人员一直憧憬着构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义允许概述为:环境 + 环境中生存、沟通的个体。

在文章中,作者们用一张图描述了 Agent 社会的概念框架:

化妆品销毁,护肤品销毁,过期食品销毁,GDYF,文件销毁

代理社会的概念框架,分为两个重大部分:代理和环境。

该框架中,我们允许看到:

代理的社会行为与人格

文章从外在行为和内在人格来审视了代理在社会中的呈现:

社会行为:从社会的角度出发,可以将行为分为个体和集体两个层次:

人格:囊括认知、情感和性格。就像人类在社会化过程中逐步形成本身的特质肖似,代理也映现了所谓的 "类人智能",即通过与群体和环境的互动中慢慢塑造人格。

模拟社会的运行环境

代理社会不仅由独立的个体构成,还网罗了与其交互的环境。环境对代理的感知、行动和对话产生功用。反过来,代理也通过他们的行为和决策也改变着环境的状态。对于单个代理而言,环境囊括其他自主代理、人类以及可使用的资源。

在此,作者琢磨了环境的三种类型:

基于文本的环境:源于 LLMs 重要依存语言作为其输入和输特殊式,因此基于文本的环境是代理最自然的操作平台。通过文字的方式来描述社会现象和对话,文本环境供应了语义和背景知识。代理存在于这样的文本全国中,依附文本资源来感知、推理和采取行动。

虚拟沙盒环境:在计算机领域,沙盒是指一种可受控且隔离的环境,常用于进行软件尝试和病毒分析。而代理社会的虚拟沙盒环境则是视为模拟社会交流和行为仿真的平台,其紧要特点包括:

真实的物理环境:物理环境是由实际物体和空间组成的有形环境,代理在其中进行观察和行动。这种环境引入了丰盛的感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出了更多的要求。即代理在物理环境中必须具备适应性,生成可执行的运动控制。

作者举了一个例子来解释物理环境的复杂性:想象智能代理在厂家里操作机械臂的情景,操作机械臂时需要精准控制力度,以避免损坏不同材质的物体;此外,代理需要在物理工作空间中导航,及时调整移动路径,以规避障碍物并优化机械臂的运动轨迹。

这些要求都扩张了代理在物理环境中的复杂性和挑战性。

模拟,启动!

在文章中,作者们认为一个模拟社会怎样具有开放性、持久性、情境性和组织性。开放性可以代理自主地进出模拟社会;持久性是指社会具有随着时间的推移而发展的连贯轨迹;情境性强调主体在肯定环境中的存在和运作;组织性则确保模拟社会持有类似物理地球的规则与限制。

至于模拟社会的意义,斯坦福大学的 Generative Agents 小镇为大家供给了生动的例子 ——Agent 社会允许用于推敲群体智能的能力边界,例如代理们合伙筹办了一场情人节派对;也可以用来加速社会科学的探求,举例通过模拟社交网络来侦察传播学现象。此外,还有酌量经过模拟道德决策场景来思索代理背后的价值观、经过模拟政策对社会的作用来辅助决策等。

逐步地,作者指出这些模拟还也许存在一定风险,网罗但不限于:有害社会现象;刻板印象和偏见;隐私安全问题;过度仰赖与成瘾性。

前瞻开放问题

在论文的最终,作者还讨论了一些前瞻开放性问题,抛砖引玉,供读者推敲:

智能代理与大语言模型的思考该怎样互相促进、合伙发展?大模型在语言理解、决策制定以及泛化能力等方面映现出强大的潜力,成为代理构建流程中的关键角色,而代理的进展也为大模型提出了更高的要求。

LLM-based Agents 会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严酷的安全性评估,避免对真实地球带来危害。作者总结了更多潜在威胁,例如:非法滥用、失业风险、对人类福祉造成效力等等。

代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,抬高个体数量可以显著抬高模拟的可信度与真实性。然而,随着代理数量的上升,通信与采访传播问题会变得非常复杂,信息的失真、误解没准幻觉现象都会显著降低整个模拟系统的效率。

网络上关于 LLM-based Agent 是否是通向 AGI 的合适道路的争论。有探求者认为,以 GPT-4为代表的大模型曾经在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开 AGI 之门的钥匙。但也有其他斟酌者认为,自回归语言建模(Auto-regressive Language Modeling)并不可浮现出真正的智能,由于它们只是作出响应。一个更完备的建模方式,打个比方天下模型(World Model),才能通向 AGI。

群体智能的演化历程。群体智能是一种集结众人的意见进而转化为决策的过程。然而,一味通过加大代理的数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?

代理即服务(Agent as a Service,AaaS)。因为 LLM-based Agents 比大模型自己更加复杂,中小型公司或个人更加难在本地构建,因此云厂商允许探索以服务的形式来将智能代理落地,即 Agent-as-a-Service。就像其他的云服务相像,AaaS 有潜力为用户供应高灵活性和按需的自助服务。

(举报)

Recommended reading / 推荐阅读

广州GDYF化妆品销毁公司:

经历过三年的疫情以后,有的经销商支撑不住倒下了,有的却在困境中找到了新的发展方式进一步壮大。那什么样的经销商没准会被淘汰?如何改变让经销商更有前途? x2147483647quality=80type=jpg"> 九种马上被淘汰的经销商 1、靠厂家支持型 经销商把所有的期待都寄托于基地的,盼望通过基地的政策去弥补损失,这类只会坐等靠的经销商还有一个常见口头禅是,工厂给政策支持我就进货,不给政策支持我就不进货。 厂家给费用支持我就做活动,不支持我就不做活动。基地给补贴发工资我就多招出售人员,不给补贴我就不招。厂家给外拓补贴我就多跑动,不给支持我就跑不动。“基地支持”是他的重大词。 2、甩手掌柜型 诸事不管的甩手掌柜。由于做经销商赚了点钱,把生意托付给家人或亲戚,...

联系我们

 广东GDYF益美环境服务有限公司

  中国 广州 天河区 合景路

 +13929592192

 +13929592192

 E-mail:   422317197@qq.com

© Copyright 广东益美环境服务有限公司. 粤ICP备20044791号