深度剖析AIAgent的原理及应用发展

深度剖析AI Agent的原理及应用发展

随着大语言模型(LLM)在23年的快速发展,大模型逐步收敛为以闭源为代表的ChatGPT和以开源为代表的Llama2。

大模型本身也在朝着多模态的方向发展,这意味着模型能够处理不同类型的数据,如:文本、图片、视频和音频,其本质是丰富模型的信息处理与生成能力,能够更好地理解现实世界,处理复杂问题。

一、LLM vs Agent

虽然大语言模型的能力足够强大,但它依旧是被动的响应用户的指令,并且生成的效果取决于使用者如何使用它。

而AI Agent(智能代理)的出现,将改变这一现状。

它是一个自动化的程序,它具备自主规划和执行的能力,它也被视为通往AGI(通用人工智能)的钥匙。

从NLP -> AGI 的发展路线分为五个级别,From:《The Rise and Potential of Large Language Model Based Agents: A Survey》,分别是:语料库、互联网、感知、具身和社会属性。

目前的大语言模型已经来到了第二级,具备互联网实时访问的多模态内容输出。AI Agent在LLM的基础之上在往感知、具身和社会属性的方向方展;当其具备感知环境与行动的能力时,将进入到第三和第四级别;再进一步,当多个Agent通过它们之间的互动、合作,且具备情感属性,能够处理更加复杂的任务或反映现实世界中的社会行为时,Agent将进入第五级。

图片来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

二、什么是AI Agent?

Agent被翻译为代理或者智能体,它核心的作用是具备自主实现目标的能力,能够感知外部环境,具备自主性、反馈性、积极性和情感社交属性的智能体。

光这样描述还是很抽象,以我们的日常行为进行一个比喻:人类处理任何问题和任务时,都会经历信息输入->信息处理->信息输出过程。

信息输入:主要通过人类感官系统,视觉、听觉、味觉、触觉等

信息处理:主要通过人类的大脑进行规划与决策

信息输出:主要通过人类的语言和四肢所采取的行动

我们来想想一个场景: 小明想要吃树上的苹果,首先通过感官系统感知到苹果树上的苹果,然后在大脑中思考如何采摘苹果,最后借助采摘工具,拿到苹果后成功地放到嘴巴里津津有味地吃了起来。我们将场景抽象成模型,其实就形成了AI Agent的大致框架:

分以下几个模块:

感知模块:小明看到苹果树上的苹果

规划模块:想尝一尝苹果,并思考和规划如何才能吃到苹果

行动模块:借助采摘工具,拿到苹果后放入嘴中

反馈模块:苹果是甜的,津津有味地吃了起来~

其中最关键的是大脑部分(规划&决策),由ChatGPT、Llama2、Gemini这样的大语言模型作为Agent的大脑,增强了Agent的规划与决策的能力。

跳槽做B端产品经理准备大干一场,发现把问题想简单了

近年来,B端业务大力发展,也让很多相关岗位的人(C端产品经理、交互、测试、研发、运营、项目经理等)纷纷转型做B端产品。但是大多数人刚开始会对B端 ...

查看详情 >

三、AI Agent关键模块说明

我们将上图进行进一步的抽象和延展,就是网上广为流传由OpenAI提出的Agent的模型图:

图片来源:《LLM Powered Autonomous Agents》

其实和上图模型中各模块的关联关系差不多,只是OpenAI将AI Agent各模块的相关信息呈现的更丰富,基于这张模型图,可以拆分为以下几个模块:规划、记忆、工具和行动。

1. Memory-记忆模块部分

将记忆模块分为两个子模块,分别是

1)短期记忆模块:提示词工程中的上下文,类比于人类的感知模块,是外部信息的输入,如:文本/图片/视频/音频。

短期记忆模块受到模型的上下文的限制,我们常看到的GPT-4 Turbo支持128k上下文指的就是模型能够记住的上下文长度,超过上下文的限制后,LLM就会忘记之前输入的信息(犹如得了阿尔兹海默症)。

2)长期记忆模块:支持向量库检索,类比于人类的博物馆,支持在执行任务时调用博物馆中的知识。

长期记忆分为:

外显的陈述性记忆(客观的事实或观点,如:事件&事实&概念)

内显的程序记忆(主观习得的知识,如:翻译&骑自行车)

2. Planning-规划模块部分

将规划模块进行细分,其中思维链(CoT)和子目标分解(Subgoal Decomposition)是为了将复杂目标进行拆分,找到最优的执行路径。

图片来源:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》

而反思(Reflection)和自我批判(Self-critics)模块,引入强化学习机制,通过环境的反馈状态,能从错误中吸取”教训”,从而提高结果的质量。其中大语言模型-LLM在规划模块占据核心位置。像CoT、ToT、ReAct等在规划模块运用的相关技术,其实大部分是进阶的提示词工程的使用技巧,掌握了这些进阶提示词工程的技巧,我们一样能在ChatGPT中实现智能体的规划能力。

针对于这一块可以查阅一下OpenAI的官方文档中Prompt Engineer的使用指南部分,地址:https://platform.openai.com/docs/guides/prompt-engineering/strategy-give-models-time-to-think

3. Action&Tools-行动和工具调用模块

虽然OpenAI拆分为了两个不同的模块,但是我们其实可以把它看作一个整体,有了工具再采取行动(有了采摘工具再去采摘苹果)。

图片来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

Agent具体的行动方式分类三类:

1)文本输出:大语言模型的基础能力

2)工具使用:大语言模型通过调用外部的程序工具,拓展了模型本身能力的边界,其中能够调用的工具包括:

专家模块,如:调用其他的模型来协同处理任务

工具模块,如:其他应用程序的API或插件处理特定任务

3)具身行动:可理解为现实世界的机器人,能够在现实环境中定位自身位置、感知周围物体,接收指定任务后与周围物体进行交互,从而实现任务目标

我们用一个简单的公式做个阶段性的总结:

Agent = LLM + 记忆 + 感知&反思 + 规划+ 工具使用

四、AI Agent应用场景

23年11月9日比尔·盖茨在其发表的文章《AI is about to completely change how you use computers》中提出:AI Agent在医疗保健、教育、生产力、娱乐与购物等应用领域将发挥其巨大的潜能。

咱们重点谈谈教育和娱乐。

1. 教育

谷歌在22年底曾发布的三篇有关未来教育的报告,其中提到关于未来教学方式将从一对多的教学方式,转变为个性化教学和自适应教学

目前也已有许多头部机构在教育领域已有了较为成熟的AI应用 像可汗学院推出的AI学习助手Khanmigo,不仅能为学生在数学、科学、人文科学等领域进行教学辅导,而且能够帮助老师编写教案、规划课程,将AI深入融合进了教学工作的各个环节,让老师能够更专注于学生的综合能力培养。

图片来源:https://www.khanacademy.org/khan-labs

再推荐一款笔者常用的GPTs,名为Mr.Ranedeer

图片来源:https://supertools.therundown.ai/

先介绍一下GPTs,GPTs是由OpenAI推出的ChatGPT的定制化模式,任何人都无需编码即可构建属于自己的ChatGPT

图片来源:https://openai.com/blog/introducing-gpts

虽然只需要说说话就能构建GPT,但是要让自己的GPT足够实用,且能够在将来GPTs的商店中赚到钱,那还需要具备三个核心要素:

提示词-Prompt,优秀的Prompt才会让GPT有优秀的表现

行为-Action,能够让GPT具备调用工具的能力,拓展GPT的能力边界

数据-Database,数据的质量很大程度上决定了GPT输出的质量

其中数据属于属于企业&个人,有就是有,没有就是没有。

所以对于大部分人来说,能做的就是Prompt的撰写和Action的配置。其中Action中的Function Calling(函数调用-调用外部应用的API接口),是GPTs能够作为Agent的最核心能力,通过接入外部应用的接口GPT可以调用其他软件去完成任务目标,从而给出目标结果。

情不自禁的扯远了…

我们再回到刚刚推荐的Mr.Ranedeer,它是作者:JushBJJ分享的GPTs,最早是以Prompt的形式上传至Github中分享给大家使用。

它能够根据我们给出的学习计划,自动拆解学习内容

完成每一章的学习内容后,可以选择继续学习或出题测试检验自己的学习成果

学习过程中我们能够随时提出对某个知识点感兴趣,它会基于我们的兴趣进行延展学习

具体的使用方法:

1)进入网站:https://supertools.therundown.ai/content/mr-ranedeer 这是一个汇聚全球创作者所创作的GPTs,并且按照不同类别进行分类,找起来非常方便。

图片来源:https://supertools.therundown.ai/

2)选择Mr.Ranedeer,点击使用按钮,页面会自动跳转至自己的ChatGPT界面中,就能开始学习起来啦。

3)在此附上Mr.Ranedeer使用方法:https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor/blob/main/Guides/How to use Mr. Ranedeer.md#how-to-use-mr-ranedeer

2. 娱乐

由奚志恒等作者发布的论文《The Rise and Potential of Large Language Model Based Agents: A Survey 》中,原神为例,构建了一个由多个Agent共同协作的社会,人类也能够参与到其中与不同Agent进行互动交流。

图片来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》

图中左上角有一个Agent在点菜,另一个Agent在规划和解决做菜的任务;右上角的Agent们在讨论如何制作灯笼和计算灯笼的成本。

基于上述的案例我们能够构想一下未来具有AI加持的游戏画面:

在一个类似于像荒野大镖客这样的开放性游戏中,我们遇见的每一个NPC都具有独立情感,我们能够与之交互,不同玩家的行为选择会产生不同的游戏剧情。

参考:https://www.woshipm.com/ai/5969571.html

大家都在看:

9012应用电路 9012原理图

9012是一种数字集成电路,全称为9012A型数字集成稳压器。它由美国国家半导体公司(National Semiconductor Corporation)生产,主要用于电源管理、信号处理和通信系统等...

iqoo应用深度优化怎么关 iqoo应用深度优化怎么关闭

如果您想要关闭iQOO手机的深度优化,可以通过以下步骤操作: 打开手机设置。 在设置菜单中找到“开发者选项”或“开发者模式”。 打开“开发者选项”或“开发者模式”开关。 找到“性能”或“GPU Tur...

ai在电商领域的应用

引言 随着科技的飞速发展,人工智能(AI)已经成为了现代商业中不可或缺的一部分。在电商领域,AI的应用更是让商家们能够以前所未有的速度和效率进行商品销售、客户服务以及数据分析。探讨AI在电商领域的应用...

ai技术在物流方面应用 ai技术在物流方面应用研究

AI技术在物流领域的应用正在不断扩展,以提高效率、降低成本并改善客户体验。以下是一些AI技术在物流方面的应用: 智能仓库管理系统:通过使用AI和机器学习算法,智能仓库管理系统可以自动识别库存水平,预测...

数据分析ai有哪些应用 数据分析的常用软件有哪些?

金融:数据分析和AI在金融领域的应用非常广泛,包括信用评估、欺诈检测、市场预测、投资策略等。 医疗:AI在医疗领域的应用主要包括疾病预测、药物研发、患者诊断、治疗方案推荐等。 零售:AI在零售行业的应...

科技项目应用领域与推广方式有哪些内容 科技推广和应用服务业发展情况

科技项目应用领域与推广方式有很多,以下是一些常见的内容: 人工智能:应用领域包括机器学习、自然语言处理、计算机视觉等。推广方式包括参加国际会议、发表学术论文、与企业合作等。 大数据:应用领域包括数据挖...

跨境支付行业深度报告是什么类型 跨境支付发展的现状是什么

跨境支付行业深度报告是一种针对跨境支付领域进行深入分析与研究的专业文档。这类报告通常由专业的市场研究机构、咨询公司或学术机构编写,旨在为投资者、企业决策者、政策制定者等提供有关跨境支付行业的全面信息和...

ai助力供应链数字化业务应用场景 数字化供应链协同

AI技术在供应链数字化业务中的应用,不仅显著提高了供应链管理的效率和准确性,还为整个行业的可持续发展提供了强有力的技术支持。以下是对AI助力供应链数字化业务应用场景的分析: 需求预测:利用机器学习算法...

亚马逊ai人工智能的应用有哪些 亚马逊ai人工智能的应用有哪些方面

亚马逊的人工智能(AI)应用非常广泛,以下是一些主要的应用领域: 语音助手:亚马逊的Alexa是最著名的语音助手之一,它可以控制智能家居设备、播放音乐、提供天气预报等。此外,它还可以进行语音搜索、回答...

国际供应链示范中心项目10kv配电工程有哪些应用 国内外供配电系统发展概况

电力供应:配电工程是国际供应链示范中心项目的重要组成部分,为整个项目的运行提供稳定的电力供应。 能源管理:通过智能电网技术,实现对电力资源的高效管理和利用,降低能源消耗,提高能源使用效率。 设备保护:...

快速发展的农村电商深度植入逻辑填空

在全球化的大潮中,农村电商作为一股不可忽视的力量,正在迅速改变着传统农业和农村经济的结构。它不仅仅是一种商业模式,更是一种深刻的社会变革。深入探讨农村电商的快速发展逻辑,以及其对农村地区产生的深远影响...

中国报业深度融合发展创新案例之运营服务模式创新类研究 运营创新和业务创新

中国报业在深度融合发展的过程中,运营服务模式创新是一个重要的方向。以下是一些可能的创新案例: 数字化运营:许多报纸已经开始使用数字技术来提高运营效率,例如通过建立在线新闻平台、开发移动应用程序等方式,...

我国跨境电子商务发展的现状 我国跨境电子商务的发展和应用研究

我国跨境电子商务发展的现状是: 市场规模不断扩大:随着互联网的普及和跨境电商政策的出台,我国跨境电子商务市场规模持续扩大。根据中国电子商务研究中心的数据,2025年我国跨境电商交易额达到6.5万亿元,...

PID控制算法的原理是什么?请简要介绍一下。 pid控制算法实际应用

PID控制算法是一种经典的控制策略,其原理是通过比较设定值和实际输出值之间的差值,然后根据差值的大小来调整控制器的输出。具体来说,PID控制算法包括三个部分:比例(P)、积分(I)和微分(D)。这三个...

跨境电商ai工具有哪些应用 跨境电商 工具

跨境电商AI工具的应用非常广泛,以下是一些常见的应用: 商品推荐系统:通过分析用户的购物历史、浏览记录和搜索行为,AI工具可以为每个用户推荐可能感兴趣的商品。这有助于提高转化率和增加销售额。 价格优化...

亚马逊ai人工智能的应用有哪些呢 亚马逊智能产品

亚马逊的人工智能(AI)应用非常广泛,以下是一些主要的应用: 推荐系统:亚马逊使用AI来推荐商品和内容,例如电影、音乐、书籍等。这些推荐系统可以根据用户的购物历史、浏览记录、搜索习惯等数据进行个性化推...

na.png

本网站文章未经允许禁止转载,合作/权益/投稿 请联系平台管理员 Email:epebiz@outlook.com