OpenAI的GPT已达极限,更看好AI Agent

日前,比尔盖茨发表文章表示:AI Agent不仅会改变人与电脑的互动方式,或许还将颠覆软件行业,引领自输入命令到点击图标以来的最大计算机革命。

在数字化和技术创新的浪潮中,AI Agent作为一种前沿技术,正开启广泛的应用前景和无限的机遇。这些机遇不仅表现在提升工作效率和业务自动化上,也体现在为用户提供个性化服务和改善客户体验方面。

随着生成式AI技术的不断发展和成熟,AI Agent在推动新产品和服务的创新、探索新的商业模式方面发挥着越来越重要的作用。

如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「神州问学」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和前沿资讯。

智能体技术相关发展


自2023年3月16日起,微软发布了Microsoft 365 Copilot,这一事件在业界引起了巨大反响,标志着基于大型语言模型(LLM)的应用开发范式的兴起,成为了当今行业共识的Agent理念的一个里程碑。 

值得注意的是,Agent的概念早在此前就已经存在,最早可追溯至20世纪50年代。1995年,Wooldridge和Jennings将AI Agent定义为一种计算机系统,该系统处于特定环境中,能够独立行动以实现其设计目标,并提出了AI Agent应具备自主性、反应性、社会能力和主动性四大属性。 

2010年以后,大模型开始初现雏形。2016年AlphaGo在围棋比赛中击败世界冠军,2018年谷歌推出了基于Transformer模型的BERT,2019年AlphaStar在电子竞技游戏《星际争霸2》中达到宗师级别并超越全球99.8%的玩家。紧接着,2022年ChatGPT-3及3.5的发布,以及随后ChatGPT的火爆流行,为AI Agent在大模型时代的发展提供了新的机遇。

大语言模型在智能体应用中的发展前景引人关注。随着AI技术的飞速进步,LLM不仅在理解和生成自然语言方面表现出色,而且在作为智能代理参与决策支持、自动化任务处理和个性化服务方面展现了巨大潜力。这些发展不仅推动了人机交互的边界,还为各行各业提供了创新解决方案,开辟了新的商业机会和研究方向。

2023年,大模型的发展呈现出爆炸式增长。自1月以来,全球范围内推出了众多LLM,包括LLaMA, BLOOM, StableLM, ChatGLM等众多开源大模型。借助这些模型,诸如AutoGPT, MetaGPT等多种自主智能体得以诞生。

2023年6月,OpenAI Safety团队负责人Lilian Weng发表了题为《LLM Powered Autonomous Agents》的文章,提出了一个新的Agent定义:大模型+记忆+规划技能+工具使用。11月6日,OpenAI在DevDay活动中发布了官方Agent开发框架Assistant API,旨在帮助开发者更高效便捷地基于GPT模型开发Agent。 

图片

数据来源:神州数码《生成式AI企业应用落地技术白皮书》

从创业角度看,Agent的开发大致分为两类:一种是提供可重复使用的Agent框架,降低未来开发的复杂性,着重于模块化、适配性和协作能力的优化创新;另一种则是深入垂直领域,成为领域专家,利用行业特定数据和流程提供更精准有效的服务。 

目前,Agent的开发进展在国际上主要集中在美国,因其拥有成熟的技术基础设施和充足的高端芯片资源,以OpenAI为代表的企业处于技术领先地位。相比之下,欧盟、英国、加拿大和日本等其他国家的大模型应用仍处于试验阶段。

在国内,一些科技公司已经产出了数个知名大模型,因此孕育而生的Agent智能体应用也开始逐渐进入大众视野。例如百度将文心大模型应用到智能搜索,自动驾驶;阿里将通义千问模型应用到高德地图,优酷,盒马等产品。华为将其盘古模型应用到智能气象,语音识别等。一家叫面壁智能的创业也公司推出了他们的AI Agent产品ChatDev,可以在短时间内完成一个软件或者一个小游戏的开发,所需要做的,只是提供给它一个要求。

图片

AI Agent应用


对于企业来说,成功的Agent产品的核心在于提高工作效率,这不仅意味着提升工作质量,还包括节省时间成本。分析市面上现有的Agent类产品,我们发现它们在企业环境中的适用场景主要包括:

  1. 简化日常工作流程:企业部门间的对接常常涉及大量文档制作,虽然这不需要复杂技术支持,但却耗费大量时间。如果引入对话式Agent来理解部门需求并自动生成相应文档,就能极大地减轻团队的负担,使他们能更专注于核心工作。

  2. 数据库访问优化:企业可以利用大型模型的文本解读能力,整合和提取数据中的关键信息。这样,企业无需手动整合碎片化信息,极大提升数据调用的效率。

  3. 编程辅助:Agent可以帮助程序员快速完成框架搭建和基础功能模板的编写,从而使程序员可以直接进入更细节的编程工作,显著减少编程工作量。

对于普通消费者而言,Agent的发展带来了更多的便利,类似于苹果的Siri和微软的Cortana。这些工具可以根据用户的需求独立搜索和调用各种信息和应用程序。虽然目前这些Agent主要处理较简单的任务,但在大型语言模型的支持下,它们未来将拥有更强大的能力,解决日常生活中的各种问题,成为每个人量身定制的私人助理。

图片

AI Agent挑战


在当前阶段,Agent的开发仍面临着众多挑战。尽管大型语言模型在对话方面的表现令人印象深刻,但将它们应用于具体的工作任务时,人们常常感觉它们像“人工智障”。这表明,要使大型模型商业化,关键在于理解并准确处理业务需求。 

在ToB业务中,AI Agent的应用受到API质量和生态系统不足的影响,尤其是在中国市场。API的匮乏和低质量导致实际应用效果与预期有显著差距。此外,试图用单一模型解决所有领域问题在理解深度上往往不足。 

AI Agent的落地效果也受限于应用场景的封闭程度。在封闭场景(如出行预订)中,得益于丰富的API和可穷举的问题,AI Agent表现出色。而在开放场景(如法律助手)中,由于新知识的频繁出现和API的不完善,实际应用面临更多挑战。理想的应用场景应选择那些拥有丰富的垂直领域数据、封闭且问题可穷举的环境。 

在训练方面,主要问题之一是高质量数据的缺乏。大型模型的训练数据主要来自网络文本,但在商业领域,许多案例数据不会完全公开。成功案例成为企业的商业机密,而失败案例也很少被企业分享。甚至许多行业经验还未被记录为文本。此外,为了更好地适应企业运作,训练模型需要大量关于流程的信息,而这些信息中含有的众多标准在不同行业中又有所不同,这使得模型训练变得更加困难。 

因此,针对特定领域的垂直行业模型的建立迫在眉睫。在法律、医疗、金融等专业性高、数据庞大的领域,建立这些行业模型是AI落地的关键。能够构建并掌握这些垂直行业模型的公司将获得强大的竞争优势。

人工智能信任、风险和安全管理(TRiSM)面临着一系列挑战。其中之一是Agent可能会接触到敏感信息和关键基础设施,因此需要有效的保护措施。同时,为了确保决策过程的透明度和可解释性,采用明确的决策制定流程变得尤为重要。此外,缺乏人类监督可能会降低减轻或纠正人工智能错误的能力。这是因为没有人类参与的情况下,AI系统的决策可能无法得到及时的校正或监控。

另一方面,关于人工智能的监管政策也成为了热门话题。特别是关于代理权的问题,早期的监管提案倾向于对自主行为者实施严格的规定和责任。这种监管环境的变化可能会对AI的发展和应用产生重大影响。同时,组织内部对于Agent的抵制也不容忽视,这主要源于员工对被AI替代的恐惧。

AI Agent的发展演化


Multi-Agent领域正向多Agent合作的框架发展。大模型能够从多角度讨论问题,如果为每个Agent定义不同身份,如经理、程序员、测试员等,可以更有效挖掘专业内容。这种多Agent结合能使大模型进行更深层次的计算和思考,更好地解决复杂任务。同时,使用不同大模型担任团队中的不同角色,可以集合各种优势。

图片

多模态方面,大模型正向理解非文字形式发展。这能力主要包括解析视觉信息,通常需大量文字描述。具备多模态处理能力的Agent可以增强对环境的感知,对自动驾驶、机器人等与现实世界互动的应用至关重要。但目前,非文字模态的编码器能力和规模还远不及语言模型。未来,可能出现一开始就结合多种模态语料训练的多模态大模型,或者等视觉模态编码器的能力提升,与大语言模型并驾齐驱时,结合使用将带来突破性发展。

图片

未来Agent或许还将实现如何大模型般的自我进化功能,如果人类可以自我进化出相应的分工体系,或许Agent也能自我设计出更加适合Agent协作的组织架构以便更好的完成复杂任务。

结语


从长远来看,AI Agent将会形成更深层次的智能连接,但目前AI Agent的技术尚未成熟,还需要一定的时间发展,不过Agent时代若是已经正在赶来,那么在接下来的几年里,它将彻底改变我们的生活方式,让我们一同期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/473524.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GB28181 —— 5、C++编写GB28181设备端,完成将USB摄像头视频实时转发至GB28181服务并可播放(附源码)

被测试的USB摄像头 效果 源码说明 主要功能模拟设备端,完成注册、注销、心跳等,同时当服务端下发指令播放视频时 设备端实时读取USB摄像头视频并通过OpenCV处理后实时转ps格式后封包rtp进行推送给服务端播放。 源码 /****remark: pes头的封装,里面的具…

【教程】rax3000m emmc刷机 支持硬件QOS MT7981到底值不值

为什么选择rax3000m? 1、恩山论坛237大佬放出了硬件QOS功能,而很多几百元路由器一旦开启QOS就会变软件NAT走CPU转发,效果还不如x86软路由。这样就非常适合刷机,在家里跑pt、迅雷等任务时候不会卡顿,实测,丢…

【Leetcode】1969. 数组元素的最小非零乘积

文章目录 题目思路代码复杂度分析时间复杂度空间复杂度 结果总结 题目 题目链接🔗 给你一个正整数 p 。你有一个下标从 1 1 1 开始的数组 n u m s nums nums ,这个数组包含范围 [ 1 , 2 p − 1 ] [1, 2^p - 1] [1,2p−1] 内所有整数的二进制形式&…

【python-sc2】详细解析!!!手把手教你学会实现星际争霸2游戏AI智能体的基础知识!!!

参考资料 星际争霸2 AI机器人网站 AI天梯 sc2ai_wiki文档 该网站包含基于各种语言编写的sc2库,包括C、Python、C#、JAVA等。其中,Python有Python-sc2、sharpy-sc2和PySC2三种框架。此外,针对每个框架提供了教程。 python-sc2官方文档 各种族单…

Spring Cloud Gateway教程

1 微服务网关概述 Spring Cloud Gateway是在 Spring 生态系统之上构建的API网关服务,旨在为微服务架构应用提供一种简单有效的统一的API路由管理方式。 Spring Cloud Gateway主要功能: 反向代理认证鉴权流量控制熔断日志监控 2 Spring Cloud Gateway三…

目标检测——YOLOX算法解读

论文:YOLOX: Exceeding YOLO Series in 2021(2021.7.18) 作者:Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun 链接:https://arxiv.org/abs/2107.08430 代码:https://github.com/Megvii-BaseDetection/YOLOX YOLO系列算法…

爬虫案例-网站分词索引与站内搜索

文章目录 1.案例简介2.设计思路3.设计结构4.关键技术5.数据结构6.数据集合7.设计过程7.1 信息采集模块7.2 索引模块7.3 网页排名和搜索 8.示例效果 1.案例简介 本例使用Python建立一个指定网站专用的Web搜索引擎,它能爬取所有指定的网页信息,然后准确的…

智慧安全:守护智慧城市的安全屏障

随着信息技术的迅猛发展,智慧城市已成为现代城市发展的重要方向。智慧城市通过集成应用先进的信息通信技术,实现城市管理、服务、运行的智能化,为城市的可持续发展注入了新的活力。然而,在智慧城市的建设过程中,安全问…

综合案例-淘宝轮播图

代码&#x1f447; <!DOCTYPE html><html lang"en" xmlns"http://www.w3.org/1999/xhtml"> <head><meta charset"utf-8" /><title>淘宝轮播图</title><style>*{margin:0px;padding:0px;}.tb-promo {…

流畅的 Python 第二版(GPT 重译)(四)

第二部分&#xff1a;函数作为对象 第七章&#xff1a;函数作为一等对象 我从未认为 Python 受到函数式语言的重大影响&#xff0c;无论人们说什么或想什么。我更熟悉命令式语言&#xff0c;如 C 和 Algol 68&#xff0c;尽管我将函数作为一等对象&#xff0c;但我并不认为 Py…

Java 设计模式系列:行为型-中介者模式

简介 中介者模式是一种行为型设计模式&#xff0c;它定义了一个中介对象&#xff0c;用于简化对象之间的交互。中介者模式通过引入一个中介对象来解耦多个对象之间的交互&#xff0c;使得这些对象可以独立地改变和复用。 中介者模式的适用场景包括多个对象之间存在复杂的引用…

asp.net在线租车平台

说明文档 运行前附加数据库.mdf&#xff08;或sql生成数据库&#xff09; 主要技术&#xff1a; 基于asp.net架构和sql server数据库 功能模块&#xff1a; asp.net在线租车平台 用户功能有首页 行业新闻用户注册车辆查询租车介绍访问后台 后台管理员可以进行用户管理 管…

xinput1_3.dll丢失如何修复,xinput1_3.dll的安装修复教程分享

在Windows操作系统环境下&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“找不到xinput13.dll”。由于xinput1_3.dll是微软DirectX SDK的一部分&#xff0c;主要用于支持游戏手柄和其他外部设备的输入功能&#xff0c;缺失这一动态链接库文件可能导致某些依赖…

【WEB3安全基建项目Secwarex】空投指南

GoPlusSecurity是WEB3安全基建项目&#xff0c;3月8日完成400万美元的私募融资&#xff0c;目前总融资已经高达1500万美元&#xff0c;其中包括Binance Labs、Huobi Incubator、Kucoin Ventures、Avalanche等知名机构参投。 1、打开网址&#xff1a;secwarex.io&#xff0c;点…

node.js常用的命令

Node.js 是一个用于执行 JavaScript 代码的运行时环境。以下命令是 Node.js 开发中常用的命令&#xff0c;可以帮助你进行包管理、项目配置和代码执行等操作。 node -v&#xff1a;检查 Node.js 的版本。npm -v&#xff1a;检查 npm&#xff08;Node.js 包管理器&#xff09;的…

通配符ssl证书有哪几种

通配符SSL证书是数字证书中比较特别的一种。它可以同时保护主域名以及主域名下所有的子域名&#xff0c;对所保护的网站传输数据进行加密。在证书有效期内&#xff0c;通配符SSL证书还可以免费增加子域名站点。随着互联网的发展&#xff0c;越来越多的个人和企事业单位的开发者…

01.Queue-Basic

1. 队列简介 队列&#xff08;Queue&#xff09;&#xff1a;一种线性表数据结构&#xff0c;是一种只允许在表的一端进行插入操作&#xff0c;而在表的另一端进行删除操作的线性表。 我们把队列中允许插入的一端称为 「队尾&#xff08;rear&#xff09;」&#xff1b;把允许删…

nginx使用与配置文件

nginx服务配置与配置优化 nginx服务脚本配置 mkdir wwwroot cd wwwroot/ mkdir nginx1 touch index.php vim index.php<?php echo $_SERVER["REMOTE_ADDR"]; ​ ​ vim conf/nginx.confserver {listen 80;server_name localhost;root /www/wwwroot/nginx…

分布式之SleuthZipkin

Sleuth&Zipkin 学习当前课程&#xff0c;比必须要先掌握SpringCloud的基本应用&#xff08;Nacos&#xff0c;Feign调用&#xff09; 对Docker有一定的了解&#xff0c;知道docker-compose.yml如何启动一个容器 RabbitMQ&#xff0c;Elasticsearch有一定了解。 而且学习…

SQLiteC/C++接口详细介绍sqlite3_stmt类(五)

返回&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;SQLiteC/C接口详细介绍sqlite3_stmt类&#xff08;四&#xff09;- 下一篇&#xff1a; 无 12. sqlite3_bind_text16函数 sqlite3_bind_text16函数用于将UTF-16编码的文本数据&#xff08;字符串&#xff09;绑定…
最新文章