AI Agent 的现状与未来
作者:jolestar 来源:X,@jolestar
上周倒腾了一下 AI Agent,前天参加了 ai16z 在北京的活动,想看看 AI Agent 现在实际上能干啥,思考一下它未来能干啥。
AI Agent 的现状让我想起那个梗图,自动售货机里面藏了个人。大家已经想象中的 AI Agent 已经开始拥有自主意识了,但实际上的 AI Agent 里面其实藏了个开发者。(这里大家脑补画面,我尝试让 AI 生成这个图片,发现 AI 不能理解“藏”)
AI Agent 框架的基本工作方式
AI Agent 框架当前扮演一个粘合剂的作用,把 client(Twitter,Discord,Telegram 等) 和各种插件(各链等)粘合起来,然后框架提供一个基础库(记忆存储,会话隔离,上下文生成)等,后面对接各种 AI 平台接口。
AI Agent 框架如何和应用以及业务场景结合
从去年 AI 火爆以来,各种平台和工具涌现,最关键就是要解决一个问题,AI 如何和应用结合。有 AI 平台尝试提供插件的方式,有的打造工作流模型,也有传统应用在应用内嵌入 AI 的方式。但这里面的关键是: 1. 应用的交互入口在哪里?2. AI 如何和现有业务逻辑结合。
各 AI 平台给用户提供的应用的交互入口都是一个类似聊天窗口的对话框,显然大家都认为和 AI 应用的交互方式应该是一种“拟人”的方式。而这点上 AI Agent 聪明之处在于它直接接入了所有的开放 IM 以及社交系统,显然比新搞一个更容易接受。
AI 如何和现有业务逻辑结合。AI Agent 提供的方案是让开发者把 AI 的决策融入到业务场景中。编程语言需要确定性,if 的条件只能是 true 或者 false,无法处理模糊的业务逻辑。而通过 AI 可以将复杂的逻辑转换成精确的条件,然后就可以无缝融入到业务场景中去了。
比如群内回复消息这个功能,传统的 IM Bot 需要通过一些明确的消息指令才能触发,而通过 AI 可以实现一个方法 shouldReplyMessage,给他上下文,它返回 true or false。
AI 在业务逻辑场景中的作用主要是:
1. “意图”发现:通过提示词中的说明,让 AI 根据上下文发现用户文本消息中的“意图”,把意图映射到具体的代码。
2. 协助决策:通过 AI 将模糊的复杂条件转换成确定的 true/false 或者枚举类型,然后结合到业务逻辑中去。
看到这里,很多人可能对 AI Agent 要失望了,很多人以为的 AI Agent 就是教一下 AI 它就啥都会了。实际上因为大模型的上下文限制的难题,没办法(至少当前)打造一个万能的 AI,让它可以干任何事情。但好消息是程序员不用担心失业了,AI 后面还是需要藏着大量的程序员,还需要有人来堆 if else,但关键的区别是程序可以处理的业务边界在扩展。
两种 AI Agent
在活动上,问了 @shawmakesmagic 一个问题,市场对 AI Agent 有两种期望,1. AI Agent 自己扮演一个角色,有自己的 ID,品牌,给用户提供服务。2. 用户有个人 AI Agent,相当于个人助手,可以协助用户处理一些业务。这两种 AI Agent 哪种会更受欢迎?他觉得两个方向都会不错,也有可能结合起来。
现在市面上大家主要探索的还是第一个方向。这个方向类似于服务 AI Agent 化,未来可能没有 App 界面了,App 都 AI Agent 化了,拟人化了。而第二个方向则是应用客户端的 Agent 化,未来的应用客户端会是助手 Agent 的一个插件,应用本地数据变成了 Agent 记忆库的一部分,同时这个插件也负责和云端的服务 Agent 沟通。而这是一种新的应用架构模式,会改变整个基础设施。
AI Agent 对基础设施的要求
1. 基础设施要实现无准入门槛(Permissionless),不然 AI Agent 会被各种防攻击策略限制,服务应该用经济成本的方式(Gas)防攻击。这点上开放程度比较差的平台会面临比较大的冲击,当年 Web2 初期的开放平台热会重新被点燃。
2. AI Agent 需要能操作资金来付费,用以解决上面的问题。
也就是说,未来的服务,无论是否是基于区块链的,都需要支持 Crypto 的私钥模式的身份验证以及基于 Crypto 的支付。
AI Agent 和链的结合
除了上面提到的两点,AI Agent 如何和链结合是大家正在探索的一个方向。在活动上,和 @Mikkke_acc 聊它正在搞的 focEliza。前面提到的两种 AI Agent,至少第一种是需要链提供的运行或者验证环境。因为一旦一个 AI Agent 对外提供服务,就会有信任问题,它所扮演的角色实际和智能合约一样。
关于“智能合约”这个名字当年有个争议,它只是一段代码,哪里“智能”了,AI 可以让智能合约名副其实。难题是智能合约环境中如何调用 AI 接口。如果说让大模型运行在一个可验证的环境中这条路还比较远,用类似 Oracle 的方案是更切实可行的路径。
而围绕着 AI Agent 会衍生出非常多的需求,AI Agent 的公共知识如何获取?AI Agent 如何对事实进行判定?AI Agent 如何识别不同平台上的同一个用户?智能合约中的“记忆”如何存储?如果我有多个设备,各装了一个 AI Agent,它们如何共享记忆?
你就会发现原来 Web3 中搞过的“数据上链”,关系上链,DID,P2P 网络等等,都有新的意义和场景。
结语
复用我 21 年一次关于 AI 和区块链分享的结语,对 AI 更友好的互联网,也是对人类更友好的互联网。那时候还只是个脑洞,但现在未来已来。