AI Agent:从学术概念到增长驱动工具
从左到右依次是周健、孙志明、李博杰、孙林君、胡一川
在硅星人首届AI创造者大会(ACC 2024)上,五位AI Agent领域的先行者展开了一场关于技术落地与商业化的深度对话。来也科技联合创始人胡一川、实在智能创始人&CEO孙林君、汇智智能创始人&CEO孙志明、澜码科技创始人&CEO周健,以及主持人、AI创业者李博杰共同探讨了一个核心问题:AI Agent如何从学术概念真正转变为驱动企业增长的工具?从Agent的本质定义,到大模型带来的新机遇,再到To B与To C的商业化路径,五位嘉宾用一个个鲜活的案例,为我们揭示了AI Agent的发展现状与未来可能。(文章约15000字,阅读时长约30分钟)
目录:
AI Agent 到底是什么? 大模型能力对AI Agent 的助力针对金融、HR等垂直领域的Agent应用AI Agent, To B还是ToC Agent应用是否能形成微信式网络效应
以下为对话实录:
李博杰:大家下午好。我是今天的主持人李博杰,曾是华为天才少年,现在是一名AI创业者。
周健:我是周健,澜码科技创始人。我们公司专注于AI Agent平台的开发。
孙志明:我是孙志明,来自江苏汇智智能,我们致力于打造Agent创业平台。
孙林君:我是实在智能的孙林君,我们创业已有几年时间,一直在流程智能体领域探索。
胡一川:我是来也科技的联合创始人和CTO胡一川,我们的理念是”AI Agent for everyone”。
AI Agent 到底是什么?
李博杰:AI Agent是什么?有人觉得是有趣的,有人说是有用的,各位老师有什么看法?
周健:这个概念本身已经很久了。有一本教科书讲过AI Agent,之前更多的是讨论它如何下围棋或打游戏。本质上,AI能够感知环境、改变环境并做出决策。现在,我认为ChatGPT给大家带来了许多新的东西,但现状与理想之间仍存在较大差距。最近,Gartner发布了新的趋势报告Agentic AI , 认为AI Agent 的发展似乎是从0到1的过程。我们最好采取一种渐进的策略。我认为这是一个逐步进化的过程。或者说,在某种程度上,它应该拥有自己的领域和记忆。
孙志明:每个人心中都有对AI Agent的定义。在我眼中,未来的AGI时代将是Agent的天下,RPA等都是Agent的早期阶段。Agent时代究竟什么时候会到来?我们这些创业者把Agent作为当前的哪个阶段, AI Agent到底是什么?我认为它是未来的一个形态,当下我们处在一个什么样环境中的一个思考。
孙林君:我们官网上有一段话,我们产品经理刚开始自己写了一个Agent的定义,很晦涩。后来就问GPT4:“你用通俗的语言给我解释一下什么是智能体。”它的说法是,智能体——你可以把它理解成人类的助手,它可以按照你的意图,帮你完成特定的工作和任务。Agent从现在来看,它是人工智能角度的一个术语,一个代理,代表你完成任务的一个东西。
实在智能创立以后,我们进入到数字员工这个赛道,我们当时给客户讲,未来咱们会有很多数字的员工,帮我们去完成很多工作和任务。最开始我们从RPA(机器人流程自动化)切入,RPA做规则化任务,是以机器人的形式出现的。机器人智能化的属性加得越来越多,它就越来越智能,比如说我们加OCR(光学字符识别),加自然语言理解,你发现它的基础形态不变,智能化属性在变,到现在大模型发展到非常火热的今天,它进入到智能体的阶段。反过来我们看,数字员工对于企业和客户来讲很容易理解的概念,低阶形态是RPA,高阶形态是智能体,而智能体从人工智能角度来看的术语,我大致是这么理解的。
胡一川:从通俗易懂的角度来讲,有一个定义非常恰当:AI Agent,是一种能够端到端帮助用户完成复杂任务的形态。它与今天我们所见的ChatGPT等大模型产品最大的区别在于,AI Agent真正能够端到端地完成复杂任务。今天我们利用大模型已经可以进行出色的文案撰写。例如,如果我是一名市场营销人员,我可以利用这些工具撰写出高质量的触达客户邮件。从市场营销的角度来看,端到端的流程是从最初的客户获取、客户分析、客户触达,到客户沟通,这一系列流程是今天没有任何单一产品能够实现的。因为这一流程是端到端的,而且非常复杂。我们看到虽然管像ChatGPT这样的产品拥有庞大的用户群体,但它们很难在企业中被应用于端到端的复杂流程。
大模型能力对AI Agent 的助力
李博杰:最近一个月有很多大模型领域最新的进展。OpenAI o1提高了推理能力,GPT4o支持实时语音通话,各位老师认为,最新的大模型能力,会对AI Agent有怎样的帮助呢?
周健:在我看来,今天的大型模型从输入输出的角度来讲,它们大致可以分为几个维度:纯文本处理、多模态处理,无论是图片输入还是生成图片和视频都还是off line 的。目前,在我看来,除了纯文本处理之外的其他两类模型在实际应用中还不太成熟。因为我们的服务流程是在企业环境中,对准确率有很高的要求。现在的问题仍然是,AI必须达到一个阈值,通用性AI如果没有达到那个阈值,就无法在实际中使用。当然,作为娱乐是可以的,但如果想要在端到端的流程中使用很难。我们目前只采用了纯文本模型,客户一定会要求我们支持,我们会支持一下。但对于主流产品,我们完全不接触,我们心中有一个标准,我们认为在某个点上,这个模型可能对我们有用,我们有相应的数据集。如果真的发展到那个水平,我们就会开始研发,但在那之前,我们不会进行研发投入。
李博杰:您觉得到什么时候到真人的水平,还远吗?
周健:我认为这个问题本身可能不值得去解决。看看Adept AI已经融资3.5亿美元,从商业角度来说,如果投资1亿美元就能做出来,那自然可行。但如果需要投入10亿美元,我们为什么还要去解决这个问题呢?特别是当我们预见GUI界面可能会消失的情况下。这是一个过渡性的问题。实际上,我更看好的是另一个方向:到明年年底,端侧模型很可能达到GPT-4的水平。届时,手机APP的形态会发生融合,这才是我愿意押注的方向。
李博杰:您说端侧3B的模型。
周健:现在是通义千问的72B,在中文上已经有4的水平了,再隔12个月,7B也不奇怪。
孙志明:我们做Agent平台,并持续关注前沿技术。技术发展日新月异,我们每天都能在行业中感受到变化。这些技术在实际场景中的应用,尤其是在特定环境下,面临许多挑战和技术上的限制,这些问题也困扰着AI Agent领域。随着端侧模型的出现,我认为在AI Agent市场中,这可能是一个类似于iPhone时刻的转折点。
目前,我们为企业提供定制化需求,从创业者的角度来看,项目的推进速度相当缓慢。早期的RPA技术追求的是什么样进步?三个月前我们能感知到什么?我们现在更多地专注于开发自己的垂直模型。此外,还有模型的训练,这些模型的训练效果并不逊色于大型模型供应商提供的产品。在特定的环境下,客户更倾向于选择我们的解决方案。大型模型厂商发布的新闻,在实际场景中,从商业化的角度来看,和技术如何结合?
针对金融、HR等垂直领域的Agent应用
李博杰:您觉得现在RPA工具,您公司的两个产品,能做到比70%以上的真人还准确的操作率吗?
孙志明:在特定任务领域,我们确实已经能达到这个水平。但对于复杂任务,还存在挑战。我们面临的一个主要问题是训练成本过高,即便我们想大规模采购GPU芯片来提升算力,在当前环境下也是力不从心。
从左到右依次是周健 、孙志明、李博杰
孙林君:最新成果肯定是有促进作用。首先,大型模型被视为智能大脑,它们非常强大,知道如何执行任务。但当你要求它们执行时,它们可能会告诉你需要分成十二步来完成,但实际上它们并不能直接操作。对于人类的要求来讲,我们希望更进一步,只需下达一个指令或说一句话,事情就能完成。
接下来该如何行动?我们看到OpenAI的发布会上,有令人印象深刻的演示,展示了大型模型如何调用接口来完成任务。这种效果非常好,但在真实场景中,开发接口的成本非常高,有时接口甚至不存在。例如,如果是一个人,看到界面就知道如何操作,只需使用鼠标和键盘就能完成任务,无需调用接口。如果将Agent视为一个人,是否可以相似的方式直接操作电脑来完成任务?
我们注意到Claude 3.5的成果,每个动作都会截取一张图,分析图像上的内容,决定下一步动作,然后输入并点击以完成动作。实际上,我们的产品在去年8月份就已经具备了这种能力。当然OpenAI的影响力非常大,它使用纯粹的大型模型能力,速度可能会偏慢,有时会出现卡顿,但证明了大型模型具备了这种能力,即能力涌现。这包括任务分解能力、自动生成代码能力和推理能力。随着多模态技术的发展越来越成熟,你会发现它们能轻松完成每个页面上当前的动作,并导致下一个结果。基于此,这项技术在人机交互上将是一个巨大的突破。
大型模型不是一种产品,客户购买了大型模型后发现,在实际使用时需要许多外围功能的配合,才能真正发挥产品的作用。这些外围功能的配合需要许多能力的开发,将其整合成一个为我们所用的智能化产品,这是许多创业公司能够做的有价值的事情。因此,在这两个因素的推动下,智能体目前处于一个非常火热的状态。
李博杰:我追问一个技术问题,您认为纯视觉方案是指仅通过图像识别来执行操作,还是指识别图像中的具体元素,将其内部代码提取出来进行操作?
孙林君:我介绍一下我们的理解,不代表主流。 这项技术涉及在浏览器上安装一个插件,用于解析浏览器的源代码,识别界面上的各种元素,例如搜索框、输入框、对话区域、表格下载区域等高级对象。在提取出这些对象之后,如果我想预订酒店,系统会找到这一步骤应该操作的元素,并最终完成整个流程。
然而,如果涉及到SIS客户端,情况就不同了。比如要解析一个高级对象,而我们在编写代码时采用最普通的方式,用二进制的方式来解析,实际上是无法实现的。在这方面,我们的理解有所不同。RPA的一个优势在于,几乎所有的动作都由操作系统的组件完成,相当于我们有了积木块,这些积木块是原子化的操作能力。如果我们让大型模型掌握了使用RPA的能力,并结合任务拆解和推理能力,它就可以完成任务。在我们的方案中,我们把大型模型之外的一些能力集成进来,形成一个自主智能体的产品,而不是直接使用大型模型的纯原生能力,这个效果会更好。
胡一川:当前模型排行榜上的最高分数是20.7分,与人类的75分相比,差距显著。这里存在一个核心问题:尽管人类操作UI依赖于视觉,但目前的模型在这一点上存在一个主要缺陷。为了通过视觉方式操作UI,模型必须精确地输出它想要操作的元素的坐标。这个任务的难度相当于让一个大型语言模型识别出”strawberry”中有多少个字母“R”——模型的原理决定了它在这方面的表现会非常有限。当模型接收到一张截图时,它并不具备准确找到目标元素坐标的能力。依赖当前的技术方案,这个问题仍存在明显缺陷。即使拥有大量数据和更强的泛化能力,模型在坐标定位上的准确率也难以达到90%,更不可能接近99%。
纯视觉方案虽然模拟人类的视觉处理,但它存在缺陷。如果把RPA和工程化的方法结合起来,一定会有所帮助。例如,RPA本身能够以几乎百分之百的准确率执行流程,并且可以精确定位界面上的任何元素。问题在于,如何把这种输入和输出在大模型的框架下,无论是在训练阶段还是推理阶段都能加进去,这是我们接下来需要研究的课题。如果这个难题能够得到突破,它一定会给整个行业带来巨大的帮助。
李博杰:刚才提到这么多大模型的进展,好多创业者都有一样的担心,大模型会不会哪天突然进步一大步,原来做了很多工程优化就白费了。
周健:我们在创业初期的时候,也十分担心这件事情。我记得GPT-4发布时,我凌晨3点才下飞机,收到了一大堆消息,问我该怎么办。我觉得AI非常有意思,它有点像文艺复兴时期,你会思考到底是什么。我一直在强调专家支持或私域数据的重要性,为什么这么说呢?
大型模型的原理有点像它背下了图书馆里一百万本书的内容,但一个人即使背下了一百万本书,也未必能成为哲学专家。本质上,我们每个人都有自己的信念,关于什么是真实的,这也是一个结构。很多时候所谓的反思,并不是因为事实变了,而是因为我们的信念变了。在这个意义上,这部分的沉淀以及它与已有的私域数据的结合是非常重要的。有些数据并不在互联网上,比如薪酬数据。显然,一个HR在看简历时,会根据经验判断应该出多少钱,这里面有一种内部知识。至少在现有的大型模型中,是无法吸收这种知识的。从纯粹的人类所谓的隐性知识的角度来看,我们其实是可以吸收的。至于是否一定要使用大型模型,这还有待商榷,除非有新的架构,还有成本的问题。在人类历史上,从未发生过这种事情,即使是半导体芯片也没有发生过这种事情。我们还是需要找到自己的边界,找到自己的竞争优势,或者说它的成本模型决定了它不会这么做。这是一个很好差异化的点。
李博杰:如果是在特定领域的场景中,你提到有一些领域数据和专有知识。对此,您认为是采用Prompt的方式更好,还是使用RAG?应该选择哪种方式?
周健:那些都不对。我们自己内部有这样一个模块,我还没有很好的能够说出,领域模型,世界模型,时空模型,我现在还在找那个词,但是本身既不是知识图谱,也不是RAG。
李博杰:希望周老师给我们发布出一篇诺奖级的成果。
孙志明:我从事人工智能的第一天起,我就在思考AGI会带来怎样的变革。过去两年里,技术的迭代速度超出了我的想象。今年年初发布的Sora,去年年底时我们认为生成视频还需要三年时间。在我看来,生成式人工智能是通往AGI的过渡性产物。无论是芯片、算力还是能力问题,尽管技术迭代速度很快,这种技术迭代速度在架构体系上实现的逻辑是必然的。我们不必过于担心,因为技术的迭代,即便带来颠覆,也是在原有基础上的颠覆。作为创业者,我们不需要有这样的焦虑,但需要有这样的思考。
现在,我们正处于AI时代,所有的逻辑关系和运作逻辑都经历了根本性的转变。从市场的角度来看,技术迭代的速度与市场客户的认知能力之间存在着显著的差距。从这个角度来看,我们不需要过分担心GPT-3.5是否会取代RPA,图像识别能力的提升RPA是否会被淘汰。在这个过程中,可能会出现更好的解决方案,这正是我的思考方式。
孙林君:如果我们观察股票,你把时间刻度缩放得很密集时,趋势会显得特别明显,几乎变成了一条直线。但当你放大时间刻度,你会发现它变成了一条极其曲折的曲线。在现实生活中也是如此,如果你理想化地认为一旦通用技术出现,所有其他事物都会失去意义和价值。但实际上,在技术落地的过程中,会遇到许多困难和需要克服的痛点,现实是非常骨感的。
当然,我们并不是说通用人工智能时代不会来临,它一定会到来,只是会在未来的某个时刻。一些社会学家研究,未来可能只剩下服务业这一种职业,所有的行业都将被颠覆。在通往这个目标的过程中,会有许多中间状态,而这些中间状态正是我们创业公司需要努力推进的。
回看我们所经历的阶段,最初的几十年,我们在算法上遇到了瓶颈,难以突破。今年的诺贝尔奖授予了当时研究BP神经网络的专家。现在我们进入了算力瓶颈的时代。再过几年,我们可能会发现,数据将成为新的瓶颈。为什么呢?公开数据可能已经被耗尽,大家都已经使用过,AI能生成的数据也都出来了,再继续就是过拟合了。有很多数据是行业的专有技术,它们构成了行业的壁垒。无论是在RPA还是在其他行业,我们结合Agent去做的事情,这个时候你的行业专knowhow非常有价值的。再加上人工智能技术的加持,能够发挥巨大的价值。因此,从这个角度来看,这个愿景并不可怕,我们一点也不害怕将来有一天会被替代。
李博杰:你刚才提到数据量不足的问题。现在,OpenAI的O1方法通过生成大量数据,并在实际环境中进行广泛交互。你认为这种方式是否有前景?
孙林君: 肯定是有希望。回顾AlphaGo时代,我们看到了它所起到的作用,但也发现它确实存在一些瓶颈。例如,强化学习并没有我们想象的那么鲁棒。另一方面,引入人类经验的模型是有上限的。这个上限要靠智能化技术自己去突破。如果要靠它自己去突破,这件事情还需要技术的进一步演进,仍然有很大的发展空间。
胡一川:我的观点更为乐观。随着底层模型能力的演进,它为创业者带来了更多的机会。我举两个例子来说明这一点。我们看到大模型的编程能力越来越强。在GPT-3.5和GPT-4发布的时候,去年GitHub Copilot就非常火爆,据说已经有数百万的付费用户。随着Claude 3.5编程能力的进一步提升,像Cursor这样的一个非常年轻的团队,开发出了面向开发者的AI开发工具。所以,模型作为一种底层能力,是不可能满足所有用户和工作需求的。因此,这为创业者提供了巨大的机会。
我再举一个例子,最近有一个美国高中生开发了一款名为“卡路里AI”的应用,利用多模态模型,可以对食物中包含的卡路里进行比较准确的判断。他开发了一个非常简单的应用,一夜之间就爆红了,据说现在每月有几十万美金的MRR(月度经常性收入),这是一个17岁高中生的杰作。大模型让AI真正平民化,这件事情正在实实在在地发生。
AI Agent, To B还是ToC
李博杰:您觉得Agent这个事情,To C是不是一个好时机?未来会怎么样?
胡一川:我个人觉得To B、To C都有机会,只是To B不一样。在To B市场中,从生产力工具的角度来看,Agent如何能够降低成本、提高效率、增加收入是一个关键点。但这里的挑战在于,企业对稳定性和准确性的预期会更高,正如孙总前面提到的,你的边界必须非常清晰,并且必须在划定的边界内高质量地完成任务。这是To B市场既有机会又有挑战的地方。而To C市场的场景则更为多样,今天的大模型都有很大的机会去创造出一些颠覆性的应用。
孙林君:我们的产品也面向消费者(To C),但它采用的是KP(关键客户) To B的模式。使用RPA软件的用户很多是财务、会计、人力资源、客服等领域的专业人士,他们有很多重复性工作需要处理。他们会自发地在互联网上寻找能够满足这些需求的产品,并下载使用。优秀的产品应该是C、B同源的。现在人工智能发展如此强大,我们未来和系统的交互就是通过自然语言,交互门槛降低到了非常低的水平,对使用体验的要求也变得更高。在这个过程中,如何让产品具备让消费者感觉良好的特性,这是我们坚持不断完善和迭代社区版的一个重要原因。
对于To C来说,场景相对简单,但对B端场景来说会相对复杂。对于实在智能来说,我们选择的路线是瞄准目前看来不那么复杂的任务。我们不会一开始就做一个超级复杂、需要用到人类各个环节专家知识的任务,但对于那些日常工作中重复琐碎的事情,我们可以先解决这些问题。
孙志明:我们最初是从To C业务起家的。去年,我们的To C平台刚刚上线,即便没有进行推广,第一个月吸引了300万用户。我们的API每天消耗十万,一旦我开始收费,用户数量就会下降,这给我带来了不少困扰。去年年末,我决定暂停To C产品的开发。目前,我们每天仍有约一万用户。
我们是一个高度自定义化的智能代理平台,起步非常早。我们当时开发了很多插件,并且自己编写代码。上线的速度达到了我的预期,但我没有预料到算力消耗会如此之高。那时,我们每月的算力费用高达几百万。因此,我开始转型,专注于To B业务,我们称之为智能体云。
我们公司的使命,是让AI的力量成为每个人的天赋。我希望在将来的AGI时代,每个人都能拥有智能代理助理,这是我的设想。在技术层面,我关注模型的迭代和单个能力的发展,我会快速接入,将单个计算能力封装成特定的场景,面向教育类用户和第三类用户,满足他们实际的业务场景。因为这些用户根本不知道如何做智能体,他们对低代码没有概念,你只需要帮我解决问题就可以了。
周健:在我看来,B端和C端在商业模式上有本质的不同。从商业模式的角度来看,关键在于你为客户提供的价值是否值得他们愿意为之付出,以及成本。C端的一个主要问题是数字空间几乎没有摩擦力,用户切换成本几乎为零。在数字世界中,大厂是最大的玩家。从这个意义上说,我相信没有人会认为一个小公司能迅速地推出一个全民应用,这是不可能的。
我们必须选择一个特定的客群,这没有问题。但我们需要为这个客群提供足够大的价值。你的壁垒在哪里?你如何守住这个价值?从商业角度来看,这些都是必须考虑的问题。毕竟,我们毕竟是创业者,不是只想短期获利。我最终希望业务能够持续下去。在我看来,C端虽然有这种机会,但基本上需要结合线下。仅靠数字是不够的。
我知道一个朋友,他写了一些Prompt。他告诉我在深圳,他的壁垒是只有他这样的人才存在。他做美甲,卖给纽约的LGBT群体和直播的人。他有一些关系,让佛山的人加工。他的壁垒在于佛山的群体和纽约LGBT直播群体之间的“社会空洞”,这种联系是独特的,他可以利用这种联系。这就是构建这种商业模式的基础。如果你没有这样的禀赋,那就无法成功。你只是想在数字空间随便做一个C端应用,这是不可能的。
B端则不同,B端有客群,要有价值主张,要有信任,客户也愿意回报。关键在于,建立信任的过程很慢,信息传递过程中往往会失真。这是To B业务的难点,即使有了AI,这个难点依然存在。从某种意义上说,我们需要想办法缩短这个链条,否则在这个时代,迭代速度慢,风险很大。我们需要考虑如何将一些不那么核心的价值点外包出去。这是我们自己的思考。
从左到右依次是周健、孙志明、李博杰、孙林君、胡一川
Agent应用是否能形成微信式网络效应
李博杰: 你刚才提到C端很难形成壁垒,但在Agent领域,有没有可能形成类似微信的网络效应,或者积累用户数据,从而建立壁垒?就像OpenAI之前提到的电影《Her》中,AI可以记录用户的所有记忆。如果用户切换到其他平台,这些记忆无法转移,这样的壁垒一下子就会变得非常高。
周健: 你说的是一个状态,问题在于如何实现。没有办法直接跨越时空达到那个状态,仍然需要一步步积累数据,而这个过程是需要成本的。当然,壁垒是存在的,但如何跨越它是很大的难点。
李博杰: 您认为,通用的应用创业公司是否很难成功?比如ChatGPT?
周健: C端几乎没有机会。
孙志明: 可以在单侧模型上开发一些特定应用,聚焦于特定场景。
周健: 如果能与物理设备绑定,就会有市场。
孙志明: C端还是存在一些机会的。
李博杰: 您认为这样的设备机会是不是在苹果、华为这些大厂手中?
孙志明: 不一定。硬件厂商有其独特优势,但在具体场景和用户特定需求上,他们的能力未必突出。尤其是在大模型支持下,手机具备这些底层能力,提供通用功能,大家都在发挥。可能会出现现象级产品,但这是一个三维的生态,不是单一的,很难一家独大。
李博杰: 感谢各位老师的精彩见解。今天的讨论非常深入,我个人认为AI Agent领域确实有巨大潜力。OpenAI也将Agent视为O1之后的下一个重要方向。Agent可能会在多个层面上改变人类生活。在实现杀手级应用的道路上,各位老师提供了很多宝贵建议。希望在现有技术条件下,能够开发出既实用又有商业价值的AI Agent,让它走进千家万户,为大家的生活和工作创造更多价值。