2025年真的是人工智能代理之年吗?
2025 年 1 月 5 日,OpenAI 首席执行官 Sam Altman 在其个人博客中勾勒出他对 2025 年的愿景,宣称 “2025 年,我们或将见证首批 AI 智能体‘入职上岗’,并切实改变企业的产出效率”。他的这番言论,奠定了 2025 年整个人工智能行业的发展基调。
但 AI 智能体在 2025 年是否真的走进了职场?答案可以是绝对的肯定,也可以是完全的否定 —— 最终定论,取决于你询问的对象。
Bluetuple.ai 的主权人工智能与安全顾问 Michael Hannecke 表示,如今 “所有人” 都在研究如何运用 AI 智能体,“但同时也存在一种幻灭感:这件事远非想象中简单,并非把 AI 技术随意用在任何场景,就能立刻发挥效用”。
编程类智能体实现突破
尽管多个行业都对 AI 智能体表达了兴趣,但程序员与软件工程师群体显然走在了前列。《Digital Trends》媒体集团的产品与工程高级总监 Brandon Clark 便是这一趋势的拥护者,他已将自身工作全面迁移至 AI 工具平台,如今在绝大多数工作场景中,都对 AI 智能体的能力充满信任。
“我每天都用 Cursor 开发代码。”Clark 说。他还频繁使用 Anthropic 的 Claude Code,在两款工具间切换操作 —— 这不仅是因为他根据不同任务的特性,对二者各有偏好,同时也是为了避开工具的使用限额,这一细节也直观反映出他使用 AI 智能体的高频程度。“有时 Claude Code 的令牌会用完,这时我就切回 Cursor,继续完成工作。”
和许多程序员一样,Clark 愿意接受并使用 AI 智能体,一定程度上源于其专业背景。他拥有多年使用集成开发环境(IDE)软件的经验,而 Cursor 这类融入 AI 技术的集成开发环境,将智能体式人工智能以一种相对便捷的方式,融入了工程师现有的工具体系与工作流程中。
他对 AI 智能体的快速接纳,也印证了这类技术在处理部分软件工程任务时的适配性。例如,测试代码的作用是通过输入已知的正确参数、验证输出结果,来确认软件运行是否正常。编写测试代码是一项重要但重复性高的工作,通常不需要创新性的思维,这也让这类任务更易由 AI 智能体完成。
“现在我甚至可以完全不参与测试代码的编写工作。我会在 AI 系统的指令中明确要求,每当它开发一个新功能,必须同步编写对应的测试代码;同时在编写完成后运行测试,若发现任何问题,自行完成修复。”Clark 说。
此外,新的 AI 跨软件集成技术的出现,也让程序员的工作效率得到了进一步提升,例如 Anthropic 于 2024 年 11 月推出的 Model Context Protocol(MCP)服务器,以及 Google 于 2025 年 4 月发布的 Agent2Agent 协议。这类技术支持 AI 智能体调用各类软件,完成工作任务或验证工作成果。比如 Cursor 搭载了可作为 MCP 服务器调用的浏览器工具,从事网页开发的 AI 智能体可通过该工具,检查自身的开发成果。
其他领域智能体:构想易,落地难
对 Clark 而言,2025 年无疑是 AI 智能体的元年。他在年初便开始尝试使用各类 AI 智能体,而随着更优质的模型发布、聚焦 AI 的编程工具持续升级,其使用体验也不断优化。但另一些从业者,却有着褒贬不一的使用感受。
身处德国的 AI 顾问 Michael Hannecke 表示,2025 年各行业对 AI 智能体的兴趣从未消退,但当企业真正开始认真考量技术落地时,往往会遭遇重重阻碍。
“我目前只见到三四个企业将 AI 智能体投入实际生产的案例。”Hannecke 说,“绝大多数企业仍处于开发、评估与测试阶段,这一切都源于 AI 智能体应用背后的不确定性。” 他提到,许多企业对 AI 自动化带来的风险,都表现出一种程度不同的 “德国式焦虑”。“关于 AI 智能体,还有很多问题,我们无法做到 100% 确定。”
诚然,德国乃至整个欧洲的相关监管政策,是造成这种谨慎态度的原因之一,但这并非唯一因素。开发 3D 设计软件的 Autodesk 公司体验设计高级经理 Jason Bejot,道出了一个诸多领域工程师都能产生共鸣的担忧:责任界定问题。
“这是最大的挑战之一。如何让 AI 智能体精准工作、落地执行,最终转化为可落地的成果?”Bejot 发出了这样的疑问。
Autodesk 旗下拥有一款智能体式 AI 工具 Assistant,可解答 AutoCAD、Autodesk Fusion、Revit 等 Autodesk 系列软件用户的问题。但就目前的产品形态而言,这款助手工具的定位也仅止步于 “助手”:它能完成信息总结、提供操作指导,却并非为自主主导工程设计、给出解决方案而设计。
“工作的责任链路必须清晰可溯。如果建筑师 A 借助这款助手工具更新了设计草图,那么该建筑师仍需为这些更新内容负责。”Bejot 说,“因此,如何在全流程中明确这种责任界定,是我们始终高度关注的问题。”
弥合智能体应用与责任界定间的鸿沟
Clark、Bejot 与 Hannecke 截然不同的体验,恰恰凸显了 2025 年乃至 2026 年 AI 智能体应用的多元结果:对一部分从业者而言,AI 智能体的表现正如 Sam Altman 所预判的那般,已切实发挥效用;而对另一部分人来说,要让 AI 智能体真正落地赋能,仍有大量工作亟待完成。
斯坦福大学博士后研究员 Kiana Jafari 针对这一技术落地的鸿沟展开了专项研究。她参与撰写的一篇论文指出,在 AI 智能体的评估指标中,准确率、任务完成率等技术指标占比高达 83%。这类可验证、可系统化的指标,也与程序员 Clark 的使用体验相契合。
但技术准确率并非唯一值得关注的指标。“目前我们接触的大多数智能体式系统,从理论上来说,准确率表现都十分出色。”Jafari 说,“但当真正投入实际使用时,却会遭遇诸多阻碍。”
在那些从业者需要为工作结果承担个人责任的领域,即便是技术准确率达到高标准的 AI 智能体,其表现也难以满足实际需求。Jafari 与医疗行业从业者的访谈,也明确揭示了背后的原因。“他们所有人都表示:‘哪怕这款 AI 工具有 0.001% 的出错概率,最终承担责任的还是我,一旦出现问题,后果都由我来承担。’” 这一现状,也让 AI 智能体的角色从主动执行,退回到了辅助建议的位置。
这一现象也解释了行业对 AI 智能体的接受度为何存在巨大差异:有人视其为近乎无弊端的生产力助推器,有人认为其前景向好但尚处初期,还有人将其视作存在本质风险的技术。而现实是,AI 智能体的定位究竟如何,最终取决于其被赋予的具体任务。
“人机协同的模式仍不可或缺。”Hannecke 说,“2025 年,整个行业都在不断尝试、打造原型;而 2026 年,将是我们把 AI 智能体投入实际生产的一年,也会在技术规模化落地的过程中,发现并解决那些必须面对的难题。”
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
