人工智能代理何时能准备好实现自主业务运营?
AI 智能体的应用现已随处可见,且自主性正不断提升。从网页自主导航到通过递归方式优化自身编程能力,智能体式人工智能有望重构数字经济格局、重新定义互联网的形态。
但在企业场景中,AI 智能体的应用却潜藏着巨大风险。从单纯的能力增强转向全流程自动化,这一转变本身就充满不确定性,尤其是当 AI 智能体被赋予全权执行关键业务操作的权限时 —— 小到完成一笔简单的金融交易,大到协调复杂的供应链体系,均面临着未知风险。
为降低此类风险,卡内基梅隆大学与 Fujitsu 的研究人员研发出三项基准测试,用于评估 AI 智能体在无人监督的情况下,是否具备足够的安全性与效能以开展企业运营工作。该研究成果于 1 月 26 日在新加坡举办的 2026 年 AAAI 人工智能大会的一场专题研讨会上正式发布。
安全为先,打造场景化基准测试
第一项基准测试名为 FieldWorkArena,主要针对落地于实际作业场景的 AI 智能体进行评估,重点覆盖工厂、仓库等物流与制造业场景。该测试会测算 AI 智能体在检测安全规则违规行为、作业流程偏差,以及生成事故报告等任务中的准确率。举例而言,一款用于核查高风险区域个人防护装备(PPE)佩戴合规性的 AI 智能体,需要具备多重能力:理解个人防护装备的相关标准、识别区域内的工作人员、分析人员的穿戴情况是否符合标准,并统计合规人员的数量。
与传统仿真测试不同,该基准测试全部采用真实的数据源,包括作业手册、安全规章制度,以及现场拍摄的图像和视频资料。日本庆应义塾大学教授 Hideo Saito 并未参与此项研究,但作为该专题研讨会的组织者之一,他强调了为智能体式人工智能基准测试收集输入数据集时,数据隐私保护的重要性,“尤其是当这类数据集计划用于商业、非学术用途时”。以 FieldWorkArena 的数据源为例,所有视频素材均经拍摄对象同意后获取,同时对人物面部及敏感作业区域进行模糊化处理,避免身份信息泄露。
研究人员选取了三款可同时处理图像与文本数据的多模态大语言模型展开测试,分别为 Anthropic 的 Claude Sonnet 3.7、Google 的 Gemini 2.0 Flash 以及 OpenAI 的 GPT-4o。但测试结果并不理想,三款模型的准确率得分均偏低。尽管这些模型在信息提取与图像识别方面表现出色,却仍存在生成幻觉内容的问题,同时在精准计数、测量特定距离等任务中表现乏力。
上述研究结果表明,企业亟需贴合自身业务场景、基于实际工作任务的智能体式人工智能基准测试。Fujitsu 研究院人工智能实验室高级项目总监 Hiro Kobashi 表示,正是看到客户对评估面向现场作业的微调后 AI 智能体效能的需求日益增长,Fujitsu 才牵头研发了 FieldWorkArena。他补充道:“客户对于大语言模型的应用始终存在疑虑与担忧,因此我们希望为他们提供完善、充足的基准测试方案。”

FieldWorkArena 的整体系统配置。
攻克幻觉难题,完善数据应用能力
FieldWorkArena 的相关内容可通过其 GitHub 代码库进行访问,而 Hiro Kobashi 透露,此次研讨会上发布的另外两项基准测试 ——ECHO(基于证据优先的幻觉观测基准)与企业级检索增强生成(RAG)基准,将在一个月内面向公众开放。其中 ECHO 基准主要评估视觉语言模型(VLM)的幻觉缓解策略有效性,这类模型主要用于解答与图像相关的问题,或根据视觉输入生成文本内容。测试结果显示,部分技术手段能有效减少视觉语言模型的幻觉生成问题,例如对图像进行裁剪,让模型将注意力聚焦于相关区域,以及将强化学习技术应用于模型的推理过程。
另一项企业级检索增强生成(RAG)基准,则用于评估 AI 智能体从权威知识库中检索数据,并利用这些数据优化生成回复内容的能力。该测试的核心评估指标包括:针对查询需求检索到相关数据区域的准确性,以及基于检索到的信息进行推理分析的正确性。
持续迭代,适配多元企业需求
Hiro Kobashi 及其团队表示,未来将进一步拓展现有基准测试的能力边界,以适配更多行业与应用场景。他说:“客户的需求极具多样性,单一的基准测试无法满足所有需求,因此我们需要研发丰富多样的基准测试方案。”
团队计划迈出的另一关键步伐,是对基准测试进行持续更新。随着 AI 智能体技术的不断发展,其在现有基准测试中的得分也会逐步提升,直至进入发展瓶颈期。而这一信号将表明,行业需要更新、更全面的基准测试方案,为更优质的企业级 AI 智能体研发指明方向。
关键词: 人工智能代理 智能体 FieldWorkArena 大语言模型
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
