懂行业AI:以KG训练智能体(Agent)
1 认识懂行业AI
懂行业AI的目标是将企业中宝贵的专家智能,以结构化知识形式沉淀下来,使AI 不仅具备聊天或分类能力,更能在具体情境中进行决策。于是,企业得以将人的经验转化为可复制、可稽核、可优化的资产,进一步降低风险、提升效率,并实现个人化与长期优化,形成企业的护城河。
懂行业AI建置的途径有很多,本文采取的途径是一套由可解释性的KG(知识图),结合可学习模型(如GNN/RL),还可以连接到可互动环境DT(数字孪生),形成一个死循环系统。如下图所示:

这途径不仅提升AI 决策能力,更能促进人类专家反思与知识演化,形成AI 与人类专家共同进化的良性循环。它扮演一个行业智慧决策平台。其核心元素是:
1.1 知识图谱(KG):提供语意理解与推理基础
● 建立行业性KG,表达行业数据(如中医、建筑、医疗记录)。
● 基于三层KG 架构,转换成任务型KG,针对特定目标撷取语意。
1.2 图神经网络(GNN):将图数据转为可学习嵌入向量
● GCN / GAT 处理节点关系与特征融合。
● 可进一步进行相似性分析、连结预测、反事实连结等。
1.3 强化学习(RL)–为智能体(Agent)学习策略与决策
● 定义环境、状态、行动、奖励。可结合DQN 进行训练。
● KG作为背景知识,提升策略合理性与人类可接受性
1.4 数字孪生(DT)–与真实世界连结,实现模拟与互动
● 将环境模型化为具反馈机制的DT(Digital Twin),融入实体设备、传感器数据或历史操作纪录。
● DT 可成为智能体的学习平台,也可接收AI 决策反馈。
2 以KG表达领域专家的智慧
知识是人类理解和进步的基石。随着世界不断推动数字转型,互联互通日益加深,信息量和复杂性呈指数级增长。在这个信息丰富的环境中,组织、链接和理解数据的需求已变得非常重要。这就是知识图(KG:Knowledge Graph)发挥功效之处。
例如,中华文化里的五行知识里,五行中的每一种元素都具有独特的属性。元素之间的关系会增强或抑制我们生存发展的能力。五行之间有两种相互作用的循环:相生与相克。此外,还可以连结到十二生肖,如下图所示:

这些领域知识形成一套独特的生肖文化,不仅用于纪年,还融入了婚姻择配、本命年、祈福、春联、绘画等各种民间信仰和艺术创作中。而且,KG 恰好适合于表达这种网状结构的知识。
3 把KG纳入RL强化学习的环境中
强化学习(RL: Reinforcement Learning)是一种机器学习方法,其中智能体(Agent)透过与环境(Environment)互动来学习最优决策,并因其行为获得奖励(正向)或惩罚(负向),从而模拟人类的试误学习过程,以最大化长期收益。
强化学习环境扮演着Agent 与其试图掌握的世界之间的桥梁。每一步,Agent 选择一个动作(Action),而环境则会以新的状态(State)和奖励(Reward)作为响应。如下图所示:

(图引自:https://datatonic.com/insights/reinforcementlearning-identifying-opportunities-use-cases)
此时专家们发现到,KG透过提供上下文信息、提高预测准确性和促进数据沿袭跟踪,对RL强化学习具有很大的优化效果。例如,可以把< 五行+ 生肖> 的KG融入到RL学习环境中。如下图:

这种结合KG 的RL 学习环境,就具有下述优点:
● 语意感知:状态空间包含来自KG 的五行语意。
● 策略导向:奖励函数引导Agent 偏好合理、合宜的配对。
● 学习解释性:可以解释Agent 为什么推荐这对配对。
于是,让Agent 学习领域知识,而极可能成为的< 懂婚姻配对> 专家了。
4 实践范例
兹以「护理夜间巡房」机器人为例,演练如何建立KG+RL 学习环境,来让NurseAgent 学习「护理夜间巡房」基本流程和任务。夜间巡房是医院大夜班护理人员在深夜对病房进行定时或不定时的巡视、观察与照护,主要确保病人生命安全、处理紧急状况、给予必要治疗,并记录病人状况,以维护病人健康,也包括应对病人需求与突发事件。
4.1 建立行业KG
首先,把「护理夜间巡房」的流程,整理成一张护理思考地图:当下处于哪个会话(state) →这一刻最重要的照护目的(intent)是什么→哪些行动(action)可以达成这个目的。于是就可以定义KG 的节点型态(Node type),如下图所示:

接着,继续萃取专家知识里的三元组(Triple),即可定义出各节点的边。如下图所示:

除了< 结束班次> 之外,这KG 里每个状态节点有其质量链接,表示此阶段(状态)本身的自然倾向或目的。在每一步执行时,环境会查该节点对NurseAgent所选的action 是否「符合目的」,并给予相应奖励。这让每个「状态」不只是流程位置,更具有知识意义。
于是,这些知识透过KG 形式建立后,NurseAgent将从KG 中抽取关系、形成状态转移的逻辑,然后透过RL学习来提升其决策能力。这样将专家的KG(结构化知识) + RL 强化学习(动态决策)结合,打造出可自我学习与进化的NurseAgent,成为「护理夜间巡房」的好帮手。
4.2 与LLM一起建立RL学习环境
一旦建立好了KG,不论KG 的格式是*.json、*.bin或.png 等,一般的LLM(如ChatGPT、Gemini)都可以看懂,然后迅速帮忙撰写Python 程序代码,来建立一个RL 学习环境:

基于这个KG+RL 学习环境,就能展开NurseAgent的学习流程了。夜间巡房不是一串动作而已,而是每个时刻都有一个优先照护目的,而所做的每个行为(动作)都必须能完成那个目的。
在这学习过程中,其反复练习「在每个巡房阶段,做什么最合理」。亦即,让护理NurseAgent 在一个可控的夜间巡房模拟情境里,反复演练很多次,最后把最有质量的巡房流程学出来并存成一份可用的“经验表”(如Q-table)。当学习完成了,就检测看看其学习成果,如下:

从这输出可以看到NurseAgent 已经学会了一个简单的夜班巡房流程:
● 交班开始:先做准备(备物、确认设备)。
● 巡房:以安全为主。
● 量测生命征象:以评估为主。
● 纪录:撰写护理纪录。
● 下班结束。
5 结束语
在本范例的懂行业AI 系统建置中,KG 成为可学习的专家规则,而且让AI 决策逻辑具有可解释性。在学习过程中可逐步观察,每一步执行的结果和奖励信息也都明显可查,于是让夜间巡房任务流程具体贴近实务应用。
(本文来源于《EEPW》202601)
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
