通用大模型同时表现出知识记忆和推理能力,但二者并不是两个彼此独立、边界清晰的模块。
更准确地说,大模型通过同一套参数,共同编码了三类能力:
- 知识与经验模式
包括事实、概念、术语、语言习惯和常见关系。例如,模型可能知道“EDFA会引入ASE噪声”“OSNR与误码性能相关”。 - 通用推理模式
包括比较、归纳、演绎、问题分解、因果分析、规划和反思。 - 任务行为与表达方式
包括如何遵循指令、组织答案、调用工具,以及按照什么格式输出结果。
因此,与其把大模型理解成“知识库+推理引擎”,不如把它看作一个将知识、推理模式和行为习惯共同压缩在参数中的系统。
知识与推理无法完全分开
很多所谓的推理,本身就依赖领域知识。
例如,让模型分析以下问题:
某中间站输入功率正常、输出功率下降,下游各站功率同步下降,故障最可能出现在哪里?
模型需要同时具备两类能力。
通用推理能力:
- 寻找多个异常现象的共同原因;
- 根据上下游关系定位异常源;
- 排除与现象不一致的故障假设。
光网络领域知识:
- 理解输入功率和输出功率的含义;
- 理解异常如何沿光链路向下游传播;
- 知道哪些器件可能造成全波功率同步下降。
没有领域知识,通用推理无法正确建立问题模型;没有推理能力,掌握再多知识也只能复述概念和定义。
因此,任务能力并不是知识与推理的简单相加:
任务能力 ≠ 知识 + 推理
它更接近于:
任务能力 ≈ 知识 × 推理 × 任务方法
其中任何一项过弱,整体任务效果都会明显下降。
参数中的知识不是可靠数据库
大模型不会像数据库一样,将每条知识精确存放在固定地址中。知识通常被分布式地压缩在大量参数及其统计关系中。
这会带来几个典型问题:
- 有时能够正确回忆知识,有时却无法稳定调用;
- 同一个问题换一种表达方式,答案可能发生变化;
- 容易混淆名称或含义相近的概念。
因此,大模型参数中的知识更像一种模糊的分布式记忆,而不是可靠的知识数据库。
这正是RAG的重要价值:将需要准确、实时、可更新和可追溯的知识保存在模型外部,在任务执行时动态检索,而不是完全依赖模型参数记忆。
通用推理能力也并非凭空产生
大模型的推理能力同样来自训练数据。
模型在大量文本、代码、数学题和推理示例中,逐渐学习到问题分解、关系比较、因果判断和多步生成等模式。
因此,大模型的推理能力也可以分为两类:
- 通用推理模式:分类、比较、归纳、因果分析和任务规划;
- 领域推理方法:代码调试、数学证明、医学诊断和光网络故障定位。
通用模型通常具备较强的第一类能力,但在具体垂域中,未必能够稳定掌握第二类方法。
这也解释了光网络领域为什么仍然可能需要微调。
微调的目标不是重新赋予模型通用逻辑能力,而是让模型学会:
如何将已有的通用推理能力,应用到光网络的拓扑关系、时序事件、物理机理和设备约束中。
对光网络垂域智能的启示
光网络智能系统中的不同能力,适合由不同组件承载。
能力 | 更适合的承载方式通用分析、规划与问题分解 | 通用大模型底座
光网络静态和动态知识 | RAG、知识库、知识图谱
光网络专家推理方法 | SFT、LoRA、专家推理轨迹
精确计算与实际执行 | 仿真器、专业算法、Skill、设备工具
因此,光网络垂域建设并不是在“知识”和“推理”之间二选一,也不是简单选择“RAG还是微调”。
真正需要解决的是:
哪些能力应该保留在通用模型中,哪些知识应该放在模型外部,哪些专家方法需要通过微调固化,哪些任务必须交给确定性工具执行。
通用大模型内部确实同时包含知识记忆和推理模式,但二者高度耦合,并不存在边界清晰的“知识模块”和“推理模块”。
对于光网络垂域智能而言,更合理的技术分工是:
- 通用大模型提供基础理解和推理能力;
- RAG提供准确、实时、可追溯的领域知识;
- 微调塑造稳定的专家推理方法;
- 工具和算法保证计算与执行的准确性。
知识决定模型能否理解问题,推理决定模型能否分析问题,任务方法决定模型能否稳定解决问题。