知识工程与记忆工程技术实践

本论坛在大模型与 Agent 快速演进的背景下,智能系统正在从“会回答”走向“会积累、会延续、会成长”。知识工程的重点,已从知识图谱、RAG 与知识增强模型,进一步拓展到记忆工程:包括长期记忆管理、多层记忆架构、动态上下文组织、记忆检索与更新、个性化建模、跨会话一致性、记忆治理与可解释回放等关键能力。
本次活动将系统探讨知识工程与记忆工程的融合路径,覆盖知识表示与推理、知识图谱、图数据库与图计算、知识问答、RAG、Agent Memory、Memory OS 等前沿主题,结合真实产业案例,分享从研究探索到工程实践的最新进展。

出品人:王昊奋
同济大学百人计划,特聘研究员,博士生导师。研究方向包括知识图谱、自然语言处理、对话问答机器人等。长期在一线人工智能公司担任CTO之职。他是全球最大的中文开放知识图谱联盟OpenKG发起人之一。他负责主持多项国家级和上海市AI相关项目,发表100余篇AI领域高水平论文,被引用次数达到2900余次,H-index达到26。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过10亿人次。目前,他担任中国计算机学会术语工委副主任,SIGKG主席,上海秘书长,中国中文信息学会理事,语言与知识计算专委会副秘书长,上海市计算机学会自然语言处理专委会副主任,上海交通大学AI校友会秘书长等社会职位。  
同济大学百人计划 特聘研究员/OpenKG发起人之一
AiDD技术委员会成员
出品人:熊飞宇
记忆张量(上海)科技有限公司创始人兼 CEO,上海算法创新研究院大模型中心负责人,本科毕业于华中科技大学,后获美国 Drexel University 博士学位。长期致力于以基本原理驱动 AI 系统创新,围绕“低成本、低幻觉、高泛化”这一核心目标,探索中国大模型技术演进与产业落地的新路径。
创立记忆张量后,带领团队提出并落地基于记忆分层架构的“忆³”大模型和记忆操作系统 MemOS,推动 AI 从一次性问答工具走向具备长期记忆、持续学习与协同进化能力的智能系统。作为国内记忆基础设施领域的代表性实践者,记忆张量已形成从底层架构到产业应用的完整布局,MemOS 云服务调用量位居国内第一,并获得招商证券、工商银行、中国电信等头部客户认可,实现数千万元项目签约。
曾在阿里巴巴集团业务中台和淘宝天猫集团负责数据智能与数据平台核心工作,主导构建国内首个千亿级数字商业知识图谱及知识交互零售行业大模型。其个人及团队成果曾获昇腾 AI 创新大赛全国总决赛金奖、年度 AI 基础设施卓越奖、浙江省科技进步奖等奖项,并在人工智能顶级会议和期刊发表多篇论文。
记忆张量 创始人&CEO
上海算法创新研究院大模型中心负责人
AI原生知识库建设与其在质效全域中的实践与应用
刘琮玮
腾讯PCG工程效能平台部 工程效能与AI算法研究专家
内容简介:
在大模型技术飞速发展的时代背景下,AI已经深度融入到了各个应用领域,并逐步成为不可或缺的关键组成部分,而“知识库”也随之成为了AI时代最重要的基础设施之一,在人机结合中扮演了极其重要的角色,即让 ""人"" 可以通过 ""知识(数)"" 更好的应用 ""AI(机)"" 并获得更好的应用成效。但在 知识库 建设上当前仍有不少挑战,知识从哪来?知识该怎么处理?知识该怎么用?这些关键问题都在阻碍知识库的建设,也成为了大模型应用的重要阻碍。
在此背景下,我们基于大模型能力构建了丰富完整/高质量/高可用 的AI原生知识库,作为大模型时代的重要基础设施,在各个应用场景中发挥关键的支撑作用,并成为AI时代人机结合的重要连接点。同时,知识库正经历从""被动存储""向""主动赋能""的重要转型,我们基于知识库构建了强大的原生能力体系,在让知识库效果不断提升的同时,沉淀出有核心竞争力应用能力,实现从“支撑”到“赋能”的关键转变。在本次分享中,我将详细介绍我们的探索历程,包含实际的研发应用经验,对AI技术的畅想与展望,以及我们在研发过程中沉淀的思考与方法,希望可以帮助大家更好的拥抱AI。

演讲提纲:
1. 背景与挑战:
1.1  从AI技术演进看知识库
1.2  知识库的守与攻
1.3  我们的愿景与主张
2. AI原生知识库建设方案及分层架构
3. 知识库分层构建方案
3.1 筑基石 – 全局视野构筑资产底座
3.2 炼真金 – AI驱动构筑核心壁垒
3.3 结智网 – 打造知识库的神经网络
3.4 开繁华 – 统一服务支撑百花齐放
4. 知识库在质效全域中的实践与应用
4.1 知识库赋能业务效率提升
4.2 知识库赋能业务质量提升
4.3 知识库的产品化和生态化
5. 知识库技术细节
5.1 知识转化与人机结合
5.2 知识库原生能力与核心壁垒
5.3 知识库图谱化与无向量检索
6. 未来展望

听众收益:
1. 可借鉴的“知识库”探索与构建历程
2. 知识库在质效提升上的实践经验
3. 可复制的研发应用方法论
4. 知识库与大模型在落地过程中的思考和经验
5. 对大模型未来的构想和规划
腾讯PCG工程效能平台部  工程效能与AI算法研究  服务于腾讯QQ业务质效提升。
专注于人工智能(NLP)技术,大数据技术与质效领域的结合,参与过多个质效项目从0到1的研发落地工作,擅长通过引入人工智能技术驱动业务质效改进,具备丰富的人工智能研发落地经验。目前,正致力于通过“大模型”技术驱动业务质效提升,探索质效大模型建设,质效Agent研发与落地,摸索“大模型”技术与质效工作的深度结合,希望通过这些前沿技术推动为业务质量内建与质效提升。
知识工程全链路评测:
构建知识分层化评估与其在企业级金融场景评测实践
刘伦豪杰
蚂蚁集团数字科技 测试开发专家
内容简介:
随着大语言模型(LLM)加速渗透企业核心业务,知识工程(KE)已成为解决模型“幻觉”、知识滞后等瓶颈,构建专业可信AI的关键。在金融等高严谨性领域,KE为智能应用提供“事实之锚”。然而,其“知识生产-知识服务”的全链路架构也引入了系统性的故障风险:
(1)“垃圾进,垃圾出”:离线知识生产(如数据源解析、分块)的质量缺陷从源头埋下隐患。
(2)故障根因“黑盒化”:在线服务的单一问题可能源于多个环节,传统评估难以精准定位。
本课题聚焦知识工程全链路评测的技术闭环,通过构建一套分层化、自动化的评估体系,推动知识工程从“主观感觉”走向“数据驱动”,实现从“可用”到“可靠+高价值”的跃迁。最后,将通过企业级金融场景评测实践,揭示该体系如何落地并创造可衡量的业务价值

演讲提纲:
1. 评测的战略价值与挑战
1.1 知识工程评测的特殊性与业务风险
 战略价值: 评测是确保知识工程能有效解决LLM“幻觉”、知识滞后等落地挑战的“事实之锚”与“质量命脉”,是企业沉淀核心知识资产的护城河。
 业务风险: 缺乏科学评测将导致知识库成为“不可信”的数据源,直接影响上层智能应用的决策准确性,在金融等高风险领域可能引发合规与资产损失风险。
1.2 评测失效的典型代表案例
- 主观评估的“感觉良好”陷阱: 依赖人工体验和主观判断,无法发现深层、偶发的系统缺陷,导致系统“带病上线”。
- 孤立指标的“只见树木”误区: 单纯追求某一技术指标(如检索准确率),而忽略了知识生产质量或最终业务效果,导致优化方向偏离。
- 静态评测的“刻舟求剑”困境: 一次性评测无法应对知识的动态变化,导致知识库信息陈旧,失去时效性价值。
2. 评测方案设计四要素
2.1 目标定义:场景化KPI拆解
- 定位业务角色: 首先明确知识库在具体业务场景中的核心任务(如:金融场景下“找得全、干扰少”)。
- 设定北极星指标: 基于角色定位,确立关键量化目标(如:召回率 > 85%,噪声率 < 10%)。
- 场景化目标分解: 针对不同场景(FAQ、文档召回、混合召回)对核心KPI进行侧重和细化。
2.2 指标体系:生产/消费/安全多维度指标
- 知识生产侧 (离线): 聚焦“原料”质量,包括文档内容/格式质量、切片质量(块内聚性/分离度)、数据安全等。
- 知识消费侧 (在线): 聚焦“服务”效能,覆盖从组件到端到端全链路。
- 端到端层: 回答正确性、回答忠诚性(衡量幻觉)、内容安全。
- 检索/排序层: 上下文召回率/精确率、nDCG、MRR等。
- 组件层: 查询改写效果、Embedding模型效果等。
2.3 数据策略:人机协同的测试集构建生成策略
- 核心原则: 遵循来源多样化、动态维护、高质量标注三大原则。
- 生成流水线: 采用“自动化初建 → LLM预标注 → 业务专家终审”的三阶段模式,在保证“黄金标准”质量的同时,大幅降低人工标注成本。
2.4 工具选型:自动化框架集成与可插拔设计
- 核心架构: 基于标准化的JSON数据流,构建可编排、可插拔的自动化评测管道。
- 能力集成: 支持灵活替换RAG链路组件、数据集,并集成主流评测框架与自定义指标,实现“即插即用”。
3. 评估全流程实践
3.1 协作机制:动静结合的双环驱动流程
- 静态评测环 (0 → 1): 针对新场景,通过共建基准评测集,建立科学可靠的“质量准入”门禁。
- 动态评测环 (1 → N): 针对日常迭代,通过自动化回归与增量评测,保障“效果无回归”并驱动持续优化。
3.2 白盒化:知识工程全链路的可视化追踪
 核心实践: 为每次请求分配唯一trace_id,记录其在流水线中每一步的输入和输出。
 可视化诊断: 实现从Query改写到最终答案的全链路可视化,进行“庖丁解牛”式的直观诊断。
3.3 策略设计:模块诊断与端到端验证结合
 自顶向下: 从端到端指标异常(如回答错误),下钻到中间环节指标(如上下文召回率低),初步定位问题区段。
 自底向上: 独立评估各组件(如Embedding模型)性能,确保基础能力达标,为上层问题排查提供依据。
3.4 评测方式:自动化为主、人工为辅的提效方案
- 自动化: 通过自动化评测管道实现大规模、可复现的持续评测,保障运营效率。
- 人工辅助: 专家在评测集“终审”和复杂Bad Case“归因分析”等关键环节介入,确保评测的深度与准确性。
3.5 报告输出:从数据到洞察的问题定位与优化建议
- 可视化报告: 自动生成多版本对比报告,直观展示指标变化趋势。
- 关联归因: 报告中的每个Bad Case均关联trace_id,点击即可跳转至白盒化追踪系统,为优化提供详尽诊断依据。
4. 场景化应用与效能提升
4.1 指导性调优:从评测到归因的批量对比与分析
- 缺陷归因模型: 建立“缺陷表现”与“可能根因环节”的映射模型,为问题定位提供“故障地图”。
- 量化归因策略: 运用指标下钻、最小单元对比实验(A/B测试)等方法,科学、定量地定位问题根源。
4.2 链路升级评估:以数据驱动优化决策
 实践案例: 以金融场景为例,通过基线评测识别出核心业务的效能瓶颈,再通过全链路归因,将问题定位至上游知识生产环节,最终通过治理源头数据,完成优化并由再次评测验证成效。
4.3. 工具链闭环:加速“评测-归因-优化”的迭代循环
- 闭环展示: 演示离线评测发现的问题(如低质量文档)如何指导在线服务(如低召回率)的优化,并最终通过在线评测验证成效,形成一个完整的质量反馈闭环。
- 核心价值: 证明科学的评测体系是驱动知识工程能力持续、高效进化的核心引擎。
5. 当前思考与下一步展望
5.1 思考总结:评测体系的核心价值
- 系统化: 覆盖知识生产到消费的全生命周期,实现端到端质量保障。
- 数据驱动: 用客观指标替代主观感受,实现科学决策与精准优化。
- 闭环优化: 形成从发现问题到验证优化的完整循环,是KE-Ops理念的成功落地。
5.2 未来展望:评测体系的三大演进趋势
- 评估维度演进: 从“静态质量”到“动态业务价值 (ROI)”。
- 评测方法变革: 从“人工抽检”到“LLM辅助的智能诊断”。
- 标准体系升级: 从“企业私有”到“行业公开基准 (Benchmark)”。

听众收益:
掌握一套可落地的评测方法论: 听众将获得一套从0到1构建知识工程全链路评测体系的“作战地图”和“工具箱”,包括如何设计场景化目标、构建分层指标体系、以及如何通过人机协同高效生成高质量评测集。
学会一套“庖丁解牛”式的缺陷归因技巧: 学习如何通过白盒化追踪、指标下钻等手段,精准定位复杂知识系统(如RAG)中“回答错误”的根因,究竟是源于知识生产、检索召回还是大模型生成,从而告别盲目调参,实现精准优化。
了解一套企业级的持续优化流程: 学习如何将评测从孤立的测试活动,转变为融入研发流程的KE-Ops持续性实践,包括建立跨团队(业务、算法、质量)的协作机制和自动化评测管道,真正实现“以评促建”的闭环。
蚂蚁数科质量部的资深测开工程师,目前主要负责蚂蚁数科知识工程平台开发测试,专注测试技术发展,在自动化测试、UI智能体、AI大模型评测、RAG效果与评测等领域有深入探索。先后从事区块链合同质量保障、租赁平台客服智能体效果评测、数科智能体平台知识工程的质量保障与评测工作。
京ICP备2020039808号-4 京公网安备11011202100922号