AI+金融系统研发

本论坛将围绕大模型赋能金融服务、智能风控体系构建、客户洞察与精准营销、用户体验创新等主题展开深度研讨。通过探讨行业典型案例与前沿技术实现路径,本论坛将帮助与会者洞察如何运用AI与金融业务深度结合,提升业务效率与风控水平,进而赢得竞争优势。          
出品人:程 相
信通院突出贡献专家,DevOps与研发效能专家,在大型银行从事金融科技工作十多年,有丰富的DevOps实践和研发管理经验,擅长业务研发、质量管控和研发支撑体系等领域。曾主导工行多个项目高分通过信通院 DevOps、BizDevOps认证,在多个业界大会担任出品人、发表公开分享,作为联合作者出版书籍《研发效能实践指南》、起草信通院研发效能度量标准。
中国工商银行 软件开发中心 部门副总经理
基于Spec-Driven的智能研发体系建设与落地实践
郑 凯
中国工商银行软件开发中心 研究员
内容简介:
工商银行紧随业界发展趋势,经过多阶段创新,构建了完善的智能研发体系,推动研发模式从AI辅助向人机协同方向演进,并积极尝试自主研发模式,形成了4+6+6的分层架构,打造了覆盖研发全生命周期的智能体矩阵,无缝融入现有工具链,创新性地实现了规格驱动研发模式的企业级落地,为科技人员提供了沉浸式的研发体验。通过建立科学的规模化推广模式,实现全体研发人员全面应用,显著提高了研发质量与效率。
       
演讲提纲:
1. 工商银行智能研发发展历程
1.1 演进历程
1.2 建设进展
1.3 落地成效
2. 技术支撑与关键能力
2.1 体系架构
2.2 模型测评与准入
2.3 知识工程
2.4 规约体系
2.5 智能体建设与扩展
3. 规格驱动研发的规模化落地落地
3.1 总体思路
3.2 流程演进
3.3 岗位智能体
3.4 运营度量体系
3.5 人才能力培养
4. 总结与展望
4.1 团队中心迁移
4.2 组织级趋势预判

听众收益:
1. 学习企业级智能研发体系建设思路与实践
2. 学习规格驱动理念的企业级落地与适配经验
3. 学习智能研发在企业内的一线开发推广经验,产生实效        
工商银行软件开发中心云计算实验室研究员、高级工程师,在云、分布式和AI领域均有深刻洞见,是工行智能研发体系建设的联合发起人和布道者,推动智能研发在行内演进与落地,相关实践多次入选IDC、AI4SE等行业标杆案例,参编多项智能研发相关行业团体标准。
从多维感知到智能归因:AI Agent 在业务刻画与异常诊断中的实践
李 松
蚂蚁集团 高级测试开发工程师
内容简介:
在蚂蚁数字支付场景架构日益复杂、数据爆发式增长的背景下,传统的人工分析正面临效率低下、链路断裂及专家经验难以传承的挑战。“Agent智能归因诊断分析系统”,深度融合了大语言模型逻辑推理能力与智能算法的下一代决策平台。系统核心构建了一个具备“自主规划、工具调用、深度推理、归因分析”能力的AI智能体。当业务指标出现异常波动时,Agent能像资深专家一样,自动跨越系统孤岛,实时调用SQL、日志分析及因果模型进行多维下钻。
它不仅能精准定位问题的技术根因,还能将碎片化的数据串联为端到端的业务动线,生成技术业务都能看懂的可视化分析报告,实现从“看到波动”到“理解原因”的飞跃。有效打通了业务增长与技术保障之间的“最后一公里”。通过持续沉淀组织经验,助力质量同学从被动救火转向主动洞察,实现更高维度的数智化决策与运营范式。

演讲提纲:
1. 诊断困局:复杂链路下的“感知失真”与排查低效
1.1 痛点分析:系统复杂度提升与专家经验依赖的矛盾。
1.2 实战复盘:从“碰支付”案例看传统监控阈值的归因盲区。
1.3 破局思路:构建智能感知驱动、智能体协同的自动化诊断体系。
2. 核心框架:业务多维感知与“四层诊断”体系
2.1 架构设计:构建“看、定、溯、决”的一体化闭环能力。
2.2 动态刻画:从技术异常到用户体验动线的数据洞察分析。
2.3 智能降噪:利用 Agent 聚类分析实现“高风险信号”诊断归因。
3. 技术实现:Agent 智能诊断与 Canvas 动态报告
3.1 决策大脑:基于 ReAct 框架的自主规划、执行与自我修正。
3.2 工程攻坚:读SQL、查Trace、诊断Workflow等能力集成。
3.3 视觉驱动:基于skill约束上下文驱动Canvas可视化报告。
4. 实践落地:分钟级定位与分析资产闭环
4.1 量化收益:自动定位耗时从“小时级”跨入“分钟级”。
4.2 范式转移:从“人找结论”到“结论反哺SKILL”,降低专家资源依赖。
4.3 资产沉淀:实现“诊断-沉淀-自动防御”的经验自动化复用。
5. 总结与演进
5.1 总结:总结“感知+刻画+归因”的标准化诊断路径。
5.2 未来展望:从智能助手到诊断专家,实现“业务智能诊断”。

听众收益:
1. 了解大模型 Agent 在复杂系统场景下的落地实战:基于 ReAct 框架构建具备“逻辑脑”与“执行手”的智能体,如何攻克大模型推理幻觉及业务语义对齐等核心工程难点,获取可复制的 Agent 架构经验。
2. 获取从“人找结论”向“AI 喂结论”的效能突破方案:Agent 自动跨越系统孤岛,实现异动定位耗时从“小时级”到“分钟级”的跨越,实现从被动救火到主动洞察的范式转型。
3. “逻辑推理”与“Canvas 动态渲染”融合的可视化方案: Agent 如何通过定制 V-DSL 驱动 Canvas 引擎,将硬核的因果证据链转化为技术、业务双端通用的可视化诊断长图
同济大学控制工程硕士,现就职于蚂蚁集团,从事智能测试平台建设5年,深耕数字化场景下的质量保障与智能化探索。
Finna AI创新平台:5A大模型平台体系与实践
宁艺昭
北银金科 资深架构师
内容简介:
北京金融科技有限责任公司紧跟国家"人工智能+"战略导向,深入洞察金融行业大模型应用"快、多、好、强"特征下的四大共性矛盾,构建了Finna AI创新平台及"5A级大模型技术体系"。平台采用"1+4"松耦合架构设计,以Agent平台为统一出口,统筹智算、模型、知识、工具四大能力底座,形成分层贯通、灵活演进的AI智联体系。通过首创的Agent-X智能体框架、F-Eval金融级评测体系、"快建快生"敏捷开发模式等创新,实现了从方法论引领到平台化落地、从专业开发到全员赋能的转变。平台已在北京银行完成体系验证,孵化37类金融AI应用,并向教育、能源等跨行业场景拓展,为金融机构及千行百业实现大模型规模化应用提供了可复制、可验证、可演进的建设路径。        

演讲提纲 
1. 背景与行业挑战
金融大模型应用进入规模化阶段的政策驱动
当前金融系统研发中面临的典型痛点:算力分散、模型治理难、业务落地慢、安全合规要求高
2. 总体设计理念:Finna AI创新平台
"1+4"松耦合架构总览:以Agent平台为智能中枢,串联智算、模型、工具、知识库四大能力平台
全栈贯通思路:横向共享能力矩阵 + 纵向融合业务场景
3. 5A级大模型技术体系方法指导
覆盖业务架构(BA)、应用架构(AA)、数据架构(DA)、技术架构(TA)、安全架构(SA)的五维统一设计
如何指导金融级AI系统的规范化建设
4. 核心引擎:Agent平台与Agent-X框架
Agent平台作为"1+4"底座上的智能应用中枢
自研Agent-X金融级智能体框架:意图解析-工具调用-记忆管理-反馈强化四阶闭环
金融敏感操作的可审计、可追溯、可熔断机制
5. 四大横向能力平台
知识库平台:企业知识资产的智能中枢
工具平台:企业技能资产的统一封装与智能复用
模型广场:模型全生命周期治理
智算平台:算力统一纳管与调度
6. 数据贯通与全链路治理
全链路统一数据治理与运营体系
支撑AI应用从研发到投产的数据底座
7. 关键创新亮点
“快建快生”敏捷开发模式:缩短开发周期、提升迭代效率
F-Eval金融级大模型评测体系:多维指标融合驱动的闭环优化
8. 落地成效与推广展望
北京银行落地验证:37类金融AI应用、开发周期缩短62%等核心指标
跨行业拓展路径与生态建设展望

听众收益
1.学习"5A级大模型技术体系"方法论的设计思路与落地实践
2.学习松耦合架构与Agent平台的企业级建设经验
3.学习金融AI从方法论到平台化再到全员赋能的规模化推广路径
4.了解跨行业AI能力迁移与生态共建的探索实践        
北银金科人工智能架构师,AI平台和架构团队负责人。
知识工程全链路评测:
构建知识分层化评估与其在企业级金融场景评测实践
刘伦豪杰
蚂蚁集团数字科技 测试开发专家
内容简介:
随着大语言模型(LLM)加速渗透企业核心业务,知识工程(KE)已成为解决模型“幻觉”、知识滞后等瓶颈,构建专业可信AI的关键。在金融等高严谨性领域,KE为智能应用提供“事实之锚”。然而,其“知识生产-知识服务”的全链路架构也引入了系统性的故障风险:
(1)“垃圾进,垃圾出”:离线知识生产(如数据源解析、分块)的质量缺陷从源头埋下隐患。
(2)故障根因“黑盒化”:在线服务的单一问题可能源于多个环节,传统评估难以精准定位。
本课题聚焦知识工程全链路评测的技术闭环,通过构建一套分层化、自动化的评估体系,推动知识工程从“主观感觉”走向“数据驱动”,实现从“可用”到“可靠+高价值”的跃迁。最后,将通过企业级金融场景评测实践,揭示该体系如何落地并创造可衡量的业务价值

演讲提纲:
1. 评测的战略价值与挑战
1.1 知识工程评测的特殊性与业务风险
 战略价值: 评测是确保知识工程能有效解决LLM“幻觉”、知识滞后等落地挑战的“事实之锚”与“质量命脉”,是企业沉淀核心知识资产的护城河。
 业务风险: 缺乏科学评测将导致知识库成为“不可信”的数据源,直接影响上层智能应用的决策准确性,在金融等高风险领域可能引发合规与资产损失风险。
1.2 评测失效的典型代表案例
- 主观评估的“感觉良好”陷阱: 依赖人工体验和主观判断,无法发现深层、偶发的系统缺陷,导致系统“带病上线”。
- 孤立指标的“只见树木”误区: 单纯追求某一技术指标(如检索准确率),而忽略了知识生产质量或最终业务效果,导致优化方向偏离。
- 静态评测的“刻舟求剑”困境: 一次性评测无法应对知识的动态变化,导致知识库信息陈旧,失去时效性价值。
2. 评测方案设计四要素
2.1 目标定义:场景化KPI拆解
- 定位业务角色: 首先明确知识库在具体业务场景中的核心任务(如:金融场景下“找得全、干扰少”)。
- 设定北极星指标: 基于角色定位,确立关键量化目标(如:召回率 > 85%,噪声率 < 10%)。
- 场景化目标分解: 针对不同场景(FAQ、文档召回、混合召回)对核心KPI进行侧重和细化。
2.2 指标体系:生产/消费/安全多维度指标
- 知识生产侧 (离线): 聚焦“原料”质量,包括文档内容/格式质量、切片质量(块内聚性/分离度)、数据安全等。
- 知识消费侧 (在线): 聚焦“服务”效能,覆盖从组件到端到端全链路。
- 端到端层: 回答正确性、回答忠诚性(衡量幻觉)、内容安全。
- 检索/排序层: 上下文召回率/精确率、nDCG、MRR等。
- 组件层: 查询改写效果、Embedding模型效果等。
2.3 数据策略:人机协同的测试集构建生成策略
- 核心原则: 遵循来源多样化、动态维护、高质量标注三大原则。
- 生成流水线: 采用“自动化初建 → LLM预标注 → 业务专家终审”的三阶段模式,在保证“黄金标准”质量的同时,大幅降低人工标注成本。
2.4 工具选型:自动化框架集成与可插拔设计
- 核心架构: 基于标准化的JSON数据流,构建可编排、可插拔的自动化评测管道。
- 能力集成: 支持灵活替换RAG链路组件、数据集,并集成主流评测框架与自定义指标,实现“即插即用”。
3. 评估全流程实践
3.1 协作机制:动静结合的双环驱动流程
- 静态评测环 (0 → 1): 针对新场景,通过共建基准评测集,建立科学可靠的“质量准入”门禁。
- 动态评测环 (1 → N): 针对日常迭代,通过自动化回归与增量评测,保障“效果无回归”并驱动持续优化。
3.2 白盒化:知识工程全链路的可视化追踪
 核心实践: 为每次请求分配唯一trace_id,记录其在流水线中每一步的输入和输出。
 可视化诊断: 实现从Query改写到最终答案的全链路可视化,进行“庖丁解牛”式的直观诊断。
3.3 策略设计:模块诊断与端到端验证结合
 自顶向下: 从端到端指标异常(如回答错误),下钻到中间环节指标(如上下文召回率低),初步定位问题区段。
 自底向上: 独立评估各组件(如Embedding模型)性能,确保基础能力达标,为上层问题排查提供依据。
3.4 评测方式:自动化为主、人工为辅的提效方案
- 自动化: 通过自动化评测管道实现大规模、可复现的持续评测,保障运营效率。
- 人工辅助: 专家在评测集“终审”和复杂Bad Case“归因分析”等关键环节介入,确保评测的深度与准确性。
3.5 报告输出:从数据到洞察的问题定位与优化建议
- 可视化报告: 自动生成多版本对比报告,直观展示指标变化趋势。
- 关联归因: 报告中的每个Bad Case均关联trace_id,点击即可跳转至白盒化追踪系统,为优化提供详尽诊断依据。
4. 场景化应用与效能提升
4.1 指导性调优:从评测到归因的批量对比与分析
- 缺陷归因模型: 建立“缺陷表现”与“可能根因环节”的映射模型,为问题定位提供“故障地图”。
- 量化归因策略: 运用指标下钻、最小单元对比实验(A/B测试)等方法,科学、定量地定位问题根源。
4.2 链路升级评估:以数据驱动优化决策
 实践案例: 以金融场景为例,通过基线评测识别出核心业务的效能瓶颈,再通过全链路归因,将问题定位至上游知识生产环节,最终通过治理源头数据,完成优化并由再次评测验证成效。
4.3. 工具链闭环:加速“评测-归因-优化”的迭代循环
- 闭环展示: 演示离线评测发现的问题(如低质量文档)如何指导在线服务(如低召回率)的优化,并最终通过在线评测验证成效,形成一个完整的质量反馈闭环。
- 核心价值: 证明科学的评测体系是驱动知识工程能力持续、高效进化的核心引擎。
5. 当前思考与下一步展望
5.1 思考总结:评测体系的核心价值
- 系统化: 覆盖知识生产到消费的全生命周期,实现端到端质量保障。
- 数据驱动: 用客观指标替代主观感受,实现科学决策与精准优化。
- 闭环优化: 形成从发现问题到验证优化的完整循环,是KE-Ops理念的成功落地。
5.2 未来展望:评测体系的三大演进趋势
- 评估维度演进: 从“静态质量”到“动态业务价值 (ROI)”。
- 评测方法变革: 从“人工抽检”到“LLM辅助的智能诊断”。
- 标准体系升级: 从“企业私有”到“行业公开基准 (Benchmark)”。

听众收益:
掌握一套可落地的评测方法论: 听众将获得一套从0到1构建知识工程全链路评测体系的“作战地图”和“工具箱”,包括如何设计场景化目标、构建分层指标体系、以及如何通过人机协同高效生成高质量评测集。
学会一套“庖丁解牛”式的缺陷归因技巧: 学习如何通过白盒化追踪、指标下钻等手段,精准定位复杂知识系统(如RAG)中“回答错误”的根因,究竟是源于知识生产、检索召回还是大模型生成,从而告别盲目调参,实现精准优化。
了解一套企业级的持续优化流程: 学习如何将评测从孤立的测试活动,转变为融入研发流程的KE-Ops持续性实践,包括建立跨团队(业务、算法、质量)的协作机制和自动化评测管道,真正实现“以评促建”的闭环。
蚂蚁数科质量部的资深测开工程师,目前主要负责蚂蚁数科知识工程平台开发测试,专注测试技术发展,在自动化测试、UI智能体、AI大模型评测、RAG效果与评测等领域有深入探索。先后从事区块链合同质量保障、租赁平台客服智能体效果评测、数科智能体平台知识工程的质量保障与评测工作。
京ICP备2020039808号-4 京公网安备11011202100922号