出品人:黄玉奇
深耕云计算、云原生十余年,参与过 Cloud Foundry、Mesos、Docker、Kubernetes、Istio 等开源项目,在云原生、 AI Infra、混合云架构及云产品商业化落地上拥有丰富的实战经验。热衷技术布道,持续在行业分享最佳实践,致力于推动云原生技术发展。
现负责小红书云原生基础设施、系统软件、七层接入、业务网关、AI网关等业务,致力于为小红书社区、广告、搜索、电商等业务提供高稳定、高性能、低成本的混合云 AI+ Infra能力。
小红书 云原生基础设施负责人

AI基础设施和运维

聚焦支撑大模型与AI应用的底层设施,涵盖算力调度、分布式训练、模型仓库、监控告警与弹性伸缩等能力。探讨高可用、低成本、绿色低碳的AI基础设施架构与自动化运维实践。
统一模型管理,构建高效安全的 AI 基础设施与运维
张 鹏
JFrog 解决方案架构师
内容简介:
在 AI 快速发展的背景下,模型已成为企业的核心资产。然而,如何实现模型的统一管理、合规治理与高效交付,仍是企业落地 AI 的关键挑战。本次演讲将分享基于 JFrog 平台的大模型管理实践:如何将模型与传统制品实现一体化治理,覆盖从研发、测试、部署到运维的全生命周期;如何通过 DevSecOps 方法论,确保模型在交付过程中可追溯、可验证并符合安全合规要求;以及如何将模型与 AI 基础设施和运维体系深度融合,实现自动化、可观测与持续优化。通过这一套方法,企业能够更好地提升 AI 项目的交付效率,降低风险,推动大模型在生产环境中的规模化应用。        

演讲提纲:
1. AI 时代背景
1.1近些年 AI 发展的现象级应用和影响
1.2AI 机器学习的研究报告预测和工具的爆发增长
2. 高效 AI 模型管理挑战
2.1模型训练过程与传统研发流程的对比
2.2发现模型训练过程会遇到的模型管理挑战
3. 高效 AI 模型管理架构案例
3.1管理模型需要关注的因素和方法
3.2模型高效管理的集成架构和案例分享

听众收益: 
1. 学习了解 AI 时代背景,知悉当下大模型技术所处宏观环境,把握时代发展趋势。
2. 明晰大模型安全引入和管理的挑战,提前洞察潜在风险,为后续行动做准备。
3. 通过架构与案例分析,掌握大模型安全引入和管理的实操方法,应用于实际工作。

专注于DevSecOps解决方案设计与实施,具有丰富研发和云服务经验,负责JFrog中国南区及港澳台区域业务,具有丰富的银行、证劵、科技等行业的DevSecOps建设实践经验。
云原生大模型推理平台的企业级实践:
基于 Kubernetes 的分布式推理架构设计与优化
徐中虎
CNCF TAG-Infra 技术负责人/ Istio 治理委员会成员/华为云 主任工程师
内容简介:
在AI大模型快速普及的今天,如何在生产环境中高效、经济地部署和管理大语言模型成为企业面临的核心挑战。
本次分享将深度揭秘我们在云原生LLM推理场景的创新实践——1. 基于Kubernetes声明式API和最佳部署范式简化大模型编排、 部署、扩缩容生命周期的管理,支持异构硬件的管理,天然适合PD分离等分布式多机推理场景。
2. 在智能流量调度层面,基于模型负载,KV Cache感知的负载均衡算法,实现了推理延迟降低40%、资源利用率提升60%的显著突破, 同时支持Token级限流与公平性调度,通过PD分组感知的调度创新性地将多层代理合一,简化数据面的运维成本。

演讲提纲:
1. 云原生大模型推理架构设计
Kubernetes CRD 扩展:自定义资源的设计思路与实现方案
控制平面与数据平面分离架构,实现模型生命周期管理与流量路由解耦
多后端推理引擎的统一抽象层设计,支持主流推理框架
2. 分布式推理关键技术突破
PD 分离架构:通过工作负载分离优化大模型服务性能
智能请求路由:基于模型亲和性、缓存感知的负载均衡算法设计
3. 企业级生产实践
成本驱动的自动扩缩容:基于多维度指标的弹性伸缩策略设计
零停机更新:支持灰度发布、流量切换的平滑升级机制
可观测性体系:全链路监控、性能指标收集与告警机制
4. 性能优化与成本控制
异构硬件资源的统一调度与管理实践
动态Lora适配器管理,实现无中断的模型热切换
基于业务优先级的资源分配与限流策略        

听众收益: 
参会者将了解到如何在 Kubernetes 环境中构建企业级大模型推理平台,掌握分布式推理的关键技术和最佳实践,为自己的组织构建高效、可扩展的 AI 基础设施提供实用的参考方案。        

CNCF TAG-Infra技术负责人,致力于帮助网络项目健康发展。Istio治理委员会成员,自2018年以来一直是Istio的核心维护者,也是Istio前三大贡献者。中虎是多个CNCF项目的维护者,包括Istio、Kmesh和Volcano等,也是Kubernetes前100名贡献者。拥有丰富的开源工作经验,主要研究方向有云原生、Kubernetes、容器、服务网格及分布式大模型推理。中虎还是《云原生服务网格Istio》、《Istio权威指南》的联合作者。
AI业务驱动下小红书可观测的技术实践与探索
王亚普
小红书可观测技术负责人
内容简介:
AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练/推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现/检索工具,变成具备洞察力和决策辅助能力的智能系统。        

演讲提纲:
1. 小红书可观测在 AI 时代面临的挑战
2. AI Infra 观测:稳定性体系建设
3.可观测 AI Agent 场景建设与落地
4. 未来规划        

听众收益:
1. 了解大规模训练过程中 Hang 的问题发现和自动化诊断
2. 了解 AI + 可观测的产品设计思路和技术架构     

目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。
谐云云原生AI实践:构建高效能算力平台,
赋能模型训推与智能体应用
陈雪儿
谐云科技 算法专家
内容简介:
在大模型时代,算力需求呈现爆发式增长,对算力基础设施提出了前所未有的挑战。谐云科技通过构建高效能云原生算力平台,实现了算力的统一纳管与异构资源的高效调度。平台提供算力精细化划分、多策略调度引擎、超分超卖与混合部署等核心能力,显著提升资源利用率。面向大模型创新应用,平台在训练/推理一体化的基础上,增强了大模型推理缓存、分布式推理等关键能力,并为企业提供开箱即用的RAG管理工具与智能体开发托管平台,全面赋能大模型的落地与应用构建。        

演讲提纲:
1. 破局之道:云原生AI的必然选择
1.1大模型时代的算力挑战
1.2云原生AI平台的诞生
1.3行业趋势与机遇
2. 基石:构建高效能云原生算力平台
2.1算力统一纳管与异构资源调度
2.2算力精细化划分与多策略调度
2.3超分超卖与混合部署
2.4典型案例
3. 增效:实现训推一体与推理加速
3.1训练/推理一体化架构
3.2大模型推理优化关键技术
3.3典型案例
4. 赋能:落地RAG与智能体应用
4.1开箱即用的RAG管理工具
4.2智能体开发托管平台
4.3典型案例
5. 征程:总结与未来展望        

听众收益:      
1. 降本增效:学会运用算力调度等关键技术,提升GPU等算力资源的利用率,降低模型训推成本。
2. 加速落地:获取从模型训练、推理优化到RAG、智能体应用构建的一站式实战方案,快速搭建并部署企业级大模型应用。
3. 借鉴经验:汲取来自能源等头部企业的AI项目成功经验,规避常见陷阱,有效规划自身AI技术路线。  

谐云科技算法专家,硕士毕业于浙江大学,深耕AI领域技术落地多年。曾为金融、能源等多家头部企业成功落地AI项目,擅长用AI技术解决企业关键业务挑战。目前专注于云原生AI平台建设,致力于推动大模型与智能体技术的规模化应用。
构建 AI 原生调度生态: 通过 HAMi 释放异构 AI 算力芯片的推理潜能
张 潇
密瓜智能 创始人&CEO
内容简介:
随着 AIGC 技术普及,数据中心面临多厂商 AI 芯片共存的复杂场景 —— 从英伟达、AMD到寒武纪、昇腾、沐曦、昆仑芯、壁仞等国产芯片。如何在Kubernetes环境下统一管理、高效调度、一致可观测性这些异构 GPU ,实现高效的AI工作负载调度,最大化利用率,成为亟需解决的难题。
本次分享将深入剖析 CNCF 开源项目 HAMi,唯一专注在异构 GPU 调度的开源项目,拥有超过 15 个国家 350+ 贡献者的活跃社区。重点围绕 HAMi 项目以及上下游生态,构建从 GPU 硬件调度抽象到推理任务高效调度的完整 AI Infra 生态。通过真实生产案例,展示如何解决异构算力时代管理挑战,实现训练与推理一体化的高效编排,通过 GPU 共享最大化释放硬件潜能。

演讲提纲:
1.异构AI调度生态架构
1.1多厂商AI芯片共存的现实挑战
1.2HAMi + Volcano/Koordinator/Kueue 协同架构解析
1.3从硬件抽象到作业调度的完整技术栈
2.HAMi:异构硬件统一管理实践
2.1类头部GPU厂商 AI加速芯片的统一调度能力
2.2虚拟化、拓扑感知、装箱/分散调度策略
2.3英伟达统一内存与K8s的无缝集成
3.生态协同的生产实践
3.1HAMi × Volcano:AI批处理任务的高效编排
3.2HAMi × Koordinator:在线/离线混部场景优化
3.3HAMi × Kueue:训练推理一体化的队列管理
4.可观测性与最佳实践
4.1调度决策与GPU使用情况的全链路监控
4.2生产环境踩坑经验与性能调优策略
5.HAMi 生产落地案例
5.1顺丰科技利用 HAMi 构建快递物流行业高效利用 GPU 白皮书
5.2越南最大电信公司
5.3东南亚 prepedu

听众收益:
1.技术能力提升:掌握Kubernetes环境下异构AI芯片的统一管理和协同调度技术,成为AI基础设施领域的技术专家。
2.实战经验获取:获得完整的生产级部署方案和优化策略,可直接应用于AI项目落地,加速技术选型和实施进程。
3.前沿视野拓展:了解云原生AI调度生态的最新发展趋势,为个人成长和团队技术决策提供战略指导。        

DaoCloud,高级技术经理 & 容器团队 Leader 2018-12 至今拿吧信息,资深软件工程师 2017-12 ~ 2018-12生意专家,软件工程师,2016-12 ~ 2017-12上海商毅 软件工程师 2015-07 ~ 2016-12。10 余年云原生、容器、AI Infra 领域研发、架构设计以及团队管理经验研究方向 容器管理、多云、多集群、大规模集群高可用、AI Infra 等领域。带领 20+ 研发团队主导 DaoCloud 容器平台的架构设计、技术研发、研究工作,该产品多次入围 Gartner 容器管理魔力象限。拥有超过 5+ 的云计算相关发明专利。
京ICP备2020039808号-4 京公网安备11011202100922号