出品人:黄玉奇
深耕云计算、云原生十余年,参与过 Cloud Foundry、Mesos、Docker、Kubernetes、Istio 等开源项目,在云原生、 AI Infra、混合云架构及云产品商业化落地上拥有丰富的实战经验。热衷技术布道,持续在行业分享最佳实践,致力于推动云原生技术发展。
现负责小红书云原生基础设施、系统软件、七层接入、业务网关、AI网关等业务,致力于为小红书社区、广告、搜索、电商等业务提供高稳定、高性能、低成本的混合云 AI+ Infra能力。
小红书 云原生基础设施负责人

AI基础设施和运维

聚焦支撑大模型与AI应用的底层设施,涵盖算力调度、分布式训练、模型仓库、监控告警与弹性伸缩等能力。探讨高可用、低成本、绿色低碳的AI基础设施架构与自动化运维实践。
统一模型管理,构建高效安全的 AI 基础设施与运维
张 鹏
JFrog 解决方案架构师
内容简介:
在 AI 快速发展的背景下,模型已成为企业的核心资产。然而,如何实现模型的统一管理、合规治理与高效交付,仍是企业落地 AI 的关键挑战。本次演讲将分享基于 JFrog 平台的大模型管理实践:如何将模型与传统制品实现一体化治理,覆盖从研发、测试、部署到运维的全生命周期;如何通过 DevSecOps 方法论,确保模型在交付过程中可追溯、可验证并符合安全合规要求;以及如何将模型与 AI 基础设施和运维体系深度融合,实现自动化、可观测与持续优化。通过这一套方法,企业能够更好地提升 AI 项目的交付效率,降低风险,推动大模型在生产环境中的规模化应用。        

演讲提纲:
1. AI 时代背景
1.1近些年 AI 发展的现象级应用和影响
1.2AI 机器学习的研究报告预测和工具的爆发增长
2. 高效 AI 模型管理挑战
2.1模型训练过程与传统研发流程的对比
2.2发现模型训练过程会遇到的模型管理挑战
3. 高效 AI 模型管理架构案例
3.1管理模型需要关注的因素和方法
3.2模型高效管理的集成架构和案例分享

听众收益: 
1. 学习了解 AI 时代背景,知悉当下大模型技术所处宏观环境,把握时代发展趋势。
2. 明晰大模型安全引入和管理的挑战,提前洞察潜在风险,为后续行动做准备。
3. 通过架构与案例分析,掌握大模型安全引入和管理的实操方法,应用于实际工作。

专注于 DevSecOps 解决方案设计与实施,具有丰富研发和云服务经验,负责JFrog中国南区及港澳台区域业务,具有丰富的银行、证劵、科技等行业的DevSecOps建设实践经验。
AI业务驱动下小红书可观测的技术实践与探索
王亚普
小红书可观测技术负责人
内容简介:
AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练/推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现/检索工具,变成具备洞察力和决策辅助能力的智能系统。        

演讲提纲:
1.小红书可观测在 AI 时代面临的挑战
2.AI Infra 观测:稳定性体系建设
3.可观测 AI Agent 场景建设与落地
4.未来规划        

听众收益:
1.了解大规模训练过程中 Hang 的问题发现和自动化诊断
2.了解 AI + 可观测的产品设计思路和技术架构     

目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。
云原生大模型推理平台的企业级实践:
基于 Kubernetes 的分布式推理架构设计与优化
徐中虎
CNCF TAG-Infra 技术负责人/ Istio 治理委员会成员/华为云 主任工程师
内容简介:
在AI大模型快速普及的今天,如何在生产环境中高效、经济地部署和管理大语言模型成为企业面临的核心挑战。
本次分享将深度揭秘我们在云原生LLM推理场景的创新实践——1. 基于Kubernetes声明式API和最佳部署范式简化大模型编排、 部署、扩缩容生命周期的管理,支持异构硬件的管理,天然适合PD分离等分布式多机推理场景。
2. 在智能流量调度层面,基于模型负载,KV Cache感知的负载均衡算法,实现了推理延迟降低40%、资源利用率提升60%的显著突破, 同时支持Token级限流与公平性调度,通过PD分组感知的调度创新性地将多层代理合一,简化数据面的运维成本。

演讲提纲:
1. 云原生大模型推理架构设计
Kubernetes CRD 扩展:自定义资源的设计思路与实现方案
控制平面与数据平面分离架构,实现模型生命周期管理与流量路由解耦
多后端推理引擎的统一抽象层设计,支持主流推理框架
2. 分布式推理关键技术突破
PD 分离架构:通过工作负载分离优化大模型服务性能
智能请求路由:基于模型亲和性、缓存感知的负载均衡算法设计
3. 企业级生产实践
成本驱动的自动扩缩容:基于多维度指标的弹性伸缩策略设计
零停机更新:支持灰度发布、流量切换的平滑升级机制
可观测性体系:全链路监控、性能指标收集与告警机制
4. 性能优化与成本控制
异构硬件资源的统一调度与管理实践
动态Lora适配器管理,实现无中断的模型热切换
基于业务优先级的资源分配与限流策略        

听众收益: 
参会者将了解到如何在 Kubernetes 环境中构建企业级大模型推理平台,掌握分布式推理的关键技术和最佳实践,为自己的组织构建高效、可扩展的 AI 基础设施提供实用的参考方案。        

CNCF TAG-Infra技术负责人,致力于帮助网络项目健康发展。Istio治理委员会成员,自2018年以来一直是Istio的核心维护者,也是Istio前三大贡献者。中虎是多个CNCF项目的维护者,包括Istio、Kmesh和Volcano等,也是Kubernetes前100名贡献者。拥有丰富的开源工作经验,主要研究方向有云原生、Kubernetes、容器、服务网格及分布式大模型推理。中虎还是《云原生服务网格Istio》、《Istio权威指南》的联合作者。
京ICP备2020039808号-4 京公网安备11011202100922号