Henry 发表者:奥飞斯量子比特 | QbitAIDeepSeek公众号 这孩子最棒了。当全世界都在关注他的 GitHub 存储库并等待 V4 时,他和北大、清华大学悄悄在 ArXiv 上发表了一篇论文,并发布了 DualPath,一种新的智能代理推理框架。这和前几天讨论的计算能力的话题有关。 DualPath的核心是解决长智能体推理场景中的I/O瓶颈。通过优化从外部存储加载KV缓存的速度,从存储读取不会使计算资源过载。这改变了传统存储到预加载引擎的单步加载模式,并引入了从存储到解码的第二步。 DualPath通过利用解码引擎的存储空闲网卡(SNIC)带宽来读取缓存,并配合快速计算网络(RDMA)将缓存发送到预取引擎,DualPath提供全局集群存储年龄带宽池和动态负载平衡。在生产级 660B 比例模型的实际测量中,DualPath 的表现出奇的好。离线推理性能平均提升1.87倍,线上服务性能平均提升1.96倍。在高负载下,首字延迟 (TTFT) 得到显着优化,并且令牌到令牌 (TPOT) 生成率几乎无缝。下面我们就来看看吧。双路径加载 总的来说,DualPath 是专门为代理系统设计的推理框架。其核心思想是KV缓存加载不需要关注预配置。到目前为止我们了解到的是负责计算的人移动了数据。然而,DualPath 并不会先将缓存加载到解码引擎中。我们相信它可以通过高性能 RDMA 网络发送到预取引擎。 DualPath 在两条路径之间动态选择,以重新平衡网络负载并缓解预配置的带宽压力乌德一侧。那么为什么要走“弯路”呢?原因是现代代理应用程序交互多轮、上下文长,KV缓存的命中率通常大于95%。这意味着每轮交互都需要转移大量的“旧内存”,推理性能的瓶颈从“计算”转移到“转移”。现有的解码分离(PD分解)架构将所有加载任务集中在预填充引擎(PE)存储网卡上,导致瞬时带宽饱和。同时,解码引擎(DE)存储网卡变得空闲,导致资源错配。此外,当前GPU计算能力的增长速度远远快于网络带宽和HBM容量的增长速度,这也增加了I/O限制。正如 NVIDIA 首席科学家 Bill Dally、Google 架构师 Jeff Dean 等知名人士一再强调的那样:计算是免费的,但我流动数据很昂贵。为了解决这些问题,DualPath 创建了创新的双路径模型。路径A(传统):存储→PE,缓存直接加载到预取引擎中。路线B(新):存储→DE→PE。缓存首先从解码引擎读取缓冲池,然后通过 RDMA 将其发送到预取引擎。架构配置如下: 推理引擎:每个引擎管理一个GPU,严格分为预充电(PE)和解码(DE)。流量管理器:H2D/D2H 副本、引擎到引擎传输和 SNIC 存储读取。负责阅读和写作。中央调度器:充当“大脑”,实时决定每个请求采用哪条路径,从而最大化整体带宽利用率。核心技术方案:存储到解码路径 如前所述,DualPath推理系统的核心是打破传统单步“存储到预取”模型,创新性地引入“存储到解码”路径。啊。这种设计允许KV缓存首先加载到解码引擎(DE)中,然后通过高带宽计算网络(RDMA)无损传输到预取引擎(PE)。通过在两条路由之间动态分配负载,系统完全释放了集群中原有非活动存储网卡(SNIC)的网络带宽,并创建了一个全局可编程的存储I/O资源池。具体来说,为了支持分层流处理,DualPath为PE和DE分配了少量的DRAM缓冲区(PE/DE缓冲区),并为不同阶段设计了详细的数据流。 PE读取路径:到达令牌的KV缓存从存储中读取PE缓冲区。在每层计算之前,层缓存会传输到PE HBM并叠加计算过程。一旦计算完成,整个KV缓存就会返回到DE缓存中,形成一个完整的上下文。 DE读取路径:KV缓存直接到DE缓冲区。在PE预配置期间,相应的层缓存在节点之间传输到PE HBM(覆盖计算)。一旦计算完成,PE简单地返回新生成的KV缓存的片段,并将其与原始DE缓存合并。解码和持久化:DE buffer接收到完整的KV缓存后,开始解码并执行H2D复制以释放CPU内存。缓冲的引入增加了 DRAM 负载,但减少了 GPU 内存使用量。它可以显着减少用量并优化首字延迟(TTFT)。在生成过程中,每累积一个区块(例如64个代币)就会触发异步持久化。然而,如上所述,“绕行”道路带来了新的问题。例如,如果移动缓存的流量到达模型的计算通信,会发生什么情况?从这个意义上说,DualPath提供了两种优化方案。第一个是以计算机网卡 (CNIC) 为中心的流量管理,强制所有流量通过几个 CNIC 遍历 GPUDirect RDMA 路径非常困难。 InfiniBand 或 RoCE 网络使用虚拟层技术 (VL/TC) 将推测通信设置为“最高优先级”并保留 99% 的带宽。这允许缓存传输仅“使用”空间内的带宽,因此它们不会相互干扰。第二个是自适应请求调度程序。调度程序监视磁盘队列的长度和每个节点上的令牌数量。系统优先将任务分配给I/O压力较低、计算负载较轻的节点,从根本上避免了单面网卡和单点计算资源的拥塞。实验阶段,DualPath在DeepSeek-V3、Qwen等模型上进行了测试,场景涵盖离线部署和在线服务。正如介绍中提到的,对于离线推理,DualPath 提高了端到端性能。极限可达 1.87 倍,在线服务性能平均提高1.96倍,显着降低了首字延迟(TTFT)并保持了非常稳定的令牌到令牌延迟(TBT)。总体而言,DualPath 表明重新思考数据加载路径可以有效打破当前大规模模型推理的 I/O 壁垒。它更好地利用了解码引擎原本浪费的I/O带宽,并配合自适应调度和严格的流量分离机制,在不增加硬件成本的情况下显着提高Agent LLM推理系统的效率。 One More Thing论文的第一作者吴永通是北京大学博士生,师从金鑫教授。他的研究重点是系统软件和大规模模型基础设施(法学硕士基础设施),特别是大规模实施、规模工程推理和优化系统。他目前是 DeepSeek Systems Group 的一员,负责为下一代模型构建推理基础设施,并分别负责负责优化多个硬件平台上的大型软件系统的性能。此前,他还曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。 [1]https://arxiv.org/pdf/2602.21548[2]https://jokerwyt.github.io/
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供i存储服务的社交媒体平台网易号用户上传发布。仅供参考。