DeepSeek的新文章破坏了新的V4框架。使用空闲网卡加速代理推理性能

Henry 发表者：奥飞斯量子比特 | QbitAIDeepSeek公众号这孩子最棒了。当全世界都在关注他的 GitHub 存储库并等待 V4 时，他和北大、清华大学悄悄在 ArXiv 上发表了一篇论文，并发布了 DualPath，一种新的智能代理推理框架。这和前几天讨论的计算能力的话题有关。 DualPath的核心是解决长智能体推理场景中的I/O瓶颈。通过优化从外部存储加载KV缓存的速度，从存储读取不会使计算资源过载。这改变了传统存储到预加载引擎的单步加载模式，并引入了从存储到解码的第二步。 DualPath通过利用解码引擎的存储空闲网卡（SNIC）带宽来读取缓存，并配合快速计算网络（RDMA）将缓存发送到预取引擎，DualPath提供全局集群存储年龄带宽池和动态负载平衡。在生产级 660B 比例模型的实际测量中，DualPath 的表现出奇的好。离线推理性能平均提升1.87倍，线上服务性能平均提升1.96倍。在高负载下，首字延迟 (TTFT) 得到显着优化，并且令牌到令牌 (TPOT) 生成率几乎无缝。下面我们就来看看吧。双路径加载总的来说，DualPath 是专门为代理系统设计的推理框架。其核心思想是KV缓存加载不需要关注预配置。到目前为止我们了解到的是负责计算的人移动了数据。然而，DualPath 并不会先将缓存加载到解码引擎中。我们相信它可以通过高性能 RDMA 网络发送到预取引擎。 DualPath 在两条路径之间动态选择，以重新平衡网络负载并缓解预配置的带宽压力乌德一侧。那么为什么要走“弯路”呢？原因是现代代理应用程序交互多轮、上下文长，KV缓存的命中率通常大于95%。这意味着每轮交互都需要转移大量的“旧内存”，推理性能的瓶颈从“计算”转移到“转移”。现有的解码分离（PD分解）架构将所有加载任务集中在预填充引擎（PE）存储网卡上，导致瞬时带宽饱和。同时，解码引擎（DE）存储网卡变得空闲，导致资源错配。此外，当前GPU计算能力的增长速度远远快于网络带宽和HBM容量的增长速度，这也增加了I/O限制。正如 NVIDIA 首席科学家 Bill Dally、Google 架构师 Jeff Dean 等知名人士一再强调的那样：计算是免费的，但我流动数据很昂贵。为了解决这些问题，DualPath 创建了创新的双路径模型。路径A（传统）：存储→PE，缓存直接加载到预取引擎中。路线B（新）：存储→DE→PE。缓存首先从解码引擎读取缓冲池，然后通过 RDMA 将其发送到预取引擎。架构配置如下：推理引擎：每个引擎管理一个GPU，严格分为预充电（PE）和解码（DE）。流量管理器：H2D/D2H 副本、引擎到引擎传输和 SNIC 存储读取。负责阅读和写作。中央调度器：充当“大脑”，实时决定每个请求采用哪条路径，从而最大化整体带宽利用率。核心技术方案：存储到解码路径如前所述，DualPath推理系统的核心是打破传统单步“存储到预取”模型，创新性地引入“存储到解码”路径。啊。这种设计允许KV缓存首先加载到解码引擎（DE）中，然后通过高带宽计算网络（RDMA）无损传输到预取引擎（PE）。通过在两条路由之间动态分配负载，系统完全释放了集群中原有非活动存储网卡（SNIC）的网络带宽，并创建了一个全局可编程的存储I/O资源池。具体来说，为了支持分层流处理，DualPath为PE和DE分配了少量的DRAM缓冲区（PE/DE缓冲区），并为不同阶段设计了详细的数据流。 PE读取路径：到达令牌的KV缓存从存储中读取PE缓冲区。在每层计算之前，层缓存会传输到PE HBM并叠加计算过程。一旦计算完成，整个KV缓存就会返回到DE缓存中，形成一个完整的上下文。 DE读取路径：KV缓存直接到DE缓冲区。在PE预配置期间，相应的层缓存在节点之间传输到PE HBM（覆盖计算）。一旦计算完成，PE简单地返回新生成的KV缓存的片段，并将其与原始DE缓存合并。解码和持久化：DE buffer接收到完整的KV缓存后，开始解码并执行H2D复制以释放CPU内存。缓冲的引入增加了 DRAM 负载，但减少了 GPU 内存使用量。它可以显着减少用量并优化首字延迟（TTFT）。在生成过程中，每累积一个区块（例如64个代币）就会触发异步持久化。然而，如上所述，“绕行”道路带来了新的问题。例如，如果移动缓存的流量到达模型的计算通信，会发生什么情况？从这个意义上说，DualPath提供了两种优化方案。第一个是以计算机网卡 (CNIC) 为中心的流量管理，强制所有流量通过几个 CNIC 遍历 GPUDirect RDMA 路径非常困难。 InfiniBand 或 RoCE 网络使用虚拟层技术 (VL/TC) 将推测通信设置为“最高优先级”并保留 99% 的带宽。这允许缓存传输仅“使用”空间内的带宽，因此它们不会相互干扰。第二个是自适应请求调度程序。调度程序监视磁盘队列的长度和每个节点上的令牌数量。系统优先将任务分配给I/O压力较低、计算负载较轻的节点，从根本上避免了单面网卡和单点计算资源的拥塞。实验阶段，DualPath在DeepSeek-V3、Qwen等模型上进行了测试，场景涵盖离线部署和在线服务。正如介绍中提到的，对于离线推理，DualPath 提高了端到端性能。极限可达 1.87 倍，在线服务性能平均提高1.96倍，显着降低了首字延迟（TTFT）并保持了非常稳定的令牌到令牌延迟（TBT）。总体而言，DualPath 表明重新思考数据加载路径可以有效打破当前大规模模型推理的 I/O 壁垒。它更好地利用了解码引擎原本浪费的I/O带宽，并配合自适应调度和严格的流量分离机制，在不增加硬件成本的情况下显着提高Agent LLM推理系统的效率。 One More Thing论文的第一作者吴永通是北京大学博士生，师从金鑫教授。他的研究重点是系统软件和大规模模型基础设施（法学硕士基础设施），特别是大规模实施、规模工程推理和优化系统。他目前是 DeepSeek Systems Group 的一员，负责为下一代模型构建推理基础设施，并分别负责负责优化多个硬件平台上的大型软件系统的性能。此前，他还曾在腾讯、华盛顿大学、微软亚洲研究院等机构实习。 [1]https://arxiv.org/pdf/2602.21548[2]https://jokerwyt.github.io/
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由提供i存储服务的社交媒体平台网易号用户上传发布。仅供参考。

DeepSeek的新文章破坏了新的V4框架。使用空闲网卡加速代理推理性能

由 admin

发表回复取消回复

您错过了

【西甲】拉菲帽子戏法，坎塞洛+2分，巴萨5-2胜

【意甲】艾萨克森破门，米兰0-1拉齐奥落后国米8分

球队动态：国际米兰第二队主帅贝基不确定他是否会继续留任。他计划今年夏天考虑他的选择。

莫耶斯：这场失败非常残酷。我认为我们是一支可以与强队竞争的球队。

DeepSeek的新文章破坏了新的V4框架。使用空闲网卡加速代理推理性能

由 admin

相关文章

【西甲】拉菲帽子戏法，坎塞洛+2分，巴萨5-2胜

球队动态：国际米兰第二队主帅贝基不确定他是否会继续留任。他计划今年夏天考虑他的选择。

主动推出AI代管账户的小红书为何先行一步？

发表回复 取消回复

您错过了

【西甲】拉菲帽子戏法，坎塞洛+2分，巴萨5-2胜

【意甲】艾萨克森破门，米兰0-1拉齐奥落后国米8分

球队动态：国际米兰第二队主帅贝基不确定他是否会继续留任。他计划今年夏天考虑他的选择。

莫耶斯：这场失败非常残酷。我认为我们是一支可以与强队竞争的球队。

发表回复取消回复