DeepSeek发布论文预告：V4框架利用闲置网卡提升智能体推理效率

作者：世界网2026年2月28日AI资讯0 阅读

DeepSeek团队的技术成果备受关注，当全球都在期待其GitHub仓库更新至V4时——

他们与北京大学、清华大学合作，在ArXiv上低调发布了一篇论文，并推出了一个全新的针对智能体的推理框架：DualPath。

这一举措与最近讨论的算力话题紧密相关。

DualPath的核心在于解决Agent在处理长文本时出现的I/O瓶颈问题，通过加快从外部存储加载KV-Cache的速度，确保计算资源不会因为数据读取而受到影响。

它改变了传统的单路径加载模式——即从存储到预填充引擎，引入了第二条路径：从存储到解码引擎。

该框架利用了解码引擎闲置的存储网卡带宽来读取缓存，并通过高速计算网络（RDMA）将其传输至预填充引擎，从而实现了集群存储带宽的全局池化与动态负载均衡。

在对规模为660B的生产级模型进行测试后，DualPath展现出了卓越性能：

离线推理吞吐量提高了1.87倍，在线服务吞吐量平均提升了1.96倍。

高负载情况下，首次响应时间（TTFT）得到了显著优化，并且Token之间的生成速度几乎没有受到任何干扰。

接下来我们来详细了解这个框架。

总的来说，DualPath是一个专为智能体系统设计的新推理框架，其核心思想是——

KV-Cache加载不必以预填充为中心。

传统观念中认为谁负责计算谁就去搬运数据，但DualPath提出了不同的观点：缓存可以先加载到解码引擎中，然后通过高性能RDMA网络传输至预填充引擎。

动态选择两条路径之间的工作负载分配使DualPath重新分配了网络资源，缓解了预填充侧的带宽瓶颈问题。

为什么要采取这样的策略？

这是因为在当前的应用场景中，对话轮次多且上下文较长，KV-Cache命中率往往超过95%。

因此，在每次对话时都需要搬运大量的“旧记忆”，这使得推理性能的瓶颈已经从计算转移到了数据搬运上。

在现有的预填充-解码分离架构中，所有的加载任务都集中在预填充引擎（PE）的存储网卡上，导致带宽迅速饱和；

同时，解码引擎（DE）的存储网卡则处于闲置状态，造成了资源利用效率低下。

另外，在当前GPU算力增长速度远快于网络带宽和HBM容量的情况下，I/O限制问题变得更加突出。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等专家多次强调的那样：计算是免费的，但数据移动则是昂贵的资源消耗。

针对这些问题，DualPath设计了一种创新性的双路径模型：

路径A（传统）：存储→PE，缓存直接读入预填充引擎。
路径B（新增）：存储→DE→PE，缓存先被加载到解码引擎的缓冲池中，然后通过RDMA传输给预填充引擎。

在架构组成上：

推理引擎：每个引擎管理一个GPU，严格区分预填充（PE）和解码（DE）功能。
流量管理器：负责主机到设备(H2D)/设备到主机(D2H)的拷贝、引擎间的数据传输以及SNIC存储读写操作。
中央调度器：作为“大脑”，实时决定每条请求应走哪条路径，从而实现全局带宽的最大化利用。

如上所述，DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式，创新性地引入了“存储至解码”的双路径设计。

这一设计允许KV-Cache先加载到解码引擎中，再通过高带宽计算网络无损传输给预填充引擎。

通过在两条路径之间动态分配负载，系统释放了解码侧原本闲置的存储网卡带宽，并构建了一个全局可调度的I/O资源池。

具体来说，为了支持层级流式处理，DualPath在PE和DE上分别设置了少量DRAM缓冲区（PE/DE Buffer），并根据不同阶段设计了详细的数据流程：

PE读取路径：命中Token的KV-Cache从存储读入PE缓存。每层计算之前，该层缓存传输至PE HBM，并与计算过程同步执行。计算结束后，全量KV-Cache传回DE缓冲区以形成完整上下文。
DE读取路径：KV-Cache直接进入DE缓冲区。在PE预填充期间，对应层的缓存跨节点传输至PE HBM（计算重叠）。计算结束后，PE仅需返回新生成的KV-Cache片段与DE原有缓存合并。
解码和持久化：DE缓冲区接收完整KV-Cache后开始解码执行H2D拷贝并随后释放CPU内存。虽然增加缓冲消耗了DRAM空间，但显著降低了GPU显存占用量，并优化了首字延迟（TTFT）。生成过程中每累积满一个Block即触发异步持久化。

与前面提到的一样，“绕路”加载带来新问题：比如搬运缓存的流量撞上了模型计算所需的通信怎么办？

对此，DualPath提供了两套优化方案：

首先是以计算网卡为中心的流量管理机制，强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中使用虚拟层技术，将推理通信设为“最高优先级”并预留99%带宽，确保缓存搬运只能在间隙期间获得带宽，避免互相干扰。

其次是自适应请求调度器：该调度器会监控每个节点的磁盘队列长度和Token数。系统将任务分配给I/O压力较小且计算负载较轻的节点，从根本上防止单侧网卡或单一计算资源拥塞现象的发生。

在实验阶段，DualPath在DeepSeek-V3、Qwen等模型上进行了测试，应用场景包括离线Rollout和在线服务。

如开头所述，在离线推理中，DualPath将端到端吞吐量提高了高达1.87倍，在线服务吞吐量平均提升了1.96倍，并显著降低了首次响应时间（TTFT），且保持了极其稳定的Token间延迟（TBT）。

总的来说，DualPath证明通过重新思考数据加载路径可以有效突破当前大模型推理的I/O瓶颈问题。

它成功利用了解码引擎原本被浪费掉的I/O带宽，并结合自适应调度和严格的流量隔离机制，在不增加硬件成本的前提下显著提升了智能体LLM推理系统的效率。

该论文的第一作者吴永彤是北京大学的一名博士生，指导老师为金鑫教授。

吴永彤的研究方向集中在系统软件与大模型基础设施（LLM Infrastructure），特别是推理系统的工程优化和规模化部署。

目前他参与了DeepSeek团队下一代模型的推理基础设施建设工作，并负责大规模软件系统在多硬件平台上的性能优化任务。

之前，他还曾在腾讯、华盛顿大学以及微软亚研院等机构实习。

参考链接

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

DeepSeek发布论文预告：V4框架利用闲置网卡提升智能体推理效率

作者：世界网2026年2月28日AI资讯0 阅读

DeepSeek团队的技术成果备受关注，当全球都在期待其GitHub仓库更新至V4时——

他们与北京大学、清华大学合作，在ArXiv上低调发布了一篇论文，并推出了一个全新的针对智能体的推理框架：DualPath。

这一举措与最近讨论的算力话题紧密相关。

DualPath的核心在于解决Agent在处理长文本时出现的I/O瓶颈问题，通过加快从外部存储加载KV-Cache的速度，确保计算资源不会因为数据读取而受到影响。

它改变了传统的单路径加载模式——即从存储到预填充引擎，引入了第二条路径：从存储到解码引擎。

在对规模为660B的生产级模型进行测试后，DualPath展现出了卓越性能：

离线推理吞吐量提高了1.87倍，在线服务吞吐量平均提升了1.96倍。

高负载情况下，首次响应时间（TTFT）得到了显著优化，并且Token之间的生成速度几乎没有受到任何干扰。

接下来我们来详细了解这个框架。

总的来说，DualPath是一个专为智能体系统设计的新推理框架，其核心思想是——

KV-Cache加载不必以预填充为中心。

传统观念中认为谁负责计算谁就去搬运数据，但DualPath提出了不同的观点：缓存可以先加载到解码引擎中，然后通过高性能RDMA网络传输至预填充引擎。

动态选择两条路径之间的工作负载分配使DualPath重新分配了网络资源，缓解了预填充侧的带宽瓶颈问题。

为什么要采取这样的策略？

这是因为在当前的应用场景中，对话轮次多且上下文较长，KV-Cache命中率往往超过95%。

因此，在每次对话时都需要搬运大量的“旧记忆”，这使得推理性能的瓶颈已经从计算转移到了数据搬运上。

在现有的预填充-解码分离架构中，所有的加载任务都集中在预填充引擎（PE）的存储网卡上，导致带宽迅速饱和；

同时，解码引擎（DE）的存储网卡则处于闲置状态，造成了资源利用效率低下。

另外，在当前GPU算力增长速度远快于网络带宽和HBM容量的情况下，I/O限制问题变得更加突出。

正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等专家多次强调的那样：计算是免费的，但数据移动则是昂贵的资源消耗。

针对这些问题，DualPath设计了一种创新性的双路径模型：

路径A（传统）：存储→PE，缓存直接读入预填充引擎。
路径B（新增）：存储→DE→PE，缓存先被加载到解码引擎的缓冲池中，然后通过RDMA传输给预填充引擎。

在架构组成上：

推理引擎：每个引擎管理一个GPU，严格区分预填充（PE）和解码（DE）功能。
流量管理器：负责主机到设备(H2D)/设备到主机(D2H)的拷贝、引擎间的数据传输以及SNIC存储读写操作。
中央调度器：作为“大脑”，实时决定每条请求应走哪条路径，从而实现全局带宽的最大化利用。

如上所述，DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式，创新性地引入了“存储至解码”的双路径设计。

这一设计允许KV-Cache先加载到解码引擎中，再通过高带宽计算网络无损传输给预填充引擎。

通过在两条路径之间动态分配负载，系统释放了解码侧原本闲置的存储网卡带宽，并构建了一个全局可调度的I/O资源池。

具体来说，为了支持层级流式处理，DualPath在PE和DE上分别设置了少量DRAM缓冲区（PE/DE Buffer），并根据不同阶段设计了详细的数据流程：

PE读取路径：命中Token的KV-Cache从存储读入PE缓存。每层计算之前，该层缓存传输至PE HBM，并与计算过程同步执行。计算结束后，全量KV-Cache传回DE缓冲区以形成完整上下文。
DE读取路径：KV-Cache直接进入DE缓冲区。在PE预填充期间，对应层的缓存跨节点传输至PE HBM（计算重叠）。计算结束后，PE仅需返回新生成的KV-Cache片段与DE原有缓存合并。
解码和持久化：DE缓冲区接收完整KV-Cache后开始解码执行H2D拷贝并随后释放CPU内存。虽然增加缓冲消耗了DRAM空间，但显著降低了GPU显存占用量，并优化了首字延迟（TTFT）。生成过程中每累积满一个Block即触发异步持久化。

与前面提到的一样，“绕路”加载带来新问题：比如搬运缓存的流量撞上了模型计算所需的通信怎么办？

对此，DualPath提供了两套优化方案：

首先是以计算网卡为中心的流量管理机制，强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

在InfiniBand或RoCE网络中使用虚拟层技术，将推理通信设为“最高优先级”并预留99%带宽，确保缓存搬运只能在间隙期间获得带宽，避免互相干扰。

在实验阶段，DualPath在DeepSeek-V3、Qwen等模型上进行了测试，应用场景包括离线Rollout和在线服务。

总的来说，DualPath证明通过重新思考数据加载路径可以有效突破当前大模型推理的I/O瓶颈问题。

该论文的第一作者吴永彤是北京大学的一名博士生，指导老师为金鑫教授。

吴永彤的研究方向集中在系统软件与大模型基础设施（LLM Infrastructure），特别是推理系统的工程优化和规模化部署。

目前他参与了DeepSeek团队下一代模型的推理基础设施建设工作，并负责大规模软件系统在多硬件平台上的性能优化任务。

之前，他还曾在腾讯、华盛顿大学以及微软亚研院等机构实习。

参考链接

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

“”

DeepSeek发布论文预告：V4框架利用闲置网卡提升智能体推理效率

DeepSeek发布论文预告：V4框架利用闲置网卡提升智能体推理效率

相关文章

相关文章