英伟达推出Helix Parallelism,解决超长上下文问题

“Helix Parallelism”能够处理数百万个单词,并支持32倍更多的并发用户。这是一个突破,但对企业是否有用?
新闻资讯 英伟达 AI
2025-07-10 17:47:27  |   作者:开源爱好者  |   来源:

英伟达推出Helix Parallelism,解决超长上下文问题

“Helix Parallelism”能够处理数百万个单词,并支持32倍更多的并发用户。这是一个突破,但对企业是否有用?
新闻资讯 英伟达 AI
2025-07-10 17:47:27
作者:开源爱好者
来源:

你有需要处理百科全书级数据集的问题吗?英伟达表示,其新技术“Helix Parallelism”能够即时给出答案。

新的“Helix Parallelism”依托英伟达的Blackwell处理器的能力,允许AI代理处理数百万个单词——类似于百科全书的内容,并支持最多32倍更多的用户并发。

尽管这一技术可以显著改善代理在实时分析大量文本时的效率,但一些人指出,至少对于企业应用而言,这可能有些过于强大。

352.jpg

“英伟达的百万token上下文窗口是一个令人印象深刻的工程里程碑,但对大多数公司而言,它是一个正在寻找的问题的解决方案,” Northwest AI Consulting的首席执行官兼联合创始人Wyatt Mayham表示。“是的,它解决了现有模型中的一些真正的限制,比如长上下文推理和二次扩展,但技术可能性与实际有用性之间存在差距。”

Helix Parallelism有助于解决LLM的大内存问题

专家指出,大型语言模型(LLM)仍然在超长上下文中面临困难。

“长期以来,LLM受到上下文窗口限制的瓶颈,迫使它们在处理长时间任务或对话时‘忘记’早期信息,” Info-Tech Research Group的技术顾问Justin St-Maurice表示。

由于这个“中途丢失”问题,模型通常只能有效利用10%到20%的输入,Mayham补充道。

英伟达的研究人员指出,有两个严重的瓶颈,包括关键值(KV)缓存流和前馈网络(FFN)权重加载。基本上,在生成输出时,模型必须扫描过去存储在缓存中的token,但这会占用GPU内存带宽。代理在处理每个新单词时,还需要从内存中重新加载大量的FFN权重,极大地拖慢了处理速度。

传统上,为了解决这个问题,开发人员使用了模型并行,这是一种将大规模神经网络的计算分布到多个设备(如GPU)上的机器学习技术,而不是仅仅使用一个设备。但最终,这也可能导致更多的内存问题。

Helix Parallelism的灵感来源于DNA的结构。它将内存和处理任务分开,分别处理并将它们分配到多个显卡上。这种“循环交替”技术减少了单一单元内存的负担,减少了空闲时间和GPU过载,避免了重复,整体提高了系统效率,Nvidia表示。

研究人员使用DeepSeek-R1 671B进行模拟测试——正如其名字所示,它具有6710亿个参数,支持强大的推理能力——并发现该技术将响应时间减少了多达1.5倍。

St-Maurice表示,这不仅仅是一个技术成就。“它正在重新定义我们如何进行LLM互动和设计。” Helix Parallelism和优化的KV缓存分片为LLM提供了扩展的“板载内存”,这与开发者改进旧处理器(如奔腾处理器)的方式高度类似。

“这意味着LLM现在可以摄取并推理大量数据,同时保持实时的一致性,” St-Maurice说。“如果我们把LLM看作是我们现代架构中的新处理器,那么这就是一种合乎逻辑的前进方向。”

在法律、编码、合规性密集型行业的应用案例

英伟达的研究人员指出,包括跟踪几个月对话的AI代理、法律助手推理数GB的案例法或编码助手导航“庞大的代码库”在内,Helix Parallelism技术将在多个行业的AI系统推理框架中得到应用。

Mayham同意这种技术可以在“细分领域”中发挥作用,例如需要“完整文档保真度”的合规性密集型行业,或在一次性分析患者终身病历的医疗系统中。

“但这些是边缘案例,”他说。“大多数组织还是更适合构建更智能的管道,而不是购买大量的GB200。”

他补充道,更典型的情况是,检索增强生成(RAG)系统通常能够更好地在百万token中获取“正确的1万token”,而不是使用暴力计算方式。

St-Maurice指出,在当今世界,生成百科全书大小的响应并不是胜利,关键在于使LLM输出对其他AI更具相关性和可用性。

“这一能力可能会成为AI代理的游戏规则改变者,它们现在可以维持更丰富的内部状态,进行更复杂、更长时间的对话,并进行更深入的文档分析,”他说。

他还表示,这一突破与日益发展的上下文工程学科相契合,该学科涉及在庞大的上下文窗口内策划和优化信息,以最大化代理的有效性和可靠性。

对于AI研究来说,这一新技术可能有一个最深远的影响,那就是多代理设计模式。他表示,凭借在扩展上下文窗口中处理和交换更多数据的能力,AI代理能够以前“不可行”的方式进行沟通和协作。

“这种改进的‘记忆’和上下文意识允许更复杂的协调、对复杂历史的共同理解以及多步骤任务上的更强大合作,” St-Maurice说。

从系统的角度看,他指出,英伟达强调“深度集成的软硬件共同设计”来解决扩展问题,而不是依赖软件中心的数据层模式管理。

不过,St-Maurice表示:“数据在内存层次结构中的流动问题仍然存在。” 在GPU内存中加载和卸载大量上下文数据将继续产生延迟瓶颈,并在数据传输中产生复杂的局面。这可能导致类似交换的低效,从而在上下文继续扩展时,实时处理的性能下降。

“这表明,即使有硬件突破,数据流的持续优化仍将是一个至关重要的前沿,” St-Maurice指出。