
哈喽,大家好!今天小墨这篇文章,我们将深入分析中国科学院计算所新研究,探讨大语言模型(LLM)推理过程中能瓶颈的根源,并揭示一些关于GPU并行处理的新见解。
近日,中国科学院计算所与其研究机构联发布了论文《A Systematic Characterization of LLM Inference on GPUs》,对GPU上大语言模型的推理能进行了系统分析,为我们解答了这些疑问。
大语言模型推理的两个阶段
根据严明玉团队的研究萍乡隔热条设备,大语言模型的推理过程可以分为两个完全不同的阶段,Prefill阶段和Decode阶段。每个阶段的能瓶颈和挑战各不相同。
在Prefill阶段这一阶段,模型需要一次处理用户输入的所有文本(prompt)。
这个过程主要依赖于大规模矩阵运算,GPU的计算单元负载较高,且并行较好,因此,推理的瓶颈主要受到计算能力的制约。这意味着,推理延迟和吞吐量主要取决于GPU的算力。
相比Prefill阶段,Decode阶段需要逐步生成输出的每个token。
上世纪九十年代有人把下游当成一个跨国开发区来想,把这里打造成东北亚的联运口,听起来像个好主意。那会儿俄方远东港口条件不够理想,中国有钱有能力,双方一番谈判,大家看着有戏。2014年又跟俄方签了扎鲁比诺港的作协议,国际上讨论声更大了。日本那边立马不高兴,理由很现实:一旦图们江彻底打通,会冲击日本西海岸那些中转港的利益,也可能给北方海上通道添新的变量,战略盘子里多了个不稳定因素。
“智慧家庭创新实验室”将依托海尔智慧家庭在全屋互联、设备智控、能源管理与智能服务等方面的全栈底座能力萍乡隔热条设备,将智慧能力嵌入住宅全生命周期——从规划设计、装配交付、物业运营到服务供给,实现智慧家庭由“产品组”向“系统能力”的跃升。
华为的成功非偶然,答案藏在它们与苹果截然不同的产品定义哲学里。
在这个过程中,虽然每一步计算量较小,但由于频繁访问缓存中的上下文信息(KV Cache),内存带宽和延迟成为了能瓶颈。
因此Decode阶段的能更多受到内存访问速度的限制,而不是算力。
研究还指出,推理过程中到底是Prefill慢还是Decode慢,并不是固定的,它与输入和输出的长度密切相关。
输入较短时萍乡隔热条设备,Decode阶段通常是瓶颈;但输入较长时,塑料挤出机设备Prefill阶段的计算量增加,反而可能成为瓶颈。
影响推理能的因素
在进一步分析时,团队还发现,不同的算子在能瓶颈中的作用因模型规模和上下文长度的不同而异。
通常情况下在较短的上下文长度下,Prefill阶段的瓶颈主要出现在前馈网络(FFN)上,但当上下文长度非常长时,Attention计算的复杂度会迅速增长,导致Attention成为主要的瓶颈。
Decode阶段的瓶颈与模型规模也有很大关系。
对于较小的模型频繁访问KV Cache的Attention计算会成为瓶颈;但对于较大的模型,前馈网络的内存加载成本则可能更加突出。
Q Q:183445502这意味着,不能简单地将Attention或FFN视为固定的瓶颈,而是需要结具体情况来判断。
研究团队还对能耗进行了分析,结果显示,大语言模型推理的总能耗几乎全部来自Decode阶段。
输入长度对总能耗的影响很小,而输出的token数量则几乎直接决定了能耗的大小。因此,若要降低能耗,限制输出长度比优化Prefill阶段的计算更为有。
在多GPU扩展方面,团队的实验发现,GPU的并行处理并非在所有场景下都能带来能提升。
对于Prefill阶段,由于计算量大,分摊到多GPU上通常能够提高率。
在Decode阶段,由于计算量较小,每一步都需要频繁的GPU间通信和同步,这反而可能成为能瓶颈,导致并行化果不明显,甚至可能会拖慢速度。
因此,在Decode为主的场景下,单GPU或较轻量的流水并行方案可能更为适。
总结
严明玉教授团队的这项研究为我们提供了一套完整的、系统的框架,帮助我们深入理解大语言模型推理阶段的能瓶颈。研究表明,推理能不仅仅取决于算力或Attention计算,还涉及内存带宽、计算和内存的平衡以及系统配置等多方面因素。
对于工程师和研究人员来说,这项研究的意义不仅在于纠正了一些长期存在的误解(如Attention是瓶颈、多GPU一定更快等),更重要的是为后续的优化方向提供了清晰的思路:Prefill和Decode阶段应分别针对其特有的瓶颈进行优化,而不是简单的统一方案。
随着大语言模型的不断发展,我们须从系统级别重新审视其能表现,从而更有地设计出高的推理架构,并应对日益增长的计算需求。这项研究不仅为大语言模型的未来发展提供了宝贵的见解萍乡隔热条设备,也为优化策略的制定提供了切实可行的指导。