延遲優(yōu)先：英偉達(dá)發(fā)布 Nemotron-Flash，小模型也要“算得更快”

2025-12-04 18:02

小型語(yǔ)言模型(SLM)的設(shè)計(jì)工作主要集中于減少參數(shù)數(shù)量以實(shí)現(xiàn)參數(shù)最優(yōu)的 SLM，但參數(shù)效率并不一定能轉(zhuǎn)化為實(shí)際設(shè)備上的相應(yīng)加速。

英偉達(dá)近日發(fā)表的論文解決了這一難題。該論文旨在識(shí)別 SLM 實(shí)際設(shè)備延遲的關(guān)鍵決定因素，并為以實(shí)際設(shè)備延遲為主要考慮因素的 SLM 設(shè)計(jì)和訓(xùn)練提供可推廣的原則和方法。

研究團(tuán)隊(duì)推出 Nemotron-Flash。這是一種新型混合小型語(yǔ)言模型，其設(shè)計(jì)理念是降低實(shí)際應(yīng)用延遲，而非追求參數(shù)數(shù)量。它具有延遲最優(yōu)的深度-寬度比、通過(guò)進(jìn)化搜索發(fā)現(xiàn)的混合算子以及訓(xùn)練時(shí)權(quán)重歸一化等特點(diǎn)。

值得一提的是，該論文已被 NeurIPS 2025 接收。

小模型有什么問(wèn)題？

為了彌補(bǔ)小模型的不足，團(tuán)隊(duì)確定了兩個(gè)核心架構(gòu)因素：深度-寬度比和算子選擇。前者對(duì)小批量延遲至關(guān)重要，而后者則同時(shí)影響延遲和大批量吞吐量。

發(fā)現(xiàn)表明，改變深度和寬度時(shí)，準(zhǔn)確率與參數(shù)/延遲之間的權(quán)衡關(guān)系。雖然更深的模型通常能獲得更好的準(zhǔn)確率-參數(shù)權(quán)衡，但它們?cè)?/span>準(zhǔn)確率-延遲權(quán)衡方面可能表現(xiàn)不佳，并且存在一個(gè)針對(duì)特定延遲預(yù)算的最佳深度-寬度比。

研究團(tuán)隊(duì)還探索了新興的高效注意力機(jī)制，以評(píng)估它們作為候選構(gòu)建算子的潛力。利用已識(shí)別出的有效算子，構(gòu)建了一個(gè)進(jìn)化搜索框架，用于在混合空間學(xué)習(xí)模型（SLM）中自動(dòng)發(fā)現(xiàn)這些算子的延遲最優(yōu)組合，從而提升準(zhǔn)確率和延遲性能。

除了架構(gòu)改進(jìn)之外，團(tuán)隊(duì)還采用權(quán)重歸一化技術(shù)進(jìn)一步增強(qiáng)了 SLM 的訓(xùn)練，該技術(shù)能夠更有效地更新權(quán)重并提高最終收斂速度。這項(xiàng)技術(shù)可以作為未來(lái) SLM 的通用組件。

面向延遲最優(yōu)的 SLM

對(duì)于 SLM 設(shè)計(jì)，實(shí)際設(shè)備的延遲主要取決于兩個(gè)關(guān)鍵因素：模型的深度和寬度，以及算子的選擇。

團(tuán)隊(duì)觀察到三個(gè)現(xiàn)象：

更深的模型通常在較寬的深度范圍內(nèi)都能實(shí)現(xiàn)更好的精度參數(shù)權(quán)衡，盡管這種優(yōu)勢(shì)會(huì)逐漸飽和；
對(duì)于精度-延遲權(quán)衡，深度-細(xì)化模型的優(yōu)勢(shì)可能并不明顯，對(duì)于給定的延遲預(yù)算，存在一個(gè)最佳深度設(shè)置。例如，當(dāng)延遲預(yù)算為 3 秒時(shí)，深度為 12 的模型在所評(píng)估的設(shè)置中實(shí)現(xiàn)了最佳精度；
最佳深度-寬度比通常會(huì)隨著延遲預(yù)算的增加而增加。這些觀察結(jié)果強(qiáng)調(diào)了根據(jù)部署約束仔細(xì)選擇深度/寬度的必要性，而不是默認(rèn)使用深度-細(xì)化模型。

因此，團(tuán)隊(duì)探索了在模型系列中識(shí)別最佳深度-寬度比的原理性方法，通過(guò)模型深度和寬度參數(shù)化模型損失來(lái)擴(kuò)展現(xiàn)有的縮放定律。

除了模型深度和寬度之外，每一層所使用的算子也是一個(gè)關(guān)鍵維度。首先，團(tuán)隊(duì)在完全受控的環(huán)境下訓(xùn)練現(xiàn)有的 LM 架構(gòu)，以識(shí)別在準(zhǔn)確率-延遲平衡方面最有前景的算子。然后開(kāi)發(fā)了一種進(jìn)化搜索流程，以自動(dòng)高效地發(fā)現(xiàn)這些算子的混合組合，從而構(gòu)建混合 SLM。

各種高效注意力機(jī)制的出現(xiàn)及其在混合模型中復(fù)雜的協(xié)同作用，促使團(tuán)隊(duì)構(gòu)建一個(gè)自動(dòng)化框架，以識(shí)別混合模型中高效且互補(bǔ)的注意力機(jī)制組合——一個(gè)進(jìn)化搜索引擎，以高效地導(dǎo)航復(fù)雜的組合設(shè)計(jì)空間。

在訓(xùn)練過(guò)程中，研究人員在每次訓(xùn)練迭代后將模型權(quán)重投影到單位范數(shù)球面上，以此約束權(quán)重的大小。這一歸一化步驟消除了徑向分量，并強(qiáng)調(diào)了角度更新，從而在相似的梯度幅度下產(chǎn)生更大的相對(duì)權(quán)重變化

Nemotron-Flash：新型混合式 SLM

Nemotron-Flash 系列產(chǎn)品在同等尺寸的型號(hào)中實(shí)現(xiàn)了最低的解碼延遲和最高的準(zhǔn)確率。

Nemotron-Flash-1B 的準(zhǔn)確率比 Qwen3-0.6B 高 5.5%，延遲降低 1.9 倍，吞吐量提升 46 倍。

同樣，NemotronFlash-3B 的平均準(zhǔn)確率比 Qwen2.5-3B 和 Qwen3-1.7B 分別高出 2.0% 和 5.5%，延遲分別降低 1.7 倍和 1.3 倍，吞吐量分別提升 6.4 倍和 18.7 倍。

通過(guò)進(jìn)一步優(yōu)化注意力機(jī)制配置，Nemotron-Flash-3B-TP 的吞吐量分別比 Qwen2.5-3B 和 Qwen3-1.7B 高出 10.1 倍和 29.7 倍。

除了實(shí)現(xiàn)最具競(jìng)爭(zhēng)力的延遲和吞吐量外，Nemotron-Flash-3B 在參數(shù)超過(guò) 15 億的模型中，在常識(shí)推理、數(shù)學(xué)、編碼和召回任務(wù)中也獲得了最高的準(zhǔn)確率。

NemotronFlash-3B-Instruct 展現(xiàn)了強(qiáng)大的推理和指令執(zhí)行能力，實(shí)現(xiàn)了最佳的平均準(zhǔn)確率和效率。與 Qwen2.5-1.5B 和 Qwen3-1.7B 相比，平均準(zhǔn)確率分別提高了 4.7% 以上，吞吐量分別提高了 4.3 倍和 18.7 倍。

參考資料：

https://arxiv.org/pdf/2511.18890