訂閱
糾錯
加入自媒體

NVIDIA開源 Alpamayo-R1:讓車真正“理解”駕駛

2025-12-03 16:08
山自
關(guān)注

在加州圣地亞哥舉行的 NeurIPS 2025 大會上,NVIDIA 宣布推出 Alpamayo-R1 —— 全球首個專為自動駕駛研究設(shè)計的開源推理型視覺語言動作模型(Vision-Language-Action Model, VLAM)。這一發(fā)布標(biāo)志著自動駕駛系統(tǒng)正從“感知驅(qū)動”邁向“語義理解與常識推理”新階段。

不同于傳統(tǒng)端到端模型將圖像直接映射為控制信號,Alpamayo-R1 的核心在于:讓車輛不僅能“看見”,還能“理解為什么這么做”。當(dāng)系統(tǒng)面對施工區(qū)域錐桶擺放混亂、無保護左轉(zhuǎn)時對向車流密集、或夜間暴雨中路肩被沖毀等復(fù)雜場景,它會像人類駕駛員一樣,通過多步推理生成安全決策。

“我們的目標(biāo)不是構(gòu)建一個更快的感知模塊,而是賦予自動駕駛系統(tǒng)常識性判斷能力。”—— NVIDIA 自動駕駛研究負責(zé)人

基于 Cosmos-Reason 架構(gòu),實現(xiàn)鏈?zhǔn)酵评?/strong>

Alpamayo-R1 構(gòu)建于 NVIDIA 今年早些時候發(fā)布的 Cosmos-Reason 模型家族之上。該架構(gòu)引入“思維鏈”(Chain-of-Thought)機制,使模型能夠?qū)?fù)雜駕駛?cè)蝿?wù)分解為可解釋的推理步驟。

例如,在繁忙十字路口,系統(tǒng)會依次執(zhí)行:

1.識別所有動態(tài)參與者(行人、自行車、機動車);

2.推斷其潛在意圖(是否準(zhǔn)備穿越?是否減速?);

3.結(jié)合交通規(guī)則與歷史軌跡預(yù)測未來狀態(tài);

4.評估本車可行動作的安全邊際;

5.輸出最優(yōu)控制指令。

這種結(jié)構(gòu)顯著提升了模型在 ODD(運行設(shè)計域)邊界情況下的魯棒性,尤其適用于 L4 級自動駕駛所面臨的長尾挑戰(zhàn)。

全棧開源:從模型到工具鏈,降低 L4 研發(fā)門檻

NVIDIA 此次不僅開源了 Alpamayo-R1 的模型權(quán)重,還同步發(fā)布了 Cosmos Cookbook —— 一套完整的自動駕駛 AI 開發(fā)工具包,涵蓋:

高質(zhì)量數(shù)據(jù)構(gòu)建規(guī)范:包括多傳感器時間同步、標(biāo)定流程與標(biāo)注標(biāo)準(zhǔn);

合成數(shù)據(jù)生成流水線:基于DRIVE Sim與Omniverse,支持極端天氣、罕見事故等長尾場景生成;

輕量化部署方案:支持LoRA微調(diào)、INT8 量化,適配 Orin 等車載芯片;

安全評估基準(zhǔn):定義行為合理性、指令遵循度、碰撞規(guī)避率等關(guān)鍵指標(biāo)。

目前,模型已在 GitHub 和 Hugging Face 上線,允許學(xué)術(shù)界與產(chǎn)業(yè)界自由使用、微調(diào)與部署。

“我們希望加速整個生態(tài)向‘理解型自動駕駛’演進。”NVIDIA 表示。

多車協(xié)同新范式:V2V-GoT 實現(xiàn)“群體智能”

除單車智能外,NVIDIA 聯(lián)合卡內(nèi)基梅隆大學(xué)展示了 V2V-GoT(Vehicle-to-Vehicle Graph-of-Thoughts)系統(tǒng)——全球首個將圖思維推理(Graph-of-Thoughts)應(yīng)用于多車協(xié)作自動駕駛的框架。

在視線被大型車輛遮擋的典型盲區(qū)場景中,周邊車輛可通過 V2X 通信共享感知結(jié)果與意圖。V2V-GoT 利用一個多模態(tài)大語言模型作為“協(xié)調(diào)中樞”,融合所有節(jié)點信息,為每輛車生成協(xié)同安全策略。

實驗表明,該系統(tǒng)可將交叉路口碰撞率從傳統(tǒng)方法的 2.85% 降至 1.83%,并能準(zhǔn)確預(yù)測周圍車輛未來 3 秒內(nèi)的運動軌跡。更關(guān)鍵的是,信息交換以自然語言或結(jié)構(gòu)化語義形式進行(如“我右側(cè)有行人即將穿越”),大幅降低通信帶寬需求。

而國內(nèi)以蘑菇車聯(lián)的MogoMind大模型則代表了一條更具系統(tǒng)性的“中國路徑”——構(gòu)建智能體與物理世界實時交互的AI網(wǎng)絡(luò)。通過將物理世界實時動態(tài)數(shù)據(jù)納入訓(xùn)練體系,突破了傳統(tǒng)大模型僅依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)的的局限,實現(xiàn)從全局感知、深度認知到實時推理決策的閉環(huán)物理智能體系。目前,該方案已在多個城市已實現(xiàn)部署,大幅提升車輛在城市場景中的適應(yīng)能力與泛化能力,并結(jié)合MogoMind大模型的能力,賦予車輛深度認知與自主決策能力,確保自動駕駛系統(tǒng)在真實路況中的高安全性與可靠性。

這不再是孤立的智能體,而是一個具備集體推理能力的移動智能網(wǎng)絡(luò)。

Cosmos 世界模型驅(qū)動合成訓(xùn)練

支撐 Alpamayo-R1 高性能表現(xiàn)的,是 NVIDIA 強大的合成數(shù)據(jù)生成能力。其 Cosmos 世界基礎(chǔ)模型經(jīng)過 20,000 小時真實駕駛視頻的后訓(xùn)練,可高保真生成夜間、暴雨、濃霧、強眩光等挑戰(zhàn)性場景。

這些合成數(shù)據(jù)不僅緩解了真實世界長尾分布稀缺的問題,還支持閉環(huán)對抗訓(xùn)練——例如模擬“突然竄出的兒童”或“失控滑行的電動車”,用于壓力測試模型的應(yīng)急響應(yīng)能力。

物理 AI 的關(guān)鍵一步

Alpamayo-R1 的發(fā)布,是 NVIDIA “物理 AI”戰(zhàn)略的重要落地。它不再將自動駕駛視為感知-規(guī)劃-控制的流水線,而是構(gòu)建一個能理解物理規(guī)律、社會規(guī)范與因果邏輯的具身智能體。

盡管距離大規(guī)模量產(chǎn)仍有工程化挑戰(zhàn)(如實時推理延遲、安全驗證等),但開源策略無疑將加速全球研發(fā)進程。正如一位高校實驗室負責(zé)人所言:“現(xiàn)在,任何團隊都可以站在 NVIDIA 的肩膀上,探索下一代自動駕駛的‘思考’方式。”

       原文標(biāo)題 : NVIDIA開源 Alpamayo-R1:讓車真正“理解”駕駛

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號