沒有地圖，純視覺自動駕駛就只能摸瞎嗎？

2025-11-27 11:03

最近在一篇討論高精度地圖的文章中，有位小伙伴提到一個非常有趣的觀點“如果人在陌生的目的地，只依托純視覺（眼睛）去辨別道路，若沒有導(dǎo)航，就只能摸瞎”。對于純視覺自動駕駛來說，是否也是如此？

圖片源自：網(wǎng)絡(luò)

人和機器用“視覺”導(dǎo)航的差異

在討論這個話題前，先簡單聊聊什么是“純視覺”。所謂“純視覺”，就是只用攝像頭（單目或多目）來完成感知的方案。不管是把圖像直接送入一個端到端的神經(jīng)網(wǎng)絡(luò)輸出控制指令，還是把圖像先做目標(biāo)檢測／語義分割／深度估計再走傳統(tǒng)規(guī)劃，這類方案都強調(diào)將攝像頭作為主傳感器，甚至唯一的傳感器。

攝像頭的優(yōu)勢其實很明顯，其信息豐富（顏色、紋理、文字、標(biāo)志），成本低，分辨率高，便于人工標(biāo)注和語義理解。但攝像頭對光線敏感、受能見度影響大、難以直接測量精確距離與速度（尤其是遠(yuǎn)距物體）。

圖片源自：網(wǎng)絡(luò)

如果一個人在陌生城市，只有雙眼和一輛車，確實會覺得“瞎摸”，但人并非只靠眼睛去辨別路況。人有長期記憶（熟悉的街區(qū)）、語言社交能力（問路）、抽象推理（理解路牌、交通規(guī)則）、以及對場景的常識推斷（哪條路更可能通向城中心）。人還能容忍不確定性并主動采取探測行為（減速、靠邊觀察、試探轉(zhuǎn)彎）。

機器要復(fù)制這些能力，光靠一幀圖像是不夠的，但連續(xù)的視頻、多時序推理、學(xué)習(xí)到的場景模型以及外部信息（如高清地圖、定位）可以代替人類的記憶與推理能力。簡而言之，人類在陌生城市走路，若沒有導(dǎo)航，并不僅是純視覺，而是會有多種信息融合和主動探索，這也正是自動駕駛中會采用多傳感器、多信息源來補償攝像頭不足的原因。

純視覺能做到什么？

純視覺的作用不容小覷，很多車企都圍繞成視覺方案，開發(fā)出自動駕駛系統(tǒng)。借助深度學(xué)習(xí)，攝像頭其實可以做很強的語義理解，完成識別車輛、行人、交通標(biāo)志和信號燈，判斷車道線，分割出可通行區(qū)域等任務(wù)。

通過時序信息（連續(xù)幀）和已學(xué)得的運動模型，可以估計自車的運動（視覺里程計/VO）和相對深度（單目深度估計或雙目/立體匹配）。把這些能力組合起來，純視覺系統(tǒng)可以在相對良好的光照、天氣條件下完成感知-預(yù)測-規(guī)劃閉環(huán)，尤其是在結(jié)構(gòu)化環(huán)境（如高速公路、城市主干道）和限定的操作設(shè)計域（ODD）內(nèi)表現(xiàn)會非常不錯。

但是純視覺能做到并不意味著純視覺可以完全替代其他傳感器，攝像頭在夜間或極低照度環(huán)境、強逆光、雨雪霧等能見度差的天氣、反光或平坦無紋理表面（比如大面積光滑地面或光禿的雪面）、遮擋嚴(yán)重的復(fù)雜交叉口和遠(yuǎn)距離小物體的預(yù)警（比如遠(yuǎn)處突然出現(xiàn)的行人或小型車輛）等場景下表現(xiàn)不盡如人意。

圖片源自：網(wǎng)絡(luò)

單目相機還存在尺度不確定性的問題（即僅靠圖像難以知道物體絕對距離），雖然借助運動恢復(fù)結(jié)構(gòu)或?qū)W習(xí)可以部分解決，但精度、魯棒性與雷達(dá)／激光雷達(dá)相比仍有差距。此外，攝像頭對光學(xué)欺騙（比如反射、投影、極端對比）比較敏感，容易被異常光照或極端場景“迷惑”。這些局限會直接關(guān)系到安全冗余的設(shè)計，當(dāng)感知變得不可靠時，系統(tǒng)必須要么降級（限制速度、主動停車），要么需依賴其他傳感器。

其實現(xiàn)在很多技術(shù)方案中都是采用“冗余與互補”的策略。攝像頭擅長語義與長距離視覺細(xì)節(jié)，毫米波雷達(dá)擅長在雨雪霧中測量相對速度并具備穿透性能，激光雷達(dá)在構(gòu)建精確三維幾何上更可靠。

多數(shù)成熟的自動駕駛系統(tǒng)會選擇多傳感器融合以覆蓋更廣的ODD。當(dāng)然，也有技術(shù)方案一致在推動“攝像頭主導(dǎo)”或“攝像頭優(yōu)先”的路線，靠大量場景數(shù)據(jù)訓(xùn)練、嚴(yán)格限制運行域并設(shè)計詳盡的降級策略來保證安全。

純視覺能否替代地圖和定位？

回到今天的主題，其實這位小伙伴強調(diào)是導(dǎo)航（地圖）對于純視覺的重要性。地圖和定位解決的是“我在哪兒”和“目標(biāo)在那里”的問題。純視覺可以進(jìn)行相對定位（通過視覺里程計或視覺SLAM），甚至可以做基于圖像匹配的全局定位（視覺定位/視覺數(shù)據(jù)庫檢索）。

但想真正將自動駕駛應(yīng)用到車輛上，絕對定位是必不可少的，絕對定位（高精GNSS、車輛坐標(biāo)在地圖上的精確投影）在諸如狹窄車道、復(fù)雜交叉口和需要精確軌跡跟蹤的場景中會起到關(guān)鍵性作用。

圖片源自：網(wǎng)絡(luò)

地圖（尤其是輕量級矢量地圖或路網(wǎng)信息）給規(guī)劃提供的其實是語義與先驗信息，它能顯著減少在線推理的負(fù)擔(dān)并提高安全邊界。純視覺可以替代一部分地圖功能，但要做到在任何場景下不用地圖、只靠攝像頭安全行駛，是非常困難的。

既然純視覺可以替代一部分的地圖功能，那如何將其能力推到極限？現(xiàn)在其實有多個方案，在推動這一想法。自監(jiān)督深度與視覺里程計算法能在沒有密集標(biāo)注的情況下學(xué)到深度和運動；多視角與時序融合能改善遠(yuǎn)距深度估計；利用神經(jīng)場景表示（如NeRF類思想）或大模型的視覺理解可以讓系統(tǒng)在見過類似場景時更好地推斷未觀測的部分；此外，把攝像頭輸出轉(zhuǎn)換為BEV表示、與軌跡預(yù)測結(jié)合、并在規(guī)劃層引入不確定性建模，能讓純視覺系統(tǒng)的決策更可靠。

最后的話

純視覺并不是萬能的，但能力不容小覷，其在語義理解和成本效益上有明顯優(yōu)勢，在受控場景中可以承擔(dān)很大一部分工作；但在面對極端光照、惡劣天氣、遠(yuǎn)距預(yù)警和絕對定位需求時，攝像頭的物理和算法局限依然明顯。智駕最前沿以為，智駕安全不是僅靠單一感覺，而是需要靠多源信息與嚴(yán)謹(jǐn)?shù)墓こ虂肀ＷC。

-- END --

原文標(biāo)題 : 沒有地圖，純視覺自動駕駛就只能摸瞎嗎？