訂閱
糾錯
加入自媒體

沒有地圖,純視覺自動駕駛就只能摸瞎嗎?

最近在一篇討論高精度地圖的文章中,有位小伙伴提到一個非常有趣的觀點“如果人在陌生的目的地,只依托純視覺(眼睛)去辨別道路,若沒有導(dǎo)航,就只能摸瞎”。對于純視覺自動駕駛來說,是否也是如此?

圖片源自:網(wǎng)絡(luò)

人和機器用“視覺”導(dǎo)航的差異

在討論這個話題前,先簡單聊聊什么是“純視覺”。所謂“純視覺”,就是只用攝像頭(單目或多目)來完成感知的方案。不管是把圖像直接送入一個端到端的神經(jīng)網(wǎng)絡(luò)輸出控制指令,還是把圖像先做目標(biāo)檢測/語義分割/深度估計再走傳統(tǒng)規(guī)劃,這類方案都強調(diào)將攝像頭作為主傳感器,甚至唯一的傳感器。

攝像頭的優(yōu)勢其實很明顯,其信息豐富(顏色、紋理、文字、標(biāo)志),成本低,分辨率高,便于人工標(biāo)注和語義理解。但攝像頭對光線敏感、受能見度影響大、難以直接測量精確距離與速度(尤其是遠(yuǎn)距物體)。

圖片源自:網(wǎng)絡(luò)

如果一個人在陌生城市,只有雙眼和一輛車,確實會覺得“瞎摸”,但人并非只靠眼睛去辨別路況。人有長期記憶(熟悉的街區(qū))、語言社交能力(問路)、抽象推理(理解路牌、交通規(guī)則)、以及對場景的常識推斷(哪條路更可能通向城中心)。人還能容忍不確定性并主動采取探測行為(減速、靠邊觀察、試探轉(zhuǎn)彎)。

機器要復(fù)制這些能力,光靠一幀圖像是不夠的,但連續(xù)的視頻、多時序推理、學(xué)習(xí)到的場景模型以及外部信息(如高清地圖、定位)可以代替人類的記憶與推理能力。簡而言之,人類在陌生城市走路,若沒有導(dǎo)航,并不僅是純視覺,而是會有多種信息融合和主動探索,這也正是自動駕駛中會采用多傳感器、多信息源來補償攝像頭不足的原因。

純視覺能做到什么?

純視覺的作用不容小覷,很多車企都圍繞成視覺方案,開發(fā)出自動駕駛系統(tǒng)。借助深度學(xué)習(xí),攝像頭其實可以做很強的語義理解,完成識別車輛、行人、交通標(biāo)志和信號燈,判斷車道線,分割出可通行區(qū)域等任務(wù)。

通過時序信息(連續(xù)幀)和已學(xué)得的運動模型,可以估計自車的運動(視覺里程計/VO)和相對深度(單目深度估計或雙目/立體匹配)。把這些能力組合起來,純視覺系統(tǒng)可以在相對良好的光照、天氣條件下完成感知-預(yù)測-規(guī)劃閉環(huán),尤其是在結(jié)構(gòu)化環(huán)境(如高速公路、城市主干道)和限定的操作設(shè)計域(ODD)內(nèi)表現(xiàn)會非常不錯。

但是純視覺能做到并不意味著純視覺可以完全替代其他傳感器,攝像頭在夜間或極低照度環(huán)境、強逆光、雨雪霧等能見度差的天氣、反光或平坦無紋理表面(比如大面積光滑地面或光禿的雪面)、遮擋嚴(yán)重的復(fù)雜交叉口和遠(yuǎn)距離小物體的預(yù)警(比如遠(yuǎn)處突然出現(xiàn)的行人或小型車輛)等場景下表現(xiàn)不盡如人意。

圖片源自:網(wǎng)絡(luò)

單目相機還存在尺度不確定性的問題(即僅靠圖像難以知道物體絕對距離),雖然借助運動恢復(fù)結(jié)構(gòu)或?qū)W習(xí)可以部分解決,但精度、魯棒性與雷達(dá)/激光雷達(dá)相比仍有差距。此外,攝像頭對光學(xué)欺騙(比如反射、投影、極端對比)比較敏感,容易被異常光照或極端場景“迷惑”。這些局限會直接關(guān)系到安全冗余的設(shè)計,當(dāng)感知變得不可靠時,系統(tǒng)必須要么降級(限制速度、主動停車),要么需依賴其他傳感器。

其實現(xiàn)在很多技術(shù)方案中都是采用“冗余與互補”的策略。攝像頭擅長語義與長距離視覺細(xì)節(jié),毫米波雷達(dá)擅長在雨雪霧中測量相對速度并具備穿透性能,激光雷達(dá)在構(gòu)建精確三維幾何上更可靠。

多數(shù)成熟的自動駕駛系統(tǒng)會選擇多傳感器融合以覆蓋更廣的ODD。當(dāng)然,也有技術(shù)方案一致在推動“攝像頭主導(dǎo)”或“攝像頭優(yōu)先”的路線,靠大量場景數(shù)據(jù)訓(xùn)練、嚴(yán)格限制運行域并設(shè)計詳盡的降級策略來保證安全。

純視覺能否替代地圖和定位?

回到今天的主題,其實這位小伙伴強調(diào)是導(dǎo)航(地圖)對于純視覺的重要性。地圖和定位解決的是“我在哪兒”和“目標(biāo)在那里”的問題。純視覺可以進(jìn)行相對定位(通過視覺里程計或視覺SLAM),甚至可以做基于圖像匹配的全局定位(視覺定位/視覺數(shù)據(jù)庫檢索)。

但想真正將自動駕駛應(yīng)用到車輛上,絕對定位是必不可少的,絕對定位(高精GNSS、車輛坐標(biāo)在地圖上的精確投影)在諸如狹窄車道、復(fù)雜交叉口和需要精確軌跡跟蹤的場景中會起到關(guān)鍵性作用。

圖片源自:網(wǎng)絡(luò)

地圖(尤其是輕量級矢量地圖或路網(wǎng)信息)給規(guī)劃提供的其實是語義與先驗信息,它能顯著減少在線推理的負(fù)擔(dān)并提高安全邊界。純視覺可以替代一部分地圖功能,但要做到在任何場景下不用地圖、只靠攝像頭安全行駛,是非常困難的。

既然純視覺可以替代一部分的地圖功能,那如何將其能力推到極限?現(xiàn)在其實有多個方案,在推動這一想法。自監(jiān)督深度與視覺里程計算法能在沒有密集標(biāo)注的情況下學(xué)到深度和運動;多視角與時序融合能改善遠(yuǎn)距深度估計;利用神經(jīng)場景表示(如NeRF類思想)或大模型的視覺理解可以讓系統(tǒng)在見過類似場景時更好地推斷未觀測的部分;此外,把攝像頭輸出轉(zhuǎn)換為BEV表示、與軌跡預(yù)測結(jié)合、并在規(guī)劃層引入不確定性建模,能讓純視覺系統(tǒng)的決策更可靠。

最后的話

純視覺并不是萬能的,但能力不容小覷,其在語義理解和成本效益上有明顯優(yōu)勢,在受控場景中可以承擔(dān)很大一部分工作;但在面對極端光照、惡劣天氣、遠(yuǎn)距預(yù)警和絕對定位需求時,攝像頭的物理和算法局限依然明顯。智駕最前沿以為,智駕安全不是僅靠單一感覺,而是需要靠多源信息與嚴(yán)謹(jǐn)?shù)墓こ虂肀WC。

-- END --

       原文標(biāo)題 : 沒有地圖,純視覺自動駕駛就只能摸瞎嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號