侵權(quán)投訴
訂閱
糾錯
加入自媒體

自動駕駛數(shù)據(jù)標注是所有信息都要標注嗎?

數(shù)據(jù)標注對于自動駕駛來說,就像是老師教小朋友知識,數(shù)據(jù)標注可以讓車輛學(xué)習(xí)辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信號,這些信號本身只是像素和點云。標注的工作就是人為地給這些信號貼上語義標簽,告訴模型這是一輛車、這是行人、這是車道線、這個區(qū)域不能通行之類的明確信息。沒有這些標簽,監(jiān)督學(xué)習(xí)、驗證和評估都無法進行,模型不知道哪些輸入與哪些輸出應(yīng)該對應(yīng),訓(xùn)練出的模型也會很脆弱、不可解釋。

之所以說數(shù)據(jù)標注非常重要,是因為標注直接決定了感知、預(yù)測和規(guī)劃模塊能學(xué)到什么。高質(zhì)量、針對性的標注可以讓模型在關(guān)鍵場景表現(xiàn)更穩(wěn);相反,標簽錯、漏、定義不一致,就會導(dǎo)致模型在真實路況中出問題,安全風(fēng)險直接上升。標注還會影響迭代速度和成本,如果標注成本高且慢,就會拖慢模型從數(shù)據(jù)到上線的閉環(huán),影響產(chǎn)品進步速度。

是否所有信息都要標注?

既然數(shù)據(jù)標注這么重要,那是不是在標注過程中,能標則標,且要盡可能多的標?實際上,過度標注不僅浪費錢也浪費時間。有效的標注策略需要基于最終的系統(tǒng)需求和用例來取舍。

如果某類標簽不會被模型使用,或者不會影響決策,就沒必要細致標注。舉個例子,如果目標是實現(xiàn)城市道路中的基礎(chǔ)車道級別定位,就不需要把遠處路旁的廣告牌、樹木的每一根枝條細分都進行標注;但是行人、騎行者、其他機動車、交通燈、車道線這些直接關(guān)系到行駛安全的對象就必須高質(zhì)量標注。

標注過程中還要看標注對象的稀有性與重要性。有些對象雖然罕見,但只要出現(xiàn)就會帶來極高風(fēng)險,像是推車的嬰兒車、倒地的電動車、突然橫穿馬路的兒童、施工區(qū)域的臨時路障等就屬于這類對象。這類“長尾”對象雖然樣本少,但優(yōu)先級更高,需要專門花工夫去搜集并標注。

像語義分割那類逐像素的標注,不僅耗時且成本更高。如果我們當(dāng)前的模型只需要粗略的可通行空間邊界或車道線位置,完全精細的逐像素標注可以用更廉價的多邊形或線狀標注替代,后續(xù)再在必要時補充高精度數(shù)據(jù)。

對于數(shù)據(jù)標注來說,訓(xùn)練集與驗證/測試集的標注標準可以不同。訓(xùn)練數(shù)據(jù)可以允許一定比例的噪聲、快捷標注方法和自動化預(yù)標注,但驗證和測試集的標注必須是高度一致且嚴格的,只有這樣,評估才可靠。

哪些內(nèi)容更值得標注?

既然并不是所有信息都需要標注,那對于自動駕駛來說,哪些標簽是“必標”的?哪些只需要根據(jù)條件進行標注?

對于自動駕駛汽車來說,核心感知對象的標注必須是高質(zhì)量的,機動車、非機動車、行人、交通燈、交通標志、車道線、靜態(tài)障礙物(護欄、石墩)這些直接影響即時決策的信息,要做到明確的類別定義、精確的空間框(2D或3D)和清晰的遮擋/可見性標注。尤其是對于行人,除了要標注類別外,還要標注姿態(tài)(站立、行走、蹲下)和是否攜帶物品(推車、手提物)等,因為這些信息會影響模型的行為預(yù)測。

單幀識別固然重要,但車輛想知道物體的運動軌跡、速度和加速度趨勢,動態(tài)追蹤與時序標簽更是關(guān)鍵。標注軌跡ID、時序邊界、目標出現(xiàn)與消失的時刻,對訓(xùn)練多目標跟蹤(MOT)和預(yù)測模塊至關(guān)重要。特別是在交叉口、并線、減速跟隨這類需要預(yù)測他人行為的場景,時序數(shù)據(jù)能顯著提升系統(tǒng)表現(xiàn)。

高精度的三維信息對定位和避障非常有用,LiDAR點云的點級別分類、3D包圍盒、物體朝向和尺寸標注,是構(gòu)建可靠三維感知的基礎(chǔ)。尤其是在夜間或弱光環(huán)境下,激光雷達可為系統(tǒng)提供穩(wěn)定的距離信息,配合圖像標注可以提高檢測魯棒性。

車道與可行駛區(qū)域的語義標注也必須重視,明確車道邊界、車道類型、虛線/實線、交叉口區(qū)域、匝道、慢車道等標注,能夠幫助高精地圖生成與局部行為決策。像是路緣石、盲道磚、停車位等靜態(tài)地圖元素,在某些應(yīng)用場景下是非常必要的標簽。

長尾與異常場景需要制定單獨的標注策略,像是施工場景、事故現(xiàn)場、異常天氣(大雪、暴雨、霧霾)、道路受損、臨時交通管制、違停車輛、緊急救援車輛出現(xiàn)等場景,雖然出現(xiàn)頻率低,但對安全影響大。建議用專門的樣本池和標注流程,把這些數(shù)據(jù)優(yōu)先納入訓(xùn)練或用于強化模型在稀有場景下的表現(xiàn)。

對于自動駕駛來說,行為與意圖層面的標注價值也在上升。自動駕駛汽車除了要學(xué)習(xí)“這是什么”,還要學(xué)習(xí)“它要做什么”。像是標注車輛的并線意圖、行人的過街意圖、騎車人的加速/減速意圖,這些標簽對預(yù)測模塊非常有用。行為標簽往往需要結(jié)合上下文和時序,標注更費時也更主觀,但回報很高。

環(huán)境與天氣標簽也不可忽視,每一幀的光照條件、能見度、路面狀況(濕滑、結(jié)冰)、是否有積雪、是否處于黃昏/夜間等信息,都應(yīng)作為元標簽保存,這樣能幫助模型做域自適應(yīng)、并讓工程師更快找到模型弱點。

地圖和高精定位相關(guān)的標注要與HD地圖結(jié)合,標注路口拓撲、車道連接關(guān)系、交通燈控制邏輯等信息,可用于規(guī)則基的行為決策與混合策略系統(tǒng)。高精地圖的制作本身就是一種標注活動,只不過尺度更大、需求更精細。

除了感知之外,數(shù)據(jù)質(zhì)量與元信息的標注也值得投入。設(shè)備故障、同步問題、畸變或遮擋等元數(shù)據(jù)標注能幫助后續(xù)數(shù)據(jù)清洗與模型魯棒性提升。很多看似能力很差的模型可能只是沒有這些元標簽的原因?qū)е碌摹?/p>

最后的話

對于自動駕駛來說,標注并不是一次性的“下游工作”,而是產(chǎn)品能力的核心組成部分。標注并不是簡單的勞動密集型支出,而是自動駕駛環(huán)節(jié)中非常重要的一環(huán),將決定自動駕駛汽車的駕駛行為。

對于數(shù)據(jù)標注,一定要明確兩點,一是標注要與需求對齊,先做關(guān)鍵的、影響安全和決策的標簽;二是在資源有限時,要把錢和人工花在能迅速改善模型弱點的地方。只有這樣,標注才能成為推動自動駕駛技術(shù)成熟的穩(wěn)健引擎。

-- END --

       原文標題 : 自動駕駛數(shù)據(jù)標注是所有信息都要標注嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    技術(shù)文庫

    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號