隨著自動(dòng)駕駛邁向量產(chǎn)場景,“BEV感知+數(shù)據(jù)閉環(huán)”已成為新一代自動(dòng)駕駛量產(chǎn)系統(tǒng)的核心架構(gòu)。數(shù)據(jù)成為了至關(guān)重要的技術(shù)驅(qū)動(dòng)力,發(fā)揮數(shù)據(jù)閉環(huán)的飛輪效應(yīng)或?qū)⒊蔀橄掳雸鰪?到N的勝負(fù)關(guān)鍵。
覺非科技在此方面已進(jìn)行了大量的研究工作,并在實(shí)際量產(chǎn)項(xiàng)目中開始了部分技術(shù)的應(yīng)用。結(jié)合這些實(shí)踐的經(jīng)驗(yàn),覺非科技感知算法專家戚玉涵博士近期在「生成式AI熱潮下的自動(dòng)駕駛」技術(shù)論壇中進(jìn)行了分享,系統(tǒng)介紹了覺非科技“BEV感知+數(shù)據(jù)閉環(huán)”技術(shù)架構(gòu)與研發(fā)進(jìn)展。
一、覺非科技的數(shù)據(jù)閉環(huán)
Fig.1 覺非基于BEV感知的量產(chǎn)架構(gòu)圖
覺非科技利用離線高精地圖生成靜態(tài)要素真值數(shù)據(jù),用于訓(xùn)練基于BEV的靜態(tài)要素感知模型;將模型部署于車端,實(shí)時(shí)推理時(shí)產(chǎn)生靜態(tài)要素的柵格圖結(jié)果并上傳云端,在云端對(duì)柵格圖進(jìn)行SLAM拼接以及矢量化等后處理,通過量產(chǎn)化制圖能力產(chǎn)生大規(guī)模的高精度地圖數(shù)據(jù)庫,進(jìn)而實(shí)現(xiàn)靜態(tài)要素的數(shù)據(jù)閉環(huán)。
覺非構(gòu)建的大數(shù)據(jù)中心可實(shí)現(xiàn)快速不斷的迭代,供給生成BEV感知算法的訓(xùn)練數(shù)據(jù)。覺非BEV感知任務(wù)包括三個(gè)部分:動(dòng)態(tài)目標(biāo)的3D檢測與跟蹤、靜態(tài)要素的分割、以及靜態(tài)要素的拓?fù)浣Y(jié)構(gòu)矢量圖。
覺非的采集車配備7V相機(jī)(其中,采集車前向安裝一臺(tái)長焦相機(jī),主要用于感知遠(yuǎn)距離目標(biāo)),以及一臺(tái)128線束的激光雷達(dá)。目前依賴點(diǎn)云檢測來生成視覺BEV 3D動(dòng)態(tài)目標(biāo)感知的真值數(shù)據(jù),其高度依賴于高精度的傳感器標(biāo)定和時(shí)空同步。
Fig.2 相機(jī)軟件觸發(fā)與硬件觸發(fā)數(shù)采方式下,訓(xùn)練模型BEV 3D感知效果對(duì)比圖
上圖:相機(jī)軟件觸發(fā)方式采集訓(xùn)練數(shù)據(jù)的BEV 3D模型推理結(jié)果
下圖:相機(jī)根據(jù)LiDAR相位角觸發(fā)方式采集訓(xùn)練數(shù)據(jù)的BEV 3D模型推理結(jié)果
為此,覺非科技自研了基于高精地圖的點(diǎn)云與相機(jī)的外參標(biāo)定技術(shù),同時(shí)依靠自研GNSS授時(shí)和根據(jù)LiDAR相位角硬件觸發(fā)相機(jī)采集的同步板卡,對(duì)激光雷達(dá)和相機(jī)進(jìn)行硬件同步,保證了BEV 動(dòng)態(tài)目標(biāo)3D感知結(jié)果的位置精度。
二、 覺非科技對(duì)BEV感知算法的優(yōu)化方式
覺非BEV多任務(wù)聯(lián)合感知算法的框架中,先將車周環(huán)視相機(jī)的圖像接入BEV編碼器,其結(jié)構(gòu)包括backbone與neck,用于較好地提取圖像特征;經(jīng)視角變換模塊得到稠密的BEV特征,與緩存的歷史幀BEV特征一起送入時(shí)序融合模塊,進(jìn)行時(shí)序BEV特征聚合,時(shí)序融合能夠提高被遮擋的動(dòng)態(tài)目標(biāo)的召回率,且提高視覺感知方式下目標(biāo)速度的檢測精度。
針對(duì)不同的感知任務(wù),由BEV feature sampler設(shè)定不同的感知范圍和BEV網(wǎng)格的粒度,對(duì)采樣后的BEV特征進(jìn)行解碼和task head,得到最終動(dòng)態(tài)目標(biāo)3D檢測和靜態(tài)要素柵格圖語義分割結(jié)果。
Fig.3 覺非BEV多任務(wù)聯(lián)合感知模型框架圖
在算法持續(xù)迭代的進(jìn)程中,覺非的主要優(yōu)化方向包含幾個(gè)方面:
1. 視角轉(zhuǎn)化(view transform)
目前學(xué)界在視角轉(zhuǎn)換上存在很多范式,主流的方法主要包括LSS、MLP、Transformer
等。在考慮部署的便利性以及硬件平臺(tái)對(duì)算子的支持等因素后,覺非選用的是LSS范式。
LSS范式下,視角變換模塊利用depthnet網(wǎng)絡(luò)輸出兩組信息,一是每一個(gè)像素點(diǎn)對(duì)應(yīng)的圖像上下文語義特征,其次是每個(gè)像素點(diǎn)上預(yù)測的深度分布,兩路信息進(jìn)行外積后可得出各個(gè)相機(jī)的視錐體(frustum)中每個(gè)像素點(diǎn)的上下文特征信息,從而實(shí)現(xiàn)2D到3D的提升。視角變換模塊在工程化部署的方式上有兩種方式:
Fig.4 覺非視角轉(zhuǎn)化模塊
對(duì)于Nvidia的芯片,對(duì)每個(gè)像素點(diǎn)的上下文語義特征與估計(jì)得到的深度分布權(quán)重和進(jìn)行外積實(shí)現(xiàn)Lifting,得到描述各個(gè)相機(jī)視錐體特征的到五維向量(B*N,c,d,h,w),而后根據(jù)相機(jī)參數(shù)將各個(gè)相機(jī)視錐體的特征splat到BEV視角下,可調(diào)用英偉達(dá)CUDA Kernal的多線程做并行加速來實(shí)現(xiàn)BEV的Pooling,得到聚合后的稠密BEV特征。
對(duì)于地平線J5芯片,根據(jù)車機(jī)視覺模組內(nèi)外參數(shù)可預(yù)先計(jì)算出視錐體中每一個(gè)像素點(diǎn)與BEV網(wǎng)格唯一的哈希映射關(guān)系,而后在BEV網(wǎng)格進(jìn)行特征聚合時(shí),根據(jù)預(yù)設(shè)好的映射關(guān)系通過視錐體中像素點(diǎn)的索引值分別提取上下文特征和深度值進(jìn)行相乘,所有BEV網(wǎng)格內(nèi)的特征進(jìn)行張量的求和,從而實(shí)現(xiàn)特征聚合。
BEV pooling過程中的預(yù)先計(jì)算視錐點(diǎn)與BEV網(wǎng)格,可以在節(jié)約推理耗時(shí),保證了模型在車端部署的實(shí)時(shí)性。例如,在實(shí)際落地實(shí)踐中,覺非的BEV 3D感知可實(shí)現(xiàn)自車前后80米、左右40米范圍,哈希映射計(jì)算前置與BEV pooling的并行加速節(jié)約耗時(shí)可達(dá)到16毫秒。
2.相機(jī)視椎體切割(Camera Frustum Cutting)
在BEV pooling環(huán)節(jié)中,可以根據(jù)預(yù)設(shè)的感知范圍對(duì)參與BEV特征聚合的各個(gè)相機(jī)的視錐體進(jìn)行裁剪,僅保留BEV感知范圍內(nèi)的視錐點(diǎn)參與特征聚合,可以節(jié)約參與BEV pooling的計(jì)算量。
3. 遠(yuǎn)距離感知(Long-distance Perception Range)
學(xué)界在BEV 3D感知上一般可實(shí)現(xiàn)車周半徑51.2m(nuScenes數(shù)據(jù)集),或是75m(waymo數(shù)據(jù)集),而在真實(shí)的量產(chǎn)實(shí)踐中,感知范圍遠(yuǎn)遠(yuǎn)不能滿足下游規(guī)劃控制的需求。
覺非科技的BEV感知方案中,除6v環(huán)視相機(jī)以外,在自車前視方向增加了1臺(tái)長焦相機(jī),可以感知遠(yuǎn)距離的目標(biāo);同時(shí)設(shè)計(jì)了一種非均勻粒度分布的BEV網(wǎng)格,在擴(kuò)大BEV感知范圍的同時(shí),不額外增加過多的網(wǎng)格數(shù)量和模型計(jì)算量;同時(shí)引入點(diǎn)云數(shù)據(jù)對(duì)相機(jī)視錐點(diǎn)深度估計(jì)的顯式監(jiān)督,能保證模型對(duì)遠(yuǎn)距離動(dòng)態(tài)目標(biāo)的召回與較為精確的空間位置。
4.BEV坐標(biāo)樣本BEV Grid Sampler
覺非的BEV感知為多任務(wù)聯(lián)合訓(xùn)練模型,感知任務(wù)包含對(duì)動(dòng)態(tài)目標(biāo)的3D檢測與跟蹤,靜態(tài)要素的語義分割。其中靜態(tài)要素的語義分割任務(wù)中,高分辨率的BEV特征是保證地面要素檢測精度的前提。
因此在模型的設(shè)置上,覺非加入了BEV Grid Sampler模塊,在對(duì)BEV特征解碼前,該模塊根據(jù)設(shè)定的地面要素感知的范圍,對(duì)稠密BEV特征進(jìn)行裁剪,并利用雙線性差值方式對(duì)BEV特征上采樣還原得到高精度、精細(xì)化的BEV特征。
Fig.5 BEV網(wǎng)格采樣器示意圖
在聯(lián)合訓(xùn)練的過程中,為避免同時(shí)訓(xùn)練不同任務(wù)對(duì)各個(gè)子任務(wù)性能的負(fù)面影響(一般稱為:負(fù)遷移),覺非的聯(lián)合訓(xùn)練模型中對(duì)不同的感知子任務(wù)設(shè)計(jì)了獨(dú)立解碼器,在解碼過程中,各任務(wù)不共享BN(Batch Normalization)層的參數(shù),可提升聯(lián)合訓(xùn)練模型的穩(wěn)定性并降低負(fù)遷移的影響。
Fig.6 多任務(wù)聯(lián)合訓(xùn)練策略
5.基于MapTR的創(chuàng)新與優(yōu)化
在車端與路端大規(guī)模數(shù)據(jù)積累的基礎(chǔ)上,覺非基于MapTR提出了相應(yīng)創(chuàng)新優(yōu)化,其中包括:
①對(duì)車道信息的表達(dá)方式進(jìn)行優(yōu)化,采用車道中心線進(jìn)行表征并加入道路拓?fù)湟氐慕#?/p>
②在不額外增加解碼器query數(shù)量的基礎(chǔ)上,通過回歸車道寬度的方式還原車道標(biāo)線的幾何位置;
③學(xué)習(xí)車道線的虛實(shí)信息,可用于變道時(shí)判斷旁邊車道是否可以跨越;
④加入車道方向信息的學(xué)習(xí),用于區(qū)分自車車道與對(duì)向車道;
⑤在MapTR的基礎(chǔ)上加入了地圖先驗(yàn)信息,有效提升模型輸出地圖元素的準(zhǔn)確度與召回率。覺非對(duì)MapTR的創(chuàng)新能夠系統(tǒng)化提升單車實(shí)時(shí)建圖的能力,更易于自動(dòng)駕駛規(guī)控使用。
Fig.7 在線矢量化地圖構(gòu)建
目前覺非科技正在對(duì)“BEV感知+數(shù)據(jù)閉環(huán)”進(jìn)行持續(xù)的優(yōu)化,通過數(shù)據(jù)與算法的自研經(jīng)驗(yàn),以及在數(shù)據(jù)閉環(huán)搭建過程中大量的Know-How積累,為開發(fā)和迭代提供一套高效的工具鏈,并提升模型的泛化能力,在自動(dòng)駕駛「數(shù)據(jù)驅(qū)動(dòng)」的時(shí)代,推動(dòng)數(shù)據(jù)閉環(huán)在量產(chǎn)車不斷落地。
{{item.content}}