發(fā)布時(shí)間:2020-03-18
瀏覽次數(shù):490
自動(dòng)駕駛感知模塊中傳感器融合已經(jīng)成為了標(biāo)配,只是這里融合的層次有不同,可以是硬件層(如禾賽,Innovusion的產(chǎn)品),也可以是數(shù)據(jù)層(這里的討論范圍),還可以是任務(wù)層像障礙物檢測(cè)(obstacle detection),車道線檢測(cè)(lane detection),分割(segmentation)和跟蹤(tracking)以及車輛自身定位(localization)等。
有些傳感器之間很難在底層融合,比如攝像頭或者激光雷達(dá)和毫米波雷達(dá)之間,因?yàn)楹撩撞ɡ走_(dá)的目標(biāo)分辨率很低(無法確定目標(biāo)大小和輪廓),但可以在高層上探索融合,比如目標(biāo)速度估計(jì),跟蹤的軌跡等等。
這里主要介紹一下激光雷達(dá)和攝像頭的數(shù)據(jù)融合,實(shí)際是激光雷達(dá)點(diǎn)云投影在攝像頭圖像平面形成的深度和圖像估計(jì)的深度進(jìn)行結(jié)合,理論上可以將圖像估計(jì)的深度反投到3-D空間形成點(diǎn)云和激光雷達(dá)的點(diǎn)云融合,但很少人用。原因是,深度圖的誤差在3-D空間會(huì)放大,另外是3-D空間的點(diǎn)云分析手段不如圖像的深度圖成熟,畢竟2.5-D還是研究的歷史長(zhǎng),比如以前的RGB-D傳感器,Kinect或者RealSense。
這種融合的思路非常明確:一邊兒圖像傳感器成本低,分辨率高(可以輕松達(dá)到2K-4K);另一邊兒激光雷達(dá)成本高,分辨率低,深度探測(cè)距離短??墒?,激光雷達(dá)點(diǎn)云測(cè)距精確度非常高,測(cè)距遠(yuǎn)遠(yuǎn)大于那些Infrared/TOF depth sensor,對(duì)室外環(huán)境的抗干擾能力也強(qiáng),同時(shí)圖像作為被動(dòng)視覺系統(tǒng)的主要傳感器,深度估計(jì)精度差,更麻煩的是穩(wěn)定性和魯棒性差。所以,能不能把激光雷達(dá)的稀疏深度數(shù)據(jù)和致密的圖像深度數(shù)據(jù)結(jié)合,形成互補(bǔ)?
另外,稀疏的深度圖如何upsample變得致密,這也是一個(gè)已經(jīng)進(jìn)行的研究題目,類似image-based depth upsampling之類的工作。還有,激光雷達(dá)得到的點(diǎn)云投到攝像頭的圖像平面會(huì)發(fā)現(xiàn),有一些不反射激光的物體表面造成“黑洞”,還有遠(yuǎn)距離的街道或者天空區(qū)域基本上是沒有數(shù)據(jù)顯示,這樣就牽涉到另一個(gè)研究題目,image-based depth inpainting / completion。
解決這個(gè)問題的前提是,激光雷達(dá)和攝像頭的標(biāo)定和同步是完成的,所以激光雷達(dá)的點(diǎn)云可以校準(zhǔn)投影到攝像頭的圖像平面,形成相對(duì)稀疏的深度圖。
我們分析的次序還是先傳統(tǒng)方法,后深度學(xué)習(xí)方法,最近后一種方法的文章2017年以后逐漸增多。筆者開始這方面工作是恰恰是2017年,非常榮幸地發(fā)現(xiàn)當(dāng)時(shí)發(fā)表的學(xué)術(shù)論文和自己的方向非常接近,并且筆者在這些論文公開化之前已經(jīng)申請(qǐng)了多個(gè)專利。
首先,把任務(wù)看成一個(gè)深度圖內(nèi)插問題,那么方法類似SR和upsampling,只是需要RGB圖像的引導(dǎo),即image-guided。
實(shí)現(xiàn)這種圖像和深度之間的結(jié)合,需要的是圖像特征和深度圖特征之間的相關(guān)性,這個(gè)假設(shè)條件在激光雷達(dá)和攝像頭傳感器標(biāo)定和校準(zhǔn)的時(shí)候已經(jīng)提到過,這里就是要把它應(yīng)用在pixel(像素)/depel(深度素)/surfel(表面素)/voxel(體素)這個(gè)層次。
基本上,技術(shù)上可以分成兩種途徑:局部法和全局法。這樣歸納,看著和其他幾個(gè)經(jīng)典的計(jì)算機(jī)視覺問題,如光流計(jì)算,立體視覺匹配和圖像分割類似。
是否還記得圖像濾波的歷史?均值濾波-》高斯濾波-》中值濾波-》Anisotropic Diffusion -》Bilateral濾波(等價(jià)于前者)-》Non Local Means濾波-》BM3D,這些都是局部法。那么Joint Bilateral Filtering呢,還有著名的Guided image filtering,在這里都可以發(fā)揮作用。
這是一個(gè)例子:bilateral filter
再看一個(gè)類似的方法:guided image filtering
還有上述方法的改進(jìn)型:二次內(nèi)插,第一次是在殘差域內(nèi)插,第二次是應(yīng)用前面的guided image filtering方法。
特別需要說一下,最近有一個(gè)方法,采用傳統(tǒng)形態(tài)學(xué)濾波法,性能不比深度學(xué)習(xí)CNN差,不妨看一下它的流程圖:有興趣可以搜搜 “In Defense of Classical Image Processing: Fast Depth Completion on the CPU“,其結(jié)果和CNN方法的比較也附上。
全局法,自然就是MRF,CRF,TV(Total variation),dictionary learning 和 Sparse Coding之類。下面為避免繁瑣的公式拷貝,就直接給出論文題目吧。
下一個(gè)是“Image Guided Depth Upsampling using Anisotropic Total Generalized Variation“:采用TV,傳感器雖然是ToF,激光雷達(dá)也適用。接著一個(gè)是“Semantically Guided Depth Upsampling”:引入語義分割,類似depth ordering。
如果把稀疏深度圖看成一個(gè)需要填補(bǔ)的問題,那么就屬于另外一個(gè)話題:image-guided depth inpainting/completion,這方面的技術(shù)基本都是全局法,比如“Depth Image Inpainting: Improving Low Rank Matrix Completion with Low Gradient Regularization“:
有一類方法,將激光雷達(dá)點(diǎn)云投影到圖像平面的點(diǎn)作為prior或者"seed",去修正圖像的深度估計(jì)過程,這就好比一個(gè)由激光雷達(dá)點(diǎn)云投影到圖像上的稀疏點(diǎn)構(gòu)成的網(wǎng)格(grid),去指導(dǎo)/約束雙目圖像匹配。
下面這個(gè)方法將Disparity Space Image (DSI)的視差范圍縮?。?/span>
如圖方法結(jié)合激光雷達(dá)點(diǎn)云的投影和立體匹配構(gòu)成新的prior:
下面介紹深度學(xué)習(xí)的方法。
從2017年開始,這個(gè)方面的應(yīng)用深度學(xué)習(xí)的論文開始多起來了,一是自動(dòng)駕駛對(duì)傳感器融合的重視提供了motivation,二是深度學(xué)習(xí)在深度圖估計(jì)/分割/光流估計(jì)等領(lǐng)域的推廣應(yīng)用讓研究人員開始布局著手多傳感器融合的深度學(xué)習(xí)解法。
筆者看到的這方面公開的第一篇論文應(yīng)該是2017年9月MIT博士生Fangchang Ma作為第一作寫的,“Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image“。其實(shí)第一篇公開的論文是在2017年8月,來自德國Andreas Geiger研究組的論文在International Conference on 3D Vision (3DV)發(fā)表,“Sparsity Invariant CNN”。
他們開拓性的工作使Kitti Vision Benchmark Suite啟動(dòng)了2018年的Depth Completion and Prediction Competition,不過MIT獲得了當(dāng)年Depth Completion的冠軍。幾天前(2019年2月)剛剛公開的最新**論文,是來自University of Pennsylvania的研究組,“DFuseNet: Fusion of RGB and Sparse Depth for Image Guided Dense Depth Completion”。
先說Sparsity Invariant CNN。輸入是深度圖和對(duì)應(yīng)的Mask圖,后者就是指激光雷達(dá)投影到圖像平面有值的標(biāo)志圖,為此設(shè)計(jì)了一個(gè)稱為sparse CNN的模型,定義了sparse convolution的layer:
結(jié)果想證明這種模型比傳統(tǒng)CNN模型好:
再回頭看看MIT的方法。一開始還是“暴力”方法:其中針對(duì)KITTi和NYU Depth(室內(nèi))設(shè)計(jì)了不同模型
結(jié)果看上去不錯(cuò)的:
差不多一年以后,監(jiān)督學(xué)習(xí)RGB到深度圖的CNN方法和利用相鄰幀運(yùn)動(dòng)的連續(xù)性約束self-learning方法也發(fā)表了,憑此方法MIT獲得了KITTI比賽的冠軍:
一個(gè)同時(shí)估計(jì)surface normals 和 occlusion boundaries的方法如下,聽起來和單目深度估計(jì)很相似的路數(shù),“Deep Depth Completion of a RGB-D Image“:
這是AR公司MagicLeap發(fā)表的論文,“Estimating Depth from RGB and Sparse Sensing“:模型稱為Deep Depth Densification (D3),
它通過RGB圖像,深度圖和Mask圖輸入生成了兩個(gè)特征圖:二者合并為一個(gè)feature map
看看結(jié)果: