近年來(lái),借助智能系統(tǒng)實(shí)現(xiàn)汽車(chē)的自動(dòng)駕駛成為科技屆和產(chǎn)業(yè)界關(guān)注的熱門(mén)領(lǐng)域。目前已經(jīng)有處于實(shí)驗(yàn)階段的無(wú)人駕駛汽車(chē)進(jìn)行路測(cè),而向駕駛員提供的智能輔助駕駛功能更是愈加豐富。對(duì)于這些車(chē)載智能系統(tǒng)來(lái)說(shuō),如何判斷機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē)、行人混行的復(fù)雜路況,并作出對(duì)車(chē)內(nèi)乘員和車(chē)外物體最為安全的駕駛判斷,是至今仍在探討的關(guān)鍵問(wèn)題。可以說(shuō),解決這些問(wèn)題最關(guān)鍵的技術(shù)是視覺(jué)感知,即如何通過(guò)計(jì)算機(jī)來(lái)自動(dòng)識(shí)別物體。
為了評(píng)測(cè)目標(biāo)(機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē)、行人等)檢測(cè)、目標(biāo)跟蹤等計(jì)算機(jī)視覺(jué)技術(shù)在車(chē)載環(huán)境下的性能,德國(guó)卡爾斯魯厄理工學(xué)院和芝加哥豐田技術(shù)研究所聯(lián)合建立的一個(gè)算法評(píng)測(cè)平臺(tái)KITTI,成為目前國(guó)際上公開(kāi)的最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。不久前,清華大學(xué)電子系副教授馬惠敏率領(lǐng)的三維圖像團(tuán)隊(duì)在KITTI國(guó)際評(píng)測(cè)中取得了優(yōu)異的成績(jī),全部六項(xiàng)指標(biāo)中的四項(xiàng)獲得第一,兩項(xiàng)獲得第三。參加評(píng)測(cè)的還有來(lái)自百度公司、NEC美國(guó)研究院、斯坦福大學(xué)、加州大學(xué)洛杉磯分校、馬克思·普朗克研究所(MPI)等機(jī)構(gòu)的團(tuán)隊(duì)。
在物體檢測(cè)這一競(jìng)賽項(xiàng)目上,參賽者使用計(jì)算機(jī)視覺(jué)算法檢測(cè)出由車(chē)載相機(jī)所拍攝的城市街道上的車(chē)輛、行人和自行車(chē),并且估計(jì)出它們的姿態(tài)朝向。用于性能測(cè)試的KITTI數(shù)據(jù)集包含了7千多張車(chē)載圖像,單張圖像上尺度不同的車(chē)輛數(shù)目最多可達(dá)十幾輛,因此部分車(chē)輛會(huì)被其它車(chē)輛遮擋,而且遠(yuǎn)處的車(chē)輛在圖像中尺度非常?。ㄗ钚「叨戎挥?5像素),檢測(cè)難度非常大。馬惠敏研究組和多倫多大學(xué)合作提出了一種高效的三維物體提取方法,并結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò),依據(jù)立體圖像推斷場(chǎng)景中物體的位置和姿態(tài)。和傳統(tǒng)的基于昂貴的激光雷達(dá)的自動(dòng)駕駛識(shí)別算法不同,該研究組的算法僅依賴(lài)于普通的雙目RGB攝像頭即可完成高精度的目標(biāo)檢測(cè)和姿態(tài)估計(jì),因此有望大大降低自動(dòng)駕駛視覺(jué)系統(tǒng)的成本。他們的相關(guān)論文也已發(fā)表在機(jī)器學(xué)習(xí)與神經(jīng)計(jì)算的頂級(jí)會(huì)議NIPS上。