“這是個(gè)尷尬的時(shí)刻,不過我們還是來討論技術(shù)吧!”今年3月份在德國(guó)柏林召開的博世互聯(lián)大會(huì)2017(Bosch Connected World 2017)上,Mobileye CTO兼聯(lián)合創(chuàng)始人Amnon Shashua在演講開場(chǎng)時(shí)幽默地如是說。
觀眾笑了。因?yàn)榫驮谶@場(chǎng)演講開始前的兩天,英特爾宣布斥資153億美元收購(gòu)Mobileye,也創(chuàng)造了幾乎是2017年最大、最受矚目的收購(gòu)案。
時(shí)間回到現(xiàn)在,就在前幾天,英特爾已經(jīng)正式完成對(duì)Mobileye的收購(gòu),故事以Mobileye成為英特爾子公司開始一個(gè)新的篇章。
很多人都討論過英特爾這筆錢花得值不值,但不可否認(rèn)的是,Mobileye正調(diào)用自身在環(huán)境“強(qiáng)感知”技術(shù)的積累,在自動(dòng)駕駛領(lǐng)域走得越來越遠(yuǎn)。同時(shí),Mobileye實(shí)現(xiàn)了技術(shù)廠商的躍進(jìn),如今真正和車企站在一起。
或許是因?yàn)檫@些,或許是因?yàn)槠渌氖裁?,CTO Amnon Shashua在演講中可以自信地說,“Mobileye正在走一條正確的路線,不這樣做自動(dòng)駕駛永遠(yuǎn)都實(shí)現(xiàn)不了。”
在這個(gè)路線中,人工智能不可或缺。Mobileye到底如何利用人工智能實(shí)現(xiàn)對(duì)自動(dòng)駕駛研發(fā)的超車呢?答案在Amnon Shashua的演講中,雷鋒網(wǎng)·新智駕對(duì)演講內(nèi)容做了不改變?cè)獾木庉嬚怼?/p>
Amnon Shashua:在浩大的自動(dòng)駕駛產(chǎn)業(yè)鏈中,人工智能到底扮演著怎樣的角色呢?今天我們要來討論這個(gè)問題。
在這之前明確,實(shí)現(xiàn)自動(dòng)駕駛的方案和路徑多種多樣,我將它們分為兩類:比較傳統(tǒng)的方案;大量運(yùn)用人工智能的方案,也是我們正在做的方案。今天會(huì)具體介紹他們。
一、自動(dòng)駕駛?cè)齻€(gè)關(guān)鍵技術(shù)
為了實(shí)現(xiàn)自動(dòng)駕駛,我們需要解決的技術(shù)主要分為三部分:
感知:在車輛部署攝像頭、激光雷達(dá)、毫米波雷達(dá)等傳感器,配合高性能的算法,讓車輛感知周邊環(huán)境。
高精度地圖:高精度地圖是實(shí)現(xiàn)自動(dòng)駕駛的必要性技術(shù)之一,它提供了一種更前瞻的信息指示和冗余性,是保證自動(dòng)駕駛安全的基礎(chǔ)。
駕駛決策:在駕駛決策的技術(shù)研發(fā)中,往往能為人工智能提供大量用武之地。其最終目的是,讓自動(dòng)駕駛車輛在面對(duì)復(fù)雜交通環(huán)境時(shí),能夠像人一樣駕駛,擁有人類的一些決策屬性和技巧,同時(shí)也要保證安全。
[page]
二、人工智能在感知中的應(yīng)用
下圖是我們與德爾福合作研發(fā)的自動(dòng)駕駛demo,車輛在長(zhǎng)達(dá)10公里的拉斯維加斯街道上完成了無干預(yù)的自動(dòng)駕駛。圖中可以看到,3D box準(zhǔn)確框出了每一臺(tái)車輛,綠色部分標(biāo)識(shí)了可駕駛的空白區(qū)域,同時(shí)算法對(duì)交通燈、交通指示牌也進(jìn)行了識(shí)別??偟膩碚f,這臺(tái)自動(dòng)駕駛車對(duì)周邊環(huán)境進(jìn)行了360度的感知識(shí)別。
再來展示一下關(guān)于繪圖的內(nèi)容。下圖展示的是Mobileye近一年半時(shí)間研發(fā)的REM(Road Experience Management)路網(wǎng)采集管理系統(tǒng),這是我們通過眾包模式收集數(shù)據(jù)繪制高精度地圖的方法,這些采集到的路標(biāo)構(gòu)成了RoadBook(路書)。該項(xiàng)目中,我們與寶馬和其他汽車平臺(tái)合作,進(jìn)行數(shù)據(jù)收集。
最終我們得到一個(gè)存儲(chǔ)在云端的地圖,它可以投射在兩個(gè)界面上,圖中右手邊是將數(shù)據(jù)投射在谷歌地球上,這樣可以得到大尺度的精度參考,左手邊是投射在車輛采集的實(shí)時(shí)圖像上。
當(dāng)運(yùn)行起這樣的系統(tǒng)時(shí),可以看到投射在谷歌地球和車輛視角圖像的車道線非常精準(zhǔn),同時(shí)標(biāo)注出了道路標(biāo)識(shí)等信息,精度達(dá)厘米級(jí)。
這是另一個(gè)demo,與尼桑汽車在倫敦街道上的道路測(cè)試。
在這個(gè)過程中,人工智能發(fā)揮了哪些作用?
當(dāng)提到車輛感知,通常指的是物體檢測(cè)的過程,即道路上的車輛、行人、交通標(biāo)識(shí)、交通燈等等。
環(huán)境感知的階段一:感知障礙物。對(duì)機(jī)器而言,輸入的是圖像,輸出的其實(shí)是bounding box,如一輛汽車的bounding box、一個(gè)行人的bounding box。這是如今的駕駛輔助系統(tǒng),我們需要檢測(cè)車輛、行人等物體,再根據(jù)這些障礙物進(jìn)行相應(yīng)的駕駛決策。
環(huán)境感知的階段二:感知空閑區(qū)域(free space)。過去的環(huán)境感知,是檢測(cè)路緣、護(hù)欄等障礙物,依此判斷哪里能夠駕駛,哪里不能。而現(xiàn)在換一種方式,輸入仍然是圖像,但輸出是一種自由形式的邊界范圍(free form boundary)。對(duì)邊界范圍進(jìn)行識(shí)別,我們需要對(duì)諸如車道線、路緣等等特征進(jìn)行語(yǔ)義理解,這使得系統(tǒng)實(shí)現(xiàn)變得更復(fù)雜。
環(huán)境感知的階段三:感知可駕駛區(qū)域(Drivable Paths)。這個(gè)階段產(chǎn)生的是真正的顛覆性技術(shù),系統(tǒng)將感知每條道路通往何地,以及與道路相關(guān)的語(yǔ)義理解,例如這條路有多長(zhǎng)、這條道路會(huì)通往高速、高速的出口又在哪里…所以這個(gè)時(shí)候,輸入是圖像,但輸出的是一個(gè)故事,是要去描述一個(gè)的場(chǎng)景,而不只是識(shí)別出障礙物。我們將這稱為“強(qiáng)感知”,這確實(shí)是一個(gè)開放性的問題。
以上就是Mobileye在車輛感知中應(yīng)用人工智能的嘗試。第一階段是單純軟件問題,第二階段進(jìn)行了升級(jí),目前已經(jīng)實(shí)現(xiàn)量產(chǎn),比如特斯拉的第一代Autopilot系統(tǒng),第三階段是非常有挑戰(zhàn)性的,同時(shí)需要大量的人工智能技術(shù)參與。
[page]
三、感知技術(shù)與高精度地圖的融合
感知技術(shù)是如何被運(yùn)用的?
感知技術(shù)是如何被運(yùn)用的?目前主要有兩種路徑,第一種“重地圖模式”(Map heavy approach),第二種“輕地圖模式”(Map light approach),Mobileye屬于第二種方式。
1、重地圖模式
這種方式很好描述,也很容易使用和部署。但這是一個(gè)錯(cuò)誤的方式。為什么?下面具體介紹。
這種方式通過使用3D傳感器(如激光雷達(dá))來檢測(cè)車輛和行人,然后被呈現(xiàn)在車輛的3D坐標(biāo)系統(tǒng)中。
之后,將車輛在3D地圖中進(jìn)行定位。實(shí)現(xiàn)方式有多種,例如車輛通過激光雷達(dá)采集了周邊環(huán)境數(shù)據(jù),并與已有的高精度地圖數(shù)據(jù)進(jìn)行匹配,就可以進(jìn)行自定位。
將步驟一中檢測(cè)到的車輛和行人放置到高精度地圖中,因?yàn)槟阋呀?jīng)實(shí)現(xiàn)了自定位,而高精度地圖中包含了所有車道線等信息,所以你已經(jīng)擁有了“上帝視角”,你從高精度地圖上獲取了可駕駛的路徑,同時(shí)有通過感知得來的物體檢測(cè)信息,所以直到目前,似乎我們不需要任何攝像頭。
如果你回憶一下谷歌最初的無人車原型,他們沒有部署環(huán)境感知攝像頭,只有一個(gè)看交通燈的攝像頭,其他都是基于激光雷達(dá)完成的。
這就是第一種路徑。
2、輕地圖模式
現(xiàn)在,如果你希望系統(tǒng)有更好的魯棒性。你就需要加入更多的傳感器,例如攝像頭。每加入一種傳感器,都需要將其數(shù)據(jù)轉(zhuǎn)化成三維,所以,如果你現(xiàn)在擁有攝像頭數(shù)據(jù),就必須將攝像頭數(shù)據(jù)加載在3D坐標(biāo)系統(tǒng)中。
問題在于,由2D轉(zhuǎn)向3D是很困難的,毫米波雷達(dá)的數(shù)據(jù)也是2D的,它測(cè)量不同的維度,但仍然是2D。我們使用輕地圖模式,解決這個(gè)問題。
使用攝像頭同時(shí)檢測(cè)車輛、行人以及可駕駛路徑。即將靜態(tài)和動(dòng)態(tài)場(chǎng)景描述放在同一個(gè)2D坐標(biāo)系統(tǒng)中。
通過將高精度地圖數(shù)據(jù)投射在車輛獲取的2D圖像中進(jìn)行車輛自定位。該技術(shù)在上面的demo中已經(jīng)進(jìn)行了展示。
現(xiàn)在,我們使用這種投射方式,建立一個(gè)車輛和可駕駛路徑的統(tǒng)一3D視角,因?yàn)榈貓D是三維的。而當(dāng)你需要加入一個(gè)額外的傳感器,如毫米波雷達(dá)、激光雷達(dá)等傳感器,你所有需要做的,就是將3D轉(zhuǎn)換成2D。例如將激光雷達(dá)數(shù)據(jù)投射到二維圖像中,這是比較簡(jiǎn)單的。
舉個(gè)例子,這是將激光雷達(dá)數(shù)據(jù)和其他數(shù)據(jù)投射到二維圖像上的示例。
這是將毫米波雷達(dá)數(shù)據(jù)投射到二維圖像的示例。
現(xiàn)在,讓我們看一下這種方式的優(yōu)勢(shì)。如下圖所示,左側(cè)展示了右側(cè)圖像的仰視圖視角,并且我們可以非常準(zhǔn)確地獲取這種視角。
所以,攝像頭加地圖就可以提供所有駕駛需要的信息,之后毫米波雷達(dá)和激光雷達(dá)等傳感器,會(huì)處理一些冗余的問題。
接下來,我們總結(jié)一下這兩種路徑的優(yōu)缺點(diǎn)。
重地圖模式的優(yōu)點(diǎn):
非常容易設(shè)計(jì)出原型,找10個(gè)有才能的工程師,不出6個(gè)月的時(shí)間,你就能到一個(gè)不錯(cuò)的demo。這就是一些硅谷團(tuán)隊(duì)在做的事。
重地圖模式的缺點(diǎn):
會(huì)造成車輛對(duì)高精度地圖的過分依賴,沒有高精度地圖,你什么都做不了。
可駕駛路徑和車輛/行人處于不同坐標(biāo)系統(tǒng)中,沒有協(xié)同,且每類物體由不同的傳感器識(shí)別。當(dāng)你將它們同步到同一個(gè)坐標(biāo)系統(tǒng)中,容易產(chǎn)生錯(cuò)誤。
真正重要的是,創(chuàng)建高精度地圖需要人工標(biāo)注,這是一個(gè)巨額的成本投入。
如果沒有一個(gè)真正經(jīng)濟(jì)的高精度地圖繪制方式,自動(dòng)駕駛很難真正落地。而如今許多公司在繪制高精度地圖時(shí)使用的方式都是非常昂貴的。
輕地圖模式的優(yōu)點(diǎn):
攝像頭是唯一的環(huán)境感知傳感器,在同一坐標(biāo)系統(tǒng)中同時(shí)檢測(cè)車輛/行人以及可駕駛路徑。
使用車載攝像頭傳感器眾包獲取數(shù)據(jù),制作高精度地圖,大大降低了成本。
可實(shí)現(xiàn)低成本的level 2+等級(jí)自動(dòng)駕駛。在level 2中,駕駛員需要對(duì)車輛駕駛控制負(fù)責(zé),但是通過輕地圖模式,可以實(shí)現(xiàn)類似level 3、level 4的體驗(yàn),同時(shí)激光雷達(dá)將不是必須的。這開拓了更廣泛的商業(yè)和市場(chǎng)前景。
輕地圖模式的缺點(diǎn):
非常難以實(shí)現(xiàn)。
如剛才所說,感知的第三階段很復(fù)雜,且需要大量人工智能技術(shù)輔助。但從長(zhǎng)遠(yuǎn)角度看,這是一條正確的路徑。重地圖模式短期來看易于實(shí)現(xiàn),但長(zhǎng)期而言,不能形成規(guī)?;?。
[page]
四、人工智能為駕駛決策帶來了什么?
這部分講駕駛決策,即復(fù)雜交通中的博弈。上圖中的新聞,是大概一年多前,自動(dòng)駕駛撞人的案件。無數(shù)自動(dòng)駕駛車都在面臨一個(gè)共性的問題,他們的駕駛決策太過簡(jiǎn)單,當(dāng)一些復(fù)雜的、意料不到的事情發(fā)生時(shí),駕駛員必須要進(jìn)行接管。機(jī)器無法做出人類面對(duì)復(fù)雜情況的博弈和決策。
前提是,駕駛是一個(gè)“多主體”的游戲,只要道路上還存在人類駕駛員,那么機(jī)器就必須明白人類的決策技巧,人類容易沖動(dòng),人類會(huì)犯錯(cuò),所以自動(dòng)駕駛車需要與人類司機(jī)進(jìn)行協(xié)同配合,同時(shí)要保證安全。
所以,現(xiàn)實(shí)生活中的交通到底是什么樣呢?為了弄清楚這個(gè)問題,我用一架無人機(jī)進(jìn)行航拍,拍下了一些現(xiàn)實(shí)交通的畫面。
上面這輛車嘗試并線,沒人給這個(gè)“可憐的人”讓行,不過這就是真實(shí)生活!所以想象一下,把這個(gè)場(chǎng)景交給自動(dòng)駕駛車,你如果希望它能做到這樣,那就是天方夜譚了,做到接近都是不可能的。
我們更具體地聊聊。下圖展示了雙車道并線問題,這是我們與寶馬汽車合作的項(xiàng)目,目的是解決現(xiàn)階段一個(gè)非常具體的駕駛問題,也是一個(gè)非常困難的問題。
在雙車道問題上,車輛會(huì)從兩側(cè)車道會(huì)車,為什么這個(gè)問題具有挑戰(zhàn)性呢?因?yàn)檐囕v不是簡(jiǎn)單地?cái)D進(jìn)來,它可能會(huì)干擾其他車輛行駛,也有可能產(chǎn)生兩車僵持的情況。但對(duì)于兩車道會(huì)車,沒有一個(gè)明確規(guī)則,唯一的規(guī)則就是不要發(fā)生事故。
在四車道的十字路口會(huì)車時(shí),其實(shí)并不是最難的,因?yàn)槭致房谟薪煌簦幸?guī)則,但這種雙車道會(huì)車的情況則不同。所以,你必須預(yù)估出之后幾秒的情況,并做出規(guī)劃,你需要估摸出會(huì)車間距和通行的時(shí)間,能夠在不發(fā)生碰撞的情況下及時(shí)通過。所以,這其實(shí)是一種非常困難的問題。
所以,我們希望能利用機(jī)器學(xué)習(xí)解決這個(gè)非常復(fù)雜的問題。而機(jī)器學(xué)習(xí)的趨勢(shì),就是數(shù)據(jù)驅(qū)動(dòng)。
優(yōu)勢(shì):比基于規(guī)則的算法更簡(jiǎn)單地觀察和收集數(shù)據(jù)。在很多場(chǎng)景中都是這樣,例如自然語(yǔ)言識(shí)別、計(jì)算機(jī)視覺等等。歷史經(jīng)驗(yàn)表明,機(jī)器理解潛在規(guī)則是很難的,但收集數(shù)據(jù),用數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)算法性能,會(huì)獲得更好的表現(xiàn)。
所以,大規(guī)模應(yīng)用機(jī)器學(xué)習(xí),是一個(gè)正確的趨勢(shì)。
缺點(diǎn):機(jī)器學(xué)習(xí)的性能表現(xiàn)取決于你用來訓(xùn)練它的數(shù)據(jù),這就意味著有可能出現(xiàn)“臨界”情況。而找到這樣的臨界情況需要更多的數(shù)據(jù),以及更多的嘗試,直到篩選出臨界情況。
所以,機(jī)器學(xué)習(xí)是一個(gè)有監(jiān)督的學(xué)習(xí)過程。在感知過程中,你感知的是當(dāng)時(shí)的場(chǎng)景,而在感知背后的技術(shù),是過去的積累和學(xué)習(xí),是深度、有監(jiān)督的學(xué)習(xí);而當(dāng)提到駕駛策略時(shí),你其實(shí)是在計(jì)劃未來,這是一個(gè)不太一樣的機(jī)器學(xué)習(xí)方法,被稱作增強(qiáng)學(xué)習(xí),在其中你需要與環(huán)境進(jìn)行交互。
為什么這兩者在叫法上不同?他們的區(qū)別在于,使用數(shù)據(jù)的方式。
1、有監(jiān)督的學(xué)習(xí)
在有監(jiān)督的學(xué)習(xí)中,我們預(yù)測(cè)的行動(dòng)不會(huì)對(duì)環(huán)境產(chǎn)生影響,因此我們可以一次性收集所有的數(shù)據(jù),也可以在線下收集數(shù)據(jù),然后再用這些數(shù)據(jù)不斷訓(xùn)練神經(jīng)網(wǎng)絡(luò),直到找到所有的“臨界”情況。
2、增強(qiáng)學(xué)習(xí)
在增強(qiáng)學(xué)習(xí)中,我們的行動(dòng)會(huì)對(duì)環(huán)境產(chǎn)生影響,這意味著,如果我決定左轉(zhuǎn),我就正在影響其他駕駛的車輛。所以,現(xiàn)在如果我要更改軟件,那意味著我需要重新收集所有的數(shù)據(jù),因?yàn)槊恳淮巫兓{駛決策,就是在改變影響環(huán)境的方式。
這會(huì)造成一些問題,因?yàn)榕R界情況在駕駛中就代表著“事故”的可能性。而事故是一個(gè)小概率事件,為了找出這種臨界情況,那么我們就需要大量的數(shù)據(jù),而每次要修改軟件時(shí),又需要重新再收集一次數(shù)據(jù)。這就造成了很大的問題。
這也是為什么傳統(tǒng)基于規(guī)則的路徑規(guī)劃算法沒有引入機(jī)器學(xué)習(xí),因?yàn)檫@個(gè)命題并不是那么吸引人,這聽起來并不是什么好主意。
所以,我們找到了了一種解決這個(gè)問題的方式。用這種方法,我們可以使用機(jī)器學(xué)習(xí)算法,同時(shí)避免數(shù)據(jù)量的爆炸,并確保安全。在Mobileye網(wǎng)站上可以找到這篇論文。
我們?cè)诜抡鎸?shí)驗(yàn)中對(duì)其進(jìn)行了測(cè)試,下圖中的8輛汽車都是被訓(xùn)練的駕駛主體,隨機(jī)分布,可以看到,它們經(jīng)歷了復(fù)雜的調(diào)度決策。
在這個(gè)仿真實(shí)驗(yàn)中,共經(jīng)歷了10萬次路測(cè)駕駛,每次測(cè)試中有8個(gè)駕駛主體、位置隨機(jī),沒有發(fā)生碰撞事故。系統(tǒng)性能達(dá)到每秒10hz的頻率響應(yīng)。占用的計(jì)算量?jī)H1%,而這些,正是得益于人工智能。
在傳統(tǒng)的方法中,你試圖開啟的是一棵包含了所有可能性的樹,這最終會(huì)導(dǎo)致數(shù)據(jù)爆炸和系統(tǒng)癱瘓。但如果使用機(jī)器學(xué)習(xí),就像谷歌Alphago贏得了人類積累了數(shù)千年歷史的圍棋,你正在開啟一種新的可能性。
你使用了一種新的方式,通過數(shù)據(jù)驅(qū)動(dòng)的方式,穿越了這棵巨大的樹。
目前,Mobileye已經(jīng)在進(jìn)行相關(guān)的研究,如下圖,所有的駕駛主體都是被我們訓(xùn)練的樣本,可以看到,它們的駕駛行為已經(jīng)越發(fā)接近人類。
五、結(jié)語(yǔ)
總結(jié)一下,Mobileye如何利用人工智能加速自動(dòng)駕駛的落地?主要是以下幾部分。
1、正確的感知:即通過“強(qiáng)感知”理解可駕駛的路徑。傳統(tǒng)的方法過分依賴高精度地圖,而規(guī)避了技術(shù)上難以實(shí)現(xiàn)的部分,但如果這樣做,就不會(huì)形成規(guī)?;到y(tǒng)。
2、正確的繪圖:使用“強(qiáng)感知”技術(shù),通過眾包自動(dòng)生成高精度地圖。我們的技術(shù)最終希望高精度地圖的生成完全自動(dòng)化。
3、正確的駕駛決策:讓自動(dòng)駕駛車達(dá)到人類等級(jí)的判斷力,像人類一樣敏捷,同時(shí)還要確保安全,這是一個(gè)挑戰(zhàn),我們?cè)谶@部分的研究仍處于起步階段。大家可以在Mobileye網(wǎng)站上瀏覽我們的研究論文,在這方面我們與寶馬汽車進(jìn)行了許多項(xiàng)目研究。
而在這部分,如果我們不能正確的解決,那么真的無法使自動(dòng)駕駛落地。這其中將涉及大量的人工智能技術(shù)。
以上,就是人工智能在自動(dòng)駕駛領(lǐng)域的創(chuàng)新應(yīng)用和變革。
{{item.content}}