國家測繪地理信息局公布的數(shù)據(jù)顯示,截止到2016年底百度共擁有在冊測繪人員224名,其中包括了百度自身的56人和其于2013年收購的、擁有“電子導(dǎo)航地圖制作”甲級測繪資質(zhì)的長地萬方的168人。此外,百度地圖事業(yè)部員工超過2000人。
劉玉亭就是百度這只測繪大船的掌舵人之一。也許看看他的其他身份會更了解他:上海杰圖軟件的股東,長地萬方的法人代表。創(chuàng)業(yè)邦稱,他也是上海杰圖軟件的聯(lián)合創(chuàng)世人。這兩家單位,都是在國家測繪地理信息局注冊的甲級測繪資質(zhì)單位。根據(jù)資料,劉玉亭在杰圖軟件中直接領(lǐng)導(dǎo)并主持了360度全景圖“城市吧”項目的策劃,該項目與“谷歌街景”極為類似。
百度地圖事業(yè)部副總經(jīng)理劉玉亭
2013年加入百度的劉玉亭,現(xiàn)在的職務(wù)是百度地圖事業(yè)部副總經(jīng)理。在AI當(dāng)?shù)赖慕裉?,他?2月20日正式宣布百度地圖開啟第三代制圖生產(chǎn)工藝,并可以上線。這標(biāo)志著這百度地圖進(jìn)入了AI+加速跑的時代。
在他宣布這一消息的同時,還對記者詳細(xì)解釋了AI在地圖數(shù)據(jù)生產(chǎn)方面的重要意義,并且提供了諸多“干貨”。
劉玉亭認(rèn)為,地圖的原始使命就是把現(xiàn)實世界映射到數(shù)字空間中去,同時更重要的一點是:如何快速感知真實世界中的變化,并反映到產(chǎn)品上?
第一代地圖生產(chǎn)工藝:人員是核心
大概在十幾年前,當(dāng)時的地圖數(shù)據(jù)采集流程非常簡單。以道路生產(chǎn)為主,基本上是一輛車、一個司機(jī),副駕駛上一位采集員。采集員要觀察車外面的現(xiàn)實世界是什么樣子,再對比數(shù)字地圖。如果發(fā)現(xiàn)有不一致,說明現(xiàn)實世界發(fā)生了變化。他就要在地圖上加上標(biāo)簽:這里多了一個限速牌,那里多了一個電子眼。以采集員的視角來觀察世界的變化并記錄,傳到室內(nèi),進(jìn)行內(nèi)業(yè)的加工。在那個時代,映射世界完全是靠外業(yè)作業(yè)來完成?,F(xiàn)實世界的變化也是靠采集員來判斷。這是第一代生產(chǎn)工藝,強(qiáng)調(diào)的是外業(yè)的能力,外業(yè)人員的質(zhì)量最終決定了產(chǎn)品的質(zhì)量。
第二代:影像識別是核心
在第二代生產(chǎn)工藝中,解放了外業(yè)采集員。只需開一輛車,在公路上行駛就可以了。
360度全景照片是2013年前后記錄世界最好的方式,也是可視化制圖領(lǐng)域效率最高的一種方式。采集車平均每10米左右采集一張360全景照片就可以記錄世界。那時候的數(shù)據(jù)采集不再需要兩個人。
隨后要進(jìn)行內(nèi)業(yè)識別。這其中涉及很多自動化應(yīng)用。比如通過對影像、圖像的識別,來判斷這個世界中有哪些道路出現(xiàn),車道線是什么樣的,紅綠燈在哪,最高限速是多少……這種方式效率非常高,可以迅速把現(xiàn)實世界映射到虛擬世界中。但第二代生產(chǎn)工藝依然存在缺點:難以感知世界的變化。雖然可以地毯式進(jìn)行全國范圍的采集,但無法解決第二遍何時去采的問題,因此也無法解決變化問題。
第三代:AI是核心

隨著AI的到來就迎來了第三代地圖生產(chǎn)工藝。它核心解決的問題就是感知這個世界發(fā)生的變化。采用大數(shù)據(jù)的手段,首要做到軌跡數(shù)據(jù)挖掘。
大量的定位數(shù)據(jù)會產(chǎn)生軌跡數(shù)據(jù),人們可以進(jìn)一步通過軌跡數(shù)據(jù)來判斷變化。例如:道路通還是不通,是一條新路還是正在修路,是臨時封路還是馬上要解除封路。又例如,以前路口左拐可以調(diào)頭,現(xiàn)在不允許了,像這樣傳統(tǒng)工藝上的交限變化,?這些信息讓我們感知到這個世界的變化。它們通過傳統(tǒng)的數(shù)據(jù)采集很難快速感知,通過軌跡挖掘就可以分析出來。
軌跡挖掘主要解決現(xiàn)實世界變化問題,也比較容易解決。但這不是全部,例如交管部門非常關(guān)心阻斷信息。當(dāng)發(fā)布一個阻斷,它如何快速進(jìn)入到產(chǎn)品中,并且快速讓用戶感知到?
這些變化并不能夠百分百地、自動化地進(jìn)入到產(chǎn)品中,好多需要再次確認(rèn)。因此軌跡挖掘為現(xiàn)實世界發(fā)生變化提供情報線索。線索驅(qū)動二次采集。傳統(tǒng)車采基本上采用地毯覆蓋式的采集?,F(xiàn)在則有了更多的方式。而未來地圖要求映射世界的速度非常快,不光解決車導(dǎo)航的問題,還要解決出行問題,還要解決無人駕駛的問題,甚至要解決海洋河流中的導(dǎo)航問題。這些都要有對應(yīng)的快速采集方式。
室內(nèi)目前也是人們匯集非常多的一個聚集地,怎么樣對其快速映射?一個商場每年大概要發(fā)生30%到40%的變化,也必須要有高效的采集工具。
數(shù)據(jù)二次采集后,還要進(jìn)行圖像識別。圖像識別是一個很古老的話題。但是現(xiàn)在地圖里的識別不僅僅是文字識別,而是結(jié)合場景的行為識別。
我國有200多種國家標(biāo)準(zhǔn)的交通標(biāo)志,幾乎每一種都有十多種不同的表現(xiàn)形式。有地方標(biāo)準(zhǔn),有臨時標(biāo)準(zhǔn),有些是現(xiàn)實世界中不是標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。它們導(dǎo)致現(xiàn)實世界非常復(fù)雜,必須要把它們識別出來。這都是地圖圖像識別的任務(wù)。對于文字識別,路牌上的文字比較簡單,但是還有大量的復(fù)雜場景。有些是繁體字,有些文字中包含不同字體。另外,一些交通限制要通過俯視圖像來識別,如雖然收集到了車道信息,如何將信息和對應(yīng)路段綁定??這些都需要AI技術(shù)進(jìn)行大量的判定。
當(dāng)有了軌跡挖掘得到情報,進(jìn)行二次采集,最后生產(chǎn)地圖。我們既能映射現(xiàn)實世界,又能感知現(xiàn)實世界的變化。這一切看起來很美好。但是數(shù)據(jù)量太大了,每一次運算都需要大量的資源。運算瓶頸就出來了。這就提到了自動化編譯模型。
怎樣自動化完成上述過程?這里引入一個現(xiàn)實庫的新概念。線上的產(chǎn)品中除了現(xiàn)實庫,還包含其他信息,比如大量交通規(guī)則,比如很多地方的交限和立交橋。這個是現(xiàn)實世界沒有表達(dá)的。
現(xiàn)實世界的80%是可以在現(xiàn)實庫得以表達(dá)的。也就是說,如果把現(xiàn)實世界映射到虛擬世界中,也才僅僅完成了80%的要素。距離用戶能夠使用的產(chǎn)品,還有很多沒有表達(dá)。這就要保證這80%的部分要自動化識別。否則一個地區(qū)快速地、多次地、加頻地采集,更加難以保證。
拿百度地圖舉例,每天以道路采集為主每天處理千萬張照片。這就需要有足夠的終端運算能力。在影像中發(fā)現(xiàn)少量的細(xì)節(jié)變化,把變化更新到現(xiàn)實庫,現(xiàn)實庫再自動化地映射到產(chǎn)品中,被用戶感受到。這就是自動的生產(chǎn)流程,而當(dāng)自動化結(jié)果比較準(zhǔn)確時,甚至不需要再去驗證。獲得變化線索,很快就能反映到產(chǎn)品上。
要把AI技術(shù)應(yīng)用到數(shù)據(jù)生產(chǎn)中來。至少在百度產(chǎn)生的大數(shù)據(jù)中,基本上有40%是跟位置相關(guān)的。要做好位置大數(shù)據(jù)的架構(gòu),同時地圖大數(shù)據(jù)也要能反饋到大數(shù)據(jù)庫中,讓AI得到更好的學(xué)習(xí)。
最后劉玉亭認(rèn)為,地圖與AI的結(jié)合,一定要向其他行業(yè)開放。不僅向AI開放,向開發(fā)者開放、也要向無人駕駛等新興行業(yè)開放。更多人拿到這些信息更好地運算,提出更好的算法,地圖的生產(chǎn)效率才能更加強(qiáng)大。
{{item.content}}