6月10日,北京國家會議中心,以“構(gòu)筑地理信息新生態(tài)”為主題的2015年全球地理信息開發(fā)者大會 (WGDC)在此拉開帷幕。WGDC自2012年起開始舉辦,四年時間里,伴隨著中國地理信息產(chǎn)業(yè)的快速發(fā)展,WGDC已經(jīng)成為位置與空間領(lǐng)域最具影響力的技術(shù)創(chuàng)新盛會。
6月11日,地理信息開發(fā)者大會智慧城市分論壇開幕,會上百度研究院大數(shù)據(jù)實驗室數(shù)據(jù)科學(xué)家吳海山先生做出了題為“百度時空大數(shù)據(jù)的挖掘與應(yīng)用”的精彩報告。以下為演講實錄(未經(jīng)本人確認(rèn))
吳海山:大家上午好,很高興有這樣一個機(jī)會和大家分享一下百度研究院大數(shù)據(jù)實驗室坐的和百度時空數(shù)據(jù)挖掘的一些研究和進(jìn)展。首先,給大家看一下,時空大數(shù)據(jù)在百度來講都有哪些和時間和空間相關(guān)的數(shù)據(jù)?百度主要是分析和挖掘時空數(shù)據(jù)的一些研究,首先看一下時空數(shù)據(jù)就是典型的時間和空間有關(guān)聯(lián)的數(shù)據(jù)。線上我們有用戶的一些搜索數(shù)據(jù),然后每天大家可能會用百度地圖,有每天上億次的百度地圖線上的搜索請求,現(xiàn)在每天超過150億次的定位的請求。對于定位的請求,我們可以累計出來用戶時空和時間的關(guān)聯(lián)的數(shù)據(jù)。
這個數(shù)據(jù)長什么樣呢?這個數(shù)據(jù)是我們可視化出來,北京一天24小時蘋果手機(jī)用戶定位數(shù)據(jù)的可視化,大家可以看到,從白天到晚上這樣一個北京整個城市蘋果用戶的動態(tài)的變化。這個就是在白天的時候很明顯有一個趨勢。另外我們可以單獨把整個在全國范圍內(nèi)用iPhone6的一些土豪的用戶,在全國的分布大概是什么樣的,這個展示了一下整個中國,現(xiàn)在我們發(fā)現(xiàn)有將近2000多萬iPhone6的用戶,他們分布大概是這個樣子。這個很明顯能夠看出來,因為iPhone是一個土豪的代表,所以和經(jīng)濟(jì)關(guān)聯(lián),直接看起來有一些明顯的特征,比如像江浙、廣東這塊區(qū)域,人用的比較多一些。具體的聯(lián)系是什么樣的?我們做了iPhone6的用戶和GDP的關(guān)聯(lián),對大多數(shù)的省市呈非常好的線性的關(guān)系,這個iPhone6可以作為用戶購買力一個很好的屬性看地方經(jīng)濟(jì)的發(fā)展。
剛才只說了一個全國的iPhone用戶的,iPhone用戶和Android用戶的對比大概是什么樣的?我們把北京蘋果的用戶和Android用戶做了這樣一個對比的分析,很明顯看出來,對于市中心區(qū)域,郊區(qū)用Android的比較多,市中心用iPhone的比較多一些。這個圖是衛(wèi)星的一個夜光圖,他們覺得可以反映經(jīng)濟(jì)的發(fā)展,比較暗的是北朝鮮,對應(yīng)的是南朝鮮,北朝鮮和南朝鮮,他們在衛(wèi)星云圖上的光亮有非常大的差異。是不是可以用夜光的圖看地方經(jīng)濟(jì)的發(fā)展呢?衛(wèi)星的云圖有很多的問題,比如這個地方的燈光,可能在衛(wèi)星云圖上產(chǎn)生不飽和的現(xiàn)象,我們用百度的數(shù)據(jù)看這樣一個結(jié)果。我們把春節(jié)除夕晚上一天,所有在百度地圖上產(chǎn)生定位的人用戶的點,放在地圖上,我們沒有做任何下面的渲染,這些定位的點可以很明顯的看出來,整個中國空間上的分布趨勢。
具體細(xì)節(jié)是什么樣呢?比如山東的某一塊區(qū)域在除夕晚上定位的結(jié)果的分布,很明顯看出來,這個數(shù)據(jù)也是僅僅把定位的點打上去之后,在經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū),像上海、江浙,甚至像鄭州點特別亮,因為是除夕,像山東、河南外出打工的比較多,但是春節(jié)的時候會回家,所以山東的時候很多小點變得特別亮,可能是返城務(wù)工的一些人。
看一下這個數(shù)據(jù)和中國經(jīng)濟(jì)的關(guān)聯(lián),有這樣一個數(shù)據(jù),可以看到這個人每天在什么地方工作,去什么地方出差,或者去什么地方旅游,或者是不是換了一個工作,從北京到上海,根據(jù)這樣的數(shù)據(jù),我們建了整個中國的城市網(wǎng)絡(luò),大家可能知道,百度網(wǎng)頁排序有一個算法,叫PageRank算法,比如一個人從北京到上海的出行,我們認(rèn)為它是產(chǎn)生關(guān)聯(lián),根據(jù)這樣一個分析,可以把整個中國城市的Network構(gòu)建出來,而且知道每個城市在網(wǎng)絡(luò)里面的重要性是比較靠前的。底圖是代表我們算出來的CityRank,這個PageRank值我們發(fā)現(xiàn)和地方的GDP有更加好的關(guān)聯(lián)性,關(guān)聯(lián)性大概在0.8左右。下面的GDP,橫坐標(biāo)是上面城市網(wǎng)絡(luò)里面的一個重要的屬性,然后我們覺得這個類型的值,它在網(wǎng)絡(luò)里面的流動性,反映了城市的經(jīng)濟(jì)活力。另外是我們用城市流動人口分析了一下城市的“鬼城”,我們怎么樣根據(jù)百度定位數(shù)據(jù)算出來這個城市人口凈增量變化的趨勢,判斷這個城市未來是不是“鬼城”。
比如這個城市,我們把它的凈增人口量做了一個分析,把累計凈增量計算出來之后,發(fā)現(xiàn)有一個變化,比如天津的濱海新區(qū),鄭州的新區(qū),所有的“鬼城”區(qū)的人口一直在上升,我們覺得可能是對比如房地產(chǎn)有意思的一個結(jié)果,我們認(rèn)為將來如果凈增率下降,將來問題可能出的比較多一些。
剛才上面一些數(shù)據(jù)怎么樣用百度的數(shù)據(jù)分析一些社會科學(xué)的研究,主要是比如和地方經(jīng)濟(jì),或者其他一些量化的一些研究。剛才那些研究,我們最近就說是想去定義一些經(jīng)濟(jì)的指標(biāo),來去分析或者借鑒模型預(yù)測,怎么樣用百度的數(shù)據(jù)看能不能預(yù)測這個地方,或者整個省市將來的經(jīng)濟(jì)的走勢。除了這個應(yīng)用之外,還可以把百度數(shù)據(jù)用在其他的用處,比如百度用戶行為的預(yù)測,也線上的搜索數(shù)據(jù),還有線下的定位數(shù)據(jù),怎么樣預(yù)測線上線下的行為,最終預(yù)測你在將來的出行,這幾個結(jié)果是比較典型的,我們在公司內(nèi)部已經(jīng)內(nèi)測,比如娛樂、休閑、需求,或者購物需求,還有旅游需求。
重點講一下我們分析的旅游的一些結(jié)果。這個是除夕一天的結(jié)果,分析出來北京一天旅游人口的分布。紅色代表北京本地人的分布,藍(lán)色的代表我們根據(jù)定位信息分析出來的外地游客的分布。明顯看出來,外地游客主要集中在天安門等這樣的景點,這兒有一個是本地人經(jīng)常去的景點,有一個人外地人經(jīng)常去的景點,大家推測一下,哪個是本地人經(jīng)常去的景點?本地人他們旅游的行為有非常明顯的不同,除了這個之外,我們還分析了一下,不同手機(jī)型號用戶對旅游經(jīng)典有沒有一些特征偏好,比如看一下Android用戶和IOS用戶,左邊比如是王府井,后海,還有藝術(shù)中心,還有蠟像館,還有美術(shù)館,其實左邊是IOS用戶經(jīng)常光顧的景點。
根據(jù)用戶信息,他的一些使用偏好,他的設(shè)備等我們可以做一個更加智能化的中國去哪兒的信息,比如你家住什么地方,在什么地方工作,經(jīng)常去什么地方,你的消費能力是什么樣的,根據(jù)所有的信息做更好的個性化旅游的推薦,這個就是我們根據(jù)之前分析的結(jié)果做的一個DEMO。我們這個能夠自動檢測出來比如外來游客來北京旅游,我們可以根據(jù)你出行的信息,給你做一個推薦,比如從天安門開始,還可以對北京游客做這樣一個旅游的推薦,有這樣一個推薦,大家在周末出去玩,可能不會出現(xiàn)選擇恐懼癥的情況。
另外一個預(yù)測,我們是根據(jù)用戶線上線下的行為做用戶的O2O的行為預(yù)測。大家可能經(jīng)常會用手機(jī)的百度地圖,你在百度地圖搜了一個地點之后,我們會根據(jù)你將以前出行的信息和你在線上其他的搜索信息預(yù)測你搜完這個位置之后,是不是會去,什么時候會去。比如你下次用百度地圖的時候,搜這個地點的時候,比如搜這個餐館,預(yù)測你接下來一兩個小時會到達(dá),在這一兩個小時之間,會提前打通你線上和線下的服務(wù),比如到海底撈,是不是可以先替你點單,安排停車位的服務(wù)。我們提出的模型,可以把準(zhǔn)確度提升。
這個是用戶、位置和服務(wù)的關(guān)聯(lián),比如對星巴克、海底撈的用戶,比如對星巴克可能是周一到周五大家去的概率更高一些,對于海底撈這樣的店,周五、周六的比例遠(yuǎn)遠(yuǎn)高于星巴克。除了空間上的分布,我們發(fā)現(xiàn)用戶對不同的地點,他們對距離的容忍度也是不一樣的,比如對星巴克,會選擇相對比較近的,對海底撈大家可能一般會做提前的一個規(guī)劃。根據(jù)這樣一個結(jié)果,我們可以看用戶不同地點服務(wù)時間等的分布,這個是可以看出哪些人對海底撈吃飯有需求,根據(jù)這樣的結(jié)果,我們首先建立一個模型,分析每個現(xiàn)有的海底撈的店,根據(jù)用戶對距離的容忍,分析出來每個店猛攻覆蓋的范圍大概是什么樣的。如果把能夠覆蓋的范圍去掉,剩下的是現(xiàn)在沒有滿足的一些需求,但是這塊人有很強(qiáng)的海底撈的需求,但是附近方圓幾里之內(nèi)沒有任何一個海底撈。
根據(jù)這樣一個結(jié)果,怎么樣把沒有滿足的需求,找到這些點,比如這個就是我們根據(jù)一些沒有滿足的需求,把這些需求檢測出來,然后我們把這些需求再用一些算法去捉到一些侯選的位置,我們認(rèn)為這塊位置有很強(qiáng)的需求,但是當(dāng)?shù)氐牡攸c又沒有去滿足。我們再根據(jù)其他的一些交通流量,或者交通可達(dá)性優(yōu)化我們的結(jié)果,最后可以得到一個更好的。為了驗證我們這個結(jié)果,我們現(xiàn)在比如用海底撈的一個石景山店,紅色的點代表我們這個算法能夠預(yù)測大的一個點,其實橙色的點代表實際的海底撈分店的位置,這是一個海底撈的例子。還有像全聚德的例子,結(jié)果也比較好,另外一個是星巴克的結(jié)果。這是用戶和位置以及服務(wù)優(yōu)化的結(jié)果。
除了這個之外,我們還做了一些智慧城市的研究,怎么樣讓百度數(shù)據(jù)做智能的城市管理和服務(wù),這是我們在上周云計算大會上展出的一個DEMO。第一、智能城市的人口管理,這是去年外灘有一個踩踏事件,我們根據(jù)百度搜索和百度定位做的一個分析,我們發(fā)現(xiàn)可以用百度的一些數(shù)據(jù)做一個提前人口流量的預(yù)測,我們不去預(yù)測這個事件會不會發(fā)生,但是提前對人口流量產(chǎn)生很好的預(yù)警。
我們發(fā)現(xiàn)很有意思的現(xiàn)象,一般的用戶到訪一個地點之前,可能會做路徑規(guī)劃,先用百度地圖搜一下,然后乘坐交通工具到達(dá)這樣一個地點,所以有一個時間的提前性。我們把地圖的搜索和人群對某個地點具體流量做了相關(guān)性分析,我們發(fā)現(xiàn)搜索流量的高峰會超前實際到達(dá)流量高分的0.5到2個小時之間,所以我們可以對這個最高峰值做一個預(yù)測,這個可以分析這塊人實時的變化,然后還可以預(yù)測接下來一兩個小時的人口流量的變化,如果它超出一定的具像,我們可以做出一定的預(yù)警。
我們把北京劃分成不同的網(wǎng)格,我們看不同網(wǎng)格與網(wǎng)格之中的關(guān)系,我們還可以根據(jù)百度定位數(shù)據(jù)分析出來這些人上班也好,出行也好,乘坐的交通工具是什么樣的,根據(jù)這個看出來北京不同市區(qū)的一個網(wǎng)絡(luò)的結(jié)構(gòu)圖,比如哪些人住在朝陽,可能去海淀上班的圖。
另外,整個中國城市網(wǎng)絡(luò)的變化,這個城市網(wǎng)絡(luò),基于人口流動變化,我們分析了一個動態(tài)的城市網(wǎng)絡(luò),下面這個是我們看這個城市的人口流動的變化。我們接下來會把人口的流動分成幾類,比如有一類可能是旅游,有一類可能是出差,還有一類我們發(fā)現(xiàn)比較有意思,也是比較重要的,有多少人是因為換工作,換了一些不同的地點,我們認(rèn)為換工作可能更能影響這個地方經(jīng)濟(jì)的指標(biāo)。
這個是我們做的幾個DEMO,在不同媒體上報道,最近云計算大會我們在CCTV做了一個報道,這個DEMO有一個1分鐘的視頻展示。這個模塊是人群的管理,我們把北京劃分成不同的網(wǎng)格尺度來實時監(jiān)控人口的變化,除了看網(wǎng)格,還可以分析某一塊區(qū)域,比如現(xiàn)在重點關(guān)注工體這一塊,我們發(fā)現(xiàn)這一塊人口過了一會兒之后可能人口會變得越來越多。我們根據(jù)百度搜索數(shù)據(jù)發(fā)現(xiàn)這塊可能有一個蘇打綠的演唱會,下面是回龍觀和天通苑,這個是網(wǎng)格化之后,看有多少人在這個地方工作,這個網(wǎng)格和其他網(wǎng)格在空間上關(guān)聯(lián)的關(guān)系是什么樣的。我們同樣來看有多少人住在這個地方。另外,我們看整個中國網(wǎng)絡(luò),一個整個中國實時人口的變化。這個人口每年的遷入遷出量是什么樣,把這個數(shù)據(jù)和地方的GDP指標(biāo)做一個更好的關(guān)聯(lián)和預(yù)測。
我們不久之后可能推出來一個研究,怎么根據(jù)線上線下的工具做一些商業(yè)性的服務(wù),比如酒店一段時間的入住率很低,我們可以從地圖搜索,看他之前的客戶大概特征是什么樣,然后他沒有去這個酒店,之后又去了哪個購電,丟失客戶又去了哪些地方,怎么晚會這些客戶,這是我們接下來做的一個工作,可能在接下來會推出,這主要是做2B的業(yè)務(wù),大概是這樣的,謝謝大家。
{{item.content}}