6月16日下午,在首次亮相2016 WGDC的空間大數據專場上,Oracle空間應用顧問顧學明作了題為《給大數據一個空間》的演講。以下是顧學明的演講實錄(尚未經本人核實)。

顧學明:我今天給大家講的題目“給大數據一個空間”。實際上大數據是一個挺熱的話題,這個題目有兩個意思:一個意思怎么從應用大數據這么熱的一個趨勢,給空間數據處理有一個機會;另外一個意思,現在尤其是政府,實際上企業(yè)在大數據方面得到的應用,都在大數據方面得到很多好處,政府這方面也很重視大數據。
我們知道國務院發(fā)表了一個大數據的策略—《大數據指導意見》。在地方大家無所適從,政府怎么處理大數據?我主要從這兩個意思給大家介紹一下,就是我們對大數據的用途。
談到大數據毫無意外,首先了解一個大數據的IDC報告。2012年全球產生的數據量達800EB的數據,其中1/3有價值。如果正常使用,可以從800EB里面中至少200個EB獲取價值,但是其中只有4EB能使用到。數據采集越來越強、采集手段越來越先進,現在天上有GPS,有遙感衛(wèi)星,航空有衛(wèi)星,低空有無人機,地上有測量車等格式各樣的工具收集了大量的數據。上面提到,從2012-2020年全球數據增長50倍,數據采集能力和生產能力其實每五年增長80-90倍之間,這可以驗證。
這個時間也會動不動把EB,到哪兒吃飯,比如用百度導航,實際上這些數據對商業(yè)、政府、公共安全,可能你不經意的動作都采集到。雖然一個小數據、單一的數據可能沒有任何價值,但是當我們把這個數據匯集成非常大的數據之后,它的價值是無限的。
過去,沒有提到大數據機遇。過去由于各種原因,數據的存儲方式也貴,數據比較少,數據價值也比較高,會面臨數據營銷的競爭。政府業(yè)面臨著管理轉型,實際上這兩個是一個意思。企業(yè)過去只要把產品生產好,我等著別人來買我的產品。可是現在不是這樣,企業(yè)跟企業(yè)競爭,實際上你需要時時刻刻去關注你的客戶,他在想什么?所以要時時刻刻不斷的去調整自己的競爭策略。比如聯(lián)通、移動他們時時刻刻在發(fā)生競爭,今天用移動,明天客戶覺得不爽或者覺得資費太高了,企業(yè)面臨的競爭會收集各種各樣的數據,從各個渠道去搜集。政府也一樣,政府過去是管理,過去是大家的,我不用來管,現在不行。管理政府現在有什么樣的問題?很簡單,我要么管,一管就死,一松就亂。
現在就變成決策性的政府。就變成具體實踐我不管太多,我就坐在這兒做宏觀決策,我拿一根繩看管理決策,不是所有事情都管得很死。這就是收集大量的數據來做決策,而不是像過去。比較傳統(tǒng)大數據跟過去有什么區(qū)別?過去通過營銷單、進貨單,在運營當中采集這些數據,這些數據都是階段化。這些所有數據收集到數據倉庫當中,數據倉庫當中做決策。過去數據倉庫只有領導管,現在不行了。
現在面臨更多的競爭,就是說連數據倉庫技術也擴展到除了領導以外,平時面對每個前臺,你只要一去辦業(yè)務就能馬上知道這個人怎么樣,甚至包含了有很多電信去給你推薦各種各樣的產品,實際上對你門兒清。為什么?他就是把各種各樣的數據收集上來,也就是知道你具體什么情況才會給打你電話。
現在的數據模型是怎么樣?不是我被動拿這個數據,而是主動收集這些數據情況,不管這個數據處理多快,只要有了數據手段,只要能清晰就能收集起來。現在不好用,現在的分析方法是不一樣的。我在存儲數據的時候,我只知道它有用,但不知道怎么分析?只有出現問題的時候,過去由于結構化、建模計算方法不一樣,只有出了問題才想出了什么問題,然后再決策,這個是不一樣的。
大家提大數據,可能我們覺得挺神秘的事情,我們要把大數據概念拉到神壇上,再從神壇上拉下來。大數據是什么?就是無法在可接受的時間內用常規(guī)攬件工具完成捕捉、管理和處理的數據集合。這就是大數據,很簡單。
現在可能把大數據處理想得太復雜了,有的時候煩惱說,有一個大數據怎么去把它變成一個能真正發(fā)揮價值的一個東西?(如圖)是我第一個點的東西,我們要給大數據一個空間。實際上我講得都是廢話,第一個,大數據要有合適的采集渠道、新的業(yè)務和IT管理理念。這可能是廢話,但你創(chuàng)新在什么地方?你可能認為這個數據不可能永遠在這個地方,但是在另外一個業(yè)務部門,實際上跟垃圾的原理是一樣的,你認為這是一個垃圾,但是別人知道這個數據價值就會承載。你認為現在的數據可能沒有用,將來的數據可能會有用。
如果我們走極端,我們也看很多的政府或者企業(yè)大數據,不知道怎么做,就用很簡單的方法收集起來。因為你收集了數據是有目的的,如果盲目的收集是無法獲取。我們知道這兩個區(qū)別,一個垃圾處理廠跟一個垃圾掩埋廠是兩種情況,垃圾掩埋廠只能掩埋,而垃圾處理廠不僅能掩埋,還能把垃圾里面有用的東西提取出來。只是我們原來對大數據的處理,不能用常規(guī)的處理,突破常規(guī)才對大數據拓展了空間,帶來了生意。
還有一個誤區(qū)是什么?我們希望大數據,神話了大數據的能力。比如我們常說亞馬遜玉林一只蝴蝶翅膀偶然振動,也許兩周后就會引起美國得克薩斯州的一場龍卷風。比如一聲嘆氣最后可能會引起太平洋的一場風暴,可能會在某一定狀況下,但不是大概率的。
現在非常流行的一個問題,這個問題是所謂“三門”的問題。在美國有一個娛樂節(jié)目,實際在中國也有這個娛樂節(jié)目。有三個門,打開有一個奔馳車的門就可以把車開走了。這個問題引起很多討論,觀眾打開的是指定的門,觀眾打開了一點意思都沒有了,你指定三個門,主持人就猜一號門,說第一號門,可能3號門有,你還是不是繼續(xù)玩,換不換2號門?堅持不堅持3號門或者2號門。這里發(fā)生非常微妙的事情,可能主持人車在2號門里面,就把1號門打開了,就把1號門加到2號門的概率。這是什么事情?說主持人不能玩,觀眾問問題,大家覺得這時候是不是需要換到2號門。有的人說,其實我已經選了3號門,2號門跟3號門沒有關系,其實就是概率問題。有人說我經常換,最后有數學家證明我應該算2號門,甚至有很多其他數學家,也有博士的就置疑這名數學家,但是這名數學家是最對的。
最后反過來大數據是什么?一件事情,一個結論,雖然我不知道里面的道理,但就是通過大量的數據證明是對的。因為不知道,這里面的數據太復雜了,也因為這里面的數據很簡單。這是一個很趣的問題。
最后講大數據不是數據的替代和終結者。剛才我講了大數據的不等于Hadoop/NoSQL。這是大數據的處理技術,有很多的技術。比如我們說大數據的處理,要分布式,不是放在一個硬盤上。一個是數據計算,一個是數據挖掘。我們認為數據的存儲也很重要,包括數據的處理。哪怕我并不是說計算蝴蝶的翅膀振動跟海嘯發(fā)生什么關系?這是數據需要處理,數據處理就很神化。
舉例,電信打電話一定是要有目的的,因為電信的客戶很多,我希望它推一個套餐,一定要保證它會接受。如果要打1000個電話只有100個人會接受這個訪問,那么這時候效率顯然不高,你還不夠人工費。但是我通過這個人的背景、年齡、消費習慣、什么時候交的話費等等一系列信息會認為接受這個,哪怕把1000個電話縮減到200個電話,這樣信息就提高了。
實際上,空間數據在大數據里面應該是起到很大的作用,首先要講空間數據的處理。實際上空間數據基本上面都是海量數據。海量數據的處理,數據遷移、入庫、質量檢查,甚至建一個空間縮影,進行遙感分析、圖像分析等等。比如地理模型統(tǒng)計會看,把全國地理模型統(tǒng)計上來要花多長時間?很簡單把全國各種地理類型統(tǒng)計上來需要多長時間?這是一個很簡單的問題,這是不是大數據處理?是,但是沒有簡單說商業(yè)上的神化,大數據的神化。在商業(yè)上空間數據也是很神化,有的銀行選在什么地方?對商業(yè)來講是逐利的,不可能在沒錢的時候,要知道我的客戶在什么地方?收入在什么地方。
再比如保險分析和評估:我想知道這個人,這個地方,比如財產保險盜竊的可能有多大?就是賠率進行計算。公共安全,剛才前面講到采納事故,如果采納事故,當時有這個意識通過手機的預測,這時候有意識進行防控或者加強信息的發(fā)布。說今天正月十五沒有了,別瞎在外面晃悠。這個取決于對數據的處理能力,至少半個小時就能做出反饋,比如電子回來。比如物流、車輛、環(huán)境監(jiān)測和技術分析需要大量的數據來支持。
所有Oracle大數據處理的堆站,這里說除了數據倉庫,還有一個叫數據水庫。這是我翻譯的,涉及數據有很多很多,其實你阻攔不住,你一定在你的能力范圍之內控制,但有的地方是這樣的,有的想收集數據還收集不到,數據是一個調整能力的一個地方,但你這個數據收集來了以后,這個實際上對Oracle以上,對整個大數據處理是什么樣的生態(tài)。
究竟用傳統(tǒng)關系數據庫和這種非關系數據庫有什么區(qū)別?這個是我們總結的,就不細講了。這里面我要說一個例子,還是國情地理普查的一個項目,實際上我們用數據庫來做B級分析,比如96個圖,把全國地表地理覆蓋圖做出來40分鐘。說你們數據庫多貴?一個數據庫多少錢,當然這涉及到價錢的問題。我問數據來源是什么?是結構化的。你找到這個掃描進去,沒有問題。
這個過程就是兩天加一個小時和半個小時,就置疑你導數據庫多少?這跟你不一樣,我說不一樣。因為你原先的數據就是結構化的數據,而這個數據打到庫里面不僅僅做Hadoop,還有很多要做,比如顯示、分析等等。其實大數據一定要取決于當時的數據來源。
為什么我認為這是一個大數據的思路?有可能人家不認同這是大數據,但是大數據的思路是什么?就是不讓傳統(tǒng)的方法來講,也不讓用傳統(tǒng)的方法,每個事情不要用傳統(tǒng)的方法來基礎。這個創(chuàng)新在什么地方?其實不是創(chuàng)新,我只是劃了一個工具。實際上產生了什么樣的差別?他們?yōu)闄C場提供什么?提供實時的氣象服務,每個小時會收集到很多國外的氣象站的數據,這個數據很亂,不是亂?格式多,來源多,精度不一樣。我們要把這個數據,關系數據根本不行,關系數據參數很亂,我把每一個氣象站,每一種數據都是打包,都是放在什么里面,都是放在NoSQL里面。因為氣象觀測數據,如果大范圍來講,一個點沒有用,看的是趨勢,看是范圍。把這個拆成一條條,這個很高興,原來數據做不進去,一下子就弄進去了。
這時候關鍵不在這兒,你入了庫在做處理,再做展現、分析,還不如把這個文件直接拿來,直接做成等裝線,入關系庫。因為你入的庫還沒有解決實際問題。大數據的觀點是你遷移一次,轉換一次,這個就是我們所說的大數據要做所謂的Relational,就是一定工具是重要的,而不是最后用的什么。
我介紹一下oracle大數據可能跟大數據相關,可能講得比較客觀,比較直接。第一個從推論上收集到很多大量的數據,比如照片、文字信息、GPS設備。剛才說元宵節(jié)踩踏事故,一定把這些數據變成空間地理位置,這個是很花時間,一旦這個信息有了需要很大的工作,這樣就可以聚集人群。另外做評估是再保險上面,第一個是有人的資質,保險以及收入,有規(guī)劃數據,事故數據、同化數據、客戶數據。美國人動不動報警,美國人非常喜歡報警,報警這個區(qū)域涉及是不是安全,所以就會對整個風險進行評估。
對人流的統(tǒng)計進行刷卡,刷卡的信息拿過來,有多少人進這個地區(qū),有多少人進那個地區(qū)?那是很零散的數據。剛才說交通上的落地分析,落地分析得有數據,過去做落地很簡單,有一堆人雇一堆學生路口,因為那樣的可搜集的數據在那兒。
下面是旅游景區(qū)人流外地人和本地人的密度,同時在這個基礎上可以決定在哪個地方加通訊基站,哪個地方可以服務中心。哪個地方人流比較密集,人流規(guī)律是什么樣子。
左上角是統(tǒng)計出來的是什么?地下水和地上水消耗情況,接下來可以去優(yōu)化城市管網。還有一個可能說這不是大數據,但他跟大數據是不一樣,可能不做分析,可以做數據準備。我們知道在應急的情況下,哪個地方地震了,往往大家都急得不行了,說國務院要走了,然后在國家局看到過,又拷貝又拼接,又鑲嵌,又要做金字塔,就不行了。用大數據這個平臺進行地表模型,整裝線處理。
實際上大數據里面有一個很重要的理念,就是Graph理論。Graph翻譯成中文就是描述各個商業(yè)關系,這個在商業(yè)上用得很多。在網站上經??吹?ldquo;買了你這個產品的人還喜歡”,叫產品推薦。它可以根據社交網絡去看這個網絡里面誰是頭,還可以去劃分,實際上Graph可以加上,也就是對大數據的Graph,可以做語音的推理等等。
作為總結,我們認為空間數據在大數據上面是非常重要的領域,大數據可以出現的地方其實商業(yè)也好,資源也好都跟空間相關,做大數據離不開空間的數據。說大數據不要僅僅說挖掘是大數據,實際上大數據處理組織都是面臨大數據;廣義空間大數據覆蓋組織、處理、挖掘、展現;收集機制,處理、挖掘方法比平臺和系統(tǒng)更重要;大數據是為業(yè)務創(chuàng)新提供了空間。大數據不僅在商業(yè)領域,在政府領域其實也有很大的發(fā)展目標。
天津他們很關心行政審批,建設項目的審批,有的時候這個單位審批了,那個單位還沒有審,有很多的項目出了問題,這個項目跟那個項目打架,就是因為沒有大數據,就沒有把各個項目協(xié)調起來。如果能把這個信息及時收集起來,這樣就不可能出現打架,而且領導層可以隨時監(jiān)管項目流程。實際上我認為大數據除了商業(yè)領域,在GIS領域,在政府領域也有很大的空間。
這是我講的內容,謝謝。
{{item.content}}