3sNews訊 2012地理信息開發(fā)者大會(WGDC2012)今日在北京國家會議中心拉開帷幕,本次大會以“新技術(shù)、新模式、新商業(yè)”為主題,是地理信息領(lǐng)域最具影響力的技術(shù)性盛會,其宗旨是不斷引領(lǐng)和促進地理信息技術(shù)的創(chuàng)新與變革。EMC中國卓越研發(fā)集團北京研發(fā)中心總經(jīng)理劉偉發(fā)表了題為《大數(shù)據(jù)=大機遇!》的演講,分享了在大數(shù)據(jù)來臨的時代,我們?nèi)绾巫龀龈玫膽?yīng)對。
EMC中國卓越研發(fā)集團北京研發(fā)中心總經(jīng)理劉偉(3sNews 攝)
以下為文字實錄:
在我們無意識中,這個世界已經(jīng)變成了一個大數(shù)據(jù)的世界了。
我們經(jīng)常討論大數(shù)據(jù),究竟什么是大數(shù)據(jù)?其實大跟小是一個相對的概念。我覺得有兩個原因,一個是我們跟歷史比有一個時間點,在過去,我們討論數(shù)據(jù)的時候,比如提到Total Data已經(jīng)是很了不起了,十年前有TB的數(shù)據(jù)已經(jīng)是非常大了。時過境遷,今天再談數(shù)據(jù)我們用的標量單位是Z、T,所以時間緯度上看大數(shù)據(jù)絕對是數(shù)據(jù)量太大。還有一個緯度,從某種意義上來講,我們在討論大數(shù)據(jù)的時候也是人們在對數(shù)據(jù)處理方面的一種無奈。這個“大”實際上是說,我們處理數(shù)據(jù)的能力小于數(shù)據(jù)量。換句話說,數(shù)據(jù)量太大。所以真正直到有一天,如果我們能夠通過技術(shù)的手段,通過一些新的解決方案,能夠隨心所欲駕馭大數(shù)據(jù)的時候,這個時候數(shù)據(jù)就變成了一種機會。所以今天我就想討論一下在今后十年整個數(shù)字世界會增長44倍,也就是說從2010年的0.9ZB,要增加到十年后的35.2BZ。這個數(shù)據(jù)變化過程中,其實我們每一個人包括在座的各位都是參與到大數(shù)據(jù)產(chǎn)業(yè)當中。各行各業(yè),不管是企業(yè)、個人、政府、還是銀行,所有的行業(yè)都在這次大數(shù)據(jù)的變革當中起著推波助瀾的作用。數(shù)據(jù)產(chǎn)生的過程中有大數(shù)據(jù)產(chǎn)生的大戶,比如說搞科技研究的,比如歐洲強離子衛(wèi)星每秒鐘撞出上億的數(shù)據(jù)單元。比如社交網(wǎng)絡(luò)、地球物理,都是數(shù)據(jù)產(chǎn)生的大戶。這些數(shù)據(jù)產(chǎn)生的大戶對大數(shù)據(jù)產(chǎn)生起到了很大的作用,而更重要的部分是我們個人,包括在座的各位。
隨著互聯(lián)網(wǎng)的發(fā)展,移動社會的普遍應(yīng)用,包括Facebook的發(fā)展和電子商務(wù)、音頻、視頻、圖像廣泛的應(yīng)用,使得每一個個體都變成了巨大數(shù)據(jù)的創(chuàng)造者。這樣這個基數(shù)就變成了一個天文數(shù)字,而新產(chǎn)生的數(shù)據(jù)很大一部分是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。回到地理信息系統(tǒng),地理信息系統(tǒng)是在走入這個大數(shù)據(jù)行業(yè)里面的一個比較前列的行業(yè)。隨著技術(shù)的發(fā)展,在測繪領(lǐng)域,新的技術(shù)為我們提供了很多新的測繪方法,包括遙感技術(shù)、GPS技術(shù)、和測量技術(shù)等等,它能幫助我們收集更多數(shù)據(jù)這是好的方面。另一方面也無形中推動了數(shù)據(jù)量的大發(fā)展。
而多媒體信息和傳統(tǒng)地理信息的結(jié)合也從某種意義上來講,讓地理信息的數(shù)據(jù)量有了一個跨越式的發(fā)展。比如說Google地圖,它06年的數(shù)據(jù)量是70TB,到了2010年已經(jīng)達到了50萬TB,隨著新的移動互聯(lián)網(wǎng)、手機設(shè)備和LBS的發(fā)展,新的地理信息相關(guān)數(shù)據(jù)衍生出很多新的數(shù)據(jù)種類和增加了很多數(shù)據(jù)量。
我們看一下傳統(tǒng)上地理信息系統(tǒng)怎么管理和處理這些數(shù)據(jù)?傳統(tǒng)的地理信息系統(tǒng)相對處理數(shù)據(jù)的種類和類型比較單一、比較簡單。主要是矢量數(shù)據(jù),就是點、線、面體以及跟矢量數(shù)據(jù)相關(guān)的一些屬性信息??臻g數(shù)據(jù)是利用文件系統(tǒng)來管理,我們用關(guān)系數(shù)據(jù)庫來關(guān)系這種屬性數(shù)據(jù)。所以文件系統(tǒng)加上關(guān)系數(shù)據(jù)庫的系統(tǒng)就變成了一個很典型的地理信息的數(shù)據(jù)管理系統(tǒng)。這個系統(tǒng)里有一個很明顯的問題,就是因為數(shù)據(jù)是在不同的地方管理,所以造成了在計算效率和數(shù)據(jù)管理,包括保持數(shù)據(jù)一致性的時候都有一些困難。所以后來有很多空間數(shù)據(jù)苦來同時管理空間數(shù)據(jù)和屬性數(shù)據(jù)。
剛才我也談到了,地理信息發(fā)生了很大的變化,不管是從數(shù)據(jù)量還是數(shù)據(jù)的種類都跟以前不可同日而語。原來簡單空間數(shù)據(jù)管理已經(jīng)不太適用了。我們覺得將來的方式對于矢量數(shù)據(jù)應(yīng)該考慮大規(guī)模并行的空間數(shù)據(jù)庫來進行管理。面對這種大的數(shù)據(jù)量和多種類的數(shù)據(jù),對于地理信息來講要解決兩方面的問題。一個是信息存儲問題。因為有這樣的數(shù)據(jù)量,我們信息存儲的平臺一定要具有這樣的特點,第一容量要大,第二擴展性要好,第三就是要能夠兼容異構(gòu)的數(shù)據(jù),能夠同時的管理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)的管理還有一個很重要的方面就是怎么分析和處理這個數(shù)據(jù)?這么大的數(shù)據(jù),傳統(tǒng)的分析方法有限,所以處理數(shù)據(jù)的時候有幾個關(guān)鍵的地方:
第一,一定是分布式的處理方式,通過這個方式以達到更高的處理效果。第二,一定要想辦法讓我們的分析、讓我們的計算更加的靠近數(shù)據(jù)。這么高的數(shù)據(jù)分析系統(tǒng)有沒有?我們說“可以有”。這是EMC的一個存儲系統(tǒng),這是業(yè)界無論是從可靠性還是性能都是最高的。我們看一下它的容量,單一的文件系統(tǒng)可以達到15PB。而這樣大的文件系統(tǒng)里面橫向的可擴展性能夠保證性能即便是這樣的大的數(shù)據(jù),IO也可以達到1.5兆。
下面簡單說一下分析,有了數(shù)據(jù)很好,有了數(shù)據(jù)可以有很多工作可以做,更重要的是怎么從大量數(shù)據(jù)中挖掘出來信息。傳統(tǒng)的方法都是做結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)量比較小,是TB量級的那時候是縱向擴展,接下來大數(shù)據(jù)時代,一方面數(shù)據(jù)既有結(jié)構(gòu)化的,也有非結(jié)構(gòu)化的。所以我們將來的分析平臺一定是能兼容結(jié)構(gòu)化和非結(jié)構(gòu)化。同時在分析能量上也要分析到PB量的數(shù)據(jù)。再有一個分析的形態(tài)一定是可擴展的,因為數(shù)據(jù)量不管是大它還是與時俱進的。怎么樣讓數(shù)據(jù)動態(tài)適應(yīng)數(shù)據(jù)的增長,一定要讓系統(tǒng)里有一個可擴展的空間和能力。
舉一個例子,EMC分析平臺,它有兩個核心引擎,一個是Greenplum,它是一個大規(guī)模的并行數(shù)據(jù)庫,它有幾個很重要的特點,一個是容量大,可以處理PB級數(shù)據(jù),另外一個就是可擴展性,我們叫做無共享體系架構(gòu)。這個體系架構(gòu)可以部署在一個很多節(jié)點構(gòu)成的數(shù)據(jù)量,如果我們處理數(shù)據(jù)量需要擴大,性能需要提高,可以通過增加節(jié)點完成工作。數(shù)據(jù)加載速度可以達到10/秒,因為它是把所有的查詢分布到不同的節(jié)點進行。這個系統(tǒng)所有的負載均衡都是由系統(tǒng)自動完成的。
還有一點GPDB是支持地理空間數(shù)據(jù)的數(shù)據(jù)庫。它通過支持PostGIS可以支持空間計算。剛才我們強調(diào)了大數(shù)據(jù)一定要有大數(shù)據(jù)的分析頭腦,GPDB有內(nèi)置的分析強大功能,通過SQL的一些調(diào)用,可以調(diào)到很多分析的函數(shù),包括像SVM這些都是在系統(tǒng)里有支持的。
再有一點就是支持全文搜索。這種全文搜索集成了Soir,它可以實現(xiàn)自由文本的全文檢索。同時并行的體系架構(gòu),在全文搜索中是完全被簡化的,搜索的效率非常高。剛才講的這些都是結(jié)構(gòu)化的數(shù)據(jù)里面用什么樣的方式進行分析。對于非結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)處理現(xiàn)在最好的方式就是Greenplum HD。它在標準的基礎(chǔ)上做了很多改進,特別是性能和可靠性上的改進。比如說增加了數(shù)字節(jié)點內(nèi)容,可以增加反應(yīng)速度和避免一些單節(jié)點的問題造成系統(tǒng)的問題。同時增加了一些競像的配套反應(yīng),這些都是根據(jù)系統(tǒng)可靠性采用的一些方式。
總的來說Greenplum這個平臺是一個大數(shù)據(jù)完整的分析解決方案,涵蓋了所有的數(shù)據(jù),不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),加上分布式結(jié)構(gòu)體系架構(gòu),可以在分析大數(shù)據(jù)過程中實現(xiàn)高容量高效率。
剛才前面幾位嘉賓都講了地理信息行業(yè)在經(jīng)歷一個很大的轉(zhuǎn)變,這個轉(zhuǎn)變其中有一個方面就是我們要面對的數(shù)據(jù)是大數(shù)據(jù),這對我們所有人來說是一個機會。在以數(shù)據(jù)為中心的時代,數(shù)據(jù)非常重要,擁有分析數(shù)據(jù)、駕馭數(shù)據(jù)的能力更重要。大數(shù)據(jù)管理這方面是EMC公司非常有興趣的,也是我們的專業(yè)行項,所以我們非常希望有機會跟在座開發(fā)者一起合作,共同推動這次由大數(shù)據(jù)帶來的信息技術(shù)的這場變革。
時間的關(guān)系我就先講這么多,如果有沒講清楚的大家下來可以再討論,如果對我剛才提到的一些產(chǎn)品有興趣,我們門口有展臺,那邊有專業(yè)技術(shù)人員可以給大家進行詳細的演示。
謝謝大家的時間,也預(yù)祝這次地理信息開發(fā)者大會圓滿成功,謝謝!
(根據(jù)速記內(nèi)容整理,未經(jīng)本人審核)
{{item.content}}