EMC GREENPLUM架構師黎超
以下為文字實錄:
很高興有這樣一個機會向大家介紹EMC GREENPLUM的產(chǎn)品線,以及GREENPLUM在GIS數(shù)據(jù)分析平臺的功能。
首先,我們認為大數(shù)據(jù)時代GIS數(shù)據(jù)分析平臺會面臨一些挑戰(zhàn)。首先,在GIS領域有很多大的價值,現(xiàn)在很多企業(yè)傾向于更多的原始數(shù)據(jù)或者叫云系數(shù)據(jù)進行周期的保留,但傳統(tǒng)UNIX為代表的或者集中式的高端存儲,在存儲上、性能上都沒辦法很好的完成性能的需求。
另外,在大數(shù)據(jù)處理上,比如我們在做堵車分析的場景里面,數(shù)據(jù)的實時更新率是非常高的,我們要求我們的平臺必須具有海量計算的能力,來滿足實際的應用需求。在這樣的環(huán)境里面,傳統(tǒng)的數(shù)據(jù)結構、數(shù)據(jù)架構,可能也很難滿足我們這樣的處理需求。還有對數(shù)據(jù)結構的訪問需求,現(xiàn)在我們的數(shù)據(jù),尤其在GIS領域,它的結構除了傳統(tǒng)的數(shù)據(jù)以外,還有大量復雜的數(shù)據(jù)。
在大數(shù)據(jù)時代,所有這些問題和挑戰(zhàn)會變得更加嚴峻。那么要應對這樣的挑戰(zhàn),在我們的分析需求層面,對系統(tǒng)的可擴展性和我們系統(tǒng)自身擴展能力的摩爾定律之間存在巨大的差異。大家可以看到,我們需要這個系統(tǒng)處理的吞吐能力,跟摩爾定律,CPU也好、磁盤帶寬也好,它的發(fā)展速度很難滿足這樣的需求。
所以,我們認為應對這樣一個挑戰(zhàn),云計算平臺可以幫助我們從成本方面、性能方面去解決大數(shù)據(jù)時代GIS遇到的一些問題。比如說,我們通過分布式的存儲平臺和分布式的數(shù)據(jù)庫平臺,滿足我們的數(shù)據(jù)梳理線性的要求。另外,我們可能利用成本可控的X86平臺,來替代我們傳統(tǒng)高端的UNIX平臺,來構建高可用、高可擴展性的平臺。另外,我們利用大數(shù)據(jù)處理平臺具有大結構化的混合分析能力。所以,EMC我們認為未來的大數(shù)據(jù)時代的處理需要進行高性能的GIS數(shù)據(jù)混合分析。
下面,我介紹一下GREENPLUM,GREENPLUM在EMC收購之前是一家獨立的數(shù)據(jù)庫廠商,EMC除了傳統(tǒng)的硬件產(chǎn)品以外,也希望自己運營大數(shù)據(jù)基礎軟件平臺。07年EMC看到GREENPLUM在數(shù)據(jù)庫產(chǎn)品的領先性以及在這個技術發(fā)展道路上的前瞻性,所以決定收購GREENPLUM。
大家可以看到這張圖是EMC云戰(zhàn)略的發(fā)展,EMC把私有云和公有云這種抽象的概念,具體對應到自己相應的四個產(chǎn)品線,面向海量文件的數(shù)據(jù)云架構產(chǎn)品線,面向大數(shù)據(jù)分析的云架構產(chǎn)品線,EMC收購GREENPLUM就是要完善自己的面向大數(shù)據(jù)分析的云架構產(chǎn)品線。
在EMC收購GREENPLUM之后,大家可以看到,這是一個著名第三方調查報告蓋特納競爭性的報告。在收購之前,左側這張圖,2010年的時候GREENPLUM還是處于追趕者的角色,僅僅是在技術前瞻性上比較領先,在技術競爭力上是相對比較落后的。在EMC收購GREENPLUM兩年之后,也就是今年2月剛發(fā)布的數(shù)據(jù)大家可以看到,EMC在研發(fā)上的大力投入,GREENPLUM成長非??欤呀?jīng)進入到數(shù)據(jù)庫平臺的領導行列里面。
大家可以看到,在EMC收購GREENPLUM之后,它的產(chǎn)品線從傳統(tǒng)的數(shù)據(jù)庫產(chǎn)品以及延伸到海量數(shù)據(jù)庫產(chǎn)品線,允許企業(yè)的行業(yè)專家和數(shù)據(jù)庫專家進行數(shù)據(jù)混合分析。除此之外,EMC還可以為客戶提供數(shù)據(jù)科學家。在收購之后,EMC的相關產(chǎn)品也發(fā)展的非常迅速,在短短的幾年之內,在世界的客戶總數(shù)就已經(jīng)超過500個,其中不乏一些世界500強的客戶,包括AIG、沃爾瑪?shù)鹊取?/p>
下面,我簡單介紹一下GREENPLUM這個數(shù)據(jù)庫平臺。大家可以看到,GREENPLUM實際上是一個基于MPT架構的數(shù)據(jù)庫集群,它的組成部分有三個部分來構成:一個是智能數(shù)據(jù)服務器,一個是斯門服務器,以及智能服務器和斯門服務器的集群,這樣就構成了MPT架構的數(shù)據(jù)庫集群,這種數(shù)據(jù)庫集群的好處就是,當我有大量的關系型的結構化存儲到數(shù)據(jù)庫里的時候,它的數(shù)據(jù)會被打散到所有運算節(jié)點進行存儲和處理。比如我有一張網(wǎng)上億條的記錄,我有10億條斯門節(jié)點的話,那么會拆成10份,均勻的放在斯門節(jié)點上,當你的數(shù)據(jù)庫下來進行處理的時候,所有的斯門節(jié)點進行處理和運算。而GREENPLUM把控制服務器跟存儲預算服務器給單列出來,分開處理,提供更好的服務。
另外,GREENPLUM的一個特點就是數(shù)據(jù)加載方面,GREENPLUM允許數(shù)據(jù)源跟斯門節(jié)點直接相連,采用并行的方式進行海量數(shù)據(jù)的加載。這樣的結構可以隨著我們的運算節(jié)點的增加,使數(shù)據(jù)打的更散,整個數(shù)據(jù)的處理效果會成線性增長,包括數(shù)據(jù)的存儲。
我們在這兒把GREENPLUM的技術特點做了一些基本的總結:一個是首先它的集群規(guī)模可以支持到超大規(guī)模,我們在海外已經(jīng)有超大節(jié)點的例子,在海外也有上百個節(jié)點,數(shù)TB存儲的數(shù)據(jù)規(guī)模。在一個數(shù)據(jù)庫里面,GREENPLUM可以同時進行行列存儲,為用戶數(shù)據(jù)訪問提供靈活性。另外,無論是行存還是列存,GREENPLUM可以提供比較高的數(shù)據(jù)壓縮比,節(jié)省IO效率,提升存儲效率。另外,GREENPLUM允許用戶靈活分區(qū),比如我可以根據(jù)時間、地域,對我的數(shù)據(jù)進行相應的數(shù)據(jù)分析,提升我們的數(shù)據(jù)訪問性能。
同時,它也支持多種索引,都可以在GREENPLUM里面得到浪費的支持。同樣,它具有高可靠性、線性拓展這樣的特性,實現(xiàn)結構化、半結構化、非結構化混合的數(shù)據(jù)分析。另外,GREENPLUM本身帶有很多的拓展包,比如說一會兒要介紹的PostGIS這樣的引擎,還有R語言,都可以在GREENPLUM數(shù)據(jù)庫引擎里面進行并行化的數(shù)據(jù)處理。
下面我來介紹一下PostGIS,PostGIS實際上是對POS3數(shù)據(jù)庫提供的地理信息數(shù)據(jù)處理引擎,PostGIS是開放GIS的支柱軟件之一,GIS本身只是GIS所有的規(guī)范,所以大家的應用,比如基于UB的或Google maps的應用可以直接用PostGIS作為支撐。所以PostGIS引擎的數(shù)據(jù)我們都可以通過ATI進行數(shù)據(jù)訪問。在PostGIS引擎里面提供了300種以上的跟地理空間信息處理有關的函數(shù)。所以大家在進行編寫的時候可以很方便的對這些函數(shù)進行相應的調用。
在訪問方式上,本身也支持多樣的訪問方式,比如我們可以通過傳統(tǒng)的方式對PostGIS引擎數(shù)據(jù)進行輸出。如果我們運用一些開源或者商業(yè)化的軟件,讓它支持PostGIS的標準進行輸出。在數(shù)據(jù)加載上也支持多種數(shù)據(jù)加載方式,在PostGIS引擎中都可以得到非常好的支持。所以大家可以看到,支持GIS系統(tǒng)的典型結構,我們可以把Shapefiles導入到PostGIS,它后端可能是POS3數(shù)據(jù)庫,前面我們可以進行集中展現(xiàn)。這是通過SQL查找特定范圍內的公共汽車站的數(shù)據(jù),只是簡單的調用SQL函數(shù)就可以進行相應的GIS運算。這是一個基于WEB服務輸出的例子。
GREENPLUM跟PostGIS的關系是什么呢?GREENPLUM的底層完全是基于POS3開發(fā)出來的,也就是說GREENPLUM是基于POS3MPT機構的數(shù)據(jù)庫引擎,所以GREENPLUM跟PostGIS有天然的兼容,我們可以把PostGIS放在GREENPLUM上。當然,GREENPLUM做了很多開發(fā),因為傳統(tǒng)的PostGIS是以傳統(tǒng)數(shù)據(jù)庫穿行的數(shù)據(jù)庫,單實力的數(shù)據(jù)庫為基礎開發(fā)的引擎,GREENPLUM在4.2版本當中把里面的函數(shù)完全實現(xiàn)了并行化處理。
在這里面提到了GREENPLUM運行PostGIS的基本優(yōu)勢,首先我們提到了它是MPT架構的數(shù)據(jù)庫,隨著節(jié)點的增加使得數(shù)據(jù)的處理效率以及存儲能力呈線性的提升。而且,由于它完全基于X86的環(huán)境,所以整個性能提升和存儲提升成本都是非常低的。第二點,它提高了傳統(tǒng)單一Post3數(shù)據(jù)庫的過可用性。第三,在GREENPLUM里面我們提供了很多的分析語言包,比如R語言,集成到每一個斯門引擎上,如果和PostGIS引擎結合在一起的話,可以利用存在GREENPLUM的數(shù)據(jù),進行一些高級分析。分布式的集群,如果按傳統(tǒng)方式安裝,可以造成很多管理上的負擔。GREENPLUM提供相應的工具,可以采用批量的方式在所有的服務器上同時部署PostGIS引擎,而且隨著你新的節(jié)點增加,PostGIS引擎可以自動部署到新增的數(shù)據(jù)庫引擎上。
GREENPLUM除了關系型數(shù)據(jù)庫平臺以外,現(xiàn)在也提供商業(yè)化的Hadoop平臺,Hadoop恰恰在這個領域有獨特的優(yōu)勢,GREENPLUM也正是看到了這一點,所以我們也提供了商業(yè)化版本的產(chǎn)品。
可能大家對Hadoop都比較了解了,我這兒也不多了,簡單說一下Hadoop實際上是個開源項目,基于Google的白皮書和Google文件的絕大部分平臺,雅虎完成了Hadoop絕大部分初始設計和開發(fā)。這是典型的Hadoop結構,會把它分成若干個小塊,分布存儲處理,所以者Hadoop本身有良好的可擴展性。
Hadoop跟關系型數(shù)據(jù)庫之間的關系并不是替代關系,Hadoop與關系數(shù)據(jù)庫互為有益補充,Hadoop適用于無因果關系的非結構化數(shù)據(jù)處理與分析,復雜的并行數(shù)據(jù)ETL,比如海量Shapefile的存放和處理。關系數(shù)據(jù)庫用于強因果關系的結構化數(shù)據(jù)處理與分析,傳統(tǒng)的Hadoop完全是開源的,很多傳統(tǒng)企業(yè),不像一些互聯(lián)網(wǎng)企業(yè)有很強的自主研發(fā)能力或者管理能力。它更多的是希望廠商來提供相應的服務。
另外,GREENPLUM的Hadoop完全用C進行了改寫,傳統(tǒng)的Hadoop完全是基于JAVA的,實現(xiàn)了C的效率更高,大家就可以利用一個非常低廉的成本獲得一個超大的可擴展的存儲池,以前凡是基于NFF開發(fā)的圖形化應用不需要根本性的修改,就可以得到很好的效率,得到擴展能力很強的平臺。另外,GREENPLUM的Hadoop可以實現(xiàn)異地的數(shù)據(jù)復制,比如說北京一個站點,上海一個站點,我可以讓這兩個站點之間形成父輩關系,完全可以做到兩個大集群之間數(shù)據(jù)的雙向復制的能力。
Hadoop自身在GREENPLUM和數(shù)據(jù)庫引擎上做了大量工作,數(shù)據(jù)庫引擎不僅僅是可以把Hadoop當成存儲來使用,除此之外GREENPLUM可以直接去調度Hadoop引擎自身的運算能力,完成數(shù)據(jù)處理,把數(shù)據(jù)處理完的結果返回到數(shù)據(jù)庫層面,跟關系型數(shù)據(jù)庫進行結合,得到最終的結果,讓開發(fā)者不至于在開發(fā)理念上有巨大的變化。
EMC在收購GREENPLUM之后,也提供了這樣的一體化設備,主要就是簡化用戶的集成工作,EMC的這種一體化設備除了可以支持數(shù)據(jù)庫模塊以外,可以在同一個機架里面集成SAS這樣的數(shù)據(jù)挖掘模塊,可以幫助用戶最大程度的節(jié)省他的寶貴機房的空間。
所以,GREENPLUM的出現(xiàn),使得大家可以用比較低廉的成本獲取基礎軟件平臺和基礎硬件平臺,把更多的投入放到應用需求層面,來降低總體應用成本和總體使用成本。
我的介紹就到這里,如果大家有興趣可以到EMC的展臺上去拿到相關的GREENPLUM介紹,另外如果大家填相應的調查表有小禮品贈送給大家。
謝謝大家!
(以上內容根據(jù)速記整理,未經(jīng)本人審核)
{{item.content}}