在與歐洲很多傳統(tǒng)企業(yè)的對話中,我們可以越發(fā)清楚的察覺到大數(shù)據(jù)除了能夠讓開發(fā)應用項目在非硅谷的地方迅速成熟起來之外,無甚新奇之處。之所以提及歐洲,那是因為在IT技術發(fā)展上,它落后于美國。無論是云計算或者大數(shù)據(jù)計算,歐洲都落后美國一到兩年的時間。所以當我們看到歐洲的公司都在鄭重其事的談論大數(shù)據(jù)項目,那么就意味著大數(shù)據(jù)的概念確實開始深入人心。
Gartner報道稱:42%的IT企業(yè)領導已經(jīng)深入大數(shù)據(jù)項目的開發(fā)中。換句話說,它還有長足發(fā)展的空間。但我懷疑這個數(shù)字被低估了,這涉及到了如何定義"大數(shù)據(jù)"這樣一個概念。比如,當我問一個IT企業(yè)的專家是否會開發(fā)一個大數(shù)據(jù)項目時,一般得到的回答都是"NO"。但當我進一步闡明我的意思,你所要從事的項目并不是那種涉及兆兆字節(jié)甚至更大規(guī)模的數(shù)據(jù)量,相反,是一種可以從分散的端口來拉取數(shù)據(jù)的軟件,進而能夠進行實時分析的項目產(chǎn)品。當換成這樣一個問法的時候,往往她的答案就是“YES"! 這樣的項目當然也是在"大數(shù)據(jù)"的范疇內(nèi)。但是"大數(shù)據(jù)"這樣的字眼,讓人們往往更加關注的是”大“,而非數(shù)據(jù),所以人們就走進了誤區(qū)。
這個結論在NewVantage的調查中,變得更加清楚明朗,其中只有15%的受訪者是在處理超大規(guī)模的數(shù)據(jù)。而從剩下的85%的受訪者那里,我們可以看到企業(yè)最關心的目標,是要有能力不斷的管理日益多樣化,并且不斷膨脹的數(shù)據(jù)資源,而非簡單的處理超大規(guī)模數(shù)據(jù)。所以,當我們看到連Hadoop公司,這家以存儲及加工超大規(guī)模數(shù)據(jù)聞名的公司,更加頻繁的介入到ETL過程中,也就不足為奇了。(ETL:即構建數(shù)據(jù)倉庫的重要一環(huán),數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去)
在大數(shù)據(jù)的概念里,規(guī)模真的并不重要
Google公司和Facebook公司早已經(jīng)發(fā)明出MapReduce以及NoSql這樣的數(shù)據(jù)庫,來應付應用軟件(這類軟件主要由數(shù)據(jù)來驅動)對實時數(shù)據(jù)分析處理的需要?,F(xiàn)在這樣的技術已經(jīng)開源,隨處都可以得到并使用,以至于現(xiàn)在的互聯(lián)網(wǎng)大佬們已經(jīng)將目光投向“更大規(guī)模數(shù)據(jù)”的技術開發(fā)和利用,而其他人,將在若干年后享受這些技術帶來的便利。也許,讀寫網(wǎng)的布萊恩·普羅斯特對Hadoop網(wǎng)站價值的揭示更加能夠說明問題。他說:“Hadoo也僅僅是讓本該變得昂貴的數(shù)據(jù)存儲變得便宜而已。”而GigaOm的德里克·哈里斯(Derrick Harris)也對NoSql這么評論道:“它并沒有在管理復雜交易上,把其他數(shù)據(jù)庫的角色取而代之。相反,NoSql催生出來一系列的應用軟件,能夠在處理半結構化數(shù)據(jù)方面反映更加迅速。”所以這在我看來,定義大數(shù)據(jù)最好的的方式,應該站在你處理數(shù)據(jù)的角度,而跟所要處理的數(shù)據(jù)規(guī)模沒有任何關系。
最近我遇到了一位歐洲的IT企業(yè)老板,他說現(xiàn)在已經(jīng)把他的工作團隊從”瀑布式”的開發(fā)方式轉換為更為靈巧機敏的開發(fā)方式。該團隊面向市場上實時的客戶反饋,從3000個服務器中讀取信息,每天要生成500G的信息量,同時從開發(fā)到配置僅僅需要24分鐘的時間。該公司毫無疑問,是在向由數(shù)據(jù)驅動的模式轉型。這意味著他們要有能力一掃舊有僵化的數(shù)據(jù)基礎系統(tǒng),同時在轉變過程中會遭遇很多阻力和挫折,但最終我相信能夠達到他們的目標。
不過最值得人們期待的是:是否更多的主流企業(yè)都將發(fā)展自身的大數(shù)據(jù)技術,來滿足那些互聯(lián)網(wǎng)巨頭不曾有過的一些需求,或者革新將“回流”至硅谷呢!
時間會告訴我們一切。
{{item.content}}