集“Hadoop中國云計算大會”與“CSDN大數(shù)據(jù)技術(shù)大會”精華之大成, 歷屆的中國大數(shù)據(jù)技術(shù)大會(BDTC) 已發(fā)展成為國內(nèi)事實上的行業(yè)頂尖技術(shù)盛會。從2008年的60人Hadoop沙龍到當(dāng)下的數(shù)千人技術(shù)盛宴,作為業(yè)內(nèi)極具實戰(zhàn)價值的專業(yè)交流平臺,每一屆的中國大數(shù)據(jù)技術(shù)大會都忠實地描繪了大數(shù)據(jù)領(lǐng)域內(nèi)的技術(shù)熱點(diǎn),沉淀了行業(yè)實戰(zhàn)經(jīng)驗,見證了整個大數(shù)據(jù)生態(tài)圈技術(shù)的發(fā)展與演變。
2014年12月12-14日,由中國計算機(jī)學(xué)會(CCF)主辦,CCF大數(shù)據(jù)專家委員會協(xié)辦,中科院計算所與CSDN共同承辦的 2014中國大數(shù)據(jù)技術(shù)大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新云南皇冠假日酒店拉開帷幕。大會為期三天,以推進(jìn)行業(yè)應(yīng)用中的大數(shù)據(jù)技術(shù)發(fā)展為主旨,擬設(shè)立“大數(shù)據(jù)基礎(chǔ)設(shè)施”、“大數(shù)據(jù)生態(tài)系統(tǒng)”、“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)應(yīng)用”、“大數(shù)據(jù)互聯(lián)網(wǎng)金融技術(shù)”、“智能信息處理”等多場主題論壇與行業(yè)峰會。由中國計算機(jī)學(xué)會主辦,CCF大數(shù)據(jù)專家委員會承辦,南京大學(xué)與復(fù)旦大學(xué)協(xié)辦的“2014年第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議”也將同時召開,并與技術(shù)大會共享主題報告。
本次大會將邀請近100位國外大數(shù)據(jù)技術(shù)領(lǐng)域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟件的最新進(jìn)展,NoSQL/NewSQL、內(nèi)存計算、流計算和圖計算技術(shù)的發(fā)展趨勢,OpenStack生態(tài)系統(tǒng)對于大數(shù)據(jù)計算需求的思考,以及大數(shù)據(jù)下的可視化、機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、商業(yè)智能、數(shù)據(jù)分析等的最新業(yè)界應(yīng)用,分享實際生產(chǎn)系統(tǒng)中的技術(shù)特色和實踐經(jīng)驗。
大會召開前期,特別梳理了歷屆大會亮點(diǎn)以記錄中國大數(shù)據(jù)技術(shù)領(lǐng)域發(fā)展歷程,并立足當(dāng)下生態(tài)圈現(xiàn)狀對即將召開的BDTC 2014進(jìn)行展望:
追本溯源,悉大數(shù)據(jù)六大技術(shù)變遷
伴隨著大數(shù)據(jù)技術(shù)大會的發(fā)展,我們親歷了中國大數(shù)據(jù)技術(shù)與應(yīng)用時代的到來,也見證了整個大數(shù)據(jù)生態(tài)圈技術(shù)的發(fā)展與衍變:
1. 計算資源的分布化——從網(wǎng)格計算到云計算。回顧歷屆BDTC大會,我們不難發(fā)現(xiàn),自2009年,資源的組織和調(diào)度方式已逐漸從跨域分布的網(wǎng)格計算向本地分布的云計算轉(zhuǎn)變。而時至今日,云計算已成為大數(shù)據(jù)資源保障的不二平臺。
2. 數(shù)據(jù)存儲變更——HDFS、NoSQL應(yīng)運(yùn)而生。隨著數(shù)據(jù)格式越來越多樣化,傳統(tǒng)關(guān)系型存儲已然無法滿足新時代的應(yīng)用程序需求,HDFS、NoSQL等新技術(shù)應(yīng)運(yùn)而生,并成為當(dāng)下許多大型應(yīng)用架構(gòu)不可或缺的一環(huán),也帶動了定制計算機(jī)/服務(wù)器的發(fā)展,同時也成為大數(shù)據(jù)生態(tài)圈中最熱門的技術(shù)之一。
3. 計算模式改變——Hadoop計算框成主流。為了更好和更廉價地支撐其搜索服務(wù),Google創(chuàng)建了Map/Reduce和GFS。而在Google論文的啟發(fā)下,原雅虎工程師Doug Cutting開創(chuàng)了與高性能計算模式迥異的,計算向數(shù)據(jù)靠攏的Hadoop軟件生態(tài)系統(tǒng)。Hadoop天生高貴,時至今日已成為Apache基金會最“Hot”的開源項目,更被公認(rèn)為大數(shù)據(jù)處理的事實標(biāo)準(zhǔn)。Hadoop以低廉的成本在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力。因此,Hadoop技術(shù)研討與實踐分享也一直是歷屆中國大數(shù)據(jù)技術(shù)大會最亮眼的特色之一。
4. 流計算技術(shù)引入——滿足應(yīng)用的低延遲數(shù)據(jù)處理需求。隨著業(yè)務(wù)需求擴(kuò)展,大數(shù)據(jù)逐漸走出離線批處理的范疇,Storm、Kafka等將實時性、擴(kuò)展性、容錯性和靈活性發(fā)揮得淋漓盡致的流處理框架,使得舊有消息中間件技術(shù)得以重生。成為歷屆BDTC上一道亮麗的風(fēng)景線。
5. 內(nèi)存計算初露端倪——新貴Spark敢與老將叫板。Spark發(fā)源于美國加州大學(xué)伯克利分校AMPLab的集群計算平臺,它立足于內(nèi)存計算,從多迭代批量處理出發(fā),兼容并蓄數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。在短短4年,Spark已發(fā)展為Apache軟件基金會的頂級項目,擁有30個Committers,其用戶更包括IBM、Amazon、Yahoo!、Sohu、百度、阿里、騰訊等多家知名公司,還包括了Spark SQL、Spark Streaming、MLlib、GraphX等多個相關(guān)項目。毫無疑問,Spark已站穩(wěn)腳跟。
6. 關(guān)系數(shù)據(jù)庫技術(shù)進(jìn)化—NewSQL改寫數(shù)據(jù)庫歷史。關(guān)系數(shù)據(jù)庫系統(tǒng)的研發(fā)并沒有停下腳步,在橫向擴(kuò)展、高可用和高性能方面也在不斷進(jìn)步。實際應(yīng)用對面向聯(lián)機(jī)分析處理(OLAP)的MPP(Massively Parallel Processing)數(shù)據(jù)庫的需求最迫切,包括MPP數(shù)據(jù)庫學(xué)習(xí)和采用大數(shù)據(jù)領(lǐng)域的新技術(shù),如多副本技術(shù)、列存儲技術(shù)等。而面向聯(lián)機(jī)事務(wù)處理(OLTP)的數(shù)據(jù)庫則向著高性能演進(jìn),其目標(biāo)是高吞吐率、低延遲,技術(shù)發(fā)展趨勢包括全內(nèi)存化、無鎖化等。
立足揚(yáng)帆,看2014大數(shù)據(jù)生態(tài)圈發(fā)展
時光荏苒,轉(zhuǎn)眼間第2014中國大數(shù)據(jù)技術(shù)大會將如期舉行。在技術(shù)日新月異的當(dāng)下,2014年的BDTC上又可以洞察些什么?這里我們不妨著眼當(dāng)下技術(shù)發(fā)展趨勢:
1. MapReduce已成頹勢,YARN/Tez是否可以再創(chuàng)輝煌?對于Hadoop來說,2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等眾多巨頭都加大了Hadoop方面的投入。然而對于眾多機(jī)構(gòu)來說,這一年卻并不輕松:基于MapReduce的實時性短板以及機(jī)構(gòu)對更通用大數(shù)據(jù)處理平臺的需求,Hadoop 2.0轉(zhuǎn)型已勢在必行。那么,在轉(zhuǎn)型中,機(jī)構(gòu)究竟會遭遇什么樣的挑戰(zhàn)?各個機(jī)構(gòu)如何才能更好地利用YARN所帶來的新特性?Hadoop未來的發(fā)展又會有什么重大變化?為此,BDTC 2014特邀請了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成員Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等國際頂尖Hadoop專家,我們不妨當(dāng)面探討。
2. 時過境遷,Storm、Kafka等流計算框架前途未卜。如果說MapReduce的緩慢給眾多流計算框架帶來了可乘之機(jī),那么當(dāng)Hadoop生態(tài)圈組件越發(fā)成熟,Spark更加易用,迎接這些流計算框架的又是什么?這里我們不妨根據(jù)BDTC 2014近百場的實踐分享進(jìn)行一個側(cè)面的了解,亦或是與專家們當(dāng)面交流。
3. Spark,是顛覆還是補(bǔ)充?與Hadoop生態(tài)圈的兼容,讓Spark的發(fā)展日新月異。然而根據(jù)近日Sort Benchmark公布的排序結(jié)果,在海量(100TB)離線數(shù)據(jù)排序上,對比上屆冠軍Hadoop,Spark以不到十分之一的機(jī)器,只使用三分之一的時間就完成了同樣數(shù)據(jù)量的排序。毫無疑問,當(dāng)下Spark已不止步于實時計算,目標(biāo)直指通用大數(shù)據(jù)處理平臺,而終止Shark,開啟Spark SQL或許已經(jīng)初見端倪。那么,當(dāng)Spark愈加成熟,更加原生的支持離線計算后,開源大數(shù)據(jù)標(biāo)準(zhǔn)處理平臺這個榮譽(yù)又將花落誰家?這里我們一起期待。
4. 基礎(chǔ)設(shè)施層,用什么來提升我們的網(wǎng)絡(luò)?時至今日,網(wǎng)絡(luò)已成為眾多大數(shù)據(jù)處理平臺的攻堅對象。比如,為了克服網(wǎng)絡(luò)瓶頸,Spark使用新的基于Netty的網(wǎng)絡(luò)模塊取代了原有的NIO網(wǎng)絡(luò)模塊,從而提高了對網(wǎng)絡(luò)帶寬的利用。那么,在基礎(chǔ)設(shè)施層我們又該如何克服網(wǎng)絡(luò)這個瓶頸?直接使用更高效的網(wǎng)絡(luò)設(shè)備,比如Infiniband能夠帶來多少性能提升?建立一個更智能網(wǎng)絡(luò),通過計算的每個階段,自適應(yīng)來調(diào)整拆分/合并階段中的數(shù)據(jù)傳輸要求,不僅提高了速度,也提高了利用率。在BDTC 2014上,我們可以從Infiniband/RDMA技術(shù)及應(yīng)用演講,以及數(shù)場SDN實戰(zhàn)上吸取寶貴的經(jīng)驗。
5. 數(shù)據(jù)挖掘的靈魂——機(jī)器學(xué)習(xí)。近年來,機(jī)器學(xué)習(xí)領(lǐng)域的人才搶奪已進(jìn)入白熱化,類似Google、IBM、微軟、百度、阿里、騰訊對機(jī)器學(xué)習(xí)領(lǐng)域的投入也是愈來愈高,囊括了芯片設(shè)計、系統(tǒng)結(jié)構(gòu)(異構(gòu)計算)、軟件系統(tǒng)、模型算法和深度應(yīng)用各個方面。大數(shù)據(jù)標(biāo)志一個新時代的到來,PB數(shù)據(jù)讓人們坐擁金山,然而缺少了智能算法,機(jī)器學(xué)習(xí)這個靈魂,價值的提取無疑變得鏡花水月。而在本屆會議上,我們同樣為大家準(zhǔn)備了數(shù)場機(jī)器學(xué)習(xí)相關(guān)分享,靜候諸位參與。
而在技術(shù)分享之外,2014年第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議也將同時召開,并與技術(shù)大會共享主題報告。屆時,我們同樣可以斬獲許多來自學(xué)術(shù)領(lǐng)域的最新科研成果。
更多精彩內(nèi)容,請關(guān)注CSDN云計算頻道,新浪微博@CSDN云計算,CSDN大數(shù)據(jù)微信公眾賬號。
CSDN誠邀您參加中國大數(shù)據(jù)有獎大調(diào)查活動,只需回答23個問題就有機(jī)會獲得最高價值2700元的大獎(共10個), 速度參與進(jìn)來吧!
免費(fèi)訂閱“CSDN大數(shù)據(jù)”微信公眾號,實時了解最新的大數(shù)據(jù)進(jìn)展!
CSDN大數(shù)據(jù),專注大數(shù)據(jù)資訊、技術(shù)和經(jīng)驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機(jī)器學(xué)習(xí)、智能算法等相關(guān)大數(shù)據(jù)觀點(diǎn),大數(shù)據(jù)技術(shù),大數(shù)據(jù)平臺,大數(shù)據(jù)實踐,大數(shù)據(jù)產(chǎn)業(yè)資訊等服務(wù)。
{{item.content}}