777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

2025全球時(shí)空智能大會
5月21-22日 北京
開幕在即!WGDC25全球時(shí)空智能大會完整日程公布
即刻注冊  鎖定席位
分享
Scan me 分享到微信

大數(shù)據(jù)處理瓶頸:容量、格式和速度

Yahoo CTO Raymie Stata是領(lǐng)導(dǎo)海量數(shù)據(jù)分析引擎的關(guān)鍵人物。IBM和Hadoop將更多的精力專注在海量數(shù)據(jù)上,海量數(shù)據(jù)正在潛移默化的改變企業(yè)和IT部門。

  越來越多的大企業(yè)的數(shù)據(jù)集以及創(chuàng)建需要的一切技術(shù),包括存儲、網(wǎng)絡(luò)、分析、歸檔和檢索等,這些被認(rèn)為是海量數(shù)據(jù)。這些大量信息直接推動(dòng)了存儲、服務(wù)器以及安全的發(fā)展。同時(shí)也是給IT部門帶來了一系列必須解決的問題。

  信息技術(shù)研究和分析的公司Gartner認(rèn)為海量數(shù)據(jù)處理應(yīng)該是將大量的不同種類以及結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)通過網(wǎng)絡(luò)匯集到處理器和存儲設(shè)備之中,并伴隨著將這些數(shù)據(jù)轉(zhuǎn)換為企業(yè)的商業(yè)報(bào)告。

  海量數(shù)據(jù)處理的三個(gè)主要因素:大容量數(shù)據(jù)、多格式數(shù)據(jù)和速度

  大容量數(shù)據(jù)(TB級、PB級甚至EB級):人們和機(jī)器制造的越來越多的業(yè)務(wù)數(shù)據(jù)對IT系統(tǒng)帶來了更大的挑戰(zhàn),數(shù)據(jù)的存儲和安全以及在未來訪問和使用這些數(shù)據(jù)已成為難點(diǎn)。

  多格式數(shù)據(jù):海量數(shù)據(jù)包括了越來越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。從簡單的電子郵件、數(shù)據(jù)日志和信用卡記錄,再到儀器收集到的科學(xué)研究數(shù)據(jù)、醫(yī)療數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)以及豐富的媒體數(shù)據(jù)(包括照片、音樂、視頻等)。

  速度:速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲的速度

  Kusnetzky集團(tuán)的分析師Dan Kusnetzky在其博客表示“簡單的說,大數(shù)據(jù)是指允許組織創(chuàng)建、操作和管理的龐大的數(shù)據(jù)集和存儲設(shè)施工具”。這是否意味著將來將會出現(xiàn)比TB和PB更大的數(shù)據(jù)集嗎?供應(yīng)商給出的回應(yīng)是“會出現(xiàn)”。

  他們也許會說“你需要我們的產(chǎn)品來管理和組織利用大規(guī)模的數(shù)據(jù),只是想想繁雜大量的維護(hù)動(dòng)態(tài)數(shù)據(jù)集帶來的麻煩就使人們頭疼“。此外海量數(shù)據(jù)的另外一個(gè)價(jià)值是它可以幫助企業(yè)在適當(dāng)?shù)臅r(shí)機(jī)作出正確決策。

  從歷史上看,數(shù)據(jù)分析軟件面對當(dāng)今的海量數(shù)據(jù)已顯得力不從心,這種局面正在悄然轉(zhuǎn)變。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn)。如Apache的Hadoop、LexisNexis的HPCC系統(tǒng)和1010data(托管、海量數(shù)據(jù)分析的平臺供應(yīng)商)的以云計(jì)算為基礎(chǔ)的分析服務(wù)。

  101data的高級副總裁Tim Negris表示海量數(shù)據(jù)的收集以及存放和利用海量數(shù)據(jù)實(shí)際上完全是兩回事。在做任何事前需要大量(準(zhǔn)備數(shù)據(jù))的工作是像Oracle和大多數(shù)數(shù)據(jù)庫廠商所面臨的難題之一。我們正是要消除這個(gè)難題,并把數(shù)據(jù)直接交到分析師的手中。Hadoop和HPCC系統(tǒng)做到了這一點(diǎn)。這三個(gè)平臺都著眼于海量數(shù)據(jù)并提供支持。

  開源的Hadoop已經(jīng)在過去5年之中證明了自己是市場中最成功的數(shù)據(jù)處理平臺。目前Cloudera的首席執(zhí)行官和Apache基金會的Doug Cutting是Hadoop的創(chuàng)始人,他曾在Yahoo工作過。

  Hadoop將海量數(shù)據(jù)分解成較小的更易訪問的批量數(shù)據(jù)并分發(fā)到多臺服務(wù)器來分析(敏捷是一個(gè)重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。

  “Gartner和IDC的分析師認(rèn)為海量數(shù)據(jù)的處理速度和處理各種數(shù)據(jù)的能力都是Hadoop吸引人們的地方”。Cloudera的產(chǎn)品副總裁Charles Zedlewski說到。

  在Cutting和他的Yahoo團(tuán)隊(duì)提出Hadoop項(xiàng)目之后,在Yahoo IT系統(tǒng)測試并廣泛使用了很多年。隨后他們將Hadoop發(fā)布到開源社區(qū),這使得Hadoop逐漸產(chǎn)品化。

  在Cutting和Yahoo在開發(fā)、測試并內(nèi)部運(yùn)行代碼時(shí),他們了解到使用起來還是很復(fù)雜的。這導(dǎo)致他們馬上意識到如果在未來提供周邊服務(wù)(例如提供直觀的用戶界面、定制部署和附加功能軟件)可賺取更多的資金。

  在2009年Cloudera作為一家獨(dú)立公司開始運(yùn)營,公司產(chǎn)品采用開源并產(chǎn)品化Hadoop分析引擎和Cloudera企業(yè)版(Cloudera Enterprise整合了更多的工具,包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。

  Cloudera得到了大量投資者的青睞,這其中包括VMware的創(chuàng)始人和前首席執(zhí)行官Diane Greene、Flickr的聯(lián)合創(chuàng)始人Caterina Fake、MySQL前首席執(zhí)行官M(fèi)arten Mickos、Linkedln總裁Jeff Weiner和Facebook CFO Gideon Yu。

  自從Cloudera成立以來,只有少數(shù)的頂級公司和初創(chuàng)公司免費(fèi)提供他們基于Hadoop開放源代碼架構(gòu)制作的自己的版本。

  這是一場真正的企業(yè)科技的競爭。就像在一場接力賽中,所有選手都必須使用同一種類型的接力棒(Hadoop的代碼)。企業(yè)競爭主要集中在處理數(shù)據(jù)的速度、敏捷性和創(chuàng)造性上。這場競爭是迫使大多數(shù)企業(yè)在海量數(shù)據(jù)分析市場有所作為最有效的方法。

  IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用于分析和虛擬化海量數(shù)據(jù)的軟件和服務(wù),這款新產(chǎn)品由 Apache Hadoop 提供技術(shù)支持。)基本版和企業(yè)版。但公司有更大的計(jì)劃。

  IBM CEO Sam Palmisano表示IBM正在將新一代數(shù)據(jù)分析作為公司的研發(fā)重點(diǎn),IBM在此項(xiàng)目上投資了1億美元。IBM院士和計(jì)算機(jī)科學(xué)研究室主任Laura Haas表示IBM實(shí)驗(yàn)室的研究遠(yuǎn)遠(yuǎn)超出了海量數(shù)據(jù)的范圍,并已經(jīng)著手”Exadata“分析研究。Watson就是IBM在數(shù)據(jù)海量數(shù)據(jù)研究的成果,Watson將用于更多用途,包括衛(wèi)生保健、科學(xué)研究等。

  其他Hadoop版本

  MapR發(fā)布了一個(gè)分布式文件系統(tǒng)和MapReduce引擎,MapR還與存儲和安全的領(lǐng)導(dǎo)廠商EMC合作向客戶提供了Greenplum HD企業(yè)版Hadoop存儲組件 。EMC Hadoop的另一個(gè)獨(dú)特之處在于它沒有采用官方版本的Apache代碼,而是采用Facebook的Hadoop代碼,后者在可擴(kuò)展性和多站點(diǎn)部署上進(jìn)行了優(yōu)化。

  另一家廠商 Platform Computing,Platform提供了與Apache Hadoop MapReduce編程模型完全兼容的分布式分析平臺,并支持多種分布式文件系統(tǒng)。

  SGI(Silicon Graphics International )提供基于SGI Rackable和CloudRack服務(wù)器產(chǎn)品實(shí)施服務(wù)的Hadoop優(yōu)化解決方案。

  戴爾也開始出售預(yù)裝該開源數(shù)據(jù)處理平臺的服務(wù)器。 該產(chǎn)品成本隨支持選項(xiàng)不同而異,基礎(chǔ)配置價(jià)格在11.8萬美元至12.4萬美元之間,包含為期一年的Cloudera支持和更新,6個(gè)PowerEdge C2100服務(wù)器(2個(gè)管理節(jié)點(diǎn),1個(gè)邊緣節(jié)點(diǎn)和3個(gè)從站節(jié)點(diǎn),以及6個(gè)戴爾PowerConnect 6248交換機(jī))。

  替代品浮出水面。包括1010data的云服務(wù)、LexusNexis公司的Risk,該系統(tǒng)在10年間幫助LexusNexis公司分析大量的客戶數(shù)據(jù),并在金融業(yè)和其他重要的行業(yè)中應(yīng)用。LexusNexis最近還宣布要在開源社區(qū)分享其核心技術(shù)以替代Hadoop。LexisNexis公司發(fā)布一款開源的數(shù)據(jù)處理方案,該技術(shù)被稱為HPCC系統(tǒng)。

  HPCC可以管理、排序并可在幾秒鐘內(nèi)分上億條記錄。HPCC提供兩種數(shù)據(jù)處理和服務(wù)的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因?yàn)槠淠芟馮hor(北歐神話中司雷、戰(zhàn)爭及農(nóng)業(yè)的神)一樣解決困難的問題,Thor主要用來分析和索引大量的Hadoop數(shù)據(jù)。而Roxy則更像一個(gè)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫,甚至還可以處理Web前端的服務(wù)。

  LexisNexis CEO James Peck表示我們認(rèn)為在當(dāng)下這樣的舉動(dòng)是對的,同時(shí)我們相信HPCC系統(tǒng)會將海量數(shù)據(jù)處理提升到更高高度。

  在2011年6月Yahoo和硅谷風(fēng)險(xiǎn)投資公司Benchmark Capital周二聯(lián)合宣布,他們將聯(lián)合成立一家名為Hortonworks的新公司,接管被廣泛應(yīng)用的數(shù)據(jù)分析軟件Hadoop的開發(fā)工作。

  據(jù)一些前Yahoo員工透露,從商業(yè)角度來看Hortonworks將保持獨(dú)立運(yùn)營,并發(fā)展其自身的商業(yè)版。

  在轉(zhuǎn)型時(shí)期,Yahoo CTO Raymie Stata成為關(guān)鍵人物,他將負(fù)責(zé)公司所有IT項(xiàng)目的發(fā)展。Stata表示相對于Yahoo,在Hortonworks我們會投入更多的精力在Hadoop的工作和相關(guān)技術(shù)上,我們認(rèn)為應(yīng)加大對Hadoop的投資。我們會將一些關(guān)鍵人員指派到Hortonworks公司,但這既不是裁員也不是分拆。這是在加大對Hadoop的投入。Yahoo將繼續(xù)為Hadoop的發(fā)展做出更大的貢獻(xiàn)。

  Stata解釋說,Yahoo一直有一個(gè)夢想,就是將Hadoop變?yōu)榇髷?shù)據(jù)分析軟件的行業(yè)標(biāo)準(zhǔn)。但是這必須將Hadoop商業(yè)化。Stata表示創(chuàng)建Hortonworks的主要原因是因?yàn)閅ahoo已經(jīng)看到了未來企業(yè)分析(感謝Hadoop 6年以來的發(fā)展)的未來,并知道該怎樣去做。我們看到海量數(shù)據(jù)分析將很快成為企業(yè)非常普遍的需求。

  我們將Hadoop部署在企業(yè)之中,我不認(rèn)為所有人都否定這樣的解決方案。我們要通過Hadoop為我們的股東創(chuàng)造價(jià)值。如果某一天Hadoop成為海量數(shù)據(jù)處理的行業(yè)標(biāo)準(zhǔn),這將是對我們最好的獎(jiǎng)賞。(李智/譯)


喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦