以下為劉院士講話文字實(shí)錄:
各位來賓,這是我自己對大數(shù)據(jù)的理解。我將從以下幾方面進(jìn)行演講:一、大數(shù)據(jù)時(shí)代的背景和影響。二、空間信息與位置大數(shù)據(jù)類型和特性。三、測繪與位置服務(wù)重大數(shù)據(jù)的問題和挑戰(zhàn)。四、測繪與位置服務(wù)中的大數(shù)據(jù)應(yīng)用和機(jī)遇。五、測繪與位置服務(wù)中的大數(shù)據(jù)研究方法。六、思考與結(jié)語。
一、大數(shù)據(jù)時(shí)代的背景和影響
大數(shù)據(jù)時(shí)代的概念,追根溯源,最早提出的是未來學(xué)家托夫勒,1980年第三次浪潮中將大數(shù)據(jù)作為第三次浪潮的華彩樂章。正式表明進(jìn)入大數(shù)據(jù)時(shí)代的是美國的奧地利科學(xué)家舍恩伯格,把大數(shù)據(jù)的影響分成三個(gè)層面,分別是管理變革、商業(yè)變革和思維變革,成為社會(huì)的基礎(chǔ)設(shè)施、戰(zhàn)略資源,價(jià)值巨大,大數(shù)據(jù)未來,即通過相關(guān)關(guān)系收集更多的數(shù)據(jù)點(diǎn)。讓大家接受不精確性,可以更好的預(yù)測未來,更好的理解和洞察社會(huì)、世界生活。
有的科學(xué)家提出科技革命的周期和經(jīng)濟(jì)的波動(dòng)周期息息相關(guān),第一次機(jī)械化引起了英國18世紀(jì)后期到19世紀(jì)中期的經(jīng)濟(jì)持續(xù)發(fā)展,電子化引起了19世紀(jì)末到20世紀(jì)初經(jīng)濟(jì)的持續(xù)發(fā)展。信息化引起了20世紀(jì)后半葉和20世紀(jì)前的發(fā)展,第三次將是什么呢?有的人提出可能就是大數(shù)據(jù)。
從信息本身來說,信息技術(shù)革命經(jīng)歷了架構(gòu)化時(shí)代、數(shù)字化時(shí)代、網(wǎng)絡(luò)化時(shí)代,下面即將進(jìn)入智慧化時(shí)代,標(biāo)志就是移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)。因此,全球信息化已經(jīng)邁進(jìn)了大數(shù)據(jù)時(shí)代,全球90%數(shù)據(jù)是近兩年產(chǎn)生的。大數(shù)據(jù)這個(gè)關(guān)鍵詞全球迅速升溫,圖中藍(lán)線代表云計(jì)算,紅線代表大數(shù)據(jù),2011年前云計(jì)算達(dá)到了高峰,大數(shù)據(jù)提的很糟,但是一直處在低速發(fā)展的階段,今年跟云計(jì)算已經(jīng)接近,并且有超過的趨勢。
Gartner技術(shù)炒作周期曲線,大數(shù)據(jù)正處在膨脹的通脹期,進(jìn)入成熟階段估計(jì)還需要5-10年,云計(jì)算已經(jīng)炒作過了,即將進(jìn)入低谷,然后開始向成熟期發(fā)展。大數(shù)據(jù)成為各國關(guān)注的戰(zhàn)略資源,奧巴馬政府去年3月29號(hào)發(fā)布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,6大部門投資2億美金,今年4月中國發(fā)布了報(bào)告,大數(shù)據(jù)作為國家七大研究領(lǐng)域之一,兩百多個(gè)專家耗時(shí)一年進(jìn)行了大數(shù)據(jù)的研究,成立了專門的研究委員會(huì),聯(lián)合國也提出《大數(shù)據(jù)促發(fā)展》報(bào)告。一個(gè)國家擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為綜合國力的重要組成部分。
大數(shù)據(jù)的定義域內(nèi)涵,因?yàn)槲C(jī)百科的定義,大數(shù)據(jù)的聚合,這些數(shù)據(jù)集的規(guī)模和復(fù)雜程度超出目前數(shù)據(jù)庫管理軟件和傳統(tǒng)數(shù)據(jù)處理技術(shù)在可接受的時(shí)間下的獲取、管理、檢索、分析、挖掘和可視化能力。大數(shù)據(jù)的內(nèi)涵:規(guī)模大,一般大于TB級(jí),而且類型及結(jié)構(gòu)復(fù)雜,不是當(dāng)前的數(shù)據(jù)管理、存儲(chǔ)、處理軟件和硬件體系在可接受的時(shí)間內(nèi)解決的,顯然,大數(shù)據(jù)只是計(jì)算機(jī)網(wǎng)絡(luò)或者互聯(lián)網(wǎng)上產(chǎn)生和運(yùn)轉(zhuǎn)的數(shù)據(jù)。大數(shù)據(jù)是高容量、高速率、高度多樣的信息資產(chǎn),需要研究新的數(shù)據(jù)處理方式,強(qiáng)化決策支持、觀點(diǎn)發(fā)現(xiàn)和過程的優(yōu)化。
數(shù)據(jù)之間的內(nèi)部關(guān)系是什么,過去強(qiáng)調(diào)是關(guān)系數(shù)據(jù),有繼承關(guān)系、因果關(guān)系等等,現(xiàn)在大數(shù)據(jù)之間更多的是數(shù)據(jù)之間某種關(guān)聯(lián)的或者相關(guān)的關(guān)系,但是由于這種關(guān)聯(lián)和相關(guān)使得海量數(shù)據(jù)隱含著更準(zhǔn)確的事實(shí),研究發(fā)現(xiàn),大數(shù)據(jù)可顯著提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性。如果樣本達(dá)到無窮大,或者基本上接近全體數(shù)據(jù),以后的處理就不是依賴于隨機(jī)采樣,現(xiàn)在是隨機(jī)采樣,用小樣代表母體,這是有偏差的,可以直接從數(shù)據(jù)中發(fā)現(xiàn)問題。另外,過去我們說云計(jì)算里面有軟件即服務(wù)、平臺(tái)即服務(wù)、基礎(chǔ)設(shè)施即服務(wù),大數(shù)據(jù)時(shí)代提出數(shù)據(jù)即服務(wù),DAAS,正在被廣泛接受,對數(shù)據(jù)在權(quán)聲明周期中的價(jià)值加以利用,通過對高價(jià)值數(shù)據(jù)實(shí)時(shí)發(fā)掘、處理和聚合,還能創(chuàng)造新的價(jià)值,有時(shí)一條微博就具有顛覆性的價(jià)值。
大數(shù)據(jù)有兩種來源:一種物理世界的數(shù)據(jù),天文觀測、氣象觀測、生命觀測等等,再一個(gè)是人類社會(huì)數(shù)據(jù),來自人類社會(huì)活動(dòng)產(chǎn)生的數(shù)據(jù),入射角網(wǎng)絡(luò)數(shù)據(jù)、金融貿(mào)易活動(dòng)數(shù)據(jù)、經(jīng)濟(jì)產(chǎn)業(yè)數(shù)據(jù)、軍事安全數(shù)據(jù)、車輛交通數(shù)據(jù)、通訊信息數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)等等?,F(xiàn)在世界上都把大數(shù)據(jù)特征歸納為四個(gè),也有歸納為五個(gè)特征的,我采用五個(gè)特征的歸納方式:巨量性,快變性,每分鐘Google有200萬次查詢,多模性,數(shù)據(jù)的模式很多,有不同的形式,有文本的,有圖像的,有音頻的、視頻的等等,不確定性,由于數(shù)據(jù)量大,采取的方式很多,又是非標(biāo)準(zhǔn)采集,所以數(shù)據(jù)有不確定性,真?zhèn)坞y辨,總的來說,大數(shù)據(jù)是個(gè)“金礦”,但是耽擱數(shù)據(jù)的含金量很低,低值性。
大數(shù)據(jù)與數(shù)據(jù)庫的區(qū)別,一般是GB級(jí)量的數(shù)據(jù),數(shù)據(jù)庫最多到TB級(jí),數(shù)據(jù)里一般是結(jié)構(gòu)化數(shù)據(jù),高質(zhì)量數(shù)據(jù),而且數(shù)據(jù)的輸入是經(jīng)過頂層設(shè)計(jì)的,數(shù)據(jù)庫得到的信息和解決方案都是確定性的,大數(shù)據(jù)是PB級(jí)以上數(shù)據(jù),有噪聲,有冗余,是非結(jié)構(gòu)化的,不是頂層設(shè)計(jì)的,是自上而下的,分布式的,不能得到確定解,最多得到一個(gè)比較滿意的解,我們現(xiàn)在要接受滿意解這種概念。在數(shù)據(jù)庫階段體現(xiàn)的是數(shù)據(jù)工程,現(xiàn)在體現(xiàn)的是數(shù)據(jù)思維。大數(shù)據(jù)里面含“金礦”,最重要的是要實(shí)現(xiàn)大數(shù)據(jù)的智能,通過大數(shù)據(jù)智能,要解決大數(shù)據(jù)智能問題,要通過一些新的計(jì)算方法,包括群體智能、社會(huì)計(jì)算等,用大量數(shù)據(jù)加簡單邏輯方法就能解決復(fù)雜問題。
大數(shù)據(jù)的科學(xué)、技術(shù)和應(yīng)用問題,大數(shù)據(jù)的來源,大數(shù)據(jù)再大,來源也就是這么幾個(gè):政府?dāng)?shù)據(jù)源、行業(yè)數(shù)據(jù)源、企業(yè)數(shù)據(jù)源、社會(huì)群體包括個(gè)人的數(shù)據(jù)來源。這么多數(shù)據(jù),我們要對數(shù)據(jù)進(jìn)行感知,要對這么多數(shù)據(jù)進(jìn)行綜合融合和表達(dá),還要進(jìn)行存儲(chǔ)、管理,里面有“金礦”,我們要挖掘出來,還要進(jìn)行推斷和決策,這些決策需要大家能夠理解,這是技術(shù)問題??茖W(xué)問題,到底復(fù)雜到什么程度?怎么樣描述這個(gè)復(fù)雜程度?對于這么復(fù)雜的東西,我們有什么新的計(jì)算理論?數(shù)據(jù)的譜系分類怎么樣,過去叫做數(shù)據(jù)庫數(shù)據(jù)工程,現(xiàn)在形成了數(shù)據(jù)科學(xué),過去先有科學(xué)再有技術(shù)、再有工程,現(xiàn)在反過來了,慢慢提升為數(shù)據(jù)科學(xué)。當(dāng)然,最大的是應(yīng)用問題,我們要解決大數(shù)據(jù)的應(yīng)用,數(shù)據(jù)的資源化和共享化,如果數(shù)據(jù)都在單位里不拿出來,那就不能發(fā)揮作用。數(shù)據(jù)和產(chǎn)業(yè)會(huì)形成數(shù)據(jù)產(chǎn)業(yè),有數(shù)據(jù)本身的生態(tài)和數(shù)據(jù)產(chǎn)業(yè)的生態(tài)問題,需要我們?nèi)ソ鉀Q。
大數(shù)據(jù)研究層面和內(nèi)容,有研究平臺(tái)層的,有研究系統(tǒng)層的,有研究算法層的,有研究應(yīng)用層的。同時(shí),大數(shù)據(jù)不僅是一個(gè)概念,而且向產(chǎn)業(yè)化進(jìn)軍,正是由于向產(chǎn)業(yè)化進(jìn)軍,才會(huì)形成巨大的效益,過去有數(shù)據(jù)庫產(chǎn)業(yè),現(xiàn)在有數(shù)據(jù)中心產(chǎn)業(yè),全球現(xiàn)在有幾千個(gè)數(shù)據(jù)中心,中國也有九百多個(gè)數(shù)據(jù)中心,數(shù)據(jù)中心占有很大數(shù)據(jù),進(jìn)一步發(fā)展為數(shù)據(jù)產(chǎn)業(yè),從事數(shù)據(jù)的收集、整理、流通、服務(wù)及相關(guān)軟硬件的研發(fā)、制造的總稱,包括內(nèi)容產(chǎn)業(yè)、服務(wù)產(chǎn)業(yè)和軟硬件研發(fā)產(chǎn)業(yè)。大數(shù)據(jù)的需求非常廣泛,衛(wèi)星測繪也是大數(shù)據(jù)需求的一個(gè)方面,還有金融、地質(zhì)勘探等等。
大數(shù)據(jù)時(shí)代帶來的影響,首先,科學(xué)上的影響,圖靈獎(jiǎng)獲得者Jim Gray基于e-Science的思路提出大數(shù)據(jù)是科學(xué)研究的第四范式,是從計(jì)算密集型科研發(fā)展到以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科研方法。幾千年以來,通過科學(xué)實(shí)驗(yàn)發(fā)現(xiàn)很多問題,以牛頓、愛因斯坦為代表的是模型歸納,近幾年通過仿真也可以發(fā)現(xiàn)很多問題,以后通過數(shù)據(jù)密集型的計(jì)算發(fā)展為一個(gè)新的研究方法。對社會(huì)的沖擊,可以改變政治與政府,比如2009年至今美國政府全面開放40萬聯(lián)邦政府原始數(shù)據(jù),大數(shù)據(jù)已經(jīng)成為美國國家創(chuàng)新的戰(zhàn)略、國家安全戰(zhàn)略、國家IT產(chǎn)業(yè)發(fā)展戰(zhàn)略以及國家信息網(wǎng)絡(luò)戰(zhàn)略的交叉領(lǐng)域、核心領(lǐng)域。美國最近開放了氣象數(shù)據(jù),向世界開放,根據(jù)氣象數(shù)據(jù),成立了很多增值氣象服務(wù)公司,使得增值氣象服務(wù)一下變成美國時(shí)髦產(chǎn)業(yè),對農(nóng)業(yè)、對小區(qū)預(yù)報(bào)氣象,什么地點(diǎn)、什么時(shí)間下多少毫米的雨,下什么類型的冰雹,刮什么樣的臺(tái)風(fēng)等等。另外,被重塑的價(jià)值與思維,21世紀(jì)數(shù)據(jù)的價(jià)值有可能等同于20世紀(jì)的石油,大數(shù)據(jù)研究使得人們降低了對因果關(guān)系的渴求,而關(guān)注相關(guān)關(guān)系。只需要知道是什么,而不需要知道為什么。在經(jīng)濟(jì)上,可以產(chǎn)生新的數(shù)據(jù)分析與互聯(lián)網(wǎng)、云計(jì)算、車載行業(yè)進(jìn)行緊密結(jié)合,形成一批新的經(jīng)濟(jì)體,包括專門掌握數(shù)據(jù)源的企業(yè)、專注數(shù)據(jù)分析技術(shù)的企業(yè),還有提供數(shù)據(jù)中間服務(wù)的企業(yè),以及相關(guān)的產(chǎn)業(yè)聯(lián)盟,會(huì)產(chǎn)生一些新的職業(yè),可以產(chǎn)生數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家等等。而且會(huì)產(chǎn)生新的產(chǎn)值,TMR(透明度市場研究)最新發(fā)布的《大數(shù)據(jù)市場:2012-2018年全球形勢、發(fā)展趨勢預(yù)測》報(bào)告顯示,2012年全球大數(shù)據(jù)市場值為63億美元,到2013年將達(dá)到483億美元,大數(shù)據(jù)產(chǎn)業(yè)將為零售業(yè)增加60%的凈利潤,大數(shù)據(jù)產(chǎn)業(yè)將為制造業(yè)減少50%的產(chǎn)品研發(fā)等成本。在個(gè)人地理信息方面,為服務(wù)商帶來超過一千億美元的收入,為用戶帶來超過七千億美元的價(jià)值。
位置服務(wù)與泛在測繪,位置服務(wù)的質(zhì)量要求,連續(xù)、廣域?qū)崟r(shí)、快速、位置精度合適、位置信息豐富,滿足實(shí)時(shí)連續(xù)廣域服務(wù)的空天地一體化時(shí)空基準(zhǔn)基礎(chǔ)設(shè)施,這種位置服務(wù)能力可實(shí)現(xiàn)泛在測繪,現(xiàn)在的測繪就是泛在測繪,所以就不區(qū)分測繪和泛在測繪了。泛在測繪的概念,指用戶在任何地點(diǎn)、任何時(shí)間為認(rèn)知環(huán)境與人的關(guān)系而創(chuàng)建和使用地理信息活地圖的活動(dòng),強(qiáng)調(diào)人、環(huán)境等信息的自然屬性和社會(huì)關(guān)聯(lián),過去的測繪不強(qiáng)調(diào)人,只有地圖、只有數(shù)據(jù),沒有人在里面,現(xiàn)在的測繪強(qiáng)調(diào)人與環(huán)境的關(guān)系。測繪手段也不同,“泛在”采集,利用感知設(shè)備和傳感網(wǎng)絡(luò),每個(gè)人都是位置數(shù)據(jù)提供者,也是位置服務(wù)的受眾。測繪對象:所感興趣的人的狀態(tài)及其變化或所關(guān)心環(huán)境、事件及其變化。人的數(shù)量及其群體需求、興趣的復(fù)雜和多變,與人類相關(guān)的環(huán)境的復(fù)雜和多變是泛在測繪產(chǎn)生大數(shù)據(jù)的根本緣由。測繪與位置大數(shù)據(jù)包含物理世界大數(shù)據(jù)又含人類社會(huì)大數(shù)據(jù)。我
二、空間信息與位置大數(shù)據(jù)類型和特性
泛在測繪與大數(shù)據(jù),有大數(shù)據(jù)的五個(gè)特點(diǎn),但是也有自身的特點(diǎn):時(shí)空特征,表示現(xiàn)象發(fā)生的時(shí)間點(diǎn)及持續(xù)的時(shí)間長度、所處的地理位置及涉及范圍,數(shù)據(jù)間的關(guān)系也非常復(fù)雜。屬性特征,有不同的層次,包括與人的關(guān)系。精度特征,指測繪對象在不同需求下,隨分辨率、時(shí)間響應(yīng)尺度等呈現(xiàn)不同精度要求。位置大數(shù)據(jù)是大數(shù)據(jù)研究中的重要組成部分,不僅測繪人感興趣,全球各行業(yè)人都感興趣,是“金礦”中的“金礦”,麥肯錫指出,估計(jì)位置數(shù)據(jù)的等級(jí)在2009年為PB級(jí),并以每年20%的速度增長,這還不包括來源于RFID傳感網(wǎng)的數(shù)據(jù)。
空間信息與位置大數(shù)據(jù)的分類,測繪與位置大數(shù)據(jù)主要分為地理數(shù)據(jù)、軌跡數(shù)據(jù)、空間媒體數(shù)據(jù)。地理數(shù)據(jù),大家都很清楚,我不詳細(xì)講了,數(shù)據(jù)特點(diǎn)是體量大、比較規(guī)則化、變化緩慢,地理數(shù)據(jù)可以分為地圖數(shù)據(jù)、遙感數(shù)據(jù)、大地基準(zhǔn)數(shù)據(jù),全國1:5萬熟土數(shù)據(jù)量可以達(dá)到250GB,DOG有10TB,全國1:50萬DGG約5.3TB,DOG約350TB。遙感數(shù)據(jù),有光學(xué)影像數(shù)據(jù)、雷達(dá)激光掃描數(shù)據(jù)等等。大地基準(zhǔn)數(shù)據(jù),包括時(shí)間基準(zhǔn)數(shù)據(jù)、重力基準(zhǔn)數(shù)據(jù),如果我們國家將來要搞精確的重力場,我們國家中糧格網(wǎng)覆蓋網(wǎng)將達(dá)到1TB,各類重力衛(wèi)星數(shù)據(jù),全球性多重覆蓋??臻g基準(zhǔn)數(shù)據(jù)的規(guī)模,空間基準(zhǔn)數(shù)據(jù)視頻,GNSS一個(gè)基準(zhǔn)站1秒采樣率一天的數(shù)據(jù)大約是50-80MB,以全國3000個(gè)基準(zhǔn)站計(jì)算,則總數(shù)據(jù)規(guī)模為180GB-240GB。氣象模型參數(shù)數(shù)據(jù),電離層和大氣層參數(shù),全球性多重覆蓋。
第二類,位置數(shù)據(jù)里包含的第二類數(shù)據(jù)是軌跡數(shù)據(jù),通過GNSS、RFID等測量手段以及網(wǎng)絡(luò)簽到等方法獲得的用戶活動(dòng)數(shù)據(jù),包括個(gè)人軌跡數(shù)據(jù)、群體的軌跡數(shù)據(jù)、交通軌跡數(shù)據(jù)、物流數(shù)據(jù)等。特點(diǎn)是:數(shù)據(jù)體量大、信息碎片化、準(zhǔn)確性低??梢杂梦谋灸J矫枋?,有半結(jié)構(gòu)化的軌跡數(shù)據(jù),附帶其他的用戶信息和社會(huì)語義。
第三類,空間媒體數(shù)據(jù),以前不在我們的視野里,現(xiàn)在必須納入到我們的視野中來,而且現(xiàn)在很多單位已經(jīng)開始用了,包含空間位置與時(shí)間因標(biāo)記的數(shù)字化文字圖象圖形、聲音、視頻影響和動(dòng)畫等媒體數(shù)據(jù),主要來源于移動(dòng)社交網(wǎng)絡(luò)、微博、微信等新興互聯(lián)網(wǎng)應(yīng)用。數(shù)據(jù)來源混雜、非結(jié)構(gòu)化為主,數(shù)據(jù)異構(gòu)性大,實(shí)時(shí)性非常強(qiáng)。有通訊數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù),比如FACEBOOK注冊用戶超過10億。搜索引擎數(shù)據(jù),可以為地圖提供服務(wù),為2億多手機(jī)用戶提供地圖服務(wù),數(shù)據(jù)有不同的特性,測繪數(shù)據(jù)真實(shí)性比較好,是比較真實(shí)的,價(jià)值、速度方面也是不錯(cuò)的。
三、測繪與位置服務(wù)重大數(shù)據(jù)的問題和挑戰(zhàn)
測繪地理信息數(shù)據(jù)于那些行業(yè)或領(lǐng)域的數(shù)據(jù)密切關(guān)聯(lián),測繪與氣象、測繪與海洋、測繪與環(huán)境都有密切的關(guān)系,測繪與經(jīng)濟(jì)也有密切的關(guān)系,與交通流、與人流的關(guān)系,與物流、與信息流的關(guān)系,資金流,也是與時(shí)間有關(guān)的。測繪與經(jīng)濟(jì)、社會(huì)也有很多關(guān)系,比如感知疾病流行時(shí)空規(guī)律。
四、測繪與位置服務(wù)中的大數(shù)據(jù)應(yīng)用和機(jī)遇
五、測繪與位置服務(wù)中的大數(shù)據(jù)研究方法
六、思考與結(jié)語
位置服務(wù)需求進(jìn)入了環(huán)境認(rèn)知、個(gè)性需求、社群行為監(jiān)測分析、地理國情全面、實(shí)時(shí)、協(xié)同性和公眾監(jiān)測的新時(shí)代,也就是產(chǎn)生和使用大數(shù)據(jù)時(shí)代。地理國情泛指國家和公眾利益需求的地理要素的現(xiàn)狀、歷史、未來和變化發(fā)展趨勢。會(huì)推進(jìn)社會(huì)經(jīng)濟(jì)建設(shè)、政治建設(shè)。
由于時(shí)間關(guān)系,有些內(nèi)容講不了了,我就講到這兒。
謝謝大家!
(此為報(bào)告人現(xiàn)場發(fā)言速記記錄,未經(jīng)報(bào)告人本人審核。)
{{item.content}}