中國測繪地理信息學會2017年學術(shù)年會暨第十二次全國會員代表大會今日在南京舉辦。本次大會以“創(chuàng)新驅(qū)動,跨越發(fā)展”為主題,邀請測繪地理信息科技界專家、院士、學者齊聚一堂,呈現(xiàn)精彩特邀報告,并舉辦多個垂直領域分論壇。
會上,中國測繪地理信息學會副理事長、國際攝影測量與遙感協(xié)會第一副主席陳軍先生作了題為《互聯(lián)網(wǎng)+地球覆蓋協(xié)同驗證的技術(shù)進展與全球?qū)嵺`》的報告。
以下為演講內(nèi)容(內(nèi)容未經(jīng)本人核實):
陳軍:謝謝主持人的介紹,剛才四位院士都做了很精彩的報告,講的是非常宏觀的問題。我想跟大家交流一下地表覆蓋協(xié)同驗證的報告,我想說說什么是互聯(lián)網(wǎng)+地表覆蓋協(xié)同驗證,首先說地表覆蓋是反映我們地表物質(zhì)類型和自然屬性的定義,原來我們主要做的是地形,最近我們主要做的是地表覆蓋。地表覆蓋非常有用,比方說環(huán)境變化研究、碳排放測算,有非常多的用處。比方像我本人就做過一個全球30米地表覆蓋,做了十大類型,2000和20001年兩個年份,今年開始我們做2015版本,爭取做2020和2025版本,不斷地做全球分析。
我記得我們這個數(shù)據(jù)當時發(fā)布的時候,很多用戶,尤其是國外用戶來信就問,說你這個精度怎么樣?就是他需要了解這個產(chǎn)品的精度和不確定性,確定適不適合他的研究。從我們這個角度來講,我們也需要知道這個數(shù)據(jù)產(chǎn)品有沒有誤差,誤差來源是什么,改進我們的生產(chǎn)技術(shù)方法。因為地表覆蓋圖有很大的特點,如果能做到85%以上就很錯了,跟做地形圖不一樣。比方說我們做完以后,現(xiàn)在很多人給我們做全球驗證。比方說同濟大學做的一些工作,就是做全球的,還有希臘的、德國的、伊朗的、意大利都在國際雜志發(fā)表文章,對我們做的評價。其中有一個意大利的,他說他在意大利選擇八個區(qū)域,然后選擇當?shù)馗叻直媛实挠跋窕蛘呤歉叻直媛实牡乇砀采w做的驗證,總體是在80%以上,他們還做了第一次國家級的評價。有很多地方在做這個事情。
什么是地表覆蓋呢?就是根據(jù)統(tǒng)計學原理,在地面上布設若干有代表性的樣本點,采集能反映地面相對真摯的參考數(shù)據(jù),計算精度。你在地表上布點,原來是按傳統(tǒng)的統(tǒng)計學原理進行布點,采集樣本。再一個是樣本要檢核,再一個是驗證評價。
但是我們說小范圍的好處,你可以把數(shù)據(jù)下載以后拿其他東西都可以做,但是到了大范圍比較復雜,因為涉及因素多,技術(shù)復雜,還有專家參與難。你要組織全球驗證,你怎么把這些專家組織在一起。這里涉及三個問題,一個是樣本資源,由于全球景觀非常復雜,包括中國一個省要做驗證的話,全部跑到一起不可能。而且我們經(jīng)常是現(xiàn)成的樣本比較少。
第二個是驗證方法,大范圍樣本布設,往往缺乏適用方法?,F(xiàn)在還沒有地表覆蓋的驗證標準,連國家標準也沒有。另外一個是驗證工具,原來是單機的,怎么做到在線的。所以最近我們想在互聯(lián)網(wǎng)+上做驗證,同時做到協(xié)同驗證。
基本的一個思路是這樣的,就是把互聯(lián)網(wǎng)、服務計算這些東西跟地表覆蓋驗證的四個方式結(jié)合在一起,促成資源聯(lián)通,發(fā)展了服務計算,改變傳統(tǒng)處理與服務方式。因為服務計算有幾個主要的環(huán)節(jié),一個是服務的注冊到查詢和發(fā)布。這樣來支持我們樣本布設、采集和進行評價。
這個技術(shù)上本質(zhì)是什么呢?實際上是基于互聯(lián)網(wǎng)的領域服務計算,最近我讀了很多文獻,什么叫互聯(lián)網(wǎng)+。實際上是要做到兩個,一個是驗證的話驗證的這個模型是什么,是叫服務模型。原來是小范圍,現(xiàn)在全世界這么大你怎么做?有一套高效計算辦法。第三個就是要有一套動態(tài)服務技術(shù),包括處理構(gòu)建、資源匯聚。
這里面今天我不想講太多的,我就說一些我們最近的一些進展。主要我們做了一套在線樣本的布設和采集,一整套驗證的系統(tǒng)。最難的就是樣本布設,按照國際上的說法是有四項基本原則,一項基本原則是概率抽樣,不能你想抽什么地方就抽什么地方,你覺得這個好的地方你去抽,不好的地方不抽。要包括每個像元每個圖斑都有一定的概率被選。第二個要考慮空間的異質(zhì)性,如果我們選用比較簡單的地區(qū),或者異質(zhì)性弱的地區(qū),肯定這個樣本選擇多的話,肯定評價高。還有一個是稀少類,你不能把有的東西樣本太少,每一類都應該有樣本。再一個就是驗證成本。基本上是這四個基本原則。
理想狀況是這樣的,比如說這兩個區(qū)域,像江蘇平原地區(qū)都是耕地,樣本量少一點,30個樣本。這個地方比較復雜一點,有山區(qū),還有丘陵,所以我50個樣本,這是要分離的。
另外,不同的類都應該有一個樣本,這樣的話你可以算出總體的情況,然后布設空間,你不能都集中在一塊,應該各個地方都有樣本。但是實際情況不完全這樣,現(xiàn)在我們有很多抽樣方法,比較典型的是二級整群,還有分層隨機,實際上做下來還是有問題。比方說我把這三種方法,這個是二級整群、分層隨機,還有SWS抽樣。另外一個問題,就是稀少樣本量太少,你看這些就沒有樣本,還有像比較破碎地區(qū)實際上給的樣本很少,就是說原來的方法有問題,你把它放在互聯(lián)網(wǎng)上做出計算模型一算算出問題來。
所以說普通國際上認為抽樣難,沒辦法考慮地表覆蓋景觀空間的異質(zhì)性,無法保證區(qū)域樣本量合理、地類樣本量合格。問題是這是均質(zhì)區(qū)域,這是異質(zhì)區(qū)域,還有這一類是稀少類,這一類是均質(zhì)類,比方說這是沙漠。按理說異質(zhì)類越高的驗證區(qū)域樣本量應該越高,你做到不行。另外這是破碎地區(qū),這個地方樣本量應該大一點,結(jié)果你這里布的也一樣,也不對。
所以我們前段時間想了一個辦法,我們說這樣,我們首先來計算它的復雜程度,用景觀指數(shù)。是考慮每個景觀的邊長、面積來進行計算,這個就不說了。這是毛里塔尼亞均質(zhì),西班牙相對復雜一點,孟加拉更復雜。你看毛里塔尼亞是1.29,西班牙是2.68,西班牙是3.46,我們把這個細化出來,誰的更高一點我給更多一點樣本。
地類級也是一樣,草地4.9、裸地1.0,我也把它量化。再到每個空間抽樣單元,你看這是一個單元,這是一個單元,這個單元放大一點復雜一點5.8,這個單元1.0,我們把它進行量化。量化以后,現(xiàn)在干脆就這樣,我首先在整個區(qū)域上來計算它的樣本的總量,這個中間有一個抽樣的概念,因為不光是面積。這樣我就得到每個區(qū)域的樣本量,我對每個區(qū)域再按不同的地類算它的復雜程度,這樣可以替代一個重要的指標,地類方差,然后再得到地類樣本量均衡分配,這個區(qū)域45個,那個區(qū)域15個,然后再分配到每一類。再根據(jù)一個單元的景觀指數(shù),我把它分配到地類空間,這是一個基本的想法?,F(xiàn)在你要沒有定量的方法在互聯(lián)網(wǎng)上做沒辦法做到實時的操作,我們有樣本,是中國科學院發(fā)表的,大家可以去看。
這個景觀樣本量可以做到自適應計算,這是傳統(tǒng)的樣本量的計算方式,最后得到一個最后的結(jié)果,一個是這個區(qū)域面積,還有是景觀指數(shù)的復雜程度,這樣一算以后,你看原來兩個方法,這是隨機抽樣,你看樣本量、抽樣密度是一樣的。這個稍微好一點,SWS也有問題,你看孟加拉的密度最大,到了毛里塔尼亞最低。否則的話,你看毛里塔尼亞原本樣本量最多,孟加拉最少,但是現(xiàn)在孟加拉并不是最多,但是最合理。
然后用地類的指數(shù)來替代地類方差,一樣的道理。這樣算了以后,比方說像孟加拉原來是有2、4、1,就是地類特別少,一個類判斷對就對了,判斷錯了就錯了,那不行,總要有概率。我們剛才講的地類景觀指數(shù),每一個類基本上最少也得有30個,我全部是做的一套量化的方法。這樣的話,還有一個辦法,我怎么分配空間?我怎么算呢?我每個地域空間,每個單元可以算出景觀指數(shù),每一個值。把這個值在一條軸上按大小來排序,排完序以后分組,這是一組,這一組里面均質(zhì)性比較相近,不同的組均質(zhì)性差異比較大,每個組取一個,這樣的話每個單元選一個樣本,你要多了我可以再選。你看這就是毛里塔尼亞,原來的方法布點很不合理,用了景觀指數(shù)方法更加合理。
我們用了這樣的方法做了很多試驗,其中一個,我們就跟增值項比,我假設這是一種黑的顏色,我們用歐洲Corine數(shù)據(jù)增值,最后來進行判斷,不管是哪個指數(shù)紅色的表示這個方法是可行的。在互聯(lián)網(wǎng)上我們是這樣,做完以后,比方說你可以選擇在網(wǎng)上全部算完以后分布式服務,你可以調(diào)用一組數(shù)據(jù),也可以是你自己的數(shù)據(jù),也可以是我們的數(shù)據(jù)。你選擇任何一個國家,埃塞俄比亞,也可以在中國。他問你選擇什么模型,做完了以后你再選空間80%、90%,這都可以算出來,現(xiàn)在很多人在網(wǎng)上一操作就可以算出來,而且根據(jù)一定的規(guī)則量化。
第一個環(huán)節(jié)做完以后就好辦了,以前都是完全靠人的經(jīng)驗,不能做比樣。第二個就是核對,有這么多的樣本點了,怎么核對呢?網(wǎng)上有一套,右邊的可以選擇,這里面首先要有樣本資源,我們在這里面就集成了很多樣本資源,但是所有的樣本資源還有一套資料。比如說在30米的地方看到的小紅圈,到300米以上就不一樣,30米可以是森林,到300米以上也可以是森林,但也可以是其他的。我們做了一些方法,首先保證你能找到最好的數(shù)據(jù),通過3D匹配對JAVA腳本進行分析解讀,比如說在巴西一個地方,任意一個框有80多條發(fā)布的地表覆蓋或者跟地表覆蓋有關(guān)的東西,你就可以看是不是你所要的重要的參考數(shù)據(jù)。
在這個基礎上,我們還做了很多這個工作,就是判定。比方說這邊實際上就是地表覆蓋的實際參考影像,這是原始地表覆蓋的值,這是你判定的值,你看這三個是一致的,這三個是有差異。這三個是一致的,這三個有差異,因為不同的專家判斷是不一樣,我們找?guī)讉€專家來判斷。這是在盧旺達,驗證了以后在網(wǎng)上操作。
在判斷的時候有幾個原則,一個原則就是多數(shù)決定原則,然后是面積占優(yōu)原則,然后不同的人有不同的判斷方法??梢运愀鞣N各樣的精度,比如說面積加權(quán)的、加權(quán)Kappa的,像跟我一起來的加拿大的瑪麗亞教授做的,有很多很多的。這是精度評估,每一類有多少樣本點,43個、27個,總體算出來,它是1.85%,這是它的系數(shù)。這是在盧旺達的,做這些東西在網(wǎng)上全部自己來做。
為了支持這套服務,我們跟一個公司合作開辟了一套系統(tǒng),把它全部發(fā)布在網(wǎng)上,后面還可以建很多其他的服務,包括網(wǎng)上搜索的,包括Google的等等,我們提供所有基本驗證的功能,這樣用戶在網(wǎng)上調(diào)。像我們現(xiàn)在做的話,用戶把數(shù)據(jù)發(fā)給它,他們的數(shù)據(jù)全部在網(wǎng)上做。這里面有一個錄像,就不說了,時間比較緊,大家上網(wǎng)看看。
第三個,我們組織了全球驗證。原來我們中國要做事情,要找國外合作是非常困難的。有了這個東西以后,我們在國際對地觀測組織這個平臺上面發(fā)起了全球驗證,2015年的時候以GEO的秘書長發(fā)起世界各國組織一個驗證隊伍來進行全球驗證。有多少國家參加我們這個活動?大概有40個國家,11個國際組織參加了我們的活動,是不同渠道推薦來的。包括對地觀測組織、聯(lián)合國地理信息委員會等等組織。
我們這里首先組織了GlobeLand30驗證,采取三種辦法,一個是二級抽樣統(tǒng)計,用了景觀指數(shù)分析,還有一個是用了大數(shù)據(jù)的方法來做的。比方說對世界屋脊區(qū)域景觀指數(shù)分析,這是801個樣本點,這個是驗證的數(shù)據(jù),這個是精度結(jié)果。在非洲有10個國家參加我們這個驗證工作,包括博茨瓦納、納米比亞、盧旺達、坦桑尼亞等等,大體是這種情況。國內(nèi)幾家單位做的,包括遙感所、同濟大學等一起合作,選了159143個點,總體精度是83%。
這些做完以后我的體會是這樣的,就是把互聯(lián)網(wǎng)、服務計算等技術(shù)融于地表覆蓋驗證業(yè)務的話,首先改變了驗證業(yè)務模式。原來的參與主體是某一驗證機構(gòu)或者是某一個有條件有能力的,現(xiàn)在只要他能上互聯(lián)網(wǎng)他都能做這件事情。另外協(xié)同方式不一樣了,他做完東西就直接放在機子里面來了,他做完的東西我們還可以請另外一個人去做檢核,就等于現(xiàn)在資源完全是打通的,整個是協(xié)同模式。
第二個,促進了驗證資源聯(lián)通,所有的資源大家都可以共享,都可以高效使用。另外,提高驗證工作效率,不管是樣本布設、采集、比對和精度評價,都能夠在互聯(lián)網(wǎng)下進行。
我的體會,因為原來有很多年做地理信息系統(tǒng),也做遙感,后來我的感覺通過這套東西,互聯(lián)網(wǎng)、服務計算就完全可以把我們的工作結(jié)合在一起,不再是孤立的工作。
通過這件實踐對我的啟示,因為我們經(jīng)常講互聯(lián)網(wǎng)+測繪地理信息,我的體會如果我們要想發(fā)展這個東西,后面還要一些支撐的理論和技術(shù),其中有一個就是領域的服務計算。這個領域服務計算里面包括三個東西,一個是理論服務模型,要歸納出東西,就像共享單車一樣的,一定有共性服務功能。另外一個是要有一套在線計算方法,要能夠非??旆浅1憬莸貙嵤┧?。第三個,要有一套動態(tài)服務技術(shù),包括處理構(gòu)建、資源匯聚。今天因為時間關(guān)系沒有詳細展開來說。
但是總的來說,我們的發(fā)展趨勢是要走向互聯(lián)網(wǎng)+測繪地理信息。特別我現(xiàn)在做全球的東西,你不可能全球到處跑,你首先要依靠各方面的資源。但是在這里面就要有先進的工具,要有先進的工具就有要理論方法。最近我寫了一篇文章就講《全球地表覆蓋領域服務計算》,我的一些體會,大家如果有興趣可以看看這些東西。
謝謝各位!
{{item.content}}