777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

2025全球時空智能大會
5月21-22日 北京
開幕在即!WGDC25全球時空智能大會完整日程公布
即刻注冊  鎖定席位
分享
Scan me 分享到微信

極海高楠:玩轉(zhuǎn)地理大數(shù)據(jù),發(fā)掘更多地理價值

首先我們找到一個非常傳統(tǒng)的問題,針對這個傳統(tǒng)問題我們?nèi)フ腋魇礁鳂拥牡乩淼臄?shù)據(jù),我們把這些所有的地理數(shù)據(jù)變得值得讓人信賴,然后把所有的數(shù)據(jù)通過各種技術(shù)手段把他們整合在一起。

  2017年 6月13日,由泰伯網(wǎng)主辦、主題為“空間大數(shù)據(jù)的崛起”的WGDC2017,在北京國家會議中心盛大開幕。大會由空間信息產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)服務(wù)平臺泰伯主辦,秉承不斷引領(lǐng)和促進(jìn)空間信息技術(shù)創(chuàng)新與變革的宗旨,WGDC已走過六個年頭,如今成為全球最具前瞻性的跨界創(chuàng)新風(fēng)向標(biāo)。

  14日,空間大數(shù)據(jù)+人工智能峰會(極??v橫專場)開幕。峰會上,來自GeoHey·極海的數(shù)據(jù)總監(jiān)高楠發(fā)表了以“玩轉(zhuǎn)地理大數(shù)據(jù),發(fā)掘更多地理價值”為題的精彩演講。以下為演講實(shí)錄(未經(jīng)本人核實(shí)):

  高楠:大家上午好!我是極海數(shù)據(jù)總監(jiān)高楠,我一直致力于為用戶提供地理大數(shù)據(jù),幫助大家獲取地理大數(shù)據(jù),治理地理大數(shù)據(jù),并從地理大數(shù)據(jù)中獲取地理價值,并同中獲益。

  今天我將從5個方面為大家講述如何玩轉(zhuǎn)地理大數(shù)據(jù),如何從地理大數(shù)據(jù)中獲取我們的大數(shù)據(jù)價值。接下來30分鐘我將為大家講述如何玩轉(zhuǎn)地理大數(shù)據(jù),如何將地理大數(shù)據(jù)最終變?yōu)榻^妙的地理價值。這里總共會涉及到5個基本的問題,傳統(tǒng)的問題,搜集數(shù)據(jù),提高數(shù)據(jù)質(zhì)量等等。在這個里面我們知道一個很好的概念,最近半年一直在講一個話題叫做新零售,新零售是當(dāng)下比較火熱的一個概念。時常聽到很多業(yè)界的人士在談?wù)?,總之我們的新零售就是要做好線下的生意。我發(fā)現(xiàn)有一套書特別好,叫做《新零售三部曲》,其中有一個書名道出了我的心聲,強(qiáng)調(diào)地理的意義,地理的意義何在呢?接下來我們就來看這些地理上的意義。這里講的第一個例子,一個傳統(tǒng)的廣告營銷的例子。在這個里面,有四幅圖,大家一定不陌生。我們?nèi)缃袼械娜硕荚谟弥悄苁謾C(jī)。我們可以說是機(jī)不離手,手在機(jī)在,這里的四幅圖一定不陌生,尤其是高亮的部分,高亮的部分是廣告,我們幾乎所有的APP里面都會有廣告的存在,只是唯一的不同是什么,你看到的廣告和我看到的廣告不一樣。這些廣告是怎么來的呢?我們知道傳統(tǒng)的做法,所有的廣告是跟我最近在網(wǎng)上瀏覽的數(shù)據(jù)相關(guān)。所以在這里可以看到,我最近瀏覽了有些汽車評測的視頻和網(wǎng)站,在此他會推薦我汽車相關(guān)的廣告,暗示我可能需要買一輛汽車,這樣的數(shù)據(jù),通過線上數(shù)據(jù)分析,跟我是極大相關(guān)。但我不會打開它,因?yàn)樗覍?shí)在不相關(guān)。為什么這么說?

  如果我們的廣告商,他已經(jīng)獲取了,他看一看我打開APP的位置,我經(jīng)常打開的APP的位置,他會發(fā)現(xiàn)我的位置實(shí)際上是離的很近的,我經(jīng)常打開APP的地方是在家里打開,有時候在公司打開APP。如果它查看一些我的APP的位置的話會發(fā)現(xiàn)我家的位置和公司的位置只有三公里,我每天上下班只需要騎自行車就好了,如果他推薦一個自行車的廣告,我一定會欣然打開,但并沒有。我再舉一個簡單的例子如果我們要投放廣告,我要給大學(xué)生投放廣告,我能不能針對玩王者榮耀的人投放廣告呢?顯然不行。我能不能給用玩王者榮耀的人,同時用大學(xué)生借貸,并且交了課程表的APP的人投放廣告呢?似乎是一個不錯的邏輯,如果你要做這樣的事情,你還要給數(shù)百上千的APP定義哪些APP是大學(xué)生會用的。如果在新出現(xiàn)一款新的軟件,你又得去定義這款軟件是不是大學(xué)生會用的軟件,你可以想象這是非常巨大的工作量。

  我們用一個簡單的辦法,就是看大學(xué)生所有的APP,我們用個簡單的辦法,既然你在投放廣告的時候你的APP每打開一次就搜集一次我們的位置,就像這個圖象一樣,每一個黑點(diǎn)都是我們的一個位置,你為什么就不能做一個簡單的事情直接找一找哪些在學(xué)校里面經(jīng)常打開APP的人呢?這不是很簡單嗎,你不需要關(guān)注他用什么APP,我只要知道在這些范圍里面經(jīng)常打開APP就好了,我給這個區(qū)域里面的人投放廣告就可以了,免去前面的煩瑣的事情。

  所以第一個問題,學(xué)校數(shù)據(jù)從哪兒來?我們不僅僅只是需要一個學(xué)校的數(shù)據(jù),我們還需要用小區(qū)的數(shù)據(jù),我們還要醫(yī)院的數(shù)據(jù),公交的數(shù)據(jù),商場的數(shù)據(jù),籠統(tǒng)的說,我們需要數(shù)百上千的數(shù)據(jù)。

  這是一件非常痛苦的事情,這個過程到底艱難在哪里?我們在以往做數(shù)據(jù)的過程中最大的困難是我沒有數(shù)據(jù),數(shù)據(jù)匱乏。那如今物聯(lián)網(wǎng),互聯(lián)網(wǎng),數(shù)據(jù)已經(jīng)非常之多了,你可能會想到,我們就去搜集物聯(lián)網(wǎng)的數(shù)據(jù),但是你去實(shí)際操作的時候你仍然會發(fā)現(xiàn)力不從心,為什么?數(shù)據(jù)越來越多,增長的速度越來越快。這就是問題的根本,數(shù)據(jù)太大了。

  現(xiàn)在TB級的數(shù)據(jù)隨處可見,你隨便拿到的都是數(shù)百萬,甚至上億級的數(shù)據(jù),我們用傳統(tǒng)的辦法已經(jīng)非常難去解決這樣的事情。我們可以想到,既然這樣的話我一定要借助機(jī)器的力量,我用機(jī)器來解決這樣的事情。如果用機(jī)器去解決,你一定會想到我們應(yīng)該用爬蟲的技術(shù)做這樣的事情。你有沒有想過你去做這樣的事情的時候,如果我們能夠保證我們的機(jī)器的運(yùn)轉(zhuǎn)在90分高分上運(yùn)算,意味著我每十只爬蟲有一只會出錯。假設(shè)我一個月要采集一百份數(shù)據(jù),那我要花十天采集所有的數(shù)據(jù),每個月都要更新,結(jié)果是什么?每個月你有一半的時間要去審視那些錯誤的數(shù)據(jù),錯誤的爬蟲,因?yàn)槊刻煲幚硪粋€,你總共要處理十天。所以這個是很困難的事情。

  為此我們搭建了一套系統(tǒng)來做這件事情,我們定期更新這些數(shù)據(jù),當(dāng)然這些數(shù)據(jù),我們現(xiàn)在做的也比較完善一些。效果還不錯。我搜集了非常大的數(shù)據(jù),如果你像我一樣,你也搜集了那么多一籮筐數(shù)據(jù)的時候,你一定發(fā)現(xiàn)一個什么事情。這些數(shù)據(jù)里面好像有一些不太對勁的問題。有些特別特殊的現(xiàn)象,我們來看看這里有什么現(xiàn)象?這里有三個場景,都是跟我們的位置相關(guān)的。第一個場景,特別有意思,不管采集也好,從物聯(lián)網(wǎng)傳感器也好,或者不知道從哪兒來的數(shù)據(jù),中南海里面的數(shù)據(jù)非常豐富,有4S店有小吃,各種餐飲餐館全都在里面,特別好玩。但是顯然是不可能的。中間這個地方可以看到,藍(lán)色區(qū)域是我們一個比較正常的區(qū)域,我用粉紅線畫出來的區(qū)域你會發(fā)現(xiàn)好像是有點(diǎn)像,有兩個數(shù)據(jù)似乎可以疊在一起,但是他們分成兩塊,這樣的數(shù)據(jù)似乎受到了某種不可描述的感染。

  第三個事情我是一個自行車的愛好者,我去找一家復(fù)古的自行車看一些零配件,我辛辛苦苦跑了很遠(yuǎn)找到這個地方,發(fā)現(xiàn)這個店真的已經(jīng)成為永久不存在的一個店,已經(jīng)搬遷了。所以我們在上網(wǎng)查詢這些數(shù)據(jù)的時候發(fā)現(xiàn),這樣的數(shù)據(jù)不值得信任,它不值得我去使用。如果我用這樣的信息做分析的話,肯定很難保證我們分析的一些質(zhì)量。

  所以說,為了解決位置上出現(xiàn)的問題,我們做了一系列的流程,做了非常多的工作,來解決這樣的問題。我們所有的數(shù)據(jù)進(jìn)來,我們都會做一系列的規(guī)則上的過濾,還有技術(shù)上的處理。比如說有的數(shù)據(jù)在水面上,水上肯定不會有數(shù)據(jù),除非它是跟水有關(guān)的數(shù)據(jù),有些數(shù)據(jù)可能過期了,有些數(shù)據(jù)加密混淆,還有些數(shù)據(jù)根本不在地球上,還有的數(shù)據(jù)各種各樣的坐標(biāo)系。大家一定遇到有些數(shù)據(jù)可能直接給個坐標(biāo),就是00原點(diǎn),在大海中央,這樣的數(shù)據(jù)我們都需要過濾。這只是把位置的問題解決了一部分,還有一部分問題,我們非常非常的意外和驚喜。

  如果有一個人跟你說這樣的事情,告訴你,兩居的房租下來人均10萬,最近的房價不行了,有一個新房,待定,如果經(jīng)常有一個人跟你描述這件事情你會覺得這個人極度的不可信,他描述的事情可能是有問題的,這樣的事情不是天方夜譚。

  大家看,我剛才上面說的三個例子,是真實(shí)存在的。前面一個就是我們說的10萬塊錢的小吃,你去看評論,實(shí)際上是9塊9,但是后面的評論說沒想到10萬塊錢可以吃這么好的。反而,還有人調(diào)侃給了五星,價格相對優(yōu)惠,可以去嘗試一下,特別特別的調(diào)侃。還有中間說的另外兩種情況,這樣的數(shù)據(jù)我們不能說它是一個錯誤的數(shù)據(jù),數(shù)據(jù)是沒有對錯的。如果你去餐館吃飯,給個五星,他送你一瓶可樂不是很正常的事情嗎,快遞小哥給你送外賣,求你給個五星,你也就給了他,也沒什么問題。這些數(shù)據(jù)是真真實(shí)實(shí)存在的,只是你不信賴用自己的數(shù)據(jù)去出的決策。數(shù)據(jù)一定要記住,沒有對錯,只是數(shù)據(jù)值不值得我們信任。如果我們能想到一種辦法,把這樣的數(shù)據(jù),把里面可信賴的部分篩選出來,我們用值得信賴的那部分做出來的決策,是不是有極大可能就是我們可以信賴的一種結(jié)果。

  所以說,在這里,我們會引入一種方法,叫做機(jī)器學(xué)習(xí)來解決這樣的問題。為什么要用機(jī)器學(xué)習(xí)?我前面已經(jīng)提到過了,在大數(shù)據(jù)時代,任何一點(diǎn)微小的問題都會放的很大。你可以想象,剛才我們所舉到的那幾個例子,我可以用一些規(guī)則篩選到那些價格奇高的小吃,我們也可以篩選到一些加一些規(guī)則,把那些不太合理的房價給它篩選出去。如果用這樣的方法你可以想,全國三百多個城市,每一個城市你都要設(shè)置一個房價規(guī)則的話,那剩下還有幾百個數(shù)據(jù)等著你去設(shè)置,這樣的話你基本上是沒辦法完成這樣的工作的。我們用機(jī)器學(xué)習(xí)的辦法,是怎么個原理呢?這里有一組表情,我們要做的事情就是把表情給它分成三類,高興、不高興,還有不知道是什么表情。我們從中選取一些我們認(rèn)為的一些我們叫訓(xùn)練數(shù)據(jù)也好,樣本也好,找出一些樣本表情來,我們?nèi)シ治觯恳粋€表情,一共有五種特征,叫做腦袋、顏色、眼睛、眉毛、嘴巴,總共5種特征,我們把這些所有的特征,把這些所有的樣本的數(shù)據(jù)放到我們的機(jī)器中去訓(xùn)練,機(jī)器會把這5種特征轉(zhuǎn)換為機(jī)器所認(rèn)識的語言,這樣的結(jié)果,我們稱之為模型。

  用這樣的模型可以做什么呢?當(dāng)新來一個表情的時候,我們把這樣的表情放到模型中,機(jī)器會分析它的5種基本的特征,是不是小方的腦袋,是不是嘴角上揚(yáng),是不是還有點(diǎn)眉飛色舞,如果是這樣的話它是一個開心的表情。同樣的我們可以想像,這5種要素中,如果缺少一個,比如說缺少了嘴巴,我們找到了一個表情是小方綠腦袋,并且它是眉飛色舞,沒有嘴巴,這時候我們的模型可以對它判斷,最大可能認(rèn)為它是一個笑臉,因?yàn)槎鄶?shù)笑臉都是方綠腦袋,并且眉飛色舞,我們可以把所有的數(shù)據(jù)看作一個表情,這樣我們可以找出來哪些是別墅,哪些是小區(qū),哪些是高檔小區(qū),哪些是低檔小區(qū)。我們甚至可以做一些復(fù)雜的事情,有卡迪爾和勞力士的商場可能就是一個高端地段的豪華商場。

  我們說下面的事情,剛才我說了有卡迪爾,有勞力士,有商圈,有地段。這個里面涉及到了非常多的數(shù)據(jù),至少有三種,有品牌的數(shù)據(jù),商場的數(shù)據(jù),還有商圈的數(shù)據(jù),如果我們要對剛才的事情進(jìn)行分析,要三個數(shù)據(jù)結(jié)合到一起進(jìn)行分析,所以說我們在這里要說一個問題,如果去把所有的數(shù)據(jù)結(jié)合在一起來使用?首先要想一個場景可能是大家經(jīng)常遇到的,我們有數(shù)百種數(shù)據(jù),如果像左邊這樣沒有任何的關(guān)聯(lián),你在使用數(shù)據(jù)的時候,其實(shí)相當(dāng)于把一份數(shù)據(jù)重復(fù)使用了一百遍。就像這里剛才說的那幾樣場景,一份數(shù)據(jù)如果之間沒有關(guān)聯(lián),你做交通智能分析交通的事兒,你做房產(chǎn)只能分析房產(chǎn)的事兒,你做購物只能分析購物的事兒,你沒辦法分析更復(fù)雜的事。在這里如果你要分析一些比較復(fù)雜的問題,你需要把數(shù)據(jù)全部結(jié)合在一起。但是你分析的問題,能夠分析多復(fù)雜的問題,這完全取決于你能把你的數(shù)據(jù)結(jié)合到什么樣子。

  在這里給大家看一個問題,我們剛才說了,這里有幾份數(shù)據(jù),比如說有道路的數(shù)據(jù),有公司企業(yè)的數(shù)據(jù),有商圈的數(shù)據(jù),有寫字樓的數(shù)據(jù)。我們實(shí)際上做的就是把這些數(shù)據(jù)全部給它聯(lián)系在一起,到底是什么樣的數(shù)據(jù)可以把所有的東西聯(lián)系在一起呢,思來想去,只有位置。我們來舉個例子,北四環(huán)來上面有什么呢?千鶴家園、盤古大廈、五礦大廈,北四環(huán)路在亞運(yùn)村,GeoHey在千鶴家園,我們可以用地理上的觀點(diǎn)把它聯(lián)系在一起,這樣的事情有什么意義,很多人覺得很正常,這就是關(guān)聯(lián)。把剛才的事情詳細(xì)說,如果你要做今天這么一件事情,叫做我要找亞運(yùn)村,亞運(yùn)村里面所有的北四環(huán)路上所有的IT公司,并且IT公司他的租金是5塊錢以下,并且它還是一個商務(wù)樓。聽明白了嗎?如果我的問題要找亞運(yùn)村里面所有北四環(huán)路上的所有的IT公司,并且他在商務(wù)樓里面辦公,商務(wù)樓在5塊錢以下,只有用這樣的方法才能把這件事做出來,如果不用這樣的方法,很多人開始做各種各樣的操作。那將會是一件不可想象的事情,這只是關(guān)聯(lián)四種數(shù)據(jù),如果關(guān)聯(lián)更多的數(shù)據(jù)呢?如果每一樣都要做空間關(guān)聯(lián)的話這是非常痛苦的事情。

  現(xiàn)在這樣的事情我們再來看,這是我們公司的一個地址,這個最后要怎么用呢?我們公司地址一般來說北四環(huán)東路,108號院1號樓2003室,我想把所有的數(shù)據(jù)都關(guān)聯(lián)到我們公司上,怎么做?就往上加,我們可以把我們公司的地址完全的填出來,大概有十幾項(xiàng)信息,意味著什么?意味著十幾項(xiàng)數(shù)據(jù)。我把商圈跟我們公司關(guān)聯(lián)上了,如果我要把道路數(shù)據(jù),我想知道我們公司附近的道路是不是擁堵,我把道路的數(shù)據(jù)關(guān)聯(lián)上了,我想知道我們公司的小區(qū)是什么樣的小區(qū),我把住宅小區(qū)關(guān)聯(lián)上了,也可以用這樣的方法,全部關(guān)聯(lián)上。用位置的方法可以把所有的信息所有的數(shù)據(jù)關(guān)聯(lián)起來。細(xì)心的同學(xué)一定發(fā)現(xiàn)這個里面比較要命的問題,我怎么能保證所有的地址描述都是標(biāo)準(zhǔn)唯一的呢?比如說在這里,清華就是清華大學(xué),帝都就是北京,我們平時說三里屯酒吧,其實(shí)就是指的南三里屯路。說GeoHey就是北京極??v橫信息技術(shù)有限公司。 首先我們想一個問題,地址的變化雖然很多端,但是變化再多,其實(shí)就像我剛才說的那幅圖里面一樣,地址的描述方式就只有那么十幾二十種,為什么不可以把這些地址的描述都給它看成是一種表情的特征?我們把數(shù)據(jù)里面找出這些我們覺得相對描述比較準(zhǔn)確的表情拿出來作為我們的訓(xùn)練樣本對它進(jìn)行訓(xùn)練,訓(xùn)練的結(jié)果我們再來預(yù)測,再來找我們的數(shù)據(jù)里面哪些地址寫的不是那么的好看,有點(diǎn)擠眉弄眼,把那些擠眉弄眼的數(shù)據(jù)糾正回來,弄成眉飛色舞的數(shù)據(jù)就實(shí)現(xiàn)了。在這里我們繼續(xù)用機(jī)器學(xué)習(xí)做這件事情。

  所有的問題我們再回歸一下,我們剛才一開始的時候說的是,我們要投放廣告的事情。我們要把廣告最終要投放給大學(xué)生,我們前面做了那么多花哨的工作,做了數(shù)據(jù)關(guān)聯(lián),做了數(shù)據(jù)的數(shù)據(jù),最后我們一定要把所有的數(shù)據(jù)要用起來,要用到投放到大學(xué)生這件事情上,大家最關(guān)心的其實(shí)就是我們用地理大數(shù)據(jù),最后能不能找到各自關(guān)心的人群,能為我們做出一些決策上的支持。所以說在這里我們要想怎么能回歸到人群中去?雖然我們一直在做的事情是地理數(shù)據(jù),但是你有沒有想過所有的地理數(shù)據(jù)都是由在座的所有人創(chuàng)造出來的,怎么說呢?

  舉個例子。我家樓下一共有兩家理發(fā)店,我非常的好奇為什么有理發(fā)店,因?yàn)橛欣戆l(fā)所以有理發(fā)店,為什么要理發(fā)?因?yàn)槲疑习嗟臅r候不會理發(fā),就下班的時候理,如果這里住很多人意味著理發(fā)店周邊有居民樓,一定不是寫字樓。反過來想,如果有兩家的理發(fā)店,為什么會有兩家理發(fā)店?如果一家理發(fā)店他的生存的成本是一千元的話,那么我們可以估計(jì),如果他們一般說來,十分之一的人會去理發(fā),如果這樣的話基本上可以算出來,根據(jù)兩家理發(fā)店可以算出來這里至少有兩百人,一家理發(fā)店的生存成本是一千元,有十分之一的人理發(fā),這樣保證兩家理發(fā)店生活下去生存成本是兩千塊,十分之一的人理發(fā),結(jié)果可以算出,這地最少需要兩百個人理發(fā)。所以我們可以推算一下這里的小區(qū),可能大概會有兩千個人。這是我們只是算了一個理發(fā)店,那么蛋糕店是不是這樣,商場是不是這樣,快餐店是不是這樣?如果你可以把所有的地物都給它算一遍,我們是不是基本上可以推算這個區(qū)域至少有多少人。所以用這樣的方法我們把所有的事情關(guān)聯(lián)了。

  我們還做了類似的事情,我們會延伸一些數(shù)據(jù),我們可以算一算所有的寫字樓里面的人一般都在哪里,哪些商場里面購物。比如我們算一算有一些電影院,電影院吸引的人群在哪些小區(qū)。如果是這樣的數(shù)據(jù)已經(jīng)做出來直接使用的話發(fā)現(xiàn)我們要做投放廣告,這件事情會變得如此的簡單,如此的容易。最后我想強(qiáng)調(diào)一件事情我們做所有的事情一定要獲得地理大數(shù)據(jù)的價值,從前面講的所有的東西我們可以看到,我們做這件事情如果缺少可靠的數(shù)據(jù),所有科學(xué)的辯駁都會是無源之水,無本之木,如果我們要避免這樣的事情,就是前面講的5個方面。

  首先我們找到一個非常傳統(tǒng)的問題,針對這個傳統(tǒng)問題我們?nèi)フ腋魇礁鳂拥牡乩淼臄?shù)據(jù),我們把這些所有的地理數(shù)據(jù)變得值得讓人信賴,然后把所有的數(shù)據(jù)通過各種技術(shù)手段把他們整合在一起,最后我們要把所有的數(shù)據(jù)給它延伸到我們的個人,讓我們的個人從中能夠受益。謝謝大家!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦