2017年11月9日,中國測繪地理信息學(xué)會學(xué)術(shù)年會在南京盛大舉行。我在主題大會的報(bào)告題目是《全面擁抱大數(shù)據(jù)的GIS基礎(chǔ)軟件技術(shù)》,這是2017 GIS軟件技術(shù)大會報(bào)告《當(dāng)GIS擁抱大數(shù)據(jù)》(←點(diǎn)擊藍(lán)色文字可直接查看)的精簡升級版,內(nèi)容和結(jié)構(gòu)均有更新。
第二天早飯時遇到美國科學(xué)院地理信息科學(xué)院士Michael F. Goodchild教授,他贊賞SuperMap的技術(shù)成就,但感覺我講得太快。
非常對不住大家,前面的大會報(bào)告非常精彩,議程有所推遲,我是最后一個報(bào)告,為了不耽誤大家吃晚餐,所以講得很快。
為了彌補(bǔ)這一遺憾,也為方便沒到現(xiàn)場的朋友們一起交流討論,特為每頁P(yáng)PT配了演講文字。分享給大家,請朋友們指正。
(本文6800余字,75張PPT配圖,閱讀約需30分鐘)
今天幾位院士和專家做了非常精彩的報(bào)告,其中有不少提到了人工智能,提到了深度學(xué)習(xí)。接下來我今天的報(bào)告是跟大家講一個似乎有點(diǎn)“out”的技術(shù)——大數(shù)據(jù)。
為什么說大數(shù)據(jù)有點(diǎn)“out”?我們看一個工具,Gartner經(jīng)常會用這個光環(huán)曲線來觀察新技術(shù)發(fā)展所處在的階段。這是我繪制的2017年GIS技術(shù)光環(huán)曲線,三維GIS已經(jīng)在復(fù)蘇期,下一步將進(jìn)入成熟應(yīng)用,云GIS也緊跟其后進(jìn)入復(fù)蘇階段,而我們今天講的大數(shù)據(jù)GIS正在進(jìn)入低谷期,所以我說它有點(diǎn)過時,就是說它已經(jīng)過了最熱的時候。
IT領(lǐng)域的人工智能已經(jīng)在過熱期,也就是概念炒作頂峰,但是GIS的人工智能剛剛開始萌芽,可能在未來一到兩年會進(jìn)入探索的熱潮。
回到空間大數(shù)據(jù),我們先來談?wù)剬臻g大數(shù)據(jù)的一些思考。
首先,海量空間數(shù)據(jù)并不等于空間大數(shù)據(jù)。因?yàn)榇髷?shù)據(jù)的大,不僅僅意味著數(shù)據(jù)量大。
最近又產(chǎn)生一個新的問題,對于已有的海量的經(jīng)典空間數(shù)據(jù),用一些IT大數(shù)據(jù)相關(guān)的技術(shù),如分布式存儲、分布式計(jì)算框架來管理、處理和分析,這些數(shù)據(jù)是不是就變成大數(shù)據(jù)了?
我認(rèn)為也不是。即使用大數(shù)IT據(jù)的技術(shù)去管理它們,但是這些數(shù)據(jù)的本身性質(zhì)還沒有改變,它們還是經(jīng)典空間數(shù)據(jù)。
為什么這么說?我們來看看大數(shù)據(jù)的幾個特征,來自IBM的說法有五個V,我這里引用其中四個:第一個是體量大,第二個是種類多,第三個是變化快,第四個是價(jià)值密度低。體量大、變化快意味著需要更快的軟件處理性能,種類多意味還要去擴(kuò)展開發(fā)更多的模型,而價(jià)值密度低意味著什么?
價(jià)值密度低意味著大數(shù)據(jù)是貧礦,也就是單位體諒的礦石能提煉的有價(jià)值物質(zhì)少。貧礦就意味著冶煉的難度大,計(jì)算量大,這是大數(shù)據(jù)很重要的一個特性。
地礦領(lǐng)域通常用貧礦和富礦來表述礦物品位的高低, 如在金礦品位定級中,富礦每噸含有5-50克黃金,高于50克為特富礦,低于5克為貧礦,含量低于0.3克的金礦,就沒有開采價(jià)值。
人家都講大數(shù)據(jù)有價(jià)值,你這里說它是貧礦,貧礦有挖掘價(jià)值嗎?
我認(rèn)為,數(shù)據(jù)的價(jià)值=體量×價(jià)值密度-挖掘分析的成本,從公式可以開出,如果說數(shù)據(jù)的體量足夠大,如果說技術(shù)足夠先進(jìn)降低了挖掘分析的成本,數(shù)據(jù)就能發(fā)揮價(jià)值。
對于傳統(tǒng)的數(shù)據(jù)分析技術(shù)而言,大數(shù)據(jù)是無法有效提煉有價(jià)值信息的貧礦。不過,是否有開采價(jià)值很大程度取決于技術(shù)手段,技術(shù)提高了,以前無法冶煉的貧礦也能提煉出有價(jià)值的物質(zhì)。
所以大數(shù)據(jù)核心的價(jià)值在于計(jì)算,在于挖掘分析的工具和方法。
我們從IT的另外一個工具DIKW金字塔來看看空間大數(shù)據(jù)。這個模型里數(shù)據(jù)是最底層的,是記錄世界的原始素材;第二層為信息,是加工處理后得到的有邏輯的數(shù)據(jù);第三層為知識,是經(jīng)過組織化的信息;最頂層為智慧,是知識經(jīng)過應(yīng)用之后得到的,可以用于預(yù)測未來。
在這個金字塔里,空間大數(shù)據(jù)在哪里?是位于最基層的原始素材,是數(shù)據(jù);而我們現(xiàn)有測繪4D產(chǎn)品是信息,是從原始數(shù)據(jù)當(dāng)中提煉出來的有邏輯的數(shù)據(jù)。
大數(shù)據(jù)挖掘的實(shí)質(zhì)就是從數(shù)據(jù)里面提煉信息和知識的過程,也就是把它從DIKW金字塔底層往上提升的過程。
所以我們千萬不要把已有的經(jīng)典的空間數(shù)據(jù)庫貼上大數(shù)據(jù)的標(biāo)簽,因?yàn)檫@樣做一點(diǎn)不增值,反而低估了這些信息的價(jià)值。
參考一下對大數(shù)據(jù)的定義,我們也可以定義一下空間大數(shù)據(jù),它是帶有或者隱含有空間位置的,具有體量大、變化快、種類多和價(jià)值密度低這四個特點(diǎn)的,常規(guī)的軟件工具無法處理的,需要更先進(jìn)的技術(shù)才能夠讓它具有更強(qiáng)的決策力、洞察力、流程優(yōu)化能力的數(shù)字資產(chǎn)。
哪些數(shù)據(jù)屬于空間大數(shù)據(jù)?比如手機(jī)信令數(shù)據(jù)、導(dǎo)航軌跡、車船位置、社交媒體,搜索引擎關(guān)鍵詞、電商交易記錄、公交卡刷卡記錄和水電表數(shù)據(jù)等等,這些都是空間大數(shù)據(jù)。
其中,每發(fā)一條微博和微信,后臺服務(wù)器都知道我們大致的位置;我們在百度搜索里面搜索關(guān)鍵詞,后臺也知道這個關(guān)鍵詞請求是在什么位置發(fā)生的,這些都隱含了空間位置,所以都可以歸入空間大數(shù)據(jù)范疇。
要實(shí)現(xiàn)空間大數(shù)據(jù)的價(jià)值,僅僅有空間大數(shù)據(jù)還不夠,還需要有相應(yīng)的GIS軟件工具,還需要相應(yīng)的分析模型。只有這三個結(jié)合起來,才能夠讓大數(shù)據(jù)產(chǎn)生價(jià)值。
大數(shù)據(jù)GIS軟件的意義何在?在于兩個方面:
一是大數(shù)據(jù)GIS軟件可以降低大家挖掘大數(shù)據(jù)的技術(shù)門檻。在此之前能夠挖掘空間大數(shù)據(jù)的單位都是什么?百度、高德、騰訊和其他一些研發(fā)實(shí)力很強(qiáng)的科研機(jī)構(gòu)??偟膩碚f,空間大數(shù)據(jù)的挖掘還是局限于少數(shù)企業(yè)和研究機(jī)構(gòu),更多單位無法參與,所以我們就需要研究這樣的工具軟件,把與空間大數(shù)據(jù)相關(guān)的通用的算法和功能都封裝出來,讓更多的單位可以參與大數(shù)據(jù)的淘金。
二是可以降低空間大數(shù)據(jù)挖掘的成本。剛才講數(shù)據(jù)價(jià)值的公式后面減掉的是成本,成本越低價(jià)值就越大。大數(shù)據(jù)GIS基礎(chǔ)軟件可以讓大家不用從IT大數(shù)據(jù)的基礎(chǔ)層開始做大量二次開發(fā),避免底層的重復(fù)勞動,降低大數(shù)據(jù)挖掘的成本。
2017年8月,超圖提出了全面擁抱大數(shù)據(jù)的GIS技術(shù)體系。這個體系里有兩根重要的柱子:一個是空間大數(shù)據(jù)技術(shù),專門針對空間大數(shù)據(jù);另外一個是傳統(tǒng)GIS功能的分布式重構(gòu),針對經(jīng)典空間數(shù)據(jù)。同時還需要兩個支撐的技術(shù),一個是云GIS技術(shù),另一個是跨平臺GIS技術(shù)。
我們先介紹兩個支撐技術(shù)。
云計(jì)算作為計(jì)算資源層,可以支撐上面大數(shù)據(jù)的處理,沒有云計(jì)算的大數(shù)據(jù)是空中樓閣。因此,云GIS也就是大數(shù)據(jù)GIS支撐技術(shù)。
云GIS技術(shù)可以歸納為4+2,即四大服務(wù)器軟件,和兩項(xiàng)技術(shù)。
另一個支撐技術(shù)是跨平臺GIS技術(shù)。
IT大數(shù)據(jù)相關(guān)的不少技術(shù)都原生于Linux,比如Spark、HDFS和MongoDB等,這些技術(shù)都在Linux社區(qū)中產(chǎn)生的,而且Linux具有性能更高、穩(wěn)定性更好的特點(diǎn)。雖然在Windows上也可以部署一些大數(shù)據(jù)環(huán)境,但大多用于學(xué)習(xí)和研究,較少用于生產(chǎn)。
所以,GIS基礎(chǔ)軟件最好能支持高性能運(yùn)行于Linux操作系統(tǒng)中。
接下來介紹大數(shù)據(jù)GIS架構(gòu)中的兩根柱子,我們先介紹傳統(tǒng)GIS的分布式重構(gòu),這個重構(gòu)是針對經(jīng)典空間數(shù)據(jù),而不是空間大數(shù)據(jù)的。
傳統(tǒng)GIS應(yīng)用中,海量數(shù)據(jù)已經(jīng)形成了很大的沖擊和挑戰(zhàn)?,F(xiàn)在我們都用瓦片提升B/S架構(gòu)系統(tǒng)的用戶體驗(yàn),但是瓦片數(shù)量巨大,很難管理,復(fù)制分發(fā)時都非常痛苦。而在矢量數(shù)據(jù)管理中,當(dāng)一個數(shù)據(jù)表記錄數(shù)過億的時候,訪問性能急劇下降。最后,海量數(shù)據(jù)空間分析計(jì)算量非常大,而且耗時不是線性增長,數(shù)據(jù)量增長一倍,耗費(fèi)的時間可能要增加好幾倍。這是讓傳統(tǒng)的GIS應(yīng)用在數(shù)據(jù)量增長的情況下面臨的一個新的挑戰(zhàn)。
舉個例子,我們做了一個Overlay空間分析的測試,當(dāng)有1億多邊形對象參與運(yùn)算時,耗時長達(dá)10個小時,這么長時間在很多應(yīng)用場景中是難以接受的。
對傳統(tǒng)GIS的分布式重構(gòu)包括空間分析分布式計(jì)算改造、空間數(shù)據(jù)處理分布式計(jì)算改造和海量空間數(shù)據(jù)分布式存儲。改造這些技術(shù)所用到的分布式存儲技術(shù)和分布式計(jì)算框架,都是圍繞大數(shù)據(jù)處理過程中發(fā)展起來的。
這是適用于經(jīng)典空間信息的分布式存儲技術(shù),包括Postgres-XL、MongoDB和HDFS等,越往上的查詢能力越強(qiáng),越往下的分布式計(jì)算能力更強(qiáng),需要根據(jù)情況選擇使用。
截止2017年8月底,SuperMap GIS已經(jīng)完成的分布式改造的空間分析和空間數(shù)據(jù)處理算法包括:疊加分析、緩沖區(qū)分析、空間查詢、創(chuàng)建索引、復(fù)制數(shù)據(jù)集、數(shù)據(jù)集裁剪和批量屬性更新等。
分布式重構(gòu)之后效果如何?我們來看剛才的例子,Overlay分析經(jīng)典算法需要609分鐘,分布式改造后的則只需要41分鐘,性能提高了14倍。
這是以某省土地利用數(shù)據(jù)疊加分析試驗(yàn),在32CPU的計(jì)算機(jī)上用傳統(tǒng)算法,耗費(fèi)42分鐘;新的算法在每節(jié)點(diǎn)4CPU的4個節(jié)點(diǎn)情況下,耗時僅2.1分鐘。后者計(jì)算機(jī)配置不如前者,空間分析的性能反倒提高了20倍。
這讓我們的負(fù)責(zé)空間分析的工程師興奮不已,以前改進(jìn)空間分析算法的性能,能提高百分之幾十就是很大的勝利,現(xiàn)在可以實(shí)現(xiàn)數(shù)量級的提升。
第二根柱子是空間大數(shù)據(jù)技術(shù)。
空間大數(shù)據(jù)技術(shù)有四個模塊,首先是空間大數(shù)據(jù)的分布式存儲技術(shù)。
以前有基于文件和關(guān)系數(shù)據(jù)庫的經(jīng)典空間數(shù)據(jù)引擎,還有Web數(shù)據(jù)引擎,為管理空間大數(shù)據(jù),SuperMap新增了HDFS、MongoDB和Elasticsearch引擎。
第二個是大數(shù)據(jù)的空間分析。
SuperMap GIS 9D(2018)已經(jīng)提供了一些大數(shù)據(jù)空間分析算法,包括3種模式分析和5種數(shù)據(jù)匯總,以后根據(jù)需求還會逐步增加。下面舉其中4個例子介紹。
第一個是OD分析,計(jì)算各起點(diǎn)和終點(diǎn)間的通行量,比如說住在北京天通苑的人都去哪些區(qū)域上班,在國貿(mào)上班的人都是從哪些區(qū)域來的。
這是重慶的例子,OD分析可以呈現(xiàn)右下方的點(diǎn)這個地方住的人都去哪兒上班了。這種OD分析結(jié)果可以做什么?比如,可以用于交通規(guī)劃輔助決策。
這是基于北京地鐵刷卡記錄的OD分析。早上天通苑往外走,國貿(mào)則往里走,晚上則反過來,充分證明天通苑是一個名副其實(shí)的“睡城”。
第二個要介紹熱點(diǎn)分析,即對點(diǎn)要素進(jìn)行統(tǒng)計(jì)學(xué)計(jì)算,尋找熱點(diǎn)和冷點(diǎn)。剛才Goodchild教授講到異常的東西都讓人感興趣,比如說特別高的地方和特別低的地方,這里熱點(diǎn)分析就分析大家最感興趣的熱點(diǎn)和冷點(diǎn)。
這是基于航班軌跡的熱點(diǎn)分析結(jié)果,可以看出熱點(diǎn)在哪兒,美國的東海岸、歐洲,還有中國。
第三個要介紹的是密度分析。密度分析計(jì)算要素的空間分布密度,不僅僅計(jì)算區(qū)域內(nèi)的影響,還考慮周邊的影響。
例如,通過對全球貨輪航跡數(shù)據(jù)進(jìn)行的密度分析,我們可以看到中國東部的密度甚至高于歐洲和美洲,從一個側(cè)面反映了中國經(jīng)濟(jì)發(fā)展的情況。
上圖為放大后的密度分析的效果,可以看到,這個密度分析的結(jié)果不是柵格數(shù)據(jù),而是由六邊形構(gòu)成的矢量圖,每個多邊形內(nèi)都有代表密度的數(shù)值。
密度分析可以用于商業(yè)選址輔助決策。女人的衣柜里永遠(yuǎn)少一件衣服,買衣服是她們的天性,商家最想知道的莫過于女裝的潛在消費(fèi)者分布在哪里。
圖中所示為上海關(guān)心女裝的人分布密度,這是基于電信上網(wǎng)數(shù)據(jù)的大數(shù)據(jù)挖掘分析的結(jié)果。這樣的分析結(jié)果,可以為女裝廣告牌選址,甚至為女裝店選址提供輔助決策。
最后介紹聚合分析。與密度分析要考慮周邊的影響不同,這個算法完全不考慮邊界外的影響,只考慮區(qū)域內(nèi)的統(tǒng)計(jì)。
本頁右側(cè)是公安的戶籍人口分布,左側(cè)則是通過手機(jī)信令數(shù)據(jù)分析出的人口分布情況,可以發(fā)現(xiàn)有很大的差異。
聚合分析與密度分析看起來很像,比較一下放大圖,可以發(fā)現(xiàn)二者的區(qū)別:左側(cè)的密度分析中,每一個高值的周圍,都被較高值包圍,是做了平滑的;而右側(cè)的聚合分析則沒有,每個單元內(nèi)的值跟周圍沒有關(guān)系。
這是利用航班軌跡數(shù)據(jù)挖掘的動態(tài)聚合分析結(jié)果,每個單元格內(nèi)的數(shù)值和顏色代表該區(qū)域內(nèi)的飛機(jī)數(shù)量。
這是重慶出租車早高峰下車點(diǎn)數(shù)據(jù)的聚合分析結(jié)果,可以用三維來表達(dá)。
時間關(guān)系,其他的大數(shù)據(jù)空間分析不一一介紹。
接下來,我們介紹流數(shù)據(jù)的實(shí)時處理。
大數(shù)據(jù)的一個顯著特點(diǎn)是,數(shù)據(jù)像流水一樣,順序、快速、大量、持續(xù)到達(dá),需要用可以快速持續(xù)計(jì)算的工具來處理它。SuperMap 基于Spark Streaming封裝了對流式空間大數(shù)據(jù)持續(xù)處理的組件,一邊數(shù)據(jù)持續(xù)流入,另一邊持續(xù)輸出分析結(jié)果。
截至2017年8月,SuperMap 9D提供了地圖匹配、路況計(jì)算和地理圍欄三種流式數(shù)據(jù)實(shí)時計(jì)算功能。
其中,地理圍欄用于實(shí)時判斷哪些目標(biāo)落入圍欄,并支持進(jìn)入、保持和退出圍欄等細(xì)化的狀態(tài)。
例如,本頁是全球航班的地理圍欄動態(tài)圖示,其中黃點(diǎn)代表進(jìn)入機(jī)場附近的航班,正在起飛或者降落,而藍(lán)點(diǎn)則為在飛行途中的航班。
實(shí)時路況計(jì)算是另一種常用的流數(shù)據(jù)實(shí)時處理的算法,這個功能也被集成到基礎(chǔ)軟件中,接入浮動車等的位置流數(shù)據(jù),便可自動計(jì)算實(shí)時路況。
大數(shù)據(jù)空間可視化也是空間大數(shù)據(jù)技術(shù)不可缺少的內(nèi)容,前面在介紹大數(shù)據(jù)空間分析時,已經(jīng)看到不少針對大數(shù)據(jù)的可視化的效果。
本頁左側(cè)是我們剛提到一部分的大數(shù)據(jù)空間分析算法,右側(cè)則是空間可視化技術(shù),中間的連線,表明了每一種空間分析的結(jié)果,可以用什么可視化技術(shù)來表達(dá)。
除了前面介紹過的表達(dá)OD分析結(jié)果的連線圖外,還有更炫酷的連線圖。
這是用于表達(dá)車流的動態(tài)圖。
也可以換一種顏色來展示,而且可以在三維場景中使用,放大之后,可以看到車流在樓宇之間流動的效果。
這是某機(jī)場航站樓飛機(jī)起飛降落路線的三維表達(dá),我們看到,飛機(jī)大多不是直接降落,而是到機(jī)場后先盤旋再降落。
此外,大數(shù)據(jù)時代還需要實(shí)現(xiàn)高性能的動態(tài)目標(biāo)可視化技術(shù)。
比如要監(jiān)控中國空中的飛機(jī),用戶需要支持同屏展示數(shù)千架飛機(jī)實(shí)時位置和狀態(tài)。超圖的工程師追求極致,去年實(shí)現(xiàn)了5萬架飛機(jī)的動態(tài)可視化,今年又把測試極限推高到50萬架飛機(jī)。
這是一個三維的例子,實(shí)現(xiàn)了對全球5萬艘貨輪動態(tài)位置的可視化。
回顧一下空間大數(shù)據(jù)技術(shù),包括空間大數(shù)據(jù)存儲管理、大數(shù)據(jù)的空間分析、流數(shù)據(jù)實(shí)時處理以及大數(shù)據(jù)空間可視化技術(shù)。
在進(jìn)行大數(shù)據(jù)挖掘分析之前,還有一個數(shù)據(jù)清洗的環(huán)節(jié),原始數(shù)據(jù)可能有不少冗余數(shù)據(jù)、范圍錯誤數(shù)據(jù)、坐標(biāo)位置錯誤和缺失的數(shù)據(jù),這些都要先清除掉。清洗之后才可以進(jìn)行存儲,進(jìn)行進(jìn)一步的精加工或者做挖掘分析。當(dāng)然,不同數(shù)據(jù)源的清洗方法和算法也不一樣。
這里介紹一下大數(shù)據(jù)GIS架構(gòu)。最基層是空間大數(shù)據(jù)的分布式存儲技術(shù);第二層是基于Spark分布式計(jì)算框架封裝的大數(shù)據(jù)GIS組件,在SuperMap iObjects組件中擴(kuò)展了針對空間大數(shù)據(jù)的數(shù)據(jù)管理,空間分析和流數(shù)據(jù)處理等組件;第三層是服務(wù)器GIS軟件中基于組件層封裝的大數(shù)據(jù)目錄服務(wù)、分布式空間分析和流數(shù)據(jù);左側(cè)是云和大數(shù)據(jù)的管理器,用于調(diào)用和管理這些計(jì)算與服務(wù)。最頂層是各種GIS端,包括桌面端、瀏覽器端和移動端等,封裝了大數(shù)據(jù)目錄、空間分析、空間可視化和大數(shù)據(jù)圖表等功能,調(diào)用服務(wù)器GIS實(shí)現(xiàn)相應(yīng)的功能。
大數(shù)據(jù)GIS體系中,各軟件之間的關(guān)系如本圖所示。在云計(jì)算資源基礎(chǔ)上,運(yùn)行Spark大數(shù)據(jù)處理框架,SuperMap iObjects組件式GIS則嵌入該框架內(nèi)部運(yùn)行,實(shí)現(xiàn)對數(shù)據(jù)的索引、查詢、處理和分析;作為云GIS應(yīng)用服務(wù)器的SuperMap iServer則調(diào)用組件實(shí)現(xiàn)大數(shù)據(jù)相關(guān)功能,并封裝成Web Service供各種端調(diào)用。而SuperMap iManager則實(shí)現(xiàn)對云的調(diào)度和對大數(shù)據(jù)組件運(yùn)行的管理。
GIS組件嵌入到Spark中運(yùn)行有兩方面意義:首先是便于經(jīng)典GIS功能的分布式重構(gòu),因?yàn)檫@些被重構(gòu)的空間分析和空間數(shù)據(jù)處理,需要在Spark框架下運(yùn)行;如果GIS 組件無法支持Linux,也就無法直接高性能運(yùn)行于Spark框架內(nèi)。
其次是便于二次開發(fā)擴(kuò)展大數(shù)據(jù)分析模型,雖然GIS基礎(chǔ)軟件已經(jīng)提供了一些通用的分析模型,但大數(shù)據(jù)的種類繁多,應(yīng)用目的不同,常需要針對不同的數(shù)據(jù)和應(yīng)用目的進(jìn)行擴(kuò)展開發(fā)。
我們再整體回顧一下全面擁抱大數(shù)據(jù)的GIS技術(shù)的內(nèi)容,三部分:空間大數(shù)據(jù)技術(shù)、傳統(tǒng)GIS的分布式重構(gòu),以及大數(shù)據(jù)GIS支撐技術(shù)。
其中,空間大數(shù)據(jù)技術(shù)包括:空間大數(shù)據(jù)存儲技術(shù)、大數(shù)據(jù)空間分析技術(shù)、流數(shù)據(jù)實(shí)時處理技術(shù)和大數(shù)據(jù)空間可視化技術(shù)。
傳統(tǒng)GIS的分布式重構(gòu)包括:海量空間數(shù)據(jù)的分布式存儲、空間數(shù)據(jù)處理的分布式計(jì)算改造和空間分析的分布式計(jì)算改造。
大數(shù)據(jù)支撐技術(shù)則包括云GIS技術(shù)和跨平臺GIS技術(shù)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于擁有大數(shù)據(jù),而在于擁有大數(shù)據(jù)挖掘和加工的能力,如果有這個技術(shù),即使別人的大數(shù)據(jù)你也可以拿來創(chuàng)造價(jià)值。
有人可能會說,我沒有大數(shù)據(jù),別人的大數(shù)據(jù)不給我怎么辦?
一些大數(shù)據(jù)涉及到他們的用戶隱私,確實(shí)無法提供給出來,比如通信運(yùn)營商的服務(wù)器記錄了每個手機(jī)的實(shí)時位置,嚴(yán)重涉及到手機(jī)用戶的隱私,這種情況下怎么辦?我們就“把冶煉的裝備拉到礦山里去”,可以跟這些單位商量,把分析挖掘這些數(shù)據(jù)的軟件系統(tǒng)部署到他們的內(nèi)網(wǎng)運(yùn)行,分析挖掘的結(jié)果通常是分布圖,已經(jīng)沒有手機(jī)用戶的隱私信息,可以通過網(wǎng)絡(luò)發(fā)布出來使用。所以對于大數(shù)據(jù),我們應(yīng)該“不求所有,但求所用”。
再舉個例子,在智慧城市時空信息云與大數(shù)據(jù)平臺建設(shè)中,我們不僅要把城市基礎(chǔ)地理信息發(fā)布給各個部門使用,而且還應(yīng)該聚合一些單位的大數(shù)據(jù)挖掘分析結(jié)果數(shù)據(jù),提供給大家使用。其中,對于自來水公司、燃?xì)夤尽⒐还?、出租車公司的大?shù)據(jù),可以跟他協(xié)調(diào),把城市基礎(chǔ)地理信息發(fā)布給他們使用,用于交換他們的大數(shù)據(jù),傳到時空信息云平臺的服務(wù)器上挖掘分析,把結(jié)果數(shù)據(jù)疊加到時空信息云平臺使用;而對于通訊運(yùn)營商、電網(wǎng)企業(yè)和一些大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù),比較難從這些單位內(nèi)網(wǎng)拿出來使用,可以把挖掘這些大數(shù)據(jù)的系統(tǒng)部署到這些單位內(nèi)網(wǎng)運(yùn)行,把結(jié)果傳輸出來,集成到時空信息云平臺。
在報(bào)告結(jié)束之前,我們再回頭來看這個光環(huán)曲線。作為學(xué)術(shù)研究,越早介入新技術(shù)的研究和探索越好。但作為生產(chǎn)單位,卻并非如此,需要審時度勢選擇進(jìn)入的時機(jī),不要在概念炒作頂峰階段因“時髦”而介入,那時技術(shù)不成熟,因?yàn)檫^度炒作導(dǎo)致大家期望很高,很可能投入大量經(jīng)費(fèi)卻沒有相應(yīng)產(chǎn)出。到了低谷期,也別因“過時”而錯過,在這一階段很可能觸底反彈。
隨著人工智能的升溫,大家對空間大數(shù)據(jù)的熱情正在消減,這時候,反而是大家介入空間大數(shù)據(jù)和大數(shù)據(jù)GIS技術(shù)發(fā)展與應(yīng)用的最佳時機(jī),再晚可能真out了。
大數(shù)據(jù)GIS技術(shù)還會進(jìn)一步發(fā)展與完善,相關(guān)應(yīng)用也會越來越多。讓我們一起擁抱大數(shù)據(jù),擁抱地理智慧。謝謝大家!
(感謝郭國章、劉宏愷、曾志明、盧浩、王丹和吳曉燕為審校本文給予的幫助)
聯(lián)系客服