Esri自2013年發(fā)布了GIS tools for Hadoop,正式加入互聯(lián)網(wǎng)大數據廠(chǎng)商的行列,至今已經(jīng)3年了。在這3年中風(fēng)云變幻,業(yè)界技術(shù)在不斷的發(fā)生著(zhù)變更,Esri的大數據戰略也在不斷的向前推進(jìn)。 在剛剛結束的2016Esri空間信息技術(shù)開(kāi)發(fā)者大會(huì )上,在IT熱點(diǎn)技術(shù)專(zhuān)場(chǎng)的《ArcGIS平臺下的大數據挖掘》,與往年相比,發(fā)生了明顯的變化。往年因為Esri自身的原因,將大數據限定在空間大數據這個(gè)領(lǐng)域里面。但是今年很明顯的發(fā)現,在A(yíng)rcGIS的平臺上,已將傳統的空間二字去掉,使得平臺支持的領(lǐng)域更加廣泛。
實(shí)際上,地理信息發(fā)展了這么多年,如果說(shuō)最能與互聯(lián)網(wǎng)大數據概念掛鉤的,只有LBS(基于位置的服務(wù))數據和遙感影像的數據。這兩類(lèi)數據無(wú)論是從體量上,還是從生成速度、數據結構、維度以及價(jià)值密度上,都能夠與互聯(lián)網(wǎng)大數據的概念貼合。但是傳統的空間分析乃至于空間數據挖掘領(lǐng)域,卻更多是在地理空間統計樣本上進(jìn)行分析。而且因為空間數據的特點(diǎn),諸如空間自相關(guān)、空間異質(zhì)性等空間統計學(xué)與傳統統計學(xué)截然不同的概念,使得很多的分析,無(wú)法采用互聯(lián)網(wǎng)大數據中那些分布式計算的方法來(lái)實(shí)現。
在Esri中國高級咨詢(xún)師盧萌看來(lái),“這一次開(kāi)發(fā)者大會(huì ),從大數據的熱炒狀態(tài)中,回歸了地理分析的本源?!?/p>
盧萌在其《ArcGIS平臺下的大數據挖掘》講座中談到,地理分析一直是地理信息系統區別于其他系統最大的不同點(diǎn)。地理信息首先是一個(gè)從不一樣的視角來(lái)看待整個(gè)世界。很多人都說(shuō),做地理信息的人,每天都像神一樣,在離地幾百米以上的高空俯視著(zhù)整個(gè)大地。而地理分析讓這個(gè)視角更進(jìn)了一步,不但是從高空俯視著(zhù)大地,而且通過(guò)不同的痕跡,可以讓我們的視野穿越過(guò)去未來(lái),在更廣闊的空間和時(shí)間線(xiàn)了解發(fā)生了什么事情。
其次,地理學(xué)研究的領(lǐng)域是所有領(lǐng)域中最為廣泛的,上至無(wú)窮的太空,下至人類(lèi)所能探測到的最深的地底,都是地理學(xué)的研究范圍,很多研究都在改變著(zhù)我們的生活。這樣一個(gè)廣泛的領(lǐng)域構成了一個(gè)巨復雜的系統,比之這個(gè)系統的龐大程度,特別是隨著(zhù)人類(lèi)觀(guān)察手段的日益提升,互聯(lián)網(wǎng)所謂的大數據,在它面前,也都是九牛一毛。
在回歸地理分析本源的情況下,盧萌還介紹了新一代技術(shù)能夠給地理分析帶來(lái)什么。
他認為,首先就是業(yè)界最流行的Hadoop的MapReduce框架進(jìn)化到2.0之后,對地理分析帶來(lái)的價(jià)值。本次開(kāi)發(fā)者大會(huì ),首次在GIS領(lǐng)域演示了新一代大數據分析框架Spark的應用。
因為傳統的MpaReduce架構對迭代運算的支持很不好,所以很多地理分析都無(wú)法運行在其上面,更多的只是在它上面運行諸如過(guò)濾、聚合這樣的簡(jiǎn)單的空間分析。而新一代的Spark框架,因為其采用了彈性分布式數據集(RDD)這一特性,能夠使得在Spark框架上,進(jìn)行迭代運算的效率,超過(guò)傳統MapReduce的百倍以上。這樣,很多的分析算法就能夠直接跑在Spark上面了,諸如空間分析領(lǐng)域中最重要的前提計算步驟:構建空間權重矩陣。利用Spark的優(yōu)勢,完全可以將龐大的空間權重矩陣加載到RDD中,然后每次運算都可以從預先構建的矩陣中快速獲取鄰近要素。這樣就讓很多在以前不可能實(shí)現、具有強空間自相關(guān)的分析在分布式集群框架上運行了。
據盧萌透露,未來(lái),Esri的分布式并行計算框架,將慢慢的從MapReduce上轉移到Spark上來(lái)。另外作為空間技術(shù)的業(yè)界領(lǐng)導者,Esri也致力于推動(dòng)開(kāi)源技術(shù)的發(fā)展。所以他建議有興趣的朋友可以從GitHub上下載最新的GIS Tools for Hadoop,開(kāi)始嘗試Spark分析框架在空間分析領(lǐng)域給我們帶來(lái)的變化。
盧萌最后還指出,ArcGIS軟件作為平臺級產(chǎn)品,無(wú)論是對空間信息技術(shù)的支撐,還是對非空間信息的內容進(jìn)行支撐,都在不斷的進(jìn)步?!皬奶蕴璙B,將Python作為官方指定腳本,到能夠在平臺中直接引入R語(yǔ)言,都表明了這種趨勢,未來(lái)ArcGIS平臺將更加強大,也會(huì )有更廣泛的應用?!?/p>