機器之心原創(chuàng)
作者:高靜宜
近日,京東金融城市計算業(yè)務(wù)部的一篇論文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction(基于多層注意力機制神經(jīng)網(wǎng)絡(luò)的地理傳感器時間序列預測)》被人工智能領(lǐng)域國際頂級學術(shù)會議 IJCAI 2018 錄用。
空氣污染、交通堵塞、能源消耗……這是身處在城市化加速發(fā)展進程中的人們每天都不得不面對的難題。
而伴隨著技術(shù)的不斷發(fā)展,人們開始嘗試使用科學的手段對其加以攻克,一門全新的專業(yè)學科及研究領(lǐng)域也應運而生——城市計算。
「用一句話形容城市計算,就是用大數(shù)據(jù)和人工智能打造未來城市?!咕〇|金融副總裁、首席數(shù)據(jù)科學家、城市計算事業(yè)部總經(jīng)理鄭宇這樣解釋。
「更具體一點,就是通過對城市大數(shù)據(jù)的不斷采集、管理、整合、分析、挖掘,然后利用挖掘出來的知識來解決城市里面的交通、能源等問題,是大數(shù)據(jù)、人工智能和云計算在城市里的有機結(jié)合。」
京東金融副總裁、首席數(shù)據(jù)科學家、城市計算事業(yè)部總經(jīng)理鄭宇
今年 2 月,京東金融成立城市計算事業(yè)部,由鄭宇領(lǐng)導。(鏈接:業(yè)界 | 對話鄭宇: 做城市計算比 AlphaGo 難多了,但這就是我在京東金融繼續(xù) All in 的事)
近日,鄭宇向機器之心透露了團隊的一項最新突破與進展——京東金融城市計算業(yè)務(wù)部的一篇論文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction(基于多層注意力機制神經(jīng)網(wǎng)絡(luò)的地理傳感器時間序列預測)》被人工智能領(lǐng)域國際頂級學術(shù)會議 IJCAI 2018 錄用。
伴隨傳感技術(shù)與城市基礎(chǔ)設(shè)施的進步,許多城市已經(jīng)部署了許多分布在不同地理位置的各類型傳感器??梢允堑缆飞嫌涗涇嚵髁康臄z像頭,也可以是埋在地下管道中的傳感線圈;可以是監(jiān)控環(huán)境天氣的溫度傳感器,也可以是檢測水質(zhì)情況的濁度傳感器……
不難發(fā)現(xiàn),所有這些傳感器擁有一個特性,會產(chǎn)生一系列空間位置固定且隨時間變化的讀數(shù),即產(chǎn)生許多時間序列,而這些時間序列之間存在著地理空間上的聯(lián)系,也就是所謂的「地理傳感器時間序列」。
毫無疑問,城市傳感器產(chǎn)生的大量地理傳感器時間序列與人們的生活、城市的運轉(zhuǎn)有著很強的關(guān)聯(lián)。針對這些數(shù)據(jù)展開分析預測,就能更加準確地預測空氣污染、交通流量等實際問題,不僅可以為用戶提供有效的建議,也有利于政府決策,進而「事半功倍」地應對城市中存在的各種挑戰(zhàn),其意義和價值不言而喻。
然而,此前并沒有一個通用的算法能夠解決這類地理傳感器時間序列的預測問題,原因在于,地理傳感器時間序列受到很多因素的影響。
首先,傳感器數(shù)據(jù)存在動態(tài)的時空關(guān)聯(lián)性,主要體現(xiàn)在兩個方面。
不同傳感器之間存在空間相關(guān)性,但并非靜態(tài)而是動態(tài)的。例如,A 點經(jīng)歷了交通擁堵狀況后,下一個時間點 B 點會發(fā)生同樣的情況,但這并非一成不變的。也許早上是 A 點影響 B 點,但晚上情況相反,B 點會對 A 點造成影響。如果不考慮這一動態(tài)相關(guān)性,那么預測的準確率會大幅下降。而將這一重要因素考慮在內(nèi),就涉及到大量相關(guān)參數(shù)和信息的處理,計算的復雜度也隨之上升。
而對于同一傳感器來說,數(shù)據(jù)的時間相關(guān)性也是動態(tài)的。例如,非高峰期間的下午 2 點與 3 點,測量交通流量的傳感器數(shù)據(jù)差異不大,相關(guān)性較強;但在高峰期的早上 8 點與 9 點,傳感器的讀數(shù)可能存在較大差異。此外,傳感器讀數(shù)也可能存在周期性規(guī)律,例如今天 8 點與昨天 8 點的交通情況較為相似,但也并非固定。因此,如何選取合適具有相關(guān)性的時間間隔也是一個挑戰(zhàn)。
此外,還要考慮到傳感器讀數(shù)還會受到外部因素的影響,例如臺風、暴雨等環(huán)境因素,特殊活動等事件因素等,都會導致傳感器數(shù)據(jù)出現(xiàn)突變、陡降甚至是拐點。
為了解決地理傳感器時間序列的預測問題,京東金融使用深度學習方法,提出了一個基于多層注意力機制循環(huán)神經(jīng)網(wǎng)絡(luò)的通用解決方案,用于建模動態(tài)的時空關(guān)聯(lián)性和建模外部影響因素,從而預測各種類型的地理傳感器時間序列。
鄭宇表示,論文中提出的 GeoMAN 方法首次在解決時空領(lǐng)域的問題上引入了多層注意力機制,實現(xiàn)了時空數(shù)據(jù)的分析處理從靜態(tài)到動態(tài)的階躍。
在此之前,業(yè)內(nèi)也有各種解決地理傳感器時間序列這一問題的方法。
最初,人們使用回歸模型等方法進行單點預測,沒有考慮到地理傳感器時間序列所具備的特性;之后,在考察到每個站點本地信息、全局信息和多源異構(gòu)數(shù)據(jù)之后,人們會針對不同傳感器聯(lián)合建模;而當傳感器數(shù)量較為龐大時,深度學習技術(shù)被引入這一領(lǐng)域,但基本只考慮了時間維度上的相關(guān)性,而在空間相關(guān)性上仍采用靜態(tài)機制。
論文《GeoMAN:Multi-level Attention Networks for Geo-sensory Time Series Prediction》中提出的模型是基于編碼器-解碼器 (encoder-decoder) 架構(gòu)設(shè)計而成。其中,編碼器將歷史序列的輸入編碼成上下文向量,解碼器將上下文向量作為輸入用于預測接下來各個時刻的序列值。
拆解來看,這個模型可以分為多層注意力機制以及外部因素融合兩個部分。
在模型的多層注意力機制部分,首先在編碼器每個單元的輸入部分使用空間注意力機制來建模動態(tài)空間關(guān)聯(lián)性。然后在編碼器和解碼器之間加入時間注意力機制來建模動態(tài)時間相關(guān)性。
如此一來,當預測 A 點傳感器在未來產(chǎn)生的某種時間序列時,空間注意力機制可以學習到周圍傳感器的歷史讀數(shù)對 A 點的動態(tài)影響,而時間注意力機制則可以學習到歷史時間點和預測時間點之間的動態(tài)關(guān)系。
外部因素融合部分則是用于解決外部因素對地理傳感器時間序列的影響,將多源跨域數(shù)據(jù)分別投影到低維向量中,然后經(jīng)過某種方式融合為向量輸出。
此外,部分地理空間位置上擁有多個傳感器數(shù)據(jù),這些之間也可能存在相關(guān)性。原始的做法是對每一個傳感器數(shù)據(jù)分別建模進行單點預測。將同一站點的不同傳感器數(shù)據(jù)加以考量進行聯(lián)合建模則可以達成更好的預測結(jié)果。
當然,想要為預測模型選取合適的數(shù)據(jù)源作為模型輸入并非易事,這離不開專業(yè)知識的儲備。
「我一直認為人工智想要實現(xiàn)行業(yè)落地的話,一定需要背景知識。有人認為,深度學習是黑盒模型就不需要行業(yè)知識,這是不正確的觀點?!灌嵱钛a充道,只有結(jié)合人的先驗知識,才可以更好地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化算法復雜度,才能得到更好的訓練結(jié)果。
此外,具備行業(yè)背景知識還有助于掌握預測會受到哪些因素的影響,可能是周邊的路網(wǎng)結(jié)構(gòu)、興趣點的分布等等。
鄭宇舉了一個例子。在水質(zhì)預測上,很多人會誤以為與天氣沒有關(guān)系,因為水管是地下封閉系統(tǒng),可能與外界的陰晴沒有關(guān)聯(lián)。但實際上,不同的天氣情況會導致地面人們用水模式產(chǎn)生變化,進而帶動用水流量、水壓發(fā)生改變,間接造成水質(zhì)的變化。
「所以我們說在城市計算領(lǐng)域使用深度學習技術(shù)與在視頻、語音、文本上應用深度學習不同,它不是一個簡單的應用,而是要對行業(yè)及時空數(shù)據(jù)有深度了解,才能定制更好的模型,得到更好的性能。」
論文表明,GeoMAN 方法在多種不同數(shù)據(jù)集上(中國東南某城市的管網(wǎng)水質(zhì)、北京市空氣質(zhì)量)均取得了超出現(xiàn)有方法的效果,并具有很強的可解釋性。
通過實驗結(jié)果可以發(fā)現(xiàn),與領(lǐng)域內(nèi)領(lǐng)先算法相比,GeoMAN 在水質(zhì)和空氣預測結(jié)果的均方根誤差和絕對平均誤差上的性能表現(xiàn)均有明顯提升。
據(jù)了解,基于這個算法,城市計算業(yè)務(wù)部已經(jīng)部署了管網(wǎng)水質(zhì)預測系統(tǒng)以實時預測未來的管網(wǎng)水質(zhì),以期能夠指導自來水工廠更科學地進行投氯消毒,保證居民飲用水質(zhì)。還可以及時發(fā)現(xiàn)水管健康狀態(tài),并在第一時間進行維護、修理,保證城市高效運轉(zhuǎn),為政府的城市建設(shè)決策提供參考。
「這個算法會成為我們構(gòu)建的城市大數(shù)據(jù)中的一個模塊。」鄭宇如是說。
與普通云平臺不同,京東金融所打造的城市大數(shù)據(jù)平臺會針對特殊的時空數(shù)據(jù)進行管理,具備針對時空數(shù)據(jù)的人工智能算法以及各種其他經(jīng)過改造優(yōu)化的算法模塊,可以支持環(huán)境交通、城市規(guī)劃商業(yè)應用。
鄭宇告訴機器之心,目前團隊基本完成了對城市大數(shù)據(jù)平臺的搭建,并已經(jīng)在某些場景中展開落地,包括城市人流預測、救護車的智能調(diào)度與選址等,并在電力能源、信用城市等方向穩(wěn)步推進。
「這個城市大數(shù)據(jù)平臺的影響力將不亞于 AlphaGo?!灌嵱钫f道。
本文為機器之心原創(chuàng),轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
?------------------------------------------------
加入機器之心(全職記者/實習生):hr@jiqizhixin.com
投稿或?qū)で髨蟮溃?strong>content@jiqizhixin.com
廣告&商務(wù)合作:bd@jiqizhixin.com
聯(lián)系客服