1 引言
當(dāng)前全球的數(shù)據(jù)量正在迅速增長(zhǎng),預(yù)計(jì)在2025年將會(huì)從2018年的33ZB增加至175ZB?;ヂ?lián)網(wǎng)全球化、移動(dòng)設(shè)備普及化、云計(jì)算存儲(chǔ)低成本化、物質(zhì)世界網(wǎng)絡(luò)化,都在為“數(shù)據(jù)大爆發(fā)”儲(chǔ)蓄能量,大數(shù)據(jù)已成為繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革[1]。大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的蓬勃發(fā)展,使數(shù)據(jù)成為了重要的生產(chǎn)力,同時(shí)也使當(dāng)今社會(huì)的生產(chǎn)關(guān)系發(fā)生了變革。
大數(shù)據(jù)時(shí)代的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù)信息,還在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系[2]。因此,數(shù)據(jù)分析成為挖掘數(shù)據(jù)價(jià)值的關(guān)鍵步驟。本文從數(shù)據(jù)可視化、自動(dòng)化數(shù)據(jù)建模和情景分析出發(fā),介紹三大數(shù)據(jù)分析領(lǐng)域的關(guān)鍵技術(shù)現(xiàn)狀,梳理各領(lǐng)域的前沿工具及應(yīng)用場(chǎng)景,總結(jié)數(shù)據(jù)可視化、自動(dòng)化建模和情景分析等數(shù)據(jù)分析技術(shù)和工具的發(fā)展趨勢(shì)。
2 數(shù)據(jù)分析技術(shù)現(xiàn)狀
大數(shù)據(jù)分析是指在強(qiáng)大的支撐平臺(tái)上運(yùn)行分析算法,并發(fā)現(xiàn)隱藏在大數(shù)據(jù)中潛在價(jià)值的過(guò)程[3] 。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù),而大數(shù)據(jù)分析的核心問(wèn)題是如何對(duì)這些數(shù)據(jù)進(jìn)行有效表達(dá)、解釋和學(xué)習(xí)[4]。因此,目前學(xué)術(shù)界一般認(rèn)為數(shù)據(jù)可視化、自動(dòng)化數(shù)據(jù)建模和情景感知是數(shù)據(jù)分析過(guò)程中的核心環(huán)節(jié)。
2.1 數(shù)據(jù)可視化
數(shù)據(jù)可視化指利用人眼的感知能力對(duì)數(shù)據(jù)進(jìn)行交互的可視化表達(dá)以增強(qiáng)認(rèn)知的技術(shù)[7]。數(shù)據(jù)可視化一般包括科學(xué)可視化、信息可視化和可視化分析3類[5]??茖W(xué)可視化主要是實(shí)現(xiàn)對(duì)于比較具體的數(shù)據(jù)可視化,側(cè)重于那些有自然幾何結(jié)構(gòu)的數(shù)據(jù),如磁場(chǎng)、地理結(jié)構(gòu)等;信息可視化側(cè)重于抽象數(shù)據(jù)的可視化,如樹(shù)形圖、柱狀圖;可視化分析指在數(shù)據(jù)可視化中結(jié)合了數(shù)據(jù)挖掘等知識(shí)[6],如分析推理、視覺(jué)呈現(xiàn)和交互等。本文聚焦于信息可視化,以及可視化分析中的數(shù)據(jù)可視化交互。
Card等人對(duì)信息可視化(Information Visualization)的定義為對(duì)抽象數(shù)據(jù)使用計(jì)算機(jī)支持的、交互的、可視化的表示形式以增強(qiáng)認(rèn)知能力[8],側(cè)重于通過(guò)可視化圖形呈現(xiàn)數(shù)據(jù)中隱含的信息和規(guī)律[9]。
數(shù)據(jù)可視化起源于18世紀(jì),William Playfair在出版的書(shū)籍《The Commercial and Political Atlas》中第一次使用了柱形圖和折線圖[10] ;在隨后的200多年間,直方圖、餅圖、折線圖等廣泛地應(yīng)用于軍事、工業(yè)、科學(xué)領(lǐng)域,但數(shù)據(jù)可視化技術(shù)并未發(fā)生顯著進(jìn)步;直至20世紀(jì)后期,計(jì)算機(jī)技術(shù)、圖像處理技術(shù)和計(jì)算機(jī)視覺(jué)的迅速發(fā)展推動(dòng)數(shù)據(jù)可視化由靜態(tài)圖表演變?yōu)閯?dòng)態(tài)交互圖表,處理對(duì)象由二維數(shù)據(jù)擴(kuò)展至高維數(shù)據(jù);21世紀(jì),大數(shù)據(jù)時(shí)代下,數(shù)據(jù)體量大、種類多、時(shí)效高、價(jià)值密度低的特征[11],推動(dòng)數(shù)據(jù)可視化不僅關(guān)注多類型數(shù)據(jù)源的處理,也包括大規(guī)模實(shí)時(shí)數(shù)據(jù)的處理。
國(guó)內(nèi)數(shù)據(jù)可視化研究學(xué)者多從數(shù)據(jù)種類的角度劃分?jǐn)?shù)據(jù)可視化技術(shù)。任磊等將數(shù)據(jù)可視化技術(shù)劃分為文本可視化技術(shù)、網(wǎng)絡(luò)(圖)可視化技術(shù)、時(shí)空數(shù)據(jù)可視化技術(shù)、多維數(shù)據(jù)可視化技術(shù)等[9]。王藝等將數(shù)據(jù)可視化技術(shù)劃分為空間標(biāo)量場(chǎng)可視化技術(shù)、地理信息可視化技術(shù)、時(shí)空數(shù)據(jù)可視化技術(shù)、層次和網(wǎng)絡(luò)數(shù)據(jù)可視化技術(shù)、文本和文檔可視化技術(shù)、復(fù)雜高維多元數(shù)據(jù)可視化技術(shù)[12]。部分學(xué)者從數(shù)據(jù)可視化的方法劃分?jǐn)?shù)據(jù)可視化技術(shù)。程學(xué)旗認(rèn)為數(shù)據(jù)可視化的核心方法包括曲面可視化、解析度、視覺(jué)隱喻[4]。
表1從數(shù)據(jù)種類的角度入手,總結(jié)主要數(shù)據(jù)類型及對(duì)應(yīng)的數(shù)據(jù)可視化技術(shù),并介紹各數(shù)據(jù)類別下的主流數(shù)據(jù)可視化技術(shù)。
表1 數(shù)據(jù)可視化技術(shù)匯總
(1)文本可視化將文本中復(fù)雜的或者難以通過(guò)文字表達(dá)的內(nèi)容和規(guī)律以視覺(jué)符號(hào)的形式表達(dá)出來(lái),同時(shí)向人們提供與視覺(jué)信息進(jìn)行快速交互的功能,使人們能夠利用與生俱來(lái)的視覺(jué)感知的并行化處理能力快速獲取大數(shù)據(jù)中所蘊(yùn)含的關(guān)鍵信息[13]。截止到目前,文本可視化較為常用的是標(biāo)簽云(Tag Cloud)技術(shù)。標(biāo)簽云通過(guò)統(tǒng)計(jì)文本中詞語(yǔ)的出現(xiàn)頻率,按照一定的順序和規(guī)律展現(xiàn)出關(guān)鍵詞,如用顏色深淺或字體大小區(qū)分關(guān)鍵詞的重要性。最初的標(biāo)簽云采用簡(jiǎn)單的水平排放的方式,但無(wú)法高效利用可視化布局空間;隨后出現(xiàn)的Wordle標(biāo)簽云使標(biāo)簽云更緊湊,TagCrowd和Tagul給標(biāo)簽云提供了中文編碼的能力,并添加了標(biāo)簽的輪廓。但是標(biāo)簽云仍有局限性,其僅對(duì)文本中的高頻詞匯按照邏輯順序進(jìn)行布局排列,并沒(méi)有提供幫助上下文理解的可行性辦法[14]。
(2)網(wǎng)絡(luò)可視化是大數(shù)據(jù)可視化的重要分類之一,通過(guò)對(duì)于點(diǎn)、線、面基本元素的運(yùn)用組織出多種可視化圖像,揭示人類無(wú)法感知的復(fù)雜數(shù)據(jù)結(jié)構(gòu)[9]。網(wǎng)絡(luò)可視化技術(shù)可以分為靜態(tài)網(wǎng)絡(luò)可視化和動(dòng)態(tài)網(wǎng)絡(luò)可視化。靜態(tài)網(wǎng)絡(luò)可視化技術(shù)包括節(jié)點(diǎn)-邊可視化、空間填充法,其中節(jié)點(diǎn)-邊可視化是圖可視化的主要形式,空間填充法適用于具有層次特征的圖。由于網(wǎng)絡(luò)數(shù)據(jù)體量巨大且結(jié)構(gòu)復(fù)雜,靜態(tài)的可視化圖像往往會(huì)丟失數(shù)據(jù)關(guān)系的細(xì)節(jié),動(dòng)態(tài)網(wǎng)絡(luò)可視化通過(guò)動(dòng)態(tài)快照的方式獲取數(shù)據(jù)變化[15]。動(dòng)態(tài)網(wǎng)絡(luò)可視化中應(yīng)用廣泛的是動(dòng)態(tài)視頻流可視化。
(3)時(shí)空數(shù)據(jù)可視化是對(duì)帶有時(shí)間標(biāo)簽與地理位置的數(shù)據(jù)可視化,以展示其隨時(shí)間和空間所發(fā)生的行為變化[16]。時(shí)空數(shù)據(jù)可視化的一種典型方法是流式地圖,即將時(shí)間事件流和地圖進(jìn)行融合,其中時(shí)間事件流是采用堆疊的語(yǔ)義流來(lái)表達(dá)多個(gè)變量隨時(shí)間演化的過(guò)程。由于地理位置具有的三維特征,時(shí)空立方體通過(guò)在2D平面地圖的基礎(chǔ)上繪制實(shí)體或疊加屬性,直觀展示空間信息,如在三維虛擬城市地圖中的路線或地標(biāo)建筑[17]。
(4)高維數(shù)據(jù)可視化指對(duì)具備兩個(gè)或兩個(gè)以上屬性的數(shù)據(jù)對(duì)象進(jìn)行可視化的過(guò)程。高維數(shù)據(jù)可視化可分為空間映射法和圖標(biāo)法??臻g映射法包括散點(diǎn)圖、表格透視、平行坐標(biāo)、降維,圖標(biāo)法包括星型圖、雷達(dá)圖。典型的高維數(shù)據(jù)可視化方法是散點(diǎn)圖和平行坐標(biāo)。散點(diǎn)圖是將抽象的數(shù)據(jù)對(duì)象映射到二維坐標(biāo)表示的空間,整個(gè)數(shù)據(jù)集在空間中的分布反映了各維度間的關(guān)系以及數(shù)據(jù)集的整體特性[18]。平行坐標(biāo)技術(shù)采用相互平行的若干個(gè)坐標(biāo)軸,每個(gè)坐標(biāo)軸代表數(shù)據(jù)的一個(gè)屬性維度,而每個(gè)數(shù)據(jù)對(duì)象則對(duì)應(yīng)一條穿過(guò)所有坐標(biāo)軸的折線。
數(shù)據(jù)可視分析技術(shù)的目標(biāo)是使數(shù)據(jù)分析過(guò)程透明化,結(jié)合了可視化、人機(jī)交互和自動(dòng)分析技術(shù)[19]。數(shù)據(jù)可視分析包括分析推理技術(shù)、視覺(jué)呈現(xiàn)和交互技術(shù)、數(shù)據(jù)表示和轉(zhuǎn)換技術(shù)、產(chǎn)生傳播分析結(jié)果技術(shù)4部分核心技術(shù)。本文聚焦于數(shù)據(jù)可視化中的交互技術(shù)。
數(shù)據(jù)可視化交互指用戶通過(guò)與可視化系統(tǒng)之間的互動(dòng),加深數(shù)據(jù)理解的過(guò)程。互動(dòng)可以有多種表現(xiàn)形式,包括選擇變量、選擇時(shí)間段、調(diào)整可視化元素(如字體、顏色)等。數(shù)據(jù)可視化交互不僅讓用戶自主選擇數(shù)據(jù)對(duì)象及合適的可視化方法,也提升了大規(guī)模、復(fù)雜多維、動(dòng)態(tài)變化和地理空間的可視化效果。
常見(jiàn)的數(shù)據(jù)可視化交互操作包括導(dǎo)航、過(guò)濾、關(guān)聯(lián)等(見(jiàn)表2)。導(dǎo)航技術(shù)指在受限空間內(nèi),通過(guò)調(diào)整視角的方式選定視點(diǎn),并顯示可見(jiàn)數(shù)據(jù),包括平移、縮放和旋轉(zhuǎn)3種基本操作;過(guò)濾技術(shù)指通過(guò)設(shè)置過(guò)濾條件進(jìn)行整體數(shù)據(jù)視圖內(nèi)的信息篩選,并動(dòng)態(tài)展示過(guò)濾效果;關(guān)聯(lián)技術(shù)指用動(dòng)態(tài)可視化的方式展現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。
表2 數(shù)據(jù)可視化交互技術(shù)
分別以高維數(shù)據(jù)可視化中的散點(diǎn)圖和平行坐標(biāo)交互方式為例進(jìn)行說(shuō)明。在散點(diǎn)圖可視化交互中,用戶交互式地選取關(guān)注的屬性數(shù)據(jù)進(jìn)行可視化,比如按照重要程度排列屬性,優(yōu)先顯示重要的程度高的屬性,并比對(duì)不同屬性散點(diǎn)圖所展示的關(guān)聯(lián)關(guān)系差異,在一定程度上緩解空間的局限。在平行坐標(biāo)可視化交互中,由于平行坐標(biāo)多描述相鄰兩個(gè)屬性之間的關(guān)系,不適合同時(shí)表現(xiàn)多個(gè)維度間或非相鄰屬性間的關(guān)系,用戶可以通過(guò)平行坐標(biāo)揭示高維數(shù)據(jù)中的深層信息,消除大數(shù)據(jù)帶來(lái)的線段混亂和重疊等問(wèn)題,并交互地選擇感興趣的數(shù)據(jù)對(duì)象,將其高亮顯示。
2.2 自動(dòng)化數(shù)據(jù)建模
自動(dòng)化數(shù)據(jù)建模相較于傳統(tǒng)數(shù)據(jù)建模而言,主要體現(xiàn)在數(shù)據(jù)建模全流程中由機(jī)器操作替代人工操作的過(guò)程。自動(dòng)化數(shù)據(jù)建模的核心是自動(dòng)化機(jī)器學(xué)習(xí)(Automated Machine Learning,AutoML)。自動(dòng)化機(jī)器學(xué)習(xí)用于描述模型選擇或超參數(shù)優(yōu)化的自動(dòng)化方法,包括多種類型的算法,如神經(jīng)網(wǎng)絡(luò)[20]。國(guó)際人工智能學(xué)會(huì)理事長(zhǎng)楊強(qiáng)教授認(rèn)為,從數(shù)學(xué)的角度看,AutoML是讓目標(biāo)函數(shù)學(xué)習(xí)機(jī)器學(xué)習(xí)參數(shù),從配置里學(xué)習(xí)最佳參數(shù),由于參數(shù)和維度是巨量的,因此選擇最佳點(diǎn)的工作應(yīng)該由機(jī)器承擔(dān)。
在2017年谷歌剛剛推出AutoML工具的時(shí)候,AutoML還僅有機(jī)器學(xué)習(xí)模型自動(dòng)化的意思,但目前AutoML被認(rèn)為需要貫穿機(jī)器學(xué)習(xí)工作流。機(jī)器學(xué)習(xí)工作流指在給定數(shù)據(jù)集中實(shí)現(xiàn)當(dāng)前最佳模型性能,通常包含數(shù)據(jù)清洗、特征工程、選擇算法模型結(jié)構(gòu)及其中涉及的超參數(shù)調(diào)試,AutoML意味著端到端的機(jī)器學(xué)習(xí)工作流(Machine Learning Pipeline)。事實(shí)上,自動(dòng)化建模最初聚焦于機(jī)器學(xué)習(xí)中的模型選擇環(huán)節(jié),但目前已覆蓋數(shù)據(jù)預(yù)處理、模型選擇、變量選擇、模型調(diào)參和模型評(píng)估的全流程數(shù)據(jù)建模,模型選擇將算法模型由機(jī)器學(xué)習(xí)擴(kuò)展至深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等(見(jiàn)圖1)。
圖1 自動(dòng)化數(shù)據(jù)建模流程
自動(dòng)化數(shù)據(jù)建模通過(guò)降低技術(shù)門檻、提升建模效率和模型解釋程度,優(yōu)化了數(shù)據(jù)建模的流程和投入成本。傳統(tǒng)數(shù)據(jù)建模的技術(shù)門檻較高,需要大量的建模專業(yè)人員,具備包括統(tǒng)計(jì)學(xué)、算法和編程能力等,以便在具體場(chǎng)景下選擇合適的數(shù)據(jù)預(yù)處理規(guī)則,并使用編程軟件實(shí)現(xiàn)數(shù)據(jù)建模和數(shù)據(jù)分析。傳統(tǒng)數(shù)據(jù)建模的建模流程復(fù)雜,數(shù)據(jù)預(yù)處理和模型選擇的工程量較大,其中超參數(shù)的調(diào)試往往需要在可能的超參數(shù)空間遍歷足夠多的選擇,導(dǎo)致機(jī)器學(xué)習(xí)模型耗費(fèi)幾小時(shí)或幾天的時(shí)間完成模型訓(xùn)練與評(píng)估。傳統(tǒng)數(shù)據(jù)建模多為“黑箱”模型,降低了模型的可解釋性,難以滿足模型支撐上層應(yīng)用的需求。相比之下,自動(dòng)化數(shù)據(jù)建?;谳斎氲臄?shù)據(jù)建模應(yīng)用場(chǎng)景,選擇數(shù)據(jù)預(yù)處理方式,縮短了數(shù)據(jù)建模流程(見(jiàn)表3)。
表3 傳統(tǒng)數(shù)據(jù)建模和自動(dòng)化數(shù)據(jù)建模對(duì)比
自動(dòng)化建模的核心技術(shù)包括模型選擇環(huán)節(jié)的神經(jīng)架構(gòu)搜索(NAS)和自動(dòng)化調(diào)參。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是計(jì)算密集型,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)工作耗時(shí),并對(duì)專業(yè)知識(shí)有較高要求。神經(jīng)架構(gòu)搜索的網(wǎng)絡(luò)減少了訓(xùn)練和調(diào)參工作,使用者只需為NAS系統(tǒng)提供數(shù)據(jù)集,NAS將返回最佳架構(gòu)。神經(jīng)架構(gòu)搜索通過(guò)遵循最大化性能的搜索策略,從所有可能的架構(gòu)中尋找最佳架構(gòu)。如圖2所示,其中搜索空間定義了NAS方法原則上可能發(fā)現(xiàn)的神經(jīng)架構(gòu)。同時(shí),通常使用強(qiáng)化學(xué)習(xí)或進(jìn)化算法來(lái)設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),目前已用于目標(biāo)檢測(cè)和圖像分類等任務(wù)。
圖2 NAS 方法
在機(jī)器學(xué)習(xí)中,參數(shù)是影響算法性能的關(guān)鍵因素,而調(diào)參是一項(xiàng)繁瑣卻重要的環(huán)節(jié),貝葉斯優(yōu)化是一種自動(dòng)化調(diào)參的方法。貝葉斯優(yōu)化是一種用模型找到函數(shù)最小值的方法,目前眾多Python庫(kù)可以實(shí)現(xiàn)貝葉斯超參數(shù)調(diào)整。相較于其他隨機(jī)或網(wǎng)格搜索方法,貝葉斯優(yōu)化在嘗試下一組超參數(shù)時(shí)會(huì)參考之前的評(píng)估結(jié)果,因此在遍歷超參數(shù)空間的過(guò)程中,通過(guò)推斷過(guò)去的結(jié)果縮小超參數(shù)空間的范圍,提升搜索效率。
自動(dòng)化數(shù)據(jù)建模由于數(shù)據(jù)規(guī)模、模型數(shù)量、模型搜索與訓(xùn)練所耗費(fèi)計(jì)算資源增加,意味著產(chǎn)品需要更強(qiáng)的技術(shù)支持。美國(guó)機(jī)器學(xué)習(xí)公司DataRobot建立比較各種算法的云服務(wù)產(chǎn)品DataRobot Enterprise,使用大規(guī)模并行處理來(lái)訓(xùn)練和評(píng)估R、Python、Spark MLlib、H2O和其他開(kāi)源庫(kù)中的1000個(gè)模型。同時(shí),Skytree公司的服務(wù)器是首款針對(duì)一般目標(biāo)而設(shè)計(jì)的機(jī)器學(xué)習(xí)和高級(jí)分析引擎,旨在準(zhǔn)確地處理大量數(shù)據(jù)集。
自動(dòng)化數(shù)據(jù)建模最理想的狀態(tài)是一個(gè)端到端的過(guò)程,即用戶輸入數(shù)據(jù)集,自動(dòng)化數(shù)據(jù)建模系統(tǒng)輸出待解決問(wèn)題的結(jié)果,不僅覆蓋了數(shù)據(jù)建模的各個(gè)環(huán)節(jié),也保證了各環(huán)節(jié)的連通性和一致性。2019年,MIT的研究員發(fā)表了題為《用于自動(dòng)數(shù)據(jù)建模的貝葉斯合成概率程序》(Bayesian Synthesis of Probabilistic Programs for Automatic Data Modeling)的論文,旨在使用貝葉斯推理,對(duì)大量的計(jì)算機(jī)程序進(jìn)行取樣,并對(duì)每個(gè)程序的可能性進(jìn)行評(píng)分,以此作為處理想要研究的數(shù)據(jù)的可能解決方案,最終讓計(jì)算機(jī)程序找到正確的程序完成給定數(shù)據(jù)集的所有分析工作。
2.3 情景感知
情景(Context),也稱情境、上下文,是指用于描述一個(gè)實(shí)體所處狀態(tài)的任何信息,包括實(shí)體的位置、時(shí)間、周圍環(huán)境、活動(dòng)和偏好等[21]。情景感知(Contextaware)指無(wú)論使用桌面計(jì)算機(jī)還是移動(dòng)設(shè)備普適計(jì)算環(huán)境中使用情景的應(yīng)用[22]。這意味著計(jì)算機(jī)資源分布在生活中,并自主采集用戶的情景數(shù)據(jù),進(jìn)而使計(jì)算機(jī)實(shí)現(xiàn)在用戶不發(fā)出服務(wù)請(qǐng)求的情況下自主判斷何時(shí)提供以及提供何種服務(wù),簡(jiǎn)化了用戶和網(wǎng)絡(luò)的交互,提升了用戶體驗(yàn)[23] 。
情景感知概念在網(wǎng)絡(luò)技術(shù)、通信技術(shù)、計(jì)算機(jī)技術(shù)和計(jì)算機(jī)應(yīng)用迅猛發(fā)展的背景下誕生,最初應(yīng)用于制造業(yè)、電子商務(wù)、農(nóng)業(yè)等行業(yè),其主要用戶對(duì)象為傳統(tǒng)大型企業(yè)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)實(shí)時(shí)采集處理等大數(shù)據(jù)技術(shù)、人機(jī)交互和計(jì)算機(jī)視覺(jué)等計(jì)算機(jī)技術(shù)、機(jī)器學(xué)習(xí)算法均得到了大幅度提升,逐步實(shí)現(xiàn)了“現(xiàn)實(shí)世界”到“虛擬世界”的映射,并依賴即時(shí)的計(jì)算機(jī)資源完成計(jì)算。在數(shù)字政府和企業(yè)數(shù)字化轉(zhuǎn)型的背景下,情境感知的服務(wù)對(duì)象覆蓋了政府以及中小企業(yè)。同時(shí),物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實(shí)等應(yīng)用場(chǎng)景的豐富,使個(gè)人用戶成為了情境感知技術(shù)的受益者。
情景感知的核心技術(shù)包括情景數(shù)據(jù)動(dòng)態(tài)采集技術(shù)、情景數(shù)據(jù)建模技術(shù)、情景推理技術(shù)。
情景數(shù)據(jù)分布于虛擬環(huán)境與實(shí)際環(huán)境中,分別對(duì)應(yīng)不同的動(dòng)態(tài)采集技術(shù)。虛擬環(huán)境(如互聯(lián)網(wǎng))中的情景數(shù)據(jù)包括用戶的搜索、點(diǎn)擊、瀏覽、下載、復(fù)制、上傳、評(píng)論等行為[21],實(shí)際環(huán)境中的情景數(shù)據(jù)包括溫度、濕度、氣壓、距離、GPS等。如何準(zhǔn)確地獲取、描述用戶的動(dòng)態(tài)情景信息是情景數(shù)據(jù)實(shí)時(shí)采集的關(guān)注問(wèn)題之一。虛擬環(huán)境中的情景數(shù)據(jù)可以從服務(wù)器端或應(yīng)用軟件中采集,實(shí)際環(huán)境中的情景數(shù)據(jù)可以從傳感器采集,為了提升數(shù)據(jù)采集的時(shí)效性和準(zhǔn)確性,也采用多傳感器協(xié)同感知的手段。
情景數(shù)據(jù)建模指通過(guò)對(duì)多源采集的情景數(shù)據(jù)進(jìn)行統(tǒng)一模型加工,使其具有一致的形式和語(yǔ)義,以提升情景數(shù)據(jù)的融合和情景推理的效率。情景數(shù)據(jù)建模不同于數(shù)據(jù)分析挖掘中的數(shù)據(jù)建模,前者的關(guān)注點(diǎn)在于如何將多源異構(gòu)數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中,后者的關(guān)注點(diǎn)在于如何構(gòu)建符合應(yīng)用場(chǎng)景需求的數(shù)學(xué)模型以完成情景推理。情景數(shù)據(jù)建模的方法包括鍵-值對(duì)模型、模式標(biāo)識(shí)模型、圖形模型、面向?qū)ο竽P?、邏輯模型和本體模型等。在不同的情景感知場(chǎng)景下,可選取合適的一種或多種情景數(shù)據(jù)建模方法,如社會(huì)情景建模多采用基于圖形的和基于本體的建模方法[24] 。
情景推理指基于情景感知規(guī)則推斷出用戶的需求并向用戶提供對(duì)應(yīng)的服務(wù)。由于情景數(shù)據(jù)采集和傳輸設(shè)備故障問(wèn)題,以及用戶主動(dòng)反饋情景數(shù)據(jù)的意愿問(wèn)題,情景感知規(guī)則的訓(xùn)練集存在不完整的情況,因此機(jī)器學(xué)習(xí)算法是常用的情景推理技術(shù),包括決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等。同時(shí),通過(guò)構(gòu)建情景感知管理器,在用戶當(dāng)下情景滿足假設(shè)情景時(shí)提供服務(wù),在用戶當(dāng)下情景發(fā)生變化時(shí),采集情景數(shù)據(jù)并及時(shí)改變策略。
3 數(shù)據(jù)分析工具與應(yīng)用
伴隨著數(shù)據(jù)可視化、自動(dòng)化建模和情景感知技術(shù)的發(fā)展,越來(lái)越多的企業(yè)開(kāi)發(fā)了相應(yīng)的工具,并衍生了相關(guān)社區(qū)和開(kāi)源架構(gòu),擴(kuò)大了數(shù)據(jù)可視化、自動(dòng)化建模和情景感知的應(yīng)用場(chǎng)景。
3.1 數(shù)據(jù)可視化工具
國(guó)內(nèi)外數(shù)據(jù)可視化工具種類繁多,主要包括圖表類工具(如D3、Echarts、Tableau、DataV)和高級(jí)分析工具(如R、Python、Weka)。Tableau是一個(gè)商業(yè)智能工具,將數(shù)據(jù)連接、運(yùn)算、分析和圖標(biāo)相結(jié)合,簡(jiǎn)化了數(shù)據(jù)可視化流程,提升了數(shù)據(jù)可視化的易讀性。DataV是阿里云開(kāi)發(fā)的數(shù)據(jù)可視化工具,在海量數(shù)據(jù)渲染和三維數(shù)據(jù)可視化方面具備優(yōu)勢(shì),可用于創(chuàng)建地理信息可視化大屏。
數(shù)據(jù)可視化廣泛地應(yīng)用于醫(yī)療、交通等行業(yè)。在醫(yī)療行業(yè),數(shù)據(jù)可視化技術(shù)增強(qiáng)醫(yī)療領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的可讀性。例如,醫(yī)療影像(X光片、CT、MRI)數(shù)據(jù)可以借助于圖像識(shí)別技術(shù),通過(guò)區(qū)分不同灰度值來(lái)判斷病灶的精確位置,從而使得臨床決策支持系統(tǒng)更加智能化,給醫(yī)生提供更合理的診療建議[12]。同時(shí),國(guó)內(nèi)外開(kāi)展了醫(yī)療領(lǐng)域數(shù)據(jù)可視化技術(shù)研究。截止到2016年12月,在SCI檢索系統(tǒng)中,標(biāo)題中含醫(yī)療大數(shù)據(jù)可視化的相關(guān)學(xué)術(shù)論文共142篇[12],研究成果包括多GPU環(huán)境下的并行體繪制[25]、分布式醫(yī)學(xué)影像數(shù)據(jù)的Streaming技術(shù)框架研究及實(shí)踐[26]、醫(yī)學(xué)數(shù)據(jù)三維交互的可視化方法[27]等。
時(shí)空數(shù)據(jù)可視化的應(yīng)用之一是地理社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)可視化。時(shí)空數(shù)據(jù)可視化能夠形象、直觀地揭示社會(huì)網(wǎng)絡(luò)中人與人、人與位置之間的關(guān)聯(lián)、軌跡、社區(qū)等各種關(guān)系信息,成為分析地理社會(huì)網(wǎng)絡(luò)最重要的方法之一[28]。數(shù)據(jù)可視化交互由于支持用戶自主選擇變量以及自適應(yīng)可視化結(jié)果,使用戶具有良好的數(shù)據(jù)可視化操作體驗(yàn),因此擁有眾多的應(yīng)用場(chǎng)景。以交通軌跡可視化分析為例,其數(shù)據(jù)可視化維度主要分為時(shí)域分析和空域分析,分別對(duì)應(yīng)時(shí)間和空間的變化,通過(guò)多個(gè)窗口聯(lián)動(dòng)的交付操作,用戶可以根據(jù)從時(shí)間、路線、統(tǒng)計(jì)信息等多個(gè)角度獲得數(shù)據(jù)分析互動(dòng)結(jié)果,包括從海量的車輛軌跡中提取出特定違章行為的軌跡、分離出路口紅綠燈信號(hào)交替的細(xì)節(jié)以及路口的擁堵情況等。
3.2 自動(dòng)化數(shù)據(jù)建模工具
從2017年開(kāi)始,國(guó)內(nèi)外多家公司陸續(xù)推出了自動(dòng)化數(shù)據(jù)建模工具(見(jiàn)表4)。谷歌在2017年5月的I/O大會(huì)上發(fā)布了AutoML,將其應(yīng)用于深度學(xué)習(xí)的圖像識(shí)別和語(yǔ)言建模兩大數(shù)據(jù)集中。同時(shí),谷歌在2018年全面啟動(dòng)Cloud AutoML項(xiàng)目,包含神經(jīng)架構(gòu)搜索技術(shù)、learning2learn和遷移學(xué)習(xí)三大核心技術(shù),實(shí)現(xiàn)了用戶只需提供數(shù)據(jù)和拖拽界面的方式,自動(dòng)構(gòu)建深度學(xué)習(xí)模型。國(guó)內(nèi)自動(dòng)化數(shù)據(jù)建模工具包括第四范式的HyperCycle ML、百度的EasyDL、浪潮的AutoML Suite、曠視科技的Brain 、探智立方的DarwinML 等。
表4 國(guó)內(nèi)外自動(dòng)化數(shù)據(jù)建模工具
多數(shù)廠商不僅提供自動(dòng)化數(shù)據(jù)建模的產(chǎn)品工具,同時(shí)會(huì)提供完整的自動(dòng)化數(shù)據(jù)建模解決方案。目前,數(shù)據(jù)建模的數(shù)據(jù)預(yù)處理階段尚未實(shí)現(xiàn)完全自動(dòng)化,依然需要相關(guān)人員根據(jù)具體的應(yīng)用場(chǎng)景選擇合適的預(yù)處理方法。而自動(dòng)化數(shù)據(jù)建模解決方案將場(chǎng)景因素考慮在內(nèi),有針對(duì)性地完成數(shù)據(jù)準(zhǔn)備工作。曠視科技的AutoML技術(shù)提供了完整的解決方案,覆蓋了包括活體檢測(cè)、人臉識(shí)別、物體檢測(cè)、語(yǔ)義分割在內(nèi)的多種場(chǎng)景;百度的EasyDL在2018年陸續(xù)發(fā)布了定制化物體檢測(cè)服務(wù)、定制化模型設(shè)備端計(jì)算和定制化聲音識(shí)別等多個(gè)定制化能力方向,應(yīng)用于零售、安防、工業(yè)質(zhì)檢等數(shù)十個(gè)行業(yè)。
隨著自動(dòng)化數(shù)據(jù)建模工具的發(fā)展,逐漸形成了開(kāi)源工具。H2O. ai是初創(chuàng)公司Oxdata于2014年推出的一個(gè)獨(dú)立開(kāi)源機(jī)器學(xué)習(xí)平臺(tái),其功能是為APP提供快速的機(jī)器學(xué)習(xí)引擎,支持通過(guò)R與Python進(jìn)行引入包的方式開(kāi)發(fā)模型和自動(dòng)化參數(shù)調(diào)優(yōu)。目前,這款開(kāi)源自動(dòng)化數(shù)據(jù)建模工具服務(wù)于全世界超過(guò)1.8萬(wàn)家企業(yè),服務(wù)用戶數(shù)超過(guò)20萬(wàn)。
3.3 情景感知工具
計(jì)算機(jī)和手機(jī)操作系統(tǒng)通過(guò)配置情景感知API,推進(jìn)“人機(jī)合一”。Google在2016年I/O開(kāi)發(fā)者大會(huì)上發(fā)布了Awareness API,通過(guò)將調(diào)用設(shè)備的數(shù)據(jù)和傳感器來(lái)檢測(cè)用戶所處情景,包括時(shí)間、位置、活動(dòng)、耳機(jī)(插入/拔出)和天氣。而使用Google Awareness API的應(yīng)用,將通過(guò)對(duì)情景數(shù)據(jù)的采集、建模和推理,為用戶提供個(gè)性化服務(wù)。以SuperPlayer Music應(yīng)用為例,該應(yīng)用支持在用戶戶外健身、長(zhǎng)途行駛和專心工作等情景下為其推薦不同類型的音樂(lè)。微軟在Win10系統(tǒng)內(nèi)置了情景感知API,可以根據(jù)重力感應(yīng)、陀螺儀等數(shù)據(jù)判斷出用戶活動(dòng)狀態(tài),從而自動(dòng)調(diào)整Win10的情景模式,并由作為用戶私人助手的Cortana發(fā)出提醒或建議。
電商、旅游業(yè)等通過(guò)利用情景感知技術(shù),實(shí)現(xiàn)更精準(zhǔn)的個(gè)性化推薦,即通過(guò)及時(shí)獲取用戶多種情景行為數(shù)據(jù),并根據(jù)用戶情景的改變而有針對(duì)性地提供即時(shí)滿足的商品或服務(wù)。生活服務(wù)類產(chǎn)品“及時(shí)”通過(guò)將獲取的用戶地理位置與附近商家數(shù)據(jù)相連,利用藍(lán)牙、GPS、Wi-Fi定位等計(jì)算用戶的情景和位置,及時(shí)推送符合用戶需求的商家。Adomavicius等提出一種旅游推薦系統(tǒng),該系統(tǒng)結(jié)合了前置情景過(guò)濾、后置情景過(guò)濾和建模進(jìn)行情景感知推薦,基于不同的位置和季節(jié)給出不同的度假選擇[29]。
4 數(shù)據(jù)分析技術(shù)發(fā)展趨勢(shì)
隨著未來(lái)數(shù)據(jù)量的大幅攀升和分析需求的不斷提升,數(shù)據(jù)分析技術(shù)也將在多個(gè)維度拓展增強(qiáng)。由于隨著數(shù)據(jù)量的大幅增加,現(xiàn)有的處理分析技術(shù)可能無(wú)法滿足數(shù)據(jù)的及時(shí)分析,因此增強(qiáng)數(shù)據(jù)分析能力將是未來(lái)數(shù)據(jù)分析技術(shù)發(fā)展的重要領(lǐng)域。龐大的數(shù)據(jù)量必將給數(shù)據(jù)管理帶來(lái)新的挑戰(zhàn),未來(lái)數(shù)據(jù)分析技術(shù)的發(fā)展也將與數(shù)據(jù)管理技術(shù)全面適配。此外,未來(lái)數(shù)據(jù)分析技術(shù)的發(fā)展也必將沿襲智能化的發(fā)展,決策自動(dòng)化或自動(dòng)化決策支持將為數(shù)據(jù)分析處理提供強(qiáng)有力的推動(dòng)力。
由于關(guān)鍵方法、處理流程和應(yīng)用場(chǎng)景的不同,數(shù)據(jù)分析技術(shù)在數(shù)據(jù)可視化、自動(dòng)化建模和情景感知方面呈現(xiàn)出不同的發(fā)展趨勢(shì)。
(1)增強(qiáng)實(shí)時(shí)復(fù)雜數(shù)據(jù)流的可視化效果與可視化交互是數(shù)據(jù)可視化技術(shù)的主要突破點(diǎn)。在時(shí)空數(shù)據(jù)可視化方面,多尺度時(shí)空可視分析技術(shù)一直是一個(gè)挑戰(zhàn),即在統(tǒng)一空間內(nèi),將多源數(shù)據(jù)進(jìn)行可視化處理并提供有效的可視分析手段[19]。在確保展示信息的完整性和準(zhǔn)確性的同時(shí),提升信息的可讀性,通過(guò)交互的方式滿足用戶在不同維度下解讀信息,同時(shí)表達(dá)各維度之間的關(guān)聯(lián)信息。
(2)自動(dòng)化建模的技術(shù)發(fā)展主要是提高模型的準(zhǔn)確性和穩(wěn)定性,并簡(jiǎn)化使用。深化與具體應(yīng)用場(chǎng)景的結(jié)合,增加各場(chǎng)景下的訓(xùn)練數(shù)據(jù)集及相應(yīng)的自動(dòng)化建模方法,對(duì)于通用場(chǎng)景而言,以API或AI應(yīng)用的方式提供服務(wù)。
(3)情景數(shù)據(jù)的融合和管理是情景感知技術(shù)的發(fā)展核心。不同數(shù)據(jù)源、傳感器產(chǎn)生的情景數(shù)據(jù)是異構(gòu)的,同時(shí)也存在語(yǔ)義上的差異,盡管在現(xiàn)有情景數(shù)據(jù)建模的方法下可以實(shí)現(xiàn)形式和語(yǔ)義上的統(tǒng)一,但這一過(guò)程覆蓋的情景數(shù)據(jù)有限且缺乏工具支持。同時(shí),管理情景數(shù)據(jù)將提升數(shù)據(jù)質(zhì)量,減少冗余缺失數(shù)據(jù),增加情景推理的有效性。
聯(lián)系客服