作者:劉建志(亞洲物聯(lián)網(wǎng)聯(lián)盟秘書長)
物聯(lián)網(wǎng)智庫 整理發(fā)布
轉(zhuǎn)載請注明來源
------ 【導(dǎo)讀】 ------
好的物聯(lián)網(wǎng)平臺層都應(yīng)該提供具備機(jī)器學(xué)習(xí)功能的數(shù)據(jù)分析系統(tǒng),幫助鏈接到這個物聯(lián)網(wǎng)平臺的各種物聯(lián)網(wǎng)應(yīng)用方案分析傳感器數(shù)據(jù),尋找相關(guān)性,并做出最佳響應(yīng)。
物聯(lián)網(wǎng)(Internet of Thing, IoT)廣義定義是萬物皆可連接到網(wǎng)絡(luò),并可互相溝通或交換信息,以達(dá)到某種便利人類生活的目的。先前的文章介紹到裝置管理平臺,它一直聚焦在透過一個中央的裝置管理平臺將裝置連接到網(wǎng)絡(luò)、裝置間使用哪一種或哪些通訊協(xié)議溝通、用裝置管理平臺如何管控這些裝置等議題。到這里為止都屬于硬件架構(gòu)設(shè)計范疇(雖然裝置管理平臺本身是軟件),然而如何讓物體本身成為智能對象(Smart object)就是純軟件的范疇了。
相信很多讀者都聽過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這些熱門名詞,其中機(jī)器學(xué)習(xí)(Machine Learning, ML)之所以熱門,是因?yàn)榇蟛糠謱<叶颊J(rèn)為機(jī)器學(xué)習(xí)是成就智能對象的核心關(guān)鍵,因此機(jī)器學(xué)習(xí)方法堪稱是"物聯(lián)"、"智能"的核心技術(shù)。
物聯(lián)網(wǎng)的應(yīng)用非常廣泛,只要物體可以透過傳感器(Sensor)收集監(jiān)測到的訊號或信息,提供到裝置管理平臺再鏈接到應(yīng)用程序處理后,反饋出特定的決策再指示原始對象做進(jìn)一步動作的領(lǐng)域都是可能的應(yīng)用場域,例如:智慧門鎖(透過家庭成員的進(jìn)出時間判定物流配送最佳時間)、智能冰箱(監(jiān)控冰箱里的食物保存狀態(tài)、甚至決定何時補(bǔ)貨)、智能汽車(透過路徑分析節(jié)省能源或交通時間、監(jiān)控車輛使用狀態(tài),決定何時進(jìn)場維修)、智能農(nóng)業(yè)(監(jiān)控農(nóng)田環(huán)境狀態(tài),決定何時灑水或施肥)、智能家居(有效的節(jié)能與生活輔助)、智能供應(yīng)鏈克制化、智慧城市、智能工廠(提升生產(chǎn)效率或降低耗損)等,這些智能或智能的核心都依賴于機(jī)器學(xué)習(xí)為主的預(yù)測分析(Predictive analytics)。
數(shù)據(jù)分析的議題除了以機(jī)器學(xué)習(xí)為核心外,還有數(shù)據(jù)超載與新的因素加入時系統(tǒng)如何快速響應(yīng)等問題。一方面,物聯(lián)網(wǎng)中連網(wǎng)的裝置無時無刻都在收集數(shù)據(jù),時間久了自然會造成數(shù)據(jù)超載問題,僅僅依靠人力必然無法進(jìn)行實(shí)時的分析和利用。另一方面,數(shù)據(jù)科學(xué)家通過分析大量的數(shù)據(jù)來辨認(rèn)模式并人工定義規(guī)則,盡管已預(yù)建良好的應(yīng)變系統(tǒng),應(yīng)用方案實(shí)際實(shí)施環(huán)境中隨時出現(xiàn)新的因素卻可能影響正確行動的判斷。如何確保物聯(lián)網(wǎng)系統(tǒng)在快速變化的環(huán)境中,仍然能夠做出最佳響應(yīng)也是一項很有挑戰(zhàn)性的課題。
機(jī)器學(xué)習(xí)先驅(qū)阿瑟·塞穆爾(Arthur Samuel)說:「機(jī)器學(xué)習(xí)使計算機(jī)賦有學(xué)習(xí)能力,不需要顯示的程序指令就能創(chuàng)建算法,從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測」。
如下圖(Figure 1)所示,從傳感器所搜集到的資料(Data),經(jīng)整理后變成信息(Information),再透過機(jī)器學(xué)習(xí)之類的方法將之轉(zhuǎn)化成有用的知識(Knowledge),最后就會蛻變成可執(zhí)行的智能(Wisdom),這樣才真正讓對象有了智能。
給一個簡單的物聯(lián)網(wǎng)應(yīng)用定義一個規(guī)則,比如當(dāng)溫度太高時,就把冷氣壓縮機(jī)啟動——該規(guī)則非常簡單。 然而確定多個傳感器的輸入與外部因素之間的相關(guān)性卻不是想當(dāng)然的結(jié)論。舉個例子說明:根據(jù)自動販賣機(jī)的銷售狀況、庫存水平、當(dāng)?shù)氐奶鞖忸A(yù)報和促銷廣告等傳感器數(shù)據(jù),系統(tǒng)必須決定何時派遣一輛卡車去補(bǔ)充自動販賣機(jī)內(nèi)的商品。如果判斷時間錯誤導(dǎo)致出現(xiàn)貨品空窗期或擺放不合適的商品,都可能導(dǎo)致不同的銷售失敗。
好的物聯(lián)網(wǎng)平臺層都應(yīng)該提供具備機(jī)器學(xué)習(xí)功能的數(shù)據(jù)分析系統(tǒng),幫助鏈接到這個物聯(lián)網(wǎng)平臺的各種物聯(lián)網(wǎng)應(yīng)用方案分析傳感器數(shù)據(jù),尋找相關(guān)性,并做出最佳響應(yīng),解決類似上面自動販賣機(jī)補(bǔ)貨時間與內(nèi)容的議題。這個系統(tǒng)還必須不斷監(jiān)控它的預(yù)測準(zhǔn)確度,持續(xù)訓(xùn)練完善既有的算法,提高決策的正確性與速度。
目前,主要有兩類的機(jī)器學(xué)習(xí)方法:
監(jiān)督式學(xué)習(xí)(Supervised learning):
它是指在一組實(shí)例的基礎(chǔ)上開發(fā)一種算法。例如,一個簡單的智慧零售為例可能是一個產(chǎn)品每天的銷售記錄。該算法計算的是一種相關(guān)性,有關(guān)每個產(chǎn)品在一天之中到底有多少有可能會順利出售。這個信息有助于確定何時傳送卡車來補(bǔ)充自動販賣機(jī)器。過去常見的監(jiān)督式學(xué)習(xí)方法為支持向量機(jī)(Support Vector Machine, SVM),現(xiàn)在流行的監(jiān)督式學(xué)習(xí)方法就是眾口傳頌的深度學(xué)習(xí)法(Deep learning)。
非監(jiān)督式學(xué)習(xí)(Unsupervised Learning):
不提供人為定義標(biāo)簽(如銷售/天),系統(tǒng)需要自己去分析探索關(guān)鍵因素。它主動提供所有與分析相關(guān)的數(shù)據(jù),而讓系統(tǒng)去主動識別不那么明顯的相關(guān)性,例如,價格折扣、本地事件和天氣狀態(tài)(例如:下雨與否)都可能影響自動販賣機(jī)的銷售數(shù)量。常見的非監(jiān)督式學(xué)習(xí)法包含有:主成份分析(Principal Component Analysis, PCA)、關(guān)聯(lián)規(guī)則學(xué)習(xí)(Association rule learning)、分群(Clustering)算法這些最紅火的深度學(xué)習(xí)法(Deep learning)。
按照Industrial InternetConsortium (IIC)提出的Industrial Internet ReferenceArchitecture (IIRA)的定義,一個物聯(lián)網(wǎng)應(yīng)用方案(IoT solution)可以分成三個層次:各項硬件傳感器的裝置層(Edge tier)、串連裝置層與企業(yè)層的平臺層(Platform tier)、企業(yè)層(Enterprise tier)。
物聯(lián)網(wǎng)中設(shè)備記錄文件(Machine log)以及傳感器產(chǎn)生的數(shù)據(jù)由裝置層中的網(wǎng)關(guān)(Gateway)收集轉(zhuǎn)換,經(jīng)由網(wǎng)絡(luò)傳入位于云端或是企業(yè)內(nèi)部私有云中的數(shù)據(jù)分析系統(tǒng),數(shù)據(jù)分析的前端模塊執(zhí)行實(shí)時串流數(shù)據(jù)處理,由于每個單位時間都持續(xù)由裝置層中分散的設(shè)備節(jié)點(diǎn)動態(tài)產(chǎn)生大量數(shù)據(jù),因此前端模塊必須具有實(shí)時接收處理串流數(shù)據(jù)的能力,此時數(shù)據(jù)可經(jīng)由分散處理的分析引擎與分散儲存的數(shù)據(jù)庫達(dá)成計算資源動態(tài)規(guī)劃支持。
在數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)處理過程需進(jìn)行數(shù)據(jù)清理(Data cleaning),異質(zhì)性數(shù)據(jù)匯整等數(shù)據(jù)前處理工作(Data pre-processing),關(guān)于異質(zhì)性數(shù)據(jù)分析將另以專文說明。這里可參考以下工作原則進(jìn)行:
補(bǔ)足原始數(shù)據(jù)不完整的字段,如時間位置或說明。
過濾有錯誤的數(shù)據(jù)。
對數(shù)據(jù)的單位和坐標(biāo)進(jìn)行轉(zhuǎn)換。
幾種基本的分析模式也可以在此階段運(yùn)行,如加總、相關(guān)性。
同時生成并處理事件。這些結(jié)果倒入控制面板(Dashboard)以圖像化的方式呈現(xiàn)給用戶。
處理后的數(shù)據(jù)置于數(shù)據(jù)庫中長期保存以利后續(xù)的進(jìn)一步分析。較為復(fù)雜的預(yù)測建模(Predictive analytics)分析需要統(tǒng)計機(jī)率建模與機(jī)器學(xué)習(xí),則采批次分析模塊進(jìn)行。
預(yù)測建模分析核心精神是基于統(tǒng)計模型的回歸分析模式,采用大量歷史數(shù)據(jù)提供建模,同時需要引入許多的外部數(shù)據(jù),例如產(chǎn)業(yè)領(lǐng)域知識,供機(jī)器學(xué)習(xí)中特征工程(Feature engineering)使用。文字以及影像等非結(jié)構(gòu)化數(shù)據(jù)特性則另外藉由特定模塊處理,產(chǎn)生對應(yīng)的半結(jié)構(gòu)化數(shù)據(jù)(Semi-structure)以供后續(xù)建模所需特征工程使用。
目前物聯(lián)網(wǎng)數(shù)據(jù)分析的來源數(shù)據(jù)可能包含廠房設(shè)備的狀態(tài),例如輸入電流、震動,環(huán)境因素如溫度、影像和語言文字,或是用戶行為等在線的數(shù)據(jù)。同時導(dǎo)入多種外部訊息用以輔助數(shù)據(jù)分析,例如政府公開資料、天氣溫濕度、新聞事件、大眾輿論、人機(jī)互動等交互使用。因此好的數(shù)據(jù)分析系統(tǒng)應(yīng)具備以下幾個重要特征:
在領(lǐng)域?qū)<覅f(xié)助下,基于場景知識庫建立需求,以規(guī)則與事例建構(gòu)專家系統(tǒng),以自動化的規(guī)則處理方法以匯整運(yùn)用大量的知識。
統(tǒng)計專家結(jié)合領(lǐng)域知識對數(shù)據(jù)探索分析,然后進(jìn)行特征工程抽取出適當(dāng)?shù)奶卣鳎瑢?dǎo)入機(jī)器學(xué)習(xí),先進(jìn)的非監(jiān)督學(xué)習(xí)算法可以自動化分析得到帶有最多信息量的特征,應(yīng)用于預(yù)測建模過程特征工程使用。
機(jī)器學(xué)習(xí):實(shí)作并整合各種算法,持續(xù)評估運(yùn)算效能,以統(tǒng)計采樣驗(yàn)證模型的精確度,自動化混合多種算法并且調(diào)整參數(shù),達(dá)到優(yōu)化的預(yù)測結(jié)果。
數(shù)據(jù)分析系統(tǒng)除了實(shí)作各種機(jī)器學(xué)習(xí)的算法,為了滿足不同產(chǎn)業(yè)、不同場景或主題的物聯(lián)網(wǎng)應(yīng)用方案,還需要因不同產(chǎn)業(yè)或場景應(yīng)用提出不同評估驗(yàn)證方式,以確保或提升各種預(yù)測建模方法的預(yù)測精確度和適用性現(xiàn)階段期待一個數(shù)據(jù)分析與預(yù)測系統(tǒng)能夠通用性地解決各行各業(yè)、個別廠商數(shù)據(jù)分析需求,例如:應(yīng)用于在線串流數(shù)據(jù)實(shí)時分析、進(jìn)而預(yù)測即將發(fā)生的設(shè)備異常狀態(tài)診斷、或是產(chǎn)能設(shè)備參數(shù)優(yōu)化以及客制化生產(chǎn)的配方提供,恐怕還需等若干年后數(shù)據(jù)分析方法有更突破性進(jìn)展才有可能實(shí)現(xiàn)。因?yàn)閱慰繖C(jī)器學(xué)習(xí)雖然可達(dá)到一定的效果,仍舊有學(xué)習(xí)成效上限存在,目前業(yè)界采用的方法是除了機(jī)器學(xué)習(xí)外,再搭配領(lǐng)域?qū)<腋鶕?jù)領(lǐng)域知識來制定相關(guān)有效的規(guī)則來輔助機(jī)器學(xué)習(xí),或需數(shù)據(jù)科學(xué)家分析大量的數(shù)據(jù)后所得出的有用信息回饋給機(jī)器學(xué)習(xí),以求達(dá)到更高效的均衡問題解決方案。
不少有志于物聯(lián)網(wǎng)應(yīng)用方案研發(fā)的廠商往往選擇自行開發(fā)整體方案,宣稱有能力自行建立數(shù)據(jù)分析/預(yù)測系統(tǒng),往往做出來的數(shù)據(jù)分析系統(tǒng)只是最基本的統(tǒng)計分析,缺乏真正使得整個物聯(lián)網(wǎng)應(yīng)用方案"智能"的能力。
看了本文的說明后,往后需求方在評估上門推銷的"智慧"物聯(lián)網(wǎng)方案時,應(yīng)該要詢問方案提供廠商這些基本問題,才不致花錢買到不"智能"的物聯(lián)網(wǎng)應(yīng)用方案。至于有意投入開發(fā)物聯(lián)網(wǎng)應(yīng)用方案的廠商,最好在規(guī)劃研發(fā)之初審慎思考是否有能力開發(fā)這個核心系統(tǒng),否則就應(yīng)該尋找優(yōu)秀的數(shù)據(jù)分析/預(yù)測團(tuán)隊合作。
聯(lián)系客服