商業(yè)智能的技術(shù)與實踐早在20世紀90年代末,商業(yè)智能(Business Intelligence)技術(shù)就被一家計算機權(quán)威雜志評選為未來幾年最具影響力的IT技術(shù)之一。雖然近幾年整個IT界不景氣,但與商業(yè)智能相關(guān)的產(chǎn)品研發(fā)及應(yīng)用卻方興未艾,且數(shù)以百計的IT企業(yè)不斷涌進這一新興領(lǐng)域,BI應(yīng)用甚至成為了IT界又一全新“亮點”。究竟什么是商業(yè)智能技術(shù)?又有哪些技術(shù)支撐著如此具有前景的商業(yè)智能應(yīng)用?答案就在—
商業(yè)智能技術(shù)并不是基礎(chǔ)技術(shù)或者產(chǎn)品技術(shù),它是數(shù)據(jù)倉庫、聯(lián)機分析處理OLAP(Online Analytical Processing)和數(shù)據(jù)挖掘等相關(guān)技術(shù)走向商業(yè)應(yīng)用后形成的一種應(yīng)用技術(shù)。
商業(yè)智能系統(tǒng)主要實現(xiàn)將原始業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換為企業(yè)決策信息的過程。與一般的信息系統(tǒng)不同,它在處理海量數(shù)據(jù)、數(shù)據(jù)分析和信息展現(xiàn)等多個方面都具有突出性能。
商業(yè)智能系統(tǒng)架構(gòu)圖
商業(yè)智能系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉庫、數(shù)據(jù)分析及數(shù)據(jù)展現(xiàn)四個主要階段。數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,它包括數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載三個過程。建立數(shù)據(jù)倉庫則是處理海量數(shù)據(jù)的基礎(chǔ)。數(shù)據(jù)分析是體現(xiàn)系統(tǒng)智能的關(guān)鍵,一般采用聯(lián)機分析處理和數(shù)據(jù)挖掘兩大技術(shù)。聯(lián)機分析處理不僅進行數(shù)據(jù)匯總/聚集,同時還提供切片、切塊、下鉆、上卷和旋轉(zhuǎn)等數(shù)據(jù)分析功能,用戶可以方便地對海量數(shù)據(jù)進行多維分析。數(shù)據(jù)挖掘的目標則是挖掘數(shù)據(jù)背后隱藏的知識,通過關(guān)聯(lián)分析、聚類和分類等方法建立分析模型,預(yù)測企業(yè)未來發(fā)展趨勢和將要面臨的問題。在海量數(shù)據(jù)和分析手段增多的情況下,數(shù)據(jù)展現(xiàn)則主要保障系統(tǒng)分析結(jié)果的可視化。一般認為數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘技術(shù)是商業(yè)智能的三大組成部分。
數(shù)據(jù)倉庫:商業(yè)智能的基礎(chǔ)
對于一個企業(yè)來說,最關(guān)鍵也最為重要的是,如何以一種有效的方式逐步整理各個業(yè)務(wù)處理系統(tǒng)中積累下來的歷史數(shù)據(jù),并通過靈活有效的方式為各級業(yè)務(wù)人員提供統(tǒng)一的信息視圖,從而在整個企業(yè)內(nèi)實現(xiàn)真正的信息共享。數(shù)據(jù)倉庫技術(shù)正好滿足了這一需求。數(shù)據(jù)倉庫是商業(yè)智能系統(tǒng)的基礎(chǔ),如果沒有數(shù)據(jù)倉庫,沒有企業(yè)數(shù)據(jù)的融合,數(shù)據(jù)分析就成為了無源之水。
數(shù)據(jù)倉庫主要有四個重要特征:
1、數(shù)據(jù)倉庫是面向主題的。傳統(tǒng)的操作型系統(tǒng)是圍繞公司的應(yīng)用進行組織。如對一個電信公司來說,應(yīng)用問題可能是營業(yè)受理、專業(yè)計費和客戶服務(wù)等,而主題范圍可能是客戶、套餐、繳費和欠費等。
2、數(shù)據(jù)倉庫是集成的。數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)由面向應(yīng)用的操作型環(huán)境向面向分析的數(shù)據(jù)倉庫的集成。由于各個應(yīng)用系統(tǒng)在編碼、命名習(xí)慣、實際屬性、屬性度量等方面不一致,當數(shù)據(jù)進入數(shù)據(jù)倉庫時,要采用某種方法來消除這些不一致性。
3、數(shù)據(jù)倉庫是非易失的。數(shù)據(jù)倉庫的數(shù)據(jù)通常是一起載入與訪問的,在數(shù)據(jù)倉庫環(huán)境中并不進行一般意義上的數(shù)據(jù)更新。
4、數(shù)據(jù)倉庫隨時間的變化性。數(shù)據(jù)倉庫中的數(shù)據(jù)隨時間變化的特性表現(xiàn)在三個方面:
1)數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠遠長于操作型系統(tǒng)中的數(shù)據(jù)時間期限。操作型系統(tǒng)的時間期限一般是6 0~9 0天,而數(shù)據(jù)倉庫中數(shù)據(jù)的時間期限通常是5~1 0年。
2)操作型數(shù)據(jù)庫含有“當前值”的數(shù)據(jù),這些數(shù)據(jù)的準確性在訪問時是有效的,同樣當前值的數(shù)據(jù)能被更新;而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復(fù)雜的快照。
3)操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時間元素,如年、月、日等;而數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含時間元素。
OLAP:海量數(shù)據(jù)分析利器
對于TB級的海量數(shù)據(jù),聯(lián)機分析處理OLAP無疑是一種有力的數(shù)據(jù)分析工具。它可以讓管理者靈活地對海量數(shù)據(jù)進行瀏覽分析。利用多維的概念,OLAP提供了切片、切塊、下鉆、上卷和旋轉(zhuǎn)等多維度分析與跨維度分析功能。相對于普通的靜態(tài)報表,OLAP更能滿足決策者和分析人員對數(shù)據(jù)倉庫數(shù)據(jù)的分析。
區(qū)別于傳統(tǒng)的聯(lián)機事務(wù)處理 (OLTP)系統(tǒng),OLAP有12條準則:
1、 OLAP模型必須提供多維概念視圖
2、 透明性準則
3、 存取能力推測
4、 穩(wěn)定的報表能力
5、 客戶/服務(wù)器體系結(jié)構(gòu)
6、 維的等同性準則
7、 動態(tài)的稀疏矩陣處理準則
8、 多用戶支持能力準則
9、 非受限的跨維操作
10、直觀的數(shù)據(jù)操縱
11、靈活的報表生成
12、不受限的維與聚集層次
雖然隨著技術(shù)的發(fā)展,部分準則有所突破,但這些準則仍然是OLAP技術(shù)的基礎(chǔ)。
OLAP系統(tǒng)架構(gòu)主要分為基于關(guān)系數(shù)據(jù)庫的ROLAP(Relational OLAP)、基于多維數(shù)據(jù)庫的MOLAP(Multidimensional OLAP)、基于混合數(shù)據(jù)組織的HOLAP(Hybrid OLAP)三種。前兩種方式比較常見。ROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實現(xiàn)。它以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn)。它以多維數(shù)據(jù)組織方式為核心,使用多維數(shù)組存儲數(shù)據(jù)。MOLAP查詢方式采用索引搜索與直接尋址相結(jié)合的方式,比ROLAP的表索引搜索和表連接方式速度要快得多。
數(shù)據(jù)挖掘:洞察力之源
與展示企業(yè)歷史和現(xiàn)有信息的靜態(tài)、動態(tài)報表及查詢等分析方法不同,數(shù)據(jù)挖掘是從數(shù)據(jù)庫中智能地尋找模型,從海量數(shù)據(jù)中歸納出有用信息。可以說通過商業(yè)智能系統(tǒng),企業(yè)獲得洞察力的主要手段就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據(jù)挖掘技術(shù)可分為描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測型數(shù)據(jù)挖掘包括分類、回歸及時間序列分析等。
1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對不同客戶群體的營銷方案。
3、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性;序列模式與此類似,尋找的是事件之間時間上的相關(guān)性,如對股票漲跌的分析等。
4、分類:目的是構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個類別標記。一個具體樣本的形式可表示為:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示類別。
5、回歸:是通過具有已知值的變量來預(yù)測其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標準統(tǒng)計技術(shù)。一般同一個模型既可用于回歸也可用于分類。常見的算法有邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等。
6、時間序列:時間序列是用變量過去的值來預(yù)測未來的值。
數(shù)據(jù)挖掘另一個重要方面是與之相關(guān)的方法論。一般的事務(wù)處理系統(tǒng)甚至一些只提供報表分析功能的簡單商業(yè)智能系統(tǒng),建成以后只需要少量的工程維護工作,而采用數(shù)據(jù)挖掘技術(shù)的商業(yè)智能系統(tǒng)往往有很大不同。因為數(shù)據(jù)挖掘是一個商業(yè)理解、數(shù)據(jù)理解、建模、評估等一系列多次反復(fù)、多次調(diào)整的過程,并且模型的應(yīng)用也不是一成不變的,在適當?shù)臅r候需要更新和重建。所以一般的商業(yè)智能項目并不追求一次性工程建設(shè),更倡導(dǎo)的是一種與企業(yè)業(yè)務(wù)緊密聯(lián)系能夠提升企業(yè)競爭力的咨詢服務(wù),而且熟悉業(yè)務(wù)和分析方法的分析人員在商業(yè)智能系統(tǒng)的應(yīng)用中起著至關(guān)重要的作用。從這一點也能看出為什么說BI是企業(yè)MIS之后更高層次、更具戰(zhàn)略意義的應(yīng)用。
誠然,對于數(shù)據(jù)挖掘或者商業(yè)智能也應(yīng)有一個客觀的認識。從廣義上,數(shù)據(jù)挖掘是在傳統(tǒng)數(shù)據(jù)分析方法基礎(chǔ)上,融合了數(shù)據(jù)庫、人工智能等多方面技術(shù)形成的知識發(fā)現(xiàn)技術(shù)。它對企業(yè)的信息分析必然產(chǎn)生積極的效果,對企業(yè)經(jīng)營決策的輔助作用也是顯而易見。但是數(shù)據(jù)挖掘只是一些技術(shù)和方法,并非萬能,而商業(yè)智能系統(tǒng)更多的是為企業(yè)提供一個經(jīng)營分析的環(huán)境和一些分析工具。如何切合企業(yè)經(jīng)營實際,從海量的經(jīng)營數(shù)據(jù)中挖掘出有助于企業(yè)市場競爭的知識,商業(yè)智能系統(tǒng)本身體現(xiàn)并不多。因此,企業(yè)洞察力的真正來源是商業(yè)智能系統(tǒng)以及數(shù)據(jù)挖掘技術(shù)的成功應(yīng)用和實踐。
聯(lián)系客服