這是傅一平的第361篇原創(chuàng)
很多年前阿里出了《大數(shù)據(jù)之路》一書,在數(shù)據(jù)技術(shù)層面給出了有價值的指導(dǎo),算是一本經(jīng)典的書籍。最近華為出版了《華為數(shù)據(jù)之道》一書,給出了非數(shù)字原生企業(yè)在數(shù)據(jù)管理方面的實戰(zhàn)經(jīng)驗,特別適合于面臨數(shù)字化轉(zhuǎn)型的企業(yè)管理者、數(shù)據(jù)從業(yè)者。
這兩本書的特點都是體系化程度比較好,如果說《大數(shù)據(jù)之路》是魚,那《華為數(shù)據(jù)之道》就是水,沒有良好的數(shù)據(jù)治理體系保駕護航,數(shù)據(jù)技術(shù)要產(chǎn)生實際價值也很難。
一、整體框架
《華為數(shù)據(jù)之道》共有10個章節(jié)的內(nèi)容,其中最核心的內(nèi)容包括四大部分:數(shù)據(jù)湖、數(shù)據(jù)主題連接、數(shù)據(jù)消費及數(shù)據(jù)治理,見下圖的整體框架。
個人認為,數(shù)據(jù)治理對應(yīng)著第二章的綜合治理體系、第三章的數(shù)據(jù)分類、第四章的信息架構(gòu)、第八章的數(shù)據(jù)質(zhì)量及第九章的數(shù)據(jù)安全,數(shù)據(jù)湖和數(shù)據(jù)主題聯(lián)結(jié)對應(yīng)著第五章,合起來叫做數(shù)據(jù)底座,數(shù)據(jù)消費對應(yīng)著第六章。
從框架角度來講,傳統(tǒng)的大數(shù)據(jù)平臺體系框架(如下圖所示)與華為的數(shù)據(jù)體系框架跟沒有大的區(qū)別,只是每個模塊的稱呼有所不同,模塊的劃分稍有區(qū)別。
1、數(shù)據(jù)交換層+數(shù)據(jù)處理層對應(yīng)著華為的數(shù)據(jù)湖。
2、數(shù)據(jù)開放層中的基礎(chǔ)模型、融合模型及洞察主題對應(yīng)著華為的主題聯(lián)結(jié)。
3、數(shù)據(jù)開放服務(wù)對應(yīng)著華為的數(shù)據(jù)服務(wù)。
4、數(shù)據(jù)處理層的分析引擎+應(yīng)用層對應(yīng)著華為的數(shù)據(jù)消費,把數(shù)據(jù)分析這種引擎下沉歸類到平臺端還是上浮歸類到消費端就仁者見仁智者見智了。
5、數(shù)據(jù)資產(chǎn)管理+資源管理對應(yīng)著華為的數(shù)據(jù)治理,但華為的數(shù)據(jù)治理模塊不僅僅指治理平臺工具,還包括組織、機制和流程等等。
二、數(shù)據(jù)治理
《華為數(shù)據(jù)之道》提到,只有構(gòu)筑一套企業(yè)級的數(shù)據(jù)綜合治理體系,才能確保關(guān)鍵數(shù)據(jù)資產(chǎn)有清晰的業(yè)務(wù)管理責(zé)任,IT建設(shè)有穩(wěn)定的原則和依據(jù),作業(yè)人員有規(guī)范的流程和指導(dǎo)。當(dāng)面臨爭議時,有裁決機構(gòu)和升級處理機制,治理過程所需的人才、組織、預(yù)算有充足的保障,最終建立有效的數(shù)據(jù)治理環(huán)境,數(shù)據(jù)的質(zhì)量和安全得到保障,數(shù)據(jù)的價值才能真正發(fā)揮出來。
這段話很精辟,衡量一個企業(yè)數(shù)據(jù)治理水平的高低,最關(guān)鍵的一是有沒有公司級的數(shù)據(jù)治理政策,二是這個政策有沒有組織的保障,三是這個保障流程運行的質(zhì)量如何,我不知道華為是否真的全做到了,但政策和組織保障這部分內(nèi)容寫得比較詳細。
1、數(shù)據(jù)治理政策的頂層設(shè)計
數(shù)據(jù)治理政策是華為數(shù)據(jù)治理的頂層設(shè)計,該政策在華為公司EMT(經(jīng)營管理團隊)匯報通過后,由總裁簽發(fā),該政策明確了數(shù)據(jù)工作在華為公司治理體系的地位,體現(xiàn)了公司管理層對數(shù)據(jù)工作重要性的統(tǒng)一認知。
華為數(shù)據(jù)管理總綱明確了數(shù)據(jù)治理最基本的原則,包括信息架構(gòu)、數(shù)據(jù)產(chǎn)生、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量的職責(zé)和分工。在這個基礎(chǔ)上,華為針對信息架構(gòu)、數(shù)據(jù)質(zhì)量及數(shù)據(jù)源還給出了具體的管理政策。
比如信息架構(gòu)管理原則第二條規(guī)定:所有變革項目須遵從數(shù)據(jù)管控要求,對于不遵從管控要求的變革項目,數(shù)據(jù)管控組織擁有一票否決權(quán)。
比如數(shù)據(jù)產(chǎn)生管理原則第三條規(guī)定:關(guān)鍵數(shù)據(jù)須定義單一數(shù)據(jù)源,一點錄入,多點調(diào)用,數(shù)據(jù)質(zhì)量問題應(yīng)在源頭解決。
比如信息架構(gòu)管理政策第一條:各數(shù)據(jù)Owner負責(zé)其所轄數(shù)據(jù)的信息架構(gòu)建設(shè)和維護,承接及落實公司的數(shù)據(jù)規(guī)劃要求。
有時候我們連公司級的數(shù)據(jù)政策針對的管理對象都描述不清楚,比如信息架構(gòu)到底是什么,華為不僅明確了,還把原則政策化了,這一點難能可貴。
2、業(yè)務(wù)負責(zé)制的責(zé)任體系
華為公司的每一個數(shù)據(jù),必須由對應(yīng)的業(yè)務(wù)部門承擔(dān)管理責(zé)任,且必須有唯一的數(shù)據(jù)Owner。業(yè)務(wù)負責(zé)制的數(shù)據(jù)管理責(zé)任體系,是華為數(shù)據(jù)治理體系多年實踐經(jīng)驗的結(jié)晶,是確保體系發(fā)揮作用的基石。
這個真的非常好,但知易行難。
數(shù)據(jù)誰生成,誰負責(zé),本來天經(jīng)地義,但現(xiàn)在IT背鍋不在少數(shù),大多數(shù)企業(yè)的數(shù)據(jù)由于沒有明確Owner,因此一旦出現(xiàn)數(shù)據(jù)質(zhì)量問題就會相互扯皮,這是數(shù)據(jù)質(zhì)量問題始終無法解決的一個根源,有時候業(yè)務(wù)數(shù)據(jù)出現(xiàn)問題還要IT倒過來求著業(yè)務(wù)去規(guī)范錄入,完全是本末倒置。
華為按分層分級原則任命數(shù)據(jù)Owner,在公司層面設(shè)置公司數(shù)據(jù)Owner,在各業(yè)務(wù)領(lǐng)域設(shè)置領(lǐng)域數(shù)據(jù)Owner,這樣既能確保公司數(shù)據(jù)工作統(tǒng)籌規(guī)劃,也能同時兼顧各業(yè)務(wù)領(lǐng)域靈活多變的特征。
為落實公司制定的數(shù)據(jù)管理目標,在各業(yè)務(wù)領(lǐng)域要建立實體化的數(shù)據(jù)管理專業(yè)組織,實線向GPO(各業(yè)務(wù)領(lǐng)域的全球流程Owner,通常是業(yè)務(wù)領(lǐng)域的最高主管)匯報,承接并落實GPO的數(shù)據(jù)管理責(zé)任,虛線向公司管理部匯報,遵從公司統(tǒng)一的數(shù)據(jù)管理政策、流程和規(guī)則要求,見下圖所示。
筆者今年在文章《如何解決企業(yè)各個部門間的“數(shù)據(jù)孤島”問題?》中也提到了業(yè)務(wù)部門組織保障的重要性,見下圖,兩者有異曲同工之妙。
最后,圍繞組織、機制和流程,要制定全生命周期的治理規(guī)范和方案,華為給了一張全景圖,大家可以參考。
3、信息架構(gòu)是數(shù)據(jù)治理的關(guān)鍵對象
企業(yè)在運作過程中,首先需要管理好人和物等“資源”,然后管理好各類資源之間的聯(lián)系,即各類業(yè)務(wù)交易“事件”,再對各類事件的執(zhí)行效果進行“整體描述和評估”,最終實現(xiàn)組織目標和價值。但如果運作過程中各類數(shù)據(jù)在企業(yè)各業(yè)務(wù)單元間無法高效、準確、一致的傳遞,就會影響企業(yè)運作的效率,比如主數(shù)據(jù)不一致就會問題頻發(fā)。
而要解決這個問題,就要對企業(yè)的信息架構(gòu)進行治理,即構(gòu)建一套對業(yè)務(wù)運作數(shù)據(jù)進行有效管理的信息架構(gòu)方法論,用于指導(dǎo)企業(yè)內(nèi)部個部門的信息架構(gòu)建設(shè)工作,讓管理者、專家和員工之間有共同語言。
上面這段話說明了信息架構(gòu)治理的業(yè)務(wù)價值。
(1)信息架構(gòu)的組成
信息架構(gòu)主要包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準、企業(yè)級數(shù)據(jù)模型和數(shù)據(jù)分布四個組件,如下圖所示:
數(shù)據(jù)資產(chǎn)目錄決定了數(shù)據(jù)治理的邊界和對象,通過數(shù)據(jù)資產(chǎn)的分門別類不僅能讓數(shù)據(jù)模型歸位,幫助企業(yè)更好的對業(yè)務(wù)變革進行規(guī)劃設(shè)計、避免重復(fù)建設(shè),也能讓數(shù)據(jù)資產(chǎn)找得到、看得清,為數(shù)據(jù)資產(chǎn)有效使用奠定基礎(chǔ)。
數(shù)據(jù)標準定義公司層面需要共同遵守的屬性層數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,是公司層面對某個數(shù)據(jù)的共同理解,這些理解一旦確定下來,就應(yīng)作為企業(yè)層面的標準在企業(yè)內(nèi)被共同遵守。
例如合同是公司最重要的數(shù)據(jù)之一,有必要對合同編號制訂統(tǒng)一的數(shù)據(jù)標準,包括編號的位數(shù),一旦合同編號數(shù)據(jù)標準制定下來,那么整個公司所有業(yè)務(wù)部門都必須共同遵守,除了數(shù)據(jù)Owner以外,任何部門都不允許自定義合同編號,否則一旦不同業(yè)務(wù)環(huán)節(jié)各自定義,那么數(shù)據(jù)就無法在上下游業(yè)務(wù)之間快速流轉(zhuǎn),往往需要額外的人工轉(zhuǎn)換和翻譯,這極大增加人工成本,延長業(yè)務(wù)執(zhí)行周期。
數(shù)據(jù)模型是從數(shù)據(jù)視角對現(xiàn)實世界特征的模擬和抽象,根據(jù)業(yè)務(wù)需求抽取信息的主要特征,反應(yīng)業(yè)務(wù)信息(對象)之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)模型不僅能比較真實地模擬業(yè)務(wù)(場景),同時也是對重要業(yè)務(wù)模型和規(guī)則的固化。
數(shù)據(jù)分布定義了數(shù)據(jù)產(chǎn)生的源頭及在各流程和IT系統(tǒng)間的流動情況,數(shù)據(jù)分布的核心是數(shù)據(jù)源,指業(yè)務(wù)上首次正式發(fā)布某項數(shù)據(jù)的應(yīng)用系統(tǒng),并經(jīng)過數(shù)據(jù)管理專業(yè)組織認證,作為企業(yè)范圍內(nèi)唯一數(shù)據(jù)源頭被周邊系統(tǒng)調(diào)用,為了更好地識別、管理數(shù)據(jù)在流程和IT系統(tǒng)間的流動,可以通過信息鏈、數(shù)據(jù)流來進行描述,體現(xiàn)某一數(shù)據(jù)在流程或應(yīng)用系統(tǒng)中是如何被創(chuàng)建、讀取、更新、刪除的。
(2)信息架構(gòu)治理原則
華為首先確定了“數(shù)據(jù)同源一致”的治理目標,圍繞目標的實現(xiàn),制定了五條架構(gòu)原則。
原則一:數(shù)據(jù)按對象管理,明確數(shù)據(jù)Owner
數(shù)據(jù)要發(fā)揮作用,必然會在多個IT系統(tǒng)和流程中流轉(zhuǎn),并且越是重要的數(shù)據(jù)資產(chǎn),所流經(jīng)的業(yè)務(wù)環(huán)節(jié)就越多,比如產(chǎn)品、人員、客戶的數(shù)據(jù)幾乎在所有流程中都會涉及,因此不應(yīng)以IT系統(tǒng)、業(yè)務(wù)流程邊界來管理數(shù)據(jù),而應(yīng)該從數(shù)據(jù)本身出發(fā),按對象進行數(shù)據(jù)全生命周期管理。
原則二:從企業(yè)視角定義信息架構(gòu)
任何一個數(shù)據(jù)Owner都不只代表自己所轄業(yè)務(wù)范圍的數(shù)據(jù)管理訴求,而是代表公司對數(shù)據(jù)進行管理,比如任何業(yè)務(wù)部門對合同編號的訴求,都可以提交數(shù)據(jù)Owner解決。
原則三:遵從公司的數(shù)據(jù)分類管理框架
原則四:業(yè)務(wù)對象結(jié)構(gòu)化、數(shù)字化
原則五:數(shù)據(jù)服務(wù)化,同源共享
(3)信息架構(gòu)建設(shè)核心要素
按業(yè)務(wù)對象進行架構(gòu)設(shè)計:業(yè)務(wù)對象是指業(yè)務(wù)領(lǐng)域中重要的人、事、物對象。業(yè)務(wù)對象承載了業(yè)務(wù)運作和管理涉及的重要信息,是信息架構(gòu)中最重要的管理要素,在進行信息架構(gòu)設(shè)計時,架構(gòu)師、業(yè)務(wù)代表、數(shù)據(jù)Owner通常會對業(yè)務(wù)對象的判定存在理解偏差,數(shù)據(jù)治理部門需要制定一套確定性規(guī)則,通過確定性規(guī)則促進形成穩(wěn)定的架構(gòu),主要包括四個原則,分別是不可或缺、唯一身份標識、相對獨立及可實例化。
按業(yè)務(wù)對象進行架構(gòu)落地:信息架構(gòu)向IT側(cè)落地的主要交付件是數(shù)據(jù)模型,華為公司過去長期存在信息架構(gòu)與IT開發(fā)實施“兩張皮”的現(xiàn)象,數(shù)據(jù)人員和IT開發(fā)實施人員缺乏協(xié)同,數(shù)據(jù)架構(gòu)遵從無法進行實質(zhì)、有效管理,信息架構(gòu)資產(chǎn)和產(chǎn)品實現(xiàn)的物理表割裂、不匹配、同時各種數(shù)據(jù)模型資產(chǎn)缺失。
為了解決這個問題,華為推行了一體化模型設(shè)計,不僅在工具上實現(xiàn)了一體化設(shè)計和開發(fā),而且確保了元數(shù)據(jù)驗證、發(fā)布和注冊的一致性,使得產(chǎn)品數(shù)據(jù)模型管理和資產(chǎn)可視,比如構(gòu)建數(shù)據(jù)標準池、實體屬性只能從標準池選擇、產(chǎn)品元數(shù)據(jù)和數(shù)據(jù)庫自動比對驗證、產(chǎn)品元數(shù)據(jù)發(fā)布認證和信息資產(chǎn)打通、基于交易側(cè)產(chǎn)品元數(shù)據(jù)自助如何等等,具體見下圖:
筆者在《業(yè)務(wù)系統(tǒng)的數(shù)據(jù)資產(chǎn)管理為什么這么難?》一文中對于“兩張皮”問題有過詳細的論述,大家有時間可以看下。
4、不同數(shù)據(jù)類別宜采用不同的治理手段
華為對數(shù)據(jù)進行分類的目的,是為了針對不同特性的數(shù)據(jù)采取不同的治理方法,以期實現(xiàn)最大的投入產(chǎn)出比。
華為根據(jù)數(shù)據(jù)特性及治理方法的不同對數(shù)據(jù)進行了分類定義:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)、元數(shù)據(jù)。其中,結(jié)構(gòu)化數(shù)據(jù)又進一步劃分為基礎(chǔ)數(shù)據(jù)(也叫參考數(shù)據(jù),維度數(shù)據(jù))、主數(shù)據(jù)、事務(wù)數(shù)據(jù)、報告數(shù)據(jù)、觀測數(shù)據(jù)和規(guī)則數(shù)據(jù),數(shù)據(jù)分類框架如圖所示:
這里以基礎(chǔ)數(shù)據(jù)為例介紹華為的治理方法。
基礎(chǔ)數(shù)據(jù)用于對其他數(shù)據(jù)進行分類,也叫參考數(shù)據(jù)。當(dāng)基礎(chǔ)數(shù)據(jù)的取值發(fā)生變化的時候,通常需要對流程和IT系統(tǒng)進行分析和修改,以滿足業(yè)務(wù)需求。因此,基礎(chǔ)數(shù)據(jù)的管理重點在于變更管理和統(tǒng)一標準管控。
華為建立了一個完整的基礎(chǔ)數(shù)據(jù)管理框架,通過明確各方的管理責(zé)任,發(fā)布相關(guān)的流程和規(guī)范以及建立基礎(chǔ)數(shù)據(jù)管理平臺等來確?;A(chǔ)數(shù)據(jù)的有效管理,如下圖所示:
《華為數(shù)據(jù)之道》數(shù)據(jù)治理相關(guān)章節(jié)給了我很大啟發(fā),強烈建議大家閱讀。
三、數(shù)據(jù)湖
1、華為數(shù)據(jù)湖的3個特點
華為數(shù)據(jù)湖是邏輯上對內(nèi)外部的結(jié)構(gòu)化、非結(jié)構(gòu)化的原始數(shù)據(jù)的邏輯匯聚,有三個特點:
(1)邏輯統(tǒng)一
華為數(shù)據(jù)湖不是單一的物理存儲,而是根據(jù)數(shù)據(jù)類型、業(yè)務(wù)區(qū)域等由多個不同的物理存儲構(gòu)成,并通過統(tǒng)一的元數(shù)據(jù)語義層進行定義、拉通和管理。
(2)類型多樣
數(shù)據(jù)湖存放所有不同類型的數(shù)據(jù),包括企業(yè)內(nèi)部IT系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、業(yè)務(wù)交易和內(nèi)部管理的非結(jié)構(gòu)的文本數(shù)據(jù)、公司內(nèi)部園區(qū)各種傳感器檢測到的設(shè)備運行數(shù)據(jù),以及外部的媒體數(shù)據(jù)等。
(3)原始記錄
華為數(shù)據(jù)湖是對原始數(shù)據(jù)的匯聚,不對數(shù)據(jù)做任何的轉(zhuǎn)換、清晰、加工等處理,保留數(shù)據(jù)最原始特征,為數(shù)據(jù)的加工和消費提供豐富的可能。
2、數(shù)據(jù)入湖的6個標準
數(shù)據(jù)入湖是數(shù)據(jù)消費的基礎(chǔ),需要嚴格滿足入湖的6項標準,包括明確數(shù)據(jù)Owner、發(fā)布數(shù)據(jù)標準、定義數(shù)據(jù)密級、明確數(shù)據(jù)源、數(shù)據(jù)質(zhì)量評估、元數(shù)據(jù)注冊。通過這6項標準保證入湖的數(shù)據(jù)都有明確的業(yè)務(wù)負責(zé)人,各項數(shù)據(jù)都可理解,同時都能在相應(yīng)的信息安全保障下進行消費。
3、數(shù)據(jù)入湖方式
數(shù)據(jù)入湖有5種技術(shù)手段,包括批量集成、數(shù)據(jù)復(fù)制同步、消息集成、流集成、數(shù)據(jù)虛擬化,5種數(shù)據(jù)入湖方式比對參考如下:
下圖示例了結(jié)構(gòu)化數(shù)據(jù)入湖的流程:
不過筆者認為,華為定義的數(shù)據(jù)湖和傳統(tǒng)的數(shù)據(jù)倉庫沒有本質(zhì)區(qū)別,雖然數(shù)據(jù)存儲的多樣化和原始化是數(shù)據(jù)湖的一個特征,但還不足以構(gòu)成一個數(shù)據(jù)湖,筆者在《數(shù)據(jù)湖與數(shù)據(jù)倉庫的根本區(qū)別,在于前者是“市場經(jīng)濟”,而后者是“計劃經(jīng)濟”》對數(shù)據(jù)湖談過自己的理解,大家有興趣可以看一下。
四、數(shù)據(jù)主題聯(lián)結(jié)
華為在數(shù)據(jù)湖的基礎(chǔ)上通過建立數(shù)據(jù)聯(lián)結(jié)層,基于不同的分析場景,通過5類聯(lián)結(jié)方式將跨域的數(shù)據(jù)聯(lián)結(jié)起來,將數(shù)據(jù)由“原材料”加工成“半成品”和“成品”,支撐不同場景的數(shù)據(jù)消費需求,數(shù)據(jù)聯(lián)結(jié)其實就是數(shù)據(jù)倉庫建模,當(dāng)然華為對于聯(lián)結(jié)的定義更為廣泛,包括多維模型、圖模型、標簽、指標和算法模型,如下圖所示。
多維模型是面向業(yè)務(wù)的多視角、多維度的分析,通過明確的業(yè)務(wù)關(guān)系,建立基于事實表、維度表以及相互間聯(lián)接關(guān)系,實現(xiàn)多維數(shù)據(jù)查詢和分析。例如對訂貨數(shù)據(jù)從時間、區(qū)域、產(chǎn)品等維度進行多視角、不同粒度的查詢和分析。
圖模型面向數(shù)據(jù)間的關(guān)聯(lián)影響分析,通過建立數(shù)據(jù)對象以及數(shù)據(jù)實例之間的關(guān)系,幫助業(yè)務(wù)快速定位關(guān)聯(lián)影響。例如查看某國家原產(chǎn)地的項目的數(shù)據(jù)具體關(guān)聯(lián)到哪個客戶以及合同、訂單、產(chǎn)品的詳細信息時,可以通過圖模型快速分析關(guān)聯(lián)影響,支撐業(yè)務(wù)決策。
標簽是對特定業(yè)務(wù)范圍的圈定。在業(yè)務(wù)場景的上下文背景中,運用抽象、歸納、推理等算法計算并生成目標對象特征的表示符號,是用戶主觀觀察、認識和描述對象的一個角度。例如對用戶進行畫像,識別不同的用戶群,為產(chǎn)品設(shè)計和營銷提供策略支持。
指標是對業(yè)務(wù)結(jié)果、效率和質(zhì)量的度量。依據(jù)明確的業(yè)務(wù)規(guī)則,通過數(shù)據(jù)計算得到衡量目標總體特征的統(tǒng)計數(shù)值,能客觀表征企業(yè)某一業(yè)務(wù)活動中業(yè)務(wù)狀況。例如促銷員覆蓋率指標就是衡量一線銷售門店促銷員的覆蓋程度。
算法模型是面向智能分析的場景,通過數(shù)據(jù)建模對現(xiàn)實世界進行抽象、模擬和仿真,提供支撐業(yè)務(wù)判斷和決策的高級分析方法。例如預(yù)測未來18個月的銷售量。
五、數(shù)據(jù)消費
在數(shù)據(jù)供應(yīng)側(cè)和消費側(cè)的雙重推動下,華為公司進行了基于數(shù)據(jù)服務(wù)提供“自助消費”的實踐,打造了從數(shù)據(jù)供應(yīng)到消費的完整鏈條。
1、數(shù)據(jù)服務(wù):實現(xiàn)數(shù)據(jù)自助、高效、復(fù)用
過去數(shù)據(jù)獲取大部分依賴于傳統(tǒng)集成方式,即將數(shù)據(jù)從一個系統(tǒng)復(fù)制到另一個系統(tǒng)。隨著企業(yè)規(guī)模的擴大,需要在幾十個甚至上百個IT系統(tǒng)中進行數(shù)據(jù)集成,這樣一來,隨著系統(tǒng)集成的復(fù)雜度提升,會帶來一系列數(shù)據(jù)質(zhì)量問題,比如數(shù)據(jù)經(jīng)過多次不同系統(tǒng)間搬家后,源頭數(shù)據(jù)和下游各系統(tǒng)之間的數(shù)據(jù)差異巨大,在這樣的背景下,華為進行了大規(guī)模的數(shù)據(jù)服務(wù)建設(shè),通過數(shù)據(jù)服務(wù)替代原有數(shù)據(jù)集成方式,取得了數(shù)據(jù)獲取效率和數(shù)據(jù)安全之間的平衡,下圖示例了數(shù)據(jù)服務(wù)和傳統(tǒng)集成方法的對比:
數(shù)據(jù)服務(wù)給企業(yè)帶來五個價值:(1)保障“數(shù)出一孔”,提升數(shù)據(jù)一致性 (2)數(shù)據(jù)消費者不用關(guān)注技術(shù)細節(jié) (3)提升數(shù)據(jù)敏捷響應(yīng)能力 (4)滿足用戶靈活多樣的消費訴求 (5)兼顧數(shù)據(jù)安全,具體見下圖:
華為公司為確保整個數(shù)據(jù)供應(yīng)鏈條的高效協(xié)同,制訂了“三個1”作為拉通各個供應(yīng)環(huán)節(jié)的整體目標,確保每個環(huán)節(jié)能夠形成合力并對準最終用戶,如下圖所示:
1天:對已發(fā)布數(shù)據(jù)服務(wù)的場景,從需求提出到消費者通過服務(wù)獲取數(shù)據(jù),在一天內(nèi)完成。
1周:對于已進底座但無數(shù)據(jù)服務(wù)的場景,從需求提出到數(shù)據(jù)服務(wù)設(shè)計落地、消費者通過服務(wù)獲取數(shù)據(jù),在一周內(nèi)完成。
1月:對于已結(jié)構(gòu)化但未進底座的場景,從需求提出到匯聚入湖、數(shù)據(jù)主題聯(lián)接、數(shù)據(jù)服務(wù)設(shè)計落地、消費者通過服務(wù)獲取數(shù)據(jù),在1個月內(nèi)完成。
數(shù)據(jù)供應(yīng)“三個1”并不是單純的度量指標,而是一整套瞄準最終數(shù)據(jù)消費體驗的能力體系以及確保數(shù)據(jù)供應(yīng)能力的管理機制,還包括組織職責(zé)的明確、流程規(guī)范的制定與落實、IT平臺的建設(shè)和管理,如下圖所示:
2、構(gòu)建以用戶體驗為核心的數(shù)據(jù)地圖
在解決數(shù)據(jù)的“可供應(yīng)性”之后,企業(yè)應(yīng)該幫助業(yè)務(wù)更便捷、更準確地找到它們所需要的數(shù)據(jù),這就需要打造一個能夠滿足用戶體驗的“數(shù)據(jù)地圖”。
數(shù)據(jù)地圖(DMAP)是華為面向數(shù)據(jù)的最終消費用戶針對數(shù)據(jù)“找得到” “讀得懂”的需求而設(shè)計的,基于元數(shù)據(jù)應(yīng)用,以數(shù)據(jù)搜索為核心,通過可視化方式,綜合反映有關(guān)數(shù)據(jù)的來源、數(shù)量、質(zhì)量、分布、標準、流向、關(guān)聯(lián)關(guān)系,讓用戶高效率找到數(shù)據(jù),讀懂?dāng)?shù)據(jù),支撐數(shù)據(jù)消費。
數(shù)據(jù)地圖作為數(shù)據(jù)治理成果的集散地,需要提供多種數(shù)據(jù),滿足多類用戶、多樣場景的數(shù)據(jù)消費需求,所以華為公司結(jié)合實際業(yè)務(wù)制定了如下圖的數(shù)據(jù)地圖框架。
3、人人都是分析師
數(shù)據(jù)服務(wù)解決了“可供應(yīng)性”,數(shù)據(jù)地圖解決了“可搜索/可獲取性”,當(dāng)消費方獲取數(shù)據(jù)后,提供“可分析”能力,幫助數(shù)據(jù)消費者結(jié)合自身需要獲取想要的分析結(jié)果。過去各業(yè)務(wù)部門的分析訴求往往通過“保姆式”開發(fā)模式來滿足,從獲取數(shù)據(jù)、建模到設(shè)計報告,均需要IT人員的支撐,在這種背景下,提出了“服務(wù)+自助”模式,即IT只提供統(tǒng)一的數(shù)據(jù)服務(wù)和分析能力組件服務(wù),各業(yè)務(wù)部門可以根據(jù)業(yè)務(wù)需要進行靈活的數(shù)據(jù)分析消費,數(shù)據(jù)分析的方案和結(jié)果由業(yè)務(wù)自己完成。
華為公司將自助分析作為一種公共能力,在企業(yè)層面進行了統(tǒng)一構(gòu)建,一方面面向不同的消費用戶提供差異化的能力和工具支撐;另一方面引入了“租戶”概念,不同類型的用戶可以在一定范圍內(nèi)分析數(shù)據(jù),共享數(shù)據(jù)結(jié)果。
(1)針對三類角色提供的差異化服務(wù)
面向業(yè)務(wù)分析師,提供自助分析能力,業(yè)務(wù)人員通過“拖、拉、拽”即可快速產(chǎn)生分析報告。
面向數(shù)據(jù)科學(xué)家,提供高效的數(shù)據(jù)接入能力和常用的數(shù)據(jù)分析組件,快速搭建數(shù)據(jù)探索和分析環(huán)境。
面向IT開發(fā)人員,提供云端數(shù)據(jù)開發(fā)、計算、分析、應(yīng)用套件,支撐海量數(shù)據(jù)的分析與可視化,實現(xiàn)組件重用。
(2)以租戶為核心的自助分析關(guān)鍵能力
租戶是指把數(shù)據(jù)、分析工具、計算資源有機組合的工作環(huán)境,用戶可以在租戶內(nèi)自助完成數(shù)據(jù)搜索、數(shù)據(jù)加工、在線分析、報表共享等工作。
為了合理分配軟硬件資源,滿足各領(lǐng)域在線、自助、個性化的數(shù)據(jù)分析訴求,明確了租戶申請、租戶命名、數(shù)據(jù)準備、數(shù)據(jù)同步、數(shù)據(jù)加工、數(shù)據(jù)申請、權(quán)限管理、安全與隱私、運維與運營等方面的要求,旨在通過正確的引導(dǎo),確保數(shù)據(jù)消費的便捷、高效與安全合規(guī)。
租戶自助分析能力架構(gòu)如下圖所示:
以上就是《華為數(shù)據(jù)之道》一書最核心的內(nèi)容概覽,建議大家選擇這些核心章節(jié)重點閱讀,其它的章節(jié)還包括數(shù)據(jù)感知、數(shù)據(jù)質(zhì)量及數(shù)據(jù)安全等,有時間也可以了解下。
這本書是DAMA等數(shù)據(jù)管理指南書的一個實例,筆者發(fā)現(xiàn)其中的很多理念在華為獲得了實踐,很多模糊不清的概念得到了澄清,這對于我的幫助很大。當(dāng)然由于覆蓋的內(nèi)容太多,很多地方?jīng)]有講透,但已經(jīng)足夠好了。
如何解決企業(yè)各個部門間的“數(shù)據(jù)孤島”問題?
聯(lián)系客服