《大數(shù)據(jù)時代》一書出版于2013年,按照作者維克托·邁爾-舍恩伯格和肯尼思·庫克耶所說,這是一場生活、工作與思維的大變革,“大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務的源泉,而更多的改變正蓄勢待發(fā)……”
本書定義的“大數(shù)據(jù)”就是基于海量數(shù)據(jù)分析從而產(chǎn)生巨大價值的產(chǎn)品和服務,它以石破天驚之勢為大數(shù)據(jù)概括出了三個核心特性,即:關心全部樣本而不再是抽樣數(shù)據(jù);包容混亂和錯誤,不再關心數(shù)據(jù)的精確性;不再關心因果關系代之以相關關系。而大數(shù)據(jù)的核心就是預測,通過對海量數(shù)據(jù)進行數(shù)學運算,人們擁有了預知未來的魔鏡。
雖然檔案業(yè)和一些與大數(shù)據(jù)預測緊密相關的行業(yè)不同,但是滾滾來襲的大數(shù)據(jù)浪潮也必將使傳統(tǒng)的檔案工作發(fā)生變革。值得檔案業(yè)界研究的問題很多,這中間也蘊藏著很多的機會。
首先,大數(shù)據(jù)理論將有助于回答電子檔案如何收集以及后續(xù)如何更好地管理和利用等重要命題,或?qū)⒒忾L期以來困擾著檔案工作的利用需求無限擴大與存儲空間、管理成本有限之間的矛盾。
在大數(shù)據(jù)時代,政府成為最大規(guī)模的信息采集者,國家綜合檔案館作為天生的數(shù)據(jù)集散地,其電子檔案收集范圍必將進一步擴大,移交時限也將進一步縮短。而在“開放政府數(shù)據(jù)”的倡議響徹全球的年代,電子檔案的開放時限也將在既有框架中不斷尋求突破,變得更加靈活。對大數(shù)據(jù)的分析處理和增值應用,將成為未來檔案開發(fā)利用的重要內(nèi)容,檔案館坐擁龐大的數(shù)據(jù)資源應該成為巨大社會價值的產(chǎn)出地。在這種情況下,對于檔案管理工作進行一場技術革新也是在所難免的,大數(shù)據(jù)時代的來臨相比其他信息技術則更加契合檔案管理工作的需要。
在檔案管理過程中,人們一直在探討如何在收集環(huán)節(jié)把好關口,要避免檔案實體漲庫,克服檔案信息存儲空間的限制,又要防止有價值的檔案被淹沒在價值低甚至毫無利用價值的海量檔案中間;而在利用環(huán)節(jié),人們追求檔案如何在需要時應有盡有、無所不包,同時要能被快速、準確地檢索出來。檔案工作者長期以來就在這個像悖論一樣的命題中間“帶著鐐銬跳舞”。而大數(shù)據(jù)或?qū)⑤p松化解這個難題。在數(shù)據(jù)化的環(huán)境中,對檔案收集選擇性的要求會大大降低,畢竟保存數(shù)據(jù)的成本比保存檔案實體低得多,而在大數(shù)據(jù)時代也很難預判什么樣的信息有價值、什么樣的信息沒有價值。對檔案數(shù)據(jù)的利用也將發(fā)生翻天覆地的轉(zhuǎn)變,不但查準、查全變成了小菜一碟,深入的數(shù)據(jù)處理將賦予檔案數(shù)據(jù)更大價值。
其次,大數(shù)據(jù)時代允許不精確或?qū)⒏淖儥n案收集的質(zhì)量標準和整理要求。
書中觀點認為,在大數(shù)據(jù)時代允許不精確的出現(xiàn)已經(jīng)成為一個新的亮點而非缺點。人們需要與各種各樣的混亂作斗爭,這種混亂也可以指不同的數(shù)據(jù)格式,如要達到格式一致,就需要在進行數(shù)據(jù)處理之前仔細地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。
在日常的檔案收集工作中,檔案館確實花了大量的時間和精力在與“不精確”作斗爭。除了就整理、鑒定的標準與要求與各移交單位進行反復溝通以外,在某些時候甚至幫移交單位做一些具體而細微的“手工活”。在未來,對檔案整理的要求將日益趨于簡單和便利?!半m然如果我們能夠下足夠多的功夫,這些錯誤是可以避免的,但在很多情況下,與致力于避免錯誤相比,對錯誤的包容會給我們帶來更多好處?!币簿褪钦f,要實現(xiàn)檔案管理全程效益最大化,在收集環(huán)節(jié)科學地“包容錯誤”將成為大數(shù)據(jù)時代一種現(xiàn)實的選擇。
當然,即使在大數(shù)據(jù)時代,接收工作也必須要堅持一定的質(zhì)量標準。如果待移交檔案中存在一些不能忽略的基礎性問題,進館后將影響檔案收集以及后續(xù)工作的科學推進。筆者認為,在包容錯誤與堅持標準之間踩準節(jié)拍,底線應該是不影響進館數(shù)據(jù)后續(xù)的關聯(lián)分析。
再次,在大數(shù)據(jù)時代,傳統(tǒng)載體檔案將面臨全面的“數(shù)據(jù)化”而不僅僅是“數(shù)字化”。
“數(shù)字化”可能是僵死的信息存儲,而“數(shù)據(jù)化”則是可檢索和可以進行關聯(lián)分析的活數(shù)據(jù)。IT業(yè)所指的數(shù)據(jù),誕生不過60多年。一直到個人電腦普及以前,許多自然界和人類社會值得記錄的信息并未形成數(shù)據(jù)。兩個名詞僅一字之差,實則有了本質(zhì)的差別。
就目前檔案館的狀況而言,紙質(zhì)檔案數(shù)字化的方式主要是將檔案原件掃描成圖形文件存入電腦,因為這些圖形并沒有被數(shù)據(jù)化,無法進行關鍵詞查詢和檢索,也無法用于進一步的數(shù)據(jù)關聯(lián)分析處理。而數(shù)據(jù)化之后,這些海量的檔案文件可以更方便地被人和計算機運用。
不僅是紙質(zhì)檔案,各種載體的音視頻檔案未來同樣也能夠?qū)崿F(xiàn)模擬信息、數(shù)字信息數(shù)據(jù)化的跨越。在大數(shù)據(jù)時代,世間萬物都將被數(shù)據(jù)化并進而創(chuàng)造更大價值的嘗試。
最后,在一個嶄新時代微曦初露的當口,我國的檔案業(yè)也必然面對不進則退的歷史抉擇,必須贏得先機,爭取自主創(chuàng)新。
隨著全社會對檔案資源需求的日益增長,傳統(tǒng)的檔案管理方式已不能滿足國家和公民對各類檔案開發(fā)利用的需要。因此,檔案業(yè)要積極應對大數(shù)據(jù)時代帶來的種種變化,研究數(shù)據(jù)收集、管理和利用的新模式、新方法。大數(shù)據(jù)“做新、做多、做好、做快”的能力釋放出無限價值,將會產(chǎn)生新的贏家和輸家。就像馬云曾說:“銀行不改變,我就來改變銀行。”就在傳統(tǒng)的銀行業(yè)坐擁壟斷壁壘“高枕無憂”之際,竟被不入流的“攪局者”余額寶打了個措手不及,不得不被動地應對和調(diào)整。
本書的序一中說:“現(xiàn)代歷史上的歷次技術革命,中國均是學習者。而在這次云計算與大數(shù)據(jù)的新變革中,中國與世界的差距最小,在很多領域甚至還有著創(chuàng)新與領先的可能?!蔽覈臋n案業(yè)如果能在深刻認識以及純熟運用大數(shù)據(jù)的規(guī)律中有所突破,也將有能力問鼎檔案工作的世界之巔,面對我國龐大的信息消費市場,抑或像互聯(lián)網(wǎng)領域的QQ和微信一樣,另辟蹊徑走出一條別樣的繁榮之路。
原載于《中國檔案報》2014年8月28日 總第2653期 第三版