本文由楊靜lillian(公眾號:lillian_yang_1111 )授權(quán)發(fā)布
摘要:產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向其他行業(yè)領(lǐng)域滲透,成為行業(yè)創(chuàng)新和轉(zhuǎn)型的重要驅(qū)動力。根據(jù)百度多年來在大數(shù)據(jù)領(lǐng)域的創(chuàng)新與實(shí)踐,闡述了大數(shù)據(jù)驅(qū)動搜索引擎的發(fā)展,介紹了百度大數(shù)據(jù)引擎和行業(yè)應(yīng)用實(shí)踐。重點(diǎn)分析了大數(shù)據(jù)發(fā)展的關(guān)鍵因素,并提出了大數(shù)據(jù)和人工智能是未來信息技術(shù)發(fā)展的重要方向。
1 引言
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,信息采集成本不斷降低,加速物理世界向網(wǎng)絡(luò)空間的量化。數(shù)字世界與現(xiàn)實(shí)世界的融合過程中產(chǎn)生并積累了大量的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司(IDC)發(fā)布的研究報告,全球所有信息數(shù)據(jù)中90%產(chǎn)生于近幾年,數(shù)據(jù)總量正在以指數(shù)形式增長,從2003年的5 EB,到2013年4.4ZB,并將于2020年達(dá)到44 ZB,如圖1所示。
圖1 全球數(shù)據(jù)總量
數(shù)據(jù)爆炸將我們推向大數(shù)據(jù)時代,大數(shù)據(jù)是新一輪信息技術(shù)革命與人類經(jīng)濟(jì)社會活動的交匯融合的必然產(chǎn)物,數(shù)據(jù)的關(guān)聯(lián)和挖掘?qū)?chuàng)造新的價值,提升效率。數(shù)據(jù)將和自然資源、人力資源一樣成為國家最重要的戰(zhàn)略資源,將成為產(chǎn)業(yè)升級的重要推動力。
大數(shù)據(jù)因其蘊(yùn)含的社會價值和商業(yè)價值,已經(jīng)成為一項(xiàng)重要的生產(chǎn)要素,大數(shù)據(jù)的應(yīng)用將改變傳統(tǒng)行業(yè)的商業(yè)模式,拉動產(chǎn)業(yè)升級。數(shù)據(jù)已經(jīng)成為傳統(tǒng)行業(yè)的核心資產(chǎn)。產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向制造業(yè)、金融及商業(yè)、醫(yī)療衛(wèi)生、國計民生等各個領(lǐng)域滲透。各行業(yè)也已經(jīng)意識到數(shù)據(jù)價值挖掘的重要意義,加速探索并布局大數(shù)據(jù)應(yīng)用。越來越多機(jī)構(gòu)、企業(yè)都迫切希望從不同渠道獲取的多種類型、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有價值的趨勢洞察,快速、準(zhǔn)確地制定決策,驅(qū)動商業(yè)和行業(yè)創(chuàng)新。
2 從搜索引擎說起,大數(shù)據(jù)面面觀
2.1 搜索引擎是個天然的大數(shù)據(jù)服務(wù)
大數(shù)據(jù)是信息技術(shù)及其應(yīng)用發(fā)展到一定階段的“自然現(xiàn)象”,源于信息技術(shù)的不斷廉價化以及互聯(lián)網(wǎng)及其所帶來的無處不在的信息技術(shù)延伸應(yīng)用。可以說大數(shù)據(jù)應(yīng)用和技術(shù)是在互聯(lián)網(wǎng)的快速發(fā)展中產(chǎn)生的,互聯(lián)網(wǎng)企業(yè)尤其是搜索引擎公司是大數(shù)據(jù)實(shí)踐的先行者和領(lǐng)跑者。搜索引擎連接了人和信息、人和服務(wù),本身就是一個完美的大數(shù)據(jù)應(yīng)用實(shí)例,其目的就是為了更好地理解用戶的搜索需求,將信息與用戶匹配起來。
百度是當(dāng)今中國人獲取信息的最主要入口,每天響應(yīng)來自138個國家和地區(qū)的數(shù)十億次搜索請求,覆蓋95%以上的中國網(wǎng)民,平均每個中國網(wǎng)民每天使用10次百度。為了獲得更好的用戶體驗(yàn)和搜索的精準(zhǔn)對接,百度不斷在技術(shù)上挑戰(zhàn)自我,在搜索的實(shí)踐中積累了整套大數(shù)據(jù)的處理和實(shí)踐技術(shù),占據(jù)了世界領(lǐng)先的地位。同時,百度也積極在大數(shù)據(jù)的商業(yè)實(shí)踐上不斷探索,并取得了顯著的成績。
2.2 海量的數(shù)據(jù)資源是大數(shù)據(jù)實(shí)踐的基礎(chǔ)
百度擁有海量的數(shù)據(jù)基礎(chǔ),擁有EB級別的超大數(shù)據(jù)存儲和管理規(guī)模,并達(dá)到100PB/天的數(shù)據(jù)計算能力,可達(dá)到毫秒級響應(yīng)速度。百度已收錄全世界超過一萬億張網(wǎng)頁,相當(dāng)于5 000個國家圖書館的信息量總和。同時承擔(dān)著每天百億次的訪問請求,可離線完成1000億網(wǎng)頁的處理與分析,時效性網(wǎng)頁從更新到索引只需要幾十秒,實(shí)現(xiàn)大數(shù)據(jù)量級下的低延遲和秒級響應(yīng)。
百度的數(shù)據(jù)具有實(shí)時性和全面性的特點(diǎn),囊括了全網(wǎng)搜索數(shù)據(jù)、全網(wǎng)評論信息、百度內(nèi)部數(shù)據(jù)以及第三方合作數(shù)據(jù)等跨行業(yè)、跨地域基礎(chǔ)數(shù)據(jù),海量的數(shù)據(jù)基礎(chǔ)是百度引領(lǐng)大數(shù)據(jù)實(shí)踐的基礎(chǔ)。
2.3 高效的云計算基礎(chǔ)設(shè)施提供強(qiáng)大的計算能力
面臨龐大數(shù)據(jù)量帶來的計算能力和網(wǎng)絡(luò)帶寬的新挑戰(zhàn),百度自主研發(fā)超大規(guī)模分布式存儲和計算系統(tǒng),目前能夠支持14款用戶過億的產(chǎn)品。其中分布式存儲系統(tǒng)可以存儲長文本、語音、視頻等異構(gòu)數(shù)據(jù),實(shí)現(xiàn)單集群文件數(shù)達(dá)100億;大規(guī)模分布式計算系統(tǒng)通過自研技術(shù)提升50%以上MapReduce的性能,實(shí)時流計算系統(tǒng)吞吐量達(dá)10GB/s;百度創(chuàng)新性地實(shí)現(xiàn)了基于大數(shù)據(jù)的智能自動化運(yùn)維框架,滿足超大規(guī)模集群運(yùn)維的需求,實(shí)時分析3萬以上監(jiān)控指標(biāo);2 min內(nèi)完成分析和故障定位,保證系統(tǒng)可用性為99.99%。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,建立了大規(guī)模GPU并行化平臺,單GPU計算能力可比百片CPU,極大程度地降低了能耗和計算成本。
百度自主研發(fā)萬兆交換機(jī),逐步從吉比特網(wǎng)絡(luò)向萬兆網(wǎng)絡(luò)大規(guī)模切換,正在研制的4萬兆交換機(jī)也已經(jīng)開始小規(guī)模試點(diǎn)和驗(yàn)證,百度的萬兆集群是國內(nèi)互聯(lián)網(wǎng)行業(yè)首個萬兆交換機(jī)的規(guī)模應(yīng)用。
基于完全自主知識產(chǎn)權(quán)的高性能服務(wù)器、整機(jī)柜和網(wǎng)絡(luò)設(shè)備等,百度自主設(shè)計并建設(shè)了數(shù)個亞洲一流的數(shù)據(jù)中心,自主研發(fā)了整機(jī)柜服務(wù)器并已投入使用數(shù)十萬臺。通過基礎(chǔ)設(shè)施、IT設(shè)備及軟件協(xié)同,定制低功耗服務(wù)器等多項(xiàng)綠色節(jié)能技術(shù),百度自建數(shù)據(jù)中心全年約一半時間實(shí)現(xiàn)完全免費(fèi)冷卻(freecooling)。2013年,該數(shù)據(jù)中心最佳PUE(power usage effectiveness,電力使用效率)為1.16,成為國內(nèi)最節(jié)能、最環(huán)保的數(shù)據(jù)中心。
2.4 人工智能技術(shù)全面提升大數(shù)據(jù)處理能力
百度高度重視人工智能技術(shù)的發(fā)展,經(jīng)過多年的堅持努力,在語音識別、圖像識別、自然語言理解、機(jī)器學(xué)習(xí)、智能交互、數(shù)據(jù)挖掘、個性化推薦的研究和應(yīng)用領(lǐng)域打下扎實(shí)的技術(shù)積累,攻克多項(xiàng)技術(shù)難題,人工智能技術(shù)已經(jīng)達(dá)到國際領(lǐng)先水平。
百度目前已擁有全球最大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),并實(shí)現(xiàn)全球最大規(guī)模的GPU并行計算平臺。百度的深度學(xué)習(xí)技術(shù)被應(yīng)用在語音、圖像、文本識別、自然語言處理和CTR預(yù)估等商業(yè)產(chǎn)品領(lǐng)域,取得顯著的成效。同時,百度也積極將人工智能技術(shù)應(yīng)用于大數(shù)據(jù)領(lǐng)域,通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)提升數(shù)據(jù)智能,尋求現(xiàn)有問題的解決方案,并實(shí)現(xiàn)更好的預(yù)測。
3 大數(shù)據(jù)推動搜索引擎的演進(jìn)
以百度為例,用戶在搜索的過程中留下信息,其中有大量的文本、圖片和影音等數(shù)據(jù),形成了海量的數(shù)據(jù)資源,百度對這些復(fù)雜的異構(gòu)數(shù)據(jù)進(jìn)行處理分析,發(fā)掘價值,實(shí)現(xiàn)更多大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)技術(shù)推動著搜索引擎不斷向前演進(jìn)。
3.1 智能交互
隨著用戶需求更趨于復(fù)雜化和個性化,從最初的獲取信息,到現(xiàn)階段希望能夠通過搜索引擎直接獲取答案、連接服務(wù),這就需要實(shí)現(xiàn)海量數(shù)據(jù)的挖掘和智能處理,實(shí)現(xiàn)人和服務(wù)的精準(zhǔn)匹配。另外用戶也更趨向于自然的交互方式,據(jù)統(tǒng)計,現(xiàn)階段在百度的搜索請求中10%是以語音的形式表達(dá)的,而未來5年使用語音和圖像來表達(dá)需求的比例將超過50%。基于如此真實(shí)強(qiáng)大的需求,為了不斷提升用戶體驗(yàn),百度在圖像識別和語音識別這兩項(xiàng)前沿技術(shù)領(lǐng)域?qū)崿F(xiàn)突破,并取得了一系列領(lǐng)先成果。
百度在2010年開始進(jìn)行智能語音及相關(guān)技術(shù)研發(fā),推出了第一代基于云端識別的互聯(lián)網(wǎng)應(yīng)用“掌上百度”。2012年11月,百度上線了中國第一款基于DNN的漢語語音搜索系統(tǒng),成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。目前已經(jīng)積累了數(shù)萬小時的聲學(xué)訓(xùn)練語料和海量文本語料[1],線上語言模型體積超過100GB,支持小時級別的海量語言模型更新。語音識別DNN深達(dá)9層,基于聽覺感知的深度學(xué)習(xí)聲學(xué)建模技術(shù)可以實(shí)現(xiàn)更高的精準(zhǔn)度和識別率。在安靜情況下,百度的普通話識別率已達(dá)到95%以上,處于國際領(lǐng)先水平。百度語音技術(shù)對內(nèi)應(yīng)用于手機(jī)百度、百度輸入法、百度地圖、百度導(dǎo)航等一系列產(chǎn)品,同時對外推出開放平臺,提供多個垂直領(lǐng)域的識別和解析服務(wù),合作伙伴超過30個,覆蓋汽車、醫(yī)療、手機(jī)、電商、家電和車載等十幾個領(lǐng)域和方向。
在圖像識別領(lǐng)域,百度在2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于OCR識別和人臉識別,并推出相應(yīng)的PC端和移動端搜索產(chǎn)品[2]。2013年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。目前百度的人臉識別準(zhǔn)確率超過98%,處于國際領(lǐng)先水平,圖像識別技術(shù)已經(jīng)用于手機(jī)百度、百度識圖等多個應(yīng)用中。從百度的經(jīng)驗(yàn)來看,深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率。目前利用CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))技術(shù),百度成功地實(shí)現(xiàn)將圖像內(nèi)容生成自然語言的描述性句子或段落,從而在高層語義層面建立了圖像和自然語言之間的橋梁,也就是“機(jī)器讀圖”,這可以說是人工智能領(lǐng)域的一次技術(shù)飛躍。
3.2 知識圖譜
當(dāng)用戶使用搜索引擎時,需要的不止是索引到相關(guān)的網(wǎng)頁,更希望找到答案、加深了解以及發(fā)現(xiàn)更多的內(nèi)容。為了使搜索引擎更智能,信息的組織方式正在由網(wǎng)頁之間的超鏈聯(lián)系向海量實(shí)體之間的知識聯(lián)系演變,知識圖譜就是基于海量的互聯(lián)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)這種演變的最為重要的技術(shù)之一。
知識圖譜包含了萬物以及它們之間的聯(lián)系,用實(shí)體以及實(shí)體關(guān)系刻畫這個世界。如圖2所示,百度知識圖譜依托于強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù),對互聯(lián)網(wǎng)海量數(shù)據(jù)進(jìn)行挖掘,并應(yīng)用高效精準(zhǔn)的算法對數(shù)據(jù)進(jìn)行分類梳理,將復(fù)雜的知識體系通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,構(gòu)建宏大的知識網(wǎng)絡(luò),以圖文并茂的方式展現(xiàn)知識的方方面面,讓人們更便捷地獲取信息、找到所求,這恰恰與百度的使命一脈相承。
圖2 百度知識圖譜示例
為了使互聯(lián)網(wǎng)中海量的數(shù)據(jù)及內(nèi)容為機(jī)器所理解,進(jìn)而形成知識供用戶獲取并使用,百度知識圖譜以實(shí)體為基點(diǎn),創(chuàng)建了基于語義的鏈接關(guān)系,從海量的數(shù)據(jù)中提取出精華信息,完成了知識的匯集、整理、再加工,構(gòu)建了與國際標(biāo)準(zhǔn)接軌的數(shù)據(jù)“智囊”,目前已建成涵蓋近20領(lǐng)域、幾十類別、上億實(shí)體量的龐大知識數(shù)據(jù)庫。通過強(qiáng)大的平臺與靈活的機(jī)制,應(yīng)用到20多個產(chǎn)品線之中,為用戶帶來多角度、全方位的搜索體驗(yàn)提升。
3.3 深度問答
深度問答是一種基于海量互聯(lián)網(wǎng)數(shù)據(jù)和深度語義理解的智能系統(tǒng),基于對用戶自然語言的理解,實(shí)現(xiàn)對海量數(shù)據(jù)的深層分析和語義理解,并通過搜索和語義匹配技術(shù),提煉出答案信息,對信息進(jìn)行聚合、提煉,給出最全面、準(zhǔn)確的結(jié)果。其實(shí)現(xiàn)的難點(diǎn)主要在于正確理解用戶復(fù)雜和多變的需求,并掌握海量結(jié)構(gòu)化的知識庫數(shù)據(jù),這就需要強(qiáng)大的人工智能技術(shù)和海量復(fù)雜的大數(shù)據(jù)處理能力。深度問答其關(guān)鍵技術(shù)包括問題分析和理解技術(shù)、實(shí)體知識體系建模技術(shù)、文本分析和關(guān)系抽取技術(shù)以及語義分析和排序技術(shù)等。
● 問題分析和理解技術(shù):針對不同類型的問題,提取答案的技術(shù)也會不同。根據(jù)可采用的技術(shù),問題可以大致分為實(shí)體類問題和非實(shí)體類問題兩大類。實(shí)體類問題是指答案是實(shí)體的問題,對于實(shí)體類問題,問題的答案可以是唯一實(shí)體或者實(shí)體的列表,需要通過問題分析技術(shù)分析出實(shí)體類別;對于非實(shí)體類的問題,需要通過問題分析技術(shù),把這些類型的問題跟實(shí)體類問題區(qū)分開來,因?yàn)檫@些問題的答案不再是實(shí)體,答案的形態(tài)也更加復(fù)雜。
● 實(shí)體知識體系建模技術(shù):實(shí)體類問答離不開實(shí)體知識體系的支撐,實(shí)體的類別、實(shí)體間的同位、上下位關(guān)系都十分重要。因此,一個完備的實(shí)體知識體系建設(shè)(ontology)對于問題回答十分必要。實(shí)體的同位、上下位關(guān)系可以通過整合多種來源的知識獲取,包括一些結(jié)構(gòu)化的數(shù)據(jù)如百度百科,也可以從普通文本中挖掘。
● 文本分析和關(guān)系抽取技術(shù):對文本的深層分析是深度問答用到的一項(xiàng)基礎(chǔ)技術(shù)。如圖3所示,文本的分析分為多個層次,包括分詞、實(shí)體識別、句法分析乃至語義角色標(biāo)注,在這些分析的基礎(chǔ)上可以進(jìn)行知識獲取。而通過對海量數(shù)據(jù)進(jìn)行深層分析,可以有效過濾文本分析引入的噪音,使得知識更加精準(zhǔn)。文本分析和關(guān)系抽取技術(shù)不僅可以用于從普通文本抽取知識,也可以用于語義匹配。
圖3 文本分析和知識抽取技術(shù)示例
4 百度大數(shù)據(jù)引擎及行業(yè)應(yīng)用實(shí)踐
4.1 百度大數(shù)據(jù)引擎
百度堅信技術(shù)改變互聯(lián)網(wǎng),互聯(lián)網(wǎng)可以改造傳統(tǒng)行業(yè)。為了助力傳統(tǒng)行業(yè)快速進(jìn)入這個大數(shù)據(jù)的時代,充分發(fā)掘和利用大數(shù)據(jù)的價值,百度對外發(fā)布大數(shù)據(jù)引擎,向外界提供大數(shù)據(jù)存儲、分析及挖掘的技術(shù)能力,這也是全球首個開放大數(shù)據(jù)引擎。
如圖4所示,百度大數(shù)據(jù)引擎主要包含三大組件:開放云、數(shù)據(jù)工廠和百度大腦。開放云可以將企業(yè)原本價值密度低、結(jié)構(gòu)多樣的小數(shù)據(jù)匯聚成可虛擬化、可檢索的大數(shù)據(jù),解決數(shù)據(jù)存儲和計算瓶頸;數(shù)據(jù)工廠對這些數(shù)據(jù)加工、處理、檢索,把數(shù)據(jù)關(guān)聯(lián)起來,從中挖掘出一定的價值;百度大腦是建立在百度深度學(xué)習(xí)和大規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)上,最終實(shí)現(xiàn)更具前瞻性的智能數(shù)據(jù)分析及預(yù)測功能,以實(shí)現(xiàn)數(shù)據(jù)智能,支持科學(xué)決策與創(chuàng)造。百度積極開放輸出百度大腦的能力,一方面助力國家在人工智能、大數(shù)據(jù)等技術(shù)上的整體提升;另一方面也幫助行業(yè)轉(zhuǎn)型升級,提升企業(yè)的核心競爭力。
圖4 百度大數(shù)據(jù)引擎
這三大組件作為3級開放平臺支撐百度核心業(yè)務(wù)及其拓展業(yè)務(wù),也將作為獨(dú)立或整體的開放平臺,給各行各業(yè)提供支持和服務(wù),支持百度的核心商業(yè)應(yīng)用及社會企業(yè)的新興商業(yè)模式。
4.2 百度行業(yè)應(yīng)用大數(shù)據(jù)實(shí)踐
4.2.1 公眾生活領(lǐng)域——大數(shù)據(jù)預(yù)測
百度基于海量的數(shù)據(jù)處理能力,利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等手段建立模型,可以實(shí)現(xiàn)公眾生活的預(yù)測業(yè)務(wù)。目前,在百度預(yù)測產(chǎn)品中已經(jīng)推出了景點(diǎn)舒適度預(yù)測和城市旅游預(yù)測、高考預(yù)測、世界杯預(yù)測等服務(wù)。
以世界杯預(yù)測為例,在2014年巴西世界杯的四分之一決賽前,百度、谷歌、微軟和高盛分別對4強(qiáng)結(jié)果進(jìn)行了預(yù)測,結(jié)果顯示:百度、微軟結(jié)果預(yù)測完全正確,而谷歌則預(yù)測正確3支晉級球隊;在小組賽階段的預(yù)測,谷歌缺席,微軟、高盛的準(zhǔn)確率也低于百度??傮w來看,無論是小組賽還是淘汰賽,百度的世界杯結(jié)果預(yù)測中均領(lǐng)先于其他公司。最終,百度又成功預(yù)測了阿根廷隊奪冠,如圖5所示。
圖5 百度世界杯預(yù)測
預(yù)測準(zhǔn)確度來自百度對大數(shù)據(jù)的強(qiáng)大分析能力和超大規(guī)模機(jī)器學(xué)習(xí)模型。在對體育數(shù)據(jù)的研究過程中,百度的科學(xué)家發(fā)現(xiàn)類似保羅章魚的賽事預(yù)測完全有可能借助大數(shù)據(jù)的分析能力完成。因此,百度收集了2010-2013年全世界范圍內(nèi)所有國家隊及俱樂部的賽事數(shù)據(jù),構(gòu)建了賽事預(yù)測模型,并通過對多源異構(gòu)數(shù)據(jù)的綜合分析,綜合考慮球隊實(shí)力、近期狀態(tài)、主場效應(yīng)、博彩數(shù)據(jù)和大賽能力等5個維度的數(shù)據(jù)。最終實(shí)現(xiàn)了對2014年巴西世界杯的成功預(yù)測。
4.2.2 公共衛(wèi)生領(lǐng)域——疾病預(yù)測
通過百度搜索數(shù)據(jù)與醫(yī)療數(shù)據(jù)、醫(yī)保數(shù)據(jù)等關(guān)聯(lián),并結(jié)合圖像識別和語音識別技術(shù)、可穿戴設(shè)備數(shù)據(jù)采集等,通過大數(shù)據(jù)分析與挖掘能力可以實(shí)現(xiàn)人群疾病分布關(guān)聯(lián)分析等。通過對大量臨床電子病歷、臨床經(jīng)驗(yàn)和科研成果等醫(yī)學(xué)信息數(shù)據(jù)進(jìn)行學(xué)習(xí)和理解,繪制人類疾病圖譜(人群分布),并建立疾病分析模型和治療路徑模型。這也將極大推動疾病研究、醫(yī)藥研發(fā)、藥品監(jiān)管、居民醫(yī)療服務(wù)和全民健康教育等事業(yè)發(fā)展。
百度與中國疾病預(yù)防控制中心(CDC)合作開發(fā)的疾病預(yù)測產(chǎn)品,基于對網(wǎng)民每日更新的互聯(lián)網(wǎng)搜索的分析、建模,實(shí)時反饋流感、手足口、性病、艾滋病等傳染病,糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發(fā)數(shù)據(jù),并預(yù)測疾病流行趨勢,是國家疾病控制機(jī)構(gòu)傳統(tǒng)監(jiān)測體系的有力補(bǔ)充。結(jié)合大數(shù)據(jù)輿情分析、公共衛(wèi)生危機(jī)事件預(yù)警產(chǎn)品,有效地融合非結(jié)構(gòu)化大數(shù)據(jù),建立了基于互聯(lián)網(wǎng)的新興公共衛(wèi)生數(shù)據(jù)資源共享機(jī)制與服務(wù)價值鏈。
4.2.3 企業(yè)IT應(yīng)用——硬盤故障預(yù)測
百度全球有幾十個的數(shù)據(jù)中心或者內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)節(jié)點(diǎn),擁有數(shù)十萬臺服務(wù)器和數(shù)萬臺交換機(jī),200多萬塊硬盤。這些硬盤的年報錯率為4%~7%,月均硬盤故障超過1萬起,占全部硬件故障的80%以上。百度通過大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù),對9億條實(shí)例進(jìn)行采集處理,選取15萬個訓(xùn)練樣本,監(jiān)控240個特征的實(shí)時變化,構(gòu)建預(yù)測模型,并通過機(jī)器學(xué)習(xí)的算法可以提前一天預(yù)測出硬盤故障并遷移數(shù)據(jù),該系統(tǒng)可以節(jié)約帶寬70%、節(jié)約計算資源85%、節(jié)省服務(wù)器運(yùn)行消耗10%,每年節(jié)省1萬多塊硬盤。如圖6所示,基于大數(shù)據(jù)實(shí)現(xiàn)硬盤故障預(yù)測的方法也可以用于實(shí)現(xiàn)行業(yè)硬件系統(tǒng)的運(yùn)維和管理中。
圖6 基于大數(shù)據(jù)的硬盤故障預(yù)測
4.2.4 企業(yè)IT應(yīng)用——智能化運(yùn)維
近年來百度在服務(wù)器規(guī)模、數(shù)據(jù)規(guī)模、單集群規(guī)模等方面出現(xiàn)爆發(fā)式增長。百度服務(wù)器的規(guī)模近5年來增長了15倍以上,達(dá)到數(shù)十萬臺。數(shù)據(jù)規(guī)模已達(dá)到EB級別。在云計算和大數(shù)據(jù)時代,集群規(guī)模和數(shù)據(jù)量爆發(fā)式增長,如何管理好云計算平臺、如何提供高質(zhì)量的服務(wù),是云計算的核心問題之一。
為了應(yīng)對云計算和大數(shù)據(jù)應(yīng)用帶來的新的需求和挑戰(zhàn),百度同樣利用大數(shù)據(jù)技術(shù),把在線服務(wù)運(yùn)維轉(zhuǎn)向智能化管理模式,并走在了行業(yè)的前列。百度已經(jīng)建立起了六大數(shù)據(jù)倉庫之一的運(yùn)維數(shù)據(jù)倉庫,囊括了服務(wù)器、網(wǎng)絡(luò)、系統(tǒng)、程序、變更等各個方面的實(shí)時及歷史狀態(tài)數(shù)據(jù),每天更新數(shù)據(jù)量接近100TB。
基于對運(yùn)維大數(shù)據(jù)的挖掘、對歷史數(shù)據(jù)的學(xué)習(xí)和異常模式識別,實(shí)現(xiàn)對流量數(shù)據(jù)的預(yù)測。通過對包括訪問速度、系統(tǒng)容量、帶寬、成本等在內(nèi)的10多個因子的實(shí)時自動分析,實(shí)現(xiàn)了在眾多數(shù)據(jù)中心間的流量自動調(diào)度,決策時間也由人工判斷的10幾分鐘大幅縮短到1min。這個系統(tǒng)的實(shí)際效果在故障中得到很好的檢驗(yàn),例如系統(tǒng)在沒有人工介入的情況下智能地把流量調(diào)度到另外的數(shù)據(jù)中心,拒絕流量僅有幾千個,避免類似故障可能造成數(shù)千萬的流量損失。
4.2.5 社會治理領(lǐng)域——上海外灘踩踏事故大數(shù)據(jù)分析
用戶去目的地之前,一般都會提前利用百度地圖搜索地點(diǎn)和規(guī)劃路線。同時,百度的搜索詞也會有一定的提前量預(yù)測某一事件。因此,對百度數(shù)據(jù)的分析可以應(yīng)用于社會治理領(lǐng)域,實(shí)現(xiàn)基于大規(guī)模人群的事件預(yù)警和分析。
2015年初的上海外灘踩踏事件發(fā)生后,百度秉承“以數(shù)據(jù)說話”的理念,通過對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,對當(dāng)時的情況進(jìn)行了數(shù)據(jù)化描述。圖7標(biāo)明了南京東路地鐵站附近區(qū)域、外灘源附近區(qū)域、事發(fā)地陳毅廣場附近區(qū)域和外灘區(qū)域位置在2014年12月31日事發(fā)當(dāng)時的人群熱力圖。顏色越深表示人群越密集,顏色越淺表示越稀疏。
圖7 外灘地區(qū)人群熱力圖
對當(dāng)晚外灘區(qū)域的人流進(jìn)行量化分析,得到了如圖8所示的人群流動方向分布情況。圖8中每一扇形分區(qū)代表不同的人流方向,扇區(qū)半徑表示該方向人流量大小。圖8(a)和圖8(b)表示2014年中秋和國慶當(dāng)晚的情況,可以看出,人流方向比較簡單和清晰,即南北向人流較多,其他方向人流較少。圖8(c)顯示了跨年當(dāng)晚外灘區(qū)域的人流方向,除了南北雙向的人流,還有其他多個方向人流,人群流動方向分布混亂。
圖8 人群流動方向分布情況
為了挖掘用戶行為的時空特性,百度對大量歷史群體聚集場合的數(shù)據(jù)進(jìn)行進(jìn)一步分析,包括鳥巢足球賽等。分析發(fā)現(xiàn),相關(guān)地點(diǎn)的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現(xiàn)。圖9為外灘的搜索量和人群數(shù)量之間的互相關(guān)性相對于時延的變化曲線,其中橫軸的值為時延量,負(fù)值表示提前量。例如,橫坐標(biāo)-10對應(yīng)的縱坐標(biāo)值就是提前10h的搜索量與人群數(shù)量的相關(guān)性。從圖9中可以發(fā)現(xiàn),兩個量的互相關(guān)性曲線在-1.5 h時達(dá)到了峰值,這意味著,根據(jù)地圖上相關(guān)地點(diǎn)搜索的請求量,至少可能提前幾十分鐘預(yù)測出人流量峰值的到來。
圖9 搜索量和人群數(shù)量相關(guān)性曲線
5 結(jié)束語
隨著我國各行業(yè)信息化的快速發(fā)展,數(shù)據(jù)量激增,我國已經(jīng)成為數(shù)據(jù)大國。未來如何將這些數(shù)據(jù)得以有效、科學(xué)地利用,挖掘數(shù)據(jù)價值,將我國建設(shè)為大數(shù)據(jù)技術(shù)強(qiáng)國,是信息化發(fā)展的重要戰(zhàn)略問題。進(jìn)入大數(shù)據(jù)時代,數(shù)據(jù)類型已不是單一的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)占有非常大的比重,但是如果現(xiàn)有技術(shù)手段無法將大量的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一和整合,就無法發(fā)掘數(shù)據(jù)中的重要價值。而對于這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析和挖掘并實(shí)現(xiàn)其價值,人工智能是重要的技術(shù)發(fā)展方向。大數(shù)據(jù)和計算技術(shù)的發(fā)展帶來了人工智能的新浪潮,人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力,也就是說系統(tǒng)的性能會隨著經(jīng)驗(yàn)數(shù)據(jù)的積累而不斷提升。所以,大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。
如圖10所示,在人工智能領(lǐng)域,存在著一個正循環(huán):通過人工智能技術(shù)不斷優(yōu)化產(chǎn)品,讓優(yōu)秀產(chǎn)品吸引更多用戶,更多用戶產(chǎn)生更多數(shù)據(jù),而更多的數(shù)據(jù)可以使人工智能的性能得到提升,從而讓產(chǎn)品更優(yōu)秀。
在過去的20年里,中國企業(yè)很多時候都只能扮演技術(shù)跟隨者的角色,但是現(xiàn)階段我國互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)處理和人工智能等領(lǐng)域不斷取得突破,推動了這個正循環(huán)運(yùn)轉(zhuǎn)加速,引領(lǐng)我國信息技術(shù)的發(fā)展,并在世界范圍內(nèi)樹立技術(shù)強(qiáng)國的形象,推動我國的大數(shù)據(jù)產(chǎn)業(yè)成熟和發(fā)展。
參考文獻(xiàn)
[1] 涂蘭敬. 百度的技術(shù)突破與應(yīng)用. 中國計算機(jī)報, 2015-01-05
Tu LJ. Technology breakthrough and application of the Baidu. Chinese ComputerNewspaper, 2015-01-05
[2] 都大龍, 余軼男, 羅恒等. 基于深度學(xué)習(xí)的圖像識別進(jìn)展:百度的若干實(shí)踐. 中國計算機(jī)學(xué)會通訊, 2015,11(4)
Du D L, Yu Y N, Luo H, et al. Progress of image recognition basedon deep learning:some of the Baidu practice. Communications of the CCF,2015,11(4)
聯(lián)系客服