四虎精品8848ys一区二区,午夜性爽快

本文由楊靜lillian（公眾號：lillian_yang_1111 ）授權(quán)發(fā)布

作者簡介

陳尚義百度技術(shù)委員會理事長，百度移動云技術(shù)品牌總監(jiān)，北航兼職教授。

摘要：產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用，現(xiàn)階段正在向其他行業(yè)領(lǐng)域滲透，成為行業(yè)創(chuàng)新和轉(zhuǎn)型的重要驅(qū)動力。根據(jù)百度多年來在大數(shù)據(jù)領(lǐng)域的創(chuàng)新與實(shí)踐，闡述了大數(shù)據(jù)驅(qū)動搜索引擎的發(fā)展，介紹了百度大數(shù)據(jù)引擎和行業(yè)應(yīng)用實(shí)踐。重點(diǎn)分析了大數(shù)據(jù)發(fā)展的關(guān)鍵因素，并提出了大數(shù)據(jù)和人工智能是未來信息技術(shù)發(fā)展的重要方向。

1 引言

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展，信息采集成本不斷降低，加速物理世界向網(wǎng)絡(luò)空間的量化。數(shù)字世界與現(xiàn)實(shí)世界的融合過程中產(chǎn)生并積累了大量的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司（IDC）發(fā)布的研究報告，全球所有信息數(shù)據(jù)中90%產(chǎn)生于近幾年，數(shù)據(jù)總量正在以指數(shù)形式增長，從2003年的5 EB，到2013年4.4ZB，并將于2020年達(dá)到44 ZB，如圖1所示。

圖1 全球數(shù)據(jù)總量

數(shù)據(jù)爆炸將我們推向大數(shù)據(jù)時代，大數(shù)據(jù)是新一輪信息技術(shù)革命與人類經(jīng)濟(jì)社會活動的交匯融合的必然產(chǎn)物，數(shù)據(jù)的關(guān)聯(lián)和挖掘?qū)?chuàng)造新的價值，提升效率。數(shù)據(jù)將和自然資源、人力資源一樣成為國家最重要的戰(zhàn)略資源，將成為產(chǎn)業(yè)升級的重要推動力。

大數(shù)據(jù)因其蘊(yùn)含的社會價值和商業(yè)價值，已經(jīng)成為一項(xiàng)重要的生產(chǎn)要素，大數(shù)據(jù)的應(yīng)用將改變傳統(tǒng)行業(yè)的商業(yè)模式，拉動產(chǎn)業(yè)升級。數(shù)據(jù)已經(jīng)成為傳統(tǒng)行業(yè)的核心資產(chǎn)。產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用，現(xiàn)階段正在向制造業(yè)、金融及商業(yè)、醫(yī)療衛(wèi)生、國計民生等各個領(lǐng)域滲透。各行業(yè)也已經(jīng)意識到數(shù)據(jù)價值挖掘的重要意義，加速探索并布局大數(shù)據(jù)應(yīng)用。越來越多機(jī)構(gòu)、企業(yè)都迫切希望從不同渠道獲取的多種類型、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有價值的趨勢洞察，快速、準(zhǔn)確地制定決策，驅(qū)動商業(yè)和行業(yè)創(chuàng)新。

2 從搜索引擎說起，大數(shù)據(jù)面面觀

2.1 搜索引擎是個天然的大數(shù)據(jù)服務(wù)

大數(shù)據(jù)是信息技術(shù)及其應(yīng)用發(fā)展到一定階段的“自然現(xiàn)象”，源于信息技術(shù)的不斷廉價化以及互聯(lián)網(wǎng)及其所帶來的無處不在的信息技術(shù)延伸應(yīng)用。可以說大數(shù)據(jù)應(yīng)用和技術(shù)是在互聯(lián)網(wǎng)的快速發(fā)展中產(chǎn)生的，互聯(lián)網(wǎng)企業(yè)尤其是搜索引擎公司是大數(shù)據(jù)實(shí)踐的先行者和領(lǐng)跑者。搜索引擎連接了人和信息、人和服務(wù)，本身就是一個完美的大數(shù)據(jù)應(yīng)用實(shí)例，其目的就是為了更好地理解用戶的搜索需求，將信息與用戶匹配起來。

百度是當(dāng)今中國人獲取信息的最主要入口，每天響應(yīng)來自138個國家和地區(qū)的數(shù)十億次搜索請求，覆蓋95%以上的中國網(wǎng)民，平均每個中國網(wǎng)民每天使用10次百度。為了獲得更好的用戶體驗(yàn)和搜索的精準(zhǔn)對接，百度不斷在技術(shù)上挑戰(zhàn)自我，在搜索的實(shí)踐中積累了整套大數(shù)據(jù)的處理和實(shí)踐技術(shù)，占據(jù)了世界領(lǐng)先的地位。同時，百度也積極在大數(shù)據(jù)的商業(yè)實(shí)踐上不斷探索，并取得了顯著的成績。

2.2 海量的數(shù)據(jù)資源是大數(shù)據(jù)實(shí)踐的基礎(chǔ)

百度擁有海量的數(shù)據(jù)基礎(chǔ)，擁有EB級別的超大數(shù)據(jù)存儲和管理規(guī)模，并達(dá)到100PB/天的數(shù)據(jù)計算能力，可達(dá)到毫秒級響應(yīng)速度。百度已收錄全世界超過一萬億張網(wǎng)頁，相當(dāng)于5 000個國家圖書館的信息量總和。同時承擔(dān)著每天百億次的訪問請求，可離線完成1000億網(wǎng)頁的處理與分析，時效性網(wǎng)頁從更新到索引只需要幾十秒，實(shí)現(xiàn)大數(shù)據(jù)量級下的低延遲和秒級響應(yīng)。

百度的數(shù)據(jù)具有實(shí)時性和全面性的特點(diǎn)，囊括了全網(wǎng)搜索數(shù)據(jù)、全網(wǎng)評論信息、百度內(nèi)部數(shù)據(jù)以及第三方合作數(shù)據(jù)等跨行業(yè)、跨地域基礎(chǔ)數(shù)據(jù)，海量的數(shù)據(jù)基礎(chǔ)是百度引領(lǐng)大數(shù)據(jù)實(shí)踐的基礎(chǔ)。

2.3 高效的云計算基礎(chǔ)設(shè)施提供強(qiáng)大的計算能力

面臨龐大數(shù)據(jù)量帶來的計算能力和網(wǎng)絡(luò)帶寬的新挑戰(zhàn)，百度自主研發(fā)超大規(guī)模分布式存儲和計算系統(tǒng)，目前能夠支持14款用戶過億的產(chǎn)品。其中分布式存儲系統(tǒng)可以存儲長文本、語音、視頻等異構(gòu)數(shù)據(jù)，實(shí)現(xiàn)單集群文件數(shù)達(dá)100億；大規(guī)模分布式計算系統(tǒng)通過自研技術(shù)提升50%以上MapReduce的性能，實(shí)時流計算系統(tǒng)吞吐量達(dá)10GB/s；百度創(chuàng)新性地實(shí)現(xiàn)了基于大數(shù)據(jù)的智能自動化運(yùn)維框架，滿足超大規(guī)模集群運(yùn)維的需求，實(shí)時分析3萬以上監(jiān)控指標(biāo)；2 min內(nèi)完成分析和故障定位，保證系統(tǒng)可用性為99.99%。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司，建立了大規(guī)模GPU并行化平臺，單GPU計算能力可比百片CPU，極大程度地降低了能耗和計算成本。

百度自主研發(fā)萬兆交換機(jī)，逐步從吉比特網(wǎng)絡(luò)向萬兆網(wǎng)絡(luò)大規(guī)模切換，正在研制的4萬兆交換機(jī)也已經(jīng)開始小規(guī)模試點(diǎn)和驗(yàn)證，百度的萬兆集群是國內(nèi)互聯(lián)網(wǎng)行業(yè)首個萬兆交換機(jī)的規(guī)模應(yīng)用。

基于完全自主知識產(chǎn)權(quán)的高性能服務(wù)器、整機(jī)柜和網(wǎng)絡(luò)設(shè)備等，百度自主設(shè)計并建設(shè)了數(shù)個亞洲一流的數(shù)據(jù)中心，自主研發(fā)了整機(jī)柜服務(wù)器并已投入使用數(shù)十萬臺。通過基礎(chǔ)設(shè)施、IT設(shè)備及軟件協(xié)同，定制低功耗服務(wù)器等多項(xiàng)綠色節(jié)能技術(shù)，百度自建數(shù)據(jù)中心全年約一半時間實(shí)現(xiàn)完全免費(fèi)冷卻（freecooling）。2013年，該數(shù)據(jù)中心最佳PUE(power usage effectiveness，電力使用效率)為1.16，成為國內(nèi)最節(jié)能、最環(huán)保的數(shù)據(jù)中心。

2.4 人工智能技術(shù)全面提升大數(shù)據(jù)處理能力

百度高度重視人工智能技術(shù)的發(fā)展，經(jīng)過多年的堅持努力，在語音識別、圖像識別、自然語言理解、機(jī)器學(xué)習(xí)、智能交互、數(shù)據(jù)挖掘、個性化推薦的研究和應(yīng)用領(lǐng)域打下扎實(shí)的技術(shù)積累，攻克多項(xiàng)技術(shù)難題，人工智能技術(shù)已經(jīng)達(dá)到國際領(lǐng)先水平。

百度目前已擁有全球最大規(guī)模的深度神經(jīng)網(wǎng)絡(luò)，并實(shí)現(xiàn)全球最大規(guī)模的GPU并行計算平臺。百度的深度學(xué)習(xí)技術(shù)被應(yīng)用在語音、圖像、文本識別、自然語言處理和CTR預(yù)估等商業(yè)產(chǎn)品領(lǐng)域，取得顯著的成效。同時，百度也積極將人工智能技術(shù)應(yīng)用于大數(shù)據(jù)領(lǐng)域，通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)提升數(shù)據(jù)智能，尋求現(xiàn)有問題的解決方案，并實(shí)現(xiàn)更好的預(yù)測。

3 大數(shù)據(jù)推動搜索引擎的演進(jìn)

以百度為例，用戶在搜索的過程中留下信息，其中有大量的文本、圖片和影音等數(shù)據(jù)，形成了海量的數(shù)據(jù)資源，百度對這些復(fù)雜的異構(gòu)數(shù)據(jù)進(jìn)行處理分析，發(fā)掘價值，實(shí)現(xiàn)更多大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)技術(shù)推動著搜索引擎不斷向前演進(jìn)。

3.1 智能交互

隨著用戶需求更趨于復(fù)雜化和個性化，從最初的獲取信息，到現(xiàn)階段希望能夠通過搜索引擎直接獲取答案、連接服務(wù)，這就需要實(shí)現(xiàn)海量數(shù)據(jù)的挖掘和智能處理，實(shí)現(xiàn)人和服務(wù)的精準(zhǔn)匹配。另外用戶也更趨向于自然的交互方式，據(jù)統(tǒng)計，現(xiàn)階段在百度的搜索請求中10%是以語音的形式表達(dá)的，而未來5年使用語音和圖像來表達(dá)需求的比例將超過50%。基于如此真實(shí)強(qiáng)大的需求，為了不斷提升用戶體驗(yàn)，百度在圖像識別和語音識別這兩項(xiàng)前沿技術(shù)領(lǐng)域?qū)崿F(xiàn)突破，并取得了一系列領(lǐng)先成果。

百度在2010年開始進(jìn)行智能語音及相關(guān)技術(shù)研發(fā)，推出了第一代基于云端識別的互聯(lián)網(wǎng)應(yīng)用“掌上百度”。2012年11月，百度上線了中國第一款基于DNN的漢語語音搜索系統(tǒng)，成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。目前已經(jīng)積累了數(shù)萬小時的聲學(xué)訓(xùn)練語料和海量文本語料^[1]，線上語言模型體積超過100GB，支持小時級別的海量語言模型更新。語音識別DNN深達(dá)9層，基于聽覺感知的深度學(xué)習(xí)聲學(xué)建模技術(shù)可以實(shí)現(xiàn)更高的精準(zhǔn)度和識別率。在安靜情況下，百度的普通話識別率已達(dá)到95%以上，處于國際領(lǐng)先水平。百度語音技術(shù)對內(nèi)應(yīng)用于手機(jī)百度、百度輸入法、百度地圖、百度導(dǎo)航等一系列產(chǎn)品，同時對外推出開放平臺，提供多個垂直領(lǐng)域的識別和解析服務(wù)，合作伙伴超過30個，覆蓋汽車、醫(yī)療、手機(jī)、電商、家電和車載等十幾個領(lǐng)域和方向。

在圖像識別領(lǐng)域，百度在2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于OCR識別和人臉識別，并推出相應(yīng)的PC端和移動端搜索產(chǎn)品^[2]。2013年，深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。目前百度的人臉識別準(zhǔn)確率超過98%，處于國際領(lǐng)先水平，圖像識別技術(shù)已經(jīng)用于手機(jī)百度、百度識圖等多個應(yīng)用中。從百度的經(jīng)驗(yàn)來看，深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準(zhǔn)確性，而且避免了人工特征抽取的時間消耗，從而大大提高了在線計算效率。目前利用CNN（卷積神經(jīng)網(wǎng)絡(luò)）和RNN（遞歸神經(jīng)網(wǎng)絡(luò)）技術(shù)，百度成功地實(shí)現(xiàn)將圖像內(nèi)容生成自然語言的描述性句子或段落，從而在高層語義層面建立了圖像和自然語言之間的橋梁，也就是“機(jī)器讀圖”，這可以說是人工智能領(lǐng)域的一次技術(shù)飛躍。

3.2 知識圖譜

當(dāng)用戶使用搜索引擎時，需要的不止是索引到相關(guān)的網(wǎng)頁，更希望找到答案、加深了解以及發(fā)現(xiàn)更多的內(nèi)容。為了使搜索引擎更智能，信息的組織方式正在由網(wǎng)頁之間的超鏈聯(lián)系向海量實(shí)體之間的知識聯(lián)系演變，知識圖譜就是基于海量的互聯(lián)網(wǎng)數(shù)據(jù)，實(shí)現(xiàn)這種演變的最為重要的技術(shù)之一。

知識圖譜包含了萬物以及它們之間的聯(lián)系，用實(shí)體以及實(shí)體關(guān)系刻畫這個世界。如圖2所示，百度知識圖譜依托于強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)，對互聯(lián)網(wǎng)海量數(shù)據(jù)進(jìn)行挖掘，并應(yīng)用高效精準(zhǔn)的算法對數(shù)據(jù)進(jìn)行分類梳理，將復(fù)雜的知識體系通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來，構(gòu)建宏大的知識網(wǎng)絡(luò)，以圖文并茂的方式展現(xiàn)知識的方方面面，讓人們更便捷地獲取信息、找到所求，這恰恰與百度的使命一脈相承。

圖2 百度知識圖譜示例

為了使互聯(lián)網(wǎng)中海量的數(shù)據(jù)及內(nèi)容為機(jī)器所理解，進(jìn)而形成知識供用戶獲取并使用，百度知識圖譜以實(shí)體為基點(diǎn)，創(chuàng)建了基于語義的鏈接關(guān)系，從海量的數(shù)據(jù)中提取出精華信息，完成了知識的匯集、整理、再加工，構(gòu)建了與國際標(biāo)準(zhǔn)接軌的數(shù)據(jù)“智囊”，目前已建成涵蓋近20領(lǐng)域、幾十類別、上億實(shí)體量的龐大知識數(shù)據(jù)庫。通過強(qiáng)大的平臺與靈活的機(jī)制，應(yīng)用到20多個產(chǎn)品線之中，為用戶帶來多角度、全方位的搜索體驗(yàn)提升。

3.3 深度問答

深度問答是一種基于海量互聯(lián)網(wǎng)數(shù)據(jù)和深度語義理解的智能系統(tǒng)，基于對用戶自然語言的理解，實(shí)現(xiàn)對海量數(shù)據(jù)的深層分析和語義理解，并通過搜索和語義匹配技術(shù)，提煉出答案信息，對信息進(jìn)行聚合、提煉，給出最全面、準(zhǔn)確的結(jié)果。其實(shí)現(xiàn)的難點(diǎn)主要在于正確理解用戶復(fù)雜和多變的需求，并掌握海量結(jié)構(gòu)化的知識庫數(shù)據(jù)，這就需要強(qiáng)大的人工智能技術(shù)和海量復(fù)雜的大數(shù)據(jù)處理能力。深度問答其關(guān)鍵技術(shù)包括問題分析和理解技術(shù)、實(shí)體知識體系建模技術(shù)、文本分析和關(guān)系抽取技術(shù)以及語義分析和排序技術(shù)等。

● 問題分析和理解技術(shù)：針對不同類型的問題，提取答案的技術(shù)也會不同。根據(jù)可采用的技術(shù)，問題可以大致分為實(shí)體類問題和非實(shí)體類問題兩大類。實(shí)體類問題是指答案是實(shí)體的問題,對于實(shí)體類問題，問題的答案可以是唯一實(shí)體或者實(shí)體的列表，需要通過問題分析技術(shù)分析出實(shí)體類別；對于非實(shí)體類的問題，需要通過問題分析技術(shù)，把這些類型的問題跟實(shí)體類問題區(qū)分開來，因?yàn)檫@些問題的答案不再是實(shí)體，答案的形態(tài)也更加復(fù)雜。

● 實(shí)體知識體系建模技術(shù)：實(shí)體類問答離不開實(shí)體知識體系的支撐，實(shí)體的類別、實(shí)體間的同位、上下位關(guān)系都十分重要。因此，一個完備的實(shí)體知識體系建設(shè)（ontology）對于問題回答十分必要。實(shí)體的同位、上下位關(guān)系可以通過整合多種來源的知識獲取，包括一些結(jié)構(gòu)化的數(shù)據(jù)如百度百科，也可以從普通文本中挖掘。

● 文本分析和關(guān)系抽取技術(shù)：對文本的深層分析是深度問答用到的一項(xiàng)基礎(chǔ)技術(shù)。如圖3所示，文本的分析分為多個層次，包括分詞、實(shí)體識別、句法分析乃至語義角色標(biāo)注，在這些分析的基礎(chǔ)上可以進(jìn)行知識獲取。而通過對海量數(shù)據(jù)進(jìn)行深層分析，可以有效過濾文本分析引入的噪音，使得知識更加精準(zhǔn)。文本分析和關(guān)系抽取技術(shù)不僅可以用于從普通文本抽取知識，也可以用于語義匹配。

圖3 文本分析和知識抽取技術(shù)示例

4 百度大數(shù)據(jù)引擎及行業(yè)應(yīng)用實(shí)踐

4.1 百度大數(shù)據(jù)引擎

百度堅信技術(shù)改變互聯(lián)網(wǎng)，互聯(lián)網(wǎng)可以改造傳統(tǒng)行業(yè)。為了助力傳統(tǒng)行業(yè)快速進(jìn)入這個大數(shù)據(jù)的時代，充分發(fā)掘和利用大數(shù)據(jù)的價值，百度對外發(fā)布大數(shù)據(jù)引擎，向外界提供大數(shù)據(jù)存儲、分析及挖掘的技術(shù)能力，這也是全球首個開放大數(shù)據(jù)引擎。

如圖4所示，百度大數(shù)據(jù)引擎主要包含三大組件：開放云、數(shù)據(jù)工廠和百度大腦。開放云可以將企業(yè)原本價值密度低、結(jié)構(gòu)多樣的小數(shù)據(jù)匯聚成可虛擬化、可檢索的大數(shù)據(jù)，解決數(shù)據(jù)存儲和計算瓶頸；數(shù)據(jù)工廠對這些數(shù)據(jù)加工、處理、檢索，把數(shù)據(jù)關(guān)聯(lián)起來，從中挖掘出一定的價值；百度大腦是建立在百度深度學(xué)習(xí)和大規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)上，最終實(shí)現(xiàn)更具前瞻性的智能數(shù)據(jù)分析及預(yù)測功能，以實(shí)現(xiàn)數(shù)據(jù)智能，支持科學(xué)決策與創(chuàng)造。百度積極開放輸出百度大腦的能力，一方面助力國家在人工智能、大數(shù)據(jù)等技術(shù)上的整體提升；另一方面也幫助行業(yè)轉(zhuǎn)型升級，提升企業(yè)的核心競爭力。

圖4 百度大數(shù)據(jù)引擎

這三大組件作為3級開放平臺支撐百度核心業(yè)務(wù)及其拓展業(yè)務(wù)，也將作為獨(dú)立或整體的開放平臺，給各行各業(yè)提供支持和服務(wù)，支持百度的核心商業(yè)應(yīng)用及社會企業(yè)的新興商業(yè)模式。

4.2 百度行業(yè)應(yīng)用大數(shù)據(jù)實(shí)踐

4.2.1 公眾生活領(lǐng)域——大數(shù)據(jù)預(yù)測

百度基于海量的數(shù)據(jù)處理能力，利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等手段建立模型，可以實(shí)現(xiàn)公眾生活的預(yù)測業(yè)務(wù)。目前，在百度預(yù)測產(chǎn)品中已經(jīng)推出了景點(diǎn)舒適度預(yù)測和城市旅游預(yù)測、高考預(yù)測、世界杯預(yù)測等服務(wù)。

以世界杯預(yù)測為例，在2014年巴西世界杯的四分之一決賽前，百度、谷歌、微軟和高盛分別對4強(qiáng)結(jié)果進(jìn)行了預(yù)測，結(jié)果顯示：百度、微軟結(jié)果預(yù)測完全正確，而谷歌則預(yù)測正確3支晉級球隊；在小組賽階段的預(yù)測，谷歌缺席，微軟、高盛的準(zhǔn)確率也低于百度?？傮w來看，無論是小組賽還是淘汰賽，百度的世界杯結(jié)果預(yù)測中均領(lǐng)先于其他公司。最終，百度又成功預(yù)測了阿根廷隊奪冠，如圖5所示。

圖5 百度世界杯預(yù)測

預(yù)測準(zhǔn)確度來自百度對大數(shù)據(jù)的強(qiáng)大分析能力和超大規(guī)模機(jī)器學(xué)習(xí)模型。在對體育數(shù)據(jù)的研究過程中，百度的科學(xué)家發(fā)現(xiàn)類似保羅章魚的賽事預(yù)測完全有可能借助大數(shù)據(jù)的分析能力完成。因此，百度收集了2010-2013年全世界范圍內(nèi)所有國家隊及俱樂部的賽事數(shù)據(jù)，構(gòu)建了賽事預(yù)測模型，并通過對多源異構(gòu)數(shù)據(jù)的綜合分析，綜合考慮球隊實(shí)力、近期狀態(tài)、主場效應(yīng)、博彩數(shù)據(jù)和大賽能力等5個維度的數(shù)據(jù)。最終實(shí)現(xiàn)了對2014年巴西世界杯的成功預(yù)測。

4.2.2 公共衛(wèi)生領(lǐng)域——疾病預(yù)測

通過百度搜索數(shù)據(jù)與醫(yī)療數(shù)據(jù)、醫(yī)保數(shù)據(jù)等關(guān)聯(lián)，并結(jié)合圖像識別和語音識別技術(shù)、可穿戴設(shè)備數(shù)據(jù)采集等，通過大數(shù)據(jù)分析與挖掘能力可以實(shí)現(xiàn)人群疾病分布關(guān)聯(lián)分析等。通過對大量臨床電子病歷、臨床經(jīng)驗(yàn)和科研成果等醫(yī)學(xué)信息數(shù)據(jù)進(jìn)行學(xué)習(xí)和理解，繪制人類疾病圖譜（人群分布），并建立疾病分析模型和治療路徑模型。這也將極大推動疾病研究、醫(yī)藥研發(fā)、藥品監(jiān)管、居民醫(yī)療服務(wù)和全民健康教育等事業(yè)發(fā)展。

百度與中國疾病預(yù)防控制中心（CDC）合作開發(fā)的疾病預(yù)測產(chǎn)品，基于對網(wǎng)民每日更新的互聯(lián)網(wǎng)搜索的分析、建模，實(shí)時反饋流感、手足口、性病、艾滋病等傳染病，糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發(fā)數(shù)據(jù)，并預(yù)測疾病流行趨勢，是國家疾病控制機(jī)構(gòu)傳統(tǒng)監(jiān)測體系的有力補(bǔ)充。結(jié)合大數(shù)據(jù)輿情分析、公共衛(wèi)生危機(jī)事件預(yù)警產(chǎn)品，有效地融合非結(jié)構(gòu)化大數(shù)據(jù)，建立了基于互聯(lián)網(wǎng)的新興公共衛(wèi)生數(shù)據(jù)資源共享機(jī)制與服務(wù)價值鏈。

4.2.3 企業(yè)IT應(yīng)用——硬盤故障預(yù)測

百度全球有幾十個的數(shù)據(jù)中心或者內(nèi)容分發(fā)網(wǎng)絡(luò)（CDN）節(jié)點(diǎn)，擁有數(shù)十萬臺服務(wù)器和數(shù)萬臺交換機(jī)，200多萬塊硬盤。這些硬盤的年報錯率為4%~7%，月均硬盤故障超過1萬起，占全部硬件故障的80%以上。百度通過大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)，對9億條實(shí)例進(jìn)行采集處理，選取15萬個訓(xùn)練樣本，監(jiān)控240個特征的實(shí)時變化，構(gòu)建預(yù)測模型，并通過機(jī)器學(xué)習(xí)的算法可以提前一天預(yù)測出硬盤故障并遷移數(shù)據(jù)，該系統(tǒng)可以節(jié)約帶寬70%、節(jié)約計算資源85%、節(jié)省服務(wù)器運(yùn)行消耗10%，每年節(jié)省1萬多塊硬盤。如圖6所示，基于大數(shù)據(jù)實(shí)現(xiàn)硬盤故障預(yù)測的方法也可以用于實(shí)現(xiàn)行業(yè)硬件系統(tǒng)的運(yùn)維和管理中。

圖6 基于大數(shù)據(jù)的硬盤故障預(yù)測

4.2.4 企業(yè)IT應(yīng)用——智能化運(yùn)維

近年來百度在服務(wù)器規(guī)模、數(shù)據(jù)規(guī)模、單集群規(guī)模等方面出現(xiàn)爆發(fā)式增長。百度服務(wù)器的規(guī)模近5年來增長了15倍以上，達(dá)到數(shù)十萬臺。數(shù)據(jù)規(guī)模已達(dá)到EB級別。在云計算和大數(shù)據(jù)時代，集群規(guī)模和數(shù)據(jù)量爆發(fā)式增長，如何管理好云計算平臺、如何提供高質(zhì)量的服務(wù)，是云計算的核心問題之一。

為了應(yīng)對云計算和大數(shù)據(jù)應(yīng)用帶來的新的需求和挑戰(zhàn)，百度同樣利用大數(shù)據(jù)技術(shù)，把在線服務(wù)運(yùn)維轉(zhuǎn)向智能化管理模式，并走在了行業(yè)的前列。百度已經(jīng)建立起了六大數(shù)據(jù)倉庫之一的運(yùn)維數(shù)據(jù)倉庫，囊括了服務(wù)器、網(wǎng)絡(luò)、系統(tǒng)、程序、變更等各個方面的實(shí)時及歷史狀態(tài)數(shù)據(jù)，每天更新數(shù)據(jù)量接近100TB。

基于對運(yùn)維大數(shù)據(jù)的挖掘、對歷史數(shù)據(jù)的學(xué)習(xí)和異常模式識別，實(shí)現(xiàn)對流量數(shù)據(jù)的預(yù)測。通過對包括訪問速度、系統(tǒng)容量、帶寬、成本等在內(nèi)的10多個因子的實(shí)時自動分析，實(shí)現(xiàn)了在眾多數(shù)據(jù)中心間的流量自動調(diào)度，決策時間也由人工判斷的10幾分鐘大幅縮短到1min。這個系統(tǒng)的實(shí)際效果在故障中得到很好的檢驗(yàn)，例如系統(tǒng)在沒有人工介入的情況下智能地把流量調(diào)度到另外的數(shù)據(jù)中心，拒絕流量僅有幾千個，避免類似故障可能造成數(shù)千萬的流量損失。

4.2.5 社會治理領(lǐng)域——上海外灘踩踏事故大數(shù)據(jù)分析

用戶去目的地之前，一般都會提前利用百度地圖搜索地點(diǎn)和規(guī)劃路線。同時，百度的搜索詞也會有一定的提前量預(yù)測某一事件。因此，對百度數(shù)據(jù)的分析可以應(yīng)用于社會治理領(lǐng)域，實(shí)現(xiàn)基于大規(guī)模人群的事件預(yù)警和分析。

2015年初的上海外灘踩踏事件發(fā)生后，百度秉承“以數(shù)據(jù)說話”的理念，通過對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘，對當(dāng)時的情況進(jìn)行了數(shù)據(jù)化描述。圖7標(biāo)明了南京東路地鐵站附近區(qū)域、外灘源附近區(qū)域、事發(fā)地陳毅廣場附近區(qū)域和外灘區(qū)域位置在2014年12月31日事發(fā)當(dāng)時的人群熱力圖。顏色越深表示人群越密集，顏色越淺表示越稀疏。

圖7 外灘地區(qū)人群熱力圖

對當(dāng)晚外灘區(qū)域的人流進(jìn)行量化分析，得到了如圖8所示的人群流動方向分布情況。圖8中每一扇形分區(qū)代表不同的人流方向，扇區(qū)半徑表示該方向人流量大小。圖8（a）和圖8（b）表示2014年中秋和國慶當(dāng)晚的情況，可以看出，人流方向比較簡單和清晰，即南北向人流較多，其他方向人流較少。圖8（c）顯示了跨年當(dāng)晚外灘區(qū)域的人流方向，除了南北雙向的人流，還有其他多個方向人流，人群流動方向分布混亂。

圖8 人群流動方向分布情況

為了挖掘用戶行為的時空特性，百度對大量歷史群體聚集場合的數(shù)據(jù)進(jìn)行進(jìn)一步分析，包括鳥巢足球賽等。分析發(fā)現(xiàn)，相關(guān)地點(diǎn)的地圖搜索請求峰值會早于人群密度高峰幾十分鐘出現(xiàn)。圖9為外灘的搜索量和人群數(shù)量之間的互相關(guān)性相對于時延的變化曲線，其中橫軸的值為時延量，負(fù)值表示提前量。例如，橫坐標(biāo)-10對應(yīng)的縱坐標(biāo)值就是提前10h的搜索量與人群數(shù)量的相關(guān)性。從圖9中可以發(fā)現(xiàn)，兩個量的互相關(guān)性曲線在-1.5 h時達(dá)到了峰值，這意味著，根據(jù)地圖上相關(guān)地點(diǎn)搜索的請求量，至少可能提前幾十分鐘預(yù)測出人流量峰值的到來。

圖9 搜索量和人群數(shù)量相關(guān)性曲線

5 結(jié)束語

隨著我國各行業(yè)信息化的快速發(fā)展，數(shù)據(jù)量激增，我國已經(jīng)成為數(shù)據(jù)大國。未來如何將這些數(shù)據(jù)得以有效、科學(xué)地利用，挖掘數(shù)據(jù)價值，將我國建設(shè)為大數(shù)據(jù)技術(shù)強(qiáng)國，是信息化發(fā)展的重要戰(zhàn)略問題。進(jìn)入大數(shù)據(jù)時代，數(shù)據(jù)類型已不是單一的結(jié)構(gòu)化數(shù)據(jù)，非結(jié)構(gòu)化數(shù)據(jù)占有非常大的比重，但是如果現(xiàn)有技術(shù)手段無法將大量的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一和整合，就無法發(fā)掘數(shù)據(jù)中的重要價值。而對于這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析和挖掘并實(shí)現(xiàn)其價值，人工智能是重要的技術(shù)發(fā)展方向。大數(shù)據(jù)和計算技術(shù)的發(fā)展帶來了人工智能的新浪潮，人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力，也就是說系統(tǒng)的性能會隨著經(jīng)驗(yàn)數(shù)據(jù)的積累而不斷提升。所以，大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。

如圖10所示，在人工智能領(lǐng)域，存在著一個正循環(huán)：通過人工智能技術(shù)不斷優(yōu)化產(chǎn)品，讓優(yōu)秀產(chǎn)品吸引更多用戶，更多用戶產(chǎn)生更多數(shù)據(jù)，而更多的數(shù)據(jù)可以使人工智能的性能得到提升，從而讓產(chǎn)品更優(yōu)秀。

在過去的20年里，中國企業(yè)很多時候都只能扮演技術(shù)跟隨者的角色，但是現(xiàn)階段我國互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)處理和人工智能等領(lǐng)域不斷取得突破，推動了這個正循環(huán)運(yùn)轉(zhuǎn)加速，引領(lǐng)我國信息技術(shù)的發(fā)展，并在世界范圍內(nèi)樹立技術(shù)強(qiáng)國的形象，推動我國的大數(shù)據(jù)產(chǎn)業(yè)成熟和發(fā)展。

參考文獻(xiàn)

[1] 涂蘭敬. 百度的技術(shù)突破與應(yīng)用. 中國計算機(jī)報, 2015-01-05

Tu LJ. Technology breakthrough and application of the Baidu. Chinese ComputerNewspaper, 2015-01-05

[2] 都大龍, 余軼男, 羅恒等. 基于深度學(xué)習(xí)的圖像識別進(jìn)展：百度的若干實(shí)踐. 中國計算機(jī)學(xué)會通訊, 2015，11（4）

Du D L, Yu Y N, Luo H, et al. Progress of image recognition basedon deep learning:some of the Baidu practice. Communications of the CCF,2015，11（4）

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区