陳尚義
百度公司 北京 100085
百度大數(shù)據(jù)應(yīng)用與實(shí)踐
陳尚義
百度公司 北京 100085
產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向其他行業(yè)領(lǐng)域滲透,成為行業(yè)創(chuàng)新和轉(zhuǎn)型的重要驅(qū)動(dòng)力。根據(jù)百度多年來在大數(shù)據(jù)領(lǐng)域的創(chuàng)新與實(shí)踐,闡述了大數(shù)據(jù)驅(qū)動(dòng)搜索引擎的發(fā)展,介紹了百度大數(shù)據(jù)引擎和行業(yè)應(yīng)用實(shí)踐。重點(diǎn)分析了大數(shù)據(jù)發(fā)展的關(guān)鍵因素,并提出了大數(shù)據(jù)和人工智能是未來信息技術(shù)發(fā)展的重要方向。
大數(shù)據(jù);人工智能;搜索引擎
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,信息采集成本不斷降低,加速物理世界向網(wǎng)絡(luò)空間的量化。數(shù)字世界與現(xiàn)實(shí)世界的融合過程中產(chǎn)生并積累了大量的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司(IDC)發(fā)布的研究報(bào)告,全球所有信息數(shù)據(jù)中90%產(chǎn)生于近幾年,數(shù)據(jù)總量正在以指數(shù)形式增長(zhǎng),從2003年的5 EB1Exabyte(EB),1 EB=1 024 PB =220TB=260byte,到2013年4.4 ZB2Zettabyte(ZB),1 ZB=1 024 EB,并將于2020年達(dá)到44 ZB,如圖1所示。
數(shù)據(jù)爆炸將我們推向大數(shù)據(jù)時(shí)代,大數(shù)據(jù)是新一輪信息技術(shù)革命與人類經(jīng)濟(jì)社會(huì)活動(dòng)的交匯融合的必然產(chǎn)物,數(shù)據(jù)的關(guān)聯(lián)和挖掘?qū)?chuàng)造新的價(jià)值,提升效率。數(shù)據(jù)將和自然資源、人力資源一樣成為國家最重要的戰(zhàn)略資源,將成為產(chǎn)業(yè)升級(jí)的重要推動(dòng)力。
大數(shù)據(jù)因其蘊(yùn)含的社會(huì)價(jià)值和商業(yè)價(jià)值,已經(jīng)成為一項(xiàng)重要的生產(chǎn)要素,大數(shù)據(jù)的應(yīng)用將改變傳統(tǒng)行業(yè)的商業(yè)模式,拉動(dòng)產(chǎn)業(yè)升級(jí)。數(shù)據(jù)已經(jīng)成為傳統(tǒng)行業(yè)的核心資產(chǎn)。產(chǎn)生于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用,現(xiàn)階段正在向制造業(yè)、金融及商業(yè)、醫(yī)療衛(wèi)生、國計(jì)民生等各個(gè)領(lǐng)域滲透。各行業(yè)也已經(jīng)意識(shí)到數(shù)據(jù)價(jià)值挖掘的重要意義,加速探索并布局大數(shù)據(jù)應(yīng)用。越來越多機(jī)構(gòu)、企業(yè)都迫切希望從不同渠道獲取的多種類型、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中挖掘出有價(jià)值的趨勢(shì)洞察,快速、準(zhǔn)確地制定決策,驅(qū)動(dòng)商業(yè)和行業(yè)創(chuàng)新。
2.1 搜索引擎是個(gè)天然的大數(shù)據(jù)服務(wù)
大數(shù)據(jù)是信息技術(shù)及其應(yīng)用發(fā)展到一定階段的“自然現(xiàn)象”,源于信息技術(shù)的不斷廉價(jià)化以及互聯(lián)網(wǎng)及其所帶來的無處不在的信息技術(shù)延伸應(yīng)用??梢哉f大數(shù)據(jù)應(yīng)用和技術(shù)是在互聯(lián)網(wǎng)的快速發(fā)展中產(chǎn)生的,互聯(lián)網(wǎng)企業(yè)尤其是搜索引擎公司是大數(shù)據(jù)實(shí)踐的先行者和領(lǐng)跑者。搜索引擎連接了人和信息、人和服務(wù),本身就是一個(gè)完美的大數(shù)據(jù)應(yīng)用實(shí)例,其目的就是為了更好地理解用戶的搜索需求,將信息與用戶匹配起來。
圖1 全球數(shù)據(jù)總量3來源于IDC報(bào)告
百度是當(dāng)今中國人獲取信息的最主要入口,每天響應(yīng)來自138個(gè)國家和地區(qū)的數(shù)十億次搜索請(qǐng)求,覆蓋95%以上的中國網(wǎng)民,平均每個(gè)中國網(wǎng)民每天使用10次百度。為了獲得更好的用戶體驗(yàn)和搜索的精準(zhǔn)對(duì)接,百度不斷在技術(shù)上挑戰(zhàn)自我,在搜索的實(shí)踐中積累了整套大數(shù)據(jù)的處理和實(shí)踐技術(shù),占據(jù)了世界領(lǐng)先的地位。同時(shí),百度也積極在大數(shù)據(jù)的商業(yè)實(shí)踐上不斷探索,并取得了顯著的成績(jī)。
2.2 海量的數(shù)據(jù)資源是大數(shù)據(jù)實(shí)踐的基礎(chǔ)
百度擁有海量的數(shù)據(jù)基礎(chǔ),擁有EB級(jí)別的超大數(shù)據(jù)存儲(chǔ)和管理規(guī)模,并達(dá)到100 PB/天的數(shù)據(jù)計(jì)算能力,可達(dá)到毫秒級(jí)響應(yīng)速度。百度已收錄全世界超過一萬億張網(wǎng)頁,相當(dāng)于5 000個(gè)國家圖書館的信息量總和4http://tech. qq.com/ a/20140529/ 023965.htm。同時(shí)承擔(dān)著每天百億次的訪問請(qǐng)求,可離線完成1 000億網(wǎng)頁的處理與分析,時(shí)效性網(wǎng)頁從更新到索引只需要幾十秒,實(shí)現(xiàn)大數(shù)據(jù)量級(jí)下的低延遲和秒級(jí)響應(yīng)。
百度的數(shù)據(jù)具有實(shí)時(shí)性和全面性的特點(diǎn),囊括了全網(wǎng)搜索數(shù)據(jù)、全網(wǎng)評(píng)論信息、百度內(nèi)部數(shù)據(jù)以及第三方合作數(shù)據(jù)等跨行業(yè)、跨地域基礎(chǔ)數(shù)據(jù),海量的數(shù)據(jù)基礎(chǔ)是百度引領(lǐng)大數(shù)據(jù)實(shí)踐的基礎(chǔ)。
2.3 高效的云計(jì)算基礎(chǔ)設(shè)施提供強(qiáng)大的計(jì)算能力
面臨龐大數(shù)據(jù)量帶來的計(jì)算能力和網(wǎng)絡(luò)帶寬的新挑戰(zhàn),百度自主研發(fā)超大規(guī)模分布式存儲(chǔ)和計(jì)算系統(tǒng),目前能夠支持14款用戶過億的產(chǎn)品5http://www.china. com.cn/news/tech/ 2014-07/16/content_ 32972136.htm。其中分布式存儲(chǔ)系統(tǒng)可以存儲(chǔ)長(zhǎng)文本、語音、視頻等異構(gòu)數(shù)據(jù),實(shí)現(xiàn)單集群文件數(shù)達(dá)100億;大規(guī)模分布式計(jì)算系統(tǒng)通過自研技術(shù)提升50%以上MapReduce的性能,實(shí)時(shí)流計(jì)算系統(tǒng)吞吐量達(dá)10 GB/s;百度創(chuàng)新性地實(shí)現(xiàn)了基于大數(shù)據(jù)的智能自動(dòng)化運(yùn)維框架,滿足超大規(guī)模集群運(yùn)維的需求,實(shí)時(shí)分析3萬以上監(jiān)控指標(biāo);2 min內(nèi)完成分析和故障定位,保證系統(tǒng)可用性為99.99%。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,建立了大規(guī)模GPU并行化平臺(tái),單GPU計(jì)算能力可比百片CPU,極大程度地降低了能耗和計(jì)算成本。
百度自主研發(fā)萬兆交換機(jī),逐步從吉比特網(wǎng)絡(luò)向萬兆網(wǎng)絡(luò)大規(guī)模切換,正在研制的4萬兆交換機(jī)也已經(jīng)開始小規(guī)模試點(diǎn)和驗(yàn)證,百度的萬兆集群是國內(nèi)互聯(lián)網(wǎng)行業(yè)首個(gè)萬兆交換機(jī)的規(guī)模應(yīng)用。
基于完全自主知識(shí)產(chǎn)權(quán)的高性能服務(wù)器、整機(jī)柜和網(wǎng)絡(luò)設(shè)備等,百度自主設(shè)計(jì)并建設(shè)了數(shù)個(gè)亞洲一流的數(shù)據(jù)中心,自主研發(fā)了整機(jī)柜服務(wù)器并已投入使用數(shù)十萬臺(tái)。通過基礎(chǔ)設(shè)施、IT設(shè)備及軟件協(xié)同,定制低功耗服務(wù)器等多項(xiàng)綠色節(jié)能技術(shù),百度自建數(shù)據(jù)中心全年約一半時(shí)間實(shí)現(xiàn)完全免費(fèi)冷卻(free cooling)。2013年,該數(shù)據(jù)中心最佳PUE(power usage effectiveness,電力使用效率)為1.16,成為國內(nèi)最節(jié)能、最環(huán)保的數(shù)據(jù)中心。
2.4 人工智能技術(shù)全面提升大數(shù)據(jù)處理能力
百度高度重視人工智能技術(shù)的發(fā)展,經(jīng)過多年的堅(jiān)持努力,在語音識(shí)別、圖像識(shí)別、自然語言理解、機(jī)器學(xué)習(xí)、智能交互、數(shù)據(jù)挖掘、個(gè)性化推薦的研究和應(yīng)用領(lǐng)域打下扎實(shí)的技術(shù)積累,攻克多項(xiàng)技術(shù)難題,人工智能技術(shù)已經(jīng)達(dá)到國際領(lǐng)先水平。
百度目前已擁有全球最大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),并實(shí)現(xiàn)全球最大規(guī)模的GPU并行計(jì)算平臺(tái)。百度的深度學(xué)習(xí)技術(shù)被應(yīng)用在語音、圖像、文本識(shí)別、自然語言處理和CTR預(yù)估等商業(yè)產(chǎn)品領(lǐng)域,取得顯著的成效。同時(shí),百度也積極將人工智能技術(shù)應(yīng)用于大數(shù)據(jù)領(lǐng)域,通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)提升數(shù)據(jù)智能,尋求現(xiàn)有問題的解決方案,并實(shí)現(xiàn)更好的預(yù)測(cè)。
以百度為例,用戶在搜索的過程中留下信息,其中有大量的文本、圖片和影音等數(shù)據(jù),形成了海量的數(shù)據(jù)資源,百度對(duì)這些復(fù)雜的異構(gòu)數(shù)據(jù)進(jìn)行處理分析,發(fā)掘價(jià)值,實(shí)現(xiàn)更多大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)技術(shù)推動(dòng)著搜索引擎不斷向前演進(jìn)。
3.1 智能交互
隨著用戶需求更趨于復(fù)雜化和個(gè)性化,從最初的獲取信息,到現(xiàn)階段希望能夠通過搜索引擎直接獲取答案、連接服務(wù),這就需要實(shí)現(xiàn)海量數(shù)據(jù)的挖掘和智能處理,實(shí)現(xiàn)人和服務(wù)的精準(zhǔn)匹配。另外用戶也更趨向于自然的交互方式,據(jù)統(tǒng)計(jì),現(xiàn)階段在百度的搜索請(qǐng)求中10%是以語音的形式表達(dá)的,而未來5年使用語音和圖像來表達(dá)需求的比例將超過50%?;谌绱苏鎸?shí)強(qiáng)大的需求,為了不斷提升用戶體驗(yàn),百度在圖像識(shí)別和語音識(shí)別這兩項(xiàng)前沿技術(shù)領(lǐng)域?qū)崿F(xiàn)突破,并取得了一系列領(lǐng)先成果。
百度在2010年開始進(jìn)行智能語音及相關(guān)技術(shù)研發(fā),推出了第一代基于云端識(shí)別的互聯(lián)網(wǎng)應(yīng)用“掌上百度”。2012年11月,百度上線了中國第一款基于DNN的漢語語音搜索系統(tǒng),成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。目前已經(jīng)積累了數(shù)萬小時(shí)的聲學(xué)訓(xùn)練語料和海量文本語料[1],線上語言模型體積超過100 GB,支持小時(shí)級(jí)別的海量語言模型更新。語音識(shí)別DNN深達(dá)9層,基于聽覺感知的深度學(xué)習(xí)聲學(xué)建模技術(shù)可以實(shí)現(xiàn)更高的精準(zhǔn)度和識(shí)別率。在安靜情況下,百度的普通話識(shí)別率已達(dá)到95%以上,處于國際領(lǐng)先水平。百度語音技術(shù)對(duì)內(nèi)應(yīng)用于手機(jī)百度、百度輸入法、百度地圖、百度導(dǎo)航等一系列產(chǎn)品,同時(shí)對(duì)外推出開放平臺(tái),提供多個(gè)垂直領(lǐng)域的識(shí)別和解析服務(wù),合作伙伴超過30個(gè),覆蓋汽車、醫(yī)療、手機(jī)、電商、家電和車載等十幾個(gè)領(lǐng)域和方向。
在圖像識(shí)別領(lǐng)域,百度在2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于OCR識(shí)別和人臉識(shí)別,并推出相應(yīng)的PC端和移動(dòng)端搜索產(chǎn)品[2]。2013年,深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識(shí)別和理解。目前百度的人臉識(shí)別準(zhǔn)確率超過98%,處于國際領(lǐng)先水平,圖像識(shí)別技術(shù)已經(jīng)用于手機(jī)百度、百度識(shí)圖等多個(gè)應(yīng)用中。從百度的經(jīng)驗(yàn)來看,深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗,從而大大提高了在線計(jì)算效率。目前利用CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))技術(shù),百度成功地實(shí)現(xiàn)將圖像內(nèi)容生成自然語言的描述性句子或段落,從而在高層語義層面建立了圖像和自然語言之間的橋梁,也就是“機(jī)器讀圖”,這可以說是人工智能領(lǐng)域的一次技術(shù)飛躍。
3.2 知識(shí)圖譜
當(dāng)用戶使用搜索引擎時(shí),需要的不止是索引到相關(guān)的網(wǎng)頁,更希望找到答案、加深了解以及發(fā)現(xiàn)更多的內(nèi)容。為了使搜索引擎更智能,信息的組織方式正在由網(wǎng)頁之間的超鏈聯(lián)系向海量實(shí)體之間的知識(shí)聯(lián)系演變,知識(shí)圖譜就是基于海量的互聯(lián)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)這種演變的最為重要的技術(shù)之一。
知識(shí)圖譜包含了萬物以及它們之間的聯(lián)系,用實(shí)體以及實(shí)體關(guān)系刻畫這個(gè)世界。如圖2所示,百度知識(shí)圖譜依托于強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù),對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)進(jìn)行挖掘,并應(yīng)用高效精準(zhǔn)的算法對(duì)數(shù)據(jù)進(jìn)行分類梳理,將復(fù)雜的知識(shí)體系通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制顯示出來,構(gòu)建宏大的知識(shí)網(wǎng)絡(luò),以圖文并茂的方式展現(xiàn)知識(shí)的方方面面,讓人們更便捷地獲取信息、找到所求,這恰恰與百度的使命一脈相承。
為了使互聯(lián)網(wǎng)中海量的數(shù)據(jù)及內(nèi)容為機(jī)器所理解,進(jìn)而形成知識(shí)供用戶獲取并使用,百度知識(shí)圖譜以實(shí)體為基點(diǎn),創(chuàng)建了基于語義的鏈接關(guān)系,從海量的數(shù)據(jù)中提取出精華信息,完成了知識(shí)的匯集、整理、再加工,構(gòu)建了與國際標(biāo)準(zhǔn)接軌的數(shù)據(jù)“智囊”,目前已建成涵蓋近20領(lǐng)域、幾十類別、上億實(shí)體量的龐大知識(shí)數(shù)據(jù)庫。通過強(qiáng)大的平臺(tái)與靈活的機(jī)制,應(yīng)用到20多個(gè)產(chǎn)品線之中,為用戶帶來多角度、全方位的搜索體驗(yàn)提升。
圖2 百度知識(shí)圖譜示例
3.3 深度問答
深度問答是一種基于海量互聯(lián)網(wǎng)數(shù)據(jù)和深度語義理解的智能系統(tǒng),基于對(duì)用戶自然語言的理解,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的深層分析和語義理解,并通過搜索和語義匹配技術(shù),提煉出答案信息,對(duì)信息進(jìn)行聚合、提煉,給出最全面、準(zhǔn)確的結(jié)果。其實(shí)現(xiàn)的難點(diǎn)主要在于正確理解用戶復(fù)雜和多變的需求,并掌握海量結(jié)構(gòu)化的知識(shí)庫數(shù)據(jù),這就需要強(qiáng)大的人工智能技術(shù)和海量復(fù)雜的大數(shù)據(jù)處理能力。深度問答其關(guān)鍵技術(shù)包括問題分析和理解技術(shù)、實(shí)體知識(shí)體系建模技術(shù)、文本分析和關(guān)系抽取技術(shù)以及語義分析和排序技術(shù)等。
● 問題分析和理解技術(shù):針對(duì)不同類型的問題,提取答案的技術(shù)也會(huì)不同。根據(jù)可采用的技術(shù),問題可以大致分為實(shí)體類問題和非實(shí)體類問題兩大類。實(shí)體類問題是指答案是實(shí)體的問題, 對(duì)于實(shí)體類問題,問題的答案可以是唯一實(shí)體或者實(shí)體的列表,需要通過問題分析技術(shù)分析出實(shí)體類別;對(duì)于非實(shí)體類的問題,需要通過問題分析技術(shù),把這些類型的問題跟實(shí)體類問題區(qū)分開來,因?yàn)檫@些問題的答案不再是實(shí)體,答案的形態(tài)也更加復(fù)雜。
● 實(shí)體知識(shí)體系建模技術(shù):實(shí)體類問答離不開實(shí)體知識(shí)體系的支撐,實(shí)體的類別、實(shí)體間的同位、上下位關(guān)系都十分重要。因此,一個(gè)完備的實(shí)體知識(shí)體系建設(shè)(ontology)對(duì)于問題回答十分必要。實(shí)體的同位、上下位關(guān)系可以通過整合多種來源的知識(shí)獲取,包括一些結(jié)構(gòu)化的數(shù)據(jù)如百度百科,也可以從普通文本中挖掘。
● 文本分析和關(guān)系抽取技術(shù):對(duì)文本的深層分析是深度問答用到的一項(xiàng)基礎(chǔ)技術(shù)。如圖3所示,文本的分析分為多個(gè)層次,包括分詞、實(shí)體識(shí)別、句法分析乃至語義角色標(biāo)注,在這些分析的基礎(chǔ)上可以進(jìn)行知識(shí)獲取。而通過對(duì)海量數(shù)據(jù)進(jìn)行深層分析,可以有效過濾文本分析引入的噪音,使得知識(shí)更加精準(zhǔn)。文本分析和關(guān)系抽取技術(shù)不僅可以用于從普通文本抽取知識(shí),也可以用于語義匹配。
圖3 文本分析和知識(shí)抽取技術(shù)示例
4.1 百度大數(shù)據(jù)引擎
百度堅(jiān)信技術(shù)改變互聯(lián)網(wǎng),互聯(lián)網(wǎng)可以改造傳統(tǒng)行業(yè)。為了助力傳統(tǒng)行業(yè)快速進(jìn)入這個(gè)大數(shù)據(jù)的時(shí)代,充分發(fā)掘和利用大數(shù)據(jù)的價(jià)值,百度對(duì)外發(fā)布大數(shù)據(jù)引擎,向外界提供大數(shù)據(jù)存儲(chǔ)、分析及挖掘的技術(shù)能力,這也是全球首個(gè)開放大數(shù)據(jù)引擎。
圖4 百度大數(shù)據(jù)引擎
如圖4所示,百度大數(shù)據(jù)引擎主要包含三大組件:開放云、數(shù)據(jù)工廠和百度大腦。開放云可以將企業(yè)原本價(jià)值密度低、結(jié)構(gòu)多樣的小數(shù)據(jù)匯聚成可虛擬化、可檢索的大數(shù)據(jù),解決數(shù)據(jù)存儲(chǔ)和計(jì)算瓶頸;數(shù)據(jù)工廠對(duì)這些數(shù)據(jù)加工、處理、檢索,把數(shù)據(jù)關(guān)聯(lián)起來,從中挖掘出一定的價(jià)值;百度大腦是建立在百度深度學(xué)習(xí)和大規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)上,最終實(shí)現(xiàn)更具前瞻性的智能數(shù)據(jù)分析及預(yù)測(cè)功能,以實(shí)現(xiàn)數(shù)據(jù)智能,支持科學(xué)決策與創(chuàng)造。百度積極開放輸出百度大腦的能力,一方面助力國家在人工智能、大數(shù)據(jù)等技術(shù)上的整體提升;另一方面也幫助行業(yè)轉(zhuǎn)型升級(jí),提升企業(yè)的核心競(jìng)爭(zhēng)力。
這三大組件作為3級(jí)開放平臺(tái)支撐百度核心業(yè)務(wù)及其拓展業(yè)務(wù),也將作為獨(dú)立或整體的開放平臺(tái),給各行各業(yè)提供支持和服務(wù),支持百度的核心商業(yè)應(yīng)用及社會(huì)企業(yè)的新興商業(yè)模式。
4.2 百度行業(yè)應(yīng)用大數(shù)據(jù)實(shí)踐
4.2.1 公眾生活領(lǐng)域——大數(shù)據(jù)預(yù)測(cè)
百度基于海量的數(shù)據(jù)處理能力,利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等手段建立模型,可以實(shí)現(xiàn)公眾生活的預(yù)測(cè)業(yè)務(wù)。目前,在百度預(yù)測(cè)產(chǎn)品中已經(jīng)推出了景點(diǎn)舒適度預(yù)測(cè)和城市旅游預(yù)測(cè)、高考預(yù)測(cè)、世界杯預(yù)測(cè)等服務(wù)。
以世界杯預(yù)測(cè)為例,在2014年巴西世界杯的四分之一決賽前,百度、谷歌、微軟和高盛分別對(duì)4強(qiáng)結(jié)果進(jìn)行了預(yù)測(cè),結(jié)果顯示:百度、微軟結(jié)果預(yù)測(cè)完全正確,而谷歌則預(yù)測(cè)正確3支晉級(jí)球隊(duì);在小組賽階段的預(yù)測(cè),谷歌缺席,微軟、高盛的準(zhǔn)確率也低于百度6http://www. ithome.com/ html/it/93409. htm。總體來看,無論是小組賽還是淘汰賽,百度的世界杯結(jié)果預(yù)測(cè)中均領(lǐng)先于其他公司。最終,百度又成功預(yù)測(cè)了德國隊(duì)奪冠,如圖5所示。
預(yù)測(cè)準(zhǔn)確度來自百度對(duì)大數(shù)據(jù)的強(qiáng)大分析能力和超大規(guī)模機(jī)器學(xué)習(xí)模型。在對(duì)體育數(shù)據(jù)的研究過程中,百度的科學(xué)家發(fā)現(xiàn)類似保羅章魚的賽事預(yù)測(cè)完全有可能借助大數(shù)據(jù)的分析能力完成。因此,百度收集了2010-2013年全世界范圍內(nèi)所有國家隊(duì)及俱樂部的賽事數(shù)據(jù),構(gòu)建了賽事預(yù)測(cè)模型,并通過對(duì)多源異構(gòu)數(shù)據(jù)的綜合分析,綜合考慮球隊(duì)實(shí)力、近期狀態(tài)、主場(chǎng)效應(yīng)、博彩數(shù)據(jù)和大賽能力等5個(gè)維度的數(shù)據(jù)。最終實(shí)現(xiàn)了對(duì)2014年巴西世界杯的成功預(yù)測(cè)。
4.2.2 公共衛(wèi)生領(lǐng)域——疾病預(yù)測(cè)
通過百度搜索數(shù)據(jù)與醫(yī)療數(shù)據(jù)、醫(yī)保數(shù)據(jù)等關(guān)聯(lián),并結(jié)合圖像識(shí)別和語音識(shí)別技術(shù)、可穿戴設(shè)備數(shù)據(jù)采集等,通過大數(shù)據(jù)分析與挖掘能力可以實(shí)現(xiàn)人群疾病分布關(guān)聯(lián)分析等。通過對(duì)大量臨床電子病歷、臨床經(jīng)驗(yàn)和科研成果等醫(yī)學(xué)信息數(shù)據(jù)進(jìn)行學(xué)習(xí)和理解,繪制人類疾病圖譜(人群分布),并建立疾病分析模型和治療路徑模型。這也將極大推動(dòng)疾病研究、醫(yī)藥研發(fā)、藥品監(jiān)管、居民醫(yī)療服務(wù)和全民健康教育等事業(yè)發(fā)展。
百度與中國疾病預(yù)防控制中心(CDC)合作開發(fā)的疾病預(yù)測(cè)產(chǎn)品,基于對(duì)網(wǎng)民每日更新的互聯(lián)網(wǎng)搜索的分析、建模,實(shí)時(shí)反饋流感、手足口、性病、艾滋病等傳染病,糖尿病、高血壓、肺癌、乳腺癌等流行病的爆發(fā)數(shù)據(jù),并預(yù)測(cè)疾病流行趨勢(shì),是國家疾病控制機(jī)構(gòu)傳統(tǒng)監(jiān)測(cè)體系的有力補(bǔ)充。結(jié)合大數(shù)據(jù)輿情分析、公共衛(wèi)生危機(jī)事件預(yù)警產(chǎn)品,有效地融合非結(jié)構(gòu)化大數(shù)據(jù),建立了基于互聯(lián)網(wǎng)的新興公共衛(wèi)生數(shù)據(jù)資源共享機(jī)制與服務(wù)價(jià)值鏈。
圖5 百度世界杯預(yù)測(cè)
4.2.3 企業(yè)IT應(yīng)用——硬盤故障預(yù)測(cè)
百度全球有幾十個(gè)的數(shù)據(jù)中心或者內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)節(jié)點(diǎn),擁有數(shù)十萬臺(tái)服務(wù)器和數(shù)萬臺(tái)交換機(jī),200多萬塊硬盤。這些硬盤的年報(bào)錯(cuò)率為4%~7%,月均硬盤故障超過1萬起,占全部硬件故障的80%以上。百度通過大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù),對(duì)9億條實(shí)例進(jìn)行采集處理,選取15萬個(gè)訓(xùn)練樣本,監(jiān)控240個(gè)特征的實(shí)時(shí)變化,構(gòu)建預(yù)測(cè)模型,并通過機(jī)器學(xué)習(xí)的算法可以提前一天預(yù)測(cè)出硬盤故障并遷移數(shù)據(jù),該系統(tǒng)可以節(jié)約帶寬70%、節(jié)約計(jì)算資源85%、節(jié)省服務(wù)器運(yùn)行消耗10%,每年節(jié)省1萬多塊硬盤。如圖6所示,基于大數(shù)據(jù)實(shí)現(xiàn)硬盤故障預(yù)測(cè)的方法也可以用于實(shí)現(xiàn)行業(yè)硬件系統(tǒng)的運(yùn)維和管理中。
圖6 基于大數(shù)據(jù)的硬盤故障預(yù)測(cè)
4.2.4 企業(yè)IT應(yīng)用——智能化運(yùn)維
近年來百度在服務(wù)器規(guī)模、數(shù)據(jù)規(guī)模、單集群規(guī)模等方面出現(xiàn)爆發(fā)式增長(zhǎng)。百度服務(wù)器的規(guī)模近5年來增長(zhǎng)了15倍以上,達(dá)到數(shù)十萬臺(tái)。數(shù)據(jù)規(guī)模已達(dá)到EB級(jí)別。在云計(jì)算和大數(shù)據(jù)時(shí)代,集群規(guī)模和數(shù)據(jù)量爆發(fā)式增長(zhǎng),如何管理好云計(jì)算平臺(tái)、如何提供高質(zhì)量的服務(wù),是云計(jì)算的核心問題之一。
為了應(yīng)對(duì)云計(jì)算和大數(shù)據(jù)應(yīng)用帶來的新的需求和挑戰(zhàn),百度同樣利用大數(shù)據(jù)技術(shù),把在線服務(wù)運(yùn)維轉(zhuǎn)向智能化管理模式,并走在了行業(yè)的前列。百度已經(jīng)建立起了六大數(shù)據(jù)倉庫之一的運(yùn)維數(shù)據(jù)倉庫,囊括了服務(wù)器、網(wǎng)絡(luò)、系統(tǒng)、程序、變更等各個(gè)方面的實(shí)時(shí)及歷史狀態(tài)數(shù)據(jù),每天更新數(shù)據(jù)量接近100 TB。
基于對(duì)運(yùn)維大數(shù)據(jù)的挖掘、對(duì)歷史數(shù)據(jù)的學(xué)習(xí)和異常模式識(shí)別,實(shí)現(xiàn)對(duì)流量數(shù)據(jù)的預(yù)測(cè)。通過對(duì)包括訪問速度、系統(tǒng)容量、帶寬、成本等在內(nèi)的10多個(gè)因子的實(shí)時(shí)自動(dòng)分析,實(shí)現(xiàn)了在眾多數(shù)據(jù)中心間的流量自動(dòng)調(diào)度,決策時(shí)間也由人工判斷的10幾分鐘大幅縮短到1 min。這個(gè)系統(tǒng)的實(shí)際效果在故障中得到很好的檢驗(yàn),例如系統(tǒng)在沒有人工介入的情況下智能地把流量調(diào)度到另外的數(shù)據(jù)中心,拒絕流量?jī)H有幾千個(gè),避免類似故障可能造成數(shù)千萬的流量損失。
4.2.5 社會(huì)治理領(lǐng)域——上海外灘踩踏事故大數(shù)據(jù)分析
用戶去目的地之前,一般都會(huì)提前利用百度地圖搜索地點(diǎn)和規(guī)劃路線。同時(shí),百度的搜索詞也會(huì)有一定的提前量預(yù)測(cè)某一事件。因此,對(duì)百度數(shù)據(jù)的分析可以應(yīng)用于社會(huì)治理領(lǐng)域,實(shí)現(xiàn)基于大規(guī)模人群的事件預(yù)警和分析。
圖7 外灘地區(qū)人群熱力圖
2015年初的上海外灘踩踏事件發(fā)生后,百度秉承“以數(shù)據(jù)說話”的理念,通過對(duì)百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,對(duì)當(dāng)時(shí)的情況進(jìn)行了數(shù)據(jù)化描述。圖7標(biāo)明了南京東路地鐵站附近區(qū)域、外灘源附近區(qū)域、事發(fā)地陳毅廣場(chǎng)附近區(qū)域和外灘區(qū)域位置在2014年12月31日事發(fā)當(dāng)時(shí)的人群熱力圖。顏色越深表示人群越密集,顏色越淺表示越稀疏。
對(duì)當(dāng)晚外灘區(qū)域的人流進(jìn)行量化分析,得到了如圖8所示的人群流動(dòng)方向分布情況。圖8中每一扇形分區(qū)代表不同的人流方向,扇區(qū)半徑表示該方向人流量大小。圖8(a)和圖8(b)表示2014年中秋和國慶當(dāng)晚的情況,可以看出,人流方向比較簡(jiǎn)單和清晰,即南北向人流較多,其他方向人流較少。圖8(c)顯示了跨年當(dāng)晚外灘區(qū)域的人流方向,除了南北雙向的人流,還有其他多個(gè)方向人流,人群流動(dòng)方向分布混亂。
為了挖掘用戶行為的時(shí)空特性,百度對(duì)大量歷史群體聚集場(chǎng)合的數(shù)據(jù)進(jìn)行進(jìn)一步分析,包括鳥巢足球賽等。分析發(fā)現(xiàn),相關(guān)地點(diǎn)的地圖搜索請(qǐng)求峰值會(huì)早于人群密度高峰幾十分鐘出現(xiàn)。圖9為外灘的搜索量和人群數(shù)量之間的互相關(guān)性相對(duì)于時(shí)延的變化曲線,其中橫軸的值為時(shí)延量,負(fù)值表示提前量。例如,橫坐標(biāo)-10對(duì)應(yīng)的縱坐標(biāo)值就是提前10 h的搜索量與人群數(shù)量的相關(guān)性。從圖9中可以發(fā)現(xiàn),兩個(gè)量的互相關(guān)性曲線在-1.5 h時(shí)達(dá)到了峰值,這意味著,根據(jù)地圖上相關(guān)地點(diǎn)搜索的請(qǐng)求量,至少可能提前幾十分鐘預(yù)測(cè)出人流量峰值的到來。
圖8 人群流動(dòng)方向分布情況
圖9 搜索量和人群數(shù)量相關(guān)性曲線
隨著我國各行業(yè)信息化的快速發(fā)展,數(shù)據(jù)量激增,我國已經(jīng)成為數(shù)據(jù)大國。未來如何將這些數(shù)據(jù)得以有效、科學(xué)地利用,挖掘數(shù)據(jù)價(jià)值,將我國建設(shè)為大數(shù)據(jù)技術(shù)強(qiáng)國,是信息化發(fā)展的重要戰(zhàn)略問題。進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)類型已不是單一的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)占有非常大的比重,但是如果現(xiàn)有技術(shù)手段無法將大量的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一和整合,就無法發(fā)掘數(shù)據(jù)中的重要價(jià)值。而對(duì)于這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析和挖掘并實(shí)現(xiàn)其價(jià)值,人工智能是重要的技術(shù)發(fā)展方向。大數(shù)據(jù)和計(jì)算技術(shù)的發(fā)展帶來了人工智能的新浪潮,人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力,也就是說系統(tǒng)的性能會(huì)隨著經(jīng)驗(yàn)數(shù)據(jù)的積累而不斷提升。所以,大數(shù)據(jù)時(shí)代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。
如圖10所示,在人工智能領(lǐng)域,存在著一個(gè)正循環(huán):通過人工智能技術(shù)不斷優(yōu)化產(chǎn)品,讓優(yōu)秀產(chǎn)品吸引更多用戶,更多用戶產(chǎn)生更多數(shù)據(jù),而更多的數(shù)據(jù)可以使人工智能的性能得到提升,從而讓產(chǎn)品更優(yōu)秀。
在過去的20年里,中國企業(yè)很多時(shí)候都只能扮演技術(shù)跟隨者的角色,但是現(xiàn)階段我國互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)處理和人工智能等領(lǐng)域不斷取得突破,推動(dòng)了這個(gè)正循環(huán)運(yùn)轉(zhuǎn)加速,引領(lǐng)我國信息技術(shù)的發(fā)展,并在世界范圍內(nèi)樹立技術(shù)強(qiáng)國的形象,推動(dòng)我國的大數(shù)據(jù)產(chǎn)業(yè)成熟和發(fā)展。
圖10 基于大數(shù)據(jù)的人工智能正循環(huán)
[1] 涂蘭敬. 百度的技術(shù)突破與應(yīng)用. 中國計(jì)算機(jī)報(bào), 2015-01-05 Tu L J. Technology breakthrough and application of the Baidu. Chinese Computer Newspaper, 2015-01-05
[2] 都大龍, 余軼男, 羅恒等. 基于深度學(xué)習(xí)的圖像識(shí)別進(jìn)展:百度的若干實(shí)踐. 中國計(jì)算機(jī)學(xué)會(huì)通訊, 2015,11(4)Du D L, Yu Y N, Luo H, et al. Progress of image recognition based on deep learning:some of the Baidu practice. Communications of the CCF, 2015,11(4)
Chen S Y. Big data applications and practices of Baidu. Big Data Research, 2015009
Big Data Applications and Practices of Baidu
Chen Shangyi
Baidu.com.Inc., Beijing 100085, China
Big data and the related applications which derived from the internet originally, are now expanding to other industries, and becoming the key driving force of their innovation and transition. The evolvement of the search engine driven by big data technologies was described, based on Baidu’s innovations and practices in the big data area over the years. Baidu big data engine and its explorations in other industries were introduced. Finally, a vision was discussed that big data and artificial intelligence will be prospected in the future information communication technology.
big data, artificial intelligence, search engine
2015-05-04;
2015-05-06
陳尚義. 百度大數(shù)據(jù)應(yīng)用與實(shí)踐. 大數(shù)據(jù), 2015009
陳尚義,百度技術(shù)委員會(huì)理事長(zhǎng),國家科技重大專項(xiàng)(03專項(xiàng))總體組專家,中國電子學(xué)會(huì)常務(wù)理事,中國電子學(xué)會(huì)、中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)委員,北京航空航天大學(xué)、合肥工業(yè)大學(xué)兼職教授,北京航空航天大學(xué)計(jì)算機(jī)校友會(huì)會(huì)長(zhǎng)。先后就職于國家發(fā)展改革委員會(huì)辦公廳、國家開發(fā)銀行科技局從事信息化工作,新加坡國立大學(xué)、美國硅谷高科技公司從事信息技術(shù)產(chǎn)品的研發(fā)工作,2011年初加入百度。獲省部級(jí)科技進(jìn)步獎(jiǎng)一等獎(jiǎng)1次,二等獎(jiǎng)3次、三等獎(jiǎng)4次,2009年度“北京市創(chuàng)新人物”。