陳 珺
(新華通訊社通信技術(shù)局 北京 100000)
媒體行業(yè)在大數(shù)據(jù)時(shí)代既面臨著較大的沖擊和挑戰(zhàn),也擁有著前所未有的機(jī)遇,關(guān)鍵看怎樣準(zhǔn)確把握大數(shù)據(jù)特點(diǎn),運(yùn)用大數(shù)據(jù)技術(shù)融合創(chuàng)新,提升信息服務(wù)的能力和水平。
國外媒體很早就嗅到了大數(shù)據(jù)時(shí)代來臨的氣息,他們積極運(yùn)用大數(shù)據(jù)技術(shù)融入到新聞的生產(chǎn)和傳播流程中,在業(yè)務(wù)形式上力求進(jìn)行創(chuàng)新。比如趨勢預(yù)測性新聞和數(shù)據(jù)驅(qū)動(dòng)型深度報(bào)道的數(shù)量在逐漸增加,信息圖表被廣泛使用,以及“傳感新聞”、“機(jī)器人新聞”和“數(shù)據(jù)新聞”等的出現(xiàn),正是代表了在數(shù)據(jù)技術(shù)驅(qū)動(dòng)之下傳媒業(yè)新的探索,也體現(xiàn)著大數(shù)據(jù)技術(shù)對(duì)新聞生產(chǎn)和傳播方式正在產(chǎn)生的深刻影響和變革。
湯森路透作為全球著名的財(cái)經(jīng)信息服務(wù)提供商,一直善于運(yùn)用大數(shù)據(jù)技術(shù)采集生產(chǎn)加工和傳播自己的各類產(chǎn)品。他們擁有數(shù)百人的分析師團(tuán)隊(duì),采用自動(dòng)數(shù)據(jù)監(jiān)控和抽取技術(shù),持續(xù)追蹤和實(shí)時(shí)采集全球上千個(gè)網(wǎng)站的數(shù)據(jù),對(duì)這些采集來的海量數(shù)據(jù)進(jìn)行快速分類和分析,發(fā)現(xiàn)突發(fā)新聞,更新市場數(shù)據(jù),提供及時(shí)信息服務(wù)。
在大數(shù)據(jù)時(shí)代,湯森路透把自己定位為數(shù)據(jù)“過濾器”的角色,在每天產(chǎn)生的海量信息中,充分運(yùn)用技術(shù)手段篩選、過濾、甄別噪音信息,提煉出用戶最感興趣、最相關(guān)、最有用的數(shù)據(jù)。
他們利用技術(shù)方式挖掘各類新聞、資訊和數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,通過深入的整合和加工,努力打造新聞、數(shù)據(jù)和內(nèi)容的聚合器。例如,在路透的終端中,點(diǎn)擊一個(gè)中國A股的上市公司江西銅業(yè),會(huì)同時(shí)呈現(xiàn)彼得堡的銅市行情,以及滬銅的價(jià)格走勢,還有紐約期銅的價(jià)格,同時(shí),還將呈現(xiàn)可能影響銅業(yè)的相關(guān)上下游行業(yè)數(shù)據(jù)、相關(guān)宏觀經(jīng)濟(jì)政策等信息,比如原油、航運(yùn)等的價(jià)格和信息等。通過這些知識(shí)點(diǎn)的聚類,幫助用戶快速進(jìn)行多維度分析,最大限度地為用戶提供全面的個(gè)性化資訊服務(wù)。
與此同時(shí),湯森路透正在進(jìn)行大的變革,從一家提供技術(shù)產(chǎn)品為主導(dǎo)的公司,轉(zhuǎn)向以提供平臺(tái)為導(dǎo)向的公司。利用云計(jì)算技術(shù),通過Iaas(基礎(chǔ)設(shè)施云)、Daas(數(shù)據(jù)云)和Paas(平臺(tái)云),湯森路透正在努力打造一個(gè)開放性的平臺(tái),一個(gè)新的金融生態(tài)環(huán)境。越來越多的內(nèi)容供應(yīng)商和用戶已經(jīng)加入到湯森路透所提供的平臺(tái)中。
彭博也在探索運(yùn)用大數(shù)據(jù)技術(shù)挖掘新聞事件背后隱藏的深度信息,為用戶提供具有獨(dú)特視角的呈現(xiàn)形式,豐富用戶對(duì)事件的認(rèn)知,這種數(shù)據(jù)挖掘的新聞往往比傳統(tǒng)新聞報(bào)道更有力度。例如,彭博建立了一個(gè)數(shù)據(jù)挖掘類的報(bào)道欄目“今日圖表”,將彭博新聞、彭博數(shù)據(jù)與彭博分析整合起來。記者首先初步確定選題方向,依托其全球建立起來的海量數(shù)據(jù)庫資源,篩選所需要的相關(guān)數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),建立業(yè)務(wù)分析模型,對(duì)數(shù)據(jù)進(jìn)行分析和計(jì)算,挖掘數(shù)據(jù)中隱藏的關(guān)聯(lián)信息,獲得相對(duì)客觀的分析結(jié)果,基于這些結(jié)果形成新聞報(bào)道,并采用簡單明了的信息圖表方式來闡明事實(shí)。這種數(shù)據(jù)新聞報(bào)道形式由于其視角的獨(dú)特性、新穎性、客觀性和不可復(fù)制性,受到了用戶的歡迎。
同時(shí),彭博同路透一樣,也在逐步開放數(shù)據(jù)接口,搭建開放式平臺(tái),允許第三方的創(chuàng)新性產(chǎn)品進(jìn)來,從而擴(kuò)充服務(wù)內(nèi)容,打造平臺(tái)型媒體集團(tuán)。
美聯(lián)社建立了一個(gè)Overview技術(shù)項(xiàng)目,為記者提供可視化的文檔挖掘工具。在大數(shù)據(jù)時(shí)代,記者通常會(huì)被淹沒在大量文件中,而需要花費(fèi)大量時(shí)間和精力來找到他們想要的內(nèi)容。Overview借助先進(jìn)的文本挖掘和語義分析技術(shù),通過全面閱讀整篇文檔內(nèi)容,能夠發(fā)現(xiàn)和理解圍繞某個(gè)話題的主題內(nèi)容,在語義理解的基礎(chǔ)上創(chuàng)建一個(gè)可視化的主題和子項(xiàng),可以將成千上萬篇文檔自動(dòng)分類到不同的主題大類和主題子類,形成主題目錄樹。通過主題自動(dòng)分類和提供快速的可視化閱讀界面,用來幫助記者在大量文檔中定位內(nèi)容,快速找到自己需要的主題文檔。Overview除了針對(duì)文本文件外,也非常適合對(duì)社交化媒體數(shù)據(jù)的分析。
國內(nèi)媒體集團(tuán),也正在積極運(yùn)用大數(shù)據(jù)、新媒體等技術(shù),努力改造新聞生產(chǎn)流程和機(jī)制,提升新聞報(bào)道和信息服務(wù)的品質(zhì),進(jìn)一步鞏固和擴(kuò)大輿論影響力。通過加大在技術(shù)創(chuàng)新方面的研究力度,比如建立新媒體技術(shù)實(shí)驗(yàn)室,參與國家重大科研項(xiàng)目的攻關(guān),聯(lián)合領(lǐng)域內(nèi)領(lǐng)先的大學(xué)、研究機(jī)構(gòu)和企業(yè),積極開展大數(shù)據(jù)、新媒體等新興技術(shù)在媒體業(yè)務(wù)上的集成創(chuàng)新研究,正在逐步取得一系列研究成果。
其中,作者參與的科技部“基于云計(jì)算的國家級(jí)金融數(shù)據(jù)分析與信息服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用”研究課題,就旨在針對(duì)云計(jì)算、語義分析、文本挖掘、機(jī)器學(xué)習(xí)、信息搜索、知識(shí)網(wǎng)絡(luò)、知識(shí)圖譜、個(gè)性化推薦等大數(shù)據(jù)關(guān)鍵技術(shù)進(jìn)行研究,實(shí)現(xiàn)在財(cái)經(jīng)信息服務(wù)上的集成創(chuàng)新應(yīng)用為目標(biāo),目前已經(jīng)取得了一定的研究成果。
完成了財(cái)經(jīng)信息服務(wù)高性能云計(jì)算實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)構(gòu)建,極大提升了海量財(cái)經(jīng)數(shù)據(jù)存儲(chǔ)管理、數(shù)據(jù)分析處理和數(shù)據(jù)應(yīng)用服務(wù)的性能,開放式的平臺(tái)架構(gòu)為今后打造“財(cái)經(jīng)信息云服務(wù)”提供了有力的基礎(chǔ)平臺(tái)支撐。
(1)課題組開展了對(duì)財(cái)經(jīng)信息服務(wù)高性能云計(jì)算平臺(tái)所涉及的相關(guān)技術(shù),主要包括高性能計(jì)算技術(shù)、大數(shù)據(jù)基礎(chǔ)平臺(tái)技術(shù)、虛擬化技術(shù)、云平臺(tái)管理技術(shù)、并行計(jì)算技術(shù)等的調(diào)研工作,深入研究了業(yè)界若干主流先進(jìn)的開源平臺(tái)軟件,并專門針對(duì)財(cái)經(jīng)信息服務(wù)的運(yùn)行特點(diǎn)對(duì)平臺(tái)軟件進(jìn)行了相應(yīng)的性能優(yōu)化和功能擴(kuò)充。
(2)在充分調(diào)研的基礎(chǔ)上,完成了財(cái)經(jīng)信息服務(wù)高性能云計(jì)算平臺(tái)的設(shè)計(jì)方案,實(shí)際搭建起包括高性能計(jì)算集群、Hadoop大數(shù)據(jù)處理平臺(tái)、CloudStack(OpenStack)+VMWare Vsphere虛擬化云平臺(tái)在內(nèi)的三個(gè)實(shí)驗(yàn)子系統(tǒng)。
(3)在高性能計(jì)算集群平臺(tái)上完成了基于SMP多核算法的“一籃子期權(quán)定價(jià)模型”的測試對(duì)比,以及基于MPI+SMP并行算法的“定價(jià)利率衍生產(chǎn)品的蒙特卡洛模型”的測試對(duì)比。在Hadoop平臺(tái)上完成了基于“分布式網(wǎng)絡(luò)爬蟲”的大規(guī)模數(shù)據(jù)并行采集系統(tǒng)的測試對(duì)比。在虛擬化云平臺(tái)上部署并測試了Oracle最新云數(shù)據(jù)庫Oracle 12C。
(4)測試結(jié)果顯示,針對(duì)不同財(cái)經(jīng)信息服務(wù)特點(diǎn)所設(shè)計(jì)搭建的高性能云計(jì)算平臺(tái)能夠顯著提高應(yīng)用系統(tǒng)的運(yùn)行性能。同時(shí),開放式的平臺(tái)架構(gòu)和數(shù)據(jù)接口為今后實(shí)現(xiàn)財(cái)經(jīng)信息云服務(wù)奠定了平臺(tái)基礎(chǔ)。
開展信息搜索、語義分析、文本挖掘、機(jī)器學(xué)習(xí)、知識(shí)網(wǎng)絡(luò)、知識(shí)圖譜、個(gè)性化推薦等大數(shù)據(jù)關(guān)鍵性前沿性技術(shù)研究,創(chuàng)新性地將相關(guān)技術(shù)集成融合,打造財(cái)經(jīng)信息智能云服務(wù)平臺(tái)。通過對(duì)海量信息的高效采集和處理、智能搜索、基于知識(shí)網(wǎng)絡(luò)的關(guān)聯(lián)和聚合、個(gè)性化推薦和多層次多維度的可視化呈現(xiàn),提供了一種特色新穎的財(cái)經(jīng)信息服務(wù)應(yīng)用模式,滿足大數(shù)據(jù)時(shí)代用戶對(duì)“信息智能服務(wù)”的需求。
課題以新華社金融財(cái)經(jīng)數(shù)據(jù)庫和多媒體新聞資訊庫的大量樣本數(shù)據(jù),以及自動(dòng)化采集數(shù)十家財(cái)經(jīng)類網(wǎng)站的信息作為研究數(shù)據(jù)來源,研究基于云計(jì)算平臺(tái)的海量異構(gòu)數(shù)據(jù)高效搜索算法。同時(shí),融合語義分析、文本挖掘、機(jī)器學(xué)習(xí)、知識(shí)網(wǎng)絡(luò)、知識(shí)圖譜等大數(shù)據(jù)前沿技術(shù),對(duì)搜索結(jié)果進(jìn)行自動(dòng)分類聚類等智能化處理,抽取信息主題,發(fā)現(xiàn)信息之間的關(guān)聯(lián)關(guān)系,構(gòu)建財(cái)經(jīng)知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)信息的有效聚合。采集分析用戶數(shù)據(jù),建立用戶興趣模型,提供符合用戶個(gè)性需求的多層次多維度的信息聚合與呈現(xiàn)。從而使用戶能夠從海量數(shù)據(jù)中,快速準(zhǔn)確地獲取有價(jià)值信息,提供良好的用戶體驗(yàn),提升財(cái)經(jīng)信息服務(wù)水平。
整個(gè)研究體系架構(gòu)分為五層:最底層是云計(jì)算平臺(tái),以Hadoop平臺(tái)技術(shù)為基礎(chǔ)。第二層是數(shù)據(jù)采集存儲(chǔ)和預(yù)處理層,負(fù)責(zé)采集和融合不同格式的金融財(cái)經(jīng)數(shù)據(jù)。第三層是技術(shù)平臺(tái)層,包含了搜索引擎、自動(dòng)分類聚類、自動(dòng)摘要提取、命名實(shí)體識(shí)別、財(cái)經(jīng)知識(shí)網(wǎng)絡(luò)、知識(shí)圖譜以及個(gè)性化推薦等眾多核心技術(shù)模塊。第四層是服務(wù)層,提供相應(yīng)的智能化信息服務(wù)模塊。第五層是信息智能服務(wù)門戶,負(fù)責(zé)數(shù)據(jù)搜索和分析結(jié)果的可視化呈現(xiàn)。
(1)搜索引擎模塊
完成了基于Hadoop的分布式平臺(tái)搭建,設(shè)計(jì)并實(shí)現(xiàn)了基于Nutch的分布式網(wǎng)絡(luò)智能爬蟲和基于Solr的企業(yè)級(jí)高效搜索引擎,對(duì)Solr的相關(guān)組件進(jìn)行了優(yōu)化。
(2)新聞自動(dòng)分類模塊
實(shí)現(xiàn)了基于規(guī)則和內(nèi)容自動(dòng)分類的功能,能按照不同的分類規(guī)則進(jìn)行自動(dòng)分類,用戶可對(duì)分類策略進(jìn)行管理和維護(hù)。同時(shí),通過分類訓(xùn)練工具,可進(jìn)行自動(dòng)分詞和語義分析的自學(xué)習(xí),并允許用戶根據(jù)自己的需求和實(shí)際效果去調(diào)整詞的權(quán)重。
(3)新聞聚類模塊
自動(dòng)聚類技術(shù)是信息趨勢分析功能的關(guān)鍵技術(shù)之一。采用改進(jìn)的聚類算法方法實(shí)現(xiàn)了自動(dòng)聚類功能,可根據(jù)文本內(nèi)容的相似度,及時(shí)自動(dòng)地將海量信息聚合成不同的類別,同時(shí)對(duì)每個(gè)類別,給出精確的類別主題詞定義。
(4)實(shí)體識(shí)別模塊
命名實(shí)體識(shí)別技術(shù)是自然語言處理技術(shù)中的關(guān)鍵基礎(chǔ)技術(shù),是文本信息理解和處理的基礎(chǔ)。進(jìn)行文本挖掘和分析時(shí),命名實(shí)體識(shí)別就成為首要任務(wù)。通過把機(jī)器學(xué)習(xí)和規(guī)則的方法很好的結(jié)合起來,設(shè)計(jì)并實(shí)現(xiàn)了一套命名識(shí)別算法,可以識(shí)別單篇新聞中的重要實(shí)體,包括重要人名、時(shí)間、地名和結(jié)構(gòu)名等。
(5)自動(dòng)摘要抽取模塊
自動(dòng)摘要技術(shù)通過計(jì)算機(jī)從文章中自動(dòng)提取內(nèi)容生成摘要,通過簡潔的摘要信息即可捕獲新聞的大部分內(nèi)容,是快速獲取感興趣資源的一種高效手段。是信息服務(wù)和信息監(jiān)管的重要基礎(chǔ)性技術(shù)。在本課題中對(duì)多文檔自動(dòng)摘要技術(shù)進(jìn)行了研究和實(shí)現(xiàn)。
(6)財(cái)經(jīng)知識(shí)網(wǎng)絡(luò)構(gòu)建模塊
知識(shí)網(wǎng)絡(luò)構(gòu)建是語義分析、文本挖掘、搜索技術(shù)、機(jī)器學(xué)習(xí)等多種技術(shù)的綜合應(yīng)用。通過對(duì)財(cái)經(jīng)新聞文本信息的語義分析和主題抽取,自動(dòng)挖掘整理出不同信息之間的關(guān)系,獲取關(guān)于各種新聞資訊的知識(shí)點(diǎn),創(chuàng)建財(cái)經(jīng)知識(shí)庫。在知識(shí)庫的基礎(chǔ)上,構(gòu)建財(cái)經(jīng)領(lǐng)域知識(shí)網(wǎng)絡(luò),比如與上下游行業(yè)、宏觀經(jīng)濟(jì)、行業(yè)政策等相關(guān)的知識(shí)網(wǎng)絡(luò)。借助知識(shí)網(wǎng)絡(luò),當(dāng)用戶搜索感興趣的信息時(shí),可以幫助用戶快速尋找下一個(gè)可能的興趣點(diǎn)。這些興趣點(diǎn)在知識(shí)網(wǎng)中形成網(wǎng)狀輻射,通過這樣層層深入分析,用戶可以快捷獲取到最全面、最深層次的知識(shí)內(nèi)容,這些關(guān)聯(lián)性信息,能夠有效的幫助用戶進(jìn)行多層次多維度分析。為了獲得更好的視覺效果,我們采用數(shù)據(jù)可視化技術(shù)實(shí)現(xiàn)整個(gè)知識(shí)網(wǎng)絡(luò)的可視化呈現(xiàn)。
(7)知識(shí)圖譜模塊
知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)。其結(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語義關(guān)系。是新一代信息搜索服務(wù)的關(guān)鍵技術(shù),使得搜索智能化,根據(jù)用戶的意圖給出用戶想要的結(jié)果。知識(shí)圖譜相對(duì)于傳統(tǒng)的本體和語義網(wǎng)絡(luò)而言,實(shí)體覆蓋率更高,語義關(guān)系也更加復(fù)雜而全面。我們希望能夠在傳統(tǒng)的知識(shí)庫基礎(chǔ)上,創(chuàng)建出相應(yīng)的財(cái)經(jīng)領(lǐng)域知識(shí)圖譜,增強(qiáng)財(cái)經(jīng)領(lǐng)域垂直搜索引擎服務(wù)能力。
(8)個(gè)性化推薦模塊
個(gè)性化推薦模塊通過收集和分析用戶信息,建立用戶的個(gè)人檔案,對(duì)信息進(jìn)行智能匹配,及時(shí)推薦用戶感興趣的新聞信息,提供個(gè)性化的服務(wù)策略和服務(wù)內(nèi)容。
在大數(shù)據(jù)時(shí)代,媒體除了要堅(jiān)守“內(nèi)容為王”的同時(shí),應(yīng)該更加重視提供“信息服務(wù)”的能力。課題研究的目的既是希望通過對(duì)關(guān)鍵性前沿性技術(shù)的研究和攻關(guān),幫助提高“信息服務(wù)”能力,實(shí)現(xiàn)“信息智能服務(wù)”。
本課題取得了以下主要研究成果,并已順利通過科技部組織的課題驗(yàn)收評(píng)審。
(1)設(shè)計(jì)搭建起財(cái)經(jīng)信息服務(wù)高性能云平臺(tái),滿足財(cái)經(jīng)信息服務(wù)運(yùn)行需求,提高運(yùn)行性能,為打造“財(cái)經(jīng)信息云服務(wù)”提供高效的開放式平臺(tái)支撐。
(2)采用開源平臺(tái)軟件Hadoop+Nutch+Solr,通過集成和優(yōu)化,構(gòu)建起企業(yè)級(jí)分布式高效搜索引擎系統(tǒng)。
(3)通過全面測試、選擇和優(yōu)化多種文本挖掘算法,提高新聞自動(dòng)分類聚類,自動(dòng)摘要和實(shí)體識(shí)別系統(tǒng)的準(zhǔn)確率。
(4)通過創(chuàng)新性地集成融合包括語義分析、機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘等在內(nèi)的多種復(fù)雜技術(shù),自動(dòng)構(gòu)建財(cái)經(jīng)知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)信息的智能關(guān)聯(lián)和聚合,以及信息的多層次多維度呈現(xiàn)。
(5)建立用戶個(gè)人檔案,對(duì)信息進(jìn)行智能匹配,為用戶提供個(gè)性化新聞信息推薦服務(wù)。