文|蔣遠(yuǎn)翔
頭條屬于誰(shuí)?大數(shù)據(jù)說(shuō)了算
文|蔣遠(yuǎn)翔
隨著科技的進(jìn)步和社會(huì)的飛速發(fā)展,全球的互聯(lián)網(wǎng)保持高速發(fā)展的趨勢(shì)。截至2013年底,全球互聯(lián)網(wǎng)中數(shù)據(jù)總量已經(jīng)達(dá)到4ZB,如果將數(shù)據(jù)存儲(chǔ)在DVD光盤(pán)中,總厚度有26萬(wàn)公里,大約是地球到月亮距離的三分之二,其中34%的數(shù)據(jù)具有價(jià)值,但只有7%的數(shù)據(jù)被標(biāo)注整理,1%的數(shù)據(jù)被分析。在此背景下,大數(shù)據(jù)應(yīng)用與分析服務(wù)快速崛起。而現(xiàn)階段各大門(mén)戶(hù)網(wǎng)站對(duì)新聞重要程度的評(píng)價(jià)的主要還依舊處于人工判定的階段,這種方式無(wú)法反映某一新聞的真正影響范圍。在大數(shù)據(jù)背景下如何從種類(lèi)多樣、內(nèi)容多變、形式多元的實(shí)時(shí)數(shù)據(jù)中獲取大家所關(guān)心的新聞并正確描述新聞演化的規(guī)律成為眾人關(guān)心的重點(diǎn)。
據(jù)Mary Meeker發(fā)布的2014年度互聯(lián)網(wǎng)趨勢(shì)報(bào)告顯示,移動(dòng)數(shù)據(jù)流量正在呈現(xiàn)爆炸式增長(zhǎng)趨勢(shì),較去年相比其增幅達(dá)到81%,新興計(jì)算設(shè)備的用戶(hù)比上一代大十倍,互聯(lián)網(wǎng)的用戶(hù)數(shù)在未來(lái)可能突破百億大關(guān)。互聯(lián)網(wǎng)憑借其高效的實(shí)時(shí)性、廣泛的覆蓋面、內(nèi)容的豐富性以及良好的互動(dòng)性已經(jīng)代替報(bào)紙、廣播、電視等傳統(tǒng)的傳媒手段成為人們獲取信息最重要的手段。而在互聯(lián)網(wǎng)上層出不窮的社交軟件、新聞客戶(hù)端、信息推送軟件將新聞的影響變得更加多元化,但直觀的來(lái)看,新聞通過(guò)不同平臺(tái)發(fā)布所造成的影響力完全不一樣,因此新聞發(fā)布的網(wǎng)站也是衡量新聞?dòng)绊懥Φ闹匾獦?biāo)準(zhǔn)。
近五年來(lái),中國(guó)網(wǎng)民規(guī)模不斷上升,網(wǎng)絡(luò)普及率不斷增高,截止到2014年6月底,全國(guó)網(wǎng)民人數(shù)共有6.32億,互聯(lián)網(wǎng)普及率達(dá)到46.9%;手機(jī)網(wǎng)民在所有網(wǎng)民中所占比重為83.4%,網(wǎng)民的平均每周上網(wǎng)時(shí)長(zhǎng)為25.9小時(shí),網(wǎng)民的評(píng)論和看法已經(jīng)成為影響新聞?dòng)绊懥Φ闹匾蛩?,如圖1所示。
因此通過(guò)綜合考慮用新聞發(fā)布網(wǎng)站和用戶(hù)觀點(diǎn)來(lái)決定新聞的影響力應(yīng)該是未來(lái)媒體發(fā)展的主要方向,大數(shù)據(jù)計(jì)算為這種評(píng)價(jià)方式提供了可能。
階段隨著互聯(lián)網(wǎng)中的數(shù)據(jù)急劇增多,給新聞媒體和網(wǎng)民提出了巨大的挑戰(zhàn)。人們每天接受到的信息量在快速增長(zhǎng),現(xiàn)階段每人每天獲取的信息量大約相當(dāng)516張報(bào)紙,共計(jì)5000篇左右的文章。一方面新聞媒體需要考慮如何將大量的數(shù)據(jù)按照合理合適的方式展示給用戶(hù),以便在引起用戶(hù)廣泛關(guān)注的同時(shí)又能避免用戶(hù)對(duì)大量冗余的信息感到厭煩,達(dá)到提升用戶(hù)體驗(yàn)的目的;另一方面網(wǎng)民需要考慮如何利用有限的時(shí)間接受更多有用的信息、關(guān)注實(shí)時(shí)熱點(diǎn)新聞以及新聞演化的整個(gè)過(guò)程,同時(shí)避免大量的冗余信息、過(guò)濾不關(guān)心的新聞并有效抵制無(wú)意義的信息推送。因此針對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)的熱點(diǎn)新聞發(fā)現(xiàn)及演化必將成為已經(jīng)成為了媒體大數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn),也是現(xiàn)實(shí)應(yīng)用提出的迫切需求。
在進(jìn)行新聞?dòng)绊懥τ?jì)算之前,我們要對(duì)新聞的數(shù)據(jù)量有一個(gè)直觀的認(rèn)識(shí),現(xiàn)階段我國(guó)每天產(chǎn)生的信息量約有800EB,如果裝在DVD光盤(pán)中要裝1.68億張、裝在硬盤(pán)中要裝80萬(wàn)個(gè)。如此龐大的信息量,哪怕只取其中的1%去處理,傳統(tǒng)的計(jì)算方式是無(wú)法達(dá)到了,因此利用分布式的處理框架來(lái)進(jìn)行海量數(shù)據(jù)的處理,是現(xiàn)階段較為可行的方式之一。
在進(jìn)行新聞?dòng)绊懥τ?jì)算的過(guò)程中,我們要分別考慮媒體的影響力和網(wǎng)民的影響力。在計(jì)算媒體影響力的過(guò)程中,我們通過(guò)媒體每天發(fā)布的新聞的個(gè)數(shù),以及媒體每天的訪問(wèn)量進(jìn)行一個(gè)計(jì)算,得到媒體在整個(gè)網(wǎng)絡(luò)中的影響力。對(duì)每一個(gè)新聞來(lái)說(shuō),我們可以通過(guò)采集網(wǎng)民的評(píng)論個(gè)數(shù),網(wǎng)民的評(píng)論時(shí)間,以及新聞的發(fā)布時(shí)間,通過(guò)計(jì)算得出單位時(shí)間內(nèi)某一新聞的評(píng)論量以及評(píng)論的正負(fù)面傾向,綜合考慮媒體的影響力和網(wǎng)民的影響力得到一個(gè)關(guān)于新聞?dòng)绊懥Φ木C合排序。
除此之外我們可以通過(guò)統(tǒng)計(jì)網(wǎng)民對(duì)某一領(lǐng)域的關(guān)注程度,得出網(wǎng)民的興趣點(diǎn)以及所關(guān)心的主題,通過(guò)計(jì)算熱點(diǎn)新聞和網(wǎng)民興趣點(diǎn)之間的關(guān)系,得到一個(gè)關(guān)于網(wǎng)民的個(gè)性化的新聞推薦策略,實(shí)現(xiàn)高效推薦與定點(diǎn)推薦相結(jié)合,提高了推薦的效率和有效性,這可以很大程度上減少網(wǎng)民閱讀海量信息的負(fù)擔(dān),增強(qiáng)用戶(hù)的體驗(yàn),推動(dòng)媒體界的可持續(xù)發(fā)展。
圖1 網(wǎng)絡(luò)用戶(hù)規(guī)模和普及率
在計(jì)算新聞?dòng)绊懥Φ幕A(chǔ)上,通過(guò)獲取新聞訪問(wèn)量和用戶(hù)評(píng)論量的動(dòng)態(tài)變化,以及信息學(xué)中信息衰減的原理,構(gòu)建一種基于時(shí)間變化的新聞?dòng)绊懥ψ兓€,通過(guò)曲線我們可以查看新聞的整個(gè)演化過(guò)程,以及在演化過(guò)程中新聞關(guān)注點(diǎn)以及網(wǎng)民關(guān)注點(diǎn)的變化。
首先,新聞熱度計(jì)算過(guò)程中新聞的涵蓋范圍更廣,網(wǎng)絡(luò)中查看熱點(diǎn)事件時(shí),只在單一的幾個(gè)網(wǎng)站中查看個(gè)別事件,并沒(méi)有過(guò)多的時(shí)間和精力和關(guān)注所有相關(guān)的事件和內(nèi)容,新聞熱度計(jì)算不但給用戶(hù)一個(gè)關(guān)于新聞熱度的定量描述,還可以消除用戶(hù)關(guān)注與某一特定網(wǎng)站的局限性,將不同網(wǎng)站間所有相關(guān)的內(nèi)容一次性展示給用戶(hù)。
其次,新聞熱度計(jì)算可以為用戶(hù)提供一種直觀的描述,新聞重要與否,可以通過(guò)熱度值直觀的表示。通過(guò)網(wǎng)頁(yè)發(fā)布時(shí)間、抓取網(wǎng)頁(yè)文本時(shí)間、點(diǎn)擊量評(píng)論量我們可以較為合理的計(jì)算出每一個(gè)新聞的熱度,熱度值的計(jì)算可以代替?zhèn)鹘y(tǒng)的人工判讀,減少了大量的人力開(kāi)銷(xiāo),也在一定程度上減少了主觀因素。
再次,新聞熱度就有很強(qiáng)的實(shí)時(shí)性,傳統(tǒng)的熱點(diǎn)排行榜通過(guò)統(tǒng)計(jì)事件報(bào)道次數(shù)和網(wǎng)頁(yè)的歷史點(diǎn)擊量來(lái)評(píng)價(jià)計(jì)算事件的熱度,或者通過(guò)人為判讀來(lái)確定事件的重要程度,這種方法無(wú)法計(jì)算新聞的實(shí)時(shí)熱度。我們通過(guò)計(jì)算不同時(shí)間片內(nèi)的新聞的熱度,得到關(guān)于某一新聞的熱度曲線,通過(guò)新聞中關(guān)鍵字的變化來(lái)描述新聞內(nèi)容的演化過(guò)程,整個(gè)過(guò)程具有很強(qiáng)的實(shí)時(shí)性。
最后,通過(guò)熱度曲線描述的新聞演化過(guò)程可以使人們了解一個(gè)新聞從發(fā)生、發(fā)展、衰退到消失的全過(guò)程。也可以通過(guò)整個(gè)過(guò)程來(lái)分析新聞的規(guī)律,對(duì)敏感事件的爆發(fā)做到提前預(yù)防,甚至可以將網(wǎng)絡(luò)惡性傳播事件消滅在萌芽當(dāng)中。
這種新聞?dòng)绊懥Φ挠?jì)算和演化方法,實(shí)現(xiàn)了大數(shù)據(jù)背景下熱點(diǎn)新聞?dòng)绊懥?shí)時(shí)計(jì)算的功能,為政府和民眾提供了一個(gè)掌握實(shí)時(shí)熱點(diǎn)新聞平臺(tái),實(shí)現(xiàn)對(duì)熱點(diǎn)新聞的全方位監(jiān)控,為網(wǎng)絡(luò)輿情控制奠定了堅(jiān)實(shí)的基礎(chǔ)。
(作者單位:新華社湖南分社技術(shù)中心)