文/陳辛夷 陳 珺 王 熠
針對互聯(lián)網(wǎng)數(shù)據(jù)的新聞轉(zhuǎn)載引用分析
文/陳辛夷 陳 珺 王 熠
互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術(shù)的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化,分析新聞在不同渠道媒體采用和傳播情況是構(gòu)建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。然而,由于互聯(lián)網(wǎng)和新媒體數(shù)據(jù)格式不規(guī)范、轉(zhuǎn)載和引用不注明來源等問題,新媒體的新聞轉(zhuǎn)載引用分析難度大。本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等新聞數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶。利用信息智能比對技術(shù),跟蹤新聞在全媒體的落地采用,構(gòu)建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎(chǔ)。文中介紹了新聞轉(zhuǎn)載引用分析的工作原理和建設(shè)意義,對關(guān)鍵技術(shù)實現(xiàn)進行了深入研究,在此基礎(chǔ)上提出了新聞轉(zhuǎn)載引用分析未來的發(fā)展建議。
新聞轉(zhuǎn)載引用;文本相似度大數(shù)據(jù);Hadoop Spark
互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術(shù)的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化。如何利用智能分析技術(shù),在互聯(lián)網(wǎng)大數(shù)據(jù)中定位和跟蹤新聞轉(zhuǎn)載和引用的信息,及時反映新聞被國內(nèi)外媒體采用的情況,是構(gòu)建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。
本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶,利用信息智能比對技術(shù),跟蹤新聞在全媒體的落地采用,構(gòu)建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎(chǔ)。
新聞轉(zhuǎn)載引用分析是針對一篇原創(chuàng)新聞,通過一系列技術(shù)手段分析海量實時的互聯(lián)網(wǎng)大數(shù)據(jù),識別出其中轉(zhuǎn)載和引用該新聞的媒體。
轉(zhuǎn)載指報刊或網(wǎng)站等媒體上發(fā)布其他媒體已經(jīng)發(fā)表過的新聞。在對內(nèi)報道中,新聞被媒體全文轉(zhuǎn)載的情況比較常見。
顯性轉(zhuǎn)載引用指報刊或網(wǎng)站在轉(zhuǎn)載或引用時注明轉(zhuǎn)載或引用媒體的情況。一種情況是在轉(zhuǎn)載時保留電頭;另一種情況是在引用時指明“據(jù)某媒體報道”。
隱性轉(zhuǎn)載引用在新聞的轉(zhuǎn)載引用中存在文章中不注明來源的情況,稱為隱性轉(zhuǎn)載或引用。與顯性轉(zhuǎn)載引用相比,隱性轉(zhuǎn)載引用的識別難度更大。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種新媒體不斷涌現(xiàn),在拓展傳播邊界的同時也存在著轉(zhuǎn)載不規(guī)范的問題。
通過分析新聞在中英文網(wǎng)站、電子報紙、微信和移動客戶端的轉(zhuǎn)載和引用情況,標記引用的段落和句子,識別采用媒體、采用時間和采用的版面等信息,可以及時追蹤和分析新聞被全媒體采用的情況,進而可以統(tǒng)計和評估采編人員的工作成果,并對稿件的傳播效果進行分析,為指導進一步提高新聞傳播影響力提供數(shù)據(jù)支持。
本文提出一種基于文本語義對比進行新聞轉(zhuǎn)載引用分析的技術(shù),主要包含新聞特征提取、相似新聞聚類、新聞轉(zhuǎn)載引用關(guān)系判定、結(jié)果校驗幾個步驟。
新聞特征提?。翰捎镁W(wǎng)頁信息抽取技術(shù)提取互聯(lián)網(wǎng)新聞數(shù)據(jù)特征。對每篇稿件,通過分析網(wǎng)頁的結(jié)構(gòu),使用機器學習與規(guī)則相融合的算法抽取出該新聞的發(fā)布時間。
相似新聞聚類:使用相似簇劃分算法對采集的互聯(lián)網(wǎng)新聞數(shù)據(jù)按照語義相似度進行劃分,每個相似簇內(nèi)部的新聞都是語義相似的,這些新聞數(shù)據(jù)之間可能存在隱式轉(zhuǎn)載的關(guān)系。
新聞轉(zhuǎn)載引用關(guān)系判定:綜合相似簇內(nèi)新聞間的相似度和新聞的發(fā)布時間等信息,根據(jù)經(jīng)驗判定閾值,對新聞的轉(zhuǎn)載引用關(guān)系進行分析判定,得出新聞間的轉(zhuǎn)載引用關(guān)系。
結(jié)果校驗:對判定結(jié)果進行再次校驗。
系統(tǒng)總體數(shù)據(jù)處理架構(gòu)如圖1所示。主要架構(gòu)設(shè)計思路和數(shù)據(jù)處理過程分為以下幾個部分:
數(shù)據(jù)引進層:通過大規(guī)模數(shù)據(jù)采集和第三方引入的互聯(lián)網(wǎng)新聞數(shù)據(jù),首先使用Redis進行排重,然后進行數(shù)據(jù)的預處理及ETL,形成規(guī)則數(shù)據(jù),得到結(jié)構(gòu)化數(shù)據(jù)。
任務(wù)調(diào)度層:基于Kafka分布式消息隊列,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的接入和緩沖。對Kafka消息隊列里的數(shù)據(jù)結(jié)合實時Spark Steaming流式計算和離線大規(guī)模M/R計算框架進行新聞轉(zhuǎn)載引用分析。
數(shù)據(jù)存儲層:面對海量新聞數(shù)據(jù),分布式存儲可以實現(xiàn)高效的業(yè)務(wù)邏輯運算、可伸縮的存儲部署策略和高可用的冗余式存儲。MySQL作為轉(zhuǎn)載引用統(tǒng)計結(jié)果的基礎(chǔ)存儲數(shù)據(jù)庫,負責數(shù)據(jù)模型的定義與數(shù)據(jù)積累,但不對外提供復雜的查詢服務(wù)。ElasticSearch首先作為MySQL核心業(yè)務(wù)表的鏡像進行數(shù)據(jù)同步,同時實現(xiàn)多表關(guān)聯(lián)和數(shù)據(jù)冗余,提升查詢性能。其次,作為數(shù)據(jù)服務(wù)業(yè)務(wù)的實時服務(wù)端,提供數(shù)據(jù)服務(wù)的在線查詢。Hive作為數(shù)據(jù)服務(wù)的離線服務(wù)端,提供離線的大規(guī)模數(shù)據(jù)查詢分析服務(wù)。FastDFS作為離散文件的存儲系統(tǒng),提供圖片、PDF和報告Excel文件的存儲管理。
集成服務(wù)層:針對業(yè)務(wù)需求,依托服務(wù)總線技術(shù)將底層數(shù)據(jù)通過靈活多樣的查詢和數(shù)據(jù)提取邏輯發(fā)布至上層服務(wù)接口,實現(xiàn)對外的通用服務(wù)接口?;赯ookeeper和Dubbo實現(xiàn)服務(wù)總線,統(tǒng)一協(xié)調(diào)調(diào)度,統(tǒng)一配置管理。
圖1 系統(tǒng)數(shù)據(jù)處理架構(gòu)設(shè)計
從網(wǎng)頁源碼中解析內(nèi)容信息,傳統(tǒng)的方法一般會采用遞歸解析子標簽的方式,逐一獲取標簽內(nèi)容。但在實際應(yīng)用中,該方式在解析復雜的網(wǎng)頁源碼時,復雜度過高,消耗的資源過大。為解決這種問題,本文設(shè)計網(wǎng)頁內(nèi)容解析算法,采用XPATH技術(shù)與網(wǎng)頁結(jié)構(gòu)樹遞歸解析結(jié)合的方式抽取網(wǎng)頁內(nèi)容。XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,它提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點的能力。
網(wǎng)頁的主體內(nèi)容信息一般都在特定的HTML標簽或者其子標簽下,本算法先通過XPATH技術(shù)獲取網(wǎng)頁中的主體正文塊,對于每一個正文塊,構(gòu)造網(wǎng)頁結(jié)構(gòu)樹,在結(jié)構(gòu)樹上以遞歸的方式遍歷全部的標簽。在遞歸處理過程中,以標簽全路徑來記錄遍歷過的路徑,避免標簽被重復解析。在算法遍歷的過程中,可以獲取網(wǎng)頁所包含的標題、正文、網(wǎng)頁鏈接、來源、發(fā)布時間等信息。
使用文本相似度比對算法,將文本劃分為不同的相似簇。本文使用經(jīng)典的VSM(向量空間模型)與Bag of Words(BOW)作為文檔表示模型,該模型的基本思想是將文檔分為若干的特征項,通過對特征項權(quán)重的量化計算進而將整個文檔用一特征項的權(quán)重為分量的向量來表示,在將文檔用特征向量的方式表示為數(shù)學模型后,再基于特征向量進行文檔間的相似度計算。使用TF-IDF算法作為特征項的權(quán)重值。文本相似度計算的流程如圖2所示。
圖2 文本相似度計算處理流程圖
在文本相似性比對算法中,文本相似度量算法扮演了重要的角色,常用的相似度度量方法有:皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient ,PCC)、余弦相似度(Cosine Similarity)、歐幾里得相似度(Euclidean Similarity)等,經(jīng)對比發(fā)現(xiàn),皮爾遜相關(guān)系數(shù)更適合本算法。皮爾遜相關(guān)系數(shù)是計算兩個向量線性相關(guān)度的一個指標,其計算公式如下:
基于文本相似簇,再利用網(wǎng)頁新聞的來源、發(fā)布時間等信息,實現(xiàn)轉(zhuǎn)載引用網(wǎng)絡(luò)的構(gòu)建。本文使用了圖數(shù)據(jù)庫構(gòu)建與存儲轉(zhuǎn)載引用網(wǎng)絡(luò),支持數(shù)據(jù)的動態(tài)更新和多級轉(zhuǎn)載引用關(guān)系的查詢。最終,利用網(wǎng)絡(luò)路徑追蹤技術(shù),可以追溯每一篇新聞的轉(zhuǎn)載引用路徑,定位追蹤新聞的轉(zhuǎn)載引用情況。
針對不同的應(yīng)用場景開發(fā)了兩套相似文本簇劃分系統(tǒng),分別是適合批處理的基于Hadoop平臺的相似文本簇劃分和適合實時計算的基于分布式內(nèi)存實時計算的相似文本簇劃分。
Hadoop作為大數(shù)據(jù)處理領(lǐng)域最成熟的解決方案,其以分布式文件系統(tǒng)HDFS和分布式計算模型MapReduce為代表的技術(shù)在大數(shù)據(jù)批處理領(lǐng)域取得了很大的成功。此外Hadoop擁有完善的生態(tài)系統(tǒng),可以提供豐富的組件支持,本文使用了數(shù)據(jù)挖掘工具包Mahout中的一些算法,極大地簡化了處理的難度。
基于分布式內(nèi)存實時計算的相似文本簇劃分系統(tǒng)主要針對一些對實時性要求比較高的場景。該系統(tǒng)可以實現(xiàn)亞秒級響應(yīng)的數(shù)據(jù)處理,處理框架圖如圖3。
圖3 基于分布式內(nèi)存實時計算的相似文本簇劃分處理框架圖
經(jīng)過多輪測試和算法優(yōu)化,目前中文文字新聞轉(zhuǎn)載引用分析準確率達到95%以上,英文文字新聞轉(zhuǎn)載引用分析準確率達到90%以上。
傳播路徑分析結(jié)合相似文本簇劃分對新聞的整個傳播路徑進行分析,找到傳播路徑中的關(guān)鍵媒體或新媒體賬戶。
專題報道分析針對專題報道中的一組新聞進行轉(zhuǎn)載和引用分析,結(jié)合專題的時間、地域、事件發(fā)展過程等分析總結(jié)其中的傳播規(guī)律。
輿論引導力分析在一個新聞事件的報道中,通過分析某一篇新聞前后的新聞報道,研究這篇新聞起到了怎樣的輿論引導作用,達成了怎樣的效果。
2017年4月 ,系統(tǒng)上線試運行,提供全社采編人員實時查詢稿件在全媒體的采用情況,提供總社和分社新聞采編業(yè)務(wù)統(tǒng)計數(shù)據(jù)和新聞采編人員考核數(shù)據(jù)的基礎(chǔ)數(shù)據(jù),提供全社全媒體報道發(fā)稿、采用和互動情況的大屏展示,初步取得了較好的效果。隨著應(yīng)用的不斷深入,采編人員和統(tǒng)計人員都對系統(tǒng)提出了新的要求。系統(tǒng)會繼續(xù)針對圖片視頻等多媒體稿件的采用分析、小語種稿件的采用分析等難點課題進行進一步研究。
[1] Holden Karau等. Spark快速大數(shù)據(jù)分析[J].北京:人民郵電出版社,2015(10): 161-185.
[2] Sean Owen等.Mahout實戰(zhàn)[J].北京:人民郵電出版社,2014(3):40-47.
[3] Tom White.Hadoop權(quán)威指南[J]. 北京:清華大學出版社,2011年(7):160-174.
TP392
A
1671-0134(2017)11-089-03
10.19483/j.cnki.11-4653/n.2017.11.029
指報刊或網(wǎng)站等媒體的文章中部分引用了其他媒體已經(jīng)發(fā)表過的新聞中的語句或信息。在對外報道中,海外媒體特別是國際主流媒體通常引用新聞中的一段或一句,或者將原文中的信息轉(zhuǎn)述表達。在新聞報道中,引用的場景一種是引述事實再展開深入報道;另一種是引述觀點進而闡述相同或相反的觀點。
新華通訊社通信技術(shù)局)