亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對互聯(lián)網(wǎng)數(shù)據(jù)的新聞轉(zhuǎn)載引用分析

        2017-12-25 02:25:12陳辛夷
        中國傳媒科技 2017年11期
        關(guān)鍵詞:網(wǎng)頁文本算法

        文/陳辛夷 陳 珺 王 熠

        針對互聯(lián)網(wǎng)數(shù)據(jù)的新聞轉(zhuǎn)載引用分析

        文/陳辛夷 陳 珺 王 熠

        互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術(shù)的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化,分析新聞在不同渠道媒體采用和傳播情況是構(gòu)建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。然而,由于互聯(lián)網(wǎng)和新媒體數(shù)據(jù)格式不規(guī)范、轉(zhuǎn)載和引用不注明來源等問題,新媒體的新聞轉(zhuǎn)載引用分析難度大。本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等新聞數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶。利用信息智能比對技術(shù),跟蹤新聞在全媒體的落地采用,構(gòu)建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎(chǔ)。文中介紹了新聞轉(zhuǎn)載引用分析的工作原理和建設(shè)意義,對關(guān)鍵技術(shù)實現(xiàn)進行了深入研究,在此基礎(chǔ)上提出了新聞轉(zhuǎn)載引用分析未來的發(fā)展建議。

        新聞轉(zhuǎn)載引用;文本相似度大數(shù)據(jù);Hadoop Spark

        引言

        互聯(lián)網(wǎng)、大數(shù)據(jù)和新媒體技術(shù)的發(fā)展帶來媒體傳播渠道和內(nèi)容形態(tài)革命性變化。如何利用智能分析技術(shù),在互聯(lián)網(wǎng)大數(shù)據(jù)中定位和跟蹤新聞轉(zhuǎn)載和引用的信息,及時反映新聞被國內(nèi)外媒體采用的情況,是構(gòu)建大數(shù)據(jù)驅(qū)動采編和傳播決策的重要組成部分,對于提升通訊社國內(nèi)和國際傳播能力具有十分重要的意義。

        本文從多源頭收集網(wǎng)站、電子報紙、微信公眾號、移動客戶端等數(shù)據(jù),覆蓋全球5000余家中英文媒體、40余萬個新媒體賬戶,利用信息智能比對技術(shù),跟蹤新聞在全媒體的落地采用,構(gòu)建新聞轉(zhuǎn)載和引用分析系統(tǒng),為進一步分析媒體傳播路徑,掌握國內(nèi)外媒體傳播規(guī)律,提升國內(nèi)外輿論傳播力奠定了基礎(chǔ)。

        1. 新聞轉(zhuǎn)載引用分析概念

        新聞轉(zhuǎn)載引用分析是針對一篇原創(chuàng)新聞,通過一系列技術(shù)手段分析海量實時的互聯(lián)網(wǎng)大數(shù)據(jù),識別出其中轉(zhuǎn)載和引用該新聞的媒體。

        轉(zhuǎn)載指報刊或網(wǎng)站等媒體上發(fā)布其他媒體已經(jīng)發(fā)表過的新聞。在對內(nèi)報道中,新聞被媒體全文轉(zhuǎn)載的情況比較常見。

        顯性轉(zhuǎn)載引用指報刊或網(wǎng)站在轉(zhuǎn)載或引用時注明轉(zhuǎn)載或引用媒體的情況。一種情況是在轉(zhuǎn)載時保留電頭;另一種情況是在引用時指明“據(jù)某媒體報道”。

        隱性轉(zhuǎn)載引用在新聞的轉(zhuǎn)載引用中存在文章中不注明來源的情況,稱為隱性轉(zhuǎn)載或引用。與顯性轉(zhuǎn)載引用相比,隱性轉(zhuǎn)載引用的識別難度更大。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種新媒體不斷涌現(xiàn),在拓展傳播邊界的同時也存在著轉(zhuǎn)載不規(guī)范的問題。

        2. 新聞轉(zhuǎn)載引用分析的意義

        通過分析新聞在中英文網(wǎng)站、電子報紙、微信和移動客戶端的轉(zhuǎn)載和引用情況,標記引用的段落和句子,識別采用媒體、采用時間和采用的版面等信息,可以及時追蹤和分析新聞被全媒體采用的情況,進而可以統(tǒng)計和評估采編人員的工作成果,并對稿件的傳播效果進行分析,為指導進一步提高新聞傳播影響力提供數(shù)據(jù)支持。

        3. 新聞轉(zhuǎn)載引用分析工作原理

        本文提出一種基于文本語義對比進行新聞轉(zhuǎn)載引用分析的技術(shù),主要包含新聞特征提取、相似新聞聚類、新聞轉(zhuǎn)載引用關(guān)系判定、結(jié)果校驗幾個步驟。

        新聞特征提?。翰捎镁W(wǎng)頁信息抽取技術(shù)提取互聯(lián)網(wǎng)新聞數(shù)據(jù)特征。對每篇稿件,通過分析網(wǎng)頁的結(jié)構(gòu),使用機器學習與規(guī)則相融合的算法抽取出該新聞的發(fā)布時間。

        相似新聞聚類:使用相似簇劃分算法對采集的互聯(lián)網(wǎng)新聞數(shù)據(jù)按照語義相似度進行劃分,每個相似簇內(nèi)部的新聞都是語義相似的,這些新聞數(shù)據(jù)之間可能存在隱式轉(zhuǎn)載的關(guān)系。

        新聞轉(zhuǎn)載引用關(guān)系判定:綜合相似簇內(nèi)新聞間的相似度和新聞的發(fā)布時間等信息,根據(jù)經(jīng)驗判定閾值,對新聞的轉(zhuǎn)載引用關(guān)系進行分析判定,得出新聞間的轉(zhuǎn)載引用關(guān)系。

        結(jié)果校驗:對判定結(jié)果進行再次校驗。

        4. 新聞轉(zhuǎn)載引用分析技術(shù)原理

        系統(tǒng)總體數(shù)據(jù)處理架構(gòu)如圖1所示。主要架構(gòu)設(shè)計思路和數(shù)據(jù)處理過程分為以下幾個部分:

        數(shù)據(jù)引進層:通過大規(guī)模數(shù)據(jù)采集和第三方引入的互聯(lián)網(wǎng)新聞數(shù)據(jù),首先使用Redis進行排重,然后進行數(shù)據(jù)的預處理及ETL,形成規(guī)則數(shù)據(jù),得到結(jié)構(gòu)化數(shù)據(jù)。

        任務(wù)調(diào)度層:基于Kafka分布式消息隊列,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的接入和緩沖。對Kafka消息隊列里的數(shù)據(jù)結(jié)合實時Spark Steaming流式計算和離線大規(guī)模M/R計算框架進行新聞轉(zhuǎn)載引用分析。

        數(shù)據(jù)存儲層:面對海量新聞數(shù)據(jù),分布式存儲可以實現(xiàn)高效的業(yè)務(wù)邏輯運算、可伸縮的存儲部署策略和高可用的冗余式存儲。MySQL作為轉(zhuǎn)載引用統(tǒng)計結(jié)果的基礎(chǔ)存儲數(shù)據(jù)庫,負責數(shù)據(jù)模型的定義與數(shù)據(jù)積累,但不對外提供復雜的查詢服務(wù)。ElasticSearch首先作為MySQL核心業(yè)務(wù)表的鏡像進行數(shù)據(jù)同步,同時實現(xiàn)多表關(guān)聯(lián)和數(shù)據(jù)冗余,提升查詢性能。其次,作為數(shù)據(jù)服務(wù)業(yè)務(wù)的實時服務(wù)端,提供數(shù)據(jù)服務(wù)的在線查詢。Hive作為數(shù)據(jù)服務(wù)的離線服務(wù)端,提供離線的大規(guī)模數(shù)據(jù)查詢分析服務(wù)。FastDFS作為離散文件的存儲系統(tǒng),提供圖片、PDF和報告Excel文件的存儲管理。

        集成服務(wù)層:針對業(yè)務(wù)需求,依托服務(wù)總線技術(shù)將底層數(shù)據(jù)通過靈活多樣的查詢和數(shù)據(jù)提取邏輯發(fā)布至上層服務(wù)接口,實現(xiàn)對外的通用服務(wù)接口?;赯ookeeper和Dubbo實現(xiàn)服務(wù)總線,統(tǒng)一協(xié)調(diào)調(diào)度,統(tǒng)一配置管理。

        圖1 系統(tǒng)數(shù)據(jù)處理架構(gòu)設(shè)計

        5. 新聞轉(zhuǎn)載引用分析關(guān)鍵技術(shù)

        5.1 網(wǎng)頁信息抽取

        從網(wǎng)頁源碼中解析內(nèi)容信息,傳統(tǒng)的方法一般會采用遞歸解析子標簽的方式,逐一獲取標簽內(nèi)容。但在實際應(yīng)用中,該方式在解析復雜的網(wǎng)頁源碼時,復雜度過高,消耗的資源過大。為解決這種問題,本文設(shè)計網(wǎng)頁內(nèi)容解析算法,采用XPATH技術(shù)與網(wǎng)頁結(jié)構(gòu)樹遞歸解析結(jié)合的方式抽取網(wǎng)頁內(nèi)容。XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,它提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點的能力。

        網(wǎng)頁的主體內(nèi)容信息一般都在特定的HTML標簽或者其子標簽下,本算法先通過XPATH技術(shù)獲取網(wǎng)頁中的主體正文塊,對于每一個正文塊,構(gòu)造網(wǎng)頁結(jié)構(gòu)樹,在結(jié)構(gòu)樹上以遞歸的方式遍歷全部的標簽。在遞歸處理過程中,以標簽全路徑來記錄遍歷過的路徑,避免標簽被重復解析。在算法遍歷的過程中,可以獲取網(wǎng)頁所包含的標題、正文、網(wǎng)頁鏈接、來源、發(fā)布時間等信息。

        5.2 文本相似度比對

        使用文本相似度比對算法,將文本劃分為不同的相似簇。本文使用經(jīng)典的VSM(向量空間模型)與Bag of Words(BOW)作為文檔表示模型,該模型的基本思想是將文檔分為若干的特征項,通過對特征項權(quán)重的量化計算進而將整個文檔用一特征項的權(quán)重為分量的向量來表示,在將文檔用特征向量的方式表示為數(shù)學模型后,再基于特征向量進行文檔間的相似度計算。使用TF-IDF算法作為特征項的權(quán)重值。文本相似度計算的流程如圖2所示。

        圖2 文本相似度計算處理流程圖

        在文本相似性比對算法中,文本相似度量算法扮演了重要的角色,常用的相似度度量方法有:皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient ,PCC)、余弦相似度(Cosine Similarity)、歐幾里得相似度(Euclidean Similarity)等,經(jīng)對比發(fā)現(xiàn),皮爾遜相關(guān)系數(shù)更適合本算法。皮爾遜相關(guān)系數(shù)是計算兩個向量線性相關(guān)度的一個指標,其計算公式如下:

        5.3 新聞轉(zhuǎn)載引用關(guān)系構(gòu)建

        基于文本相似簇,再利用網(wǎng)頁新聞的來源、發(fā)布時間等信息,實現(xiàn)轉(zhuǎn)載引用網(wǎng)絡(luò)的構(gòu)建。本文使用了圖數(shù)據(jù)庫構(gòu)建與存儲轉(zhuǎn)載引用網(wǎng)絡(luò),支持數(shù)據(jù)的動態(tài)更新和多級轉(zhuǎn)載引用關(guān)系的查詢。最終,利用網(wǎng)絡(luò)路徑追蹤技術(shù),可以追溯每一篇新聞的轉(zhuǎn)載引用路徑,定位追蹤新聞的轉(zhuǎn)載引用情況。

        6. 相似文本簇劃分的具體技術(shù)實現(xiàn)

        針對不同的應(yīng)用場景開發(fā)了兩套相似文本簇劃分系統(tǒng),分別是適合批處理的基于Hadoop平臺的相似文本簇劃分和適合實時計算的基于分布式內(nèi)存實時計算的相似文本簇劃分。

        6.1 基于Hadoop平臺的相似文本簇劃分

        Hadoop作為大數(shù)據(jù)處理領(lǐng)域最成熟的解決方案,其以分布式文件系統(tǒng)HDFS和分布式計算模型MapReduce為代表的技術(shù)在大數(shù)據(jù)批處理領(lǐng)域取得了很大的成功。此外Hadoop擁有完善的生態(tài)系統(tǒng),可以提供豐富的組件支持,本文使用了數(shù)據(jù)挖掘工具包Mahout中的一些算法,極大地簡化了處理的難度。

        6.2 基于分布式內(nèi)存實時計算的相似文本簇劃分

        基于分布式內(nèi)存實時計算的相似文本簇劃分系統(tǒng)主要針對一些對實時性要求比較高的場景。該系統(tǒng)可以實現(xiàn)亞秒級響應(yīng)的數(shù)據(jù)處理,處理框架圖如圖3。

        圖3 基于分布式內(nèi)存實時計算的相似文本簇劃分處理框架圖

        7. 集成及測試效果

        經(jīng)過多輪測試和算法優(yōu)化,目前中文文字新聞轉(zhuǎn)載引用分析準確率達到95%以上,英文文字新聞轉(zhuǎn)載引用分析準確率達到90%以上。

        8. 面向互聯(lián)網(wǎng)大數(shù)據(jù)的新聞轉(zhuǎn)載引用分析的應(yīng)用展望

        傳播路徑分析結(jié)合相似文本簇劃分對新聞的整個傳播路徑進行分析,找到傳播路徑中的關(guān)鍵媒體或新媒體賬戶。

        專題報道分析針對專題報道中的一組新聞進行轉(zhuǎn)載和引用分析,結(jié)合專題的時間、地域、事件發(fā)展過程等分析總結(jié)其中的傳播規(guī)律。

        輿論引導力分析在一個新聞事件的報道中,通過分析某一篇新聞前后的新聞報道,研究這篇新聞起到了怎樣的輿論引導作用,達成了怎樣的效果。

        結(jié)語

        2017年4月 ,系統(tǒng)上線試運行,提供全社采編人員實時查詢稿件在全媒體的采用情況,提供總社和分社新聞采編業(yè)務(wù)統(tǒng)計數(shù)據(jù)和新聞采編人員考核數(shù)據(jù)的基礎(chǔ)數(shù)據(jù),提供全社全媒體報道發(fā)稿、采用和互動情況的大屏展示,初步取得了較好的效果。隨著應(yīng)用的不斷深入,采編人員和統(tǒng)計人員都對系統(tǒng)提出了新的要求。系統(tǒng)會繼續(xù)針對圖片視頻等多媒體稿件的采用分析、小語種稿件的采用分析等難點課題進行進一步研究。

        [1] Holden Karau等. Spark快速大數(shù)據(jù)分析[J].北京:人民郵電出版社,2015(10): 161-185.

        [2] Sean Owen等.Mahout實戰(zhàn)[J].北京:人民郵電出版社,2014(3):40-47.

        [3] Tom White.Hadoop權(quán)威指南[J]. 北京:清華大學出版社,2011年(7):160-174.

        TP392

        A

        1671-0134(2017)11-089-03

        10.19483/j.cnki.11-4653/n.2017.11.029

        指報刊或網(wǎng)站等媒體的文章中部分引用了其他媒體已經(jīng)發(fā)表過的新聞中的語句或信息。在對外報道中,海外媒體特別是國際主流媒體通常引用新聞中的一段或一句,或者將原文中的信息轉(zhuǎn)述表達。在新聞報道中,引用的場景一種是引述事實再展開深入報道;另一種是引述觀點進而闡述相同或相反的觀點。

        新華通訊社通信技術(shù)局)

        猜你喜歡
        網(wǎng)頁文本算法
        基于MapReduce的改進Eclat算法
        在808DA上文本顯示的改善
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于CSS的網(wǎng)頁導航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        一種改進的整周模糊度去相關(guān)算法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        網(wǎng)頁制作在英語教學中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        av网站免费在线浏览| 国产性自爱拍偷在在线播放| 成人自慰女黄网站免费大全| 娇小女人被黑人插免费视频| 又大又长粗又爽又黄少妇视频 | 国产特黄a三级三级三中国| 在线视频色系中文字幕| 成人爽a毛片免费视频| 亚洲乱码一区av春药高潮| 水蜜桃无码视频在线观看| 在线视频一区二区日韩国产| 97国产精品麻豆性色| 沐浴偷拍一区二区视频| 亚洲色偷偷偷综合网| 欧美精品国产综合久久| 国产69精品久久久久999小说| 亚洲AⅤ永久无码精品AA| 国产精品麻豆成人av| 久久这黄色精品免费久 | 国产香港明星裸体xxxx视频| 中文www新版资源在线| 成全高清在线播放电视剧| 亚洲VA欧美VA国产VA综合| av在线男人的免费天堂| 亚洲美女毛片在线视频| 高潮内射双龙视频| 亚洲国产综合精品 在线 一区 | 亚洲av无码无限在线观看| 国产性生交xxxxx免费| 人妻人人澡人人添人人爽人人玩| 人妻丰满熟妇AV无码片| 国内精品极品久久免费看| 亚洲伊人av天堂有码在线| 可以免费看亚洲av的网站| 国偷自产视频一区二区久| 欧美疯狂做受xxxx高潮小说| 久久精品成人91一区二区| av是男人的天堂免费| 精品嫩模福利一区二区蜜臀 | 亚洲中文字幕高清在线视频一区| 国产极品裸体av在线激情网|