陳泰偉 蘇國偉 程策
摘 要:網(wǎng)站新聞是網(wǎng)絡(luò)新聞傳播的重要數(shù)據(jù)源,統(tǒng)計網(wǎng)站新聞在經(jīng)過網(wǎng)絡(luò)多次傳播后的全網(wǎng)閱讀量具有重要意義。然而,目前尚未有成熟的全網(wǎng)閱讀量統(tǒng)計方法。本文對網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計方法展開研究,在分析統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量面臨的各種復(fù)雜度的基礎(chǔ)上,提出了一個統(tǒng)計算法模型,并分析了該模型的優(yōu)缺點。
關(guān)鍵詞:網(wǎng)站新聞;全網(wǎng)閱讀量;統(tǒng)計算法
中圖分類號:G203 文獻標識碼:A
文章編號:1671-0134(2018)08-117-03 DOI:10.19483/j.cnki.11-4653/n.2018.08.048
1.統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量的意義
在網(wǎng)絡(luò)媒體、自媒體、移動媒體不斷壯大的今天,網(wǎng)站已經(jīng)在一定程度上成為了傳統(tǒng)媒體平臺。雖然直接從網(wǎng)站獲取新聞的網(wǎng)民在不斷減少,但網(wǎng)站新聞一直是各平臺網(wǎng)絡(luò)新聞轉(zhuǎn)發(fā)分享的重要數(shù)據(jù)來源,而且網(wǎng)站新聞在權(quán)威性、真實性上相對其他媒體平臺具有明顯優(yōu)勢。
統(tǒng)計網(wǎng)站新聞傳播獲得的全網(wǎng)閱讀量具有重要意義。從國家層面看,新聞宣傳主管機構(gòu)需要掌握重要政策、權(quán)威信息、宣傳內(nèi)容的落地情況;從傳媒行業(yè)層面看,各新聞媒體單位需要了解自身媒體的影響力,整個行業(yè)也需要給出影響力排行;從新聞策劃層面看,新時代的策劃者已經(jīng)不能再只憑自身經(jīng)驗和新聞敏感度做出決定,決策必須要有數(shù)據(jù)參考。以往,各媒體單位更多是依靠自身的網(wǎng)站訪問量統(tǒng)計系統(tǒng)獲取網(wǎng)站新聞的傳播數(shù)據(jù),該數(shù)據(jù)只能代表網(wǎng)站新聞在單個媒體平臺的閱讀情況,不能反映全網(wǎng)閱讀情況。本文提出的全網(wǎng)閱讀量,為單個新聞的全網(wǎng)傳播效果給出了一個量化指標,進而更能滿足各層面對傳播效果的統(tǒng)計需求。
另一方面,隨著科技的進步,文本相似度計算在信息檢索的效率提高方面起到了很大的作用。[1]再加上目前大數(shù)據(jù)分析技術(shù)的日臻成熟,在對全網(wǎng)進行數(shù)據(jù)挖掘的基礎(chǔ)上,能夠通過文本相似度算法跟蹤一篇稿件在全網(wǎng)的傳播情況,這為統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量提供了技術(shù)可能。
2.統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量的復(fù)雜度
與統(tǒng)計單個網(wǎng)站的網(wǎng)站新聞閱讀量不同,要統(tǒng)計一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量,會受到網(wǎng)站新聞稿所在的空間、時間、傳播過程以及統(tǒng)計過程等多方面因素的影響,接下來本文從這四個維度加以分析。
2.1空間復(fù)雜度
網(wǎng)站新聞被不斷轉(zhuǎn)發(fā)后,會出現(xiàn)在網(wǎng)絡(luò)空間多個位置上。首先,稿件會出現(xiàn)在多個網(wǎng)站上,不同的稿件被轉(zhuǎn)發(fā)的網(wǎng)站數(shù)量各不相同;其次,稿件可能出現(xiàn)在同一網(wǎng)站的多個位置上,例如在網(wǎng)站首頁、網(wǎng)站相關(guān)頻道首頁、網(wǎng)站專題頁、網(wǎng)站子欄目頁等;再次,稿件還可能在社交網(wǎng)絡(luò)上有更復(fù)雜的存在形式,比如,論壇、貼吧、微博、微信等(關(guān)于稿件在社交網(wǎng)絡(luò)上的閱讀數(shù),多可從各平臺直接獲取,本文統(tǒng)計算法中暫不考慮)。
2.2時間復(fù)雜度
不同時間點稿件的傳播情況不同。隨著時間變化,稿件逐漸出現(xiàn)在多個網(wǎng)絡(luò)空間位置上,統(tǒng)計時間點不同,稿件的空間位置數(shù)量也不同,統(tǒng)計得到的閱讀量也就不同。
不同時間點稿件的熱度也不同。諸如熱度衰減、再次發(fā)酵、舊聞新炒等,導(dǎo)致統(tǒng)計的閱讀量也不同。如圖1是一條真實新聞稿件閱讀量隨時間變化的曲線圖,該圖展示了該條稿件從變熱到衰減最后到消亡的過程。該新聞稿件從4月30日凌晨發(fā)稿后,在當日15點到19點較短時間內(nèi)閱讀量達到最大,然后稿件熱度衰減,閱讀數(shù)也隨之逐漸下降。在次日的3點處于衰減期的該稿件由于某種外界因素被重新激活,稿件閱讀量重新上升,然后又開始衰減,最后消亡。
2.3傳播復(fù)雜度
稿件在傳播過程中會面臨許多復(fù)雜的情況。第一,轉(zhuǎn)載媒體可能會對被轉(zhuǎn)載稿件的標題進行修改,甚至對內(nèi)容進行增刪處理;第二,有的轉(zhuǎn)載媒體并不標注轉(zhuǎn)載來源,造成在溯源統(tǒng)計中稿件傳播鏈的斷裂;第三,同一個轉(zhuǎn)載媒體會將同一篇稿件轉(zhuǎn)發(fā)到同一網(wǎng)站的多個位置,形成多個傳播鏈分支;第四,稿件被轉(zhuǎn)發(fā)后在各個空間位置的停留時長不同,例如稿件在一段時間內(nèi)出現(xiàn)在某網(wǎng)站的首頁大標題上,不久后該稿件從首頁大標題上撤下,也就不再具備該網(wǎng)站位置的曝光率和閱讀量。
2.4統(tǒng)計復(fù)雜度
在實際統(tǒng)計過程中會面臨許多復(fù)雜的情況,也會增大全網(wǎng)閱讀量統(tǒng)計的難度,大致包含以下一些情況:首先,不是所有網(wǎng)站對自己稿件的閱讀量都有統(tǒng)計;其次,即使有的網(wǎng)站對閱讀量有統(tǒng)計,各網(wǎng)站的統(tǒng)計方法和標準也不盡相同;再次,一般來講,大部分網(wǎng)站不會對外公布自己的真實統(tǒng)計數(shù)據(jù);還有,就算各網(wǎng)站都公布了自己的統(tǒng)計數(shù)據(jù),對全網(wǎng)各統(tǒng)計數(shù)據(jù)進行收集整理的難度也非常大,幾乎很難實現(xiàn);最后,由于很可能不能及時完整地獲取各網(wǎng)站統(tǒng)計數(shù)據(jù),各網(wǎng)站統(tǒng)計數(shù)據(jù)又都在不斷隨時間變化,使得統(tǒng)計周期長,統(tǒng)計時間點很難把握,最后得到統(tǒng)計結(jié)果的時效性和真實性都不大。
3.統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量的算法實現(xiàn)
基于以上復(fù)雜度分析,要想獲取精確的網(wǎng)站新聞全網(wǎng)閱讀量幾乎是不可能的。但是我們可以通過一定的算法模型估算稿件的閱讀量,使計算出的全網(wǎng)閱讀量能在數(shù)量級上提供參考價值,從而一定程度上解決這個難題。
3.1統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量的前置條件
條件一,明確對網(wǎng)站新聞閱讀量的定義。本文所指的網(wǎng)站新聞閱讀量,指用戶通過瀏覽器打開稿件正文頁一次,即算貢獻一個閱讀量,即頁面瀏覽數(shù)(PageView,PV)。
條件二,能夠獲得被統(tǒng)計稿件在首發(fā)網(wǎng)站的閱讀量。本算法使用者一般是某個網(wǎng)站媒體,依據(jù)本算法計算本網(wǎng)首發(fā)稿件的全網(wǎng)閱讀量。首發(fā)網(wǎng)站通常能夠獲取自身網(wǎng)站的稿件閱讀量,如果不能則可通過在網(wǎng)站后臺部署一套訪問量統(tǒng)計系統(tǒng)即可實現(xiàn)。本算法將以此作為計算基礎(chǔ),力爭提高計算結(jié)果的可信度。
條件三,我們假設(shè)通過大數(shù)據(jù)分析,能夠獲取到稿件被轉(zhuǎn)載的媒體以及該稿件在該轉(zhuǎn)載媒體上所屬的欄目?,F(xiàn)在大數(shù)據(jù)技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)都趨于成熟,爬取新聞網(wǎng)站的稿件,然后通過相似性算法對比新聞稿件的內(nèi)容實現(xiàn)對原創(chuàng)新聞稿件的跟蹤,從而獲取原創(chuàng)稿件被轉(zhuǎn)載的媒體和所屬被轉(zhuǎn)載媒體的欄目。
3.2統(tǒng)計網(wǎng)站新聞全網(wǎng)閱讀量的算法描述
為了便于說明,本文以中國軍網(wǎng)(以下簡稱“軍網(wǎng)”)的首發(fā)新聞稿件為例,對網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計算法展開分析。
3.4算法優(yōu)缺點分析
算法優(yōu)點:一是本算法充分考慮了網(wǎng)站新聞閱讀量統(tǒng)計的時間復(fù)雜性、空間復(fù)雜性、傳播復(fù)雜性和統(tǒng)計復(fù)雜性,歸納出了可操作的計算全網(wǎng)閱讀量的方法;二是本算法以被統(tǒng)計稿件在某個網(wǎng)站的真實閱讀量為基礎(chǔ)進行估算其他網(wǎng)站的閱讀量,使得計算結(jié)果更加真實;三是本算法除了對網(wǎng)站本身、網(wǎng)站日均訪問量這些因素進行評估,還考慮了首發(fā)網(wǎng)站不同欄目對稿件閱讀量的影響;四是使用者可以自己對首發(fā)網(wǎng)站不同的欄目設(shè)置相應(yīng)的權(quán)值,具有一定的靈活性。
算法不足:一是本算法不能準確的算出一篇新聞稿在全網(wǎng)的閱讀量,只是在數(shù)量級上提供參考;二是對首發(fā)網(wǎng)站不同欄目的權(quán)值設(shè)置沒有一個統(tǒng)一的標準,而是由使用者自己設(shè)置,既是優(yōu)點也是缺點。
結(jié)語
一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量比在單一網(wǎng)站的閱讀量能更好地反映其宣傳效果,同時也更適合作為影響力評估、新聞策劃的參考依據(jù)。本文通過仔細考慮影響全網(wǎng)閱讀量的各種因素,歸納出了可操作的全網(wǎng)閱讀量算法公式,初步實現(xiàn)了在全網(wǎng)范圍內(nèi)跟蹤統(tǒng)計一篇稿件的閱讀量,為進一步展開網(wǎng)站新聞傳播大數(shù)據(jù)分析打下了基礎(chǔ)。
參考文獻
[1]王格,吳釗,李向.基于全文檢索的文本相似度算法應(yīng)用研究[J].計算機與數(shù)字工程,2016,44(4):567-571.
[2]焦金濤.基于PageRank的Web挖掘改進算法[J].計算機工程,2009,35(15):284-285.
[3]李秦,鄭宏.從Alexa排名的相關(guān)參數(shù)比較國內(nèi)3種電子期刊網(wǎng)站[J].情報探索,2009(2):67-70.