亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計(jì)方法研究

2018-10-21 17:37:59陳泰偉蘇國偉程策

中國傳媒科技 2018年8期

陳泰偉蘇國偉程策

摘要：網(wǎng)站新聞是網(wǎng)絡(luò)新聞傳播的重要數(shù)據(jù)源，統(tǒng)計(jì)網(wǎng)站新聞在經(jīng)過網(wǎng)絡(luò)多次傳播后的全網(wǎng)閱讀量具有重要意義。然而，目前尚未有成熟的全網(wǎng)閱讀量統(tǒng)計(jì)方法。本文對網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計(jì)方法展開研究，在分析統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量面臨的各種復(fù)雜度的基礎(chǔ)上，提出了一個統(tǒng)計(jì)算法模型，并分析了該模型的優(yōu)缺點(diǎn)。

關(guān)鍵詞：網(wǎng)站新聞；全網(wǎng)閱讀量；統(tǒng)計(jì)算法

中圖分類號：G203 文獻(xiàn)標(biāo)識碼：A

文章編號：1671-0134（2018）08-117-03 DOI：10.19483/j.cnki.11-4653/n.2018.08.048

1.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的意義

在網(wǎng)絡(luò)媒體、自媒體、移動媒體不斷壯大的今天，網(wǎng)站已經(jīng)在一定程度上成為了傳統(tǒng)媒體平臺。雖然直接從網(wǎng)站獲取新聞的網(wǎng)民在不斷減少，但網(wǎng)站新聞一直是各平臺網(wǎng)絡(luò)新聞轉(zhuǎn)發(fā)分享的重要數(shù)據(jù)來源，而且網(wǎng)站新聞在權(quán)威性、真實(shí)性上相對其他媒體平臺具有明顯優(yōu)勢。

統(tǒng)計(jì)網(wǎng)站新聞傳播獲得的全網(wǎng)閱讀量具有重要意義。從國家層面看，新聞宣傳主管機(jī)構(gòu)需要掌握重要政策、權(quán)威信息、宣傳內(nèi)容的落地情況；從傳媒行業(yè)層面看，各新聞媒體單位需要了解自身媒體的影響力，整個行業(yè)也需要給出影響力排行；從新聞策劃層面看，新時代的策劃者已經(jīng)不能再只憑自身經(jīng)驗(yàn)和新聞敏感度做出決定，決策必須要有數(shù)據(jù)參考。以往，各媒體單位更多是依靠自身的網(wǎng)站訪問量統(tǒng)計(jì)系統(tǒng)獲取網(wǎng)站新聞的傳播數(shù)據(jù)，該數(shù)據(jù)只能代表網(wǎng)站新聞在單個媒體平臺的閱讀情況，不能反映全網(wǎng)閱讀情況。本文提出的全網(wǎng)閱讀量，為單個新聞的全網(wǎng)傳播效果給出了一個量化指標(biāo)，進(jìn)而更能滿足各層面對傳播效果的統(tǒng)計(jì)需求。

另一方面，隨著科技的進(jìn)步，文本相似度計(jì)算在信息檢索的效率提高方面起到了很大的作用。[1]再加上目前大數(shù)據(jù)分析技術(shù)的日臻成熟，在對全網(wǎng)進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ)上，能夠通過文本相似度算法跟蹤一篇稿件在全網(wǎng)的傳播情況，這為統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量提供了技術(shù)可能。

2.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的復(fù)雜度

與統(tǒng)計(jì)單個網(wǎng)站的網(wǎng)站新聞閱讀量不同，要統(tǒng)計(jì)一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量，會受到網(wǎng)站新聞稿所在的空間、時間、傳播過程以及統(tǒng)計(jì)過程等多方面因素的影響，接下來本文從這四個維度加以分析。

2.1空間復(fù)雜度

網(wǎng)站新聞被不斷轉(zhuǎn)發(fā)后，會出現(xiàn)在網(wǎng)絡(luò)空間多個位置上。首先，稿件會出現(xiàn)在多個網(wǎng)站上，不同的稿件被轉(zhuǎn)發(fā)的網(wǎng)站數(shù)量各不相同；其次，稿件可能出現(xiàn)在同一網(wǎng)站的多個位置上，例如在網(wǎng)站首頁、網(wǎng)站相關(guān)頻道首頁、網(wǎng)站專題頁、網(wǎng)站子欄目頁等；再次，稿件還可能在社交網(wǎng)絡(luò)上有更復(fù)雜的存在形式，比如，論壇、貼吧、微博、微信等（關(guān)于稿件在社交網(wǎng)絡(luò)上的閱讀數(shù)，多可從各平臺直接獲取，本文統(tǒng)計(jì)算法中暫不考慮）。

2.2時間復(fù)雜度

不同時間點(diǎn)稿件的傳播情況不同。隨著時間變化，稿件逐漸出現(xiàn)在多個網(wǎng)絡(luò)空間位置上，統(tǒng)計(jì)時間點(diǎn)不同，稿件的空間位置數(shù)量也不同，統(tǒng)計(jì)得到的閱讀量也就不同。

不同時間點(diǎn)稿件的熱度也不同。諸如熱度衰減、再次發(fā)酵、舊聞新炒等，導(dǎo)致統(tǒng)計(jì)的閱讀量也不同。如圖1是一條真實(shí)新聞稿件閱讀量隨時間變化的曲線圖，該圖展示了該條稿件從變熱到衰減最后到消亡的過程。該新聞稿件從4月30日凌晨發(fā)稿后，在當(dāng)日15點(diǎn)到19點(diǎn)較短時間內(nèi)閱讀量達(dá)到最大，然后稿件熱度衰減，閱讀數(shù)也隨之逐漸下降。在次日的3點(diǎn)處于衰減期的該稿件由于某種外界因素被重新激活，稿件閱讀量重新上升，然后又開始衰減，最后消亡。

2.3傳播復(fù)雜度

稿件在傳播過程中會面臨許多復(fù)雜的情況。第一，轉(zhuǎn)載媒體可能會對被轉(zhuǎn)載稿件的標(biāo)題進(jìn)行修改，甚至對內(nèi)容進(jìn)行增刪處理；第二，有的轉(zhuǎn)載媒體并不標(biāo)注轉(zhuǎn)載來源，造成在溯源統(tǒng)計(jì)中稿件傳播鏈的斷裂；第三，同一個轉(zhuǎn)載媒體會將同一篇稿件轉(zhuǎn)發(fā)到同一網(wǎng)站的多個位置，形成多個傳播鏈分支；第四，稿件被轉(zhuǎn)發(fā)后在各個空間位置的停留時長不同，例如稿件在一段時間內(nèi)出現(xiàn)在某網(wǎng)站的首頁大標(biāo)題上，不久后該稿件從首頁大標(biāo)題上撤下，也就不再具備該網(wǎng)站位置的曝光率和閱讀量。

2.4統(tǒng)計(jì)復(fù)雜度

在實(shí)際統(tǒng)計(jì)過程中會面臨許多復(fù)雜的情況，也會增大全網(wǎng)閱讀量統(tǒng)計(jì)的難度，大致包含以下一些情況：首先，不是所有網(wǎng)站對自己稿件的閱讀量都有統(tǒng)計(jì)；其次，即使有的網(wǎng)站對閱讀量有統(tǒng)計(jì)，各網(wǎng)站的統(tǒng)計(jì)方法和標(biāo)準(zhǔn)也不盡相同；再次，一般來講，大部分網(wǎng)站不會對外公布自己的真實(shí)統(tǒng)計(jì)數(shù)據(jù)；還有，就算各網(wǎng)站都公布了自己的統(tǒng)計(jì)數(shù)據(jù)，對全網(wǎng)各統(tǒng)計(jì)數(shù)據(jù)進(jìn)行收集整理的難度也非常大，幾乎很難實(shí)現(xiàn)；最后，由于很可能不能及時完整地獲取各網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)，各網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)又都在不斷隨時間變化，使得統(tǒng)計(jì)周期長，統(tǒng)計(jì)時間點(diǎn)很難把握，最后得到統(tǒng)計(jì)結(jié)果的時效性和真實(shí)性都不大。

3.統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的算法實(shí)現(xiàn)

基于以上復(fù)雜度分析，要想獲取精確的網(wǎng)站新聞全網(wǎng)閱讀量幾乎是不可能的。但是我們可以通過一定的算法模型估算稿件的閱讀量，使計(jì)算出的全網(wǎng)閱讀量能在數(shù)量級上提供參考價值，從而一定程度上解決這個難題。

3.1統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的前置條件

條件一，明確對網(wǎng)站新聞閱讀量的定義。本文所指的網(wǎng)站新聞閱讀量，指用戶通過瀏覽器打開稿件正文頁一次，即算貢獻(xiàn)一個閱讀量，即頁面瀏覽數(shù)（PageView，PV）。

條件二，能夠獲得被統(tǒng)計(jì)稿件在首發(fā)網(wǎng)站的閱讀量。本算法使用者一般是某個網(wǎng)站媒體，依據(jù)本算法計(jì)算本網(wǎng)首發(fā)稿件的全網(wǎng)閱讀量。首發(fā)網(wǎng)站通常能夠獲取自身網(wǎng)站的稿件閱讀量，如果不能則可通過在網(wǎng)站后臺部署一套訪問量統(tǒng)計(jì)系統(tǒng)即可實(shí)現(xiàn)。本算法將以此作為計(jì)算基礎(chǔ)，力爭提高計(jì)算結(jié)果的可信度。

條件三，我們假設(shè)通過大數(shù)據(jù)分析，能夠獲取到稿件被轉(zhuǎn)載的媒體以及該稿件在該轉(zhuǎn)載媒體上所屬的欄目。現(xiàn)在大數(shù)據(jù)技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)都趨于成熟，爬取新聞網(wǎng)站的稿件，然后通過相似性算法對比新聞稿件的內(nèi)容實(shí)現(xiàn)對原創(chuàng)新聞稿件的跟蹤，從而獲取原創(chuàng)稿件被轉(zhuǎn)載的媒體和所屬被轉(zhuǎn)載媒體的欄目。

3.2統(tǒng)計(jì)網(wǎng)站新聞全網(wǎng)閱讀量的算法描述

為了便于說明，本文以中國軍網(wǎng)（以下簡稱“軍網(wǎng)”）的首發(fā)新聞稿件為例，對網(wǎng)站新聞全網(wǎng)閱讀量統(tǒng)計(jì)算法展開分析。

3.4算法優(yōu)缺點(diǎn)分析

算法優(yōu)點(diǎn)：一是本算法充分考慮了網(wǎng)站新聞閱讀量統(tǒng)計(jì)的時間復(fù)雜性、空間復(fù)雜性、傳播復(fù)雜性和統(tǒng)計(jì)復(fù)雜性，歸納出了可操作的計(jì)算全網(wǎng)閱讀量的方法；二是本算法以被統(tǒng)計(jì)稿件在某個網(wǎng)站的真實(shí)閱讀量為基礎(chǔ)進(jìn)行估算其他網(wǎng)站的閱讀量，使得計(jì)算結(jié)果更加真實(shí)；三是本算法除了對網(wǎng)站本身、網(wǎng)站日均訪問量這些因素進(jìn)行評估，還考慮了首發(fā)網(wǎng)站不同欄目對稿件閱讀量的影響；四是使用者可以自己對首發(fā)網(wǎng)站不同的欄目設(shè)置相應(yīng)的權(quán)值，具有一定的靈活性。

算法不足：一是本算法不能準(zhǔn)確的算出一篇新聞稿在全網(wǎng)的閱讀量，只是在數(shù)量級上提供參考；二是對首發(fā)網(wǎng)站不同欄目的權(quán)值設(shè)置沒有一個統(tǒng)一的標(biāo)準(zhǔn)，而是由使用者自己設(shè)置，既是優(yōu)點(diǎn)也是缺點(diǎn)。

結(jié)語

一篇網(wǎng)站新聞稿的全網(wǎng)閱讀量比在單一網(wǎng)站的閱讀量能更好地反映其宣傳效果，同時也更適合作為影響力評估、新聞策劃的參考依據(jù)。本文通過仔細(xì)考慮影響全網(wǎng)閱讀量的各種因素，歸納出了可操作的全網(wǎng)閱讀量算法公式，初步實(shí)現(xiàn)了在全網(wǎng)范圍內(nèi)跟蹤統(tǒng)計(jì)一篇稿件的閱讀量，為進(jìn)一步展開網(wǎng)站新聞傳播大數(shù)據(jù)分析打下了基礎(chǔ)。

參考文獻(xiàn)

[1]王格，吳釗，李向.基于全文檢索的文本相似度算法應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程，2016，44（4）：567-571.

[2]焦金濤.基于PageRank的Web挖掘改進(jìn)算法[J].計(jì)算機(jī)工程，2009，35（15）：284-285.

[3]李秦，鄭宏.從Alexa排名的相關(guān)參數(shù)比較國內(nèi)3種電子期刊網(wǎng)站[J].情報探索，2009（2）：67-70.

中國傳媒科技2018年8期

中國傳媒科技的其它文章: 互聯(lián)網(wǎng)環(huán)境下媒體融合策略研究; 新媒體時代語境下展示信息傳播設(shè)計(jì)的應(yīng)用研究; 打造專業(yè)的新聞移動直播城市廣電媒體大有可為; 淺析融媒體背景下省級地面媒體經(jīng)營模式的融合與創(chuàng)新; 論新聞傳播中新媒體技術(shù)的應(yīng)用; 傳統(tǒng)媒體與新媒體融合發(fā)展策略研究