文/張守先 徐志強 李滿江
目前,新媒體作為新聞傳播媒介已經成為新聞傳播的主要途徑,新媒體正在顛覆傳統(tǒng)媒體,給傳統(tǒng)媒體行業(yè)帶來了很大沖擊,傳統(tǒng)媒體市場極度萎縮。新媒體的互動性、時效性、便捷性、內容多元化、個性化等方面,給讀者帶來了非常舒適的閱讀體驗,同時新媒體也給新聞生產者了解讀者情況帶來了很多便利,利用新聞傳播效果分析,反過來決定新聞生產的內容、形式、時間等,這點與傳統(tǒng)媒體截然不同。新聞傳播效果分析已經成為新聞生產質量的一個重要指標,是新聞大數(shù)據分析平臺的一項重要內容。新聞傳播效果可以反映出新聞的閱讀量、轉發(fā)量、地域分布、人群分布、發(fā)展趨勢、各媒體影響力等。做新聞傳播效果分析所需數(shù)據的獲取,目前的做法是對各網站、App、微博、微信等媒體定時抓取,利用獲得的大量數(shù)據進行分析,為不同新聞單位、不同新聞稿件分析出傳播效果。這樣做的好處是數(shù)據較全面、數(shù)值準確,可以同時為大量的新聞稿件做出分析,缺點是海量的數(shù)據存儲量大,占用網絡帶寬大,有效數(shù)據少,給互聯(lián)網帶來很多無效流量(抓取的數(shù)據未被使用到),所以這種方式并不適合普通新聞單位自行建設分析平臺。本文討論的利用搜索引擎實現(xiàn)新聞傳播效果分析,能快速達到所需數(shù)據,并且占用存儲很小,非常適合普通新聞單位使用。
完成新聞傳播效果分析的大數(shù)據,其實在各大搜索引擎公司已經存在,可以不用再自行抓取一遍,利用搜索引擎提供的界面,能提取出所要的數(shù)據即可。利用搜素引擎公司存儲的海量數(shù)據,避免了自己重新全網抓取。自己抓取數(shù)據的過程,是一個非常繁瑣的工作,每個網站都要針對性的分析,不同網站可能有不同的解析辦法,同時網站的頻繁改版更新,也給抓取造成了很大的工作量,比如新浪微博為了防止抓取,就做了很多技術防御手段對付爬蟲,想大量抓取新浪微博的數(shù)據比較困難。直接利用搜索引擎的數(shù)據,避免了這些抓取工作的工作量,節(jié)省了大量成本。
利用新聞標題作為檢索關鍵詞,在搜索引擎上搜索出檢索結果,檢索結果包含新聞總量,每個條目包含了我們需要的媒體名稱、發(fā)布時間、原始鏈接等,打開原始鏈接,到對應的媒體上,就可以得到更詳細的數(shù)據,包括新聞來源、詳細的發(fā)布時間,甚至某些媒體可以列出閱讀量、轉發(fā)量、評論等數(shù)據。這樣就已經包含了一般新聞傳播效果分析所必須的數(shù)據。
利用搜索引擎來實現(xiàn)傳播效果分析的編程工作量比較小,但是也需要以下幾步:
(1)使用新聞標題作為關鍵詞打開搜索引擎。
(2)分析搜索引擎返回的結果,得到新聞轉發(fā)的總數(shù)。
(3)利用搜索引擎,翻頁得到全部轉發(fā)網站的列表。
(4)列表內容去掉重復內容。
(5)分析列表中媒體名稱、發(fā)表時間、原始鏈接。
(6)打開每條新聞對應的原始鏈接,分析得到新聞的具體標題、新聞來源、詳細的發(fā)布時間、轉發(fā)量、閱讀量、評論等。
(7)根據每個原始鏈接的媒體名稱、新聞來源,參考發(fā)布時間,形成新聞的傳播路徑、傳播趨勢等結果。這樣,新聞傳播效果分析的抓取部分就結束了,剩余的分析、展示部分就比較容易了。
圖1 搜索引擎效果
圖2 分析出的傳播路徑
圖3 分析出的傳播趨勢
本文討論的方法,可以實現(xiàn)新聞傳播效果分析,實現(xiàn)的成本上與傳統(tǒng)的方法要成數(shù)量級的節(jié)省,特別適合普通新聞單位每天原創(chuàng)新聞稿件較少的情況,節(jié)省了大量的存儲和流量,只檢索關鍵的新聞稿件和對應的發(fā)布媒體,不對互聯(lián)網產生無效流量,節(jié)省自己的帶寬。分析的結果可以解決新媒體稿件的考評依據的難題。不好的地方是分析的準確度依賴于搜索引擎的數(shù)據覆蓋范圍,大多數(shù)搜索引擎只有網站的數(shù)據,缺少App、微博、微信等新聞傳播渠道的數(shù)據,這點比較遺憾,不過可以通過多個搜索引擎同時使用的方法來盡量彌補。但是網站渠道傳播的情況,也大體地反映了該新聞的影響力,基本不影響不同新聞的傳播效果對比,對以微博、微信、App等渠道傳播為主的新聞,分析結果偏差較大。
這樣,利用搜索引擎做新聞傳播效果分析,不失為一個經濟的可替代的解決方法。當然,一般的新聞大數(shù)據分析平臺不僅僅是新聞傳播效果分析,還有新聞輿情、熱點、情感分析等,傳播中用戶畫像、人群分析、地域分析等,也是新聞大數(shù)據分析的一些參考指標。