□文娜
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新技術(shù)的迅速發(fā)展,人類進入數(shù)據(jù)時代。大數(shù)據(jù)帶來的信息風暴正深刻改變我們的生活、工作和思維方式,對網(wǎng)絡(luò)輿情管理也帶來深刻影響。近年來,互聯(lián)網(wǎng)輿情分析已逐漸投入商用,國內(nèi)較著名的機構(gòu)(企業(yè))包括人民網(wǎng)、騰訊、百度、天涯論壇等,均在互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析藍海留下了足跡。
互聯(lián)網(wǎng)大數(shù)據(jù)分析是基于最新的大數(shù)據(jù)理論和技術(shù),分析、發(fā)現(xiàn)其中存在的統(tǒng)計規(guī)律,從而為政府、企業(yè)、消費者等主體提供現(xiàn)狀研判、形勢預(yù)測、對策參考等服務(wù)。本文僅介紹其中的一個分支——互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析。顧名思義,輿情大數(shù)據(jù)分析是以大數(shù)據(jù)采集為核心技術(shù)支撐,通過網(wǎng)絡(luò)爬蟲程序抓取新聞網(wǎng)站、博客、微博、微信等渠道輿情信息,運用數(shù)據(jù)挖掘、可視化分析等技術(shù),提供輿情監(jiān)測、事件追蹤、民意調(diào)查、危機預(yù)警等一站式服務(wù)。
綜觀國內(nèi)輿情分析供應(yīng)商,其服務(wù)呈現(xiàn)出幾大特點:一是數(shù)據(jù)為王。大部分輿情供應(yīng)商基于自有搜索引擎(新聞平臺)或抓取網(wǎng)絡(luò)數(shù)據(jù),如百度指數(shù)、人民網(wǎng)輿情監(jiān)測室、騰訊移動分析、天涯輿情等,自有或數(shù)據(jù)抓取技術(shù)在其輿情服務(wù)鏈條里占據(jù)舉足輕重的地位。二是產(chǎn)品偏軟。供應(yīng)商以為用戶提供軟件定制和報告服務(wù)為主。前者根據(jù)用戶需求開發(fā)輿情定制頁面,用戶通過賬號登錄即可實現(xiàn)輿情速覽、報告制作等一鍵式服務(wù);后者則基于供應(yīng)商輿情分析系統(tǒng),輿情分析員通過應(yīng)用統(tǒng)計分析、可視化操作等技術(shù)完成輿情報告。三是實時監(jiān)測。市面上的輿情監(jiān)測軟件都可以做到7×24小時監(jiān)測、采集互聯(lián)網(wǎng)信息,并對獲取的信息進行全面檢索及自動消重,從而實現(xiàn)主題演化、時間趨勢、話題傳播等分析。四是“私人定制”。根據(jù)用戶提供的關(guān)鍵詞即可實現(xiàn)對指定受監(jiān)控信息源(新聞、論壇、博客、微博、貼吧、RSS、WAP、電子報、境外網(wǎng)站等)進行定時采集,并對采集時間密度、采集內(nèi)容、采集方式進行配置管理。
與廣泛應(yīng)用大數(shù)據(jù)分析的美國等發(fā)達國家相比,國內(nèi)互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析尚處于起步階段,仍存在一些難以回避的程序性缺陷和問題。
一是信度和效度難以驗證。由于各大新聞網(wǎng)站、自媒體平臺均有獨立的生態(tài)系統(tǒng),如微信對數(shù)據(jù)開放就比較保守,數(shù)據(jù)采集的廣度和深度受到掣肘,有效數(shù)據(jù)不能代表“大數(shù)據(jù)”,難免有“盲人摸象”之虞。以至于部分基層網(wǎng)絡(luò)管理(宣傳)部門通過搜索引擎輸入縣名等關(guān)鍵詞即可完成每日“輿情監(jiān)測”。二是智能化水平有限。雖然計算機在信息抓取和呈現(xiàn)方面大大解放了人力資源,但由于智能爬蟲、神經(jīng)網(wǎng)絡(luò)分析等技術(shù)短期內(nèi)難有突破,在爬蟲模板管理、報道消重聚合、評論聚類分析、網(wǎng)民情感傾向、各渠道信息影響力權(quán)重等方面,系統(tǒng)維護和分析人員仍無法缺位。三是預(yù)警“有名無實”。一方面,現(xiàn)階段監(jiān)測是對以往信息流橫斷面的局部展示,而對于事件的未來走勢和影響力難以有準確的預(yù)測;另一方面,互聯(lián)網(wǎng)是現(xiàn)實生活的“鏡像”,網(wǎng)絡(luò)社會與現(xiàn)實社會融為一體,輿情預(yù)警對線下活動難免“鞭長莫及”。換句話說,目前輿情監(jiān)測只能做到特定關(guān)鍵詞和信息的實時預(yù)警,而事件時刻在變化,未來事件發(fā)生的概率和嚴重程度還在“黑匣子”里,而這恰恰是輿情監(jiān)測最有“市場”的目標。四是“點”無法成“面”。隨著微信、微博等自媒體的發(fā)展,性別、年齡等屬性數(shù)據(jù)逐漸虛化,朋友圈、同事網(wǎng)等關(guān)系數(shù)據(jù)的價值凸顯。關(guān)系成為對輿情事件進行大數(shù)據(jù)分析的關(guān)鍵。由于技術(shù)瓶頸和資本、人才等要素有限,目前的輿情研判仍側(cè)重于對“點”的線性研究,尚未完成向關(guān)系網(wǎng)研究的轉(zhuǎn)化。
浙江信息經(jīng)濟發(fā)展為全國矚目,而大數(shù)據(jù)產(chǎn)業(yè)前景廣闊,藍海市場顯現(xiàn)。大數(shù)據(jù)時代數(shù)據(jù)量的增加和對技術(shù)繁雜程度的要求永無止境,互聯(lián)網(wǎng)輿情大數(shù)據(jù)分析的門檻將進一步提高,傳統(tǒng)的輿情分析中小作坊式運作模式將進一步被顛覆,與之相應(yīng)的產(chǎn)業(yè)扶持、人才培養(yǎng)、監(jiān)管措施、資金保障則需“有為政府”和“有心企業(yè)”共同發(fā)力,才能在大數(shù)據(jù)時代真正“破局稱王”。