鄒丁玲 段峰峰
(1湖南師范大學(xué) 新聞與傳播學(xué)院,湖南 長(zhǎng)沙 410081;2湖南省社會(huì)輿情監(jiān)測(cè)與網(wǎng)絡(luò)輿情研究中心,湖南 長(zhǎng)沙 410081)
網(wǎng)絡(luò)輿情通常是指一定時(shí)間內(nèi)在網(wǎng)絡(luò)上傳播的關(guān)于某一特定社會(huì)問(wèn)題的所有評(píng)論、觀點(diǎn)、意見的集合。這種集合體現(xiàn)了評(píng)論者的情感傾訴,其外延較傳統(tǒng)媒體中的輿情更加寬廣,具有自由性、互動(dòng)性、廣泛性、隱匿性、突發(fā)性等特點(diǎn)。在公共事件發(fā)生前后,網(wǎng)民在社交媒體平臺(tái)上進(jìn)行互動(dòng)、發(fā)表言論,產(chǎn)生網(wǎng)絡(luò)輿情信息,這些信息直接呈現(xiàn)了網(wǎng)民的想法、意見、態(tài)度和情緒,可被稱為顯性輿情數(shù)據(jù)。還有一些數(shù)據(jù)并沒有表現(xiàn)出與輿情直接相關(guān)的熱點(diǎn)言論、情感傾向,但從側(cè)面客觀反映了網(wǎng)民的關(guān)注焦點(diǎn)和興趣點(diǎn)、網(wǎng)絡(luò)輿情主體關(guān)系等方面的隱藏內(nèi)容可被稱為隱性輿情數(shù)據(jù)。
當(dāng)網(wǎng)絡(luò)用戶出于對(duì)某公共事件的關(guān)注和興趣,去搜索和瀏覽與之相關(guān)的信息時(shí),會(huì)在服務(wù)器端口、搜索引擎后臺(tái)或客戶端上產(chǎn)生相應(yīng)的搜索歷史和瀏覽足跡,形成搜索日志。這些信息中記錄了用戶的IP地址、搜索詞、瀏覽時(shí)間、網(wǎng)頁(yè)URL地址等數(shù)據(jù),即隱性的輿情數(shù)據(jù)。數(shù)據(jù)量的多少能反映網(wǎng)絡(luò)用戶對(duì)該關(guān)鍵詞所代表事件的關(guān)注程度,通過(guò)從中統(tǒng)計(jì)和分析用戶的搜索詞和搜索頻率,可發(fā)現(xiàn)某地區(qū)、某時(shí)間段內(nèi)的隱藏?zé)狳c(diǎn)。[1]許多網(wǎng)站或輿情分析系統(tǒng)推出的“輿情熱點(diǎn)排行榜”即屬于該方面的應(yīng)用。
目前,一些搜索引擎公司已經(jīng)研發(fā)了借助搜索歷史和瀏覽足跡等隱性數(shù)據(jù)去發(fā)現(xiàn)和挖掘網(wǎng)絡(luò)輿情的技術(shù)和應(yīng)用。例如,谷歌公司開發(fā)的“谷歌趨勢(shì)”(Google Trends)就是一款基于搜索日志分析的應(yīng)用產(chǎn)品,它有兩個(gè)功能,一是查看關(guān)鍵詞在谷歌的搜索次數(shù)及變化趨勢(shì),二是查看網(wǎng)站流量。[2]它能統(tǒng)計(jì)出某個(gè)關(guān)鍵詞在一定時(shí)間段內(nèi)、在某個(gè)地區(qū)被搜索的次數(shù),再將其與谷歌搜索引擎后臺(tái)隨時(shí)間推移的搜索總量及當(dāng)?shù)氐乃阉骺偭肯鄬?duì)比,得出該關(guān)鍵詞的“相對(duì)搜索指數(shù)”,然后將較長(zhǎng)一段時(shí)間統(tǒng)計(jì)的該關(guān)鍵詞的相對(duì)搜索指數(shù)描繪出來(lái),以此預(yù)測(cè)未來(lái)趨勢(shì)。該應(yīng)用一個(gè)較為著名且成功的例子是“流感趨勢(shì)”。實(shí)踐中設(shè)計(jì)人員提前編入一系列與“流感”相關(guān)的關(guān)鍵詞,如“流感感冒”“溫度計(jì)”“發(fā)燒”“咳嗽”“流感應(yīng)該吃什么藥”等,隨后對(duì)全球20多個(gè)國(guó)家的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行監(jiān)測(cè),只要用戶輸入這些關(guān)鍵詞,系統(tǒng)就認(rèn)為可能與“流感趨勢(shì)”相關(guān),繼而追蹤、分析并做出相對(duì)搜索指數(shù)圖。通過(guò)觀察較長(zhǎng)一段時(shí)間以來(lái)指數(shù)的變化情況,來(lái)預(yù)測(cè)未來(lái)趨勢(shì),進(jìn)而提供流感發(fā)病率的預(yù)測(cè)報(bào)告。谷歌的“流感趨勢(shì)”能比美國(guó)疾病控制中心提前7~10天公布相關(guān)的流感預(yù)報(bào),在測(cè)試階段就表現(xiàn)出良好的預(yù)測(cè)效果,且“流感趨勢(shì)”的預(yù)測(cè)數(shù)據(jù)與官方公布的預(yù)報(bào)數(shù)據(jù)高度吻合,顯示了基于隱性數(shù)據(jù)進(jìn)行輿情預(yù)測(cè)的前瞻性和準(zhǔn)確性。
傳統(tǒng)數(shù)據(jù)時(shí)代,輿情分析的首要步驟是從最具輿情代表性的有限數(shù)據(jù)集入手。例如,百度作為國(guó)內(nèi)第一大搜索引擎運(yùn)營(yíng)商,從后臺(tái)數(shù)據(jù)庫(kù)中可以提取出每一個(gè)搜索詞的對(duì)應(yīng)搜索量,在社會(huì)輿情分析層面,其所指對(duì)象通常是從海量搜索數(shù)據(jù)中截取的最具輿情代表性的有限數(shù)據(jù)集,借此反映社會(huì)關(guān)注的基本面或新聞事件的社會(huì)關(guān)注度,較為粗略地刻畫出中國(guó)的“輿情地圖”。[3]這在本質(zhì)上是通過(guò)部分抽樣輿情信息來(lái)反映社會(huì)整體輿情狀況,難免存在偏差。
大數(shù)據(jù)時(shí)代不再如傳統(tǒng)數(shù)據(jù)時(shí)代需要通過(guò)抽樣獲取輿情信息以代表整體的處理方式,網(wǎng)絡(luò)技術(shù)手段已可以支持通過(guò)普查方式來(lái)全面覆蓋處理海量的網(wǎng)絡(luò)數(shù)據(jù),這也為隱性輿情數(shù)據(jù)的挖掘和發(fā)現(xiàn)提供了可行性和技術(shù)支持。然而在實(shí)際操作中,雖然不必再擔(dān)心抽樣方式帶來(lái)的偏差,但是需要謹(jǐn)慎考慮數(shù)據(jù)源本身是否存在偏差,即全面的普查數(shù)據(jù)可能含有噪音,如不能有效排除,則容易高估算法的精確度,影響輿情分析結(jié)果的準(zhǔn)確性。同時(shí),由于大部分?jǐn)?shù)據(jù)處于孤島狀態(tài),在整合處理時(shí),若無(wú)法準(zhǔn)確忽略冗余數(shù)據(jù)信息和整合有效數(shù)據(jù)信息,也易導(dǎo)致結(jié)果的偏離。因此,“讓數(shù)據(jù)自己說(shuō)話”的結(jié)論是不完整的,數(shù)據(jù)源需要得到篩選和清理,才能避免潛在誤差。[4]由此可見,對(duì)于隱性輿情大數(shù)據(jù)而言,數(shù)據(jù)的價(jià)值不僅體現(xiàn)在大小上,更體現(xiàn)在利用創(chuàng)新性的數(shù)據(jù)分析方法,克服和避免數(shù)據(jù)離散與結(jié)果偏差,去挖掘和分析隱性數(shù)據(jù)信息的潛在價(jià)值,這樣才能幫助我們更好地觀察網(wǎng)絡(luò)輿情的全貌。
隱性輿情數(shù)據(jù)不僅分布廣泛和隱蔽,而且數(shù)據(jù)的形式和組織方式也較為復(fù)雜,而跨媒體搜索理論和技術(shù)的不斷發(fā)展及完善或可為隱性輿情數(shù)據(jù)的檢索與獲取提供一定的創(chuàng)新思路和方法。
1.基于語(yǔ)義識(shí)別理論的語(yǔ)義文法。該方法是通過(guò)定義各種文法規(guī)則,將文法規(guī)則賦予語(yǔ)義,然后使用語(yǔ)義文法來(lái)描述網(wǎng)絡(luò)輿情文本的句子結(jié)構(gòu)及語(yǔ)義信息,可直接從分析結(jié)果產(chǎn)生語(yǔ)義解釋。因此,語(yǔ)義文法是對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行精準(zhǔn)語(yǔ)義識(shí)別的依據(jù),也為跨媒體隱性輿情數(shù)據(jù)的語(yǔ)義相關(guān)性研究提供了理論基礎(chǔ)。例如,多文檔自動(dòng)摘取技術(shù),對(duì)頁(yè)面上的內(nèi)容進(jìn)行過(guò)濾,可基本實(shí)現(xiàn)對(duì)隱性文本輿情的篩選和重組。[5]
2.網(wǎng)絡(luò)爬蟲技術(shù)。該技術(shù)是一種按照一定的規(guī)則自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或腳本,是獲取輿情大數(shù)據(jù)的主要手段。按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),網(wǎng)絡(luò)爬蟲大致可分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等。不同網(wǎng)絡(luò)爬蟲各有優(yōu)勢(shì)與不足,實(shí)際的網(wǎng)絡(luò)爬蟲應(yīng)用系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的,可實(shí)現(xiàn)自動(dòng)爬取網(wǎng)頁(yè)獲得輿情信息或者直接從網(wǎng)頁(yè)中抽取目標(biāo)輿情信息,對(duì)于隱性熱點(diǎn)輿情數(shù)據(jù)的檢測(cè)和獲取具有重要意義。
3.內(nèi)容檢索技術(shù)。一個(gè)輿情事件中所涉及的輿情數(shù)據(jù),既有結(jié)構(gòu)化的文本、數(shù)字,也有非結(jié)構(gòu)化的圖像、音頻、視頻。根據(jù)其特征,需要從基于內(nèi)容的圖像檢索、音頻檢索和視頻檢索研究中著手。其一,圖像檢索按照技術(shù)發(fā)展情況看,一類是基于文本的圖像檢索,即通過(guò)對(duì)圖像的標(biāo)注和環(huán)繞文本來(lái)了解圖像的內(nèi)容,進(jìn)而進(jìn)行檢索,如谷歌、百度等主流的搜索引擎目前都是采用TBIR(Text-based Image Retrieval)提供服務(wù)的;另一類是基于內(nèi)容的圖像檢索,主要通過(guò)特征提取和相似計(jì)算來(lái)實(shí)現(xiàn)。其二,音頻檢索分為兩大類:一是基于人工產(chǎn)生信息的音頻檢索,指利用人工產(chǎn)生的信息,如標(biāo)題、藝術(shù)家信息、標(biāo)簽、關(guān)鍵詞、時(shí)間、用戶評(píng)價(jià)等查詢;二是基于內(nèi)容的音頻檢索,利用音頻信息的幅度、頻譜等物理特征,響度、音高、音色等聽覺特性以及音頻類別和語(yǔ)義等特征進(jìn)行檢索,能夠有效且快速獲得用戶所需的音頻資源。例如,各大音樂(lè)平臺(tái)推出的“聽歌識(shí)曲”功能即是基于內(nèi)容的音頻檢索技術(shù)的體現(xiàn)。其三,視頻檢索,需要對(duì)視頻進(jìn)行結(jié)構(gòu)化處理,將視頻按照其結(jié)構(gòu)組成進(jìn)行分割,形成基于圖像幀的可分析單元,再抽取顯著的特征,如顏色、紋理、形狀、運(yùn)動(dòng)等,來(lái)描述視頻內(nèi)容的視覺信息。例如,美國(guó)哥倫比亞大學(xué)圖像和高級(jí)電視實(shí)驗(yàn)室開發(fā)的VisualAeek即提供了一套供人們?cè)赪eb上搜索和檢索視頻的系統(tǒng)。
1.信息采集。輿情數(shù)據(jù)分析的首要任務(wù)是基于輿情數(shù)據(jù)檢索和獲取技術(shù)從網(wǎng)絡(luò)平臺(tái)上獲得相關(guān)的輿情數(shù)據(jù)。在此過(guò)程中,不僅要抽取輿情相關(guān)的頁(yè)面,還要過(guò)濾重復(fù)界面和噪音,同時(shí)重視隱性輿情數(shù)據(jù)信息,即用戶在服務(wù)器端口、搜索引擎后臺(tái)或客戶端上留下的搜索日志等。[6]
2.信息預(yù)處理。在進(jìn)行數(shù)據(jù)挖掘工作之前,先對(duì)原始數(shù)據(jù)做必要的數(shù)據(jù)清洗、集成、變換、歸約等一系列處理工作,以達(dá)到挖掘算法進(jìn)行知識(shí)獲取所要求的最低規(guī)范和標(biāo)準(zhǔn)。網(wǎng)絡(luò)輿情信息的預(yù)處理主要分為兩個(gè)過(guò)程:一是詞項(xiàng)處理,包括文本分詞、詞性標(biāo)注、停用詞過(guò)濾等步驟,剔除一些不具備分析價(jià)值的信息;二是關(guān)鍵特征提取,即對(duì)可以代表信息內(nèi)容的關(guān)鍵詞加以提取,減少系統(tǒng)負(fù)擔(dān),提高分析效率。經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)信息將存入數(shù)據(jù)庫(kù),以備調(diào)用。
3.話題識(shí)別。目前各類網(wǎng)絡(luò)平臺(tái)的信息發(fā)布和傳播非常迅速,急需在海量和急速增加的各類信息中區(qū)分和識(shí)別輿情相關(guān)信息。該步驟的目的是將輿情大數(shù)據(jù)的內(nèi)容歸入不同的話題類別,并在需要的時(shí)候建立新的話題,通常借助聚類分析算法完成。聚類分析一般先將輿情數(shù)據(jù)進(jìn)行向量化的表述,目的是將自然語(yǔ)言轉(zhuǎn)化為機(jī)器可以理解的形式;然后選擇聚類算法,根據(jù)不同算法在功能上的差異,可選取適用算法,加強(qiáng)對(duì)隱性輿情數(shù)據(jù)的辨別。
4.結(jié)果反饋。通過(guò)對(duì)隱性數(shù)據(jù)中的關(guān)鍵詞情感屬性判別、敏感詞分析,形成情感烈度,識(shí)別出隱性輿情熱點(diǎn)和潛在熱度,作出輿情預(yù)警,并由此總結(jié)出針對(duì)不同情況的輿情疏導(dǎo)策略。
通過(guò)借助輿情系統(tǒng)和技術(shù),來(lái)檢索、獲取、處理和分析輿情數(shù)據(jù),最終得到和掌握的一般為單變量數(shù)據(jù)。然而,在輿情研究中,多變量之間的關(guān)系和差異是社會(huì)實(shí)證研究的核心,這包括數(shù)據(jù)相關(guān)關(guān)系的建立、輿情主體關(guān)系的發(fā)現(xiàn)、公共事件的因果關(guān)系和解釋力。因此,分析和挖掘隱性輿情熱點(diǎn),還應(yīng)引入人工分析處理機(jī)制,才能為其尋找更深層次的解釋。在對(duì)隱性輿情數(shù)據(jù)的處理和應(yīng)對(duì)中,人工輿情分析和處理應(yīng)以人機(jī)結(jié)合為核心理念,注重大數(shù)據(jù)技術(shù)與人工在線實(shí)時(shí)內(nèi)容分析的互動(dòng)和促進(jìn)關(guān)系。在大數(shù)據(jù)技術(shù)框架下,可進(jìn)行網(wǎng)絡(luò)輿情信息的快速挖掘和自動(dòng)化分析處理,而人工在線內(nèi)容分析則能完成深度識(shí)別、辨析、挖掘和解釋輿情間差異和關(guān)系的任務(wù)。[7]人工在線實(shí)時(shí)內(nèi)容分析,以社會(huì)科學(xué)研究中的內(nèi)容分析法為理論依據(jù),結(jié)合編碼員之間的信度,建構(gòu)線上內(nèi)容分析流程和機(jī)制,流程主要包括準(zhǔn)備階段、編碼、質(zhì)量控制和結(jié)果呈現(xiàn)等,以此來(lái)有效加強(qiáng)監(jiān)測(cè)、分析和識(shí)別隱性數(shù)據(jù)和熱點(diǎn)輿情,提高精確度和嚴(yán)謹(jǐn)性。
在完成跨媒體隱性輿情數(shù)據(jù)的檢索、分析和熱點(diǎn)識(shí)別后,應(yīng)研究針對(duì)不同類型輿情信息的可視化方法,對(duì)所凝練和萃取的數(shù)據(jù)進(jìn)行呈現(xiàn)和反饋。大數(shù)據(jù)技術(shù)與可視化分析技術(shù)相結(jié)合,可為隱性輿情數(shù)據(jù)的監(jiān)測(cè)和隱性熱點(diǎn)的展示構(gòu)建起全新的框架。隱性輿情大數(shù)據(jù)的可視化研究,主要是數(shù)據(jù)圖形化。通過(guò)抽取線性關(guān)系中的關(guān)鍵詞,并按照一定的規(guī)律、標(biāo)準(zhǔn)用整齊美觀的圖形界面呈現(xiàn)出來(lái),這種靜態(tài)表示方法可分為關(guān)鍵詞引導(dǎo)布局、地圖布局、環(huán)狀布局、時(shí)序布局等不同方式,具有可靈活擴(kuò)展、展示手段與數(shù)據(jù)分離、細(xì)節(jié)提示、疊加顯示的特征。同時(shí),輿情層次數(shù)據(jù)的可視化,主要是信息層次化,即通過(guò)建立自下而上或自上而下的順序結(jié)構(gòu)、層次結(jié)構(gòu)、網(wǎng)狀結(jié)構(gòu)進(jìn)行可視化區(qū)域展示。[8]
輿情熱點(diǎn)的爆發(fā)往往集中在微博、朋友圈、社區(qū)和網(wǎng)站等自媒體平臺(tái),因此目前對(duì)于網(wǎng)絡(luò)輿情信息的情感傾向分析仍然主要集中在文本載體之上。[9]文本傾向分類是對(duì)文本作者的態(tài)度、觀點(diǎn)、情感等信息分類,能為輿情治理提供依據(jù),促進(jìn)輿情信息朝著多角度、立體性方向前進(jìn)。有學(xué)者提出情感詞語(yǔ)加權(quán)、語(yǔ)義模式分析、普通文本分析等方法,思路大多是對(duì)文本內(nèi)容進(jìn)行檢索,計(jì)算情感色彩詞,與情感詞庫(kù)中的詞匯進(jìn)行比較分析,并引入相關(guān)句式規(guī)則以便確認(rèn)情感屬性,最后統(tǒng)計(jì)所有感情色彩信息。并且,通常認(rèn)為表達(dá)情感色彩的詞元越多,文本的情感色彩就越強(qiáng)烈。對(duì)于隱性輿情數(shù)據(jù)而言,不僅要分析其文本情感傾向,更應(yīng)注重間接關(guān)鍵詞、隱晦情感詞、搜索和瀏覽次數(shù)等信息。
當(dāng)出現(xiàn)某個(gè)支持度較高的話題,或當(dāng)話題呈現(xiàn)出焦灼的爭(zhēng)論狀態(tài),或當(dāng)網(wǎng)絡(luò)輿論對(duì)某個(gè)輿情事件表示反對(duì)或焦慮時(shí),應(yīng)考慮綜合自動(dòng)化系統(tǒng)檢索及分析與人工實(shí)時(shí)分析相結(jié)合。一是分析網(wǎng)絡(luò)輿情熱度影響因素,建立指標(biāo)體系。在海量數(shù)據(jù)中,自動(dòng)發(fā)現(xiàn)隱藏?zé)狳c(diǎn),并對(duì)它們進(jìn)行提前分類。二是進(jìn)行熱點(diǎn)跟蹤定位。把網(wǎng)絡(luò)環(huán)境下的輿情事件看成一個(gè)動(dòng)態(tài)的發(fā)展過(guò)程,把握其當(dāng)前狀態(tài)和未來(lái)趨勢(shì)。三是開展敏感信息監(jiān)控。評(píng)析輿情分類的結(jié)果,結(jié)合當(dāng)前的宏觀情況,自定義危機(jī)詞組,生成輿情預(yù)測(cè)報(bào)告。四是設(shè)計(jì)輿情預(yù)警規(guī)則。根據(jù)輿情信息、相關(guān)人員信息、輿情所處階段、熱度和網(wǎng)民傾向,可將預(yù)警分為若干個(gè)等級(jí),用不同色彩表示,計(jì)算某一個(gè)輿情事件的得分情況,輸出相對(duì)應(yīng)的色彩。
在對(duì)輿情危機(jī)進(jìn)行分析、預(yù)測(cè)和處理中,顯性數(shù)據(jù)信息分析往往是主要依據(jù),也是常采用的方法。然而隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)內(nèi)容復(fù)雜性的增加,以及輿情信息隱蔽性的提高,隱性數(shù)據(jù)信息的價(jià)值日趨重要。對(duì)隱性輿情數(shù)據(jù)的充分利用有利于更好地實(shí)現(xiàn)輿情精準(zhǔn)預(yù)測(cè),為輿情危機(jī)的預(yù)警和應(yīng)對(duì)提供更加科學(xué)、有效的方案,從而實(shí)現(xiàn)輿情危機(jī)的引導(dǎo)和化解,促進(jìn)健康網(wǎng)絡(luò)環(huán)境的構(gòu)建。
[1]喻國(guó)明.大數(shù)據(jù)分析下的中國(guó)社會(huì)輿情:總體態(tài)勢(shì)與結(jié)構(gòu)性特征——基于百度熱搜詞(2009-2012)的輿情模型構(gòu)建[J].中國(guó)人民大學(xué)學(xué)報(bào),2013(5):2-9.
[2]Google趨勢(shì)[EB/OL]. http://www.google.com/trends,2013-04-26.
[3]唐濤.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析方法研究[J].現(xiàn)代情報(bào),2014(3):3-6.
[4]維克托·邁爾-舍恩伯格,肯尼斯·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:37-43.
[5]張耀之.網(wǎng)絡(luò)輿情語(yǔ)義識(shí)別的技術(shù)分析及識(shí)別流程構(gòu)建[D].吉林大學(xué),2016.
[6]張榮顯,曹文鴛.網(wǎng)絡(luò)輿情研究新路徑:大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析[J].汕頭大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2016(8):111-121.
[7]陳雪剛.基于大數(shù)據(jù)技術(shù)的微博輿情快速自聚類方法研究[J].情報(bào)雜志,2017(5):113-117.
[8]喻國(guó)明,李彪.當(dāng)前社會(huì)輿情場(chǎng)的結(jié)構(gòu)性特點(diǎn)及演進(jìn)趨勢(shì)——基于《中國(guó)社會(huì)輿情年度報(bào)告(2015)》的分析結(jié)論[J].新聞與寫作,2015(10):37-40.
[9]丁媛媛.基于時(shí)間序列的微博熱點(diǎn)話題識(shí)別與追蹤[D].西安科技大學(xué),2017.