冉朝霞
摘? 要:當(dāng)前檔案管理人員的互聯(lián)網(wǎng)輿情檔案信息收集、分類和有效處理能力都存在一些問題,應(yīng)著力提升檔案管理人員對互聯(lián)網(wǎng)輿情檔案信息的跨維度收集和分類能力,準(zhǔn)確把握互聯(lián)網(wǎng)輿情的內(nèi)在特征及其演進過程中的潛在規(guī)律,實現(xiàn)對互聯(lián)網(wǎng)輿情檔案信息管理在技術(shù)和模式上的創(chuàng)新。
關(guān)鍵詞:突發(fā)事件;網(wǎng)絡(luò)輿情;多維信息;檔案收集;檔案分類
網(wǎng)絡(luò)輿情數(shù)據(jù)是社會組織或個人在社會實踐活動中直接形成的文字、圖像、視頻等多媒體數(shù)字信息,是對以往社會活動的清晰、確定的原始記錄,具有鮮明的原始記錄性,這與檔案的本質(zhì)特性是相同的,決定了網(wǎng)絡(luò)輿情數(shù)據(jù)信息的檔案屬性。
1 輿情數(shù)據(jù)檔案信息跨維度收集是檔案管理工作的技術(shù)保障
1.1 輿情數(shù)據(jù)收集是檔案信息收集的基礎(chǔ)。當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機構(gòu)定向收集。
人工收集是指通過人工瀏覽網(wǎng)絡(luò)平臺,如門戶網(wǎng)站、博客、論壇、貼吧等,跟蹤敏感問題,通過人工監(jiān)測獲取有價值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會輿論走勢。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。
搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC發(fā)布的《2018年中國網(wǎng)民搜索行為研究報告》顯示:百度日均搜索量超過50億人次,截至2018年12月,搜索引擎是中國網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時通信。檔案管理人員利用搜索引擎通過預(yù)先設(shè)定好的關(guān)鍵詞,可以得到相對準(zhǔn)確的輿情信息,對敏感輿情信息及時抓取,分類保存輿情數(shù)據(jù),時刻監(jiān)視輿情數(shù)據(jù)的動態(tài)變化。
人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因為數(shù)據(jù)稀疏導(dǎo)致在做相關(guān)運算時出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機構(gòu)定向采集,通過對核心詞的外拓實現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。
第三方互聯(lián)網(wǎng)輿情監(jiān)測機構(gòu)定向收集是指依托定向搜索和網(wǎng)絡(luò)爬蟲技術(shù)對web文本進行核心詞抓取、主題詞過濾、敏感詞檢測等技術(shù),實現(xiàn)對網(wǎng)絡(luò)輿情的分類匯總。網(wǎng)絡(luò)爬蟲(Web Spider)是一段代碼或者一個小程序,它可以像蜘蛛在蜘蛛網(wǎng)上爬行一樣自動采集網(wǎng)站上的數(shù)據(jù)。Web Spider不但能為搜索引擎采集數(shù)據(jù)信息,亦可作為定向信息采集器,對某些網(wǎng)站下的特定信息進行定向采集。第三方社會輿情監(jiān)測機構(gòu)定向收集擁有較為專業(yè)的數(shù)據(jù)監(jiān)測和分類系統(tǒng),可指定某個目標(biāo)網(wǎng)站進行監(jiān)測,定向抽取目標(biāo)網(wǎng)站最新主題帖內(nèi)容或某個主題帖的所有回復(fù)帖的內(nèi)容;亦可不指定目標(biāo)網(wǎng)站對全部網(wǎng)站進行監(jiān)測,既可以對國內(nèi)網(wǎng)站進行監(jiān)測,也可以對國外網(wǎng)站BBC、Facebook、CNN和Twitter等進行監(jiān)測。
目前,技術(shù)比較成熟的國內(nèi)第三方互聯(lián)網(wǎng)輿情專業(yè)監(jiān)測機構(gòu)有人民網(wǎng)輿情監(jiān)測室、中正輿情研究中心和中青輿情在線等。以人民網(wǎng)輿情監(jiān)測室為例,可以全天候監(jiān)測百度貼吧、強國論壇、西祠社區(qū)、新浪論壇、新華網(wǎng)、搜狐社區(qū)、網(wǎng)易社區(qū)、鳳凰網(wǎng)、天涯社區(qū)以及用戶指定的其他動態(tài)網(wǎng)站,可以為檔案管理人員提供及時、準(zhǔn)確和有針對性的輿情數(shù)據(jù)檔案信息收集服務(wù)功能。
1.2 輿情數(shù)據(jù)預(yù)處理是檔案信息收集的前提。當(dāng)前,輿情檔案信息數(shù)據(jù)預(yù)處理常用的技術(shù)手段有三種:
第一,對文本進行預(yù)處理。文本預(yù)處理是對通過輿情采集器收集的未加工的 Web網(wǎng)頁進行初步處理,再對經(jīng)初步處理過的網(wǎng)頁文本進行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進行特征選擇和中文分詞。中文分詞對命名實體進行識別,采用 ICTCLAS 系統(tǒng)對所獲語料標(biāo)注詞性和進行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進行向量化分析。分詞技術(shù)是針對提交查詢的關(guān)鍵詞串進行處理,將收集到的網(wǎng)頁文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。
第二,對話題進行檢測。對文本經(jīng)過預(yù)處理后的文本語料庫形成了擴展空間向量模型VSM向量集。利用 VSM 各向量間的相似度,對文本進行話題檢測和聚類,對文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因為數(shù)據(jù)稀疏導(dǎo)致在做相關(guān)運算時出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況??朔@一技術(shù)難題的方法就是引入詞擴展技術(shù),通過對核心詞的外拓實現(xiàn)準(zhǔn)確率和推薦召回率的同步提升。詞擴展技術(shù)是指利用特定算法對原始文本向量進行處理,使原始數(shù)據(jù)中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進一步劃分為多個“微簇”,利用特定算法,對“微簇”進行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對象代表“微簇”。
第三,利用話題綜合評價標(biāo)準(zhǔn)對話題進行過濾。運用語義識別技術(shù),對之前采集的數(shù)據(jù)信息進行更深一步的過濾識別,通過對數(shù)據(jù)信息中句子的結(jié)構(gòu)、語法及部分關(guān)鍵詞的詞義進行過濾處理,從而將信息轉(zhuǎn)化為人們常用的語言,將大量復(fù)雜的信息簡單化。從進行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進行組合,通過結(jié)構(gòu)化分析獲取中心詞組,計算中心詞組所涉及的文本數(shù)量,運算模塊根據(jù)文本參數(shù)進行加權(quán)計算,統(tǒng)計熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。
2 輿情數(shù)據(jù)檔案信息科學(xué)分類是檔案管理工作的重要內(nèi)容
互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息分類有兩種:一是即時分類,即時分類是在輿情的具體處理過程中,檔案管理人員根據(jù)輿情的具體內(nèi)容呈現(xiàn)以及運行的情況,對輿情產(chǎn)生的原因和輿情產(chǎn)生的核心群體進行分析,著重對特定輿情的演進及應(yīng)對進行分析預(yù)判。通過發(fā)現(xiàn)話題,捕捉受眾情緒特點,關(guān)注話語分布時空特征,揭示輿情演變規(guī)律。二是深度分類,深度分類是在輿情處理完成后,檔案管理人員依據(jù)輿情發(fā)展的結(jié)構(gòu)性特點,挖掘出新的、深層次的熱點話題,跟進媒體報道,追蹤敏感事件,并通過IP定位發(fā)現(xiàn)受眾的空間分布及傳播路徑,建立事件識別模式,監(jiān)測熱點話題,發(fā)現(xiàn)突發(fā)事件特征、規(guī)律,提取、分析與公眾利益密切相關(guān)的部分,為互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息入庫提供科學(xué)的分類依據(jù)。
2.1 互聯(lián)網(wǎng)輿情檔案信息的定點分類。一般情況下,危及社會穩(wěn)定的輿情可能包含以下幾種形式:段子、謠言、社會思潮、理論爭鳴、示威游行或群體聚集產(chǎn)生的輿情等,輿情監(jiān)測系統(tǒng)須及時搜集這些輿情形式和信息,快速做出及時恰當(dāng)?shù)姆磻?yīng)。檔案管理人員利用智能搜索軟件在對定點微博、微信、論壇、貼吧和重點網(wǎng)站等實行24小時不間斷監(jiān)控的基礎(chǔ)上,通過預(yù)先設(shè)置好的關(guān)鍵詞,對敏感信息和少數(shù)有影響力的意見領(lǐng)袖的言論進行定點抓取,并對收集到的社會輿情數(shù)據(jù)進行分類保存,持續(xù)觀察輿情數(shù)據(jù)的動態(tài)變化。“突發(fā)性群體事件中的網(wǎng)絡(luò)輿情往往開始于網(wǎng)絡(luò)中某位網(wǎng)友的爆料,抑或是媒體的報道,這些原始性信息會在公眾腦海中形成首因效應(yīng),并通過微博、博客等形式構(gòu)造信息鏈條?!盵1]
2.2 互聯(lián)網(wǎng)輿情檔案信息的定向分類。檔案管理人員對互聯(lián)網(wǎng)輿論要進行定向的有針對性的分析,判斷出哪些意見和觀點會自生自滅、自然消解,哪些意見和觀點會演進成重大輿情危機。檔案管理人員需要根據(jù)定向分析分類的結(jié)果和網(wǎng)絡(luò)輿情的瞬時變化做出輿情走勢預(yù)判,從情緒層面走向意見層面,再從意見層面走向行動層面?!摆厔菖c定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷。”[2]
在網(wǎng)絡(luò)輿情的定向分析分類工作中,必須時刻警惕新要素的加入,這些作為行為主體的新要素一般都具有一定的影響力,檔案管理人員通過對新要素的話語結(jié)構(gòu)和信息資源的再分配成為輿論場的行為主體,通過與公眾的互動獲得社會資本并將其轉(zhuǎn)化為注意力資源,在事態(tài)發(fā)展的關(guān)鍵節(jié)點實現(xiàn)對輿論格局的影響,左右輿情走向。社會輿情的定向分類“有助于判斷突發(fā)性群體事件相關(guān)輿情的意見傾向,對網(wǎng)民意見和網(wǎng)絡(luò)輿論的形成過程進行進一步分析,通過梳理,整理出網(wǎng)民對輿情事件的主體態(tài)度和總體傾向”。[3]
2.3 互聯(lián)網(wǎng)輿情檔案信息的定量分類。從宏觀到微觀是一種研究事物的方法,檔案管理人員要具備用定量分析的方法對定性描述進行度量,可以在微觀層次上展現(xiàn)互聯(lián)網(wǎng)輿情的變化,在更小的粒度上對互聯(lián)網(wǎng)輿情進行定量評價,發(fā)現(xiàn)輿情的演化規(guī)律。
檔案管理人員要從制度建設(shè)到日常運作層面切實回應(yīng)民眾需求,在進行互聯(lián)網(wǎng)輿情定量分類時,檔案管理人員要重視微博和微信的轉(zhuǎn)載量和跟帖數(shù)量,因為突發(fā)性群體事件中微博和微信的轉(zhuǎn)載量和跟帖數(shù)量是互聯(lián)網(wǎng)輿情事件能否引起廣大網(wǎng)民關(guān)注的顯性指標(biāo),是網(wǎng)民意見的最直接表現(xiàn)。
2.4 互聯(lián)網(wǎng)輿情檔案信息的定性分類。突發(fā)事件發(fā)生以后,人們獲知的相關(guān)信息并不一定是事件本身的真實信息,檔案管理人員首先要對事件真?zhèn)巫龆ㄐ耘袛?,一般來講輿論具有基于事實并且相對于事實本身的獨立性,輿情在傳播過程中,信息往往會發(fā)生變異,因此對事件真?zhèn)蔚呐袛嗍沁M行輿情定性分類的第一步。“人們認知這一世界往往通過多樣的、情景化的、理性與感性并存的方式,在抓取這些復(fù)雜的情感、價值、信仰以及意見時,大數(shù)據(jù)技術(shù)仍有其弱點?!盵4]網(wǎng)絡(luò)輿情的定性分析與分類應(yīng)盡快尋找有力證據(jù),厘清事實和謠言邊界,杜絕輿情的外溢和偏離。
3 加強互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息跨維度動態(tài)管理
3.1 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理跨維度互動模式。檔案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運轉(zhuǎn)。
3.2 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息多元管理模式。傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時代為輿論的快速形成和公眾對公共事務(wù)話語權(quán)的表達提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點,多元主體治理的邊界與范圍不是簡單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動方式,因此需要尋求一種新的檔案管理模型和良性互動的連接機制來消解傳統(tǒng)檔案管理成長的困境。
3.3 構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理回應(yīng)指標(biāo)體系。警惕輿情動態(tài)在復(fù)雜的演進過程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過行為干預(yù)及早進行有效處置,匯編典型事件檔案庫?;ヂ?lián)網(wǎng)輿情集中反映了當(dāng)前熱點,聚焦了矛盾和沖突,暴露了隱匿于風(fēng)暴漩渦中的濫觴,檔案管理人員應(yīng)從追問事實到反思制度,從線上輿論和線下互動的有效對接到挖掘方法和社會洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進和完善檔案管理中的制度性、結(jié)構(gòu)性問題。
參考文獻:
[1]王玉瓊,胡娟.突發(fā)性群體性事件管理問題探討[J].管理學(xué)雜志,2017,26 (5) :42 - 44.
[2]梁雪云.網(wǎng)絡(luò)輿情的分析與分類機制研究[J].今傳媒雜志,2016,5:16-17.
[3]姜鑫.收集、判斷與溝通:突發(fā)性群體事件的網(wǎng)絡(luò)輿情研究[J].學(xué)術(shù)交流雜志2018,7:202-207.
[4]KITCHIN R.Big data and human geography: Opportunities, challenges and risks[J].Dialogues in Human Geography,2017, 3(3):262-267.
(作者單位:中共鄭州市委黨校公共管理教研部? 來稿日期:2019-07-14)