劉羽
(鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院,河南 鄭州 450000)
當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。人工收集是指通過人工瀏覽網(wǎng)絡(luò)平臺(tái),通過人工監(jiān)測獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。
搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC 發(fā)布的《2018 年中國網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。
第一,對文本進(jìn)行預(yù)處理。文本預(yù)處理是對通過輿情采集器收集的未加工的Web 網(wǎng)頁進(jìn)行初步處理,再對經(jīng)初步處理過的網(wǎng)頁文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對所獲語料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進(jìn)行向量化分析。分詞技術(shù)是針對提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。
第二,對話題進(jìn)行檢測。對文本經(jīng)過預(yù)處理后的文本語料庫形成了擴(kuò)展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進(jìn)行話題檢測和聚類,對文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況。克服這一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對象代表“微簇”。
第三,利用話題綜合評價(jià)標(biāo)準(zhǔn)對話題進(jìn)行過濾。運(yùn)用語義識(shí)別技術(shù),對之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過濾識(shí)別,通過對數(shù)據(jù)信息中句子的結(jié)構(gòu)、語法及部分關(guān)鍵詞的詞義進(jìn)行過濾處理,從而將信息轉(zhuǎn)化為人們常用的語言,將大量復(fù)雜的信息簡單化。從進(jìn)行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。
“趨勢與定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!睓n案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。
傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對公共事務(wù)話語權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來消解傳統(tǒng)檔案管理成長的困境。
警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫。檔案管理人員應(yīng)從追問事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問題。