林偉偉
摘要:目前微博、微信、博客等網(wǎng)絡(luò)自媒體的出現(xiàn)使得任何人都可以通過網(wǎng)絡(luò)取得信息。為了幫忙高校進(jìn)行有效的政策制定,高??梢酝ㄟ^網(wǎng)民的討論信息發(fā)掘目前大眾所關(guān)注涉及高校的議題與輿情焦點(diǎn)。通過對巨量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行文字挖掘可以幫助高校分析網(wǎng)民關(guān)注的議題,從而可以進(jìn)行即時回應(yīng),或者加強(qiáng)政策溝通,還可以作為后續(xù)政策制定和輿情匯集的基礎(chǔ)。高校通過輿情系統(tǒng)的研究可以有效了解網(wǎng)民對于輿情的關(guān)注點(diǎn)并準(zhǔn)確預(yù)測未來議題發(fā)展方向。當(dāng)高校相關(guān)單位所發(fā)布的信息與網(wǎng)民所關(guān)注的議題焦點(diǎn)有差異時,就可以及早地進(jìn)行處理,從而能提升高校管理效率與滿意度。
關(guān)鍵詞:Web信息;數(shù)據(jù)分析;數(shù)據(jù)挖掘;信息聚合;正文抽取;文本聚類
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)26-0221-02
1 引言
網(wǎng)絡(luò)將人與人之間的距離拉近,不同來源的信息也隨著網(wǎng)絡(luò)的便利性快速的傳播開來。網(wǎng)絡(luò)上的信息可能來自新聞媒體,個人經(jīng)驗(yàn)、小道消息、新聞報(bào)道等。通過網(wǎng)民在網(wǎng)絡(luò)中的公開討論,使得網(wǎng)絡(luò)信息的構(gòu)成更加豐富多元?,F(xiàn)在網(wǎng)絡(luò)的出現(xiàn)使得任何人都可以通過網(wǎng)絡(luò)取得信息。高校也可以通過巨量網(wǎng)民的討論信息,發(fā)掘目前大眾所關(guān)注的涉及高校的相關(guān)議題與輿情焦點(diǎn)。通過對巨量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行文字挖掘即可以分析網(wǎng)民關(guān)注的議題,從而作為高校政策制定和輿情匯集的基礎(chǔ)?,F(xiàn)在人們寧愿從網(wǎng)絡(luò)上其他個體(如網(wǎng)友)或在線社區(qū)中取得信息而非通過正式機(jī)構(gòu)發(fā)布的信息,因此應(yīng)著重開源信息(open source information)的收集。近年來,開源信息變得越來越有價值,包括網(wǎng)絡(luò)新聞(news sites)、留言板(discussion boards)或聊天室(chat rooms)、博客等通常都可以作為某些事件或活動的報(bào)道與指引。高校通過對輿情系統(tǒng)的研究可以有效了解網(wǎng)民對于輿情的關(guān)注并準(zhǔn)確預(yù)測未來議題發(fā)展方向。當(dāng)高校相關(guān)單位所發(fā)布的信息與網(wǎng)民所關(guān)注的議題焦點(diǎn)有差異時,可以及早地進(jìn)行處理,提升高校管理效率與滿意度。
2 網(wǎng)頁信息處理流程
2.1 預(yù)處理
總體上說,網(wǎng)絡(luò)中各種Web信息是大量且零散分布在不同的在線社區(qū)中。從理論上而言,不管是文字、聲音、圖像或照片等多媒體形式的信息內(nèi)容都可以被收集,但就技術(shù)層面而言,除了文字在收集后較容易進(jìn)行自動化分析外,其他信息形式即使被收集了,其自動化分析部分尚須投入大量的研究,而且技術(shù)難度很高,所以本研究將著重以文字層面的自動化收集與處理機(jī)制作進(jìn)行說明。網(wǎng)頁抓?。╓eb Crawler)是一套軟件或程序,通過自動化的方法在互聯(lián)網(wǎng)中通過標(biāo)準(zhǔn)的http協(xié)議(Http Protocol)搜尋超文字鏈接與相關(guān)網(wǎng)站的文件,常被用來從網(wǎng)站上抓取網(wǎng)頁的信息,如文章的標(biāo)題、內(nèi)容和作者等。一般來說,網(wǎng)頁抓取也常被稱為網(wǎng)絡(luò)爬蟲(Web Spider)或網(wǎng)絡(luò)機(jī)器人(Web Robot),它的功能包括了個人化搜尋、收集網(wǎng)頁、備份文件及網(wǎng)站統(tǒng)計(jì)。通常使用網(wǎng)頁抓取技術(shù)可以幫助研究者自動收集網(wǎng)絡(luò)中事先設(shè)置好的標(biāo)的信息(target information),將其傳送回來后再分門別類地儲存在數(shù)據(jù)庫中,供后續(xù)的研究與分析。
本輿情系統(tǒng)使用網(wǎng)絡(luò)爬蟲等現(xiàn)有的軟件將指定網(wǎng)站的內(nèi)容存儲到本地硬盤,同時去除HTML文件中特殊的標(biāo)記,將我們感興趣的文本提取出來,并按照一定的格式存儲到數(shù)據(jù)庫中。本文需要提取的內(nèi)容包括標(biāo)題、文章內(nèi)容等;然后分別讀取每一篇文檔,對其進(jìn)行分詞處理,去掉停用詞(Stop Words)(自己定義),統(tǒng)計(jì)每一個詞的詞頻,應(yīng)用經(jīng)典TFIDF方法計(jì)算出每個詞的權(quán)值;最后將這些信息保存到數(shù)據(jù)庫中。
2.2 文本特征向量化
在中文的文章里,詞與詞之間是沒有明顯的區(qū)隔,詞可由一個以上的相鄰中文字所組成。中文文本與英文文本的相異點(diǎn)在于:中文文本如果沒經(jīng)過中文分詞技術(shù)進(jìn)行前置處理,將無法拿來作后續(xù)文件分析處理,因此采用合適的中文分詞技術(shù)是重要的。過去有許多的分詞技術(shù)不斷地被發(fā)表出來,而最常見的中文分詞技術(shù)主要可以分為三大類:詞庫式分詞(word identification)、統(tǒng)計(jì)式分詞法與綜合前面兩種分詞方法的混合式分詞法(hybrid word identification)。詞庫式分詞法通常配合詞庫或辭典一起運(yùn)作,根據(jù)一些規(guī)則逐步排除不可能的詞語組合,達(dá)到較好的分詞結(jié)果,但由于受到詞庫質(zhì)量的影響,當(dāng)句子中出現(xiàn)新生的詞匯,將使分詞正確性降低;若要提高分詞正確性,則應(yīng)不斷新增詞庫詞匯,如此則會大幅降低實(shí)際分詞時的效率。統(tǒng)計(jì)式分詞法是基于對語料庫(corpus)的詞語統(tǒng)計(jì)訓(xùn)練,以鄰近字元同時出現(xiàn)的頻率高低作為分詞根據(jù),優(yōu)點(diǎn)在于執(zhí)行效率高,但多只能處理二字詞和單字詞?;旌鲜椒衷~法則是綜合以上兩種方法,利用詞庫找出不同組合的詞匯,再利用詞匯的統(tǒng)計(jì)信息找出最佳的分詞組合。該方法先利用詞典搜尋可能的分詞組合,接著利用構(gòu)詞規(guī)則簡化分詞組合,再以一階馬可夫概率模型排列出所有可能的結(jié)果,然后根據(jù)概率值排列所有可能的分詞組合,最后使用HPSG剖析器(Head-driven Phrase Structure Grammar Parser)逐一過濾這些分詞組合,確認(rèn)該分詞組合是否符合文法。
目前國內(nèi)最常使用于學(xué)術(shù)研究的是北京中科院ICTCLAS分詞系統(tǒng),該系統(tǒng)提供了中文分詞與詞性標(biāo)注的服務(wù),使用者可以免費(fèi)試用它的簡化版在線分詞系統(tǒng)或申請賬號后通過網(wǎng)絡(luò)連線到該服務(wù)器處理中文文本。ICTCLAS系統(tǒng)包含一個約10萬詞的詞匯庫,每周固定更新與維護(hù)數(shù)據(jù)庫,因此本研究選定該分詞系統(tǒng)作為中文文本前置處理的分詞工具。
一般而言,通過網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上抓取下來的網(wǎng)頁稱為可用文本(texture)。文本須經(jīng)通過前置處理挖掘出具有代表性的輿情特征詞匯,接著再判斷其特征詞匯是否具有代表性或是鑒別力。本文通過ICTCLAS系統(tǒng)自動標(biāo)記分詞后的詞匯特性,進(jìn)行詞性合并的動作,以獲取出具有意義的特征詞匯。本文首先根據(jù)本文信息挖掘出的各個特征詞,然后采用向量空間模型(VSM),計(jì)算出每個單詞的權(quán)重,而每個權(quán)重就代表著向量的一個維度,所有特征詞的權(quán)重值就組成了文本向量。
2.3 Web信息發(fā)現(xiàn)
向量空間模型(Vector Space Model, VSM)最早是由Salton與Gill(1983)所提出的,向量空間模型是以文本向量為基礎(chǔ),而建立詞匯—文件矩陣(Term-Document Matrix)是它的核心思想。可以利用VSM來計(jì)算文章之間向量的相似度來進(jìn)行聚類(Cluster)或分類(Classification)的處理。VSM也是文件索引向量(index vector)與關(guān)鍵詞的重要性(term significance)的計(jì)算的重要參考根據(jù)。本研究特征詞權(quán)重當(dāng)作向量空間模型的基底,然后計(jì)算文本的相似度,找出有高度關(guān)聯(lián)的文本,并根據(jù)這些特性進(jìn)行分類,此種文本匯聚所得出的內(nèi)涵就是了解該類文本所描述輿論或事件方向的過程。文本相似度計(jì)算在信息處理的相關(guān)研究是最常被使用的技術(shù),如文件檢索、分群和分類等。
2.4 Web信息熱度計(jì)算
社會焦點(diǎn)話題或敏感話題識別是根據(jù)信息來源、發(fā)言評論數(shù)量、時間及密集程度等參數(shù),識別一定時間范圍內(nèi)的熱門話題,并利詞語權(quán)重及語義分析技術(shù),識別出敏感或焦點(diǎn)話題,了解輿論現(xiàn)狀。對已分析的特定主題在文本自動收集時作自動追蹤,收集相同輿情主題的后續(xù)文本,并對正在分析的文本,經(jīng)分類技術(shù)后根據(jù)權(quán)重設(shè)置主題。對每個話題或者發(fā)表文本的觀點(diǎn),通過文本分類技術(shù),進(jìn)行類別或傾向性分析、統(tǒng)計(jì),勾勒出話題范疇與輪廓,同時分析某個主題在不同的時間段內(nèi)人們所關(guān)注的程度及趨勢。目前關(guān)于熱點(diǎn)發(fā)現(xiàn)的算法都是基于熱點(diǎn)詞與話題的附屬關(guān)系,基本原則是出現(xiàn)熱點(diǎn)詞頻率較高的話題即為熱點(diǎn)話題。這樣有可能會出現(xiàn)局部較熱,但是由于話題較分散,因此在所屬類的熱度并不高。為了避免該現(xiàn)象的發(fā)生,本文從宏觀的角度先對相似話題聚類,然后在分類的基礎(chǔ)上進(jìn)行熱度計(jì)算,從而提高了熱點(diǎn)計(jì)算的精度。
個體平均相似度定義為類中某一文檔與其余文檔的相似度求和后取平均值,然后同一類中所有文檔的個體平均相似度再取一次平均值,就得到了類平均相似度。引入這個概念的目的是減少內(nèi)部比較雜亂的類的熱度打分,可以說,其散度直接決定了其熱度。類平均長度為對類中的文檔整體求一次平均值,主要目的就是消除有的文檔過長或過短從而對熱度造成的損傷。通過計(jì)算Web信息的熱度和Web信息的出現(xiàn)頻率可以很好地對Web信息進(jìn)行排序,從而實(shí)現(xiàn)對目前網(wǎng)絡(luò)中最新的Web熱點(diǎn)進(jìn)行跟蹤,及時的監(jiān)控網(wǎng)絡(luò)中存在的熱點(diǎn),從而為高校相關(guān)部門留出快速處理的時間。
3 輿情系統(tǒng)數(shù)據(jù)分析
輿情數(shù)據(jù)的分析工具不同于傳統(tǒng)社會科學(xué)分析方法。本文討論以下幾種類型:時序分析、關(guān)聯(lián)分析以及情緒分析。隨著信息科學(xué)技術(shù)和研究方法的發(fā)展,未來數(shù)據(jù)分析類型將更趨多元。
3.1 時序分析
時序分析也可用于預(yù)測議題趨勢或生命周期。這類分析根據(jù)信息科學(xué)/統(tǒng)計(jì)建構(gòu)的計(jì)算模型(例如 Hidden Markov Model),偵測并記錄輿情討論的生命周期,并將各種時序相關(guān)模型儲存在數(shù)據(jù)庫中,用來預(yù)測討論的發(fā)展趨勢。
3.2 關(guān)聯(lián)分析
關(guān)聯(lián)分析使用輿情產(chǎn)出的關(guān)聯(lián)數(shù)據(jù)(relational data),其主要目的是觀察使用者之間的關(guān)系脈絡(luò)。例如,當(dāng)微博平臺使用者轉(zhuǎn)貼(retweet)另一使用者文章,便在平臺上留下轉(zhuǎn)貼/被轉(zhuǎn)貼者賬號,此記錄關(guān)聯(lián)兩位使用者,可視為網(wǎng)絡(luò)節(jié)點(diǎn)(nodes)和鏈接(links),上述數(shù)據(jù)經(jīng)過萃取和編碼,可進(jìn)行分析,以表征轉(zhuǎn)貼者和被轉(zhuǎn)貼者之間的社會關(guān)系。
3.3 情緒分析
情緒分析可視為一種特定的文本分析。研究者先從文本中挑選出目標(biāo)詞匯,然后比對這群詞匯的情緒特征,來判斷文本屬于正向或負(fù)向情緒。情緒分析通常必須先斷詞,然后根據(jù)事先建構(gòu)的情緒辭典(事先經(jīng)過情緒屬性分類的詞匯群組),使用機(jī)器學(xué)習(xí)方法或者數(shù)據(jù)挖掘方法,識別詞匯的正/負(fù)情緒類別,最后經(jīng)過統(tǒng)計(jì)和整合,來判斷該文本的情緒傾向。
4 總結(jié)
現(xiàn)在人們對社會現(xiàn)狀的聲音已不僅表現(xiàn)在其人際交往中,更進(jìn)入網(wǎng)絡(luò)的世界。假如高校能事先掌握社會輿論的動向,便能在其擴(kuò)大而引發(fā)實(shí)際事件前先制訂應(yīng)對的對策,消除事件發(fā)生的可能性。在網(wǎng)絡(luò)環(huán)境下,高校管理人員需要顧及社會輿論,這無疑加重其工作負(fù)荷。本文通過Web信息聚合技術(shù)的研究完成對Web信息的聚類分析,完成對Web熱點(diǎn)的計(jì)算和追蹤。通過輿情系統(tǒng)的研究高??梢杂行Я私饩W(wǎng)民對于輿情的關(guān)注并準(zhǔn)確預(yù)測未來議題發(fā)展方向,就可以進(jìn)行相應(yīng)的應(yīng)對。當(dāng)相關(guān)單位所發(fā)布的信息與網(wǎng)民所關(guān)注的議題焦點(diǎn)有差異時,可以及早地進(jìn)行處理,就能提升高校管理效率與滿意度。
參考文獻(xiàn):
[1] 賈玉韜.新媒體時代網(wǎng)絡(luò)輿情的收集和引導(dǎo)[J].新媒體研究,2017(3):7-8.
[2] 馬曉東,劉亮.新媒體時代高校網(wǎng)絡(luò)網(wǎng)頁的傳播特征及管理對策[J].湖北函授大學(xué)學(xué)報(bào),2018(1):30-31.
[3] 張耀之.網(wǎng)絡(luò)輿情語義識別的技術(shù)分析及識別流程構(gòu)建[D].長春:吉林大學(xué),2016.
[4] 王子豪,崔浩.大數(shù)據(jù)背景下的網(wǎng)絡(luò)網(wǎng)頁技術(shù)分析[J].新聞傳播,2018(14):113-114.
[5] 楊興坤,廖嶸,熊炎.虛擬社會的輿情風(fēng)險防治[J].中國行政管理,2015(4):16-21.
【通聯(lián)編輯:代影】