蔣明敏,王雪芬,劉 玥
(南京信息工程大學(xué) 當(dāng)代中國馬克思主義研究院,江蘇 南京 210044)
科學(xué)文獻(xiàn)的主題挖掘可以幫助情報(bào)服務(wù)機(jī)構(gòu)快速準(zhǔn)確地捕捉學(xué)科主題和脈絡(luò),分析主題演化路徑,并對(duì)學(xué)科未來的研究熱點(diǎn)和發(fā)展趨勢(shì)做出預(yù)測(cè)[1]。從知識(shí)結(jié)構(gòu)層面來看,研究主題屬于隱性層次,代表某個(gè)學(xué)科領(lǐng)域的研究方向,表現(xiàn)為若干個(gè)或一組關(guān)鍵詞的集合;科學(xué)文獻(xiàn)屬于顯性層次,是研究主題的外在表現(xiàn)和知識(shí)載體[2]。面對(duì)海量科學(xué)文獻(xiàn),如何有效挖掘隱性研究主題和潛在演化模式,是眾多研究學(xué)者關(guān)注的問題。
主題模型可以在大規(guī)模的文獻(xiàn)數(shù)據(jù)中,通過主題的概率分布來表示數(shù)據(jù)集內(nèi)部的特征信息。既解決了傳統(tǒng)聚類算法的“維數(shù)災(zāi)難”問題,又進(jìn)一步挖掘了科學(xué)文獻(xiàn)的潛在演化模式。其中,最為主流的主題模型是由Blei等提出的LDA模型(Latent Dirichlet Allocation)。然而,隨著文獻(xiàn)數(shù)量的急劇增長,研究人員已經(jīng)不滿足于靜態(tài)時(shí)間下研究主題的挖掘和分析。在研究主題的演化路徑中,“時(shí)間”維度是一個(gè)重要的標(biāo)簽,但傳統(tǒng)LDA模型并沒有考慮文獻(xiàn)時(shí)間這一維度,而現(xiàn)實(shí)情況是研究主題在時(shí)間序列趨勢(shì)下不斷演化。
基于此,本文以“網(wǎng)絡(luò)輿情”為研究對(duì)象,以CNKI數(shù)據(jù)庫中的文獻(xiàn)標(biāo)題和摘要為數(shù)據(jù)來源,結(jié)合多種停用詞表進(jìn)行中文分詞并提取領(lǐng)域術(shù)語。在LDA主題挖掘的基礎(chǔ)上,引入文獻(xiàn)時(shí)間信息,計(jì)算不同時(shí)間維度的研究主題概率分布相似度,分析研究主題隨時(shí)間的演化規(guī)律,為學(xué)科主題挖掘和演化分析研究提供新的思路和方法。
當(dāng)前學(xué)科主題挖掘與演化分析主要采用共詞網(wǎng)絡(luò)和主題模型的分析方法[3],主題模型是以非監(jiān)督學(xué)習(xí)的方式對(duì)文檔集合的隱含語義結(jié)構(gòu)(latent semantic structure)進(jìn)行聚類的統(tǒng)計(jì)模型,可以用于收集、分類和降維文本。最具代表性的主題模型是2003年由Blei等人提出的LDA主題模型:引入Dirichlet先驗(yàn)分布,構(gòu)建“文檔——主題——關(guān)鍵詞”三層貝葉斯模型,運(yùn)用概率方法對(duì)模型求解,挖掘文檔主題[4]。目前LDA模型在不同領(lǐng)域的主題挖掘研究中已被深入應(yīng)用,如陳偉等[5]利用LDA主題模型和隱含馬爾科夫模型,從技術(shù)主題的轉(zhuǎn)移概率角度分析技術(shù)主題的語義演化趨勢(shì),對(duì)于技術(shù)主題預(yù)測(cè)起到一定作用;吳菲菲等[6]利用LDA主題模型抽取專利技術(shù)主題,以主題相似度為關(guān)系權(quán)重新構(gòu)建專利引用網(wǎng)絡(luò),以此分析技術(shù)主路徑及其演化規(guī)律,屬于基于圖挖掘的主題演化分析方法;曲佳彬等[7]利用LDA主題模型設(shè)計(jì)主題演化方法,通過主題過濾和主題關(guān)聯(lián)確定學(xué)科領(lǐng)域主題之間的語義關(guān)系;王曰芬等[8]以國內(nèi)知識(shí)流領(lǐng)域?yàn)檠芯繉?duì)象,利用LDA主題模型探索分類視角下的主題提取與分布狀態(tài),得到11個(gè)不同學(xué)科的熱點(diǎn)主題及其所揭示的知識(shí)點(diǎn);王文娟等[9]利用LDA對(duì)海洋酸化相關(guān)研究進(jìn)行了主題分析,確定了科研立項(xiàng)重點(diǎn)以及各主題的強(qiáng)度;楊慧等[10]選取國際氣候領(lǐng)域作為試點(diǎn)對(duì)象,對(duì)政策文本數(shù)據(jù)進(jìn)行了LDA主題挖掘,并結(jié)合主題強(qiáng)度變化為我國相關(guān)政策制定提出了完善建議;Kim等[11]利用LDA主題模型對(duì)Twitter用戶發(fā)布的信息進(jìn)行興趣主題挖掘,實(shí)現(xiàn)興趣內(nèi)容推送和好友推薦;Song等[12]構(gòu)建基于“主語——行為——賓語”結(jié)構(gòu)的LDA主題模型,實(shí)現(xiàn)對(duì)產(chǎn)業(yè)領(lǐng)域中專利文獻(xiàn)主題的內(nèi)容分析;Suominen等[13]基于專利數(shù)據(jù)通過LAD模型對(duì)企業(yè)研發(fā)方向進(jìn)行分析和預(yù)測(cè),并基于Gephi進(jìn)行主題可視化,但未進(jìn)行專利和論文整合數(shù)據(jù)的對(duì)比研究。
縱觀上述研究,基于LDA模型的學(xué)科主題挖掘與演化分析已取得諸多研究成果。然而少有研究考慮時(shí)間標(biāo)簽信息,缺乏時(shí)間維度上的研究主題關(guān)聯(lián)與演化分析?;诖?,本文提出多時(shí)間窗口下基于LDA模型的主題挖掘和演化分析框架,為學(xué)科主題挖掘、關(guān)聯(lián)和演化研究提供新的思路和方法。
本文研究框架主要包括三個(gè)部分:數(shù)據(jù)預(yù)處理、LDA主題聚類分析和多時(shí)間窗口主題演化分析。
首先,選擇合適的檢索詞在CNKI數(shù)據(jù)庫查找相關(guān)的中文文獻(xiàn),選取文獻(xiàn)的標(biāo)題和摘要作為主題挖掘的數(shù)據(jù)來源。對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,過濾征稿啟事、新聞報(bào)道、會(huì)議通知等內(nèi)容,進(jìn)而進(jìn)行中文分詞、去除停用詞和提取領(lǐng)域術(shù)語,其中去除停用詞主要是過濾出現(xiàn)頻率很高,卻無實(shí)際含義的詞語,包括英文字符、數(shù)字、數(shù)學(xué)字符、標(biāo)點(diǎn)符號(hào)及使用頻率特高的單漢字等,以便提高后續(xù)分析的準(zhǔn)確度和效率。
本文選取tf-idf作為H-LDA主題模型的文本向量特征,tf-idf(term frequency-inverse document frequency)是一種詞頻和逆向文件頻率的統(tǒng)計(jì)方法,可以很好地反映出某個(gè)詞語對(duì)于一份文檔的重要程度,詞語的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時(shí)也會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降[14]。
LDA(Latent Dirichlet Allocation)主題聚類模型由Blei等提出,是一種“文檔——主題”生成模型,包含詞、主題和文檔三層結(jié)構(gòu)。三層結(jié)構(gòu)都符合多項(xiàng)式概率分布,即文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布[15]。LDA主題模型克服了基于傳統(tǒng)向量空間模型建模時(shí)文本矩陣稀疏、忽略文本語義等缺陷,其基本流程如圖1所示。其中,表示詞分布,表示主題分布,是主題分布的先驗(yàn)分布(即Dirichlet分布)參數(shù),是詞分布的先驗(yàn)分布參數(shù),z表示模型生成的主題,w表示模型最終生成的詞,S表示文檔的詞語數(shù)量,D表示文檔數(shù)量。
圖1 LDA主題模型
運(yùn)用LDA主題模型對(duì)預(yù)處理后的文本數(shù)據(jù)進(jìn)行層次主題聚類,通過計(jì)算困惑度得到最優(yōu)主題集合,以及每篇研究文獻(xiàn)所屬的主題。為從時(shí)間維度上梳理研究主題的演化路徑,本文將文本數(shù)據(jù)劃分為多個(gè)時(shí)間窗口,運(yùn)用LDA模型挖掘不同時(shí)間窗口的研究主題,并采用歸一化后的JS散度(Jensen-Shannon divergence)計(jì)算不同研究主題的相似度,從而勾勒出多時(shí)間窗口下研究主題的演化路徑和趨勢(shì)。
隨著移動(dòng)通訊技術(shù)的發(fā)展和智能終端的普及,越來越多的人們以互聯(lián)網(wǎng)為載體,以社交平臺(tái)和自媒體為渠道,在網(wǎng)絡(luò)上表達(dá)情感、態(tài)度、意見和觀點(diǎn),并與他人交流,形成網(wǎng)絡(luò)輿情[16]。網(wǎng)絡(luò)輿情是社會(huì)輿情在互聯(lián)網(wǎng)空間的映射,是社會(huì)輿情的直接反映。在Web2.0環(huán)境下,政府部門需要對(duì)網(wǎng)絡(luò)輿情予以正視,做好網(wǎng)絡(luò)輿情治理工作,創(chuàng)造健康的網(wǎng)絡(luò)環(huán)境。從研究文獻(xiàn)來看,輿情治理與管控一直是研究者關(guān)注的重點(diǎn),國內(nèi)外在輿情監(jiān)測(cè)、輿情傳播、輿情應(yīng)急管理等領(lǐng)域已經(jīng)產(chǎn)生了大量的研究成果。基于此,本文運(yùn)用第三節(jié)提出的研究思路和方法,對(duì)網(wǎng)絡(luò)輿情的研究主題進(jìn)行挖掘和聚類,分析近10年研究主題的演化路徑,從而為輿情治理的理論研究和實(shí)踐應(yīng)用提供對(duì)策建議。
本文使用CNKI期刊論文數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索,檢索關(guān)鍵詞為“網(wǎng)絡(luò)輿情”“輿情治理”“突發(fā)事件”“應(yīng)急管理”“意見領(lǐng)袖”“自媒體”等,檢索時(shí)間為2019年10月15日,時(shí)間跨度為2009年至2018年。經(jīng)人工篩選后得到相關(guān)文獻(xiàn)11634篇,數(shù)量演化趨勢(shì)如圖2所示。從圖中可以看出,近10年網(wǎng)絡(luò)輿情研究的文獻(xiàn)數(shù)量呈現(xiàn)穩(wěn)步增長趨勢(shì),在2016年達(dá)到頂峰(1765篇)。
圖2 文獻(xiàn)數(shù)量演化趨勢(shì)
根據(jù)網(wǎng)絡(luò)輿情的相關(guān)研究主題,結(jié)合多個(gè)中文停用詞表,運(yùn)用Jieba分詞工具對(duì)11634篇文獻(xiàn)標(biāo)題和摘要進(jìn)行分詞,得到“輿情”“情報(bào)”“民意”“危機(jī)”“化解”“傳播”“突發(fā)事件”等領(lǐng)域詞匯。定義,其中為第n篇文獻(xiàn)的文本向量。對(duì)所有的文本向量進(jìn)行tf-idf特征提取,作為LDA主題模型的輸入?yún)?shù)。
LDA是一種無監(jiān)督聚類算法,其主題抽取效果與迭代次數(shù)(iteration)密切相關(guān)。本文以文獻(xiàn)數(shù)量最多的2015-2016區(qū)間為例,設(shè)置測(cè)試主題數(shù)分別為10,20,30,當(dāng)?shù)螖?shù)增加時(shí),模型迅速收斂,迭代至50次之后,不同主題數(shù)的收斂效果均無明顯區(qū)別,收斂趨勢(shì)如圖3所示。綜合考慮運(yùn)算速度和收斂效果,本文將迭代次數(shù)設(shè)定為100次。
圖3 迭代次數(shù)對(duì)機(jī)器學(xué)習(xí)效果的影響
本文運(yùn)用LDA模型中的Perplexity(困惑度)參數(shù)確定網(wǎng)絡(luò)輿情研究文獻(xiàn)的最優(yōu)主題數(shù)。分別計(jì)算2009-2010、2011-2012、2013-2014、2015-2016和2017-2018區(qū)間不同主題數(shù)的困惑度值,(如圖4所示),確定不同區(qū)間的最優(yōu)主題數(shù)為5、7、14、27和16。
根據(jù)上述參數(shù)訓(xùn)練對(duì)多時(shí)間窗口的文獻(xiàn)數(shù)據(jù)進(jìn)行LDA分析,結(jié)果如下:
(1)2009-2010
在2009-2010時(shí)間窗口LDA模型聚類得到的5個(gè)主題均有實(shí)際含義(見圖4),主題關(guān)鍵詞分布和標(biāo)簽如表1所示。
圖4 不同主題數(shù)的困惑度值
表1 2009-2010時(shí)間窗口中LDA主題標(biāo)簽及關(guān)鍵詞分布
從表1可以看出,在當(dāng)前時(shí)間窗口下網(wǎng)絡(luò)輿情的研究主題較少,主要集中在輿情傳播、輿情影響和輿情應(yīng)急等領(lǐng)域。其中,高校輿情是指在校大學(xué)生通過多個(gè)渠道對(duì)其所關(guān)心的事件、政策和新聞發(fā)表個(gè)人看法、意見和情緒。在校大學(xué)生處在青年時(shí)期,其人生觀、價(jià)值對(duì)和世界觀容易被他人影響,因此高校輿情監(jiān)測(cè)和管控對(duì)社會(huì)輿情治理有著非常重要的意義。
(2)2011-2012
在2011-2012時(shí)間窗口LDA模型聚類得到的7個(gè)主題中,去除由虛詞組成的主題聚類(2個(gè)),其余5個(gè)主題的關(guān)鍵詞分布和標(biāo)簽如表2所示。從表2可以看出隨著互聯(lián)網(wǎng)的發(fā)展和普及,新型媒體如博客已替代傳統(tǒng)媒體成為輿情傳播的主要媒介。高校輿情監(jiān)測(cè)和管控仍然是研究的重點(diǎn),同時(shí)各級(jí)政府和社會(huì)機(jī)構(gòu)也開始對(duì)輿情治理機(jī)制進(jìn)行深入探討。
表2 2011-2012時(shí)間窗口中LDA主題標(biāo)簽及關(guān)鍵詞分布
(3)2013-2014
在2013-2014時(shí)間窗口LDA模型聚類得到的14個(gè)主題中,去除由虛詞組成的主題聚類(2個(gè)),去除與輿情研究無關(guān)或相關(guān)度較小的主題聚類(2個(gè)),去除研究文獻(xiàn)數(shù)量為0的主題聚類(1個(gè)),其余9個(gè)主題的關(guān)鍵詞分布和標(biāo)簽如表3所示。從表3可以看出,在這一時(shí)間段涌現(xiàn)出新的研究主題,如“輿情文化建設(shè)”研究中提及社會(huì)主義文化建設(shè)需要提高公民信息素養(yǎng),微博等自媒體的興起使得自媒體輿情的傳播和管控成為研究的焦點(diǎn)。隨著網(wǎng)絡(luò)輿情研究的不斷深入,越來越多的學(xué)者運(yùn)用傳染病動(dòng)力學(xué)、系統(tǒng)動(dòng)力學(xué)、演化計(jì)算等數(shù)學(xué)模型研究輿情傳播。同時(shí),在食品安全和反腐倡廉等領(lǐng)域,輿情的監(jiān)測(cè)和管理也逐步得到重視。
表3 2013-2014時(shí)間窗口中LDA主題標(biāo)簽及關(guān)鍵詞分布
(4)2015-2016
在2015-2016時(shí)間窗口LDA模型聚類得到的27個(gè)主題中,去除由虛詞組成的主題聚類(3個(gè)),去除與輿情研究無關(guān)或相關(guān)度較小的主題聚類(4個(gè)),去除研究文獻(xiàn)數(shù)量為0的主題聚類(1個(gè)),其余9個(gè)主題的關(guān)鍵詞分布和標(biāo)簽如表4所示。從表4可以看出,在2015-2016這一事件窗口,新的研究主題大量涌現(xiàn),如“意見領(lǐng)袖”“謠言管控”“微博輿情”等,說明隨著微博、微信、知乎等網(wǎng)絡(luò)自媒體平臺(tái)的興起,用戶和網(wǎng)民在輿情傳播過程中的作用越來越大,“高校輿情”“輿情監(jiān)測(cè)”“輿情應(yīng)急管理”則一直是研究學(xué)者關(guān)注的重點(diǎn)。由于輿情傳播媒介和渠道的增多,增強(qiáng)輿情掌控和建立輿情治理的司法制度已成為亟需解決的問題。同時(shí),隨著輿情模型研究的深入,越來越多的學(xué)者運(yùn)用機(jī)器學(xué)習(xí)的方法對(duì)輿情傳播的走向和熱點(diǎn)進(jìn)行預(yù)測(cè)。
表4 2015-2016時(shí)間窗口中LDA主題標(biāo)簽及關(guān)鍵詞分布
(5)2017-2018
在2017-2018時(shí)間窗口LDA模型聚類得到的16個(gè)主題中,去除由虛詞組成的主題聚類(3個(gè)),去除與輿情研究無關(guān)或相關(guān)度較小的主題聚類(4個(gè)),去除研究文獻(xiàn)數(shù)量為0的主題聚類(1個(gè)),其余9個(gè)主題的關(guān)鍵詞分布和標(biāo)簽如表5所示。
表5 2017-2018時(shí)間窗口中LDA主題標(biāo)簽及關(guān)鍵詞分布
從表5可以看出,在這一時(shí)間窗口“高校輿情”仍然是關(guān)注的重點(diǎn),同時(shí)網(wǎng)民和用戶的“輿情情感”也得到了關(guān)注。隨著生活水平的提高,“旅游輿情”主題逐漸受到研究學(xué)者的重視,如“青島天價(jià)龍蝦”事件在微博等自媒體平臺(tái)上引起極大的關(guān)注。同時(shí)“輿情反轉(zhuǎn)”研究主題第一次出現(xiàn),原因在于在輿情傳播的不同階段,由于信息的不完全性和不對(duì)稱性,輿論導(dǎo)向和網(wǎng)民關(guān)注度可能出現(xiàn)較大的反差,如“重慶公交墜橋”事件。
針對(duì)LDA模型聚類得到的主題及關(guān)鍵詞,計(jì)算兩個(gè)相鄰時(shí)間窗口的JS散度,得到主題相似度矩陣,并對(duì)主題演化路徑可視化,如圖5所示。
圖5 不同時(shí)間窗口的主題演化路徑
圖中圓圈大小代表主題所含文獻(xiàn)數(shù)量的多少,圓圈越大,文獻(xiàn)數(shù)量越多。圓圈之間連線的粗細(xì)代表主題相似度,連線越粗,相似度越高。
從圖5可以看出,高校輿情和輿情應(yīng)急管理一直是研究學(xué)者關(guān)注的焦點(diǎn),因此不同時(shí)間窗口相關(guān)主題的相似度較高,連線較粗。此外,相似度較高的主題還包括以下演化路徑:
1.“輿情傳播”→“輿情研究模型”→“輿情預(yù)測(cè)”
2.“輿情系統(tǒng)”→“輿情監(jiān)測(cè)模型”→“輿情預(yù)警平”
3.“新型輿情傳播媒介”→“微博輿情”→“自媒體輿情”
4.“食品安全輿情”→“醫(yī)療輿情”→“旅游輿情”
5.“新型輿情傳播媒介”→“輿情意見領(lǐng)袖”→“輿情媒體引導(dǎo)”
本文結(jié)合LDA主題模型及多時(shí)間窗口,嘗試從時(shí)間維度上梳理科學(xué)文獻(xiàn)研究主題的演化路徑。在對(duì)網(wǎng)絡(luò)輿情研究的主題演化分析中,本文將所采集文本數(shù)據(jù)劃分為5個(gè)時(shí)間窗口,并運(yùn)用LDA模型挖掘不同時(shí)間窗口的研究主題,進(jìn)而采用歸一化后的JS散度計(jì)算不同研究主題的相似度,深入探求多時(shí)間窗口下網(wǎng)絡(luò)輿情相關(guān)研究主題的演化路徑和趨勢(shì),其結(jié)果為輿情治理的理論研究與實(shí)踐應(yīng)用提供數(shù)據(jù)支撐。研究結(jié)果也進(jìn)一步證明,LDA主題模型及多時(shí)間窗口的綜合運(yùn)用,能有效挖掘科學(xué)文獻(xiàn)研究主題的演化路徑,更為準(zhǔn)確、清晰地揭示研究主題的演化規(guī)律。