于 晶
(華東師范大學(xué)政治學(xué)系,上海 200241)
學(xué)科的前沿?zé)狳c代表著科技領(lǐng)域的關(guān)鍵核心問題和發(fā)展趨勢。科技發(fā)達(dá)國家對前沿?zé)狳c的研究都非常重視,我國政府也制定了鼓勵能夠引領(lǐng)未來發(fā)展的高技術(shù)領(lǐng)域的政策,并提出了建設(shè)世界一流大學(xué)和一流學(xué)科的教育發(fā)展戰(zhàn)略。因此,領(lǐng)域熱點的識別對于大到國家的科技發(fā)展戰(zhàn)略、突破技術(shù)封鎖、提升綜合競爭力,小到科研工作者研究方向和研究問題的選擇,均具有重要的研究意義和應(yīng)用價值。
領(lǐng)域熱點識別和趨勢分析是科技情報和文獻(xiàn)計量學(xué)領(lǐng)域的重要問題之一,得到了學(xué)者廣泛的關(guān)注?,F(xiàn)有研究主要基于正式發(fā)表的學(xué)術(shù)文獻(xiàn)數(shù)據(jù),利用文獻(xiàn)計量的方法進(jìn)行研究。黃曉斌等[1]將這類方法劃分為三種:基于引用關(guān)系的方法、基于文本內(nèi)容的方法和基于復(fù)合關(guān)系的方法。其中,基于引用關(guān)系的方法利用了文獻(xiàn)引用頻次或引文網(wǎng)絡(luò)展開研究[2-3];基于文本內(nèi)容的方法則使用了關(guān)鍵詞、摘要文本或者文獻(xiàn)全文,主要方法包括詞頻分析和文本主題分析等方法[4-6];更多領(lǐng)域熱點識別研究采用了將上述兩種方法相結(jié)合的復(fù)合關(guān)系方法[7-10]。除此之外,還有一些研究關(guān)注領(lǐng)域熱點分析相關(guān)的其他問題:文獻(xiàn)[3,10]側(cè)重于利用可視化的方法分析領(lǐng)域的趨勢;文獻(xiàn)[11-12]則更關(guān)注領(lǐng)域發(fā)展趨勢的預(yù)測,分別利用決策樹和回歸分析的方法來預(yù)測領(lǐng)域熱點的發(fā)展趨勢。
基于文獻(xiàn)計量的方法能夠有效識別研究領(lǐng)域的前沿研究和熱點,但是大多數(shù)研究僅引用了正式發(fā)表的文獻(xiàn)數(shù)據(jù)。在科學(xué)研究過程之中,研究人員之間會通過多種途徑進(jìn)行交流。當(dāng)前,各種基于社交媒介的應(yīng)用層出不窮,這也成為研究人員進(jìn)行交流的重要方式。在所有的交流方式中,社會化問答社區(qū)由于其特殊的機制成為學(xué)術(shù)與技術(shù)人員集中交流的平臺。與基于文獻(xiàn)計量的方法相比,利用交流方式中產(chǎn)生的大規(guī)模交互與交流數(shù)據(jù)來識別領(lǐng)域研究的熱點和發(fā)展趨勢,更容易檢測到研究人員的動向和趨勢,因而具有潛在的優(yōu)勢互補作用?,F(xiàn)有研究中,盡管已經(jīng)有一些相關(guān)的探索,如文獻(xiàn)[13],但就整體而言還處于嘗試階段,缺乏更加深入的識別方法和有效性驗證方法的研究。
為了利用社會化問答社區(qū)中豐富的用戶交流數(shù)據(jù),本文提出一種基于涌現(xiàn)模式挖掘(emerging pattern mining)的研究領(lǐng)域熱點識別框架。該框架利用領(lǐng)域關(guān)鍵詞的組合(稱為模式)來表示研究的子域或子問題,利用涌現(xiàn)模式挖掘方法來分析熱點模式,從而識別出領(lǐng)域熱點并分析其發(fā)展趨勢。本文的主要貢獻(xiàn)包括三個方面。第一,提出利用在線問答社區(qū)中的用戶交互數(shù)據(jù)來識別領(lǐng)域中研究熱點,并整合現(xiàn)有的Web 文本分析、涌現(xiàn)模式挖掘等方法給出一種具有較高可行性的解決方案;第二,針對領(lǐng)域熱點識別問題的獨特之處,提出利用模式聚類的方法將大量無意義低頻模式排除,較好地解決涌現(xiàn)模式挖掘中計算量大且結(jié)果中可能包含大量無意義模式的問題;第三,基于知乎社區(qū)(zhihu.com)的真實數(shù)據(jù)集進(jìn)行實驗,將實驗結(jié)果與前沿研究相對比,從而驗證了所提出的領(lǐng)域熱點識別框架的有效性。
傳統(tǒng)上,研究領(lǐng)域的熱點識別方法主要基于文獻(xiàn)計量學(xué)方法。結(jié)合文獻(xiàn)[1]的研究,本文將基于文獻(xiàn)計量的方法分為三種類型:基于引文分析的方法、基于文本的分析方法和基于語義的方法。
基于引文分析的方法可分為:基于同被引分析的方法和基于引文網(wǎng)絡(luò)分析的方法?;谕灰治龅姆椒ㄖ饕梦墨I(xiàn)之間的同被引關(guān)系及被引頻次構(gòu)建評價指標(biāo),并結(jié)合聚類的方法來識別領(lǐng)域熱點或前沿研究問題。例如,Schiebel[3]利用來自地理學(xué)的二維或三維可視化方法來處理共被引網(wǎng)絡(luò)數(shù)據(jù),通過可視化的方法來識別領(lǐng)域熱點?;谝木W(wǎng)絡(luò)分析的方法根據(jù)文獻(xiàn)之間的引用關(guān)系構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),并進(jìn)一步結(jié)合網(wǎng)絡(luò)科學(xué)的分析方法來識別領(lǐng)域研究熱點。例如,Shibata 等[2]利用復(fù)雜網(wǎng)絡(luò)方法的多種網(wǎng)絡(luò)衡量指標(biāo),結(jié)合網(wǎng)絡(luò)節(jié)點聚類方法,對兩個領(lǐng)域的熱點識別進(jìn)行比較研究,認(rèn)為基于網(wǎng)絡(luò)拓?fù)涞姆治龇椒軌虻玫礁玫男Ч?/p>
由于領(lǐng)域熱點識別不可避免地需要提取出表示領(lǐng)域的關(guān)鍵詞或主題詞,因此純粹使用基于引文分析方法的研究較少,更多的研究采用了詞頻分析或關(guān)鍵詞共現(xiàn)分析等基于文本分析的方法或者兩種方法的結(jié)合。Liao 等[4]利用2008—2017 年運籌學(xué)和管理科學(xué)領(lǐng)域發(fā)表的ESI(Essential Science Indicators)高被引論文數(shù)據(jù)集,通過分析被引量最大的論文的關(guān)鍵詞來識別領(lǐng)域熱點。Xie[9]分別從國家、機構(gòu)、作者、期刊、文獻(xiàn)的角度,利用引文和共詞分析方法來識別重要的機構(gòu)、作者和文獻(xiàn),進(jìn)一步分析抗癌藥物領(lǐng)域的研究熱點。楊穎等[8]首先構(gòu)造關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)并進(jìn)行聚類,然后通過對高頻主題詞匯以及各類別中具有代表性文獻(xiàn)的解讀來識別領(lǐng)域研究熱點。
基于文本的分析方法僅考慮關(guān)鍵詞的詞頻,而基于語義的方法則使用了基于機器學(xué)習(xí)的方法來挖掘文本內(nèi)容中的語義信息。例如,高盈盈等[12]使用了LDA(latent Dirichlet allocation)主題模型來識別領(lǐng)域關(guān)鍵詞。近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域迅速發(fā)展,其研究結(jié)果也被用于領(lǐng)域識別的研究之中。例如,阮光冊等[14]利用doc2vec[15]方法生成文檔向量進(jìn)行相似度計算,再通過聚類算法和主題詞提取算法識別領(lǐng)域熱點;Asatani 等[16]利用網(wǎng)絡(luò)表示學(xué)習(xí)方法學(xué)習(xí)節(jié)點的表征信息,以及其隨著網(wǎng)絡(luò)變化的趨勢,提出一個稱為IPY(intrinsic publica‐tion year)的指標(biāo),該指標(biāo)與文獻(xiàn)被引頻次之間存在著相關(guān)性,因此基于該指標(biāo)來檢測研究熱點及發(fā)展趨勢[17]。
上述現(xiàn)有研究都僅利用了正式發(fā)表的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)。本文與其最大的區(qū)別在于使用了社會化問答社區(qū)中科技工作者的交互數(shù)據(jù)來識別領(lǐng)域熱點,并對其發(fā)展趨勢進(jìn)行量化分析。
根據(jù)關(guān)注的研究對象,可將社會化問答社區(qū)的相關(guān)研究分為平臺、用戶和信息三種類型。關(guān)于平臺方面的研究,主要關(guān)注社會化問答社區(qū)的管理與發(fā)展策略。例如,Srba 等[18]以Stack Overflow 為例,探究了社區(qū)的問題失敗率(被刪除或未回答的問題在所有新問題中所占的比例)上升的原因,并證實這一現(xiàn)象與越來越多的低質(zhì)量內(nèi)容和社區(qū)中不受歡迎的用戶群體密切相關(guān)。關(guān)于用戶的研究則主要關(guān)注用戶的行為。例如,張寶生等[19]從知識共享的角度出發(fā),運用經(jīng)典扎根理論研究用戶知識貢獻(xiàn)行為意向的影響因素;張穎等[20]探索了付費問答社區(qū)中影響提問者問題選擇行為的因素,發(fā)現(xiàn)回答者的專業(yè)性、知名度以及信息服務(wù)質(zhì)量對提問者選擇行為有正向影響。關(guān)于信息方面的研究主要包括問答質(zhì)量評價[21]和用戶個性化信息推薦[22],或者對社區(qū)中的新問題進(jìn)行專家推薦[23]等方面的研究。
現(xiàn)有在線社區(qū)的研究中也有一些關(guān)于熱點話題檢測的工作。利用已有信息預(yù)測社區(qū)的熱點話題、熱門趨勢,這不僅利于平臺自身的管理決策,而且能夠為企業(yè)帶來巨大的經(jīng)濟(jì)價值。Zhang 等[24]提出了一種熱點話題檢測方法,用于分析雅虎問答平臺的數(shù)據(jù)。該方法首先提取關(guān)鍵詞,然后對問答內(nèi)容進(jìn)行聚類,通過分析問題類型的頻次來對熱點趨勢進(jìn)行描述。Lu 等[25]也利用了聚類的方法來檢測在線社區(qū)中與健康相關(guān)的熱點話題。這些研究與本文研究有相似之處,均依賴于文本信息的提?。粎^(qū)別在于本文引入了涌現(xiàn)模式挖掘的方法,能夠從領(lǐng)域模式的角度識別領(lǐng)域熱點并對熱點趨勢進(jìn)行量化的分析。
涌現(xiàn)模式挖掘是一種數(shù)據(jù)挖掘任務(wù),其目標(biāo)是找到不同數(shù)據(jù)集中分布存在顯著差異的模式[26]。所挖掘的模式能夠通過可理解的形式來描述數(shù)據(jù)集之間關(guān)于模式相關(guān)屬性的新趨勢。涌現(xiàn)模式挖掘的方法主要有基于邊界的方法和基于樹的方法。如Dong 等[27]利用邊界的概念以無損的方式描述大量的EP 使得邊界僅由集合中的最小和最大EPS 組成,為挖掘結(jié)果提供了良好的結(jié)構(gòu),并減少挖掘結(jié)果集的大小。基于樹的算法以樹狀結(jié)構(gòu)表示訓(xùn)練數(shù)據(jù),與基于邊界的方法相比,基于樹的算法效率較高?;跊Q策樹的方法允許直接處理數(shù)值屬性而不需要先前的離散化階段,如García-Borroto 等[28]從一組不同的決策樹中提取規(guī)律并進(jìn)行歸納。該方法可以獲得更少的判別規(guī)則,從而獲得更高的分類精度。
涌現(xiàn)模式還可以進(jìn)一步分為跳躍涌現(xiàn)模式(jumping emerging patterns,JEP)、最小涌現(xiàn)模式(minimal emerging patterns,MinEP)、最大涌現(xiàn)模式(maximal emerging patterns, MaxEP) 等 多 種 類型[29]。MinEP 是最普遍的涌現(xiàn)模式,每個涌現(xiàn)模式的子模式不再是涌現(xiàn)模式;MaxEP 則相反,每個涌現(xiàn)模式的父模式不再是涌現(xiàn)模式。Kane 等[30]提出了最小跳躍涌現(xiàn)模式挖掘方法,能夠計算基本JEP 和top-kMinEP。Wang 等[31]提出了一種基于“重疊”或“交叉”的機制來利用MaxEP 特性,這種方法結(jié)合了貝葉斯方法和基于EP 的分類器的優(yōu)點,具有更好的整體分類精度。
涌現(xiàn)模式挖掘方法能夠衡量不同數(shù)據(jù)集中模式的差異,并識別出其中差異性比較顯著的模式。但是,其計算量都比較大,而且結(jié)果中容易現(xiàn)較多無意義的模式。本文從候選模式的構(gòu)建入手,首先利用關(guān)鍵詞的共現(xiàn)性進(jìn)行聚類,然后在聚類結(jié)果的基礎(chǔ)之上構(gòu)建候選模式集合。不但使計算量大大減小,而且能夠有效減少結(jié)果中的無意義模式。
本文提出利用社會化問答社區(qū)中的用戶交互數(shù)據(jù),在不依賴文獻(xiàn)計量分析的情況下來識別領(lǐng)域研究熱點。解決該問題的思路主要依賴涌現(xiàn)模式分析方法對用戶的問答文本進(jìn)行挖掘,整體框架主要包含四個關(guān)鍵步驟:首先,需要從問答內(nèi)容中提取出與領(lǐng)域熱點相關(guān)的關(guān)鍵詞;其次,根據(jù)提取出的關(guān)鍵詞集合構(gòu)建潛在模式集合;再次,根據(jù)關(guān)鍵詞出現(xiàn)頻率及共現(xiàn)性識別涌現(xiàn)模式,從而識別領(lǐng)域的研究熱點及趨勢;最后,需要對識別的效果進(jìn)行檢驗或驗證。
本文提出的領(lǐng)域熱點識別框架如圖1 所示,下文中將對框架的各組成部分進(jìn)行詳細(xì)描述。
圖1 領(lǐng)域熱點識別框架
問答文本處理的核問題,是將文本內(nèi)容處理為結(jié)構(gòu)化的形式,并提取文本內(nèi)容中的領(lǐng)域關(guān)鍵詞。具體來說,需要將每條問答文本表示為領(lǐng)域關(guān)鍵詞的集合。其中,為第i條問答中的第j個領(lǐng)域關(guān)鍵詞;K為領(lǐng)域關(guān)鍵詞的集合。
3.2.1 分 詞
本研究中使用的分詞工具為pkuseg[32]。pkuseg是一個開源的多領(lǐng)域中文分詞工具包,支持細(xì)分領(lǐng)域分詞,從而有效提升了分詞的準(zhǔn)確度。此外,pkuseg 還可以很方便地使用自定義詞匯表。分詞工具所用的分詞模型通?;诖笠?guī)模文本數(shù)據(jù)集訓(xùn)練得到,一般情況下能夠得到較好的分詞效果。但是在各個科研領(lǐng)域中都存在大量的學(xué)術(shù)術(shù)語,這些術(shù)語可能由多個詞所組成,分詞工具難以對其進(jìn)行準(zhǔn)確的切分。例如,術(shù)語“機器學(xué)習(xí)”,在領(lǐng)域熱點識別研究中需要將其識別為一個詞匯,但實際上絕大多數(shù)分詞工具將其切分為“機器”和“學(xué)習(xí)”兩個詞匯,失去了該術(shù)語所表達(dá)的含義。本研究基于領(lǐng)域的常用術(shù)語構(gòu)造領(lǐng)域詞典,將領(lǐng)域詞典作為自定義詞匯表,從而使得分詞工具能夠很好地識別這些術(shù)語。
此外,社會化問答社區(qū)中的問答內(nèi)容中廣泛存在著多語言混合使用的現(xiàn)象。例如,在知乎中,問答內(nèi)容可能包含英文語句或段落,或者更普遍的情況是回答者直接在內(nèi)容中使用了英文的術(shù)語或縮寫。為了將這些術(shù)語包含在內(nèi),本文在構(gòu)建領(lǐng)域詞典的同時也給出了每個術(shù)語對應(yīng)的常見英文翻譯。在數(shù)據(jù)分析的過程中,將每個術(shù)語以及其對應(yīng)的一個或多個常見英文翻譯處理為同一個關(guān)鍵詞。
3.2.2 領(lǐng)域關(guān)鍵詞提取
經(jīng)過分詞的問答內(nèi)容,需要進(jìn)一步提取其中的領(lǐng)域關(guān)鍵詞。本文使用基于TF-IDF(term frequencyinverse document frequency)與支持度相結(jié)合的方法來提取領(lǐng)域關(guān)鍵詞。
TF-IDF 是一種衡量詞匯在文檔集合中重要程度的方法。一般情況下,一個詞在一個文檔中出現(xiàn)的次數(shù)越多,該詞的重要性就越高。同時,如果文檔集中出現(xiàn)該詞的文檔數(shù)量越多,就越說明該詞不包含特殊的信息,即重要性越低。
對于文檔集D,出現(xiàn)在文檔中的所有詞匯構(gòu)成一個詞匯表L?;贚可以將任意文檔表示為長度為|L|的向量,該向量的第j個元素表示詞匯表L中的第j個詞在該文檔中出現(xiàn)的次數(shù)。將給定詞匯j在文檔i中出現(xiàn)的次數(shù)與文檔總詞匯量的比值稱為詞頻(term frequency,TF),記為
其中,IDFj表示詞匯j在文檔集中的逆文檔頻率。
于是,文檔i中的詞匯j的TF-IDF 值為
社會化問答社區(qū)中,領(lǐng)域關(guān)鍵詞的提取可以通過設(shè)定一個閾值δtf-idf,將每個文檔中的詞作為該文檔中的領(lǐng)域關(guān)鍵詞。實驗表明,得到的領(lǐng)域關(guān)鍵詞集中包含了很多的相關(guān)性較低的詞匯。為了剔除這些詞匯,數(shù)據(jù)分析中需要進(jìn)一步剔除在文檔集中支持度較低的詞匯(即suppj>δw-supp),詞匯j的支持度定義為
社會化問答社區(qū)的文本內(nèi)容中包含了大量的領(lǐng)域關(guān)鍵詞,本研究的目的是根據(jù)這些領(lǐng)域關(guān)鍵詞的變化趨勢來識別領(lǐng)域識的熱點。研究中將每個領(lǐng)域關(guān)鍵詞看作一個項(item),多個領(lǐng)域關(guān)鍵詞構(gòu)成一個項集(item set)。一個項集可以被看作相應(yīng)研究領(lǐng)域中的一種模式,通過分析不同時間段內(nèi)模式的變化情況,可以識別其中的涌現(xiàn)模式[26],從而識別出該領(lǐng)域中的研究熱點。
3.3.1 涌現(xiàn)模式的識別
令F={f1,f2,…,fk}為領(lǐng)域關(guān)鍵詞的集合(或稱為項集)。其子集X?F稱為k項集,k=|X|。給定一組按時間順序排列的數(shù)據(jù)集D1,D2,…,一個項集X在文檔集Dt上的支度為
表示模式X在該數(shù)據(jù)集中出現(xiàn)的頻率。X在Dt到Dt+1中支持度的變化情況用增長率來衡量:
如果模式X滿足則稱X為一個上升涌現(xiàn)模式(或上升模式);如果,則稱X為一個下降涌現(xiàn)模式(或下降模式),其中δe>1 為閾值。當(dāng)GrowthRage(X,Dt+1,Dt)= ∞時,稱X為一個跳躍涌現(xiàn)模式(jumping emerging pattern),或跳躍模式[29]。上升模式或跳躍模式表示被關(guān)注越來越多的模式;下降模式則表示被關(guān)注越來越少的模式。社會化問答社區(qū)中領(lǐng)域熱點的識別,就是要找出問答內(nèi)容中的上升模式或跳躍模式。
涌現(xiàn)模式挖掘算法的難點,在于要從數(shù)量巨大的候選模式中,識別出滿足條件的涌現(xiàn)模式。假設(shè)要考慮的項(item)的數(shù)量為n,則理論上候選模式的數(shù)量為。以社會化問答社區(qū)領(lǐng)域熱點識別為例,若領(lǐng)域關(guān)鍵詞為20,則候選模式的數(shù)量高達(dá)1048555;而實際上,領(lǐng)域關(guān)鍵詞的數(shù)量遠(yuǎn)不止20,因此通過直接計算的方法識別涌現(xiàn)模式是不可行的。
總之,現(xiàn)有的涌現(xiàn)模式挖掘算法都存在著計算復(fù)雜度高的問題。更重要的是,由于大規(guī)模問答數(shù)據(jù)集中存在的個性化表達(dá)、數(shù)據(jù)質(zhì)量參差不齊等因素,使得這類算法得到的涌現(xiàn)模式數(shù)量較大,而且其中相當(dāng)一部分是沒有意義或無法解釋的。因此,本文提出一種基于聚類的涌現(xiàn)模式識別方法:首先,利用關(guān)鍵詞在問答文檔中的共現(xiàn)性對關(guān)鍵詞進(jìn)行聚類;其次,在聚類結(jié)果的基礎(chǔ)之上,構(gòu)建候選模式。候選模式僅在每個類別內(nèi)部構(gòu)建。這樣,一方面排除了大量偶然出現(xiàn)的、無意義的候選模式;另一方面,使得候選模式的數(shù)量大大下降,甚至使得直接計算的方式就能夠有效的識別涌現(xiàn)模式。
3.3.2 模式聚類
領(lǐng)域熱點識別與普通的涌現(xiàn)模式挖掘問題存在著顯著的差異。首先,模式用于描述一個研究領(lǐng)域中較小的子領(lǐng)域或研究問題,在細(xì)粒度的層面上不需要很高的精確度。例如,模式{機器學(xué)習(xí), 深度學(xué)習(xí), 人工智能}與模式{深度學(xué)習(xí), 人工智能}在細(xì)粒度層面上是不同的模式,但是兩者所描述的子領(lǐng)域并沒有太大的差異。其次,一個研究領(lǐng)域中的關(guān)鍵詞數(shù)量較為龐大,但是子領(lǐng)域或研究問題的數(shù)量要少得多。最后,屬于同一個子領(lǐng)域的關(guān)鍵詞往往具有較高的語義相似度,而不同子領(lǐng)域中,使用的關(guān)鍵詞往往有著較大的差異。基于領(lǐng)域熱點識別與普通的涌現(xiàn)模式挖掘問題的區(qū)別,就可以得到一個合理的推測,即如果一個模式中出現(xiàn)了語義距離相距甚遠(yuǎn)的關(guān)鍵詞,那么就可以認(rèn)為該模式不是一個有意義的模式,因而也不會是涌現(xiàn)模式。本文利用模式聚類來實現(xiàn)這種思路,從而大大降低涌現(xiàn)模式識別的計算量。
模式聚類的目的是根據(jù)關(guān)鍵詞在數(shù)集D=D1∪D2…中的共現(xiàn)性進(jìn)行聚類,將包含了不屬于同一類別的關(guān)鍵詞的模式排除在候選模式之外,從而使候選模式的數(shù)量顯著降低。
關(guān)鍵詞集合F={f1,f2,…,fk}的共現(xiàn)矩陣表示為
其 中, 第i行 第j列 元 素eij= |d:fi∈d∧fj∈d∧d∈D|表示關(guān)鍵詞fi和fk共同出現(xiàn)在數(shù)據(jù)集D中同一文檔的次數(shù)。
直接將共現(xiàn)矩陣作為屬性矩陣對關(guān)鍵詞進(jìn)行聚類是不恰當(dāng)?shù)?,因為利用關(guān)鍵詞與其他關(guān)鍵詞的共現(xiàn)向量不能準(zhǔn)確的計算一對關(guān)鍵詞之間的距離[33]。由于兩個關(guān)鍵詞共現(xiàn)的次數(shù)越多兩者之間的距離越近,故可以將共現(xiàn)矩陣式(5)轉(zhuǎn)化為相似性矩陣:
當(dāng)eij= 0 時,sij= 0;當(dāng)eij≠0 時,sij= 1/eij。
相似性矩陣S是一個對稱矩陣,因此可以表示以關(guān)鍵詞為節(jié)點、以成對關(guān)鍵詞之間的相似性為權(quán)值所形成的無向加權(quán)網(wǎng)絡(luò)?;谠摼W(wǎng)絡(luò),容易利用最短路徑算法計算兩個節(jié)點之間的距離,從而得到任意兩個關(guān)鍵詞之間的距離所構(gòu)成的矩陣:
其中,dij為關(guān)鍵詞fi與fj之間的距離。
基于距離矩陣(7)可以利用層次聚類算法,以及類間距離的閾值δd將關(guān)鍵詞集合F聚類為
其中,Ci={fi1,fi2,…}為第i個類別;fij表示第i個類別中的第j個關(guān)鍵詞。
3.3.3 候選模式生成
由于屬于不同類別的關(guān)鍵詞不太可能會出現(xiàn)在同一涌現(xiàn)模式之中,因此候選模式由屬于同一類別的關(guān)鍵詞組成:
其中,Com(Ci)為第i個類別中任意一個或多個元素的組合(即候選模式)所構(gòu)成的集合。
基于模式聚類所形成的候選模式數(shù)量大大下降,假設(shè)關(guān)鍵詞的數(shù)量為20,聚類得到4 個類別,則候選模式的數(shù)量由1048555 降為最優(yōu)情況下的104個。因此,可以認(rèn)為模式聚類是一種高效的剪枝方法。需要注意的是,這種方法的有效性需要滿足一定的條件,在其他涌現(xiàn)模式挖掘問題中的有效性要根據(jù)具體問題進(jìn)行分析。
本文利用卡方檢驗和實際數(shù)據(jù)對比,對領(lǐng)域熱點識別框架的有效性進(jìn)行驗證??ǚ綑z驗用于對識別出的涌現(xiàn)模式,在不同時間段數(shù)據(jù)集Dt中,差異的顯著性進(jìn)行檢驗。在實際數(shù)據(jù)對比中,將相關(guān)領(lǐng)域頂級國際會議上所發(fā)表的論文的主題與涌現(xiàn)模式識別結(jié)果進(jìn)行對比,以驗證其有效性。
本研究利用知乎社區(qū)中的問答內(nèi)容來驗證上述領(lǐng)域熱點識別框架的有效性。為了便于對比分析,研究中選擇了知乎社區(qū)中的“機器學(xué)習(xí)”話題(https://www.zhihu.com/topic/19559450/hot),抓取了該話題下的“討論”和“精華”版塊的全部問答內(nèi)容。知乎社區(qū)是按照“話題—子話題”所構(gòu)成的樹狀結(jié)構(gòu)來組織問答內(nèi)容的。這些話題并非一成不變的,會隨著當(dāng)前研究熱點的變化而做出一定的改變,與領(lǐng)域內(nèi)容相關(guān)的工具、軟件、競賽等話題也會不斷更新。其中,部分子話題可能會在多個父話題中重復(fù)出現(xiàn)。盡管子話題的劃分可能會變化,但隸屬于該話題的問答內(nèi)容有足夠的穩(wěn)定性,能夠滿足本文所提出的方法的需要。
在本研究進(jìn)行期間,“機器學(xué)習(xí)”的子話題結(jié)構(gòu)樹中共有327 個子話題。經(jīng)過抓取后,去除重復(fù)問答內(nèi)容后,共得到2011 年2 月—2019 年11 月的4507 個提問及20669 個回答。由于提問內(nèi)容通常都非常短(平均長度為25 個字符),下文的分析中將其排除在外,僅使用了回答的文本數(shù)據(jù)。這些數(shù)據(jù)在時間上的分布如圖2a 所示。本研究所獲取的數(shù)據(jù)截至2019 年11 月25 日,因此將2019 年數(shù)據(jù)用虛線表示。從圖2 中可知,知乎社區(qū)發(fā)展的早期(知乎于2010 年12 月上線)問答數(shù)量較少;自2014 年起“機器學(xué)習(xí)”話題中問答的數(shù)量快速增長。因此,由于2011—2014 年數(shù)量過少,基于涌現(xiàn)模式的熱點識別主要針對2015—2019 年數(shù)據(jù)。
在分析之前,還需要對數(shù)據(jù)加以清理,以避免冗余或無用數(shù)據(jù)對結(jié)果造成的影響。主要的清理內(nèi)容包括文本中所包含的HTML 文本以及無意義的符號,如連續(xù)重復(fù)多次的“-”“_”“.”“=”“+”等符號。此外,過短的回答內(nèi)容中包含的信息量不足,因而也需要將其去除,下文的分析中除去了長度小于50 的回答。清理后的數(shù)據(jù)量分布如圖2b 所示。
圖2 數(shù)據(jù)量分布
4.2.1 領(lǐng)域關(guān)鍵詞提取結(jié)果
基于公式(1)和公式(2)所示的方法,處理知乎社區(qū)“機器學(xué)習(xí)”話題中的回答內(nèi)容得到542 個領(lǐng)域關(guān)鍵詞(δtf-idf=0.25,δw-supp=10),經(jīng)過篩選后最終得到378 個領(lǐng)域關(guān)鍵詞。知乎問答內(nèi)容屬于用戶生成內(nèi)容(user generated content,UGC)的一種,而用戶生成內(nèi)容的特點就是語言使用靈活、不規(guī)則用法較多。特別地,在“機器學(xué)習(xí)”話題中大量出現(xiàn)中英文術(shù)語混合使用的情況。為了應(yīng)對這種情況,在分析中將重要的英文領(lǐng)域關(guān)鍵詞考慮在內(nèi)。例如,“卷積神經(jīng)網(wǎng)絡(luò)”的英文術(shù)語可以為“Convolu‐tional Neural Network”“Convolutional Networks”“CNN”等。這些不同形式的術(shù)語(包括中文術(shù)語)具有相同的含義。為了避免數(shù)據(jù)稀疏性,需要將這些術(shù)語進(jìn)行分組處理。例如,將“卷積神經(jīng)網(wǎng)絡(luò)”“卷積網(wǎng)絡(luò)”“Convolutional Neural Network”“Con‐volutional Networks”“CNN”分為一個領(lǐng)域關(guān)鍵詞組。每個分組分配一個ID,同一分組中的關(guān)鍵詞具有相同的含義。
知乎問答數(shù)據(jù)經(jīng)過處理后,本研究得到了230個領(lǐng)域關(guān)鍵詞組。接下來,將回答內(nèi)容中的已識別領(lǐng)域關(guān)鍵詞替換為其所屬的關(guān)鍵詞組的ID?;陬I(lǐng)域關(guān)鍵詞組及替換后的數(shù)據(jù)集容易統(tǒng)計得到公式(5)的共現(xiàn)矩陣,進(jìn)一步處理得到公式(6)所示的230 ×230 的相似矩陣。
相似矩陣表示以領(lǐng)域關(guān)鍵詞組為節(jié)點,以相應(yīng)節(jié)點間的相似性為邊的網(wǎng)絡(luò)。其中,180 個節(jié)點是相互連通的構(gòu)成了整個網(wǎng)絡(luò)的最大連通子圖,如圖3 所示。其余50 個為孤立節(jié)點,在后續(xù)分析中被作為獨立的候選模式。圖3 中,節(jié)點的大小與節(jié)點的度正相關(guān),即對應(yīng)的關(guān)鍵詞組共現(xiàn)的關(guān)鍵詞組數(shù)量;邊的寬度與對應(yīng)關(guān)鍵詞組對的共現(xiàn)頻次正相關(guān)。該圖同時也描述了關(guān)鍵詞組對之間的相似性,共現(xiàn)頻次大關(guān)鍵詞組對相似度越高,見公式(6)。基于關(guān)鍵詞組對之間的相似性,在最大連通子圖上,利用最短路徑算法可得到任意兩個領(lǐng)域關(guān)鍵詞組之間的距離,構(gòu)成了如公式(7)所示的距離矩陣。該矩陣進(jìn)一步被用于對領(lǐng)域關(guān)鍵詞組進(jìn)行聚類。
圖3 關(guān)鍵詞組共現(xiàn)網(wǎng)絡(luò)
4.2.2 候選模式識別結(jié)果
研究中使用層次聚類算法基于距離矩陣對關(guān)鍵詞組進(jìn)行聚類,實際上,相當(dāng)于依據(jù)關(guān)鍵詞對的相似性對圖3 所示的關(guān)鍵詞組共現(xiàn)網(wǎng)絡(luò)的節(jié)點進(jìn)行聚類。類間距的計算采用了ward 方法,即兩個聚類之間的距離定義為合并兩者造成的總離差平方和的減小數(shù)量[34]。影響聚類結(jié)果最關(guān)鍵的參數(shù)為下層聚類合并為上層聚類的類間距閾值δdist。本研究通過類間距閾值δdist與候選模式數(shù)量的關(guān)系來確定δdist的取值。如圖4a 所示,當(dāng)δdist>0.015 時候選模式的數(shù)量隨著δdist的增加急劇上升。將類間距閾值確定為δdist= 0.015,得到的候選模式數(shù)量為8411。
候選模式集合中的絕大多數(shù)模式是無意義的模式,這些模式通常在問答內(nèi)容中極少出現(xiàn)。為了將這些無意義的模式排除在外以降低涌現(xiàn)模式識別的計算量,本研究進(jìn)一步將問答數(shù)據(jù)中出現(xiàn)頻率較低的模式排除在外,僅保留頻繁模式以供后續(xù)分析。模式頻率就是該模式在數(shù)據(jù)集上的支持度,見公式(3)。將模式支持度的閾值表示為δp-supp,頻繁模式是那些支持度高于該域值的模式。如圖4b 所示,隨著模式支持度域值δfreq的增加,頻繁模式數(shù)量迅速減少(除了2011—2013 年由于數(shù)據(jù)量太少而變化較小)。而且,隨著δfreq的增加,頻繁模式數(shù)量減少的速度也快速降低。當(dāng)δfreq較小時,各年度問答數(shù)據(jù)中頻繁模式數(shù)量差異較大;當(dāng)δfreq較大時,頻繁模式數(shù)量差異較小。這說明頻繁模式對閾值δfreq的大小并不敏感,而非頻繁模式則對δfreq比較敏感。因此,可以合理的推測,那些有意義的模式會被包含在頻繁模式之中,而無意義的模式由于出現(xiàn)頻率較低而被剔除。為了保留較多的頻繁模式用于涌現(xiàn)模式識別,本研究將頻率閾值設(shè)定為δfreq= 0.01。
4.2.3 領(lǐng)域熱點識別結(jié)果
基于頻繁模式的分析結(jié)果,利用公式(3)和公式(4)所示的涌現(xiàn)模式識別方法進(jìn)行領(lǐng)域熱點識別。公式(4)中的增長率閾值定義為δe= 2,即一個頻繁模式在數(shù)據(jù)Db中支持度大于在數(shù)據(jù)Da中支持度的2倍或小于1/2 時,則認(rèn)為該模式為涌現(xiàn)模式。由于涌現(xiàn)模式識別結(jié)果基于頻繁模式進(jìn)行分析,而頻繁模式數(shù)量已經(jīng)大大減少,所以涌現(xiàn)模式分析結(jié)果對δe不敏感。
圖4 類間距閾值對候選模式數(shù)量的影響
表1 所示的結(jié)果為2019 年問答數(shù)據(jù)與2015 年問答數(shù)據(jù)的分析結(jié)果,共包含表示領(lǐng)域熱點的模式18個。其中,上升模式11 個,跳躍模式5 個,下降模式2 個。從結(jié)果中可看出,機器學(xué)習(xí)領(lǐng)域的熱點幾乎都集中在深度學(xué)習(xí)相關(guān)的問題或方法之上。而以支持向量集為代表的傳統(tǒng)機器學(xué)習(xí)方法的關(guān)注度下降明顯,是一個顯著的下降模式??ǚ綑z驗的結(jié)果也驗證了在兩個數(shù)據(jù)集中這些領(lǐng)域?qū)?yīng)的模式具有顯著的差異。
僅基于2015 年和2019 年數(shù)據(jù)無法判斷這些領(lǐng)域熱點發(fā)展過程中的趨勢變化情況。因此,本文利用2015—2019 年的全部數(shù)據(jù),對這些領(lǐng)域熱點的趨勢進(jìn)行了分析,結(jié)果如表2 所示。其中,增長率大于1 表明上升趨勢,小于1 則表明下降趨勢(見第3.3 節(jié))。大部分的領(lǐng)域熱點的熱度并非一直持續(xù)上漲,而是有所變化的。但是總體來看,所有的上升模式和跳躍模式都有著明顯的上升趨勢,而下降模式則有著明顯的下降趨勢??ǚ綑z驗結(jié)果也表明這些領(lǐng)域熱點模式的變化是顯著的。此外,領(lǐng)域熱點的趨勢也能夠表明方法的有效性。以“Bert”和“Transformer”為 例,“Transformer”是2017 年 由Google 提出的一種用于機器翻譯的模型;“Bert”是2018 年提出的一種基于“Transformer”的詞向量學(xué)習(xí)模型。這些都是基于深度學(xué)習(xí)的自然語言處理領(lǐng)域近幾年的突破性進(jìn)展。而表2 的趨勢分析中可以看出其分別在2017/2018 和2018/2019 數(shù)據(jù)中開始具有很大的增長率,這表明知乎社區(qū)的“機器學(xué)習(xí)”話題能夠緊跟領(lǐng)域發(fā)展的趨勢,而且這些趨勢能夠被基于涌現(xiàn)模式的方法所捕獲。
為了進(jìn)一步驗證熱點模式識別結(jié)果的有效性,本文還分析了相關(guān)領(lǐng)域重要會議上所發(fā)表的論文中這些熱點領(lǐng)域的變化情況。鑒于所識別出的熱點模式幾乎都來自深度學(xué)習(xí)相關(guān)領(lǐng)域(與實際情況一致),因此,本研究選擇該領(lǐng)域的頂級會議ICLR(International Conference on Learning Representations)作為分析對象。所用數(shù)據(jù)來自O(shè)penReview(https://openreview.net/)。2017—2018 年ICLR 會議接收的論文中,頻次最高的關(guān)鍵詞如表3 所示。這些關(guān)鍵詞與表1 和表2 所示的基于知乎社區(qū)的領(lǐng)域熱點識別結(jié)果高度重合,進(jìn)一步說明了本文提出的領(lǐng)域熱點識別框架的有效性。
表1 2015/2019年領(lǐng)域熱點識別結(jié)果
表2 2015—2019年領(lǐng)域熱點趨勢
表3 ICLR高頻關(guān)鍵詞
本文提出了一種利用社會化問答社區(qū)中的用戶交互數(shù)據(jù)進(jìn)行研究領(lǐng)域熱點識別的框架。該框架將領(lǐng)域熱點看作由領(lǐng)域關(guān)鍵詞組成的模式利用涌現(xiàn)模式挖掘(emerging pattern mining)方法來識別領(lǐng)域熱點,主要包括領(lǐng)域關(guān)鍵詞提取、關(guān)鍵詞聚類、候選模式構(gòu)建以及領(lǐng)域熱點模式識別等關(guān)鍵步驟。為了解決涌現(xiàn)模式挖掘方法計算量大、結(jié)果中容易出現(xiàn)較多無意義模式的問題,本文提出在領(lǐng)域關(guān)鍵詞聚類的基礎(chǔ)之上構(gòu)建候選模式。由于排除了大量包含了屬于不同類別的關(guān)鍵詞的低頻模式,從而大大降低了計算量和無意義模式出現(xiàn)的可能性。該框架能夠利用社會化問答社區(qū)中研究者的交互內(nèi)容來識別領(lǐng)域研究熱點,因而相對于基于文獻(xiàn)計量的方法具有更好的時效性,對領(lǐng)域熱點趨勢的變化更加敏感。此外,該框架整合了已有的文本分析、涌現(xiàn)模式識別、網(wǎng)絡(luò)節(jié)點聚類等方法,易于拓展至其他類型的社交媒體熱點識別的應(yīng)用中。本文基于2011—2019 年知乎社區(qū)“機器學(xué)習(xí)”話題中用戶的問答內(nèi)容進(jìn)行實驗,驗證了領(lǐng)域熱點識別框架的有效性。本文提出的分析框架不僅能用于識別領(lǐng)域研究熱點,還能夠用于社交媒體中的勢點識別和趨勢分析、突發(fā)事件中的輿情走勢和討論熱點識別等問題,具有較廣泛的應(yīng)用價值。今后將繼續(xù)對本文提出的方法在這些相關(guān)問題中的適應(yīng)性展開研究。
該分析框架還有一些不足之處:在關(guān)鍵詞提取階段為了提高關(guān)鍵詞提取質(zhì)量需要人工介入,增加了分析的工作量,并且引入了一定程度的不確定性。在后續(xù)研究中,將考慮利用基于深度學(xué)習(xí)的序列標(biāo)注方法來提取關(guān)鍵詞對該研究框架進(jìn)行完善。