于 晶
(華東師范大學(xué)政治學(xué)系,上海 200241)
學(xué)科的前沿?zé)狳c(diǎn)代表著科技領(lǐng)域的關(guān)鍵核心問(wèn)題和發(fā)展趨勢(shì)。科技發(fā)達(dá)國(guó)家對(duì)前沿?zé)狳c(diǎn)的研究都非常重視,我國(guó)政府也制定了鼓勵(lì)能夠引領(lǐng)未來(lái)發(fā)展的高技術(shù)領(lǐng)域的政策,并提出了建設(shè)世界一流大學(xué)和一流學(xué)科的教育發(fā)展戰(zhàn)略。因此,領(lǐng)域熱點(diǎn)的識(shí)別對(duì)于大到國(guó)家的科技發(fā)展戰(zhàn)略、突破技術(shù)封鎖、提升綜合競(jìng)爭(zhēng)力,小到科研工作者研究方向和研究問(wèn)題的選擇,均具有重要的研究意義和應(yīng)用價(jià)值。
領(lǐng)域熱點(diǎn)識(shí)別和趨勢(shì)分析是科技情報(bào)和文獻(xiàn)計(jì)量學(xué)領(lǐng)域的重要問(wèn)題之一,得到了學(xué)者廣泛的關(guān)注?,F(xiàn)有研究主要基于正式發(fā)表的學(xué)術(shù)文獻(xiàn)數(shù)據(jù),利用文獻(xiàn)計(jì)量的方法進(jìn)行研究。黃曉斌等[1]將這類(lèi)方法劃分為三種:基于引用關(guān)系的方法、基于文本內(nèi)容的方法和基于復(fù)合關(guān)系的方法。其中,基于引用關(guān)系的方法利用了文獻(xiàn)引用頻次或引文網(wǎng)絡(luò)展開(kāi)研究[2-3];基于文本內(nèi)容的方法則使用了關(guān)鍵詞、摘要文本或者文獻(xiàn)全文,主要方法包括詞頻分析和文本主題分析等方法[4-6];更多領(lǐng)域熱點(diǎn)識(shí)別研究采用了將上述兩種方法相結(jié)合的復(fù)合關(guān)系方法[7-10]。除此之外,還有一些研究關(guān)注領(lǐng)域熱點(diǎn)分析相關(guān)的其他問(wèn)題:文獻(xiàn)[3,10]側(cè)重于利用可視化的方法分析領(lǐng)域的趨勢(shì);文獻(xiàn)[11-12]則更關(guān)注領(lǐng)域發(fā)展趨勢(shì)的預(yù)測(cè),分別利用決策樹(shù)和回歸分析的方法來(lái)預(yù)測(cè)領(lǐng)域熱點(diǎn)的發(fā)展趨勢(shì)。
基于文獻(xiàn)計(jì)量的方法能夠有效識(shí)別研究領(lǐng)域的前沿研究和熱點(diǎn),但是大多數(shù)研究?jī)H引用了正式發(fā)表的文獻(xiàn)數(shù)據(jù)。在科學(xué)研究過(guò)程之中,研究人員之間會(huì)通過(guò)多種途徑進(jìn)行交流。當(dāng)前,各種基于社交媒介的應(yīng)用層出不窮,這也成為研究人員進(jìn)行交流的重要方式。在所有的交流方式中,社會(huì)化問(wèn)答社區(qū)由于其特殊的機(jī)制成為學(xué)術(shù)與技術(shù)人員集中交流的平臺(tái)。與基于文獻(xiàn)計(jì)量的方法相比,利用交流方式中產(chǎn)生的大規(guī)模交互與交流數(shù)據(jù)來(lái)識(shí)別領(lǐng)域研究的熱點(diǎn)和發(fā)展趨勢(shì),更容易檢測(cè)到研究人員的動(dòng)向和趨勢(shì),因而具有潛在的優(yōu)勢(shì)互補(bǔ)作用?,F(xiàn)有研究中,盡管已經(jīng)有一些相關(guān)的探索,如文獻(xiàn)[13],但就整體而言還處于嘗試階段,缺乏更加深入的識(shí)別方法和有效性驗(yàn)證方法的研究。
為了利用社會(huì)化問(wèn)答社區(qū)中豐富的用戶(hù)交流數(shù)據(jù),本文提出一種基于涌現(xiàn)模式挖掘(emerging pattern mining)的研究領(lǐng)域熱點(diǎn)識(shí)別框架。該框架利用領(lǐng)域關(guān)鍵詞的組合(稱(chēng)為模式)來(lái)表示研究的子域或子問(wèn)題,利用涌現(xiàn)模式挖掘方法來(lái)分析熱點(diǎn)模式,從而識(shí)別出領(lǐng)域熱點(diǎn)并分析其發(fā)展趨勢(shì)。本文的主要貢獻(xiàn)包括三個(gè)方面。第一,提出利用在線(xiàn)問(wèn)答社區(qū)中的用戶(hù)交互數(shù)據(jù)來(lái)識(shí)別領(lǐng)域中研究熱點(diǎn),并整合現(xiàn)有的Web 文本分析、涌現(xiàn)模式挖掘等方法給出一種具有較高可行性的解決方案;第二,針對(duì)領(lǐng)域熱點(diǎn)識(shí)別問(wèn)題的獨(dú)特之處,提出利用模式聚類(lèi)的方法將大量無(wú)意義低頻模式排除,較好地解決涌現(xiàn)模式挖掘中計(jì)算量大且結(jié)果中可能包含大量無(wú)意義模式的問(wèn)題;第三,基于知乎社區(qū)(zhihu.com)的真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果與前沿研究相對(duì)比,從而驗(yàn)證了所提出的領(lǐng)域熱點(diǎn)識(shí)別框架的有效性。
傳統(tǒng)上,研究領(lǐng)域的熱點(diǎn)識(shí)別方法主要基于文獻(xiàn)計(jì)量學(xué)方法。結(jié)合文獻(xiàn)[1]的研究,本文將基于文獻(xiàn)計(jì)量的方法分為三種類(lèi)型:基于引文分析的方法、基于文本的分析方法和基于語(yǔ)義的方法。
基于引文分析的方法可分為:基于同被引分析的方法和基于引文網(wǎng)絡(luò)分析的方法?;谕灰治龅姆椒ㄖ饕梦墨I(xiàn)之間的同被引關(guān)系及被引頻次構(gòu)建評(píng)價(jià)指標(biāo),并結(jié)合聚類(lèi)的方法來(lái)識(shí)別領(lǐng)域熱點(diǎn)或前沿研究問(wèn)題。例如,Schiebel[3]利用來(lái)自地理學(xué)的二維或三維可視化方法來(lái)處理共被引網(wǎng)絡(luò)數(shù)據(jù),通過(guò)可視化的方法來(lái)識(shí)別領(lǐng)域熱點(diǎn)。基于引文網(wǎng)絡(luò)分析的方法根據(jù)文獻(xiàn)之間的引用關(guān)系構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),并進(jìn)一步結(jié)合網(wǎng)絡(luò)科學(xué)的分析方法來(lái)識(shí)別領(lǐng)域研究熱點(diǎn)。例如,Shibata 等[2]利用復(fù)雜網(wǎng)絡(luò)方法的多種網(wǎng)絡(luò)衡量指標(biāo),結(jié)合網(wǎng)絡(luò)節(jié)點(diǎn)聚類(lèi)方法,對(duì)兩個(gè)領(lǐng)域的熱點(diǎn)識(shí)別進(jìn)行比較研究,認(rèn)為基于網(wǎng)絡(luò)拓?fù)涞姆治龇椒軌虻玫礁玫男Ч?/p>
由于領(lǐng)域熱點(diǎn)識(shí)別不可避免地需要提取出表示領(lǐng)域的關(guān)鍵詞或主題詞,因此純粹使用基于引文分析方法的研究較少,更多的研究采用了詞頻分析或關(guān)鍵詞共現(xiàn)分析等基于文本分析的方法或者兩種方法的結(jié)合。Liao 等[4]利用2008—2017 年運(yùn)籌學(xué)和管理科學(xué)領(lǐng)域發(fā)表的ESI(Essential Science Indicators)高被引論文數(shù)據(jù)集,通過(guò)分析被引量最大的論文的關(guān)鍵詞來(lái)識(shí)別領(lǐng)域熱點(diǎn)。Xie[9]分別從國(guó)家、機(jī)構(gòu)、作者、期刊、文獻(xiàn)的角度,利用引文和共詞分析方法來(lái)識(shí)別重要的機(jī)構(gòu)、作者和文獻(xiàn),進(jìn)一步分析抗癌藥物領(lǐng)域的研究熱點(diǎn)。楊穎等[8]首先構(gòu)造關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)并進(jìn)行聚類(lèi),然后通過(guò)對(duì)高頻主題詞匯以及各類(lèi)別中具有代表性文獻(xiàn)的解讀來(lái)識(shí)別領(lǐng)域研究熱點(diǎn)。
基于文本的分析方法僅考慮關(guān)鍵詞的詞頻,而基于語(yǔ)義的方法則使用了基于機(jī)器學(xué)習(xí)的方法來(lái)挖掘文本內(nèi)容中的語(yǔ)義信息。例如,高盈盈等[12]使用了LDA(latent Dirichlet allocation)主題模型來(lái)識(shí)別領(lǐng)域關(guān)鍵詞。近年來(lái),深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域迅速發(fā)展,其研究結(jié)果也被用于領(lǐng)域識(shí)別的研究之中。例如,阮光冊(cè)等[14]利用doc2vec[15]方法生成文檔向量進(jìn)行相似度計(jì)算,再通過(guò)聚類(lèi)算法和主題詞提取算法識(shí)別領(lǐng)域熱點(diǎn);Asatani 等[16]利用網(wǎng)絡(luò)表示學(xué)習(xí)方法學(xué)習(xí)節(jié)點(diǎn)的表征信息,以及其隨著網(wǎng)絡(luò)變化的趨勢(shì),提出一個(gè)稱(chēng)為IPY(intrinsic publica‐tion year)的指標(biāo),該指標(biāo)與文獻(xiàn)被引頻次之間存在著相關(guān)性,因此基于該指標(biāo)來(lái)檢測(cè)研究熱點(diǎn)及發(fā)展趨勢(shì)[17]。
上述現(xiàn)有研究都僅利用了正式發(fā)表的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)。本文與其最大的區(qū)別在于使用了社會(huì)化問(wèn)答社區(qū)中科技工作者的交互數(shù)據(jù)來(lái)識(shí)別領(lǐng)域熱點(diǎn),并對(duì)其發(fā)展趨勢(shì)進(jìn)行量化分析。
根據(jù)關(guān)注的研究對(duì)象,可將社會(huì)化問(wèn)答社區(qū)的相關(guān)研究分為平臺(tái)、用戶(hù)和信息三種類(lèi)型。關(guān)于平臺(tái)方面的研究,主要關(guān)注社會(huì)化問(wèn)答社區(qū)的管理與發(fā)展策略。例如,Srba 等[18]以Stack Overflow 為例,探究了社區(qū)的問(wèn)題失敗率(被刪除或未回答的問(wèn)題在所有新問(wèn)題中所占的比例)上升的原因,并證實(shí)這一現(xiàn)象與越來(lái)越多的低質(zhì)量?jī)?nèi)容和社區(qū)中不受歡迎的用戶(hù)群體密切相關(guān)。關(guān)于用戶(hù)的研究則主要關(guān)注用戶(hù)的行為。例如,張寶生等[19]從知識(shí)共享的角度出發(fā),運(yùn)用經(jīng)典扎根理論研究用戶(hù)知識(shí)貢獻(xiàn)行為意向的影響因素;張穎等[20]探索了付費(fèi)問(wèn)答社區(qū)中影響提問(wèn)者問(wèn)題選擇行為的因素,發(fā)現(xiàn)回答者的專(zhuān)業(yè)性、知名度以及信息服務(wù)質(zhì)量對(duì)提問(wèn)者選擇行為有正向影響。關(guān)于信息方面的研究主要包括問(wèn)答質(zhì)量評(píng)價(jià)[21]和用戶(hù)個(gè)性化信息推薦[22],或者對(duì)社區(qū)中的新問(wèn)題進(jìn)行專(zhuān)家推薦[23]等方面的研究。
現(xiàn)有在線(xiàn)社區(qū)的研究中也有一些關(guān)于熱點(diǎn)話(huà)題檢測(cè)的工作。利用已有信息預(yù)測(cè)社區(qū)的熱點(diǎn)話(huà)題、熱門(mén)趨勢(shì),這不僅利于平臺(tái)自身的管理決策,而且能夠?yàn)槠髽I(yè)帶來(lái)巨大的經(jīng)濟(jì)價(jià)值。Zhang 等[24]提出了一種熱點(diǎn)話(huà)題檢測(cè)方法,用于分析雅虎問(wèn)答平臺(tái)的數(shù)據(jù)。該方法首先提取關(guān)鍵詞,然后對(duì)問(wèn)答內(nèi)容進(jìn)行聚類(lèi),通過(guò)分析問(wèn)題類(lèi)型的頻次來(lái)對(duì)熱點(diǎn)趨勢(shì)進(jìn)行描述。Lu 等[25]也利用了聚類(lèi)的方法來(lái)檢測(cè)在線(xiàn)社區(qū)中與健康相關(guān)的熱點(diǎn)話(huà)題。這些研究與本文研究有相似之處,均依賴(lài)于文本信息的提?。粎^(qū)別在于本文引入了涌現(xiàn)模式挖掘的方法,能夠從領(lǐng)域模式的角度識(shí)別領(lǐng)域熱點(diǎn)并對(duì)熱點(diǎn)趨勢(shì)進(jìn)行量化的分析。
涌現(xiàn)模式挖掘是一種數(shù)據(jù)挖掘任務(wù),其目標(biāo)是找到不同數(shù)據(jù)集中分布存在顯著差異的模式[26]。所挖掘的模式能夠通過(guò)可理解的形式來(lái)描述數(shù)據(jù)集之間關(guān)于模式相關(guān)屬性的新趨勢(shì)。涌現(xiàn)模式挖掘的方法主要有基于邊界的方法和基于樹(shù)的方法。如Dong 等[27]利用邊界的概念以無(wú)損的方式描述大量的EP 使得邊界僅由集合中的最小和最大EPS 組成,為挖掘結(jié)果提供了良好的結(jié)構(gòu),并減少挖掘結(jié)果集的大小?;跇?shù)的算法以樹(shù)狀結(jié)構(gòu)表示訓(xùn)練數(shù)據(jù),與基于邊界的方法相比,基于樹(shù)的算法效率較高?;跊Q策樹(shù)的方法允許直接處理數(shù)值屬性而不需要先前的離散化階段,如García-Borroto 等[28]從一組不同的決策樹(shù)中提取規(guī)律并進(jìn)行歸納。該方法可以獲得更少的判別規(guī)則,從而獲得更高的分類(lèi)精度。
涌現(xiàn)模式還可以進(jìn)一步分為跳躍涌現(xiàn)模式(jumping emerging patterns,JEP)、最小涌現(xiàn)模式(minimal emerging patterns,MinEP)、最大涌現(xiàn)模式(maximal emerging patterns, MaxEP) 等 多 種 類(lèi)型[29]。MinEP 是最普遍的涌現(xiàn)模式,每個(gè)涌現(xiàn)模式的子模式不再是涌現(xiàn)模式;MaxEP 則相反,每個(gè)涌現(xiàn)模式的父模式不再是涌現(xiàn)模式。Kane 等[30]提出了最小跳躍涌現(xiàn)模式挖掘方法,能夠計(jì)算基本JEP 和top-kMinEP。Wang 等[31]提出了一種基于“重疊”或“交叉”的機(jī)制來(lái)利用MaxEP 特性,這種方法結(jié)合了貝葉斯方法和基于EP 的分類(lèi)器的優(yōu)點(diǎn),具有更好的整體分類(lèi)精度。
涌現(xiàn)模式挖掘方法能夠衡量不同數(shù)據(jù)集中模式的差異,并識(shí)別出其中差異性比較顯著的模式。但是,其計(jì)算量都比較大,而且結(jié)果中容易現(xiàn)較多無(wú)意義的模式。本文從候選模式的構(gòu)建入手,首先利用關(guān)鍵詞的共現(xiàn)性進(jìn)行聚類(lèi),然后在聚類(lèi)結(jié)果的基礎(chǔ)之上構(gòu)建候選模式集合。不但使計(jì)算量大大減小,而且能夠有效減少結(jié)果中的無(wú)意義模式。
本文提出利用社會(huì)化問(wèn)答社區(qū)中的用戶(hù)交互數(shù)據(jù),在不依賴(lài)文獻(xiàn)計(jì)量分析的情況下來(lái)識(shí)別領(lǐng)域研究熱點(diǎn)。解決該問(wèn)題的思路主要依賴(lài)涌現(xiàn)模式分析方法對(duì)用戶(hù)的問(wèn)答文本進(jìn)行挖掘,整體框架主要包含四個(gè)關(guān)鍵步驟:首先,需要從問(wèn)答內(nèi)容中提取出與領(lǐng)域熱點(diǎn)相關(guān)的關(guān)鍵詞;其次,根據(jù)提取出的關(guān)鍵詞集合構(gòu)建潛在模式集合;再次,根據(jù)關(guān)鍵詞出現(xiàn)頻率及共現(xiàn)性識(shí)別涌現(xiàn)模式,從而識(shí)別領(lǐng)域的研究熱點(diǎn)及趨勢(shì);最后,需要對(duì)識(shí)別的效果進(jìn)行檢驗(yàn)或驗(yàn)證。
本文提出的領(lǐng)域熱點(diǎn)識(shí)別框架如圖1 所示,下文中將對(duì)框架的各組成部分進(jìn)行詳細(xì)描述。
圖1 領(lǐng)域熱點(diǎn)識(shí)別框架
問(wèn)答文本處理的核問(wèn)題,是將文本內(nèi)容處理為結(jié)構(gòu)化的形式,并提取文本內(nèi)容中的領(lǐng)域關(guān)鍵詞。具體來(lái)說(shuō),需要將每條問(wèn)答文本表示為領(lǐng)域關(guān)鍵詞的集合。其中,為第i條問(wèn)答中的第j個(gè)領(lǐng)域關(guān)鍵詞;K為領(lǐng)域關(guān)鍵詞的集合。
3.2.1 分 詞
本研究中使用的分詞工具為pkuseg[32]。pkuseg是一個(gè)開(kāi)源的多領(lǐng)域中文分詞工具包,支持細(xì)分領(lǐng)域分詞,從而有效提升了分詞的準(zhǔn)確度。此外,pkuseg 還可以很方便地使用自定義詞匯表。分詞工具所用的分詞模型通?;诖笠?guī)模文本數(shù)據(jù)集訓(xùn)練得到,一般情況下能夠得到較好的分詞效果。但是在各個(gè)科研領(lǐng)域中都存在大量的學(xué)術(shù)術(shù)語(yǔ),這些術(shù)語(yǔ)可能由多個(gè)詞所組成,分詞工具難以對(duì)其進(jìn)行準(zhǔn)確的切分。例如,術(shù)語(yǔ)“機(jī)器學(xué)習(xí)”,在領(lǐng)域熱點(diǎn)識(shí)別研究中需要將其識(shí)別為一個(gè)詞匯,但實(shí)際上絕大多數(shù)分詞工具將其切分為“機(jī)器”和“學(xué)習(xí)”兩個(gè)詞匯,失去了該術(shù)語(yǔ)所表達(dá)的含義。本研究基于領(lǐng)域的常用術(shù)語(yǔ)構(gòu)造領(lǐng)域詞典,將領(lǐng)域詞典作為自定義詞匯表,從而使得分詞工具能夠很好地識(shí)別這些術(shù)語(yǔ)。
此外,社會(huì)化問(wèn)答社區(qū)中的問(wèn)答內(nèi)容中廣泛存在著多語(yǔ)言混合使用的現(xiàn)象。例如,在知乎中,問(wèn)答內(nèi)容可能包含英文語(yǔ)句或段落,或者更普遍的情況是回答者直接在內(nèi)容中使用了英文的術(shù)語(yǔ)或縮寫(xiě)。為了將這些術(shù)語(yǔ)包含在內(nèi),本文在構(gòu)建領(lǐng)域詞典的同時(shí)也給出了每個(gè)術(shù)語(yǔ)對(duì)應(yīng)的常見(jiàn)英文翻譯。在數(shù)據(jù)分析的過(guò)程中,將每個(gè)術(shù)語(yǔ)以及其對(duì)應(yīng)的一個(gè)或多個(gè)常見(jiàn)英文翻譯處理為同一個(gè)關(guān)鍵詞。
3.2.2 領(lǐng)域關(guān)鍵詞提取
經(jīng)過(guò)分詞的問(wèn)答內(nèi)容,需要進(jìn)一步提取其中的領(lǐng)域關(guān)鍵詞。本文使用基于TF-IDF(term frequencyinverse document frequency)與支持度相結(jié)合的方法來(lái)提取領(lǐng)域關(guān)鍵詞。
TF-IDF 是一種衡量詞匯在文檔集合中重要程度的方法。一般情況下,一個(gè)詞在一個(gè)文檔中出現(xiàn)的次數(shù)越多,該詞的重要性就越高。同時(shí),如果文檔集中出現(xiàn)該詞的文檔數(shù)量越多,就越說(shuō)明該詞不包含特殊的信息,即重要性越低。
對(duì)于文檔集D,出現(xiàn)在文檔中的所有詞匯構(gòu)成一個(gè)詞匯表L?;贚可以將任意文檔表示為長(zhǎng)度為|L|的向量,該向量的第j個(gè)元素表示詞匯表L中的第j個(gè)詞在該文檔中出現(xiàn)的次數(shù)。將給定詞匯j在文檔i中出現(xiàn)的次數(shù)與文檔總詞匯量的比值稱(chēng)為詞頻(term frequency,TF),記為
其中,IDFj表示詞匯j在文檔集中的逆文檔頻率。
于是,文檔i中的詞匯j的TF-IDF 值為
社會(huì)化問(wèn)答社區(qū)中,領(lǐng)域關(guān)鍵詞的提取可以通過(guò)設(shè)定一個(gè)閾值δtf-idf,將每個(gè)文檔中的詞作為該文檔中的領(lǐng)域關(guān)鍵詞。實(shí)驗(yàn)表明,得到的領(lǐng)域關(guān)鍵詞集中包含了很多的相關(guān)性較低的詞匯。為了剔除這些詞匯,數(shù)據(jù)分析中需要進(jìn)一步剔除在文檔集中支持度較低的詞匯(即suppj>δw-supp),詞匯j的支持度定義為
社會(huì)化問(wèn)答社區(qū)的文本內(nèi)容中包含了大量的領(lǐng)域關(guān)鍵詞,本研究的目的是根據(jù)這些領(lǐng)域關(guān)鍵詞的變化趨勢(shì)來(lái)識(shí)別領(lǐng)域識(shí)的熱點(diǎn)。研究中將每個(gè)領(lǐng)域關(guān)鍵詞看作一個(gè)項(xiàng)(item),多個(gè)領(lǐng)域關(guān)鍵詞構(gòu)成一個(gè)項(xiàng)集(item set)。一個(gè)項(xiàng)集可以被看作相應(yīng)研究領(lǐng)域中的一種模式,通過(guò)分析不同時(shí)間段內(nèi)模式的變化情況,可以識(shí)別其中的涌現(xiàn)模式[26],從而識(shí)別出該領(lǐng)域中的研究熱點(diǎn)。
3.3.1 涌現(xiàn)模式的識(shí)別
令F={f1,f2,…,fk}為領(lǐng)域關(guān)鍵詞的集合(或稱(chēng)為項(xiàng)集)。其子集X?F稱(chēng)為k項(xiàng)集,k=|X|。給定一組按時(shí)間順序排列的數(shù)據(jù)集D1,D2,…,一個(gè)項(xiàng)集X在文檔集Dt上的支度為
表示模式X在該數(shù)據(jù)集中出現(xiàn)的頻率。X在Dt到Dt+1中支持度的變化情況用增長(zhǎng)率來(lái)衡量:
如果模式X滿(mǎn)足則稱(chēng)X為一個(gè)上升涌現(xiàn)模式(或上升模式);如果,則稱(chēng)X為一個(gè)下降涌現(xiàn)模式(或下降模式),其中δe>1 為閾值。當(dāng)GrowthRage(X,Dt+1,Dt)= ∞時(shí),稱(chēng)X為一個(gè)跳躍涌現(xiàn)模式(jumping emerging pattern),或跳躍模式[29]。上升模式或跳躍模式表示被關(guān)注越來(lái)越多的模式;下降模式則表示被關(guān)注越來(lái)越少的模式。社會(huì)化問(wèn)答社區(qū)中領(lǐng)域熱點(diǎn)的識(shí)別,就是要找出問(wèn)答內(nèi)容中的上升模式或跳躍模式。
涌現(xiàn)模式挖掘算法的難點(diǎn),在于要從數(shù)量巨大的候選模式中,識(shí)別出滿(mǎn)足條件的涌現(xiàn)模式。假設(shè)要考慮的項(xiàng)(item)的數(shù)量為n,則理論上候選模式的數(shù)量為。以社會(huì)化問(wèn)答社區(qū)領(lǐng)域熱點(diǎn)識(shí)別為例,若領(lǐng)域關(guān)鍵詞為20,則候選模式的數(shù)量高達(dá)1048555;而實(shí)際上,領(lǐng)域關(guān)鍵詞的數(shù)量遠(yuǎn)不止20,因此通過(guò)直接計(jì)算的方法識(shí)別涌現(xiàn)模式是不可行的。
總之,現(xiàn)有的涌現(xiàn)模式挖掘算法都存在著計(jì)算復(fù)雜度高的問(wèn)題。更重要的是,由于大規(guī)模問(wèn)答數(shù)據(jù)集中存在的個(gè)性化表達(dá)、數(shù)據(jù)質(zhì)量參差不齊等因素,使得這類(lèi)算法得到的涌現(xiàn)模式數(shù)量較大,而且其中相當(dāng)一部分是沒(méi)有意義或無(wú)法解釋的。因此,本文提出一種基于聚類(lèi)的涌現(xiàn)模式識(shí)別方法:首先,利用關(guān)鍵詞在問(wèn)答文檔中的共現(xiàn)性對(duì)關(guān)鍵詞進(jìn)行聚類(lèi);其次,在聚類(lèi)結(jié)果的基礎(chǔ)之上,構(gòu)建候選模式。候選模式僅在每個(gè)類(lèi)別內(nèi)部構(gòu)建。這樣,一方面排除了大量偶然出現(xiàn)的、無(wú)意義的候選模式;另一方面,使得候選模式的數(shù)量大大下降,甚至使得直接計(jì)算的方式就能夠有效的識(shí)別涌現(xiàn)模式。
3.3.2 模式聚類(lèi)
領(lǐng)域熱點(diǎn)識(shí)別與普通的涌現(xiàn)模式挖掘問(wèn)題存在著顯著的差異。首先,模式用于描述一個(gè)研究領(lǐng)域中較小的子領(lǐng)域或研究問(wèn)題,在細(xì)粒度的層面上不需要很高的精確度。例如,模式{機(jī)器學(xué)習(xí), 深度學(xué)習(xí), 人工智能}與模式{深度學(xué)習(xí), 人工智能}在細(xì)粒度層面上是不同的模式,但是兩者所描述的子領(lǐng)域并沒(méi)有太大的差異。其次,一個(gè)研究領(lǐng)域中的關(guān)鍵詞數(shù)量較為龐大,但是子領(lǐng)域或研究問(wèn)題的數(shù)量要少得多。最后,屬于同一個(gè)子領(lǐng)域的關(guān)鍵詞往往具有較高的語(yǔ)義相似度,而不同子領(lǐng)域中,使用的關(guān)鍵詞往往有著較大的差異?;陬I(lǐng)域熱點(diǎn)識(shí)別與普通的涌現(xiàn)模式挖掘問(wèn)題的區(qū)別,就可以得到一個(gè)合理的推測(cè),即如果一個(gè)模式中出現(xiàn)了語(yǔ)義距離相距甚遠(yuǎn)的關(guān)鍵詞,那么就可以認(rèn)為該模式不是一個(gè)有意義的模式,因而也不會(huì)是涌現(xiàn)模式。本文利用模式聚類(lèi)來(lái)實(shí)現(xiàn)這種思路,從而大大降低涌現(xiàn)模式識(shí)別的計(jì)算量。
模式聚類(lèi)的目的是根據(jù)關(guān)鍵詞在數(shù)集D=D1∪D2…中的共現(xiàn)性進(jìn)行聚類(lèi),將包含了不屬于同一類(lèi)別的關(guān)鍵詞的模式排除在候選模式之外,從而使候選模式的數(shù)量顯著降低。
關(guān)鍵詞集合F={f1,f2,…,fk}的共現(xiàn)矩陣表示為
其 中, 第i行 第j列 元 素eij= |d:fi∈d∧fj∈d∧d∈D|表示關(guān)鍵詞fi和fk共同出現(xiàn)在數(shù)據(jù)集D中同一文檔的次數(shù)。
直接將共現(xiàn)矩陣作為屬性矩陣對(duì)關(guān)鍵詞進(jìn)行聚類(lèi)是不恰當(dāng)?shù)?,因?yàn)槔藐P(guān)鍵詞與其他關(guān)鍵詞的共現(xiàn)向量不能準(zhǔn)確的計(jì)算一對(duì)關(guān)鍵詞之間的距離[33]。由于兩個(gè)關(guān)鍵詞共現(xiàn)的次數(shù)越多兩者之間的距離越近,故可以將共現(xiàn)矩陣式(5)轉(zhuǎn)化為相似性矩陣:
當(dāng)eij= 0 時(shí),sij= 0;當(dāng)eij≠0 時(shí),sij= 1/eij。
相似性矩陣S是一個(gè)對(duì)稱(chēng)矩陣,因此可以表示以關(guān)鍵詞為節(jié)點(diǎn)、以成對(duì)關(guān)鍵詞之間的相似性為權(quán)值所形成的無(wú)向加權(quán)網(wǎng)絡(luò)。基于該網(wǎng)絡(luò),容易利用最短路徑算法計(jì)算兩個(gè)節(jié)點(diǎn)之間的距離,從而得到任意兩個(gè)關(guān)鍵詞之間的距離所構(gòu)成的矩陣:
其中,dij為關(guān)鍵詞fi與fj之間的距離。
基于距離矩陣(7)可以利用層次聚類(lèi)算法,以及類(lèi)間距離的閾值δd將關(guān)鍵詞集合F聚類(lèi)為
其中,Ci={fi1,fi2,…}為第i個(gè)類(lèi)別;fij表示第i個(gè)類(lèi)別中的第j個(gè)關(guān)鍵詞。
3.3.3 候選模式生成
由于屬于不同類(lèi)別的關(guān)鍵詞不太可能會(huì)出現(xiàn)在同一涌現(xiàn)模式之中,因此候選模式由屬于同一類(lèi)別的關(guān)鍵詞組成:
其中,Com(Ci)為第i個(gè)類(lèi)別中任意一個(gè)或多個(gè)元素的組合(即候選模式)所構(gòu)成的集合。
基于模式聚類(lèi)所形成的候選模式數(shù)量大大下降,假設(shè)關(guān)鍵詞的數(shù)量為20,聚類(lèi)得到4 個(gè)類(lèi)別,則候選模式的數(shù)量由1048555 降為最優(yōu)情況下的104個(gè)。因此,可以認(rèn)為模式聚類(lèi)是一種高效的剪枝方法。需要注意的是,這種方法的有效性需要滿(mǎn)足一定的條件,在其他涌現(xiàn)模式挖掘問(wèn)題中的有效性要根據(jù)具體問(wèn)題進(jìn)行分析。
本文利用卡方檢驗(yàn)和實(shí)際數(shù)據(jù)對(duì)比,對(duì)領(lǐng)域熱點(diǎn)識(shí)別框架的有效性進(jìn)行驗(yàn)證。卡方檢驗(yàn)用于對(duì)識(shí)別出的涌現(xiàn)模式,在不同時(shí)間段數(shù)據(jù)集Dt中,差異的顯著性進(jìn)行檢驗(yàn)。在實(shí)際數(shù)據(jù)對(duì)比中,將相關(guān)領(lǐng)域頂級(jí)國(guó)際會(huì)議上所發(fā)表的論文的主題與涌現(xiàn)模式識(shí)別結(jié)果進(jìn)行對(duì)比,以驗(yàn)證其有效性。
本研究利用知乎社區(qū)中的問(wèn)答內(nèi)容來(lái)驗(yàn)證上述領(lǐng)域熱點(diǎn)識(shí)別框架的有效性。為了便于對(duì)比分析,研究中選擇了知乎社區(qū)中的“機(jī)器學(xué)習(xí)”話(huà)題(https://www.zhihu.com/topic/19559450/hot),抓取了該話(huà)題下的“討論”和“精華”版塊的全部問(wèn)答內(nèi)容。知乎社區(qū)是按照“話(huà)題—子話(huà)題”所構(gòu)成的樹(shù)狀結(jié)構(gòu)來(lái)組織問(wèn)答內(nèi)容的。這些話(huà)題并非一成不變的,會(huì)隨著當(dāng)前研究熱點(diǎn)的變化而做出一定的改變,與領(lǐng)域內(nèi)容相關(guān)的工具、軟件、競(jìng)賽等話(huà)題也會(huì)不斷更新。其中,部分子話(huà)題可能會(huì)在多個(gè)父話(huà)題中重復(fù)出現(xiàn)。盡管子話(huà)題的劃分可能會(huì)變化,但隸屬于該話(huà)題的問(wèn)答內(nèi)容有足夠的穩(wěn)定性,能夠滿(mǎn)足本文所提出的方法的需要。
在本研究進(jìn)行期間,“機(jī)器學(xué)習(xí)”的子話(huà)題結(jié)構(gòu)樹(shù)中共有327 個(gè)子話(huà)題。經(jīng)過(guò)抓取后,去除重復(fù)問(wèn)答內(nèi)容后,共得到2011 年2 月—2019 年11 月的4507 個(gè)提問(wèn)及20669 個(gè)回答。由于提問(wèn)內(nèi)容通常都非常短(平均長(zhǎng)度為25 個(gè)字符),下文的分析中將其排除在外,僅使用了回答的文本數(shù)據(jù)。這些數(shù)據(jù)在時(shí)間上的分布如圖2a 所示。本研究所獲取的數(shù)據(jù)截至2019 年11 月25 日,因此將2019 年數(shù)據(jù)用虛線(xiàn)表示。從圖2 中可知,知乎社區(qū)發(fā)展的早期(知乎于2010 年12 月上線(xiàn))問(wèn)答數(shù)量較少;自2014 年起“機(jī)器學(xué)習(xí)”話(huà)題中問(wèn)答的數(shù)量快速增長(zhǎng)。因此,由于2011—2014 年數(shù)量過(guò)少,基于涌現(xiàn)模式的熱點(diǎn)識(shí)別主要針對(duì)2015—2019 年數(shù)據(jù)。
在分析之前,還需要對(duì)數(shù)據(jù)加以清理,以避免冗余或無(wú)用數(shù)據(jù)對(duì)結(jié)果造成的影響。主要的清理內(nèi)容包括文本中所包含的HTML 文本以及無(wú)意義的符號(hào),如連續(xù)重復(fù)多次的“-”“_”“.”“=”“+”等符號(hào)。此外,過(guò)短的回答內(nèi)容中包含的信息量不足,因而也需要將其去除,下文的分析中除去了長(zhǎng)度小于50 的回答。清理后的數(shù)據(jù)量分布如圖2b 所示。
圖2 數(shù)據(jù)量分布
4.2.1 領(lǐng)域關(guān)鍵詞提取結(jié)果
基于公式(1)和公式(2)所示的方法,處理知乎社區(qū)“機(jī)器學(xué)習(xí)”話(huà)題中的回答內(nèi)容得到542 個(gè)領(lǐng)域關(guān)鍵詞(δtf-idf=0.25,δw-supp=10),經(jīng)過(guò)篩選后最終得到378 個(gè)領(lǐng)域關(guān)鍵詞。知乎問(wèn)答內(nèi)容屬于用戶(hù)生成內(nèi)容(user generated content,UGC)的一種,而用戶(hù)生成內(nèi)容的特點(diǎn)就是語(yǔ)言使用靈活、不規(guī)則用法較多。特別地,在“機(jī)器學(xué)習(xí)”話(huà)題中大量出現(xiàn)中英文術(shù)語(yǔ)混合使用的情況。為了應(yīng)對(duì)這種情況,在分析中將重要的英文領(lǐng)域關(guān)鍵詞考慮在內(nèi)。例如,“卷積神經(jīng)網(wǎng)絡(luò)”的英文術(shù)語(yǔ)可以為“Convolu‐tional Neural Network”“Convolutional Networks”“CNN”等。這些不同形式的術(shù)語(yǔ)(包括中文術(shù)語(yǔ))具有相同的含義。為了避免數(shù)據(jù)稀疏性,需要將這些術(shù)語(yǔ)進(jìn)行分組處理。例如,將“卷積神經(jīng)網(wǎng)絡(luò)”“卷積網(wǎng)絡(luò)”“Convolutional Neural Network”“Con‐volutional Networks”“CNN”分為一個(gè)領(lǐng)域關(guān)鍵詞組。每個(gè)分組分配一個(gè)ID,同一分組中的關(guān)鍵詞具有相同的含義。
知乎問(wèn)答數(shù)據(jù)經(jīng)過(guò)處理后,本研究得到了230個(gè)領(lǐng)域關(guān)鍵詞組。接下來(lái),將回答內(nèi)容中的已識(shí)別領(lǐng)域關(guān)鍵詞替換為其所屬的關(guān)鍵詞組的ID?;陬I(lǐng)域關(guān)鍵詞組及替換后的數(shù)據(jù)集容易統(tǒng)計(jì)得到公式(5)的共現(xiàn)矩陣,進(jìn)一步處理得到公式(6)所示的230 ×230 的相似矩陣。
相似矩陣表示以領(lǐng)域關(guān)鍵詞組為節(jié)點(diǎn),以相應(yīng)節(jié)點(diǎn)間的相似性為邊的網(wǎng)絡(luò)。其中,180 個(gè)節(jié)點(diǎn)是相互連通的構(gòu)成了整個(gè)網(wǎng)絡(luò)的最大連通子圖,如圖3 所示。其余50 個(gè)為孤立節(jié)點(diǎn),在后續(xù)分析中被作為獨(dú)立的候選模式。圖3 中,節(jié)點(diǎn)的大小與節(jié)點(diǎn)的度正相關(guān),即對(duì)應(yīng)的關(guān)鍵詞組共現(xiàn)的關(guān)鍵詞組數(shù)量;邊的寬度與對(duì)應(yīng)關(guān)鍵詞組對(duì)的共現(xiàn)頻次正相關(guān)。該圖同時(shí)也描述了關(guān)鍵詞組對(duì)之間的相似性,共現(xiàn)頻次大關(guān)鍵詞組對(duì)相似度越高,見(jiàn)公式(6)?;陉P(guān)鍵詞組對(duì)之間的相似性,在最大連通子圖上,利用最短路徑算法可得到任意兩個(gè)領(lǐng)域關(guān)鍵詞組之間的距離,構(gòu)成了如公式(7)所示的距離矩陣。該矩陣進(jìn)一步被用于對(duì)領(lǐng)域關(guān)鍵詞組進(jìn)行聚類(lèi)。
圖3 關(guān)鍵詞組共現(xiàn)網(wǎng)絡(luò)
4.2.2 候選模式識(shí)別結(jié)果
研究中使用層次聚類(lèi)算法基于距離矩陣對(duì)關(guān)鍵詞組進(jìn)行聚類(lèi),實(shí)際上,相當(dāng)于依據(jù)關(guān)鍵詞對(duì)的相似性對(duì)圖3 所示的關(guān)鍵詞組共現(xiàn)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行聚類(lèi)。類(lèi)間距的計(jì)算采用了ward 方法,即兩個(gè)聚類(lèi)之間的距離定義為合并兩者造成的總離差平方和的減小數(shù)量[34]。影響聚類(lèi)結(jié)果最關(guān)鍵的參數(shù)為下層聚類(lèi)合并為上層聚類(lèi)的類(lèi)間距閾值δdist。本研究通過(guò)類(lèi)間距閾值δdist與候選模式數(shù)量的關(guān)系來(lái)確定δdist的取值。如圖4a 所示,當(dāng)δdist>0.015 時(shí)候選模式的數(shù)量隨著δdist的增加急劇上升。將類(lèi)間距閾值確定為δdist= 0.015,得到的候選模式數(shù)量為8411。
候選模式集合中的絕大多數(shù)模式是無(wú)意義的模式,這些模式通常在問(wèn)答內(nèi)容中極少出現(xiàn)。為了將這些無(wú)意義的模式排除在外以降低涌現(xiàn)模式識(shí)別的計(jì)算量,本研究進(jìn)一步將問(wèn)答數(shù)據(jù)中出現(xiàn)頻率較低的模式排除在外,僅保留頻繁模式以供后續(xù)分析。模式頻率就是該模式在數(shù)據(jù)集上的支持度,見(jiàn)公式(3)。將模式支持度的閾值表示為δp-supp,頻繁模式是那些支持度高于該域值的模式。如圖4b 所示,隨著模式支持度域值δfreq的增加,頻繁模式數(shù)量迅速減少(除了2011—2013 年由于數(shù)據(jù)量太少而變化較?。?。而且,隨著δfreq的增加,頻繁模式數(shù)量減少的速度也快速降低。當(dāng)δfreq較小時(shí),各年度問(wèn)答數(shù)據(jù)中頻繁模式數(shù)量差異較大;當(dāng)δfreq較大時(shí),頻繁模式數(shù)量差異較小。這說(shuō)明頻繁模式對(duì)閾值δfreq的大小并不敏感,而非頻繁模式則對(duì)δfreq比較敏感。因此,可以合理的推測(cè),那些有意義的模式會(huì)被包含在頻繁模式之中,而無(wú)意義的模式由于出現(xiàn)頻率較低而被剔除。為了保留較多的頻繁模式用于涌現(xiàn)模式識(shí)別,本研究將頻率閾值設(shè)定為δfreq= 0.01。
4.2.3 領(lǐng)域熱點(diǎn)識(shí)別結(jié)果
基于頻繁模式的分析結(jié)果,利用公式(3)和公式(4)所示的涌現(xiàn)模式識(shí)別方法進(jìn)行領(lǐng)域熱點(diǎn)識(shí)別。公式(4)中的增長(zhǎng)率閾值定義為δe= 2,即一個(gè)頻繁模式在數(shù)據(jù)Db中支持度大于在數(shù)據(jù)Da中支持度的2倍或小于1/2 時(shí),則認(rèn)為該模式為涌現(xiàn)模式。由于涌現(xiàn)模式識(shí)別結(jié)果基于頻繁模式進(jìn)行分析,而頻繁模式數(shù)量已經(jīng)大大減少,所以涌現(xiàn)模式分析結(jié)果對(duì)δe不敏感。
圖4 類(lèi)間距閾值對(duì)候選模式數(shù)量的影響
表1 所示的結(jié)果為2019 年問(wèn)答數(shù)據(jù)與2015 年問(wèn)答數(shù)據(jù)的分析結(jié)果,共包含表示領(lǐng)域熱點(diǎn)的模式18個(gè)。其中,上升模式11 個(gè),跳躍模式5 個(gè),下降模式2 個(gè)。從結(jié)果中可看出,機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)幾乎都集中在深度學(xué)習(xí)相關(guān)的問(wèn)題或方法之上。而以支持向量集為代表的傳統(tǒng)機(jī)器學(xué)習(xí)方法的關(guān)注度下降明顯,是一個(gè)顯著的下降模式??ǚ綑z驗(yàn)的結(jié)果也驗(yàn)證了在兩個(gè)數(shù)據(jù)集中這些領(lǐng)域?qū)?yīng)的模式具有顯著的差異。
僅基于2015 年和2019 年數(shù)據(jù)無(wú)法判斷這些領(lǐng)域熱點(diǎn)發(fā)展過(guò)程中的趨勢(shì)變化情況。因此,本文利用2015—2019 年的全部數(shù)據(jù),對(duì)這些領(lǐng)域熱點(diǎn)的趨勢(shì)進(jìn)行了分析,結(jié)果如表2 所示。其中,增長(zhǎng)率大于1 表明上升趨勢(shì),小于1 則表明下降趨勢(shì)(見(jiàn)第3.3 節(jié))。大部分的領(lǐng)域熱點(diǎn)的熱度并非一直持續(xù)上漲,而是有所變化的。但是總體來(lái)看,所有的上升模式和跳躍模式都有著明顯的上升趨勢(shì),而下降模式則有著明顯的下降趨勢(shì)??ǚ綑z驗(yàn)結(jié)果也表明這些領(lǐng)域熱點(diǎn)模式的變化是顯著的。此外,領(lǐng)域熱點(diǎn)的趨勢(shì)也能夠表明方法的有效性。以“Bert”和“Transformer”為 例,“Transformer”是2017 年 由Google 提出的一種用于機(jī)器翻譯的模型;“Bert”是2018 年提出的一種基于“Transformer”的詞向量學(xué)習(xí)模型。這些都是基于深度學(xué)習(xí)的自然語(yǔ)言處理領(lǐng)域近幾年的突破性進(jìn)展。而表2 的趨勢(shì)分析中可以看出其分別在2017/2018 和2018/2019 數(shù)據(jù)中開(kāi)始具有很大的增長(zhǎng)率,這表明知乎社區(qū)的“機(jī)器學(xué)習(xí)”話(huà)題能夠緊跟領(lǐng)域發(fā)展的趨勢(shì),而且這些趨勢(shì)能夠被基于涌現(xiàn)模式的方法所捕獲。
為了進(jìn)一步驗(yàn)證熱點(diǎn)模式識(shí)別結(jié)果的有效性,本文還分析了相關(guān)領(lǐng)域重要會(huì)議上所發(fā)表的論文中這些熱點(diǎn)領(lǐng)域的變化情況。鑒于所識(shí)別出的熱點(diǎn)模式幾乎都來(lái)自深度學(xué)習(xí)相關(guān)領(lǐng)域(與實(shí)際情況一致),因此,本研究選擇該領(lǐng)域的頂級(jí)會(huì)議ICLR(International Conference on Learning Representations)作為分析對(duì)象。所用數(shù)據(jù)來(lái)自O(shè)penReview(https://openreview.net/)。2017—2018 年ICLR 會(huì)議接收的論文中,頻次最高的關(guān)鍵詞如表3 所示。這些關(guān)鍵詞與表1 和表2 所示的基于知乎社區(qū)的領(lǐng)域熱點(diǎn)識(shí)別結(jié)果高度重合,進(jìn)一步說(shuō)明了本文提出的領(lǐng)域熱點(diǎn)識(shí)別框架的有效性。
表1 2015/2019年領(lǐng)域熱點(diǎn)識(shí)別結(jié)果
表2 2015—2019年領(lǐng)域熱點(diǎn)趨勢(shì)
表3 ICLR高頻關(guān)鍵詞
本文提出了一種利用社會(huì)化問(wèn)答社區(qū)中的用戶(hù)交互數(shù)據(jù)進(jìn)行研究領(lǐng)域熱點(diǎn)識(shí)別的框架。該框架將領(lǐng)域熱點(diǎn)看作由領(lǐng)域關(guān)鍵詞組成的模式利用涌現(xiàn)模式挖掘(emerging pattern mining)方法來(lái)識(shí)別領(lǐng)域熱點(diǎn),主要包括領(lǐng)域關(guān)鍵詞提取、關(guān)鍵詞聚類(lèi)、候選模式構(gòu)建以及領(lǐng)域熱點(diǎn)模式識(shí)別等關(guān)鍵步驟。為了解決涌現(xiàn)模式挖掘方法計(jì)算量大、結(jié)果中容易出現(xiàn)較多無(wú)意義模式的問(wèn)題,本文提出在領(lǐng)域關(guān)鍵詞聚類(lèi)的基礎(chǔ)之上構(gòu)建候選模式。由于排除了大量包含了屬于不同類(lèi)別的關(guān)鍵詞的低頻模式,從而大大降低了計(jì)算量和無(wú)意義模式出現(xiàn)的可能性。該框架能夠利用社會(huì)化問(wèn)答社區(qū)中研究者的交互內(nèi)容來(lái)識(shí)別領(lǐng)域研究熱點(diǎn),因而相對(duì)于基于文獻(xiàn)計(jì)量的方法具有更好的時(shí)效性,對(duì)領(lǐng)域熱點(diǎn)趨勢(shì)的變化更加敏感。此外,該框架整合了已有的文本分析、涌現(xiàn)模式識(shí)別、網(wǎng)絡(luò)節(jié)點(diǎn)聚類(lèi)等方法,易于拓展至其他類(lèi)型的社交媒體熱點(diǎn)識(shí)別的應(yīng)用中。本文基于2011—2019 年知乎社區(qū)“機(jī)器學(xué)習(xí)”話(huà)題中用戶(hù)的問(wèn)答內(nèi)容進(jìn)行實(shí)驗(yàn),驗(yàn)證了領(lǐng)域熱點(diǎn)識(shí)別框架的有效性。本文提出的分析框架不僅能用于識(shí)別領(lǐng)域研究熱點(diǎn),還能夠用于社交媒體中的勢(shì)點(diǎn)識(shí)別和趨勢(shì)分析、突發(fā)事件中的輿情走勢(shì)和討論熱點(diǎn)識(shí)別等問(wèn)題,具有較廣泛的應(yīng)用價(jià)值。今后將繼續(xù)對(duì)本文提出的方法在這些相關(guān)問(wèn)題中的適應(yīng)性展開(kāi)研究。
該分析框架還有一些不足之處:在關(guān)鍵詞提取階段為了提高關(guān)鍵詞提取質(zhì)量需要人工介入,增加了分析的工作量,并且引入了一定程度的不確定性。在后續(xù)研究中,將考慮利用基于深度學(xué)習(xí)的序列標(biāo)注方法來(lái)提取關(guān)鍵詞對(duì)該研究框架進(jìn)行完善。