張 暉, 楊小彥, 趙旭劍, 楊春明, 李 波
(1.西南科技大學(xué) 理學(xué)院 四川 綿陽 621010; 2.西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川 綿陽 621010)
隨著信息資源數(shù)量和種類的急速增長,科學(xué)研究領(lǐng)域不斷開拓,科研人員和學(xué)者在掌握學(xué)科前沿?zé)狳c(diǎn)方面面臨著越來越多的挑戰(zhàn).如何快速、準(zhǔn)確地從科研文獻(xiàn)中提取和識(shí)別學(xué)科領(lǐng)域研究的前沿?zé)狳c(diǎn),對當(dāng)前科研工作具有重要研究意義[1].傳統(tǒng)研究方法主要是以電子期刊、學(xué)位論文等作為數(shù)據(jù)源,采用詞頻分析[2]、共詞分析[3]、多維尺度分析[4]、社會(huì)網(wǎng)絡(luò)分析[5]和其他分析模型[6-8]來識(shí)別前沿?zé)狳c(diǎn).這類研究方法主要通過分析文獻(xiàn)的學(xué)術(shù)傳播熱度來挖掘?qū)W科領(lǐng)域熱點(diǎn),僅考慮了領(lǐng)域知識(shí)在專業(yè)學(xué)術(shù)平臺(tái)的影響力,忽視了科研文獻(xiàn)在社會(huì)網(wǎng)絡(luò)中的流行與傳播,熱點(diǎn)挖掘結(jié)果存在滯后、前瞻性較差等不足.
學(xué)科前沿?zé)狳c(diǎn)挖掘可分為兩類:第一類簡單地考慮文獻(xiàn)計(jì)量特征,包括詞頻分析、文獻(xiàn)引用、關(guān)鍵詞的共詞或共現(xiàn)分析;第二類是使用廣泛用于文本挖掘中的主題模型LDA、HDP等來識(shí)別主題熱點(diǎn).由于引文和關(guān)鍵詞能較好地描述科技文獻(xiàn)的主題內(nèi)容,因此國內(nèi)外學(xué)者利用文獻(xiàn)計(jì)量的引文分析法、可視化圖譜[9]、關(guān)鍵詞的詞頻分析和共詞分析等方法進(jìn)行學(xué)科前沿?zé)狳c(diǎn)挖掘.文獻(xiàn)[3]運(yùn)用文獻(xiàn)計(jì)量中共詞和文檔共引,從高影響力文章、作者、期刊、機(jī)構(gòu)和國家等角度出發(fā),繪制知識(shí)圖譜,分析抗癌研究領(lǐng)域的研究熱點(diǎn)和整體發(fā)展趨勢.文獻(xiàn)[10]基于h指數(shù)和引文分析法梳理了國內(nèi)外碳市場研究領(lǐng)域的研究熱點(diǎn)、發(fā)展趨勢和主要區(qū)域分布等.文獻(xiàn)[11]利用WoSCC收錄的Treg領(lǐng)域相關(guān)文獻(xiàn)數(shù)據(jù)進(jìn)行文獻(xiàn)計(jì)量方法和Citespace[12]繪制共引圖譜,分析該領(lǐng)域的研究熱點(diǎn)和發(fā)展演化趨勢.除此之外,基于主題模型的學(xué)科領(lǐng)域熱點(diǎn)識(shí)別方法也得到了廣泛運(yùn)用,如文獻(xiàn)[13]使用LDA模型從論壇語料中識(shí)別熱點(diǎn)話題,并計(jì)算話題強(qiáng)度和特征關(guān)鍵詞,以找到熱點(diǎn)話題的發(fā)展及演化趨勢,實(shí)驗(yàn)結(jié)果說明該方法是合理和有效的.文獻(xiàn)[14]提出基于主題模型的熱點(diǎn)發(fā)現(xiàn)技術(shù),實(shí)驗(yàn)表明該模型在文本挖掘方面的熱點(diǎn)主題識(shí)別上具有明顯的優(yōu)勢.
相較于專業(yè)學(xué)術(shù)平臺(tái),信息在社會(huì)網(wǎng)絡(luò)環(huán)境下往往傳播速度更快、范圍更廣,更能實(shí)時(shí)地體現(xiàn)傳播對象的冷熱程度及普遍性,充分保證學(xué)科熱點(diǎn)的前沿性.因此,科研文獻(xiàn)在社會(huì)網(wǎng)絡(luò)中的傳播影響力分析對挖掘?qū)W科前沿?zé)狳c(diǎn)具有重要研究意義和應(yīng)用價(jià)值.基于該思想,本文考慮了社會(huì)網(wǎng)絡(luò)中文獻(xiàn)傳播的普及,提出了一種用于熱點(diǎn)主題挖掘的方法.將文獻(xiàn)熱度屬性分為傳統(tǒng)和社會(huì)屬性,然后在社會(huì)網(wǎng)絡(luò)環(huán)境中構(gòu)建文獻(xiàn)熱度評價(jià)模型,計(jì)算和分析文獻(xiàn)關(guān)注度,挖掘具有社會(huì)傳播影響力的學(xué)術(shù)論文.其次,采用LDA算法對文獻(xiàn)內(nèi)容進(jìn)行主題挖掘,生成學(xué)科前沿?zé)狳c(diǎn)主題.與已有的工作相比,本文的主要貢獻(xiàn)在于:
1) 從數(shù)據(jù)相關(guān)性的角度分析文獻(xiàn)傳播的評價(jià)指標(biāo)與文獻(xiàn)熱度的關(guān)聯(lián)性,采用無監(jiān)督學(xué)習(xí)方法進(jìn)行各媒體指標(biāo)的主成分分析,劃分影響文獻(xiàn)熱度的熱度評價(jià)指標(biāo)主題類別,為測度文獻(xiàn)的社會(huì)網(wǎng)絡(luò)關(guān)注度指標(biāo)奠定了基礎(chǔ).
2) 通過挖掘評價(jià)指標(biāo)中的社會(huì)網(wǎng)絡(luò)關(guān)注度因子,構(gòu)建文獻(xiàn)熱度評價(jià)模型,計(jì)算文獻(xiàn)社會(huì)傳播熱度(社會(huì)網(wǎng)絡(luò)關(guān)注度),采用LDA主題模型對文獻(xiàn)內(nèi)容進(jìn)行主題挖掘,生成學(xué)科前沿?zé)狳c(diǎn)主題.
3) 利用Altmetric[8]獲取“artificial intelligence and image processing”學(xué)科的16 658條論文記錄數(shù)據(jù)集,對提出的學(xué)科前沿?zé)狳c(diǎn)挖掘方法進(jìn)行了對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,本文提出的方法有效提高了學(xué)科熱點(diǎn)挖掘結(jié)果的時(shí)效性,熱點(diǎn)主題在時(shí)間維度上與傳統(tǒng)方法相比,挖掘結(jié)果更具有學(xué)科前沿性.
本文工作主要為兩部分:對指標(biāo)數(shù)據(jù)進(jìn)行相關(guān)性分析,采用無監(jiān)督學(xué)習(xí)方法進(jìn)行評價(jià)指標(biāo)的主成分聚類,剖析出影響文獻(xiàn)熱度的媒體指標(biāo)主題類別,挖掘社會(huì)關(guān)注度因子并構(gòu)建文獻(xiàn)熱度評價(jià)模型;采用吉布斯抽樣的LDA模型對科研文獻(xiàn)內(nèi)容進(jìn)行學(xué)科前沿?zé)狳c(diǎn)挖掘,生成學(xué)科前沿?zé)狳c(diǎn)知識(shí).熱點(diǎn)主題挖掘算法具體的方法流程如下所示.
輸入: K=
1.2.1相關(guān)性分析 通過數(shù)據(jù)分析,本文采用皮爾遜(Pearson)相關(guān)性模型挖掘文獻(xiàn)傳播的媒體指標(biāo)與文獻(xiàn)熱度的關(guān)聯(lián)性,計(jì)算其相關(guān)系數(shù)并剔除弱相關(guān)或無相關(guān)的指標(biāo),最終提取出6個(gè)文獻(xiàn)熱度評價(jià)指標(biāo)(Reddit、Bloggers、Twitter、Google+、News、Facebook).皮爾遜相關(guān)系數(shù)是用來反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)量.皮爾遜相關(guān)系數(shù)用PX,Y表示,計(jì)算公式為
(1)
其中:n為樣本量;Xi和Yi分別為兩個(gè)變量X和Y的觀測值;σX為變量X的標(biāo)準(zhǔn)差.
1.2.2熱度評價(jià)模型指標(biāo)主題挖掘 6個(gè)文獻(xiàn)熱度評價(jià)指標(biāo)從不同維度表征了一篇論文在各媒體平臺(tái)的傳播影響力,然而通過研究發(fā)現(xiàn)每個(gè)評價(jià)指標(biāo)及其代表的媒體平臺(tái)都具有一定的主題性.因此,本文考慮采用無監(jiān)督學(xué)習(xí)方法進(jìn)行熱度評價(jià)指標(biāo)的主成分分析,挖掘指標(biāo)主題.進(jìn)行主成分聚類之前,需進(jìn)行KMO-Bartlett檢驗(yàn),計(jì)算出KMO 值為0.690,大于0.5(KMO值小于0.5 不適合進(jìn)行主成分分析)表明指標(biāo)間存在共同因子,因此也說明可以進(jìn)行主成分分析.
雖然這些熱度指標(biāo)能提取出共同因子,這些共同因子能聚類到一起構(gòu)成幾個(gè)主成分,還需通過解釋總方差進(jìn)行分析,各指標(biāo)解釋總方差如表1所示. 根據(jù)主成分的提取原則(主成分對應(yīng)的特征值應(yīng)大于1,主成分積累的總方差盡可能大(50%以上)),只有成分1和成分2的特征值合計(jì)大于1,而且這兩個(gè)成分積累的總方差比較大,達(dá)到61.149%,沒有影響原始數(shù)據(jù)的共同度,表明可以將6個(gè)指標(biāo)提取出兩個(gè)主成分.同時(shí),如表2所示, 對各指標(biāo)進(jìn)行了主成分載荷矩陣,F(xiàn)acebook、Google+、Twitter、Reddit、Bloggers 5類指標(biāo)對成分1貢獻(xiàn)較大,而成分2則主要依賴于News.因此,文獻(xiàn)熱度評價(jià)指標(biāo)可以劃分為兩個(gè)主題:由Facebook、Google+、Twitter、Reddit、Bloggers等社交平臺(tái)構(gòu)成的社會(huì)網(wǎng)絡(luò)媒體即社會(huì)屬性;News為代表的傳統(tǒng)網(wǎng)絡(luò)媒體即傳統(tǒng)屬性.
表1 各指標(biāo)解釋總方差Tab.1 Total variance explained
表2 主成分載荷矩陣Tab.2 Principal component load matrix
1.2.3文獻(xiàn)熱度評價(jià)模型構(gòu)建 由1.2.2節(jié)可知文獻(xiàn)熱度由具有不同主題屬性的6個(gè)評價(jià)指標(biāo)綜合決定,各指標(biāo)特征滿足AHP分析法中的單層次模型,因此采用AHP模型[15]思想構(gòu)建文獻(xiàn)熱度評價(jià)模型:
psoc=λ1·Ri+λ2·Bi+λ3·Ti+λ4·Gi+λ5·Ni+λ6·Fi,
(2)
ptra=γ1·Ri+γ2·Bi+γ3·Ti+γ4·Gi+γ5·Ni+γ6·Fi.
(3)
其中:psoc表示第i篇文獻(xiàn)在社會(huì)網(wǎng)絡(luò)媒體上的關(guān)注度,即文獻(xiàn)熱度;ptra表示第i篇文獻(xiàn)在傳統(tǒng)網(wǎng)絡(luò)媒體上的關(guān)注度;λ1代表Reddit指標(biāo)的權(quán)重;Ri代表Reddit對第i篇文獻(xiàn)的引用數(shù);λi是指第i個(gè)評價(jià)指標(biāo)在整體評價(jià)中的相對重要程度,權(quán)重越大則該指標(biāo)的重要性越高,對文獻(xiàn)熱度的影響就越大.
表3 成分得分系數(shù)矩陣Tab.3 Component score coefficient matrix
由熱度評價(jià)指標(biāo)主題類別可知,本文可采用主成分分析提取兩個(gè)主成分,借鑒文獻(xiàn)[16]使用主成分分析各指標(biāo)數(shù)據(jù)之間的潛在關(guān)系,利用回歸法計(jì)算出成分得分系數(shù),各指標(biāo)成分得分實(shí)際上是一個(gè)相對值,即該樣本偏離所有樣本均值的程度,正值說明超過平均水平,負(fù)值說明低于平均水平,正負(fù)值正好將各指標(biāo)劃分到對應(yīng)的主成分中,能很好地區(qū)分各主成分的主題類別,結(jié)果如表3.
從表3可知,Twitter、Facebook、Google+等指標(biāo)與主成分1密切相關(guān),系數(shù)均在0.2以上,由此可以發(fā)現(xiàn)主成分1中貢獻(xiàn)比較大的指標(biāo)主要用于測度學(xué)術(shù)論文在社會(huì)網(wǎng)絡(luò)媒體中的傳播影響,通過在線社交過程中的交互行為傳播所產(chǎn)生的影響力,是最具社會(huì)網(wǎng)絡(luò)關(guān)注度的因子,也是本文研究的重點(diǎn).News對主成分2相關(guān)系數(shù)較高,故主成分2可以代表用于測度學(xué)術(shù)論文在新聞等傳統(tǒng)網(wǎng)絡(luò)媒體中傳播所產(chǎn)生的影響力.從成分得分系數(shù)矩陣確定指標(biāo)權(quán)重得到文獻(xiàn)熱度評價(jià)模型:
psoc=0.22·Ri+0.237·Bi+0.285·Ti+0.289·Gi+0.185·Ni+0.307·Fi,
(4)
ptra=-0.088·Ri+0.495·Bi-0.294·Ti-0.27·Gi+0.648·Ni-0.182·Fi.
(5)
本文利用Altmetric跟蹤“artificial intelligence and image processing”學(xué)科的指標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析與處理,構(gòu)建文獻(xiàn)熱度評價(jià)模型.因?yàn)樯鐣?huì)網(wǎng)絡(luò)媒體具有時(shí)間優(yōu)勢.故以主成分1構(gòu)建的具有社會(huì)網(wǎng)絡(luò)關(guān)注度的文獻(xiàn)熱度評價(jià)模型進(jìn)行學(xué)科前沿?zé)狳c(diǎn)數(shù)據(jù)挖掘?qū)嶒?yàn).通過該模型挖掘出社會(huì)網(wǎng)絡(luò)媒體上比較受用戶關(guān)注以及具有熱度的前沿?zé)狳c(diǎn)文獻(xiàn)數(shù)據(jù),列舉了社會(huì)網(wǎng)絡(luò)關(guān)注度排名前10的文獻(xiàn)數(shù)據(jù),結(jié)果如表4所示.
表4 社會(huì)網(wǎng)絡(luò)關(guān)注度排名前10文獻(xiàn)數(shù)據(jù)
從表4可知,在排名靠前的這10篇文獻(xiàn)中,Twitter、Facebook和Google+等社會(huì)網(wǎng)絡(luò)媒體上的文獻(xiàn)引用數(shù)較大,其社會(huì)網(wǎng)絡(luò)關(guān)注度的psoc值較大,說明通過主成分1構(gòu)建的文獻(xiàn)熱度評價(jià)模型能很好地體現(xiàn)文獻(xiàn)的社會(huì)網(wǎng)絡(luò)特性以及熱度.
由基于社交網(wǎng)絡(luò)的模型評估的文獻(xiàn)數(shù)據(jù)被表示為dataset 1,而dataset 2表示由基于傳統(tǒng)媒體的模型評估的文獻(xiàn)數(shù)據(jù).為了評估這兩種模型挖掘出的文獻(xiàn)在人工智能和圖像領(lǐng)域的影響,本文引入NCII指數(shù)來測量文獻(xiàn)的影響力.論文的引用次數(shù)與其出版時(shí)間有很大關(guān)系,一般來說,論文出版時(shí)間越早,引用的可能性就越大.這導(dǎo)致在不同時(shí)間出版的論文很難比較它們的影響力.因此,考慮到出版時(shí)間對參考文獻(xiàn)數(shù)量的影響,因此提出了一種新的NCII指數(shù)[17],其計(jì)算公式為
(6)
以最近五年內(nèi)的文獻(xiàn)作為前沿信息,通過式(6)計(jì)算傳統(tǒng)媒體和社交網(wǎng)絡(luò)媒體的文獻(xiàn)影響力,驗(yàn)證兩種媒體識(shí)別出的科研文獻(xiàn)的時(shí)效性及影響力,結(jié)果如圖1所示.從圖中可知,社交媒體挖掘的文獻(xiàn)的影響力值均大于傳統(tǒng)媒體,說明社會(huì)網(wǎng)絡(luò)媒體挖掘的文獻(xiàn)數(shù)據(jù)更具時(shí)效性和影響力.
利用吉布斯抽樣的LDA主題模型,以dataset 1為實(shí)驗(yàn)數(shù)據(jù)挖掘出50個(gè)潛在主題及其代表關(guān)鍵詞.主題是由一系列關(guān)鍵詞組成,而每個(gè)詞對主題的貢獻(xiàn)率各不相同,因此,選擇每個(gè)主題貢獻(xiàn)率最大的8個(gè)單詞表征該熱點(diǎn)主題.根據(jù)不同主題的關(guān)鍵詞表示,本文對各個(gè)熱點(diǎn)主題進(jìn)行話題語義抽象.由于篇幅有限,表5給出了10個(gè)主題的挖掘結(jié)果.
同時(shí),本文分析了主題模型計(jì)算出的潛在話題分布情況如圖2所示,從圖2可知,自然語言處理、算法優(yōu)化、情感分析、深度學(xué)習(xí)等熱點(diǎn)主題在“artificial intelligence and image processing”領(lǐng)域較其他主題占的比重較大,更為熱門;而圖像識(shí)別、大數(shù)據(jù)應(yīng)用、可視化等熱點(diǎn)主題在該領(lǐng)域發(fā)展較為均衡.
本文以dataset 1和dataset 2為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行學(xué)科熱點(diǎn)主題挖掘,選取對熱點(diǎn)主題貢獻(xiàn)最大的文獻(xiàn)的發(fā)表時(shí)間作為該主題的熱點(diǎn)時(shí)間對比分析,兩種媒體類型挖掘的熱點(diǎn)主題對比結(jié)果如表6所示.
圖1 社會(huì)網(wǎng)絡(luò)與傳統(tǒng)媒體NCII影響力Fig.1 The NCII of social-network and tradition-media influence
圖2 熱點(diǎn)主題潛在話題分布Fig.2 Potential topics distribution of hotspots
表5 前沿?zé)狳c(diǎn)主題
從表6可知,兩者有2個(gè)熱點(diǎn)話題相似,其中相似話題“情感分析”和“自然語言處理”的熱點(diǎn)時(shí)間不同,社會(huì)網(wǎng)絡(luò)媒體挖掘的這兩個(gè)熱點(diǎn)主題時(shí)間比較新,原因是隨著深度學(xué)習(xí)的深入研究,直接推動(dòng)情感分析和自然語言處理等相關(guān)技術(shù)的發(fā)展,使兩者也成了較新的研究熱點(diǎn).除了共同熱點(diǎn)外,社會(huì)網(wǎng)絡(luò)媒體挖掘的熱點(diǎn)主題還包含一些特有的前沿?zé)狳c(diǎn)信息,如“社會(huì)信息安全”、“大數(shù)據(jù)應(yīng)用”、“算法優(yōu)化”和“可視化”等,這些熱點(diǎn)概念提出時(shí)間較晚,概念較新,近年來在學(xué)術(shù)著作中有大量的研究,其熱門趨勢也越來越明顯,故也成了該領(lǐng)域的研究熱點(diǎn).
同時(shí),為了進(jìn)一步驗(yàn)證本文方法的挖掘結(jié)果更具學(xué)科準(zhǔn)確性,以dataset 1為數(shù)據(jù)分別采用LDA主題模型和基于關(guān)鍵詞的共詞分析法[14]進(jìn)行學(xué)科前沿?zé)狳c(diǎn)挖掘?qū)Ρ葘?shí)驗(yàn),表7給出了這兩種方法的熱點(diǎn)挖掘結(jié)果.
從表7可得,兩種方法挖掘的熱點(diǎn)有30%是相似的.本文挖掘“人工智能與圖像處理”領(lǐng)域的前沿?zé)狳c(diǎn),主題模型挖掘出關(guān)于圖像處理方面的熱點(diǎn)有“圖像識(shí)別”,其在2015年過后被廣泛關(guān)注,是該領(lǐng)域的研究熱點(diǎn);然而傳統(tǒng)的研究方法并沒有挖掘出關(guān)于圖像方面的熱點(diǎn),故該方法存在一定的不足.除上述熱點(diǎn)主題均只通過主題模型挖掘出,傳統(tǒng)研究方法也并未挖掘出“深度學(xué)習(xí)”、“文本挖掘”、“可視化”、“社會(huì)信息安全”等新技術(shù)或新熱點(diǎn).通過知網(wǎng)學(xué)術(shù)趨勢(http://trend.cnki.net/TrendSearch/),查詢各熱點(diǎn)主題發(fā)展趨勢,以學(xué)術(shù)關(guān)注度最大的年份作為該熱點(diǎn)主題的學(xué)術(shù)關(guān)注時(shí)間;發(fā)現(xiàn)共詞分析法挖掘的熱點(diǎn) “決策支持”、“行為研究”、“推理”和“認(rèn)知科學(xué)理論”最大學(xué)術(shù)關(guān)注度的時(shí)間偏離目前時(shí)間,說明其研究已久,故不能作為該領(lǐng)域的前沿?zé)狳c(diǎn);總體而言,主題模型挖掘的熱點(diǎn)較共詞分析法挖掘的熱點(diǎn)更準(zhǔn)確.
表6 兩種媒體類型挖掘的熱點(diǎn)主題對比Tab.6 Hot topic results comparison of two media types
表7 兩種方法熱點(diǎn)主題挖掘結(jié)果對比Tab.7 Hotspot mining results comparison of two methods
針對以往挖掘?qū)W科前沿?zé)狳c(diǎn)存在時(shí)滯過長等不足,本文提出基于社會(huì)網(wǎng)絡(luò)關(guān)注度的學(xué)科領(lǐng)域文獻(xiàn)熱度評價(jià)模型挖掘?qū)W科前沿?zé)狳c(diǎn).通過對各指標(biāo)進(jìn)行相關(guān)性獲取相關(guān)屬性,采用主成分分析劃分社會(huì)與傳統(tǒng)屬性,構(gòu)建具有社會(huì)網(wǎng)絡(luò)關(guān)注度的文獻(xiàn)熱度評價(jià)模型.以“artificial intelligence and image processing”學(xué)科文獻(xiàn)記錄數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),利用構(gòu)建的文獻(xiàn)熱度評價(jià)模型識(shí)別該學(xué)科有影響力和熱度的文獻(xiàn),由于文獻(xiàn)內(nèi)容冗余和有噪聲,故本文采用在文本抽取中效果較好的LDA模型,通過兩組對比實(shí)驗(yàn),得出自然語言處理、算法優(yōu)化、情感分析、深度學(xué)習(xí)等熱點(diǎn)主題在人工智能和圖像處理領(lǐng)域較其他主題更為熱門,圖像識(shí)別,大數(shù)據(jù)應(yīng)用、可視化、人工智能理論、信息安全等熱點(diǎn)發(fā)展趨勢較均衡的結(jié)論,同時(shí)也驗(yàn)證了本文挖掘的學(xué)科領(lǐng)域前沿?zé)狳c(diǎn)知識(shí)的前沿性、時(shí)效性和準(zhǔn)確性.