張長(zhǎng)宏,張明亮
(青海民族大學(xué))
基于內(nèi)容和引用的科學(xué)領(lǐng)域主題的發(fā)現(xiàn)
張長(zhǎng)宏,張明亮
(青海民族大學(xué))
結(jié)合了文獻(xiàn)的引用和內(nèi)容,將內(nèi)容相似度和引用相似度融合形成統(tǒng)一的語(yǔ)義空間,譜聚類后發(fā)現(xiàn)更準(zhǔn)確的主題.最后以IEEE VIS 頂級(jí)會(huì)議的文獻(xiàn)為數(shù)據(jù)集進(jìn)行了驗(yàn)證,顯示有較好的效果.
主題發(fā)現(xiàn);引用分析;內(nèi)容分析;IEEEVIS文獻(xiàn)
發(fā)現(xiàn)科學(xué)領(lǐng)域內(nèi)的主要研究?jī)?nèi)容及未來(lái)方向,對(duì)于科學(xué)管理部門做好后期的規(guī)劃有著重要的指導(dǎo)意義,也對(duì)研究者對(duì)一個(gè)研究領(lǐng)域的了解、熟悉及提高研究效率有著重要意義.對(duì)科學(xué)文獻(xiàn)研究傳統(tǒng)的方法以引用分析為主要分析方法,1964年Martyn J.提出了耦合分析法[1],1965年Garfield提出了引用分析[2],1973年Small H提出了共引分析[3],并成為分析文獻(xiàn)的主要方法.他們都以通過(guò)文獻(xiàn)的引用關(guān)系來(lái)進(jìn)行聚類,再通過(guò)每個(gè)類中最關(guān)鍵的文獻(xiàn)來(lái)確定該類的研究主題,能夠較好的發(fā)現(xiàn)科學(xué)領(lǐng)域的主要研究方向.但是都有一定的滯后,對(duì)于未來(lái)的研究方向總是有一個(gè)延遲.2004 年,陳超美提出了分析知識(shí)領(lǐng)域演化情況的可視化分析方法,并基于Java語(yǔ)言研究開發(fā)了知識(shí)圖譜繪制軟件 Citespace Ⅰ[4],具有時(shí)序分割、 同被引聚類、 尋徑網(wǎng)絡(luò)、 時(shí)序網(wǎng)絡(luò)可視化分析等功能.2006年又推出了Citespace Ⅱ[5],其版本不斷的更新.后來(lái)將共現(xiàn)的思想應(yīng)用于文獻(xiàn)的關(guān)鍵詞來(lái)構(gòu)建共詞網(wǎng)絡(luò)進(jìn)行科學(xué)領(lǐng)域的研究,對(duì)共詞網(wǎng)絡(luò)進(jìn)行聚類來(lái)發(fā)現(xiàn)主要的學(xué)科研究方向,但是詞匯量相對(duì)較少,不能很好的反映研究的科學(xué)方向.隨著自然語(yǔ)言處理技術(shù)的進(jìn)步,提出了主題模型,能較好的反映文本的內(nèi)容,如LSA,PLSA,LDA[6]等主題模型,并在許多領(lǐng)域得到了廣泛使用.但是該本的維度比較高,其噪音也比較高.
針對(duì)上面的問(wèn)題,提出將文本內(nèi)容與引用關(guān)系結(jié)合,將兩個(gè)語(yǔ)義空間中對(duì)象關(guān)系表示到一個(gè)統(tǒng)一的語(yǔ)義空間,再對(duì)其融合后的矩陣進(jìn)行譜聚類,提取更準(zhǔn)確的主題.
為了提取主題,分三步來(lái)做,分別是文本內(nèi)容相似度計(jì)算、文本引用相似度的計(jì)算、兩個(gè)相似度矩陣合并后再進(jìn)行譜聚類,并提取各個(gè)主題的主要關(guān)鍵詞.
1.1文本相似度的計(jì)算
將收集的文獻(xiàn)集的題目和摘要作為每一篇文獻(xiàn)的文本內(nèi)容,進(jìn)行分詞后,統(tǒng)計(jì)每個(gè)詞的詞頻TF,并計(jì)算每個(gè)詞逆文檔頻率IDF,兩者的乘積就得個(gè)詞的TFIDF.當(dāng)某個(gè)詞的TFIDF越高,表示它對(duì)文章越重要,故常用排名最靠前的幾個(gè)詞來(lái)表示文獻(xiàn)的內(nèi)容,也可用一個(gè)類中排名前幾位的關(guān)鍵詞來(lái)表示一個(gè)類的內(nèi)容.最后按照余弦公式(1)來(lái)計(jì)算兩篇文獻(xiàn)的相似度,其值越大,表示兩篇文獻(xiàn)越相似.分子表示兩篇文獻(xiàn)中所有相同單詞的TFIDF差值的平方和,分母表示兩篇文獻(xiàn)各自的所有單詞的TFIDF值的平方和的平方根的乘積.
(1)
1.2文本引用相似度的計(jì)算
根據(jù)文獻(xiàn)的參考文獻(xiàn)建立文獻(xiàn)的引用矩陣,任意兩個(gè)文獻(xiàn)的相似度用公式(2)來(lái)計(jì)算.當(dāng)兩個(gè)文獻(xiàn)的參考文獻(xiàn)相同越多,兩個(gè)文獻(xiàn)的主題越相似.但是這樣構(gòu)建的矩陣稀疏,分子表示兩篇文獻(xiàn)共同的參考文獻(xiàn)數(shù)量,分母表示所有參考文獻(xiàn)中有共同參考文獻(xiàn)的最大值.
(2)
1.3相似度矩陣的合并及聚類
為了將引用關(guān)系和內(nèi)容相似統(tǒng)一到一個(gè)語(yǔ)義空間,采用公式(3)進(jìn)行合并得到混合矩陣W,認(rèn)為引用關(guān)系和內(nèi)容的影響是相同的,再利用譜聚類方法對(duì)此矩陣進(jìn)行聚類.
(3)
也可以將上面的相似度矩陣轉(zhuǎn)換成距離矩陣,因?yàn)橄嗨贫茸畲笾凳?,最小值是0,故用全1矩陣減去相似度矩陣得到距離矩陣,再采用Kmeans等方法進(jìn)行聚類得到各個(gè)主題.該實(shí)驗(yàn)中采用了譜聚類算法[7],其類算法如下:
(1)把矩陣W的每一列元素加起來(lái)得到N個(gè)數(shù),得到對(duì)角矩陣D,并把W-D的結(jié)果記為拉普拉斯矩陣L=D—W.
(2)求出L的前k個(gè)特征值(前k個(gè)指按照特征值的大小從小到大排序),以及對(duì)應(yīng)的特征向量.
(3)把這k個(gè)特征向量排列在一起組成一個(gè)N×k的矩陣,使用 K-means 算法進(jìn)行聚類.引用關(guān)系和內(nèi)容相似度矩陣的合并的本質(zhì),直觀的講,就是在主題相似的基礎(chǔ)上,提高了主引用文獻(xiàn)的相似性,從而保證了聚類有著更高的準(zhǔn)確性.認(rèn)為引用關(guān)系和文獻(xiàn)內(nèi)容是同等重要,故對(duì)融合矩陣的權(quán)重都設(shè)為了0.5.如果下一步進(jìn)行深入研究,可以去調(diào)整兩個(gè)矩陣的權(quán)重使其達(dá)到合理的值,但要保證權(quán)重之和要為1.
最后根據(jù)各個(gè)類中的文獻(xiàn),提出TDIDF最高的10個(gè)詞來(lái)表示各個(gè)類的內(nèi)容,TFIDF的值越高,對(duì)應(yīng)的詞越能表示文獻(xiàn)的主題.
隨著人們生活中的數(shù)據(jù)指數(shù)級(jí)的增長(zhǎng),不僅要求數(shù)據(jù)處理技術(shù)不斷提高,而且需要快速的解讀數(shù)據(jù)中信息,可視化技術(shù)為人們提供了去發(fā)現(xiàn)、分析,探索數(shù)據(jù)中的現(xiàn)象和規(guī)律,這幾年發(fā)展非常迅速.可視化現(xiàn)已廣泛應(yīng)用于生命醫(yī)學(xué)、材料、天文物理、氣候模擬,金融等領(lǐng)域的數(shù)據(jù)分析,一方面是為了驗(yàn)證數(shù)據(jù)方面的有效性,另一方面是揭示可視化領(lǐng)域主要的研究?jī)?nèi)容和現(xiàn)在主要的研究趨勢(shì),故筆者采用了可視化領(lǐng)域最高級(jí)別的會(huì)議IEEE VIS(1990-2015)的數(shù)據(jù)做為數(shù)據(jù)集.2016年,Isenberg P[8]對(duì)可視化頂級(jí)會(huì)議IEEE VIS所發(fā)表的所有的文獻(xiàn)進(jìn)行了整理,剔除和修正了所有的文獻(xiàn)信息.將可視化會(huì)議由三個(gè)會(huì)議科學(xué)可視化,信息可視化,可視分析、科學(xué)與技術(shù)(VAST)的發(fā)展進(jìn)行了總結(jié),并提供網(wǎng)站可以下載數(shù)據(jù)集.數(shù)據(jù)集來(lái)源于[9],總共有2803篇文獻(xiàn),剔除沒(méi)有摘要的,總共2702篇.表1就是剔除后每年的文獻(xiàn)情況.
表1 文獻(xiàn)分年統(tǒng)計(jì)情況
2.1主題的提取
采用上面的方法,首先提取了一元和二元的單詞,建立所有文獻(xiàn)的tfidf矩陣,以及引用矩陣.根據(jù)tfidf矩陣中平均值最高的筆者采用了2000維的數(shù)據(jù),按照余弦相似度公式(1)來(lái)計(jì)算文獻(xiàn)間的相似度.對(duì)于引用矩陣,只考慮了引用IEEE VIS 中的論文情況,是個(gè)稀疏矩陣,使用了兩個(gè)文獻(xiàn)中引用相同文獻(xiàn)的數(shù)量作為分子,而將引用矩陣中引用數(shù)量的最大值做為分母,再按公式(3)計(jì)算得到文獻(xiàn)引用的相似度矩陣.最后使用譜聚類算法得到所有主題,并提取tfidf值最高的10個(gè)詞做為類的標(biāo)識(shí).表2是所有主題的主要關(guān)鍵詞.表中的主題是按平均強(qiáng)度來(lái)排名,自上而下,主題的強(qiáng)度不斷減弱.根據(jù)文獻(xiàn)和關(guān)鍵詞為每個(gè)類提供了一個(gè)標(biāo)簽.
表2 文獻(xiàn)集主題及對(duì)應(yīng)的關(guān)鍵詞
2.2主題的分析
從圖1看到各個(gè)主題的變化趨勢(shì),可以看到主題1一直是最強(qiáng)的,由于可視化的應(yīng)用領(lǐng)域的多樣性和研究方法的多樣性.主題4基因數(shù)據(jù)和社區(qū)網(wǎng)絡(luò)數(shù)據(jù)的研究從2004年開始一直不斷的增長(zhǎng),是第二個(gè)熱門的研究主題.主題7時(shí)空數(shù)據(jù)的也在不斷的增強(qiáng),尤其是2013年以后,隨著移動(dòng)網(wǎng)絡(luò)的快速發(fā)展,其數(shù)據(jù)量大,而且非常有應(yīng)用價(jià)值,能及時(shí)發(fā)現(xiàn)一些規(guī)律,是第三個(gè)熱門的主題.比較獨(dú)特是主題2虛擬現(xiàn)實(shí),90年代初期,是個(gè)研究的熱點(diǎn),但是慢慢的減弱,但從2011以后慢慢又熱了起來(lái),尤其現(xiàn)在隨著硬件技術(shù)的發(fā)展,虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)越來(lái)越熱.主題3表面建模自上世紀(jì)90年代初期,逐漸成為最熱門的主題,但是自2005年后就其研究的熱度不斷的下降.
圖1 主題的強(qiáng)度年度變化趨勢(shì)圖
該文將文獻(xiàn)的內(nèi)容相似度矩陣和引用相似度矩陣融合為一個(gè)矩陣,采用了譜聚類算法提取了可視化領(lǐng)域的最高級(jí)別的會(huì)議(IEEE VIST)1990~2015年的所有文獻(xiàn)的主題,分析了主題的發(fā)展趨勢(shì),發(fā)現(xiàn)了比較熱門的主題.實(shí)驗(yàn)證明對(duì)準(zhǔn)確度有一定的提高,同時(shí)也為可視化領(lǐng)域的內(nèi)容和發(fā)展的趨勢(shì)進(jìn)行了分析.
[1] Martyn J.BIBLIOGRAPHIC COUPLING[J].Journal of Documentation,1964,20(4):236-236.
[2] Garfield E.Use of citation data in writing the history of science[J].Isis,1965(Volume 56,Number 4).
[3] Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265-269.
[4] Chen C M. Searching for intellectual turning points:progressive knowledge domain visualization[J] . Proceedings of the National Academy of Sciences of the United States of America( PNAS) ,2004( 1) :5303 - 5310.
[5] Chen C M. CiteSpace II:detecting and visualizing emerging trends and transient patterns in scientific literature [J] . Journal of the American Society for Information Science and Technology,2006,57( 3) :359 - 377.
[6] Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[7] Zha H,He X,Ding C,et al.Spectral relaxation for K-means clustering[C] International Conference on Neural Information Processing Systems:Natural and Synthetic.MIT Press,2001:1057-1064.
[8] Isenberg P,Heimerl F,Koch S,et al.Vispubdata.org:A Metadata Collection about IEEE Visualization (VIS) Publications[J].IEEE Transactions on Visualization & Computer Graphics,2016,PP(99):1-1.
Abstract:Traditional topic analysis in the field of science mainly uses citation analysis.With the development of natural language processing technology,content-based analysis technology has been widely used.They have their own advantages.This paper combines the references and contents of the literature,and merges the similarity of content and the similarity of reference to form a unified semantic space.Using spectral clustering,we detect a more accurate topic.Finally,the datasetsof the IEEE VIS top conference literature has been verified,showing a better effect.
Keywords:Topic detection; Citation analysis; Content analysis; IEEEVIS literature
(責(zé)任編輯:李家云)
TheTopicsDetectionBasedonContentandReferencesintheScienceField
Zhang Changhong,Zhang Mingliang
(Qinghai Nationalities University)
TP393
A
1000-5617(2017)02-0100-04
2017-01-14