亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容和引用的科學(xué)領(lǐng)域主題的發(fā)現(xiàn)

        2017-10-09 07:44:52張長(zhǎng)宏張明亮
        關(guān)鍵詞:可視化文本內(nèi)容

        張長(zhǎng)宏,張明亮

        (青海民族大學(xué))

        基于內(nèi)容和引用的科學(xué)領(lǐng)域主題的發(fā)現(xiàn)

        張長(zhǎng)宏,張明亮

        (青海民族大學(xué))

        結(jié)合了文獻(xiàn)的引用和內(nèi)容,將內(nèi)容相似度和引用相似度融合形成統(tǒng)一的語(yǔ)義空間,譜聚類后發(fā)現(xiàn)更準(zhǔn)確的主題.最后以IEEE VIS 頂級(jí)會(huì)議的文獻(xiàn)為數(shù)據(jù)集進(jìn)行了驗(yàn)證,顯示有較好的效果.

        主題發(fā)現(xiàn);引用分析;內(nèi)容分析;IEEEVIS文獻(xiàn)

        0 引言

        發(fā)現(xiàn)科學(xué)領(lǐng)域內(nèi)的主要研究?jī)?nèi)容及未來(lái)方向,對(duì)于科學(xué)管理部門做好后期的規(guī)劃有著重要的指導(dǎo)意義,也對(duì)研究者對(duì)一個(gè)研究領(lǐng)域的了解、熟悉及提高研究效率有著重要意義.對(duì)科學(xué)文獻(xiàn)研究傳統(tǒng)的方法以引用分析為主要分析方法,1964年Martyn J.提出了耦合分析法[1],1965年Garfield提出了引用分析[2],1973年Small H提出了共引分析[3],并成為分析文獻(xiàn)的主要方法.他們都以通過(guò)文獻(xiàn)的引用關(guān)系來(lái)進(jìn)行聚類,再通過(guò)每個(gè)類中最關(guān)鍵的文獻(xiàn)來(lái)確定該類的研究主題,能夠較好的發(fā)現(xiàn)科學(xué)領(lǐng)域的主要研究方向.但是都有一定的滯后,對(duì)于未來(lái)的研究方向總是有一個(gè)延遲.2004 年,陳超美提出了分析知識(shí)領(lǐng)域演化情況的可視化分析方法,并基于Java語(yǔ)言研究開發(fā)了知識(shí)圖譜繪制軟件 Citespace Ⅰ[4],具有時(shí)序分割、 同被引聚類、 尋徑網(wǎng)絡(luò)、 時(shí)序網(wǎng)絡(luò)可視化分析等功能.2006年又推出了Citespace Ⅱ[5],其版本不斷的更新.后來(lái)將共現(xiàn)的思想應(yīng)用于文獻(xiàn)的關(guān)鍵詞來(lái)構(gòu)建共詞網(wǎng)絡(luò)進(jìn)行科學(xué)領(lǐng)域的研究,對(duì)共詞網(wǎng)絡(luò)進(jìn)行聚類來(lái)發(fā)現(xiàn)主要的學(xué)科研究方向,但是詞匯量相對(duì)較少,不能很好的反映研究的科學(xué)方向.隨著自然語(yǔ)言處理技術(shù)的進(jìn)步,提出了主題模型,能較好的反映文本的內(nèi)容,如LSA,PLSA,LDA[6]等主題模型,并在許多領(lǐng)域得到了廣泛使用.但是該本的維度比較高,其噪音也比較高.

        針對(duì)上面的問(wèn)題,提出將文本內(nèi)容與引用關(guān)系結(jié)合,將兩個(gè)語(yǔ)義空間中對(duì)象關(guān)系表示到一個(gè)統(tǒng)一的語(yǔ)義空間,再對(duì)其融合后的矩陣進(jìn)行譜聚類,提取更準(zhǔn)確的主題.

        1 主題的提取方法

        為了提取主題,分三步來(lái)做,分別是文本內(nèi)容相似度計(jì)算、文本引用相似度的計(jì)算、兩個(gè)相似度矩陣合并后再進(jìn)行譜聚類,并提取各個(gè)主題的主要關(guān)鍵詞.

        1.1文本相似度的計(jì)算

        將收集的文獻(xiàn)集的題目和摘要作為每一篇文獻(xiàn)的文本內(nèi)容,進(jìn)行分詞后,統(tǒng)計(jì)每個(gè)詞的詞頻TF,并計(jì)算每個(gè)詞逆文檔頻率IDF,兩者的乘積就得個(gè)詞的TFIDF.當(dāng)某個(gè)詞的TFIDF越高,表示它對(duì)文章越重要,故常用排名最靠前的幾個(gè)詞來(lái)表示文獻(xiàn)的內(nèi)容,也可用一個(gè)類中排名前幾位的關(guān)鍵詞來(lái)表示一個(gè)類的內(nèi)容.最后按照余弦公式(1)來(lái)計(jì)算兩篇文獻(xiàn)的相似度,其值越大,表示兩篇文獻(xiàn)越相似.分子表示兩篇文獻(xiàn)中所有相同單詞的TFIDF差值的平方和,分母表示兩篇文獻(xiàn)各自的所有單詞的TFIDF值的平方和的平方根的乘積.

        (1)

        1.2文本引用相似度的計(jì)算

        根據(jù)文獻(xiàn)的參考文獻(xiàn)建立文獻(xiàn)的引用矩陣,任意兩個(gè)文獻(xiàn)的相似度用公式(2)來(lái)計(jì)算.當(dāng)兩個(gè)文獻(xiàn)的參考文獻(xiàn)相同越多,兩個(gè)文獻(xiàn)的主題越相似.但是這樣構(gòu)建的矩陣稀疏,分子表示兩篇文獻(xiàn)共同的參考文獻(xiàn)數(shù)量,分母表示所有參考文獻(xiàn)中有共同參考文獻(xiàn)的最大值.

        (2)

        1.3相似度矩陣的合并及聚類

        為了將引用關(guān)系和內(nèi)容相似統(tǒng)一到一個(gè)語(yǔ)義空間,采用公式(3)進(jìn)行合并得到混合矩陣W,認(rèn)為引用關(guān)系和內(nèi)容的影響是相同的,再利用譜聚類方法對(duì)此矩陣進(jìn)行聚類.

        (3)

        也可以將上面的相似度矩陣轉(zhuǎn)換成距離矩陣,因?yàn)橄嗨贫茸畲笾凳?,最小值是0,故用全1矩陣減去相似度矩陣得到距離矩陣,再采用Kmeans等方法進(jìn)行聚類得到各個(gè)主題.該實(shí)驗(yàn)中采用了譜聚類算法[7],其類算法如下:

        (1)把矩陣W的每一列元素加起來(lái)得到N個(gè)數(shù),得到對(duì)角矩陣D,并把W-D的結(jié)果記為拉普拉斯矩陣L=D—W.

        (2)求出L的前k個(gè)特征值(前k個(gè)指按照特征值的大小從小到大排序),以及對(duì)應(yīng)的特征向量.

        (3)把這k個(gè)特征向量排列在一起組成一個(gè)N×k的矩陣,使用 K-means 算法進(jìn)行聚類.引用關(guān)系和內(nèi)容相似度矩陣的合并的本質(zhì),直觀的講,就是在主題相似的基礎(chǔ)上,提高了主引用文獻(xiàn)的相似性,從而保證了聚類有著更高的準(zhǔn)確性.認(rèn)為引用關(guān)系和文獻(xiàn)內(nèi)容是同等重要,故對(duì)融合矩陣的權(quán)重都設(shè)為了0.5.如果下一步進(jìn)行深入研究,可以去調(diào)整兩個(gè)矩陣的權(quán)重使其達(dá)到合理的值,但要保證權(quán)重之和要為1.

        最后根據(jù)各個(gè)類中的文獻(xiàn),提出TDIDF最高的10個(gè)詞來(lái)表示各個(gè)類的內(nèi)容,TFIDF的值越高,對(duì)應(yīng)的詞越能表示文獻(xiàn)的主題.

        2 實(shí)驗(yàn)的驗(yàn)證

        隨著人們生活中的數(shù)據(jù)指數(shù)級(jí)的增長(zhǎng),不僅要求數(shù)據(jù)處理技術(shù)不斷提高,而且需要快速的解讀數(shù)據(jù)中信息,可視化技術(shù)為人們提供了去發(fā)現(xiàn)、分析,探索數(shù)據(jù)中的現(xiàn)象和規(guī)律,這幾年發(fā)展非常迅速.可視化現(xiàn)已廣泛應(yīng)用于生命醫(yī)學(xué)、材料、天文物理、氣候模擬,金融等領(lǐng)域的數(shù)據(jù)分析,一方面是為了驗(yàn)證數(shù)據(jù)方面的有效性,另一方面是揭示可視化領(lǐng)域主要的研究?jī)?nèi)容和現(xiàn)在主要的研究趨勢(shì),故筆者采用了可視化領(lǐng)域最高級(jí)別的會(huì)議IEEE VIS(1990-2015)的數(shù)據(jù)做為數(shù)據(jù)集.2016年,Isenberg P[8]對(duì)可視化頂級(jí)會(huì)議IEEE VIS所發(fā)表的所有的文獻(xiàn)進(jìn)行了整理,剔除和修正了所有的文獻(xiàn)信息.將可視化會(huì)議由三個(gè)會(huì)議科學(xué)可視化,信息可視化,可視分析、科學(xué)與技術(shù)(VAST)的發(fā)展進(jìn)行了總結(jié),并提供網(wǎng)站可以下載數(shù)據(jù)集.數(shù)據(jù)集來(lái)源于[9],總共有2803篇文獻(xiàn),剔除沒(méi)有摘要的,總共2702篇.表1就是剔除后每年的文獻(xiàn)情況.

        表1 文獻(xiàn)分年統(tǒng)計(jì)情況

        2.1主題的提取

        采用上面的方法,首先提取了一元和二元的單詞,建立所有文獻(xiàn)的tfidf矩陣,以及引用矩陣.根據(jù)tfidf矩陣中平均值最高的筆者采用了2000維的數(shù)據(jù),按照余弦相似度公式(1)來(lái)計(jì)算文獻(xiàn)間的相似度.對(duì)于引用矩陣,只考慮了引用IEEE VIS 中的論文情況,是個(gè)稀疏矩陣,使用了兩個(gè)文獻(xiàn)中引用相同文獻(xiàn)的數(shù)量作為分子,而將引用矩陣中引用數(shù)量的最大值做為分母,再按公式(3)計(jì)算得到文獻(xiàn)引用的相似度矩陣.最后使用譜聚類算法得到所有主題,并提取tfidf值最高的10個(gè)詞做為類的標(biāo)識(shí).表2是所有主題的主要關(guān)鍵詞.表中的主題是按平均強(qiáng)度來(lái)排名,自上而下,主題的強(qiáng)度不斷減弱.根據(jù)文獻(xiàn)和關(guān)鍵詞為每個(gè)類提供了一個(gè)標(biāo)簽.

        表2 文獻(xiàn)集主題及對(duì)應(yīng)的關(guān)鍵詞

        2.2主題的分析

        從圖1看到各個(gè)主題的變化趨勢(shì),可以看到主題1一直是最強(qiáng)的,由于可視化的應(yīng)用領(lǐng)域的多樣性和研究方法的多樣性.主題4基因數(shù)據(jù)和社區(qū)網(wǎng)絡(luò)數(shù)據(jù)的研究從2004年開始一直不斷的增長(zhǎng),是第二個(gè)熱門的研究主題.主題7時(shí)空數(shù)據(jù)的也在不斷的增強(qiáng),尤其是2013年以后,隨著移動(dòng)網(wǎng)絡(luò)的快速發(fā)展,其數(shù)據(jù)量大,而且非常有應(yīng)用價(jià)值,能及時(shí)發(fā)現(xiàn)一些規(guī)律,是第三個(gè)熱門的主題.比較獨(dú)特是主題2虛擬現(xiàn)實(shí),90年代初期,是個(gè)研究的熱點(diǎn),但是慢慢的減弱,但從2011以后慢慢又熱了起來(lái),尤其現(xiàn)在隨著硬件技術(shù)的發(fā)展,虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)越來(lái)越熱.主題3表面建模自上世紀(jì)90年代初期,逐漸成為最熱門的主題,但是自2005年后就其研究的熱度不斷的下降.

        圖1 主題的強(qiáng)度年度變化趨勢(shì)圖

        3 結(jié)束語(yǔ)

        該文將文獻(xiàn)的內(nèi)容相似度矩陣和引用相似度矩陣融合為一個(gè)矩陣,采用了譜聚類算法提取了可視化領(lǐng)域的最高級(jí)別的會(huì)議(IEEE VIST)1990~2015年的所有文獻(xiàn)的主題,分析了主題的發(fā)展趨勢(shì),發(fā)現(xiàn)了比較熱門的主題.實(shí)驗(yàn)證明對(duì)準(zhǔn)確度有一定的提高,同時(shí)也為可視化領(lǐng)域的內(nèi)容和發(fā)展的趨勢(shì)進(jìn)行了分析.

        [1] Martyn J.BIBLIOGRAPHIC COUPLING[J].Journal of Documentation,1964,20(4):236-236.

        [2] Garfield E.Use of citation data in writing the history of science[J].Isis,1965(Volume 56,Number 4).

        [3] Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265-269.

        [4] Chen C M. Searching for intellectual turning points:progressive knowledge domain visualization[J] . Proceedings of the National Academy of Sciences of the United States of America( PNAS) ,2004( 1) :5303 - 5310.

        [5] Chen C M. CiteSpace II:detecting and visualizing emerging trends and transient patterns in scientific literature [J] . Journal of the American Society for Information Science and Technology,2006,57( 3) :359 - 377.

        [6] Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [7] Zha H,He X,Ding C,et al.Spectral relaxation for K-means clustering[C] International Conference on Neural Information Processing Systems:Natural and Synthetic.MIT Press,2001:1057-1064.

        [8] Isenberg P,Heimerl F,Koch S,et al.Vispubdata.org:A Metadata Collection about IEEE Visualization (VIS) Publications[J].IEEE Transactions on Visualization & Computer Graphics,2016,PP(99):1-1.

        Abstract:Traditional topic analysis in the field of science mainly uses citation analysis.With the development of natural language processing technology,content-based analysis technology has been widely used.They have their own advantages.This paper combines the references and contents of the literature,and merges the similarity of content and the similarity of reference to form a unified semantic space.Using spectral clustering,we detect a more accurate topic.Finally,the datasetsof the IEEE VIS top conference literature has been verified,showing a better effect.

        Keywords:Topic detection; Citation analysis; Content analysis; IEEEVIS literature

        (責(zé)任編輯:李家云)

        TheTopicsDetectionBasedonContentandReferencesintheScienceField

        Zhang Changhong,Zhang Mingliang

        (Qinghai Nationalities University)

        TP393

        A

        1000-5617(2017)02-0100-04

        2017-01-14

        猜你喜歡
        可視化文本內(nèi)容
        基于CiteSpace的足三里穴研究可視化分析
        內(nèi)容回顧溫故知新
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        在808DA上文本顯示的改善
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        中文字幕乱码在线人妻| 精品午夜一区二区三区| 中国农村熟妇性视频| 亚洲熟女乱色综合亚洲图片| 色狠狠一区二区三区香蕉| 无码人妻一区二区三区免费n鬼沢| 亚洲成人免费观看| 婷婷五月亚洲综合图区| 中文字幕日本人妻一区| 日本黄色高清视频久久| 青青草免费手机直播视频| 国产一品二品精品在线| 亚洲狠狠婷婷综合久久久久| 国产精品99无码一区二区| 久久精品国产视频在热| 双乳被一左一右吃着动态图| 国产男女猛烈无遮挡免费视频| 国产女人91精品嗷嗷嗷嗷| 国产精品国产三级国产三不| 综合久久加勒比天然素人| 美丽小蜜桃1一3在线观看| 伊人久久精品无码av一区| 啪啪无码人妻丰满熟妇| 国产精品亚洲欧美天海翼| 狠狠色欧美亚洲综合色黑a| 国内精品嫩模av私拍在线观看| 亚洲中文字幕人成乱码在线| 国产精品亚洲精品日韩已方| 狠狠综合久久av一区二区| 国产精品久久久久国产a级| 免费看国产成年无码av| 无码视频一区=区| 国产亚洲精品在线播放| 美腿丝袜在线一区二区| 韩国三级大全久久网站| 欧洲熟妇乱xxxxx大屁股7| 亚洲一区二区三区在线观看播放 | 乱人妻中文字幕| 亚洲欧美另类激情综合区| 久久AV中文一区二区三区| 精品少妇一区二区三区四区|