亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新興趨勢探測研究綜述

        2018-01-02 15:43:54鐘輝新
        現(xiàn)代情報 2017年12期
        關(guān)鍵詞:文本挖掘復雜網(wǎng)絡文獻計量

        鐘輝新

        〔摘 要〕介紹了新興趨勢等基本概念,在國際國內(nèi)文獻調(diào)研和分析的基礎(chǔ)上,揭示了基于文獻計量學、文本挖掘結(jié)合計量學、復雜網(wǎng)絡理論在新興趨勢探測研究中的進展,最后總結(jié)了新興趨勢研究走向與存在問題。

        〔關(guān)鍵詞〕新興趨勢探測;文獻計量;文本挖掘;復雜網(wǎng)絡;綜述

        DOI:10.3969/j.issn.1008-0821.2017.12.027

        〔中圖分類號〕G257.3 〔文獻標識碼〕A 〔文章編號〕1008-0821(2017)12-0162-06

        〔Abstract〕Firstly,the paper introduced basic concepts such as emerging trends.Secondly,based on the investigation and analysis on the domestic and international literature ,the paper revealed research progress on emerging trend detection which include bibliometrics,text mining combined with bibliometrics,complex network.Finally,the paper summarized the research trends and problems.

        〔Key words〕emerging trend detection;bibliometrics;text mining;complex network;research review

        在知識爆炸式增長、老化加速,科技競爭日趨激烈的背景下,從海量數(shù)據(jù)中探測出特定領(lǐng)域新興趨勢的方法和技術(shù)日益受到各界的重視。新興趨勢探測研究有利于發(fā)現(xiàn)領(lǐng)域研究方向、制定科研政策,深化情報服務和完善科學計量學與情報學相關(guān)理論,具有重要的理論意義和現(xiàn)實意義。

        新興趨勢并沒有統(tǒng)一概念,Kontostathis A等[1]認為新興趨勢就是隨著時間的推移能逐漸引起人們的興趣并被越來越多的學者討論的主題領(lǐng)域;劉玉仙等[2]認為新興趨勢是一個新興的值得深入研究并日趨重要的研究主題,它在科學前沿中形成并通過研究人員的相互引用表現(xiàn)出來;殷蜀梅[3]認為新興趨勢是在某個科學研究領(lǐng)域中備受研究者關(guān)注并且代表未來方向的一組主題領(lǐng)域。因此,新近出現(xiàn)、具有發(fā)展?jié)摿?、高速增長的主題是新興趨勢的主要組成部分。

        探測(Detection)是從中探尋、測度、發(fā)現(xiàn)的意思,新興趨勢探測就是在特定領(lǐng)域中進行探尋、測度、發(fā)現(xiàn)新的新興研究趨勢。Kontostathis A等[1]認為新興趨勢探測(Emerging Trend Detection,ETD)就是發(fā)現(xiàn)某個特定領(lǐng)域中熱點信息的動態(tài)趨勢,并在探測到最新發(fā)展動態(tài)時進行提示的過程。Le M H等[4]把新興趨勢探測過程分為3個主要階段:主題描述(Representation)、主題識別(Identification)、趨勢判斷(Verification)。因此,特定領(lǐng)域的新興趨勢探測一般需要解決3個核心問題:一是如何表示領(lǐng)域內(nèi)主題;二是用什么樣的指標來測度主題;三是采用什么標準來判斷新興趨勢。

        1 總體研究情況

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大量的科技文獻被數(shù)字化并在網(wǎng)絡上傳播,大型數(shù)據(jù)庫收錄的文獻數(shù)量越來越多,覆蓋面越來越廣,相應地基于文獻語料的新興趨勢探測研究也將越來越多。為了從總體上掌握國際國內(nèi)的研究現(xiàn)狀,本研究選擇Web of Science 和CNKI等典型代表數(shù)據(jù)庫作為文獻調(diào)研的對象。

        1.1 國際新興趨勢研究的基本情況

        本研究于2016年12月18日利用Web of Science 的核心合集數(shù)據(jù)庫,選擇時間區(qū)間為1986-2016年,檢索出“新興趨勢(Emerging Trend)”相關(guān)論文418篇。從學科分布看,研究“新興趨勢”最多的學科是INFORMATION SCIENCE LIBRARY SCIENCE,即信息科學與圖書館科學,有56篇;從國家分布看,研究最多的國家是美國,有155篇,其次是中國,有55篇;從文獻類型分布看,在418篇文獻中有255篇ARTICLE,占比超過50%;從時間分布看,新興趨勢探測研究起步于1991年,在2000年以前的年均發(fā)文量一直低于3篇,未成為有效的研究主題,但在2000年以后呈現(xiàn)穩(wěn)步增長的勢頭,尤其是近幾年發(fā)表的文章越來越多,這說明新興趨勢探測研究已經(jīng)成為學者們高度關(guān)注的主題,是國際上的研究熱點或前沿。

        1.2 國內(nèi)新興趨勢研究的基本情況

        本研究于2016年12月18日利用CNKI進行跨庫檢索,結(jié)果為20篇論文。從檢索結(jié)果看,國內(nèi)有關(guān)新興趨勢的研究并不多,在2012年以前每年的發(fā)文量未超過3篇。因為CNKI沒有收錄像《情報學報》這樣的重要期刊,本研究利用萬方數(shù)據(jù)知識服務平臺作進一步的文獻補充調(diào)研。整合CNKI和萬方數(shù)據(jù),經(jīng)過閱讀摘要后,篩選出國內(nèi)與新興趨勢探測密切相關(guān)的文獻32篇,其中有1篇博士論文、6篇碩士論文、26篇期刊論文。研究機構(gòu)主要特點是:大連理工大學的WISE實驗室與陳超美博士聯(lián)合開發(fā)了Citespace,有著穩(wěn)定的研究團隊,該大學的劉則淵教授是中國知識圖譜研究的先驅(qū)之一,指導了不少學生在該領(lǐng)域進行系統(tǒng)研究,因此該大學是國內(nèi)“新興趨勢”研究主要陣地之一;中國科學院有著較為龐大的圖書情報導師團隊,而且在主題演化、識別方面有持續(xù)研究傳統(tǒng),指導完成該領(lǐng)域的博士論文較多,研究實力較強;另外,山東理工大學的白如江在該領(lǐng)域深耕多年,也發(fā)表不少相關(guān)論文,并在2016年申請到國家社科規(guī)劃項目“未來新興科學研究前沿識別研究”。因此,以上3個機構(gòu)未來有可能出現(xiàn)新的研究成果。endprint

        2 相關(guān)研究進展

        2.1 基于文獻計量學方法的相關(guān)研究進展

        文獻計量學方法是通過對文獻作者、引文、期刊來源、機構(gòu)等屬性的統(tǒng)計分析,利用這些屬性及它們之間的關(guān)系隨時間的變化來追溯特定學科領(lǐng)域的研究動向,從而有效地探測新興趨勢。盡管新興趨勢探測的方法已經(jīng)越來越多,但是通過文獻計量特征的統(tǒng)計來探測新興趨勢的方法仍然被最普遍采用。

        2.1.1 文獻外在特征計量分析

        利用文獻外在特征計量指標來判斷知識的增長是一種簡單而實用的方法,如期刊數(shù)量的增長、相對于年齡的論文被引次數(shù)、自引率等。通過一些簡單的文獻計量學指標的歷時變化就可以判別新興研究領(lǐng)域及其趨勢,例如普賴斯指數(shù)(Price Index)、引文半衰期(Median Citation Age)和即年指標(Immediacy Index),其中普賴斯指數(shù)與引文半衰期可以用來衡量文獻老化的速度,一個研究領(lǐng)域內(nèi)文獻的普賴斯指數(shù)越高,引文半衰期越小,表明該研究領(lǐng)域就越“年輕”[5];同樣地,即年指標也可以用來反映論文的被引速度,即年指標值越大,說明論文的被引速度越快,相關(guān)的研究內(nèi)容獲得關(guān)注度就越大。Tu Yining等[6]利用知識老化理論,提出了新穎指數(shù)(NI) 和已發(fā)表量指數(shù)(PVI) 兩個新型指標,以它們的負相關(guān)性判斷新興主題。

        利用文獻外在特征統(tǒng)計方法簡單實用,數(shù)據(jù)容易獲取,指標容易理解,標準單一,決策成本比較低,但由于忽略了文獻外在特征與內(nèi)容的相關(guān)性以及文獻之間的知識傳遞關(guān)系,其精準度會受到一定影響,比較適合低成本快速決策的新興趨勢探測。

        2.1.2 詞頻分析

        詞頻分析法是利用能夠揭示或表達文獻核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域文獻中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點和發(fā)展動向的文獻計量方法[7]。例如,馬費成等[8]利用文獻的關(guān)鍵詞詞頻揭示知識管理的新興主題;鞏永強等[9]通過國內(nèi)情報學領(lǐng)域的詞頻分析歸納出增長型、平穩(wěn)型和下降型3種研究變化趨勢,從而揭示該領(lǐng)域熱點遷移和發(fā)展趨勢;Ito E等[10]利用關(guān)鍵詞的時間系列分析,開發(fā)出一種網(wǎng)絡小說趨勢分析工具作為網(wǎng)頁CGI,該工具不僅顯示查詢詞的發(fā)展趨勢,也顯示了相似詞的發(fā)展趨勢。詞頻是新興趨勢探測中表示主題的常用指標,目前比較流行的ETD系統(tǒng)如ThemeRiver、TOA(Technology Opportunities Analysis)、Timemines、PatentMiner等都采用該指標。

        利用詞頻的統(tǒng)計來探測特定研究領(lǐng)域的新興趨勢,簡單直接,通過歷時的可視化圖形直觀顯示出來,使科研人員能夠快速地掌握特定領(lǐng)域的主題演變。但是,這些指標之間缺乏關(guān)聯(lián),并且對那些低頻的關(guān)鍵詞難以識別,而新興趨勢一般是剛剛出現(xiàn)的,相關(guān)主題詞的詞頻也許并不高,因此詞頻分析比較適合研究熱點識別,對于新興趨勢探測則要通過詞頻變化率來實現(xiàn)。

        2.1.3 引文分析

        引文分析一般分為共被引分析、文獻耦合分析以及直接引用分析3種。3種引文生成知識網(wǎng)絡都可用以探測研究前沿和新興趨勢。Small等利用通過同被引網(wǎng)絡的時間切片和簇演變鏈(Clustering String),將高被引的文獻集合代表關(guān)鍵概念(Concept Symbol)識別各種特定領(lǐng)域的突現(xiàn)和結(jié)構(gòu)的演化;后來又利用隨時間變化共被引簇(Co-citation Clusters)跟蹤研究領(lǐng)域的突現(xiàn)和成長,并預測領(lǐng)域最近屬性的變化[11]。Chen C[12]將知識基礎(chǔ)與研究前沿相結(jié)合,以同被引論文簇作為知識基礎(chǔ)、突發(fā)詞匯表示研究前沿來研究一個領(lǐng)域新興的趨勢、瞬時的概念和潛在的研究問題。韓濤[13]利用潛在知識(Latent Knowledge)演化理論,提出了采用不同閾值層聚類結(jié)構(gòu)間差異性的自動檢測方法,以揭示同被引分析中隱藏在低閾值層的有重要意義的潛在知識簇,從而實現(xiàn)了對研究領(lǐng)域潛在演變趨勢的識別。Morris[14]在文獻耦合聚類的基礎(chǔ)上引入時間軸,以炭疽病的研究為例,利用可視化工具揭示了研究領(lǐng)域主題的產(chǎn)生、發(fā)展和消亡。Shibata N[15]等利用直接引用網(wǎng)絡的拓撲結(jié)構(gòu)演化結(jié)合時間線可視化的方法,對氮化鎵(Gallium Nitride)、復雜網(wǎng)絡(Complex Networks)兩個領(lǐng)域的主題演化進行分析,從中探測這兩個領(lǐng)域的新興趨勢。

        3種引文分析方法在學科前沿和新興趨勢探測上有一定的差異性。Shibata N等[16]比較了這3種引文分析方法用于研究前沿識別時的性能和特點,結(jié)果發(fā)現(xiàn)直接引用關(guān)系可以識別大而且新的研究領(lǐng)域,同時,直接引文網(wǎng)絡獲得的聚集系數(shù)最大,這表明通過直接引文網(wǎng)絡獲得的文獻簇的文獻相似度最大,因此,利用直接引文網(wǎng)絡識別研究前沿的風險性最小。Small H等[17]比較了科技文獻新興趨勢探測中的直接引文網(wǎng)和共引兩種模型,發(fā)現(xiàn)采用直接引文網(wǎng)更具有時效性和選擇性。鑒于3種引文分析方法各有優(yōu)缺點,有學者提出發(fā)揮各種引文網(wǎng)絡的優(yōu)勢,把多種引文分析方法結(jié)合起來共同探測新興趨勢的想法。Boyack K W等[18]將當前文獻加入共引網(wǎng)絡中生成聚類,認為混合引文網(wǎng)絡如有向引用和共被引共存的引文網(wǎng)絡可用于識別新興主題。

        為了克服引文分析忽視內(nèi)容關(guān)聯(lián)的缺點,不少學者將其與引文分析結(jié)合起來應用在新興趨勢探測中。Glenisson P等[19]利用文本內(nèi)容分析結(jié)合計量學指標對 SCIENTOMETRICS 的文章進行分析時,發(fā)現(xiàn)內(nèi)容詞分析和引文分析相結(jié)合的混合方法將會成為未來研究科學結(jié)構(gòu)演化的一種有價值的工具。張琳等[20]利用基于引文和內(nèi)容詞混合的分析方法在“心理學、社會學和教育學領(lǐng)域”進行新興主題的識別。Besselaar等[21]利用詞語—參考文獻的共現(xiàn),以論文的參考文獻做語境來考察從標題中抽取的詞語,揭示研究領(lǐng)域的結(jié)合演化。

        引文分析的方法能有效揭示知識結(jié)構(gòu)的演化,而且可以通過可視化的知識圖譜生動顯示文獻之間的關(guān)聯(lián)和變化,通過聚類方法識別主題,從而推演知識的產(chǎn)生、發(fā)展、成熟和消亡的過程。但是引文分析是對內(nèi)容的一種間接揭示方式,而引文動機多樣化,施引文獻和被引文獻之間的知識關(guān)聯(lián)與引用內(nèi)容有很多不同,因此缺乏語義關(guān)聯(lián)。同時因為引文的產(chǎn)生需要一段時間,滯后性是其明顯的缺點。引文和內(nèi)容詞結(jié)合的分析方法既能揭示科學知識結(jié)構(gòu)變化過程,又能精確揭示知識內(nèi)容之間的關(guān)聯(lián)性。但是這種混合方法缺乏有效理論的支撐,操作上主觀性強,在某個領(lǐng)域能有效識別出新興趨勢,而用同樣的方法在其他領(lǐng)域卻不適合。endprint

        2.2 基于文本挖掘結(jié)合計量相關(guān)研究進展

        單純通過文獻的特征計量分析而忽略文獻的內(nèi)容,顯然已經(jīng)無法滿足新興趨勢探測的需求,因此通過文本挖掘結(jié)合計量的方法就誕生了,比如突發(fā)詞檢測、共詞分析、主題模型等。

        2.2.1 突發(fā)詞檢測

        突發(fā)詞(Burst Word),也稱為爆發(fā)詞,是指在某一時間內(nèi)被大量提及,使用頻次上出現(xiàn)較大跳躍的詞,是知識增長最為顯著的表現(xiàn)。特定領(lǐng)域的文獻流中有關(guān)某一主題的內(nèi)容詞突然出現(xiàn)爆發(fā)式、跳躍式增長,意味著該主題突現(xiàn)增長的勢頭,這對探測特定領(lǐng)域內(nèi)新興趨勢具有重要的意義。Kleinberg J在2002年提出了突發(fā)檢測算法(Burst Detection Algorithm),也被稱為Kleinberg算法。他認為詞的重要性體現(xiàn)在詞出現(xiàn)的密度上而不是在詞出現(xiàn)的時間長短上,即出現(xiàn)頻次的增長率突然加大的詞顯得十分重要[22]。突發(fā)詞側(cè)重的是領(lǐng)域內(nèi)詞之間的增長的比較,隱含了特定領(lǐng)域主題的突發(fā)和增長,能從語義上揭示知識的進化,并且在一定程度上克服常用詞的干擾,無需進行太多詞的預處理。突發(fā)詞也可以反映研究領(lǐng)域局部熱點的變化,揭示領(lǐng)域內(nèi)有潛力的影響因素,有助于發(fā)現(xiàn)推動特定領(lǐng)域發(fā)展的微觀因素[23]。

        Chen C[12]利用Kleinberg算法探測代表研究前沿的專業(yè)術(shù)語,并將其融入追蹤科技前沿的可視化軟件Citespace中,該軟件可以從題目、摘要,關(guān)鍵詞和文獻記錄的標識符中提取突變專業(yè)術(shù)語,從而確定科學前沿。隨著Citespace軟件的廣泛應用,許多學者利用該軟件的突發(fā)詞檢測來研究特定領(lǐng)域的研究前沿和新興趨勢。我國也有不少學者在這方面進行了探索和研究,魏建香[24]利用突現(xiàn)詞發(fā)現(xiàn)交叉學科的研究熱點和前沿動態(tài),王莉亞[25]提出了基于信息熵的時間序列中突變點識別方法,對流域水資源管理領(lǐng)域的不同階段關(guān)鍵詞進行突變檢測,以發(fā)現(xiàn)研究領(lǐng)域主題突變和結(jié)構(gòu)演化。

        突發(fā)詞檢測能從微觀層面發(fā)現(xiàn)特定領(lǐng)域潛在的研究主題的變化,而不是熱點主題,這一點明顯優(yōu)于詞頻分析,而且考慮到領(lǐng)域內(nèi)所有詞之間變化的比較而不是單個詞的變化,這對新興趨勢的探測有積極意義。但是突發(fā)詞檢測仍需要時間的積累,其閾值的設(shè)置對結(jié)果影響較大,而且對詞的來源要求較高,需要通過預處理的突發(fā)檢測才會比較有意義,同樣突發(fā)詞之間也缺乏語義關(guān)聯(lián)。Kleinberg算法雖然能比較有效對一定時間跨度的語料進行突發(fā)詞檢測,但是算法中最優(yōu)序列的參數(shù)k、s、γ需要主觀確定,這將對檢測效果造成較大的影響;同時,Kleinberg算法利用平滑窗口來定義時間區(qū)間,可能會導致割裂某些主題隨時間成長變化的發(fā)展過程,形成虛假的突發(fā)詞或者主題;另外,Kleinberg算法是基于時間段檢測方法,一般情況下分析時間切片不能小于2,同樣需要時間的積累,具有一定的時滯。

        2.2.2 共詞分析

        共詞分析法主要是統(tǒng)計一組詞在同一篇文獻中出現(xiàn)的次數(shù),一組詞兩兩出現(xiàn)在同一篇文獻的次數(shù)越多,那么這組詞主題關(guān)系就越緊密,在此基礎(chǔ)上進行聚類分析,進而分析這些詞所代表的學科和主題變化。Ding Y等[26]從關(guān)鍵詞字段、題目和摘要字段抽取術(shù)語,通過詞匯控制工具進行規(guī)范化處理,利用共詞分析揭示了信息檢索領(lǐng)域知識結(jié)構(gòu),發(fā)展模式與趨勢。Pottenger等[27]利用數(shù)據(jù)挖掘技術(shù)和神經(jīng)網(wǎng)絡模型從文本數(shù)據(jù)集中自動分析與識別新出現(xiàn)的概念或主題。Kontostathis A等[28]在Pottenger研究的基礎(chǔ)上,利用潛在語義索引和共詞聚類分析明顯地增加了識別新突現(xiàn)概念的效率。

        共詞分析克服了詞頻獨立性的缺點,考慮到了詞與詞之間親疏遠近關(guān)系,能直接揭示文獻主題之間的相關(guān)性,針對性和準確度都更高。但是,目前共詞分析大部分采用從題目、摘要、關(guān)鍵詞字段直接抽取術(shù)語的方法,抽取術(shù)語與作者的取詞習慣有很大關(guān)系,可能存在不規(guī)范的表述,或者存在同義詞和近義詞大量并存的情況,而且沒有考慮到詞的層級,大量的上位詞和下位詞并存,因此對詞的預處理要求較高。為了達到較好的聚類效果,通常選用高頻詞作為分析對象,無法發(fā)現(xiàn)尚處于低頻潛在主題。

        2.2.3 主題模型

        共詞聚類的方法主要根據(jù)主題詞之間的關(guān)聯(lián)強度或者隨時間的演化,要么形成主題與詞之間的聚類關(guān)系,要么形成主題與文獻之間的聚類關(guān)系,缺乏對主題詞、主題、文獻三者間的關(guān)系揭示。為了克服這一缺陷,2013年BLei D M[29]在概率隱性語義索引模型(Probabilistic Latent Semantic Indexing,PLSI)的“潛在主題”基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation))模型,利用Dirichlet概率分布和Gibb抽樣,從而實現(xiàn)了詞、主題、文獻三層結(jié)構(gòu)的貝葉斯概率分布。LDA模型克服了PLSI過度擬合的缺點,并能很好地模擬文檔的生成過程,對新興主題識別以及預測有很好的效果,因此得到廣泛應用和不斷改良。

        為了讓LDA模型主題形成動態(tài)演化,需要通過相似性將相鄰時間點的主題關(guān)聯(lián)起來, 2006年Blei D M等[30]提出了動態(tài)主題模型(Dynamic Topic Models,DTM),可用于處理文檔流,從而實現(xiàn)話題的分布強度和話題的內(nèi)容都在隨時間而演化。2006年Wang X等[31]在LDA模型的基礎(chǔ)上加入“主題—時間”分布,提出了主題隨時間變化而變化的主題模型(Topic Over Time,TOT)。除了TOT和DTM模型外,很多學者將計量指標與LDA結(jié)合起來,提出層次LDA主題模型HLDA、OLDA、CTM、ATM、OLDA 。這些模型被廣泛應用到科技文獻、新聞、論壇、博客等領(lǐng)域的主題識別之中。目前,國外有不少研究機構(gòu)開發(fā)了應用工具,有些還是免費的開源工具,如斯坦福大學開發(fā)的開源話題建模工具TMT以及GibbsLDA++,這些工具極大地方便了科研人員的研究。endprint

        主題概率模型LDA模擬文檔生成的機器學習技術(shù),能有效實現(xiàn)分類和降維,采用詞、主題和文檔三層貝葉斯概率模型識別文檔集中潛在的主題詞信息,直接利用文獻中的詞來生成主題的分布,對揭示主題內(nèi)容有非常大的優(yōu)勢,而且相關(guān)模型非常多,應用也非常廣泛,是目前新興趨勢探測主要方法之一。雖然LDA不需要專門的詞表,但是對詞的依賴仍然很強,核心詞的確定成為難點之一,如果不經(jīng)過詞的預處理,很多高頻但意義不強的詞就會影響分類的效果。同時在分類數(shù)目的確定上存在一定難度和主觀性,相似度閾值的設(shè)定需要較強的專業(yè)知識。

        2.3 基于復雜網(wǎng)絡理論的相關(guān)研究進展

        文獻計量學的分析方法主要通過對文獻及文獻之間的關(guān)系的計量來揭示科學結(jié)構(gòu)。隨著社會網(wǎng)絡、復雜網(wǎng)絡研究的不斷發(fā)展,研究人員發(fā)現(xiàn)同被引網(wǎng)絡、共詞網(wǎng)絡、引文網(wǎng)絡、耦合網(wǎng)絡、合著網(wǎng)絡等都是在科學交流過程中自組織形成的復雜網(wǎng)絡,因此可以在文獻計量學的基礎(chǔ)上應用網(wǎng)絡分析方法來揭示科學結(jié)構(gòu)。

        2.3.1 優(yōu)先鏈接

        優(yōu)先鏈接(Preferential Attachment)也叫優(yōu)先連接、擇優(yōu)連接或優(yōu)先粘貼,是指擁有更多財富或信譽的個體將優(yōu)先得到財富或信譽。文獻引用中也存在優(yōu)先連接的現(xiàn)象,即引用次數(shù)越多的文獻被再次引用的概率越大,因此,引文網(wǎng)絡中的引文分布呈冪律分布。Price D J S[32]在1976年建立的Price模型可用來解釋引文網(wǎng)絡具有無尺度特性的成因,Price認為,是引用的累計增長(Cumulative Advantage)效應導致了引文網(wǎng)絡具有無尺度特性,累計增長效應就是基于優(yōu)先粘帖的現(xiàn)象。如果將鏈接分布機制移植到引文分析研究中,將有助于篩選核心文獻,考查引文分布機制,解釋引文網(wǎng)絡中的睡美人現(xiàn)象、冪律分布現(xiàn)象、無標度現(xiàn)象等[33]。李粵[34]在優(yōu)先連接模型的基礎(chǔ)上提出可調(diào)優(yōu)先連接模型(Adjustable Preferential Attachment,APA),并利用此模型分別進行優(yōu)先粘貼現(xiàn)象、節(jié)點老化現(xiàn)象、無尺度特性、睡美人現(xiàn)象和高聚集性的一致性分析,結(jié)果顯示APA模型在5個結(jié)構(gòu)特性上符合真實引文網(wǎng)絡。

        優(yōu)先鏈接是一種基于現(xiàn)有網(wǎng)絡關(guān)系對未來鏈接的預測,顯然不受到引文滯后的影響,這對預測和探測特定領(lǐng)域的新興趨勢有重要的意義。但是引文網(wǎng)絡優(yōu)先鏈接都是間接揭示研究內(nèi)容和主題的演化,而知識具有進化和創(chuàng)新特性,主題在不斷演化,鏈接可能意味關(guān)聯(lián),但是內(nèi)容可能已經(jīng)發(fā)生突變,因此優(yōu)先鏈接機制比較復雜,判讀計算難度比較大,探測的效果尚不明確,目前在新興趨勢探測的應用并不多。

        2.3.2 社團結(jié)構(gòu)

        網(wǎng)絡社團(Network Community)是指由網(wǎng)絡結(jié)點組成的一個個結(jié)點子集合,子集合內(nèi)部結(jié)點之間邊的連接很稠密,各子集合結(jié)點之間邊的連接則很稀疏。隨著復雜網(wǎng)絡理論不斷成熟,有人將其研究方法應用到引文網(wǎng)絡和共詞網(wǎng)絡之中,利用網(wǎng)絡社團來識別特定領(lǐng)域的主題演化。東京大學工程創(chuàng)新研究所在利用引文網(wǎng)絡進行新興主題識別上有較多的研究。Shibata N等[35]以鎵化氮和復雜網(wǎng)絡兩個研究領(lǐng)域為例,利用Newman提出的社團結(jié)構(gòu)識別算法對科學引文網(wǎng)絡進行聚類分析,分析聚類結(jié)果中論文簇的平均年(Average Age)指標和不同時間片的論文簇之間的父子關(guān)系,從中識別研究前沿的突現(xiàn)。他們同時采用模塊度值(Q值)衡量社團結(jié)構(gòu)之間的關(guān)系,Z-Value衡量社團內(nèi)部及密度,然后根據(jù)他們組合判斷不同主題的演化階段,明確給出了量化的判斷標準[36]。2010年我國學者王凌燕等[37]引入社會網(wǎng)絡中的弱連接概念并分析弱連接的特點,利用Q測度法識別生物領(lǐng)域的新興研究趨勢。

        復雜網(wǎng)絡領(lǐng)域的社團結(jié)構(gòu)識別算法不需要依賴分析對象相似關(guān)系計算,可以通過網(wǎng)絡結(jié)構(gòu)的特性直接獲取最優(yōu)化的聚類結(jié)果,從而克服了閾值主觀調(diào)整的問題,這明顯優(yōu)于傳統(tǒng)的聚類方法。但是從網(wǎng)絡視角判斷不同時間的兩個研究主題之間演化關(guān)系的影響因素較多,比如節(jié)點、邊、結(jié)構(gòu)等,目前相似度是最為直接和有效的判斷方法,但是閾值的選擇同樣具有主觀性。

        2.3.3 傳播動力學

        動力學研究是復雜網(wǎng)絡的研究重點之一,其本質(zhì)上是探討網(wǎng)絡結(jié)構(gòu)與功能關(guān)系的復雜網(wǎng)絡的動力學行為,涉及傳播動力學、動力學同步化等多方面的內(nèi)容。越來越多的學者將復雜網(wǎng)絡的傳播模型運用于分析知識傳播和創(chuàng)新擴散的網(wǎng)絡結(jié)構(gòu)和功能,相關(guān)研究表明社會網(wǎng)絡結(jié)構(gòu)的存在可以顯著提高知識的增長率。Cowan R等[38]發(fā)現(xiàn)“小世界網(wǎng)絡”結(jié)構(gòu)下的知識擴散速度是最快的。Liu X等[39]利用群體動力學原理和社團之間關(guān)系,通過關(guān)鍵詞運動矢量研究知識網(wǎng)絡,包括引文網(wǎng)絡和關(guān)鍵詞網(wǎng)絡的動態(tài)演化,識別了新興研究趨勢的形成,并識別了特定領(lǐng)域的新興趨勢的演化過程。

        知識網(wǎng)絡是天然的復雜網(wǎng)絡,傳播動力學考慮到知識網(wǎng)絡的生長動力和機制,從系統(tǒng)生長視角考察知識的涌現(xiàn),是一種最為接近現(xiàn)實的研究方法。但是,知識創(chuàng)造活動的創(chuàng)新要求、不同觀點和求異的思維使得知識在傳播過程中的“感染者”將會出現(xiàn)變異,不可能達到完全一致,只是一種相關(guān)性的協(xié)同創(chuàng)造?;谝陨显?,目前利用復雜網(wǎng)絡的動力學理論進行新興趨勢探測的應用研究并不多。

        3 結(jié) 語

        目前新興趨勢探測在國際上已成為研究前沿和熱點,但在國內(nèi)仍處于跟蹤發(fā)展的醞釀階段,通過對比國際國內(nèi)相關(guān)研究的梳理,發(fā)現(xiàn)國內(nèi)新興趨勢探測存在以下幾個問題:

        1)缺乏理論與實踐相結(jié)合的研究。目前國內(nèi)新興趨勢探測的研究主要在參考國外理論和方法的基礎(chǔ)上進行改進和應用,雖然國內(nèi)有些學者提出了理論層面的假設(shè),但沒有將理論分析與實證研究結(jié)合,因此真正理論創(chuàng)新并不多,更沒有形成完善的理論體系。

        2)指標通用性不足,評價標準不一,方法可復制性不強。新興趨勢指標大部分依據(jù)具體應用來設(shè)計,通用性不強,也沒有建立指標的評價體系和方法,主題確認與趨勢判斷主要依靠專家來進行定性判斷,主觀性很強。雖然也有研究機構(gòu)和學者從不同的角度來制定評價標準,但大部分都是采用監(jiān)測文獻隨著時間的變化計量學指標,而且各側(cè)重點不同,因此統(tǒng)計的方法各式各樣,可復制性不強。endprint

        3)主題趨勢預測研究不足,有待突破。雖然領(lǐng)域新興主題趨勢的預測極其重要,但是這方面的研究非常缺乏,只有少數(shù)的研究利用多元回歸方法對主題特征指標未來趨勢進行預測,有個別的學者提出了用優(yōu)先鏈接模型來預測未來的核心文獻,但是只考慮文獻在知識網(wǎng)絡的中重要性,沒有考慮到文獻衰老和異質(zhì)性,也缺乏從信息不完全的視角去對缺失信息(或缺失關(guān)系)的預測,因此主題趨勢預測研究的理論和方法有待于突破。

        4)研究視角較為單一,難于發(fā)現(xiàn)主題演化的動因。目前對于新興主題趨勢探測的研究,主要基于單一維度/網(wǎng)絡(關(guān)鍵詞維度、作者維度、引文維度)分析,缺乏多維度或者網(wǎng)絡之間關(guān)聯(lián)分析。個別研究雖然考慮到網(wǎng)絡維度之間的關(guān)系,但沒有考慮網(wǎng)絡之間的前后演化關(guān)系,也缺乏探究網(wǎng)絡之間的相互關(guān)系,因此難于從深層次揭示主題的成因、發(fā)展的動力和未來趨勢。

        5)缺乏對用戶行為研究。目前新興趨勢探測主要從文獻特征歷時變化、文獻關(guān)聯(lián)和內(nèi)容關(guān)聯(lián)等視角進行分析,鮮有人將學術(shù)群體的行為考慮在內(nèi),隨著各種數(shù)據(jù)庫的不斷完善和Almetrics的興起,用戶行為數(shù)據(jù)將成為新興趨勢探測和研究前沿識別的重要支撐。

        參考文獻

        [1]Kontonstathis A,Galistsky L M,Porttenger W M,et al.A Survey of Emerging Trend Detection in Textual Data Mining[C]// A Comprehensive Survey of Text Mining.New York:Springer,2004:185-224.

        [2]劉玉仙,Rousseau R.新出現(xiàn)趨勢識別和分析方法引介[J].科學學研究,2009,(7):994-998.

        [3]殷蜀梅.判斷新興研究趨勢的技術(shù)框架研究[J].圖書情報知識,2008,(3):76-80.

        [4]Le M H,Ho T B,Nakamori Y.Detecting Emerging Trend from Science scientific Corpora[J].International Journal of Knowledge and systems sciences 2005,2(2):53-59.

        [5]陳立新,劉則淵.引文半衰期與普賴斯指數(shù)之間的數(shù)量關(guān)系研究[J].圖書情報知識,2007,(1):25-28.

        [6]Tu Yining,Seng Jialang.Indices of novelty for emerging topic detection[J].Journal of Information Processing and Management,2012,48( 2) :303-325.

        [7]安興茹.基于正態(tài)分布的詞頻分析法高頻詞閾值研究[J].情報雜志,2014,(10):129-136.

        [8]馬費成,張勤.國內(nèi)外知識管理研究熱點——基于詞頻的統(tǒng)計分析[J].情報學報,2006,25(2):163-171.

        [9]鞏永強,劉莉.基于詞頻分析法的情報學研究熱點透析[J].圖書館學研究,2011,(13):9-13.

        [10]Ito E,Urakawa T,F(xiàn)lanagan B,et al.Keywords Frequency Trend Analysis of Online Novels[J].China Modern Doctor,2013:68-73.

        [11]Small H,Upham P.Citation structure of an emerging research area on the verge of application[J].Scientometrics,2009,79(2):365-375.

        [12]Chen C.CiteSpace ⅡI:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[ J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

        [13]韓濤.知識結(jié)構(gòu)演化深度分析的方法及其實現(xiàn)[D].北京:中國科學院研究生院,2008.

        [14]Morris S A,Yen G,Wu Z.Time Line Visualization of Research Fronts[J].Journal of American Society for Information Science,2003,54(5):413-422.

        [15]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.

        [16]Shibata N,Kajikawa Y,Takeda Y,et al.Comparative study on methods of detecting research fronts using different types of citation[J].Journal of the Association for Information Science and Technology,2009,60(3):571-580.endprint

        [17]Small H,Boyack K W,Klavans R.Identifying emerging topics in science and technology[J].Research Policy,2014,43(8):1450-1467.

        [18]Boyack K W,Klavans R,Small H,et al.Characterizing emergence using a detailed micro-model of science:Investigating two hot topics in nanotechnology[C]// Technology Management for Emerging Technologies (PICMET):2012 Proceedings of PICMET12.Vancouver,Canada:IEEH Conference Publications,2012:2605-2611.

        [19]Glenisson P,Glnzel W,Janssens F,et al.Combining full text and Bibliometric Information in Mapping Scientific Disciplines[J].Information Processing and Management,2005,(41):1548-1572.

        [20]張琳,梁立明,Janssens F,等.混合聚類方法用于科學結(jié)構(gòu)研究——“心理學、社會學和教育學”領(lǐng)域為例[J].科學學研究,2010,28(6):837-845.

        [21]Van D,Besselaar P,Heimer G.Mapping Research Topics Using Word-reference Co-occurrences:a Method and an Exploratory case Study[J].Scientometrics,2006,68(3):377-393.

        [22]Kleinberg J.Bursty and hierarchical structure in streams[J].Data Mining and KnowledgeDiscovery,2003,7(4):373-397.

        [23]王孝寧,崔雷,劉剛,等.突發(fā)監(jiān)測算法用于共詞聚類分析的嘗試[C]// 中華醫(yī)學會第十五次全國醫(yī)學信息學術(shù)會議.2009:104-107.

        [24]魏建香.學科交叉知識發(fā)現(xiàn)及其可視化研究[D].南京:南京大學,2010.

        [25]王莉亞.基于關(guān)鍵詞突變的主題突變研究[J].情報理論與實踐,2013,(11):45-48.

        [26]Ding Y,Chowdhury G G,F(xiàn)oo S.Bibliometric Cartography of Information Retrieval Research by Using Co-word Analysis[J].Information Processing and Management,2001,(37):817-842.

        [27]Pottenger W M,Yang T.Detecting Emerging Concepts in Text Data Mining[C]// Berry M.Computational Information Retrieval.Philadelphia,USA:Society for Industrial and Applied Mathematics,2001:89-105.

        [28]Kontostathis A,De I,Holzman L E,et al.Use of term clusters for emerging trend detection[EB/OL].http://citeseer.uark.edu:8080/citeseerx/viewdoc/summary?doi=10.1.1.81.4196,2013-07-28.

        [29]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

        [30]Blei D M,Lafferty J D.Dynamic topic model[C]// Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:113-120.

        [31]Wang X,Mccallum A.Topics over time:a non-Markov continuous-time model of topical trends[C]// Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Philadelphia,Pa,Usa,August.DBLP,2006:424-433.

        [32]Price D J S.A general theory of bibliometric and other cumulative advantage processes[J].Journal of the American Society for Information Science,1976,27:292-306.

        [33]蘇芳荔,李江.鏈接分布機制評述——優(yōu)先連接與均勻連接[J].情報雜志,2010,(10):167-171.

        [34]李粵.引文網(wǎng)絡的可調(diào)優(yōu)先粘貼模型及其應用[D].北京:清華大學,2007.

        [35]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.

        [36]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting Emerging Research Fronts in regenerative medicine by the citation Networks of Scientific Publications[J].Technological Forecsting & Social Change,2011,(78):274-282.

        [37]王凌燕,方曙.Q測度法對探測新興研究趨勢作用的探討[J].情報理論與實踐,2010,33(11):61-65.

        [38]Cowan R,Jonard N.Network Structure and the Diffusion of Knowledge[J].Journal of Economic Dynamics and Control,2004,28(8):1557-1575.

        [39]Liu X,Jiang T,Ma F.Collective dynamics in knowledge networks::emerging trends analysis[J].Journal of Informetrics,2013,7(2):425-438.

        (本文責任編輯:孫國雷)endprint

        猜你喜歡
        文本挖掘復雜網(wǎng)絡文獻計量
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應用
        軟件導刊(2016年12期)2017-01-21 15:55:21
        基于圖熵聚類的重疊社區(qū)發(fā)現(xiàn)算法
        我國醫(yī)學數(shù)字圖書館研究的文獻計量分析
        基于LDA模型的95598熱點業(yè)務工單挖掘分析
        國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
        國內(nèi)外政府信息公開研究的脈絡、流派與趨勢
        從《遠程教育》35年載文看遠程教育研究趨勢
        基于文獻計量分析我國生物科學素養(yǎng)研究狀況(2001~2016年)
        基于復雜網(wǎng)絡理論的通用機場保障網(wǎng)絡研究
        城市群復合交通網(wǎng)絡復雜性實證研究
        科技視界(2016年20期)2016-09-29 11:19:34
        欧美激情区| 亚洲欧洲成人精品香蕉网| 亚洲av无码久久精品蜜桃| 亚洲国产精品一区二区第四页 | 无码av天堂一区二区三区| 在线高清精品第一区二区三区| 免费在线观看亚洲视频| 成人大片免费视频播放一级| 18黑白丝水手服自慰喷水网站| 免费啪啪视频一区| 国产毛片一区二区日韩| 亚洲国产性夜夜综合另类 | 91九色播放在线观看| 日韩精品成人无码专区免费| 国产精品午睡沙发系列| 国产在线观看网址不卡一区| 亚洲一区二区三区地址| 国精产品一区一区三区有限公司杨| 最新国产乱视频伦在线| 日韩精品中文字幕免费人妻| 日本最新一区二区三区视频观看| 国产精品9999久久久久| 欧美成人免费看片一区| 日本免费精品免费视频| 又大又粗欧美黑人aaaaa片| 国产精品99久久久久久宅男| 久久洲Av无码西西人体| 成人av蜜桃在线观看| 国产精品美女久久久久久| 欧美日韩国产在线观看免费| 久久久精品久久久国产| 艳妇臀荡乳欲伦交换h在线观看| 又色又污又爽又黄的网站| 99久久国语露脸国产精品| 日本二区在线视频观看| 国产激情久久久久影院老熟女 | 蜜桃av观看亚洲一区二区| 国产手机在线观看一区二区三区| 毛片大全真人在线| 精精国产xxxx视频在线播放器| 国产91精品一区二区麻豆亚洲|