亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別方法與開(kāi)源工具研究

        2018-07-25 09:10:30廖君華陳軍營(yíng)白如江山東理工大學(xué)科技信息研究所山東淄博255049
        現(xiàn)代情報(bào) 2018年7期
        關(guān)鍵詞:可視化文獻(xiàn)文本

        廖君華 陳軍營(yíng) 白如江(山東理工大學(xué)科技信息研究所,山東 淄博 255049)

        當(dāng)今社會(huì),科技創(chuàng)新已經(jīng)成為決定一個(gè)國(guó)家在復(fù)雜的國(guó)際競(jìng)爭(zhēng)環(huán)境里取得成功的基礎(chǔ)和關(guān)鍵因素。由于歷史、經(jīng)濟(jì)等原因,中國(guó)科技創(chuàng)新事業(yè)在世界舞臺(tái)上一直扮演著“跟跑者”的角色??上驳氖牵诳萍紕?chuàng)新全球化的背景下,國(guó)內(nèi)科技和經(jīng)濟(jì)的快速增長(zhǎng)給各學(xué)科領(lǐng)域科技創(chuàng)新帶來(lái)新生機(jī)。我國(guó)逐步從“跟跑者”轉(zhuǎn)變到“并行者”甚至成為“領(lǐng)跑者”。角色的轉(zhuǎn)變更加需要及時(shí)、準(zhǔn)確把握未來(lái)科技創(chuàng)新發(fā)展趨勢(shì)。科技文獻(xiàn)是知識(shí)的載體,蘊(yùn)含著科技創(chuàng)新發(fā)展的整體脈絡(luò)。因此,如何利用科技文獻(xiàn),挖掘和提煉出科學(xué)創(chuàng)新、技術(shù)沿革、知識(shí)流動(dòng)的具體過(guò)程,準(zhǔn)確高效的描繪出科技創(chuàng)新路徑成為情報(bào)學(xué)研究的熱點(diǎn)話(huà)題之一。

        為應(yīng)對(duì)日益增加的海量學(xué)術(shù)文獻(xiàn)挑戰(zhàn),尋求利用計(jì)算機(jī)技術(shù)自動(dòng)、準(zhǔn)確識(shí)別科技創(chuàng)新路徑方法,為科技決策者提供基于數(shù)據(jù)的參考和依據(jù),本文梳理了科技創(chuàng)新路徑研究主要相關(guān)理論、方法以及相關(guān)實(shí)現(xiàn)開(kāi)源工具,分析了科技創(chuàng)新路徑識(shí)別研究的未來(lái)發(fā)展趨勢(shì)。

        1 科技創(chuàng)新路徑識(shí)別主要方法

        1.1 基于引文分析的科技創(chuàng)新路徑識(shí)別方法

        1.1.1 利用天然引文網(wǎng)絡(luò)識(shí)別科技創(chuàng)新路徑

        1964年,Garfield E首次提出了科學(xué)引文索引(SCI)[1],并利用文獻(xiàn)間的引用關(guān)系構(gòu)建了某研究領(lǐng)域的引文網(wǎng)絡(luò)(Citation Network)。文獻(xiàn)之間的引用關(guān)系主要有:直接引用(Direct Citation)、文獻(xiàn)耦合(Bibliographic Coupling,M.M.kessler,1963)和同被引(Co-Citation,H.Small,1973)。文獻(xiàn)之間3種類(lèi)型的引用關(guān)系既可以反映知識(shí)的擴(kuò)散方向又可以追根溯源識(shí)別某研究領(lǐng)域的知識(shí)源頭,進(jìn)而構(gòu)成原始的天然科技創(chuàng)新路徑。

        隨著時(shí)間的推移,各類(lèi)科技文獻(xiàn)數(shù)量不斷增加、知識(shí)不斷豐富,引文關(guān)系網(wǎng)絡(luò)逐漸復(fù)雜,形成了許多需要進(jìn)一步深入挖掘研究的大樣本數(shù)據(jù)引文網(wǎng)絡(luò)。為有效判別某領(lǐng)域內(nèi)科技創(chuàng)新的發(fā)展動(dòng)向,科研工作者希望借助復(fù)雜的引文關(guān)系網(wǎng)絡(luò)來(lái)預(yù)測(cè)科技創(chuàng)新熱點(diǎn)、前沿和發(fā)展趨勢(shì)。Price D最早提出了“科學(xué)前沿”的概念,指出領(lǐng)域科學(xué)前沿的瞬時(shí)性特征[2]。而后,相關(guān)學(xué)者進(jìn)行了相關(guān)實(shí)證研究,其中代表性研究有:Small H提出一種基于同被引聚類(lèi)的方法對(duì)科技創(chuàng)新發(fā)展路徑進(jìn)行了預(yù)測(cè),并以某領(lǐng)域高被引論文為實(shí)驗(yàn)數(shù)據(jù)證明了該方法的有效性[3];Morris S等運(yùn)用文獻(xiàn)耦合聚類(lèi)的方法識(shí)別出了學(xué)科領(lǐng)域的研究熱點(diǎn)[4];借助文獻(xiàn)的直接引證關(guān)系的直觀性,Shibata N等[5]構(gòu)建了氮化鎵(Galliumnitride GaN)領(lǐng)域復(fù)雜引文網(wǎng)絡(luò);Takeda Y等[6]構(gòu)建了光學(xué)領(lǐng)域相關(guān)文獻(xiàn)的引文網(wǎng)絡(luò),隨后分別探測(cè)了相關(guān)領(lǐng)域的科技創(chuàng)新發(fā)展方向。科技創(chuàng)新路徑識(shí)別研究方法逐步發(fā)展并且形成了直接引文分析、同被引聚類(lèi)和文獻(xiàn)耦合聚類(lèi)3種分析方法,如圖1所示。

        注:直接引用,ac、ad、ae、bc、cf、ed、ef;文獻(xiàn)耦合,acd、ace、ade、edf;同被引,abc、cef、aed。圖1 3種引文關(guān)系

        3種引文分析方法對(duì)應(yīng)構(gòu)建的引文網(wǎng)絡(luò)性質(zhì)不同,國(guó)內(nèi)外有關(guān)學(xué)者分別針對(duì)3種識(shí)別方法進(jìn)行了對(duì)比研究,代表性研究成果見(jiàn)表1:

        表1 3種識(shí)別科技創(chuàng)新路徑的引文分析方法對(duì)比研究

        經(jīng)對(duì)比分析,直接引用由于其網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)容最豐富、最接近完整的科技創(chuàng)新前沿網(wǎng)絡(luò),準(zhǔn)確性最好。隨后的改進(jìn)工作使得科技創(chuàng)新路徑識(shí)別的方法變得更精確有效。但是,龐大而復(fù)雜的引文網(wǎng)絡(luò)蘊(yùn)含大量信息,僅僅從上述的3種識(shí)別方法本身難以有效判斷科技創(chuàng)新的重點(diǎn)網(wǎng)絡(luò)群簇以及網(wǎng)絡(luò)群簇中突出的個(gè)體。

        為有效分析和研究科技創(chuàng)新路徑形成的網(wǎng)絡(luò)特征和屬性,相關(guān)學(xué)者在前人的研究基礎(chǔ)上將社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis,SNA)法引入到科技創(chuàng)新路徑的識(shí)別中來(lái)。具有代表性的分析方法有結(jié)構(gòu)洞(Structural Holes)分析和凝聚子群(Gathering Subgroup)分析。

        1.1.2 利用結(jié)構(gòu)洞分析識(shí)別科技創(chuàng)新路徑中的關(guān)鍵節(jié)點(diǎn)

        Burt R S[11]于1992年首先提出了結(jié)構(gòu)洞理論(Structural Holes),即:缺少直接聯(lián)系的雙方,需要通過(guò)第三者的幫助來(lái)聯(lián)系彼此,那么第三者就在關(guān)系網(wǎng)絡(luò)中擁有一個(gè)結(jié)構(gòu)洞。Burt認(rèn)為個(gè)體在網(wǎng)絡(luò)的位置比關(guān)系的強(qiáng)弱更重要,在網(wǎng)絡(luò)中的位置越好,個(gè)體的信息交流、資源獲取與決策能力就越強(qiáng)。顯然,在科技創(chuàng)新路徑中,結(jié)構(gòu)洞越多的文獻(xiàn)或文獻(xiàn)集合可以視為其在某科研領(lǐng)域的創(chuàng)新性和代表性越強(qiáng)。情報(bào)人員通過(guò)對(duì)結(jié)構(gòu)洞的分析可以從大量繁雜的文獻(xiàn)中快速了解領(lǐng)域科技創(chuàng)新知識(shí)聚集體的結(jié)構(gòu)和特征[12]。

        在科技創(chuàng)新路徑識(shí)別研究早期,隨著結(jié)構(gòu)洞理論的發(fā)展,應(yīng)用的學(xué)科范圍(經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)等)不斷擴(kuò)大,有關(guān)結(jié)構(gòu)洞測(cè)度和應(yīng)用的實(shí)際問(wèn)題亟待解決。結(jié)構(gòu)洞有兩種測(cè)度方法:一種是根據(jù)Burt的結(jié)構(gòu)洞指數(shù)進(jìn)行測(cè)算;另一種是利用Freeman的中介中心性理論對(duì)結(jié)構(gòu)洞的相關(guān)屬性進(jìn)行測(cè)算。為評(píng)估這兩種算法的不同特點(diǎn),汪丹[13]通過(guò)實(shí)驗(yàn)對(duì)比結(jié)構(gòu)約束算法和中介中心性算法發(fā)現(xiàn),中介中心性大小與結(jié)構(gòu)約束系數(shù)以及網(wǎng)絡(luò)有效規(guī)模大小和結(jié)構(gòu)約束性關(guān)系存在確定聯(lián)系,兩種算法得到的結(jié)果不謀而合。但在算法有效性方面,中介中心性的實(shí)驗(yàn)結(jié)果更具有說(shuō)服力。姜鑫[14]結(jié)合結(jié)構(gòu)洞指數(shù)和中介中心性指數(shù)兩個(gè)方面總結(jié)了結(jié)構(gòu)洞的測(cè)度方法(見(jiàn)表2),并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。而后,結(jié)構(gòu)洞的理論和方法漸漸成熟,有關(guān)學(xué)者從不同角度進(jìn)行了嘗試性應(yīng)用。郭秋萍等[15]以結(jié)構(gòu)洞的視角對(duì)人際情報(bào)領(lǐng)域進(jìn)行科技創(chuàng)新路徑網(wǎng)絡(luò)構(gòu)建,發(fā)現(xiàn)了網(wǎng)絡(luò)中的問(wèn)題并提出了應(yīng)對(duì)策略。

        表2 兩種結(jié)構(gòu)洞測(cè)度方法

        注:結(jié)構(gòu)洞指數(shù)中,i、q、j代表行動(dòng)者個(gè)體,t為i的連線(xiàn)數(shù)(中心點(diǎn)除外),n和N代表i的個(gè)體網(wǎng)規(guī)模,C/N代表各節(jié)點(diǎn)限制度均值。在中介中心性指數(shù)中,N代表網(wǎng)絡(luò)規(guī)模,ni、nj、nk表示節(jié)點(diǎn),gik表示ni與nk之間的測(cè)地線(xiàn)數(shù)目,gjk(ni)表示nj和nk之間存在的經(jīng)過(guò)ni測(cè)地線(xiàn)的數(shù)目,CBmax代表最大中介中心性。

        結(jié)合表3分析可知,在情報(bào)學(xué)領(lǐng)域結(jié)構(gòu)洞分析在識(shí)別科技創(chuàng)新路徑中的應(yīng)用可以剔除掉無(wú)關(guān)網(wǎng)絡(luò),加強(qiáng)對(duì)所研究重點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)或關(guān)鍵節(jié)點(diǎn)的分析,判定重點(diǎn)科技創(chuàng)新演化網(wǎng)絡(luò)中的重要個(gè)體,為科技創(chuàng)新路徑識(shí)別研究奠定基礎(chǔ)。

        1.1.3 利用凝聚子群分析識(shí)別科技創(chuàng)新路徑中的重點(diǎn)主題

        凝聚子群(Cohesive Subgroup)分析又被稱(chēng)為“小團(tuán)體分析”,在社會(huì)網(wǎng)絡(luò)中某些個(gè)體聯(lián)系密切、具有較強(qiáng)關(guān)系且交流頻繁,就會(huì)形成凝聚子群。研究人員通過(guò)分析網(wǎng)絡(luò)中子群個(gè)數(shù)、子群中個(gè)體的特征關(guān)系、一個(gè)子群中的個(gè)體與其他子群的個(gè)體之間的關(guān)系、子群中個(gè)體之間的關(guān)系來(lái)更好的了解子群聚集的內(nèi)部屬性。凝聚子群的分類(lèi)方法有兩種[16]:第一種是基于距離的分類(lèi)方法,即以網(wǎng)絡(luò)中節(jié)點(diǎn)的“距離”來(lái)劃分得到不同的凝聚子群;第二種是基于關(guān)聯(lián)度的分類(lèi)方法,即以網(wǎng)絡(luò)節(jié)點(diǎn)中的“鄰點(diǎn)”個(gè)數(shù)來(lái)劃分得到不同凝聚子群(詳見(jiàn)表3)。

        表3 凝聚子群分類(lèi)

        運(yùn)用凝聚子群的方法對(duì)網(wǎng)絡(luò)(社會(huì)網(wǎng)絡(luò)、合著網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)等)進(jìn)行分類(lèi),通過(guò)調(diào)節(jié)子網(wǎng)絡(luò)的范圍,可以識(shí)別出科技創(chuàng)新路徑中的焦點(diǎn)網(wǎng)絡(luò),揭示熱點(diǎn)研究群體。韓毅等[17]利用主路徑分析方法和凝聚子群分析方法將WOS數(shù)據(jù)庫(kù)中引文網(wǎng)絡(luò)領(lǐng)域的引文數(shù)據(jù)以“主題島”的形式進(jìn)行了演化可視化呈現(xiàn),使情報(bào)人員可以更直接的了解不同時(shí)期不同維度下的科技創(chuàng)新路徑的表現(xiàn)形式。k-核分析方法在共詞網(wǎng)絡(luò)中的應(yīng)用,為研究主題的確定提供了幫助。姜鑫[18]利用Ucinet軟件的k-核凝聚子群分析功能,通過(guò)調(diào)節(jié)k的取值識(shí)別出了以“微博”為研究主題科技創(chuàng)新路徑中的核心關(guān)鍵詞和次級(jí)核心關(guān)鍵詞。李綱等[19]利用萬(wàn)方數(shù)據(jù)庫(kù)中的31種期刊論文數(shù)據(jù)結(jié)合度數(shù)中心度分析方法和k-核分析方法識(shí)別出了腫瘤學(xué)科的科技創(chuàng)新路徑研究主題。

        基于引文網(wǎng)絡(luò)分析法、結(jié)構(gòu)洞分析和凝聚子群分析方法都為科技創(chuàng)新路徑識(shí)別提供了很好的研究思路,研究人員據(jù)此取得了大量研究成果。但是,基于引文分析的識(shí)別方法在操作過(guò)程中需要一定的時(shí)間周期來(lái)等待引文網(wǎng)絡(luò)的形成,在識(shí)別科技創(chuàng)新路徑時(shí)不可避免的存在時(shí)滯性問(wèn)題。而且,在對(duì)科技創(chuàng)新路徑進(jìn)行識(shí)別分析時(shí),引文方法忽略了文獻(xiàn)的文本內(nèi)容本身。因此,相關(guān)研究人員開(kāi)辟了直接深入文本內(nèi)容中識(shí)別科技創(chuàng)新路徑的方法。

        1.2 基于文本內(nèi)容分析的科技創(chuàng)新路徑識(shí)別方法

        基于文本內(nèi)容分析的科技創(chuàng)新路徑識(shí)別方法可以對(duì)文獻(xiàn)題名、關(guān)鍵詞、摘要和正文等進(jìn)行挖掘分析,使處在引文網(wǎng)絡(luò)節(jié)點(diǎn)上文獻(xiàn)的具體創(chuàng)新內(nèi)容得以顯現(xiàn)。隨著時(shí)間軸的引入,還可以將科技創(chuàng)新內(nèi)容在時(shí)間維度進(jìn)行演化展示。彌補(bǔ)了單憑引文信息數(shù)據(jù)進(jìn)行聚類(lèi)分析的不足,使得科技創(chuàng)新路徑更加的豐富、飽滿(mǎn)。

        研究人員往往用關(guān)鍵詞或者主題詞來(lái)描述一篇文獻(xiàn)所帶有的特征,表示某文獻(xiàn)所研究的具體內(nèi)容,進(jìn)而進(jìn)行科技創(chuàng)新演化預(yù)測(cè)研究。1997年,美國(guó)海軍研究所(ONR)的Kostoff R N[20]博士提出數(shù)據(jù)庫(kù)內(nèi)容結(jié)構(gòu)分析技術(shù)(Database Tomography,簡(jiǎn)稱(chēng)DT),用來(lái)發(fā)現(xiàn)科技創(chuàng)新主題并預(yù)測(cè)演化趨勢(shì)。2004年,Mane KK[21]首先運(yùn)用Kleinberg突破檢測(cè)算法提取高頻詞做共詞分析,然后通過(guò)繪制知識(shí)圖譜來(lái)判定科技創(chuàng)新主題的發(fā)展變化趨勢(shì)。為更準(zhǔn)確有效的識(shí)別科技創(chuàng)新主題,社區(qū)發(fā)現(xiàn)算法被引入到共詞分析中來(lái)。2009年,Wallace M L等[22]研究發(fā)現(xiàn)社區(qū)發(fā)現(xiàn)算法在科技創(chuàng)新主題識(shí)別上具有天然的優(yōu)勢(shì)。2013年,程齊凱等[23]研究了關(guān)鍵詞共詞網(wǎng)絡(luò)的社區(qū)現(xiàn)象,利用網(wǎng)絡(luò)社區(qū)表征學(xué)科研究主題,研究表明共詞網(wǎng)絡(luò)中社區(qū)的演化揭示了科技創(chuàng)新主題的演化過(guò)程。同年,白如江等[24]的研究也驗(yàn)證了社區(qū)演化方法的科學(xué)性。

        由于關(guān)鍵詞與文檔之間的語(yǔ)義關(guān)系不明確,僅僅以關(guān)鍵詞代表整篇論文的研究主題存在語(yǔ)義模糊、主題不準(zhǔn)確性等問(wèn)題。因此,葉春蕾等[25]對(duì)關(guān)鍵詞共詞分析的方法提出質(zhì)疑,認(rèn)為基于詞頻、共詞分析的主題演化識(shí)別分析方法欠缺語(yǔ)義關(guān)系,提出運(yùn)用LDA模型的進(jìn)行科技創(chuàng)新路徑主題識(shí)別。2006年,Blei D M[26]利用LDA模型處理具有時(shí)間戳記的文檔數(shù)據(jù)集,實(shí)現(xiàn)了科技創(chuàng)新路徑動(dòng)態(tài)主題的識(shí)別與追蹤。2011年,單斌等[27]基于LDA模型提出了一種演化識(shí)別方法,避免了同類(lèi)話(huà)題之間的重復(fù)演化計(jì)算。為增強(qiáng)對(duì)文本內(nèi)容的語(yǔ)義理解,2015年,祝娜等[28]提出了利用改進(jìn)LDA模型進(jìn)行科技創(chuàng)新主題演化路徑識(shí)別方法,并分析了3D打印領(lǐng)域創(chuàng)新主題的動(dòng)態(tài)演化過(guò)程。為解決將不同屬性的關(guān)鍵詞等同看待的問(wèn)題,識(shí)別出關(guān)鍵詞所代表的語(yǔ)義角色(理論、方法和研究對(duì)象等),2016年,劉自強(qiáng)等[29]利用LDA模型結(jié)合社區(qū)算法對(duì)我國(guó)圖情領(lǐng)域大數(shù)據(jù)的科技創(chuàng)新主題進(jìn)行識(shí)別和演化分析。

        雖然基于文本內(nèi)容分析的科技創(chuàng)新路徑識(shí)別方法對(duì)科技論文的內(nèi)容進(jìn)行了深入和有效挖掘,揭示了科技文本內(nèi)容中包含的科技創(chuàng)新的主題和語(yǔ)義關(guān)聯(lián)信息。但是該方法脫離了科技文獻(xiàn)之間的天然引文關(guān)系,不能精確地深入到施引文獻(xiàn)引用原文獻(xiàn)的具體句子中揭示科技創(chuàng)新的角色、作者施引情感傾向等。因此,有關(guān)專(zhuān)家對(duì)基于引文內(nèi)容分析的科技創(chuàng)新路徑研究方法重視起來(lái)。

        1.3 基于引文內(nèi)容分析的科技創(chuàng)新路徑識(shí)別方法

        基于引文內(nèi)容分析的識(shí)別方法比基于科技文獻(xiàn)文本內(nèi)容挖掘的識(shí)別方法在研究?jī)?nèi)容上主題粒度更加細(xì)化。區(qū)別于基于文本內(nèi)容(運(yùn)用基于全文本的LDA模型等處理方法)的識(shí)別方法,基于引文內(nèi)容的識(shí)別方法側(cè)重于深入到施引文獻(xiàn)引用被引文獻(xiàn)的具體內(nèi)容來(lái)進(jìn)行挖掘分析。該方法首先通過(guò)信息抽取技術(shù)將引文內(nèi)容從整篇文檔中抽取出來(lái)。然后,對(duì)抽取出的內(nèi)容進(jìn)行語(yǔ)義標(biāo)注(語(yǔ)義角色標(biāo)注、事件抽取等)、主題識(shí)別(主題模型LDA、特征詞提取技術(shù)、C-Value等)、動(dòng)機(jī)分析(情感分析技術(shù))等一系列挖掘分析,進(jìn)而準(zhǔn)確、深入地揭示科技創(chuàng)新路徑的具體內(nèi)容。

        1.3.1 基于引文內(nèi)容分析識(shí)別科技創(chuàng)新路徑研究進(jìn)展

        引文內(nèi)容分析(Citation Content Analysis,CCA)的方法是以引文分析方法為基礎(chǔ)發(fā)展而來(lái),區(qū)別于傳統(tǒng)的引文著錄分析(見(jiàn)表4),引文內(nèi)容分析強(qiáng)調(diào)運(yùn)用數(shù)據(jù)挖掘、自然語(yǔ)言處理和可視化等技術(shù)方法,結(jié)合施引文獻(xiàn)的引用內(nèi)容(施引文獻(xiàn)引用被引文獻(xiàn)的句子和上下文),對(duì)作者的引用行為、動(dòng)機(jī)等進(jìn)行探測(cè)、歸納和分析的一種情報(bào)分析方法。

        20世紀(jì)50年代,Berelson在其著作《內(nèi)容分析:傳播研究的一種工具》中首次將內(nèi)容分析作為一種工具方法進(jìn)行應(yīng)用。由于早期的期刊數(shù)據(jù)庫(kù)以PDF格式文本居多并且計(jì)算機(jī)技術(shù)相對(duì)落后,相關(guān)學(xué)者只能采用人工判讀的方法對(duì)施引文獻(xiàn)中引用該引文的具體語(yǔ)句信息及其上下文內(nèi)容進(jìn)行經(jīng)驗(yàn)性的歸納總結(jié)。例如:1962年,Garfield E[30]詳細(xì)閱讀了某領(lǐng)域文獻(xiàn)全文,對(duì)作者的引用行為進(jìn)行了分類(lèi)。1975年,Moravcsik M J等[31]通過(guò)對(duì)引文內(nèi)容進(jìn)行人工判讀,解釋了作者的引用情感傾向、被引文獻(xiàn)的引用作用和重要程度。隨著計(jì)算機(jī)技術(shù)的發(fā)展,利用自然語(yǔ)言處理技術(shù)可以實(shí)現(xiàn)對(duì)PDF格式的文本數(shù)據(jù)進(jìn)行內(nèi)容抽取。2012年,Zhang G等[32]設(shè)計(jì)了一個(gè)引用內(nèi)容分析(Citation Content Analysis,CCA)的研究框架,指出引文內(nèi)容分析是下一代引文分析的方向。2014年,祝青松等[33]以碳納米管領(lǐng)域的高被引論文(PDF格式)為研究對(duì)象,利用C-value算法識(shí)別出引文內(nèi)容中的研究主題,研究表明基于引文內(nèi)容分析的主題識(shí)別結(jié)果比基于關(guān)鍵詞、摘要等題錄數(shù)據(jù)的識(shí)別方法準(zhǔn)確性更高。

        表4 引文內(nèi)容分析和引文著錄分析區(qū)別

        1.3.2 引文內(nèi)容數(shù)據(jù)源

        早期數(shù)據(jù)庫(kù)文獻(xiàn)數(shù)據(jù)的格式大都是非結(jié)構(gòu)化數(shù)據(jù)(例如:CAJ、PDF等),由于數(shù)據(jù)機(jī)讀性差,引文內(nèi)容分析(Citation Content Analysis,CCA)最早是通過(guò)人工判讀的方法對(duì)文獻(xiàn)不同章節(jié)的引文內(nèi)容進(jìn)行抽取標(biāo)記,來(lái)解釋文獻(xiàn)引用的各種現(xiàn)象。Moravcsik M J[31]作為先行者首先調(diào)研了高能物理領(lǐng)域的30篇文獻(xiàn),并歸納總結(jié)了作者的引用動(dòng)機(jī)。隨后,許多研究者用該方法進(jìn)行了引文內(nèi)容的科研研究。但人工判讀的方法效率低、主觀性強(qiáng)、調(diào)研文獻(xiàn)量少,不久便受到有關(guān)專(zhuān)家的質(zhì)疑。隨著自然語(yǔ)言處理技術(shù)的發(fā)展,1998年,結(jié)構(gòu)化格式數(shù)據(jù)XML問(wèn)世,XML是一種標(biāo)識(shí)語(yǔ)言,可以標(biāo)記引文位置和相關(guān)的引文內(nèi)容,機(jī)讀性?xún)?yōu)越,彌補(bǔ)了人工判讀的缺陷。隨著近幾年開(kāi)放獲取(Open Access,OA)運(yùn)動(dòng)的發(fā)展,越來(lái)越多的數(shù)據(jù)庫(kù)提供XML全文格式,表5列出了部分提供XML全文格式的數(shù)據(jù)庫(kù)。

        表5 提供XML全文數(shù)據(jù)庫(kù)

        PubMed、Springe Open和Springer BioMed數(shù)據(jù)庫(kù)的XML的全文數(shù)據(jù)均可以免費(fèi)獲得。隨著數(shù)據(jù)挖掘和自然語(yǔ)言處理技術(shù)的發(fā)展,使得從文獻(xiàn)內(nèi)容中抽取出不同結(jié)構(gòu)層次(引文位置)的引文內(nèi)容信息進(jìn)行引用動(dòng)機(jī)識(shí)別、情感分析和可視化分析等成為可能,能夠解決引文分析存在的將所有引文等同看待的問(wèn)題。

        由上所述,從方法和數(shù)據(jù)源的角度看來(lái),通過(guò)獲取全文數(shù)據(jù)抽取引文內(nèi)容,利用引文網(wǎng)絡(luò)分析方法、文本內(nèi)容分析方法和引文內(nèi)容分析方法,可以達(dá)到結(jié)合文獻(xiàn)天然引文路徑識(shí)別出創(chuàng)新性的理論、方法、技術(shù)等并揭示其在相應(yīng)載體上隨時(shí)間變化而演化發(fā)展的目的。因此,基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別研究在方法和數(shù)據(jù)源方面前景廣闊。

        2 實(shí)現(xiàn)基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別開(kāi)源工具

        科技創(chuàng)新路徑識(shí)別過(guò)程中少不了集成了各種算法的軟件工具的支持,在數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、可視化等數(shù)據(jù)處理過(guò)程中,有時(shí)一款軟件就能勝任(如:綜合平臺(tái)Knime),有時(shí)則需要幾款軟件的配合才能完成,例如:利用Python中的Jieba分詞包對(duì)文檔數(shù)據(jù)進(jìn)行分詞,然后用Knime進(jìn)行數(shù)據(jù)預(yù)處理,最后運(yùn)用Gephi實(shí)現(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)可視化呈現(xiàn)。因此,本文將基于引文內(nèi)容挖掘的科技創(chuàng)新路徑實(shí)現(xiàn)開(kāi)源工具分為文本挖掘和科技創(chuàng)新路徑可視化兩類(lèi)。

        2.1 文本挖掘開(kāi)源工具

        在數(shù)據(jù)挖掘領(lǐng)域里,文本挖掘工具主要功能首先是對(duì)目標(biāo)數(shù)據(jù)文本進(jìn)行有效抓取、存儲(chǔ);其次是對(duì)文本數(shù)據(jù)進(jìn)行特征詞(主題模型識(shí)別和句法分析)的識(shí)別或標(biāo)注等。文本挖掘方法應(yīng)用廣泛,是對(duì)文本數(shù)據(jù)進(jìn)行深入挖掘的基礎(chǔ)步驟。通過(guò)文本挖掘開(kāi)源工具可以實(shí)現(xiàn)抽取科技文獻(xiàn)全文中的引文內(nèi)容,對(duì)抽取出的引文內(nèi)容進(jìn)行關(guān)鍵詞識(shí)別、主題識(shí)別、關(guān)系抽取等一系列挖掘工作,達(dá)到識(shí)別引用動(dòng)機(jī)、引用意圖等目的。通過(guò)前期長(zhǎng)時(shí)間的調(diào)研,常用的文本挖掘開(kāi)源工具主要有:Mallet、Knime、NLTK(基于Python語(yǔ)言的自言語(yǔ)言工具包)等,見(jiàn)表6。

        表6 文本挖掘工具對(duì)比

        Mallet[34]是一款基于java語(yǔ)言的工具包,需要JDK環(huán)境的支持,專(zhuān)門(mén)用于機(jī)器學(xué)習(xí)。通過(guò)Mallet工具,可以進(jìn)行自然語(yǔ)言處理、文本分類(lèi)、主題建模、文本聚類(lèi)、信息抽取等操作。通過(guò)下達(dá)具體指令語(yǔ)言不但可以對(duì)文本數(shù)據(jù)進(jìn)行分詞、除去停用詞等數(shù)據(jù)預(yù)處理工作,還可以通過(guò)主題建模的功能(基于分層LDA模型、基于采樣的狄利赫雷分布等)分析大量未知屬性文本,提取出具有一定特征的主題。

        Knime[35](Konstanz Information Miner)數(shù)據(jù)挖掘工具是一款基于Eclipse開(kāi)發(fā)環(huán)境的開(kāi)源數(shù)據(jù)分析平臺(tái),可以擴(kuò)展使用Weka中的挖掘算法。采用類(lèi)似數(shù)據(jù)流(Data Flow)的方式來(lái)建立數(shù)據(jù)分析流程。數(shù)據(jù)流程由一系列功能節(jié)點(diǎn)(Node)組成,節(jié)點(diǎn)之間的連接線(xiàn)需要用鼠標(biāo)拖拽進(jìn)行連接,每個(gè)節(jié)點(diǎn)有輸入或輸出端口(Port)用來(lái)接收數(shù)據(jù)或?qū)С鼋Y(jié)果。直接用鼠標(biāo)拖拽連接端口來(lái)進(jìn)行節(jié)點(diǎn)之問(wèn)的連接。其中每個(gè)節(jié)點(diǎn)都帶有交通信號(hào)燈,用于指示該節(jié)點(diǎn)的狀態(tài)(未連接、未配置、缺乏輸入數(shù)據(jù)時(shí)為紅燈,準(zhǔn)備執(zhí)行為黃燈,執(zhí)行完畢后為綠燈)。PLDA的主題識(shí)別功能對(duì)文檔進(jìn)行并行式處理,效率高、準(zhǔn)確性好。同時(shí),Knime還具有相似度計(jì)算功能,用以測(cè)算不同時(shí)期主題間的相似程度,判斷演化趨勢(shì)。在句法分析方面有TF-IDF算法功能,可以進(jìn)行引文內(nèi)容中語(yǔ)句特征詞的提取。

        NLTK[36](Natural Language Toolit,簡(jiǎn)稱(chēng)NLTK)是一種基于Python編程語(yǔ)言的開(kāi)源庫(kù),包含了大量的軟件、數(shù)據(jù)和文檔,在文本挖掘和自然語(yǔ)言處理中有很好的應(yīng)用。它定義了使用Python進(jìn)行自然語(yǔ)言處理編程的基礎(chǔ)工具,提供了相關(guān)數(shù)據(jù)表示的基本類(lèi),詞性標(biāo)注、文法分析、文本分類(lèi)等任務(wù)接口,通過(guò)這些接口可以訪問(wèn)超過(guò)50個(gè)語(yǔ)料庫(kù)和詞匯資源(如WordNet),以及用于分類(lèi)、標(biāo)記化、詞干標(biāo)記、解析和語(yǔ)義推理的文本處理庫(kù),可以自由組合以解決復(fù)雜問(wèn)題。

        在科技創(chuàng)新路徑識(shí)別研究中,離不開(kāi)上述文本挖掘工具的支持。基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別具體流程如圖2所示。首先,利用文本挖掘工具將關(guān)鍵信息(施引文獻(xiàn)ID、被引文獻(xiàn)ID、引用位置、引文內(nèi)容等)從XML全文數(shù)據(jù)中抽取出來(lái)。此部分工作可以利用NLTK工具通過(guò)正則表達(dá)式實(shí)現(xiàn)抽取。然后,將抽取出的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)挖掘工具中,進(jìn)行相關(guān)的挖掘分析工作。通過(guò)詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)系抽取、句法分析、語(yǔ)義角色標(biāo)注等方法挖掘出引文內(nèi)容中蘊(yùn)含的主題特征等內(nèi)容,進(jìn)而實(shí)現(xiàn)引用情感分析。此部分工作可以利用Mallet或Knime主題模型工具實(shí)現(xiàn)。

        2.2 科技創(chuàng)新路徑可視化開(kāi)源工具

        經(jīng)過(guò)對(duì)引文內(nèi)容抽取挖掘后,通過(guò)可視化的手段將科技創(chuàng)新路徑展示出來(lái)就離不開(kāi)可視化開(kāi)源工具的幫助??梢暬_(kāi)源工具不僅能實(shí)現(xiàn)關(guān)鍵詞、作者合作網(wǎng)絡(luò)的構(gòu)建,還能對(duì)科技創(chuàng)新路徑中的關(guān)鍵節(jié)點(diǎn)進(jìn)行標(biāo)記、展示,從而對(duì)某學(xué)科領(lǐng)域的研究追根溯源。目前運(yùn)用較多的工具有Pajek、Ucinet、Gephi、D3.js、VOSViewer等,幾種工具的對(duì)比見(jiàn)表7。

        表7 社會(huì)網(wǎng)絡(luò)和可視化工具對(duì)比

        Pajek[37]是一款基于windows的免費(fèi)社會(huì)網(wǎng)絡(luò)分析工具,擁有出色的大型網(wǎng)絡(luò)處理能力。該工具擁有17個(gè)菜單按鈕,網(wǎng)絡(luò)分析功能全面,在大型網(wǎng)絡(luò)進(jìn)行分類(lèi)劃區(qū)之后,還可以從不同區(qū)域入手,縮小研究的網(wǎng)絡(luò)范圍實(shí)現(xiàn)小網(wǎng)絡(luò)細(xì)致研究,同時(shí)具有結(jié)構(gòu)洞探測(cè)分析以及凝聚子群的K-核分析功能,因其強(qiáng)大的網(wǎng)絡(luò)分析功能,普遍被網(wǎng)絡(luò)分析研究人員所看好,其部分功能被集成到Ucinet中。

        圖2 文本挖掘工具應(yīng)用流程示意圖

        Ucinet[38]是由加州大學(xué)的相關(guān)研究人員研發(fā)的一款社會(huì)網(wǎng)絡(luò)分析軟件。該工具集成了NetDraw(進(jìn)行一維、二維數(shù)據(jù)分析)等程序來(lái)實(shí)現(xiàn)數(shù)據(jù)處理和可視化功能。Ucinet在5 000節(jié)點(diǎn)以下分析速度較快,否之則運(yùn)行緩慢。該工具可以對(duì)社會(huì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行密度分析(路徑:網(wǎng)絡(luò)→凝聚力→密度→密度)、中心性分析(Path:Analysis→Centrality Measures)、結(jié)構(gòu)洞分析(Path:網(wǎng)絡(luò)→個(gè)體中心網(wǎng)絡(luò)→結(jié)構(gòu)洞)、凝聚子群分析(Path:網(wǎng)絡(luò)→角色&位置→結(jié)構(gòu)→CONCOR)等。

        Gephi[39]是由法國(guó)研究機(jī)構(gòu)合作研發(fā)的一款開(kāi)源的社會(huì)網(wǎng)絡(luò)分析工具,在Netbeans平臺(tái)上開(kāi)發(fā),其可視化引擎OpenGL確保了Gephi運(yùn)行的高效性,支持CSV、GDF、GML等多種數(shù)據(jù)格式,能夠?qū)崿F(xiàn)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、人際關(guān)系網(wǎng)絡(luò)等多種網(wǎng)絡(luò)結(jié)構(gòu)的分析,另外還可以進(jìn)行路徑標(biāo)記,使得網(wǎng)絡(luò)的演化走向更加清晰的呈現(xiàn)出來(lái)。

        D3[40](Data-Driven Documents,簡(jiǎn)稱(chēng)D3)是一種數(shù)據(jù)驅(qū)動(dòng)下的可視化JavaScript的函數(shù)庫(kù),由于其本質(zhì)是JavaScript(文件后綴為.js),所以也稱(chēng)D3為D3.js。D3之所以可視化功能強(qiáng)大,受到各行業(yè)可視化工作人員的親睞,是因?yàn)镈3簡(jiǎn)化了復(fù)雜的函數(shù)框架,使得操作者只需要輸入簡(jiǎn)單的數(shù)據(jù),借助瀏覽器就能夠?qū)?shù)據(jù)完美表達(dá)成圖形。D3支持多種數(shù)據(jù)格式,如JSON、XML、CSV、HTML等,其功能的實(shí)現(xiàn)機(jī)制是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)與HTML、SVG、CSS結(jié)合起來(lái),讓原本的二維數(shù)據(jù)在立體展示空間內(nèi)形成緊密連接的立體數(shù)據(jù)體系,能夠揭示出數(shù)據(jù)信息之間的深層次結(jié)構(gòu)關(guān)聯(lián),使數(shù)據(jù)信息擁有具象的可視化效果[41]。D3可以實(shí)現(xiàn)對(duì)社會(huì)網(wǎng)絡(luò)數(shù)據(jù)(網(wǎng)絡(luò)關(guān)系圖)以及主題演化數(shù)據(jù)(桑吉圖等)的可視化呈現(xiàn)。

        VOSViewer[42]是雷登大學(xué)的研究人員開(kāi)發(fā)的一款免費(fèi)知識(shí)圖譜可視化工具。該軟件使用Java程序語(yǔ)言編寫(xiě),運(yùn)行VOSviewer前,要安裝最新的Java環(huán)境。VOSviewer可下載安裝,也可直接點(diǎn)擊launch在線(xiàn)運(yùn)行。VOSViewer只能對(duì)map和network進(jìn)行直接處理,因此,在處理CNKI或者WOS數(shù)據(jù)的時(shí)候,需要借助SAINT Toolkit等軟件進(jìn)行格式的轉(zhuǎn)化。VOSViewer主要運(yùn)用于文獻(xiàn)計(jì)量網(wǎng)絡(luò)的分析(如共引網(wǎng)絡(luò)、關(guān)鍵詞網(wǎng)絡(luò)圖),構(gòu)建的網(wǎng)絡(luò)圖清晰且能夠通過(guò)節(jié)點(diǎn)大小、距離、顏色等彰顯不同的網(wǎng)絡(luò)關(guān)系(被引次數(shù)、密度、學(xué)科領(lǐng)域),簡(jiǎn)單明了。

        圖3給出了一個(gè)利用D3實(shí)現(xiàn)的科技創(chuàng)新路徑主題演化示意圖,圖中每一個(gè)Node代表一個(gè)主題,圓圈的大小代表主題的強(qiáng)度,數(shù)據(jù)流的寬度代表路徑演化的強(qiáng)度(相似度)。通過(guò)該圖可以清晰的展示出某一研究領(lǐng)域的科技創(chuàng)新主題演化過(guò)程。

        圖3 科技創(chuàng)新路徑主題演化示意圖

        圖4給出了一個(gè)利用Gephi制作的科技創(chuàng)新過(guò)程中引用動(dòng)機(jī)網(wǎng)絡(luò),圖中每個(gè)節(jié)點(diǎn)代表一篇文獻(xiàn),節(jié)點(diǎn)的大小表示被引用次數(shù)的多少,節(jié)點(diǎn)間的連線(xiàn),不同顏色表示不同引用動(dòng)機(jī),比如紅色表示正向積極引用,黃色代表中立引用等。通過(guò)該圖可以展示出科技創(chuàng)新過(guò)程中哪些論文起到積極作用,哪些論文可能起到負(fù)面引用效果。

        圖4 科技創(chuàng)新路徑情感演化示意圖

        通過(guò)對(duì)文本挖掘開(kāi)源工具和科技創(chuàng)新路徑可視化展示開(kāi)源工具的分析,結(jié)合對(duì)數(shù)據(jù)源格式和挖掘方法的研究,可以發(fā)現(xiàn)基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別研究具有廣闊的發(fā)展空間。通過(guò)基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別可以更加充分的展示領(lǐng)域科技創(chuàng)新的軌跡,反映根本創(chuàng)新內(nèi)容,為決策者研判領(lǐng)域發(fā)展趨勢(shì)和制定科技計(jì)劃時(shí)提供決策支持。

        3 結(jié)束語(yǔ)

        本文調(diào)研分析了科技創(chuàng)新路徑識(shí)別研究的主要方法以及實(shí)現(xiàn)開(kāi)源工具。指出了基于引文內(nèi)容挖掘的科技創(chuàng)新路徑識(shí)別研究是結(jié)合引文網(wǎng)絡(luò)分析方法、文本內(nèi)容分析方法以及引文內(nèi)容分析方法,運(yùn)用自然語(yǔ)言處理技術(shù)和可視化技術(shù),對(duì)科技文本進(jìn)行的一系列準(zhǔn)確、高效的分析和處理,以求透視出科技創(chuàng)新路徑中蘊(yùn)含的具有科學(xué)價(jià)值的內(nèi)容。

        猜你喜歡
        可視化文獻(xiàn)文本
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        基于CGAL和OpenGL的海底地形三維可視化
        在808DA上文本顯示的改善
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        日本成人三级视频网站| 无码少妇一区二区三区| 麻豆AV免费网站| 日产精品一区二区在线| 国产精品亚洲二区在线看| 久久精品无码av| 欧美精品中文字幕亚洲专区| 亚洲天堂免费一二三四区| 国产精品国产三级国产专播下 | 久久精品国产99久久无毒不卡| 久久久精品欧美一区二区免费| 亚洲AV无码国产精品久久l| 国产激情视频在线观看首页| 色综合久久久久综合体桃花网| 青青草原综合久久大伊人| 亚洲色图视频在线观看网站| 看一区二区日本视频免费| 久久性爱视频| 精品人体无码一区二区三区| 日韩精品精品一区二区三区| 黄色国产一区二区99| 最近中文字幕完整版免费| 天天躁日日躁狠狠躁一区| 久久精品国产亚洲av专区| 久久久久久av无码免费网站下载| 亚洲精品欧美二区三区中文字幕| 国产亚洲欧美另类第一页| 久久一区二区国产精品| 一本久久伊人热热精品中文字幕| 日韩一区二区肥| 伊人影院成人在线观看| 亚洲av无码电影在线播放| 九九热在线视频观看这里只有精品| 亚洲国产日韩av一区二区| 国产三a级三级日产三级野外| 特级做a爰片毛片免费看无码| 毛片av在线播放亚洲av网站| 国产人妖av在线观看| 99精品国产丝袜在线拍国语| 中文字幕天堂网| 亚洲中文字幕乱码免费看|