,,
科技領(lǐng)域前沿知識的概念最早來源于普賴斯提出的“研究前沿”這一概念。隨著科學(xué)研究范圍不斷擴(kuò)大與更新,目前已有多個概念與前沿知識的概念相近或類似,如研究前沿(Research Fronts)、新興趨勢(Emerging Trend)、新興研究領(lǐng)域(Emerging Research Domains、Emerging Research Area、Emerging Fields、Emerging Knowledge Domains)以及新興主題(Emerging Topics)、研究熱點(diǎn)(Research hotspot)、熱點(diǎn)主題(Hot Topics)等。因此,有些學(xué)者在研究前沿知識時往往借鑒或采用了測度新興或熱點(diǎn)主題的某些計(jì)算方法,并取得了較好的研究結(jié)果。根據(jù)學(xué)術(shù)界有對“前沿”概念的界定[1],前沿知識的內(nèi)涵主要包括“前沿”與“知識”兩個方面,“前沿”說明其具有前瞻性和先導(dǎo)性,“知識”說明其具有理論性與探索性。
前沿知識代表了某一學(xué)科領(lǐng)域現(xiàn)在以及未來一段時期的發(fā)展方向,對學(xué)科發(fā)展具有引領(lǐng)作用。及時發(fā)現(xiàn)并準(zhǔn)確識別前沿知識,為領(lǐng)域?qū)<姨峁┭芯繀⒖寂c情報支持,可避免重復(fù)勞動和節(jié)約科研資源,可輔助科研管理部門制定科研規(guī)劃、組織立項(xiàng)等科研管理工作?;陬I(lǐng)域?qū)<业摹邦^腦風(fēng)暴”定性發(fā)現(xiàn)前沿知識的過程,容易受領(lǐng)域?qū)<抑R背景、研究興趣等主觀因素的影響。因此,對前沿知識的定量研究逐漸受到各領(lǐng)域的關(guān)注。目前前沿知識的定量研究主要采用引文分析法[2-7]、共詞分析法[8]、文本挖掘法[9-10]、社會網(wǎng)絡(luò)分析法[11-12]等單一維度分析法以及多維度分析法。單一維度分析法的相關(guān)研究興起時間較早,具有一定的理論支撐,研究成果豐富,在學(xué)術(shù)界得到了一定的應(yīng)用,如湯森路透集團(tuán)的ESI數(shù)據(jù)庫即采用引文分析的方法表征研究前沿。然而,無論是“粗粒度”的引文分析法或“細(xì)粒度”的文本挖掘法,還是具有良好可視化效果的社會網(wǎng)絡(luò)分析法,均以發(fā)現(xiàn)前沿知識為主,未能揭示前沿知識的顯著特征,如先導(dǎo)性、高關(guān)注度等。文本挖掘方法可以在知識內(nèi)容的新穎性方面發(fā)現(xiàn)前沿知識,但僅限于單一特征,未能挖掘出前沿知識專有特征。雖然基于復(fù)合關(guān)系的方法[1]將引文分析與共詞分析進(jìn)行了結(jié)合,以發(fā)揮兩種方法的優(yōu)點(diǎn),彌補(bǔ)各自的不足,但在確定前沿知識特征方面尚顯不足。
相比利用引文集合、詞頻等單一屬性發(fā)現(xiàn)前沿知識的研究而言,多種屬性相結(jié)合能更加準(zhǔn)確地挖掘與定位前沿知識,有利于揭示前沿知識的特征與演化規(guī)律。基于此,本文在已有研究基礎(chǔ)上,首先確定了前沿知識的多維度特征,繼而提出了醫(yī)學(xué)領(lǐng)域前沿知識發(fā)現(xiàn)的研究框架
前沿知識的多維度分析法綜合運(yùn)用引文分析、共現(xiàn)分析、文本挖掘以及熱點(diǎn)話題探測方法,試圖從多個維度對前沿知識進(jìn)行分析,以揭示前沿知識不同方面的特征,特別是專有特征,現(xiàn)已經(jīng)成為前沿知識測度的主要研究思路。
吳菲菲等[13]從創(chuàng)新性和學(xué)科交叉性2個維度探測了研究前沿的模型,它由創(chuàng)新性特征識別階段、學(xué)科交叉性特征識別階段以及前沿主題提煉階段“三階段”構(gòu)成,各階段分別使用文獻(xiàn)引文分析、共現(xiàn)分析和文本挖掘方法??梢?,創(chuàng)新性、學(xué)科交叉性是前沿知識的重要特性。張麗華等[14]從時效性、突破性、跨學(xué)科性和繼承性4個方面對早期前沿知識的特征及其演化過程進(jìn)行了研究,發(fā)現(xiàn)突破性指數(shù)對前沿影響最大,其次為跨學(xué)科性和時效性,繼承性對前沿的影響最小。黃魯成等[15]從新興主題的關(guān)注度、成長潛力度以及關(guān)聯(lián)度3個屬性測度了新興主題的特點(diǎn),發(fā)現(xiàn)新興主題具有高關(guān)注度、高成長潛力度及高關(guān)聯(lián)度。賀亮等[16]提出了文獻(xiàn)主題詞發(fā)現(xiàn)和趨勢分析的方法,該方法利用LDA話題模型抽取科技文獻(xiàn)的話題,并計(jì)算了話題的強(qiáng)度和影響力。Le等[17]構(gòu)建的一個新興主題探測模型綜合考慮了科技文獻(xiàn)中主題的多種特征,利用7×10×2的神經(jīng)網(wǎng)絡(luò)識別新興概念,且該模型適用于不同的科學(xué)研究領(lǐng)域。Guo等[18]使用特殊詞突然增加的頻率、作者關(guān)注新興領(lǐng)域的人數(shù)和增加速度、參考文獻(xiàn)交叉學(xué)科的變化3個指標(biāo),構(gòu)建了用于描述和預(yù)測新興研究領(lǐng)域關(guān)鍵結(jié)構(gòu)和動態(tài)特性的混合模型。
雖然多維度分析方法可測度前沿知識的多種特征,但仍存在不足。一是對前沿知識專有特征挖掘不足。現(xiàn)有研究往往將“前沿”、“熱點(diǎn)”、“突發(fā)”、“新興”等描述知識特殊狀態(tài)的詞混淆,使得在挖掘與測度前沿知識特征時容易受其他知識測度方法的影響。二是對前沿知識的解讀缺乏語義環(huán)境?,F(xiàn)有研究中,缺乏對知識的語義描述。前沿知識是基于一定語義環(huán)境出現(xiàn)的,只有準(zhǔn)確描述前沿知識產(chǎn)生與存在的語義環(huán)境以及不同詞語間的語義關(guān)聯(lián),才能更準(zhǔn)確地定位前沿知識,并對其進(jìn)行正確解讀。
Bun等[19]認(rèn)為,新聞中任何一個熱點(diǎn)話題都不可能無限“熱”下去,都會經(jīng)歷一個產(chǎn)生、增長、成熟和消亡的過程,于是將生命周期理論用于探測研究新聞熱點(diǎn)話題。隨后,Chen[20]、趙迎光等[21]按照生命周期理論,分別設(shè)定了新聞熱點(diǎn)詞與文獻(xiàn)熱點(diǎn)詞的能量值、生命值、變化率等指標(biāo),并根據(jù)生命值指數(shù)確定每個時間窗內(nèi)的熱點(diǎn)詞。實(shí)驗(yàn)結(jié)果證明,利用生命周期理論可以較好地識別新聞及文獻(xiàn)熱點(diǎn)詞。前沿知識作為主題的一種,比一般知識具有更強(qiáng)的生命周期特征,應(yīng)表現(xiàn)出明顯的分期過程。因此,通過研究主題在生命周期內(nèi)特征的變化,可以監(jiān)測并識別前沿知識。
綜上所述,在時間維度上,前沿知識應(yīng)具有生命周期特征;在空間維度上,前沿知識主要具有權(quán)威性、普遍認(rèn)可性、創(chuàng)新性和學(xué)科交叉性4項(xiàng)特征。只有同時具備上述4項(xiàng)特征和具有生命周期特征的知識,能認(rèn)為是前沿知識?;诖?,本文確定文獻(xiàn)領(lǐng)域的前沿知識需同時滿足如下條件:前沿知識具有生命周期特征;前沿知識的出現(xiàn)頻次高,即具有普遍認(rèn)可性;前沿知識來源期刊影響因子較高,即具有權(quán)威性;前沿知識與已有知識的相似度不高,即具有創(chuàng)新性;前沿知識來源于多種學(xué)科領(lǐng)域,即具有學(xué)科交叉性。前沿知識表示公式如下:
前沿知識=(普遍認(rèn)可性+權(quán)威性+創(chuàng)新性+學(xué)科交叉性)∩ 生命周期特征
(1)
對前沿知識特征進(jìn)行維度劃分可以看出,普遍認(rèn)可性、權(quán)威性、創(chuàng)新性屬于前沿知識自身的屬性,共同構(gòu)成前沿知識的內(nèi)部屬性。學(xué)科交叉性雖是前沿知識自身具有的屬性,但學(xué)科交叉涉及多個學(xué)科之間的交流與測度,因此本研究認(rèn)為學(xué)科交叉性是前沿知識的外部屬性。前沿知識的內(nèi)部屬性可以深入內(nèi)容層面細(xì)粒度地描述與測度前沿知識,外部屬性可以在知識來源廣度上說明前沿知識的特征。綜合考量前沿知識的內(nèi)外部屬性,可以較為全面地測度前沿知識,實(shí)現(xiàn)準(zhǔn)確發(fā)現(xiàn)前沿知識的目的。與基于復(fù)合關(guān)系的方法不同,多維特征識別方法在前沿知識發(fā)現(xiàn)過程中,更強(qiáng)調(diào)對前沿知識自身特征的描述與判斷。
目前關(guān)于醫(yī)學(xué)領(lǐng)域前沿主題挖掘的研究較多,并開發(fā)了TDA、CiteSpace等成熟工具輔助識別前沿主題。但現(xiàn)有研究對前沿主題的主要特征認(rèn)識不足,更缺乏從知識內(nèi)外屬性綜合測度前沿知識的研究。此外,相關(guān)研究較少涉及研究主題的語義類型,對結(jié)果的解讀主要依賴領(lǐng)域?qū)<?,降低了方法的可用性。根?jù)上面對前沿知識多維特征的定義與測度方法分析,為保證識別前沿知識的準(zhǔn)確性與方法的可用性,本文提出了醫(yī)學(xué)領(lǐng)域前沿知識發(fā)現(xiàn)研究框架(圖1)。
圖1 基于多維特征識別的醫(yī)學(xué)領(lǐng)域前沿知識發(fā)現(xiàn)研究框架
數(shù)據(jù)預(yù)處理對數(shù)據(jù)分析、知識挖掘非常重要。本文利用豐富的醫(yī)學(xué)知識組織體系(如MeSH超級詞表)及權(quán)威可靠的語義分析工具M(jìn)etaMap,將從文獻(xiàn)數(shù)據(jù)庫獲取的醫(yī)學(xué)文獻(xiàn)中的主題詞進(jìn)行概念映射,抽取映射后的主題詞及其語義類型。經(jīng)過數(shù)據(jù)預(yù)處理,將各種醫(yī)學(xué)術(shù)語變體統(tǒng)一為標(biāo)準(zhǔn)的MeSH術(shù)語主題詞,既方便后續(xù)對分析結(jié)果的解讀,又提高了分析的準(zhǔn)確率。
根據(jù)公式(1)逐項(xiàng)測度數(shù)據(jù)預(yù)處理后抽取主題詞。每項(xiàng)指標(biāo)的測度方法如下。
2.3.1 生命周期特征測度
主題詞的生命周期可以反映其在時間上的變化趨勢。Chen等[22]提出了新聞事件的生命周期模型,將新聞事件按照生命周期分為4個階段,并提出了能量函數(shù)的概念以跟蹤事件的生命周期。該模型在主題探測與跟蹤領(lǐng)域得到了廣泛應(yīng)用。已有研究證明[21],文獻(xiàn)領(lǐng)域的主題詞具備生命周期特征,因此可以利用生命周期理論,測度主題詞在時間上的變化情況,并與其他指標(biāo)結(jié)合,共同揭示主題在時間上的特征。根據(jù)生命周期理論,文獻(xiàn)領(lǐng)域主題詞的能量值、生命值、變化率等指標(biāo)的計(jì)算公式如下。
主題詞K在時間窗t內(nèi)得到的能量值公式如下:
式中A、B、C、D的代表含義如表1所示。
表1 能量值計(jì)算公式中部分參數(shù)的取值
某一主題詞的生命值公式如下:
GFk,t=InGEk,t(4)
式中,GFk,t為主題詞K在時間窗t上的生命值,GFk,t為主題詞K在t時間窗內(nèi)得到的能量值。
根據(jù)公式(2)、(3)、(4)的測度主題詞的能量值、生命值等指標(biāo)的結(jié)果后,計(jì)算主題詞在每個時間窗生命值的變化率:
式中,N為給定時間段內(nèi)時間窗的個數(shù),GFk,t是t時間窗K主題詞的生命值,GF是K在所有時間窗內(nèi)的生命值均值。在某一時間窗內(nèi),主題詞的生命值變化率越大,其生命周期性越強(qiáng)。
2.3.2 普遍認(rèn)可性測度
主題詞出現(xiàn)的頻次越高,其普遍認(rèn)可性越大,越容易成為前沿知識。目前,用于測度主題詞頻次的方法很多(如詞頻統(tǒng)計(jì)法、TFIDF方法、詞共現(xiàn)方法等),但每種方法又有其局限性。例如,TFIDF方法使用的是TF(詞頻)與IDF(倒排文檔率)乘積表示詞權(quán)重,使那些出現(xiàn)頻率高和出現(xiàn)在多篇文檔中的主題詞的權(quán)重較小。事實(shí)上,當(dāng)主題詞處于其生命周期的中后期時,不僅出現(xiàn)頻次高,而且文檔數(shù)量也較多,導(dǎo)致TFIDF值較小,無法完全揭示具有生命周期特征的主題詞。
Bun等[19]糾正了計(jì)算詞權(quán)重的TFIDF算法在區(qū)分詞分布方面的不足,使用TFPDF算法計(jì)算每個詞的權(quán)重。TFPDF算法對于出現(xiàn)頻次高和出現(xiàn)文檔多的詞賦予較大權(quán)重,對主題詞的生命周期特征具有一定的揭示意義。因此,本文使用TFPDF方法計(jì)算主題詞的普遍認(rèn)可性,其公式如下:
式中,|Fk,c|是詞K在c中出現(xiàn)的頻次,nk,c是出現(xiàn)詞K的文檔的數(shù)量,W是c中所有詞的數(shù)量,|C|是文獻(xiàn)集合中期刊數(shù)量。因此如果一個詞的詞頻越大,并且包含該詞的期刊越多,TFXPDF值就越大。
2.3.3 權(quán)威性測度
影響因子是目前期刊評價與人才評價的重要指標(biāo)。該指標(biāo)雖然有其本身的缺陷,但在國際科技評價領(lǐng)域的作用仍很重要。一般而言,高影響因子學(xué)術(shù)期刊刊載的論文較同領(lǐng)域低影響因子期刊刊載的論文更容易獲得較高的學(xué)科關(guān)注度,具有更高的領(lǐng)域權(quán)威性。因此,領(lǐng)域高影響因子學(xué)術(shù)期刊是前沿知識的產(chǎn)生地與聚集地。當(dāng)然,并不是所有刊載在高影響因子期刊上的論文或主題就一定具有權(quán)威性和成長為前沿知識,只是成為前沿知識的可能性更大而已。因此,可以利用期刊影響因子測量文獻(xiàn)主題詞的權(quán)威性[15],公式如下:
2.3.4 創(chuàng)新性測度
主題詞的創(chuàng)新性一般可以主題詞出現(xiàn)時間和主題詞內(nèi)容的創(chuàng)新性兩個維度分別測量。從科技文獻(xiàn)老化的角度來說,社會的發(fā)展和知識的更新,必然會影響人們對新舊文獻(xiàn)的選擇。一般來說,舊有文獻(xiàn)的使用頻次將逐漸降低,讓位于新生的文獻(xiàn)。但出現(xiàn)時間并不能準(zhǔn)確定位前沿知識,更多的是用于對新興主題的探測研究。因此,本文使用主題詞內(nèi)容的創(chuàng)新性測度前沿知識。
主題詞內(nèi)容的創(chuàng)新性是指對給定的文獻(xiàn)集,按時間序列排序,比較新到來的相關(guān)文獻(xiàn)主題與已有文獻(xiàn)主題的冗余度,確定新到來的文本主題是否新穎。目前廣泛使用的文本創(chuàng)新性測量方法主要有基于向量空間模型的文本創(chuàng)新性探測和基于語言模型的文本創(chuàng)新性探測兩大類[23]。其中,基于向量空間模型的內(nèi)容創(chuàng)新性探測方法的主要步驟為:文本主題詞的抽取與映射→構(gòu)建文檔的向量空間模型→利用某一方法計(jì)算內(nèi)容創(chuàng)新性。本文采用Zhang[24]使用的向量余弦值方法測度主題詞內(nèi)容的創(chuàng)新性。計(jì)算方法如下:
式中,CNVk代表主題詞K內(nèi)容上的創(chuàng)新性,CNVk值越大,該主題詞K內(nèi)容上的創(chuàng)新性越強(qiáng)。cos(dl,di)計(jì)算了文檔dl,di余弦相似度值,n代表該時間窗內(nèi)擁有主題詞K的文檔數(shù)量,m代表前一時間窗內(nèi)所有文檔的數(shù)量,di代表前一時間窗的文檔i所對應(yīng)的向量,q代表向量維度。
2.3.5 學(xué)科交叉性測度
中科院院士路甬祥[25]曾指出:“學(xué)科交叉點(diǎn)往往就是科學(xué)新的生長點(diǎn)、新的科學(xué)前沿,這里最有可能產(chǎn)生重大的科學(xué)突破,使科學(xué)發(fā)生革命性變化?!倍囗?xiàng)研究[26-27]表明,世界上最具權(quán)威和最負(fù)盛名的科學(xué)獎項(xiàng)——諾貝爾自然科學(xué)獎中的學(xué)科交叉研究成果豐富,說明了現(xiàn)代科學(xué)技術(shù)的重大發(fā)現(xiàn)與發(fā)明多是學(xué)科交叉的成果??茖W(xué)和技術(shù)上的重大突破,新的生長點(diǎn)和新學(xué)科的產(chǎn)生,往往是在不同學(xué)科彼此交叉和相互滲透的過程中形成的,說明跨學(xué)科研究具有重大意義。
許海云等[28]對學(xué)科交叉性測度方法進(jìn)行了研究,將學(xué)科交叉性測度屬性主要分為學(xué)科多樣性(diversity)和學(xué)科聚合性(cohesion)兩種。學(xué)科多樣性描述交叉領(lǐng)域所涉及學(xué)科的數(shù)量統(tǒng)計(jì)特征,包括學(xué)科數(shù)量多少(豐富度)、分布特征(平衡性)和個體間差異性(差異度);學(xué)科聚合性表征了研究領(lǐng)域所涉及各個學(xué)科所構(gòu)成的整體網(wǎng)絡(luò)的聯(lián)系緊密程度和各學(xué)科在網(wǎng)絡(luò)中地位的差異程度,包括核心-邊緣度、網(wǎng)絡(luò)分派度、網(wǎng)絡(luò)密度和網(wǎng)絡(luò)中心勢。
Stirling[29]較為詳細(xì)地闡述了學(xué)科多樣性的普遍存在,指出了學(xué)科多樣性豐富性、平衡性和差異性3個屬性,并提出了用于測度學(xué)科交叉性的Rao-Stirling指標(biāo)。該指標(biāo)不僅考慮了學(xué)科分類間的平均分布程度,即平衡性,又考慮了學(xué)科分類間的差異性。張金柱等[30]、許海云等[31]均利用該指標(biāo)對圖書情報學(xué)領(lǐng)域的學(xué)科交叉性進(jìn)行了度量。
考慮到指標(biāo)的全面性與操作的簡單性,本文使用Rao-Stirling指標(biāo)測度主題詞的學(xué)科交叉性,其計(jì)算公式如下:
式中,pi與pj是不同學(xué)科的概率分布,dij是學(xué)科間的距離,可以用余弦相似度進(jìn)行計(jì)算α, β為計(jì)量參數(shù),取值為0-1。當(dāng)α、β取值不同時,測度了學(xué)科間的不同屬性(表2)。Rao-Stirling值越大,該主題的學(xué)科交叉性越強(qiáng)。
表2 Rao-Stirling指標(biāo)中參數(shù)取值不同時
2.3.6 前沿性測度
根據(jù)以上5個指標(biāo),設(shè)計(jì)主題詞的“前沿性”指標(biāo):
Front=aVt+bTFPDFk+cPAk+dCNVk+eRS(12)
式中,a、b、c、d、e系數(shù)應(yīng)根據(jù)上述指標(biāo)的特點(diǎn)及其在發(fā)現(xiàn)前沿知識時的作用與區(qū)分度確定。
從統(tǒng)計(jì)學(xué)角度看,公式(12)為前沿性指標(biāo)的多元線性回歸模型。普通最小二乘估計(jì)、最大似然估計(jì)等是常用的參數(shù)估計(jì)方法,用于確定式中的a、b、c、d、e參數(shù)值。隨著多元線性回歸模型應(yīng)用的逐步推廣,為滿足學(xué)科領(lǐng)域發(fā)展需要,提出了參數(shù)估計(jì)的自適應(yīng)動態(tài)更新機(jī)制,DE算法[32]、粒子群算法[33]等新的方法逐步用于參數(shù)估計(jì)研究中。醫(yī)學(xué)領(lǐng)域由多個子學(xué)科組成,本文雖利用統(tǒng)一的前沿知識特征指標(biāo)對前沿知識進(jìn)行識別,但同一特征在確定不同子學(xué)科前沿知識的重要性時可能有所不同。因此,目前尚無法給出各參數(shù)的具體估算與動態(tài)更新方法,需要通過大量不同學(xué)科的實(shí)驗(yàn),確定適用于某一具體學(xué)科的前沿性參數(shù)組合。
考慮到各個主題并非孤立存在而具有一定的關(guān)聯(lián)關(guān)系,明確主題間的相關(guān)關(guān)系更有利于對前沿知識的準(zhǔn)確解讀。依據(jù)前沿性指標(biāo)篩選權(quán)重較大的主題詞,利用詞共現(xiàn)理論與技術(shù)、社會網(wǎng)絡(luò)分析技術(shù)生成前沿知識網(wǎng)絡(luò)。判斷生成的知識網(wǎng)絡(luò)中節(jié)點(diǎn)重要性的指標(biāo)有很多,如中心度、聲望等。雖然這些指標(biāo)可以揭示節(jié)點(diǎn)的全局重要性,但無法揭示節(jié)點(diǎn)在某一社區(qū)的重要程度。本文通過前沿性指標(biāo)測度了節(jié)點(diǎn)的全局重要性,在知識網(wǎng)絡(luò)分析中則需要判斷節(jié)點(diǎn)的局部重要性,從而實(shí)現(xiàn)對某一知識網(wǎng)絡(luò)所代表主題的解讀。本文使用Guimera等[34]提出的Z-Value值計(jì)算節(jié)點(diǎn)的局部重要性,Z-Value方法可以測度網(wǎng)絡(luò)節(jié)點(diǎn)與其他節(jié)點(diǎn)聯(lián)系的緊密性,根據(jù)指標(biāo)值大小確定計(jì)算節(jié)點(diǎn)的局部重要性。
準(zhǔn)確識別知識網(wǎng)絡(luò)中的重要社區(qū),對揭示學(xué)科發(fā)展規(guī)律和描述學(xué)科內(nèi)部關(guān)聯(lián)等具有積極作用。Wallace等[35]的研究證明了應(yīng)用社區(qū)發(fā)現(xiàn)方法識別知識網(wǎng)絡(luò)中的重要社區(qū)是可行有效的。計(jì)算機(jī)學(xué)界基于圖論提出了多種社區(qū)識別算法,最有代表性的方法是基于優(yōu)化網(wǎng)絡(luò)模塊度的方法。該方法根據(jù)邊的中介性和模塊度的變化進(jìn)行社區(qū)識別。本文利用模塊度方法,對前沿知識形成的多個社區(qū)進(jìn)行識別,確定不同社區(qū)的重要性,并發(fā)現(xiàn)重要社區(qū)中節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,從而描述前沿知識結(jié)構(gòu)。
最后,利用數(shù)據(jù)預(yù)處理階段提取的主題詞的語義類型,對代表性節(jié)點(diǎn)與關(guān)鍵社區(qū)中的主題詞進(jìn)行解讀,可以準(zhǔn)確發(fā)現(xiàn)某一醫(yī)學(xué)研究領(lǐng)域涉及的疾病、基因、藥物、治療方法等方面前沿知識的概況,以指導(dǎo)研究人員更針對性地開展相關(guān)研究。
為了準(zhǔn)確識別醫(yī)學(xué)領(lǐng)域的前沿知識,本文提出了一種基于多維度特征識別的醫(yī)學(xué)領(lǐng)域前沿知識發(fā)現(xiàn)研究框架,并給出了框架中核心部分的研究思路與關(guān)鍵步驟。本文將生命周期理論、社會網(wǎng)絡(luò)理論等多種理論與方法共同用于前沿知識的發(fā)現(xiàn)研究中,強(qiáng)調(diào)從知識的內(nèi)外部兩個方面共同測度前沿知識。此外,根據(jù)不同知識的語義類型,可以有針對性地解讀前沿知識。后續(xù)研究中,我們將進(jìn)一步驗(yàn)證本文所提方案的有效性,重點(diǎn)解決以下問題。
一是指標(biāo)閾值的選取與確定。能量值、生命值、學(xué)科交叉性、前沿性等指標(biāo)閾值的大小,直接決定最終識別的前沿知識的內(nèi)容。目前尚無統(tǒng)一的閾值選擇標(biāo)準(zhǔn),仍需經(jīng)過大量實(shí)驗(yàn)確定具體指標(biāo)的參數(shù)值,以提高指標(biāo)與模型的適用性。
二是醫(yī)學(xué)領(lǐng)域前沿知識的語義關(guān)聯(lián)分析。本文結(jié)合語義類型實(shí)現(xiàn)了對前沿知識的解讀,但對不同類型間知識的語義關(guān)聯(lián)缺乏深入研究。醫(yī)學(xué)研究領(lǐng)域比其他領(lǐng)域具有更加完備的知識組織體系與語義關(guān)系。目前國外已開發(fā)了一些數(shù)據(jù)庫用于存儲基因與疾病之間的關(guān)系(例如CTDTM[36],OMIM?[37]和GAD[38]),開發(fā)了DisGeNET[39]平臺用以集成基因疾病關(guān)聯(lián)(GDAs)中多個公共數(shù)據(jù)源和文獻(xiàn)信息,該平臺包括17 181種基因與14 619種疾病的429 111種關(guān)系。因此,建立醫(yī)學(xué)領(lǐng)域前沿知識間的語義關(guān)聯(lián)和揭示醫(yī)學(xué)知識間的語義關(guān)系,對疾病的預(yù)防、發(fā)現(xiàn)與治療具有積極影響。