,,
研究前沿是某領(lǐng)域處于先鋒地位的研究?jī)?nèi)容。想要更好地理解當(dāng)下和未來(lái)的研究趨勢(shì),需要時(shí)刻關(guān)注領(lǐng)域的研究前沿。
國(guó)家自然科學(xué)基金作為我國(guó)支持基礎(chǔ)研究的主要渠道,自成立20多年來(lái),在推動(dòng)我國(guó)自然科學(xué)基礎(chǔ)研究的發(fā)展,促進(jìn)基礎(chǔ)學(xué)科建設(shè),發(fā)現(xiàn)、培養(yǎng)優(yōu)秀科技人才等方面取得了巨大成果。因此,國(guó)家自然科學(xué)基金的資助情況在一定程度上可反映出某領(lǐng)域的前沿?zé)狳c(diǎn)和發(fā)展趨勢(shì)??萍嘉墨I(xiàn)是基金項(xiàng)目的成果,因此從基金資助層面探測(cè)研究前沿,能夠盡早識(shí)別領(lǐng)域的發(fā)展動(dòng)向。
然而,在探測(cè)研究前沿的過(guò)程中,研究時(shí)間窗的劃定是一個(gè)關(guān)鍵問(wèn)題。大部分研究者傾向于根據(jù)主觀判斷選擇固定的研究時(shí)間窗,但固定時(shí)間窗不能很好地反映領(lǐng)域的動(dòng)態(tài)變化,因此有研究人員開(kāi)始傾向于選擇滑動(dòng)時(shí)間窗探索研究前沿的演化[1]。本文采用互相重疊的5個(gè)滑動(dòng)時(shí)間窗,通過(guò)實(shí)施共詞聚類方法來(lái)探測(cè)腫瘤領(lǐng)域的研究前沿,追蹤領(lǐng)域前沿的產(chǎn)生、發(fā)展、衰退和消失,以科學(xué)基金項(xiàng)目信息作為分析對(duì)象,采用基于滑動(dòng)時(shí)間窗的主題時(shí)間序列分析方法探測(cè)該領(lǐng)域的研究前沿。
1965年,普賴斯就提出了研究前沿的概念[2],之后不同學(xué)者對(duì)研究前沿的概念內(nèi)涵進(jìn)行了不同的定義和詮釋[3-7]。1974年,Small和Griffith參考Price的研究前沿的定義提出了用共被引聚類分析得到的高被引文獻(xiàn)簇能很好地表征研究前沿[3]。1994 年 ,Garfield 提出研究前沿是隨著領(lǐng)域的發(fā)展而不斷產(chǎn)生的新分支,通過(guò) ISI 的研究工具可以跟蹤前沿的生長(zhǎng)期和衰退期[4]。同年,Persson 提出了研究領(lǐng)域結(jié)構(gòu)由知識(shí)基礎(chǔ)和前沿組成,被引用的文獻(xiàn)構(gòu)成知識(shí)基礎(chǔ),引用知識(shí)基礎(chǔ)的文獻(xiàn)為研究前沿[5]。2003年,Morris將前沿定義為傾向于引用固定的、時(shí)間不變的基礎(chǔ)文獻(xiàn)的文獻(xiàn)聚類,采用時(shí)間線可視化方法研究了炭疽研究相關(guān)文獻(xiàn)所體現(xiàn)出來(lái)的相關(guān)科學(xué)研究的時(shí)間變化[6];Chen在CiteSpace II中同樣定義了研究前沿的概念,將其定義為一種新興的趨勢(shì),一組瞬時(shí)的概念和潛在的研究問(wèn)題[7]。
目前研究前沿的識(shí)別方法大體可分為基于引用關(guān)系的方法、基于文本內(nèi)容的方法、基于統(tǒng)計(jì)學(xué)的方法以及混合分析方法四種。基于引用關(guān)系的方法主要是基于共被引、文獻(xiàn)耦合、直接引用的方法,運(yùn)用引文分析法探測(cè)研究前沿已較為成熟,Naoki Shibata等[8]、BoJarneving[9]、Schiebel Edgar[10]分別基于不同的引文類型對(duì)研究前沿展開(kāi)了分析和研究。基于文本內(nèi)容的方法主要是基于詞頻、共詞以及文本挖掘自動(dòng)探測(cè)的方法。由于引文的滯后性,許多學(xué)者試圖從文本內(nèi)容入手探測(cè)更直接、更有說(shuō)服力、更有價(jià)值的研究前沿,如2002年Kleinberg[11]提出基于詞頻變化程度的突發(fā)檢測(cè)算法來(lái)探測(cè)研究前沿,并在2009年被陳超美博士整合到CiteSpaceⅡ軟件中[12]。共詞分析能夠最大程度地發(fā)揮詞頻分析的優(yōu)勢(shì),更深入地挖掘文獻(xiàn)資料,因此越來(lái)越多的研究者將目光轉(zhuǎn)向共詞分析,如An和Qing Qiang Wu[13]、許振亮[14]等運(yùn)用共詞分析法探測(cè)研究前沿?;谖谋就诰蜃詣?dòng)探測(cè)的方法是前沿探測(cè)上的一個(gè)新趨勢(shì),Pottenger等[15]已進(jìn)行了相關(guān)研究。
此外,部分學(xué)者還采用了因子分析[16]、多維統(tǒng)計(jì)分析方法[17]以探測(cè)研究前沿?;旌戏治龇椒ㄖ饕菍⒒谝藐P(guān)系的方法與基于共詞分析的方法結(jié)合起來(lái)。Braam等[18]最早提出將詞和共被引結(jié)合起來(lái),揭示研究前沿,隨后Besselaar和Heimeriks[19]提出一種詞—引文共現(xiàn)的方法。盡管前沿探測(cè)方法多樣,但存在兩個(gè)共性的問(wèn)題:一是主要以分析科技文獻(xiàn)為主,二是大多前沿探測(cè)研究選擇固定的時(shí)間窗。
筆者利用國(guó)家自然科學(xué)基金委員會(huì)科學(xué)基金共享服務(wù)網(wǎng)站(http://npd.nsfc.gov.cn/fundingProjectSearchAction.action),檢索申請(qǐng)代碼為H16(腫瘤學(xué)),批準(zhǔn)年度為2007-2015年間的項(xiàng)目數(shù)據(jù),共5 076條。
采用基于滑動(dòng)時(shí)間窗的共詞聚類分析方法,設(shè)定2007-2011年、2008-2012年、2009-2013年、2010-2014年4個(gè)互相重疊的滑動(dòng)時(shí)間窗。
共詞聚類分析法的原理是統(tǒng)計(jì)1組詞對(duì)在同1篇文章中出現(xiàn)的頻次,然后以此為基礎(chǔ)進(jìn)行聚類分析,其結(jié)果可以顯示詞與詞之間的親疏關(guān)系,反映這些詞所代表的主題以及學(xué)科的結(jié)構(gòu)關(guān)系,即所選取的詞對(duì)中,兩個(gè)詞共同出現(xiàn)的頻率越高,表明這兩個(gè)詞的關(guān)聯(lián)強(qiáng)度越高,這兩個(gè)詞代表的熱點(diǎn)或領(lǐng)域關(guān)系越密切[20]。
共詞聚類分析的步驟分為數(shù)據(jù)的獲取和處理、共詞矩陣的建立,聚類分析、結(jié)果可視化展示。筆者采用gCLuto軟件進(jìn)行聚類分析,相似性度量函數(shù)選擇默認(rèn)的cosine函數(shù),判別函數(shù)為I2。該軟件可提供四種聚類方法:Repeated Bisection(重復(fù)二分法),Direct(直接聚類),Agglomerative(凝聚聚類)和Graph(圖形聚類)。目前,沒(méi)有一個(gè)既定的規(guī)則來(lái)選擇聚類的方法與水平,一般取決于作者對(duì)聚類結(jié)果的判斷與平衡[21]。在gCLuto軟件的聚類結(jié)果報(bào)告中包括聚類選擇的方法和一些關(guān)于所得類群的統(tǒng)計(jì)學(xué)指標(biāo),見(jiàn)表1。
表1 聚類參數(shù)對(duì)照
其中類間平均相似度(Esim)越小、類內(nèi)平均相似度(Isim)越大,聚類效果越優(yōu)。分別用四種聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類,通過(guò)比較聚類結(jié)果的類間相似度與類內(nèi)相似度來(lái)判斷最優(yōu)聚類方法。
可視化結(jié)果通過(guò)gCLuto軟件繪制出的山丘圖呈現(xiàn)。可視化山丘用于展示類群的相對(duì)相似性、聚類的數(shù)量、類內(nèi)相似性、類內(nèi)標(biāo)準(zhǔn)差,山丘中每個(gè)類群被描述為三維地形的一個(gè)山丘,山丘的位置、體積、高度和顏色都描繪了相關(guān)類群的信息。
將數(shù)據(jù)集劃分為互相重疊的4個(gè)滑動(dòng)時(shí)間窗。使用不同的聚類分析方法對(duì)4個(gè)數(shù)據(jù)集聚類,選取最優(yōu)聚類方法。對(duì)4個(gè)時(shí)間窗內(nèi)的數(shù)據(jù)進(jìn)行共詞聚類,分析研究前沿及其演化。
Repeated Bisection(重復(fù)二分法),Direct(直接聚類),Agglomerative(凝聚聚類)和Graph(圖形聚類)四種聚類方法對(duì)不同時(shí)間窗數(shù)據(jù)的聚類結(jié)果如表2所示。
表2 4種聚類廣場(chǎng)法的聚類結(jié)果
其中,Agglomerative的類內(nèi)平均相似度(Isim)在2008-2012年、2009-2013年、2010-2014年三個(gè)時(shí)間窗最高,而其類間平均相似度(Esim)在2007-2011年、2008-2012年、2009-2013年最低;Graph的聚類結(jié)果也較為良好,類內(nèi)平均相似度(Isim)在2007-2011年最高,類間平均相似度(Esim)在2010-2014年最低;而Repeated Bisection與Direct的聚類結(jié)果較差。
通過(guò)比較聚類結(jié)果的類間相似度與類內(nèi)相似度,發(fā)現(xiàn)Agglomerative的聚類效果最優(yōu)。
基于gCLuto軟件,采用Agglomerative算法對(duì)4個(gè)滑動(dòng)時(shí)間窗內(nèi)的數(shù)據(jù)進(jìn)行共詞聚類分析,并繪制可視化山丘圖,得出2007-2011年的10個(gè)研究熱點(diǎn)(圖1)。
圖1 2007-2011年10個(gè)研究熱點(diǎn)的可視化山丘圖
10個(gè)研究熱點(diǎn)的主要內(nèi)容為胃癌中p53蛋白的表達(dá)和胃癌細(xì)胞的RNA干擾研究,泌尿生殖器腫瘤的分子機(jī)制及信號(hào)通路,DNA甲基化和microRNA與胰腺癌、宮頸癌發(fā)生的表觀遺傳學(xué)機(jī)制研究,乳腺癌的EMT轉(zhuǎn)移、侵襲過(guò)程,食管癌抑癌基因異常甲基化;腦膠質(zhì)瘤、骨肉瘤、卵巢癌中腫瘤干細(xì)胞的分離,蛋白質(zhì)組學(xué)技術(shù)篩選鼻咽癌、結(jié)腸癌的相關(guān)基因,結(jié)腸癌信號(hào)轉(zhuǎn)導(dǎo)通路的轉(zhuǎn)錄調(diào)控研究,肝癌細(xì)胞凋亡研究,非小細(xì)胞肺癌靶向治療的耐藥機(jī)制研究。
為直觀地顯示各研究熱點(diǎn)直接的關(guān)聯(lián),利用gCLuto軟件繪制了可視化山丘圖(圖1)。由圖1可見(jiàn)3,4,8號(hào)類群內(nèi)容關(guān)聯(lián)較為緊密,并有融合為一個(gè)研究主題的趨勢(shì);其他類群相互獨(dú)立,聚類結(jié)果較理想。
基于gCLuto軟件的Agglomerative算法,2008-2012年共得到10個(gè)研究熱點(diǎn),詳見(jiàn)圖2。
圖2 2008-2012年10個(gè)研究熱點(diǎn)的可視化山丘圖
10個(gè)研究熱點(diǎn)的主要內(nèi)容為細(xì)胞自噬與多發(fā)性骨髓瘤細(xì)胞凋亡;針對(duì)腫瘤微環(huán)境進(jìn)行靶向治療(例如宮頸癌、骨肉瘤),前列腺癌、食管癌、鼻咽癌的信號(hào)通路研究,肝細(xì)胞癌、結(jié)直腸癌的microRNA表達(dá)研究,胃癌、肺癌的轉(zhuǎn)移、侵襲,p53基因突變與腫瘤發(fā)生的相關(guān)性研究,抑癌基因異常甲基化,肝癌基因治療,腫瘤干細(xì)胞的分離及其信號(hào)轉(zhuǎn)導(dǎo)通路研究,乳腺癌EMT轉(zhuǎn)移。圖2中,3,4號(hào)類群較緊密,4,9號(hào)峰頂呈紅色,說(shuō)明其為研究熱點(diǎn)。
基于gCLuto軟件的Agglomerative算法,2009-2013年同樣共得到10個(gè)研究熱點(diǎn),如圖3所示。
10個(gè)研究熱點(diǎn)的主要內(nèi)容為抑癌基因異常甲基化,非小細(xì)胞癌信號(hào)通路的基因表達(dá)調(diào)控研究,針對(duì)腫瘤微環(huán)境對(duì)腫瘤干細(xì)胞進(jìn)行靶向治療,肺腫瘤氣管、支氣管轉(zhuǎn)移,microRNA在基因治療方面的應(yīng)用,經(jīng)EMT轉(zhuǎn)移的分子機(jī)制,p53基因突變與腫瘤發(fā)生的相關(guān)性研究,中樞神經(jīng)系統(tǒng)腫瘤DNA甲基化研究;乳腺癌EMT轉(zhuǎn)移,細(xì)胞自噬與多胃癌細(xì)胞凋亡。圖3中只有3,7號(hào)類群較獨(dú)立,其他類群類間相似度都較大,5,9類群為研究熱點(diǎn)。
圖3 2009-2013年10個(gè)研究熱點(diǎn)的可視化山丘圖
基于gCLuto軟件的Agglomerative算法,2010-2014年共得到10個(gè)研究熱點(diǎn),詳見(jiàn)圖4。
10個(gè)研究熱點(diǎn)的主要內(nèi)容為肝癌細(xì)胞、肝和肝內(nèi)膽管腫瘤細(xì)胞抑癌基因異常表達(dá),乳腺腫瘤、前列腺腫瘤的腫瘤微環(huán)境,p53基因突變與肺癌的發(fā)生機(jī)制研究,中樞神經(jīng)系統(tǒng)腫瘤、腦膠質(zhì)瘤的腫瘤干細(xì)胞分離,肺腫瘤氣管、支氣管轉(zhuǎn)移,乳腺癌EMT轉(zhuǎn)移及其腫瘤干細(xì)胞研究,前列腺癌、直結(jié)腸癌的靶向治療分子機(jī)制,非小細(xì)胞肺癌細(xì)胞凋亡、自噬的信號(hào)通路研究,卵巢癌、鼻咽癌腫瘤發(fā)生的信號(hào)轉(zhuǎn)導(dǎo)通路,microRNA在肝癌、胰腺癌基因治療方面的應(yīng)用。與2009-2013年10個(gè)研究熱點(diǎn)的可視化山丘圖相似,圖4中大部分研究類群沒(méi)有明顯的界限,僅3,4號(hào)類群較獨(dú)立,4號(hào)類群為該時(shí)期的研究熱點(diǎn)。
圖4 2010-2014年10個(gè)研究熱點(diǎn)的可視化山丘圖
比較4個(gè)滑動(dòng)時(shí)間窗內(nèi)的研究前沿,有的新增了研究?jī)?nèi)容,有的研究重點(diǎn)發(fā)生了轉(zhuǎn)移。對(duì)比4個(gè)時(shí)期的研究熱點(diǎn),共有11個(gè)研究前沿發(fā)生明顯改變。圖5顯示了不同時(shí)間窗內(nèi)各主題的相關(guān)文獻(xiàn)數(shù)量。
圖5 不時(shí)時(shí)間窗內(nèi)各主題的相關(guān)文獻(xiàn)量
如圖5所示,腫瘤微環(huán)境、中樞神經(jīng)系統(tǒng)腫瘤、肺腫瘤轉(zhuǎn)移、靶向治療為新的研究前沿。中樞神經(jīng)系統(tǒng)腫瘤的DNA甲基化及其干細(xì)胞分離,肺腫瘤經(jīng)氣管支氣管轉(zhuǎn)移,針對(duì)腫瘤微環(huán)境的靶向治療是具體的研究?jī)?nèi)容。腫瘤干細(xì)胞的研究規(guī)模不斷增大,其研究重點(diǎn)由腫瘤干細(xì)胞的分離、信號(hào)轉(zhuǎn)導(dǎo)逐漸轉(zhuǎn)移到腫瘤微環(huán)境下腫瘤干細(xì)胞的研究。抑癌基因的研究規(guī)模較穩(wěn)定,近年來(lái)的研究前沿為肝和肝內(nèi)膽管腫瘤細(xì)胞抑癌基因異常表達(dá)。非小細(xì)胞肺癌的信號(hào)通路研究,乳腺癌的EMT轉(zhuǎn)移及其干細(xì)胞研究,腫瘤耐藥機(jī)制,p53基因突變與腫瘤發(fā)生機(jī)制為當(dāng)下腫瘤學(xué)的研究前沿問(wèn)題。隨著microRNA的研究規(guī)模逐漸擴(kuò)大,其研究?jī)?nèi)容由microRNA的表達(dá)轉(zhuǎn)移為在基因治療方面的應(yīng)用。
研究前沿探測(cè)是一個(gè)不斷發(fā)展的研究領(lǐng)域,探測(cè)技術(shù)層出不窮。筆者針對(duì)其共有問(wèn)題,提出滑動(dòng)時(shí)間窗視角下基于科學(xué)基金數(shù)據(jù)的方法來(lái)探測(cè)研究前沿。而如何從多角度、多層次來(lái)判斷一個(gè)學(xué)科的研究前沿,是后續(xù)努力的方向。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2015年10期