葉少林 甘 靖,2 羅 蓉 萬(wàn)朝敏,2
(1. 四川大學(xué)華西第二醫(yī)院兒科,四川 成都 610041;2. 出生缺陷與相關(guān)婦兒疾病教育部重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041)
共詞分析在醫(yī)學(xué)生科研中的應(yīng)用
葉少林1甘 靖1,2羅 蓉1萬(wàn)朝敏1,2
(1. 四川大學(xué)華西第二醫(yī)院兒科,四川 成都 610041;2. 出生缺陷與相關(guān)婦兒疾病教育部重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041)
共詞分析是一種重要的科研方法,在國(guó)內(nèi)外已被廣泛應(yīng)用于許多研究領(lǐng)域。通過(guò)SPSS、UNCIET、EXCEL這些軟件共同組成了包含關(guān)鍵詞的方陣,對(duì)經(jīng)常出現(xiàn)的詞語(yǔ)相互間的關(guān)聯(lián)進(jìn)行研究,進(jìn)而展現(xiàn)出熱點(diǎn)存在的關(guān)系,把他們展現(xiàn)在大眾的視線下,接著掌握上述學(xué)科的框架和它的走向。從醫(yī)學(xué)的層次來(lái)看,共詞分析研究應(yīng)用相對(duì)較少,本文將初步介紹共詞分析在醫(yī)學(xué)科研中的運(yùn)用,以期為廣大醫(yī)學(xué)生提供一種新的科研利器。
共詞分析;醫(yī)學(xué)教育;科研
共詞分析問(wèn)世于上世紀(jì)70年代[1],歷時(shí)四十多年,它得到了長(zhǎng)足的發(fā)展,在信息的檢索及其系統(tǒng)、信息科學(xué)、圖書(shū)館管理、物理等許多領(lǐng)域,取得了重要研究成果,但在醫(yī)學(xué)領(lǐng)域科研方面,共詞分析研究應(yīng)用相對(duì)較少,這為我們廣大的醫(yī)學(xué)生提供了一個(gè)很好的科研平臺(tái),讓他們除了做基礎(chǔ)實(shí)驗(yàn)研究及臨床調(diào)查研究以外,還能學(xué)習(xí)到醫(yī)學(xué)情報(bào)學(xué)的研究。
共詞分析方法是基于統(tǒng)計(jì)學(xué)基礎(chǔ)的一種能夠?qū)Ξ?dāng)前所有的研究領(lǐng)域中熱點(diǎn)現(xiàn)象以及該領(lǐng)域的結(jié)構(gòu)特征做出分析的一種方法。它的中心思想是利用該研究領(lǐng)域中熱點(diǎn)詞匯之間的聯(lián)系來(lái)對(duì)該領(lǐng)域的發(fā)展方向以及發(fā)展進(jìn)程做出預(yù)測(cè)與估計(jì)。如果該領(lǐng)域有一個(gè)可以將該領(lǐng)域所有研究專家的研究方向進(jìn)行聯(lián)系的一個(gè)詞匯,那么在所有的涉及到該領(lǐng)域的相關(guān)文獻(xiàn)中該詞匯都會(huì)出現(xiàn),這樣就可以利用相關(guān)軟件將抽象的關(guān)系可視化,展現(xiàn)該學(xué)科的研究熱點(diǎn)及熱點(diǎn)之間相互聯(lián)系,據(jù)此可以掌握到該研究的研究構(gòu)造和它的事物進(jìn)展趨勢(shì)的相關(guān)知識(shí)[2-4]。大多數(shù)人認(rèn)為當(dāng)兩篇文章的中心思想之間的聯(lián)系越緊密時(shí)候,那么這個(gè)短語(yǔ)就會(huì)在這篇文章中更加頻繁地出現(xiàn)。于是,一些有關(guān)聯(lián)性的詞語(yǔ)組成的共同詞語(yǔ)的網(wǎng)絡(luò)(簡(jiǎn)稱共詞網(wǎng)絡(luò))便是由能夠表達(dá)一篇文章中心思想的詞語(yǔ)每?jī)蓚€(gè)之間出現(xiàn)的頻率所統(tǒng)計(jì)得到的,中心思想內(nèi)容之間的親近和疏遠(yuǎn)關(guān)系可以通過(guò)網(wǎng)絡(luò)之內(nèi)節(jié)點(diǎn)的距離長(zhǎng)短來(lái)反映。共詞分析的原理就是上面所描述的內(nèi)容。它的過(guò)程的就是利用包容系數(shù),聚類分析和其他的統(tǒng)計(jì)分析方法,簡(jiǎn)化以文章中心思想詞語(yǔ)作為分析對(duì)象間重復(fù)復(fù)雜的共詞關(guān)系,并且以數(shù)值、圖形的方式直觀的表現(xiàn)出來(lái)。使用共詞分析不僅可以研究作者的情況,也具有以上所敘述的功能??梢允褂霉苍~分析法對(duì)文獻(xiàn)情報(bào)進(jìn)行研究分析,大致的可以分為六個(gè)階段:①確定分析研究的問(wèn)題;②選取出現(xiàn)頻率比較高的詞匯;③組建一個(gè)共詞矩陣;④針對(duì)共詞矩陣進(jìn)行戰(zhàn)略坐標(biāo)分析、聚類分析、外部鏈接強(qiáng)度分析及繪制關(guān)鍵詞社會(huì)網(wǎng)絡(luò)共現(xiàn)分析圖[5,6]。其中最后一步尤為重要,是體現(xiàn)研究結(jié)論和價(jià)值的點(diǎn)睛之筆。
1.確定研究主題、數(shù)據(jù)庫(kù)及年限
首先得明確一個(gè)自己感興趣的主題,這樣才能確定需要檢索文獻(xiàn)的核心主題詞,比如:“我國(guó)嬰兒痙攣研究現(xiàn)狀——基于國(guó)內(nèi)期刊的共詞分析”,則核心主題詞為“嬰兒痙攣”或“WestSyndrome”[3];“我國(guó)兒童癲癇最新研究現(xiàn)狀調(diào)查分析——基于國(guó)內(nèi)研究的共詞分析”,則核心主題詞為“兒童癲癇”[4];“近10年國(guó)內(nèi)與國(guó)外兒童結(jié)核性腦膜炎研究論文的可視化研究”,則核心主題詞為“兒童結(jié)核性腦膜炎”。其次,需明確檢索的數(shù)據(jù)庫(kù)。如是中文文獻(xiàn),建議選擇“中國(guó)知網(wǎng)”、“維普”、“萬(wàn)方數(shù)據(jù)庫(kù)”等,可以同時(shí)查詢多個(gè)數(shù)據(jù)庫(kù),通過(guò)endnote等工具去除重復(fù)文獻(xiàn);如果是查閱外文文獻(xiàn),建議選擇“pubmed數(shù)據(jù)庫(kù)”,同時(shí)我們可以將國(guó)內(nèi)外的資料進(jìn)行對(duì)比研究,以發(fā)現(xiàn)國(guó)內(nèi)外研究存在的差距和不足。年限的選擇無(wú)特別要求,可以是從該學(xué)科剛起步時(shí)開(kāi)始,以此總結(jié)學(xué)科的發(fā)展歷史;也可以是最近10年,甚至近5年內(nèi)該學(xué)科研究的發(fā)展情況。
2.詞頻統(tǒng)計(jì)及高頻關(guān)鍵詞的確定
收集好文獻(xiàn)資料后,將所有文章內(nèi)的關(guān)鍵詞分列現(xiàn)在Excel中,然后將同義的關(guān)鍵詞進(jìn)行規(guī)范,像用“結(jié)核性腦膜炎”來(lái)代替“結(jié)腦”,將“核磁共振”置換為“MRI”,“促皮質(zhì)激素”置換為“ACTH”,“伴有中央顳區(qū)棘波的小兒良性癲癇”置換為“BECT”等。把上述的關(guān)鍵詞放置在新進(jìn)新建的表格里,接著,把剩余的行數(shù)全都刪掉,下一步把一張數(shù)據(jù)透視表插進(jìn)去,進(jìn)而算出它的詞頻,根據(jù)得出的結(jié)果把它們按從高到低的順序排列。找出高低頻詞語(yǔ)的分界線,主要使用Donohue1973年提出的能夠通過(guò)詞匯出現(xiàn)的頻數(shù)對(duì)詞匯的重要性進(jìn)行判斷的公式 對(duì)得到的所有詞匯的頻數(shù)進(jìn)行熱點(diǎn)判別[7],(其中T為高頻詞閾值,I1為詞頻為1的關(guān)鍵詞數(shù)目)將詞頻≥T的關(guān)鍵詞歸入高頻關(guān)鍵詞。但有時(shí)實(shí)際情況和該公式的計(jì)算結(jié)果有出入,以文獻(xiàn)【3】為例:根據(jù)上述結(jié)果可得,存在324個(gè)關(guān)鍵詞頻率為1,則I1=324;結(jié)果為T(mén)=24.4,統(tǒng)計(jì)詞頻≥25,算出有10個(gè),依次是“嬰兒痙攣”、“癲癇”、“腦電圖”、“兒童”、“ACTH”、“高度失律”、“癲癇藥物”、“痙攣發(fā)作”,不過(guò)上述的不可以以偏概全地展現(xiàn)中國(guó)的整體形勢(shì),所以把詞頻≥6的當(dāng)成高頻詞,總計(jì)43個(gè)[3]。不過(guò),具體問(wèn)題具體分析,還應(yīng)向多位該研究領(lǐng)域資深的老師請(qǐng)教確定。
3.構(gòu)建共詞矩陣
根據(jù)上述的表格進(jìn)行分析,排除不屬于高頻詞匯,把多余的行數(shù)和不全面的詞條刪減掉,接著把各文剩下的高頻詞匯進(jìn)行配對(duì),舉個(gè)例子,假使有一個(gè)文章還剩下了“A、B、C、D”這四個(gè)高頻詞,那么,就可以把它們配對(duì)成如下的六對(duì):AB、AC、AD、BC、BD、CD,并對(duì)余下所有文章均按此法操作,然后按列排列在新的EXCEL表中保存。最后,對(duì)上述高頻詞對(duì)交叉復(fù)制,插入數(shù)據(jù)透視表(交叉列聯(lián)表),即可生成共詞矩陣。此方法十分耗時(shí)、枯燥和機(jī)械。中醫(yī)大教授崔雷編纂并出版了一套書(shū),分析系統(tǒng):“BICOMB”[8],該系統(tǒng)能十分便利地將CNKI、PUBMED、萬(wàn)方的文獻(xiàn)數(shù)據(jù)中的高頻關(guān)鍵詞共詞矩陣列舉出來(lái),但使用該系統(tǒng)時(shí)應(yīng)注意其檢索文獻(xiàn)的靈敏性與特異性,建議針對(duì)文獻(xiàn)的篩選最好在該研究領(lǐng)域資深的老師指導(dǎo)下進(jìn)行。同時(shí)需注意該系統(tǒng)不能檢索維普等其他數(shù)據(jù)庫(kù)的文獻(xiàn)。
4.聚類分析
高頻的關(guān)鍵詞聚集在一起的而產(chǎn)生的結(jié)果可以利用以上關(guān)鍵詞間的親密度,進(jìn)而反應(yīng)出重要的主題詞的探究特色。通過(guò)這種將物理或抽象對(duì)象集合分成的統(tǒng)計(jì)學(xué)辦法,將聯(lián)系緊密的關(guān)鍵詞匯集在一個(gè)集體。關(guān)鍵詞聚類剖析時(shí),應(yīng)該首先從發(fā)揮主要作用的關(guān)鍵詞形成聚類;然后,再?gòu)木垲惱锏年P(guān)鍵詞及其相類似的關(guān)鍵詞組合在一起,形成一個(gè)全新的聚類。關(guān)鍵詞之間類似度越高,其之間的間隔就越?。环炊灾?,間隔就會(huì)比較遠(yuǎn)。把關(guān)鍵詞的相異度矩陣傳送到21.0軟件中,采用系統(tǒng)聚類、離差平方和法、離散數(shù)據(jù)種類之中的斐方方式實(shí)行聚類剖析。離差平方和以方差剖析理念為基礎(chǔ),得類之內(nèi)的關(guān)鍵詞之間的離差平方和使其盡可能達(dá)到最小值,種類間的離差平方和盡可能達(dá)到最大值,進(jìn)一步實(shí)現(xiàn)分離類別的功效。離散數(shù)據(jù)的分類能夠設(shè)計(jì)不同類別數(shù)據(jù)之間的間隔大小,Phi方度量抵消了Chi方度量中中維數(shù)的的作用[9]。與因子剖析的效果及現(xiàn)實(shí)狀況相聯(lián)系,就可得出探究熱點(diǎn)的聚類樹(shù)狀型圖像如圖1所示。從圖1中能夠得知其一共被分成兩大類別,第一類能再分成三個(gè)小的類別,1、5,12、8、7、3,10、2、11、13及6、4、9之間聯(lián)系緊密。通過(guò)針對(duì)出現(xiàn)頻率高的主題詞共現(xiàn)聚類剖析,人們能夠客觀的發(fā)現(xiàn)其方面的探究熱點(diǎn),可是仍然沒(méi)有辦法得知其各個(gè)熱點(diǎn)之間的聯(lián)系。因此,我們還需要通過(guò)外部鏈接強(qiáng)度及戰(zhàn)略坐標(biāo)來(lái)進(jìn)一步分析。
圖1 高頻關(guān)鍵詞聚類
5.外部鏈接強(qiáng)度及戰(zhàn)略坐標(biāo)分析
依照聚類剖析的有關(guān)成果,得以算出各個(gè)類別的外部鏈接及外部鏈接強(qiáng)度。外部鏈接指數(shù)指在一個(gè)學(xué)科領(lǐng)域內(nèi),某主題類團(tuán)與其他主題類團(tuán)間的知識(shí)連接數(shù)量,反映該主題與其他主題進(jìn)行知識(shí)交叉融合、滲透創(chuàng)新的總體水平。該值越大,說(shuō)明主題整體與外部關(guān)聯(lián)越密切,知識(shí)的范圍拓展的越寬,將條件反過(guò)來(lái)設(shè)置,也會(huì)得出這樣的結(jié)論。使用Ucient6.0軟件中的Netdraw性能時(shí)依照聚類之間外部鏈接之和將會(huì)產(chǎn)生各個(gè)類團(tuán)描繪而成的類間聯(lián)系圖像。連接線的寬窄表現(xiàn)出其類別間的聯(lián)系強(qiáng)度,連接線越寬,則類別間的關(guān)系就越緊密,如圖2[6]。從圖2能夠發(fā)現(xiàn)D、C、E三者的關(guān)系最為密切,可是其他的類聚之間關(guān)聯(lián)度并不是很大,C外部鏈接情況與D基本相似??墒荅和其他類聚間的關(guān)聯(lián)較為均衡,位于各個(gè)聚類之間的節(jié)點(diǎn)處,即使A和B產(chǎn)生利獨(dú)立的聚類,可是其他聚類間的聯(lián)系不是很密切,相對(duì)而言探究較為獨(dú)立。
依照聚類剖析的關(guān)聯(lián)結(jié)果單獨(dú)對(duì)其余類別的向心度及密度進(jìn)行了算數(shù),描繪出各類探究聚類的策略坐標(biāo)圖紙。以向心度為X,以密度為Y。向心度即為表現(xiàn)一個(gè)詞匯集團(tuán)以及其余得到詞匯集團(tuán)間的的關(guān)聯(lián)強(qiáng)度,選取各個(gè)詞匯集團(tuán)團(tuán)和其余詞匯集團(tuán)共同出現(xiàn)的次數(shù)只和作為此次詞匯集團(tuán)的向心度。密度是用以測(cè)取詞匯集團(tuán)間共同出現(xiàn)的強(qiáng)弱,選取給詞語(yǔ)集團(tuán)內(nèi)部關(guān)鍵詞顯現(xiàn)的次數(shù)的平均值視為此詞匯集團(tuán)的密度。戰(zhàn)略坐標(biāo)圖像的坐標(biāo)零點(diǎn)是各個(gè)聚類向心度及密度的均值,其中各類象限的表達(dá)內(nèi)容如圖3所示。第一象限中的主題擁有高密度和高向心度,說(shuō)明其發(fā)展成熟且為領(lǐng)域核心;第二象限中的主題擁有高密度和低向心度,說(shuō)明其發(fā)展成熟但并非領(lǐng)域核心;第三象限中的主題密度和向心度都較低,說(shuō)明其發(fā)展不成熟且處于領(lǐng)域邊緣;第四象限中的主題擁有低密度和高向心度,表明即使其成長(zhǎng)的并不是很完整,可是卻能夠成為其研究的核心[9]。
圖2 外部鏈接強(qiáng)度
圖3 戰(zhàn)略坐標(biāo)圖所示意義示意圖
6.繪制高頻關(guān)鍵詞社會(huì)網(wǎng)絡(luò)共現(xiàn)分析圖
最后使用Ucinet6.0的Netdraw功能,針對(duì)出現(xiàn)頻率較高的主題詞共現(xiàn)矩陣實(shí)現(xiàn)社會(huì)網(wǎng)絡(luò)的描繪,產(chǎn)生由主要主題詞構(gòu)成的共同詞匯網(wǎng)絡(luò)圖像,網(wǎng)絡(luò)中節(jié)點(diǎn)的距離就能夠反應(yīng)關(guān)鍵內(nèi)容的親密度,在下列圖像的構(gòu)成之中,陳列距離離中央節(jié)點(diǎn)越近則表現(xiàn)出整體的關(guān)聯(lián)網(wǎng)絡(luò)之中越位于重要位置[10]。除此之外,彈簧嵌入聚類計(jì)算方法實(shí)行陳列,針對(duì)各個(gè)節(jié)點(diǎn)的大小及連接線的寬窄,實(shí)行賦值,高頻率的節(jié)點(diǎn)對(duì)應(yīng)的就偏大,關(guān)聯(lián)緊密的中央詞語(yǔ)連接線就較為偏寬,如圖4所示。能夠從圖4中得出G就是這項(xiàng)探究的核心主題詞,同時(shí)周圍散布了AI、W、K、D、I、R、H、X等研究熱點(diǎn),G與AI、W、K、T、R等聯(lián)系緊密,相對(duì)而言,在F、AC、V、U等諸多層面上的探究還很單薄,通常處于邊界或新型的探究畛域,這也正是研究者們努力突破的畛域。
圖4 高頻關(guān)鍵詞社會(huì)網(wǎng)絡(luò)共現(xiàn)分析圖
通過(guò)本文的介紹,希望能讓大家能夠初步了解共詞分析的制作流程。共詞分析為醫(yī)學(xué)生科研打開(kāi)了一扇大門(mén),對(duì)于某個(gè)學(xué)科的發(fā)展情況,學(xué)科研究構(gòu)架及現(xiàn)狀,某種疾病的診斷、治療、研究熱點(diǎn)、發(fā)展趨勢(shì)和方向以及某個(gè)學(xué)科在國(guó)內(nèi)、國(guó)外各個(gè)醫(yī)療科研機(jī)構(gòu)開(kāi)展情況都可以通過(guò)共詞分析法得以實(shí)現(xiàn)。對(duì)醫(yī)學(xué)生將來(lái)從事某專業(yè)更深入的學(xué)習(xí)與研究提供了很好的前期信息和參考依據(jù)。
[1] HuangJ,TangJ,QuY,etal.MappingtheKnowledgeStructureofNe onatalHypoxic-IschemicEncephalopathyOverthePastDec ade:ACo-wordAnalysisBasedonKeywords[J].JChildNeur ol,2016,31(6):797-803.
[2] 鮑珊,等.新生兒黃疸研究現(xiàn)狀的共詞分析[J].中國(guó)當(dāng)代兒科雜志,2014,16(8):820-823.
[3] 葉少林,等.我國(guó)嬰兒痙攣研究現(xiàn)狀——基于國(guó)內(nèi)研究的共詞分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2016(4):627-630.
[4] 甘靖,等.共詞分析方法分析我國(guó)兒童癲癇最新研究現(xiàn)狀[J].中華實(shí)用兒科臨床雜志,2016,31(1):73-75.
[5] 岳增慧,等.基于共詞分析的醫(yī)學(xué)倫理學(xué)領(lǐng)域主題熱點(diǎn)及演進(jìn)態(tài)勢(shì)[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2016(1):43-51.
[6] 李一飛,等.基于多元統(tǒng)計(jì)和社會(huì)網(wǎng)絡(luò)分析PubMed數(shù)據(jù)庫(kù)兒童心血管學(xué)科知識(shí)發(fā)展可視化研究[J].中國(guó)循證兒科雜志,2014,9(2):89-100.
[7] 包惠民,等.CNKI數(shù)據(jù)實(shí)現(xiàn)ucinet共現(xiàn)分析的方法及實(shí)證分析[J].軟件導(dǎo)刊(教育技術(shù)),2012(1):91-93.
[8] 曹霞,等.合著網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)與文獻(xiàn)計(jì)量學(xué)評(píng)價(jià)指標(biāo)相關(guān)性研究[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2016(2):20-26.
[9] 袁曉園,等.基于共詞分析的我國(guó)醫(yī)學(xué)信息學(xué)國(guó)際發(fā)文熱點(diǎn)研究[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(4):8-14.
[10] HongY,YaoQ,YangY,etal.Knowledgestructureandthemetren dsanalysisongeneralpractitionerresearch:ACo-wordperspective[J].BMCFamPract,2016,17:10.
Applycation of Co-word Analysis in the Medical Scientific Research
Ye Shaolin1, Gan Jing1,2, Luo Rong1, Wan Chaomin1,2
(1. Department of Pediatrics, West China Second University Hospital, Sichuan University, Chengdu 610041, China;2. Key Laboratory of Birth Defects and Related Diseases of Women and Children, Chengdu 610041, China)
Co-word analysis is an important research method which has been widely applied in many research fields at home and abroad. Excel, SPSS and Ucinet 6.0 were used to make analysis of the relationship between different key words and generate diagrammatic representation which is applied to present the framework of discipline and the direction of development. As far as medicine research is concerned, co-word analysis is randomly used. This article is aimed to introduce the application of co-word analysis in medical research in order to provide a new research method for medical students.
Co-word analysis; Medical education; Scientific research
2016-05-26)
葉少林(1987-),女,護(hù)師。
甘靖。
國(guó)家臨床重點(diǎn)??疲▋嚎菩律鷥簩I(yè))建議項(xiàng)目(1311200003303)資助;教育部科研基金(20110181130002,IRT0935);國(guó)家自然科學(xué)基金(81501301)。
成都中醫(yī)藥大學(xué)學(xué)報(bào)(教育科學(xué)版)2016年3期