,
共現(xiàn)分析是對兩個及以上能夠表達某一學科領域研究主題或方向的特征項(如主題詞、引文、作者等)在同一篇文獻中出現(xiàn)的現(xiàn)象進行分析。出現(xiàn)的頻次越多,表明這些特征項的關系越密切、距離越近[1]。作為內(nèi)容分析的常用方法之一,共現(xiàn)分析常與SPSS中的系統(tǒng)聚類分析結合使用[2]。但目前對原始矩陣、相似性度量和類間距離計算方法[3]的選擇尚存在爭議。
原始矩陣的類型可選擇共現(xiàn)矩陣或特征項-來源文獻矩陣。共現(xiàn)矩陣是對稱矩陣的行列均是特征項,單元格的數(shù)字則是行特征項和對應列特征項共同出現(xiàn)的次數(shù);特征項-來源文獻矩陣,其行列分別為特征項及其來源文獻,若特征項在文獻中出現(xiàn)則值為1,否則為0。相似性度量是矩陣標準化的手段,通過度量使得相似者愈加相似,不相似者愈加不相似,用以衡量個體之間的距離。而類間距離計算方法可衡量類與類之間的距離,距離最小的兩個小類被合并成為一類。SPSS 提供的類間距離測度方法有組間(內(nèi))連接、最大(小)距離和離差平方和法(簡稱Ward法)等。有研究表明,國內(nèi)學者應用共現(xiàn)分析的方法存在問題[4]。筆者調(diào)研發(fā)現(xiàn),國內(nèi)學者進行文獻聚類共現(xiàn)分析應用最廣泛的是共現(xiàn)矩陣。共現(xiàn)矩陣轉(zhuǎn)化為相關矩陣的過程中,最常用的相似系數(shù)是ochiai系數(shù),最受歡迎的聚類方法是類間計算方法選擇Ward和組間連接法,度量方法為平方歐式距離。詞篇矩陣大多選用ochiai系數(shù),聚類方法選擇組間或組內(nèi)聯(lián)接法。
本文旨在通過實例分析,比較矩陣類型、各種聚類方法和參數(shù)之間的差異,以期得到共現(xiàn)聚類分析規(guī)范的最佳方法。
OHSUMED實驗集是由使用MEDLINE的新手醫(yī)生根據(jù)106個主題進行檢索得出的。他們根據(jù)病人的信息以及自己的信息需求,由檢索人員檢索問題,然后由另一組醫(yī)生評價檢索到的每篇文獻與提問之間的相關性,評價等級包括明確相關、可能相關和不相關三個級別。
這些明確相關的提問-文獻對可作為我們分類研究的金標準。
1.2.1 收集樣本
瀏覽OHSUMED數(shù)據(jù)集,從中選擇相關文獻數(shù)據(jù)中的5個Queries(以下簡稱檢索主題),見表1。從PubMed數(shù)據(jù)庫中檢索,輸出各個檢索主題的xml格式文件。
表1 各問題明確相關文獻分布
1.2.2 處理數(shù)據(jù)
將OHSUMED數(shù)據(jù)導入BICOMB[5],選擇提取主要主題詞-副主題詞,生成詞篇矩陣和共詞矩陣。進一步利用Matlab軟件實現(xiàn)共詞矩陣的ochiai系數(shù)、pearson系數(shù)、cosine系數(shù)和spearman系數(shù)的相似矩陣,轉(zhuǎn)換為相應的相異矩陣,便于聚類分析。
1.2.3 聚類分析
將詞篇矩陣和共詞相異矩陣輸入SPSS進行系統(tǒng)聚類分析。對于詞篇矩陣,選擇以下系統(tǒng)聚類方法和參數(shù)搭配:組間聯(lián)接法+ochiai[6]、組間聯(lián)接法+jaccard,最大距離法+ochiai[7]、最大距離法+jaccard,組內(nèi)聯(lián)接法+ochiai[8]、組內(nèi)聯(lián)接法+jaccard,最小距離法+ochiai、最小距離法+jaccard,將系統(tǒng)聚類的結果導入Excel進行對應類的整理。對于4種共詞相似系數(shù)處理矩陣和原始共詞矩陣,分別以ochiai系數(shù)[9]、pearson系數(shù)[10]、jaccard系數(shù)、cosine系數(shù)[11]和原始共詞矩陣在SPSS中選擇以下系統(tǒng)聚類和參數(shù)搭配:Ward法+平方歐氏距離[10]、組間聯(lián)接法+平方歐氏距離[12]、組內(nèi)聯(lián)接法+平方歐氏距離[13]、組間聯(lián)接法+歐氏距離[14]等,累計20種組配方法。
1.2.4 各種選擇組合后聚類效果的評價與比較
本次研究選擇的指標主要有基于金標準F值、基于簇F值和熵(Entropy)[15]。
1.2.4.1 基于金標準F值
對于任何人工主題Pj和聚類簇Ci:
1.2.4.2 基于簇F值
1.2.4.3 熵值
針對語料X上的聚類結果C={C1,C2,…,Cm}中的每一個簇Ci,計算簇Ci的熵。
將檢索獲得的104篇文獻,導入BICOMB進行處理共獲得187個主要主題詞+主要副主題詞,且文獻間無重復,并得出共詞矩陣和詞篇矩陣。
利用Matlab將共詞矩陣轉(zhuǎn)化為ochiai系數(shù)、pearson系數(shù)、spearman系數(shù)、cosine系數(shù) 4種相關系數(shù)矩陣,將相似矩陣轉(zhuǎn)換為相異矩陣,計算公式為:相異矩陣=1-相似矩陣,其中spearman 系數(shù)和pearson 系數(shù)所得矩陣為負值矩陣。本文采用的是SPSS中的Z得分標準化和重新標度到0-1兩種方式進行標準處理。
將詞篇矩陣和相異(似)矩陣進行SPSS系統(tǒng)聚類,選擇上述參數(shù)和方法,聚類結果如表2所示。
表2 詞篇矩陣組內(nèi)聯(lián)接法+ochiai系數(shù)聚類群集(部分)
已知基于金標準(簇)F值越大(0.8左右),熵值越小(0.2左右),聚類結果越好。與所選相關系數(shù)相比,詞篇矩陣聚類結果受類間距離計算方法的影響更大,最小距離法和組間聯(lián)接法聚類效果最好,見表3-4。
表3 類間計算方法對詞篇矩陣結果的影響
表4 相關系數(shù)對詞篇矩陣聚類結果的影響
相比之下,共詞矩陣聚類結果與輸入SPSS前所選用的相關系數(shù)關系較大,而與聚類過程中選擇的參數(shù)關系較小,spearman系數(shù)和pearson系數(shù)、cosine系數(shù)聚類效果較好,如表5-表6。
表5 類間計算方法及參數(shù)對共詞矩陣聚類效果的影響
表6 相關系數(shù)對共詞矩陣聚類結果的影響
針對每種相似系數(shù)的每種聚類評價指標,分別計算其平均得分,如圖1所示。從圖1可看出,F(xiàn)值最高、熵值最低的是共詞矩陣的spearman系數(shù),其次是詞篇矩陣的兩種系數(shù)。從總體趨勢看,詞篇矩陣的聚類結果較為穩(wěn)定,共詞矩陣聚類效果會因為相似系數(shù)的差異而大幅度上下波動。
圖1 相似系數(shù)聚類結果得分平均值
就總體平均值而言,詞篇矩陣得分要優(yōu)于共現(xiàn)矩陣,見表7。
表7 兩種矩陣得分平均值
熵值波動的主要原因是大類現(xiàn)象。大類現(xiàn)象指人工判定為N類的文檔集合,通過系統(tǒng)分析聚類為N類后,無法看到文檔在聚類結果中的正確分布,反而看到一個非常大的類和若干小類。如選用ochiai相似系數(shù)矩陣、ward法、斐方度量聚類,文中187個主要主題詞-副主題詞中有166個被囊括在一個大類里,而其他的類里只分別涵蓋了5、6、5、5個詞。對比可知,該大類涵蓋了5個原先分類標準的主題詞,因此聚類結果散亂、熵值高。該現(xiàn)象在系統(tǒng)聚類分析中屬正?,F(xiàn)象,可通過調(diào)整聚類類別數(shù)以改善聚類結果。
3.2.1 矩陣類型
從某種程度上說,共詞矩陣是一種相似(相異)矩陣,而詞篇矩陣是二值(0,1)陣,每行的數(shù)值可看作是該樣本的性質(zhì)變量。實際上,共詞矩陣可通過詞篇矩陣與其轉(zhuǎn)置矩陣相乘得到,但不少學者認為在轉(zhuǎn)化過程中其信息量有所損失。所以在所得聚類結果中,共詞矩陣并不能很好地還原原先類,且結果得分波動幅度很大。
2010年崔雷[16]和賴院根[17]就提出SPSS系統(tǒng)聚類中矩陣類型的思考。SPSS要求輸入的是case-variance(樣本-變量)形式的矩陣,即詞篇矩陣,聚類選項中數(shù)據(jù)類型選擇的是“binary”。目前也有很多學者習慣使用共現(xiàn)矩陣的相似或相異矩陣,雖然可以得出聚類結果,實際上這在原理上是行不通的。相似(相異)矩陣本身就是一種相似距離,如果導入SPSS中按照聚類步驟,數(shù)據(jù)變換、對象之間的距離計算和層次聚類,計算得到的是“距離的距離”,其聚類結果的正確性尚有待考證。在必須使用共現(xiàn)矩陣進行系統(tǒng)聚類時,可參照文獻[3]的方法對算法進行相應修改,避免相似性的重復測量。
3.2.2 相關系數(shù)
從結果分析可以看出,相關系數(shù)的選擇對聚類結果影響較大,尤其是對于共詞矩陣。在作者同被引分析方面,Loet Leydesdorff 曾于2006年提出[18],對于對稱矩陣(如共詞矩陣)不應再使用任何相關性度量,因為其本身已是一種相似(相異)距離。
從原理上看,相關度量可分為相似性度量(如pearson 系數(shù)和cosine系數(shù))和相異性度量(如歐幾里得距離)。對于不同的矩陣應根據(jù)其分布特點選擇不同的相關度量。
Pearson相關系數(shù)適合用于服從正態(tài)分布時且在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Cosine系數(shù)與ochiai系數(shù)原理相同,二者區(qū)別在于ochiai系數(shù)一般應用于(0,1)矩陣,cosine系數(shù)一般用于距離矩陣,但實際應用中,國內(nèi)學者常將二者混淆,出現(xiàn)如“計算共現(xiàn)矩陣的ochiai系數(shù)矩陣”之類的方法。而且cosine相似系數(shù)有時易與Jaccard 系數(shù)的推廣形式Tanimoto系數(shù)混淆,也應區(qū)別對待。Spearman 秩相關系數(shù)應用于對不服從正態(tài)分布的數(shù)據(jù)、原始等級數(shù)據(jù)、總體分布類型未知的數(shù)據(jù),對原始變量分布不作要求。本研究中spearman秩相關系數(shù)所的聚類結果較好,因其不符合正態(tài)分布,亦非二元變量。歐氏(歐幾里得)平方距離是一種相異性度量,SPSS中使用ward法聚類時,要求使用該度量。
對于類間距離計算方法的選擇,就本研究結果來看,詞篇矩陣最好選擇最小距離法或組間聯(lián)接法,但類間計算方法對相似(異)矩陣的影響不大,使用時應注意結合矩陣特點選擇聚類方法。如選用Ward法時應選擇歐氏距離平方作為度量。相似(異)數(shù)據(jù)不宜選用斐方度量等,若選擇不當,會對結果產(chǎn)生很大影響,甚至扭曲結果。
本文針對國內(nèi)目前SPSS共現(xiàn)聚類分析常見的問題和爭議,對其應用過程中應選擇的矩陣類型、相似系數(shù)和類間計算方法及其搭配方式進行了研究。SPSS系統(tǒng)聚類的過程中,詞篇矩陣比共詞矩陣在穩(wěn)定性和聚類結果方面效果更好,應作為聚類分析的首選矩陣。Spearman系數(shù)的適用范圍較為廣泛,在不可獲得詞篇矩陣的情況下,對共現(xiàn)矩陣的處理方式應結合其具體分布和相關系數(shù)的原理科學選擇。