亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SPSS的共現(xiàn)聚類分析參數(shù)選擇的實例研究

        2016-03-21 08:59:06
        中華醫(yī)學圖書情報雜志 2016年1期
        關鍵詞:類間共詞主題詞

        ,

        共現(xiàn)分析是對兩個及以上能夠表達某一學科領域研究主題或方向的特征項(如主題詞、引文、作者等)在同一篇文獻中出現(xiàn)的現(xiàn)象進行分析。出現(xiàn)的頻次越多,表明這些特征項的關系越密切、距離越近[1]。作為內(nèi)容分析的常用方法之一,共現(xiàn)分析常與SPSS中的系統(tǒng)聚類分析結合使用[2]。但目前對原始矩陣、相似性度量和類間距離計算方法[3]的選擇尚存在爭議。

        原始矩陣的類型可選擇共現(xiàn)矩陣或特征項-來源文獻矩陣。共現(xiàn)矩陣是對稱矩陣的行列均是特征項,單元格的數(shù)字則是行特征項和對應列特征項共同出現(xiàn)的次數(shù);特征項-來源文獻矩陣,其行列分別為特征項及其來源文獻,若特征項在文獻中出現(xiàn)則值為1,否則為0。相似性度量是矩陣標準化的手段,通過度量使得相似者愈加相似,不相似者愈加不相似,用以衡量個體之間的距離。而類間距離計算方法可衡量類與類之間的距離,距離最小的兩個小類被合并成為一類。SPSS 提供的類間距離測度方法有組間(內(nèi))連接、最大(小)距離和離差平方和法(簡稱Ward法)等。有研究表明,國內(nèi)學者應用共現(xiàn)分析的方法存在問題[4]。筆者調(diào)研發(fā)現(xiàn),國內(nèi)學者進行文獻聚類共現(xiàn)分析應用最廣泛的是共現(xiàn)矩陣。共現(xiàn)矩陣轉(zhuǎn)化為相關矩陣的過程中,最常用的相似系數(shù)是ochiai系數(shù),最受歡迎的聚類方法是類間計算方法選擇Ward和組間連接法,度量方法為平方歐式距離。詞篇矩陣大多選用ochiai系數(shù),聚類方法選擇組間或組內(nèi)聯(lián)接法。

        本文旨在通過實例分析,比較矩陣類型、各種聚類方法和參數(shù)之間的差異,以期得到共現(xiàn)聚類分析規(guī)范的最佳方法。

        1 研究材料與方法

        1.1 研究材料

        OHSUMED實驗集是由使用MEDLINE的新手醫(yī)生根據(jù)106個主題進行檢索得出的。他們根據(jù)病人的信息以及自己的信息需求,由檢索人員檢索問題,然后由另一組醫(yī)生評價檢索到的每篇文獻與提問之間的相關性,評價等級包括明確相關、可能相關和不相關三個級別。

        這些明確相關的提問-文獻對可作為我們分類研究的金標準。

        1.2 研究方法

        1.2.1 收集樣本

        瀏覽OHSUMED數(shù)據(jù)集,從中選擇相關文獻數(shù)據(jù)中的5個Queries(以下簡稱檢索主題),見表1。從PubMed數(shù)據(jù)庫中檢索,輸出各個檢索主題的xml格式文件。

        表1 各問題明確相關文獻分布

        1.2.2 處理數(shù)據(jù)

        將OHSUMED數(shù)據(jù)導入BICOMB[5],選擇提取主要主題詞-副主題詞,生成詞篇矩陣和共詞矩陣。進一步利用Matlab軟件實現(xiàn)共詞矩陣的ochiai系數(shù)、pearson系數(shù)、cosine系數(shù)和spearman系數(shù)的相似矩陣,轉(zhuǎn)換為相應的相異矩陣,便于聚類分析。

        1.2.3 聚類分析

        將詞篇矩陣和共詞相異矩陣輸入SPSS進行系統(tǒng)聚類分析。對于詞篇矩陣,選擇以下系統(tǒng)聚類方法和參數(shù)搭配:組間聯(lián)接法+ochiai[6]、組間聯(lián)接法+jaccard,最大距離法+ochiai[7]、最大距離法+jaccard,組內(nèi)聯(lián)接法+ochiai[8]、組內(nèi)聯(lián)接法+jaccard,最小距離法+ochiai、最小距離法+jaccard,將系統(tǒng)聚類的結果導入Excel進行對應類的整理。對于4種共詞相似系數(shù)處理矩陣和原始共詞矩陣,分別以ochiai系數(shù)[9]、pearson系數(shù)[10]、jaccard系數(shù)、cosine系數(shù)[11]和原始共詞矩陣在SPSS中選擇以下系統(tǒng)聚類和參數(shù)搭配:Ward法+平方歐氏距離[10]、組間聯(lián)接法+平方歐氏距離[12]、組內(nèi)聯(lián)接法+平方歐氏距離[13]、組間聯(lián)接法+歐氏距離[14]等,累計20種組配方法。

        1.2.4 各種選擇組合后聚類效果的評價與比較

        本次研究選擇的指標主要有基于金標準F值、基于簇F值和熵(Entropy)[15]。

        1.2.4.1 基于金標準F值

        對于任何人工主題Pj和聚類簇Ci:

        1.2.4.2 基于簇F值

        1.2.4.3 熵值

        針對語料X上的聚類結果C={C1,C2,…,Cm}中的每一個簇Ci,計算簇Ci的熵。

        2 結果與分析

        2.1 矩陣處理結果

        將檢索獲得的104篇文獻,導入BICOMB進行處理共獲得187個主要主題詞+主要副主題詞,且文獻間無重復,并得出共詞矩陣和詞篇矩陣。

        利用Matlab將共詞矩陣轉(zhuǎn)化為ochiai系數(shù)、pearson系數(shù)、spearman系數(shù)、cosine系數(shù) 4種相關系數(shù)矩陣,將相似矩陣轉(zhuǎn)換為相異矩陣,計算公式為:相異矩陣=1-相似矩陣,其中spearman 系數(shù)和pearson 系數(shù)所得矩陣為負值矩陣。本文采用的是SPSS中的Z得分標準化和重新標度到0-1兩種方式進行標準處理。

        2.2 SPSS聚類結果

        將詞篇矩陣和相異(似)矩陣進行SPSS系統(tǒng)聚類,選擇上述參數(shù)和方法,聚類結果如表2所示。

        表2 詞篇矩陣組內(nèi)聯(lián)接法+ochiai系數(shù)聚類群集(部分)

        2.3 Matlab計算結果

        已知基于金標準(簇)F值越大(0.8左右),熵值越小(0.2左右),聚類結果越好。與所選相關系數(shù)相比,詞篇矩陣聚類結果受類間距離計算方法的影響更大,最小距離法和組間聯(lián)接法聚類效果最好,見表3-4。

        表3 類間計算方法對詞篇矩陣結果的影響

        表4 相關系數(shù)對詞篇矩陣聚類結果的影響

        相比之下,共詞矩陣聚類結果與輸入SPSS前所選用的相關系數(shù)關系較大,而與聚類過程中選擇的參數(shù)關系較小,spearman系數(shù)和pearson系數(shù)、cosine系數(shù)聚類效果較好,如表5-表6。

        表5 類間計算方法及參數(shù)對共詞矩陣聚類效果的影響

        表6 相關系數(shù)對共詞矩陣聚類結果的影響

        針對每種相似系數(shù)的每種聚類評價指標,分別計算其平均得分,如圖1所示。從圖1可看出,F(xiàn)值最高、熵值最低的是共詞矩陣的spearman系數(shù),其次是詞篇矩陣的兩種系數(shù)。從總體趨勢看,詞篇矩陣的聚類結果較為穩(wěn)定,共詞矩陣聚類效果會因為相似系數(shù)的差異而大幅度上下波動。

        圖1 相似系數(shù)聚類結果得分平均值

        就總體平均值而言,詞篇矩陣得分要優(yōu)于共現(xiàn)矩陣,見表7。

        表7 兩種矩陣得分平均值

        3 討論

        3.1 熵值上下波動的主要原因

        熵值波動的主要原因是大類現(xiàn)象。大類現(xiàn)象指人工判定為N類的文檔集合,通過系統(tǒng)分析聚類為N類后,無法看到文檔在聚類結果中的正確分布,反而看到一個非常大的類和若干小類。如選用ochiai相似系數(shù)矩陣、ward法、斐方度量聚類,文中187個主要主題詞-副主題詞中有166個被囊括在一個大類里,而其他的類里只分別涵蓋了5、6、5、5個詞。對比可知,該大類涵蓋了5個原先分類標準的主題詞,因此聚類結果散亂、熵值高。該現(xiàn)象在系統(tǒng)聚類分析中屬正?,F(xiàn)象,可通過調(diào)整聚類類別數(shù)以改善聚類結果。

        3.2 影響聚類結果的主要因素

        3.2.1 矩陣類型

        從某種程度上說,共詞矩陣是一種相似(相異)矩陣,而詞篇矩陣是二值(0,1)陣,每行的數(shù)值可看作是該樣本的性質(zhì)變量。實際上,共詞矩陣可通過詞篇矩陣與其轉(zhuǎn)置矩陣相乘得到,但不少學者認為在轉(zhuǎn)化過程中其信息量有所損失。所以在所得聚類結果中,共詞矩陣并不能很好地還原原先類,且結果得分波動幅度很大。

        2010年崔雷[16]和賴院根[17]就提出SPSS系統(tǒng)聚類中矩陣類型的思考。SPSS要求輸入的是case-variance(樣本-變量)形式的矩陣,即詞篇矩陣,聚類選項中數(shù)據(jù)類型選擇的是“binary”。目前也有很多學者習慣使用共現(xiàn)矩陣的相似或相異矩陣,雖然可以得出聚類結果,實際上這在原理上是行不通的。相似(相異)矩陣本身就是一種相似距離,如果導入SPSS中按照聚類步驟,數(shù)據(jù)變換、對象之間的距離計算和層次聚類,計算得到的是“距離的距離”,其聚類結果的正確性尚有待考證。在必須使用共現(xiàn)矩陣進行系統(tǒng)聚類時,可參照文獻[3]的方法對算法進行相應修改,避免相似性的重復測量。

        3.2.2 相關系數(shù)

        從結果分析可以看出,相關系數(shù)的選擇對聚類結果影響較大,尤其是對于共詞矩陣。在作者同被引分析方面,Loet Leydesdorff 曾于2006年提出[18],對于對稱矩陣(如共詞矩陣)不應再使用任何相關性度量,因為其本身已是一種相似(相異)距離。

        從原理上看,相關度量可分為相似性度量(如pearson 系數(shù)和cosine系數(shù))和相異性度量(如歐幾里得距離)。對于不同的矩陣應根據(jù)其分布特點選擇不同的相關度量。

        Pearson相關系數(shù)適合用于服從正態(tài)分布時且在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Cosine系數(shù)與ochiai系數(shù)原理相同,二者區(qū)別在于ochiai系數(shù)一般應用于(0,1)矩陣,cosine系數(shù)一般用于距離矩陣,但實際應用中,國內(nèi)學者常將二者混淆,出現(xiàn)如“計算共現(xiàn)矩陣的ochiai系數(shù)矩陣”之類的方法。而且cosine相似系數(shù)有時易與Jaccard 系數(shù)的推廣形式Tanimoto系數(shù)混淆,也應區(qū)別對待。Spearman 秩相關系數(shù)應用于對不服從正態(tài)分布的數(shù)據(jù)、原始等級數(shù)據(jù)、總體分布類型未知的數(shù)據(jù),對原始變量分布不作要求。本研究中spearman秩相關系數(shù)所的聚類結果較好,因其不符合正態(tài)分布,亦非二元變量。歐氏(歐幾里得)平方距離是一種相異性度量,SPSS中使用ward法聚類時,要求使用該度量。

        對于類間距離計算方法的選擇,就本研究結果來看,詞篇矩陣最好選擇最小距離法或組間聯(lián)接法,但類間計算方法對相似(異)矩陣的影響不大,使用時應注意結合矩陣特點選擇聚類方法。如選用Ward法時應選擇歐氏距離平方作為度量。相似(異)數(shù)據(jù)不宜選用斐方度量等,若選擇不當,會對結果產(chǎn)生很大影響,甚至扭曲結果。

        4 結語

        本文針對國內(nèi)目前SPSS共現(xiàn)聚類分析常見的問題和爭議,對其應用過程中應選擇的矩陣類型、相似系數(shù)和類間計算方法及其搭配方式進行了研究。SPSS系統(tǒng)聚類的過程中,詞篇矩陣比共詞矩陣在穩(wěn)定性和聚類結果方面效果更好,應作為聚類分析的首選矩陣。Spearman系數(shù)的適用范圍較為廣泛,在不可獲得詞篇矩陣的情況下,對共現(xiàn)矩陣的處理方式應結合其具體分布和相關系數(shù)的原理科學選擇。

        猜你喜歡
        類間共詞主題詞
        基于OTSU改進的布匹檢測算法研究
        基于貝葉斯估計的多類間方差目標提取*
        基于類間相對均勻性的紙張表面缺陷檢測
        基于突變檢測與共詞分析的深閱讀新興趨勢分析
        圖書館建設(2018年5期)2018-07-10 09:46:40
        基于改進最大類間方差法的手勢分割方法研究
        自動化學報(2017年4期)2017-06-15 20:28:55
        基于共詞知識圖譜技術的國內(nèi)VLC可視化研究
        基于關鍵詞共詞分析的我國親子關系熱點研究
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        一区二区三区av在线| 国产一区视频在线免费观看| 午夜精品一区二区三区无码不卡| 国产一品二品三品精品久久| 97中文字幕精品一区二区三区| 国产又粗又猛又黄又爽无遮挡| 国产亚洲精久久久久久无码77777| 亚洲无线码一区在线观看| 国产毛片精品av一区二区| 777精品出轨人妻国产| 波多野吉衣av无码| 国产精品美女一级在线观看| 日本一区二区高清精品| av免费不卡国产观看| 天天操夜夜操| 网友自拍人妻一区二区三区三州 | 国产女人高潮叫床免费视频| 伊人影院综合在线| 亚洲区1区3区4区中文字幕码| 亚洲高清三区二区一区| 国产成本人片无码免费2020| 国产精品成人嫩妇| 国产精品一区二区三区成人| 日本污ww视频网站| 日日碰狠狠丁香久燥| 麻豆AV无码久久精品蜜桃久久| 日本免费一区二区在线看片| 日韩av无码精品一二三区| 丁香六月婷婷综合| 久久久成人av毛片免费观看| 国产欧美在线观看不卡| 又色又爽又黄又硬的视频免费观看 | 99热在线观看| 亚洲一区爱区精品无码| 国产亚洲精品成人av在线| 五月激情综合婷婷六月久久| 国产精品沙发午睡系列990531| 91精品日本久久久久久牛牛| 五月婷婷开心六月激情| 国产欧美日韩综合精品一区二区| 热久久这里只有|