胡良平
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029 *通信作者:胡良平,E-mail:lphu812@sina.com)
本期《基于SAS與R軟件的主成分分析》一文介紹了“主成分分析方法”。此法不僅可以借用于多重線性回歸分析(見本期《主成分分析應用(Ⅰ)——主成分回歸分析》)之中,還可以借用于無序樣品聚類分析之中。
主成分聚類分析(the principal components Cluster analysis)是對擬用于無序樣品聚類分析的定量變量先進行主成分分析,產(chǎn)生主成分變量,然后再基于這些主成分變量(注意:不是原變量)進行無序樣品聚類分析。
通過主成分分析,將原先可能具有一定相關性的定量指標轉(zhuǎn)變?yōu)橄嗷オ毩⒌淖兞浚谕軌蚋玫爻尸F(xiàn)不同樣品之間的相對距離,從而更好地對無序樣品實現(xiàn)精準聚類。
【例1】沿用本期《基于SAS與R軟件的主成分分析》一文中的“例1和表1”[1],此處從略。此資料屬于“單組設計多元定量資料”,假定資料具有“同質(zhì)性”。
1.5.1 概述
對于具有同質(zhì)性的單組設計多元定量資料,若分析目的是希望將全部樣品或個體按其“親疏關系”聚成不同的類,被聚在同一類中的樣品或個體被認為是“最接近的”或“最相似的”。這件事本身應屬于“無序樣品聚類分析問題”,有時也被稱為“綜合評價問題”。為了實現(xiàn)這一分析目的,可以基于多種不同的統(tǒng)計思想或思路來構造分析方法,通常有如下兩大類:基于“距離”的聚類分析法和基于“綜合評價指標”的聚類分析法。
1.5.2 基于“距離”的聚類分析法
所謂基于樣品間“距離”大小來構造無序樣品聚類分析法,就是把每個樣品視為空間中的一個“點”,計算出任何兩點之間的距離,再根據(jù)距離數(shù)值的大小,將距離最小且相鄰的那些點聚在同一類中。此類分析方法可以進一步劃分為兩類:經(jīng)典統(tǒng)計學中的無序樣品聚類分析法和機器學習統(tǒng)計學中的無序樣品聚類分析法。前者又可細分為K-means聚類法、PAM聚類法、層次聚類法和EM聚類法等[2-3];后者相對較少,通常叫做自組織映射神經(jīng)網(wǎng)絡分析法,簡稱SOM方法[2-3]。
1.5.3 基于“綜合評價指標”的聚類分析法
所謂基于“綜合評價指標”的聚類分析法就是基于多項原始定量指標計算出一個“綜合評價指標”來,計算出每個樣品在綜合評價指標上的取值,再按由小到大或由大到小進行排序(使無序樣品變成了有序樣品),進而基于某種規(guī)則將全部“有序樣品”分為所需要的幾檔或幾組。
1.5.4 以上兩大類聚類分析方法的適用場合
當大部分或全部定量變量的取值大小在專業(yè)上既不是“高優(yōu)指標(即指標的取值越大越好,例如疾病的治愈率)”,也不是“低優(yōu)指標(即指標的取值越小越好,例如疾病的死亡率和復發(fā)率)”時,采用“基于距離的聚類分析方法”為宜;反之,采用“基于綜合評價指標的聚類分析方法”為宜。
因篇幅所限,本文僅介紹“基于主成分變量和距離實現(xiàn)無序樣品聚類分析”的方法。
將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中,命名為“23種腫瘤類期刊文獻計量學指標資料.txt”;設所需要的SAS程序名為“基于腫瘤類期刊文獻計量學指標進行主成分聚類分析.SAS”:
data a1;
infile 'F:CCC23種腫瘤類期刊文獻計量學指標資料.txt';
input name $20. x1-x8;
run;
proc princomp data=a1 out=b1 prefix=z;
var x1-x8;
run;
data a2;
set b1;
id=_n_;
ods graphics on;
proc cluster data=a2 method=war std simple ccc pseudo outtree=cluster;
var z1-z8;
id id;
copy name;
run;
proc tree horizontal;
id name;
run;
ods graphics off;
【SAS主要輸出結果】
圖1 以樹狀圖形式呈現(xiàn)的無序樣品聚類結果1
由圖1可看出,若希望分成兩類,則自上而下為:“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類,“腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第二類;若希望分成三類,則自上而下為:“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類,“腫瘤”到“腫瘤肺癌雜志”算作第二類,“中國腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第三類。
所需要的SAS程序如下:
data a1;
infile 'F:CCC23種腫瘤類期刊文獻計量學指標資料.txt';
input name $20. x1-x8;
id=_n_;
run;
ods graphics on;
proc cluster data=a1 method=war std simple ccc pseudo outtree=cluster;
var x1-x8;
id id;
copy name;
run;
proc tree horizontal;
id name;
run;
ods graphics off;
【SAS主要輸出結果】
圖2 以樹狀圖形式呈現(xiàn)的無序樣品聚類結果2
由圖2可看出,若希望分成兩類,則自上而下為:“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類,“腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第二類;若希望分成三類,則自上而下為:“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類,“腫瘤”到“四川腫瘤雜志”算作第二類,“腫瘤防治雜志”到“現(xiàn)代腫瘤醫(yī)學”算作第三類。
以上兩種聚類結果略有不同,究竟哪一個聚類結果更合理,目前尚無金標準。事實上,還有很多種聚類方法,例如可以采用《基于標準化變換的求和法:一種新的樣品聚類分析方法》一文提及的方法以及其他方法,如秩和比法、Topsis法等[4-5]。
參考文獻
[1] 胡良平. 面向問題的統(tǒng)計學——(3)試驗設計與多元統(tǒng)計分析[M]. 北京: 人民衛(wèi)生出版社, 2012: 19-39.
[2] 薛薇. R語言數(shù)據(jù)挖掘方法及應用[M]. 北京: 電子工業(yè)出版社, 2016: 226-281.
[3] 鄭捷. 機器學習——算法原理與編程實踐[M]. 北京: 電子工業(yè)出版社, 2015: 135-143, 208-213.
[4] 郭春雪, 沈?qū)? 胡良平. 基于標準化變換的求和法: 一種新的樣品聚類分析方法[J]. 四川精神衛(wèi)生, 2017, 30(3): 211-216.
[5] 胡良平, 黃國平. 醫(yī)學科研設計方法與關鍵技術[M]. 成都: 四川大學出版社, 2017: 349-360.