亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主成分分析應用(II)
——主成分聚類分析

2018-05-18 09:19:00胡良平

四川精神衛(wèi)生 2018年2期

關鍵詞：無序聚類雜志

胡良平

(1.軍事科學院研究生院，北京 100850；2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會，北京 100029 *通信作者：胡良平，E-mail：lphu812@sina.com)

1 概述

1.1 基本概念

本期《基于SAS與R軟件的主成分分析》一文介紹了“主成分分析方法”。此法不僅可以借用于多重線性回歸分析(見本期《主成分分析應用(Ⅰ)——主成分回歸分析》)之中，還可以借用于無序樣品聚類分析之中。

1.2 何為主成分聚類分析

主成分聚類分析(the principal components Cluster analysis)是對擬用于無序樣品聚類分析的定量變量先進行主成分分析，產(chǎn)生主成分變量，然后再基于這些主成分變量(注意：不是原變量)進行無序樣品聚類分析。

1.3 主成分聚類分析的作用

通過主成分分析，將原先可能具有一定相關性的定量指標轉(zhuǎn)變?yōu)橄嗷オ毩⒌淖兞浚谕軌蚋玫爻尸F(xiàn)不同樣品之間的相對距離，從而更好地對無序樣品實現(xiàn)精準聚類。

1.4 適合進行主成分聚類分析的數(shù)據(jù)結構

【例1】沿用本期《基于SAS與R軟件的主成分分析》一文中的“例1和表1”[1]，此處從略。此資料屬于“單組設計多元定量資料”，假定資料具有“同質(zhì)性”。

1.5 無序樣品聚類分析的種類

1.5.1 概述

對于具有同質(zhì)性的單組設計多元定量資料，若分析目的是希望將全部樣品或個體按其“親疏關系”聚成不同的類，被聚在同一類中的樣品或個體被認為是“最接近的”或“最相似的”。這件事本身應屬于“無序樣品聚類分析問題”，有時也被稱為“綜合評價問題”。為了實現(xiàn)這一分析目的，可以基于多種不同的統(tǒng)計思想或思路來構造分析方法，通常有如下兩大類：基于“距離”的聚類分析法和基于“綜合評價指標”的聚類分析法。

1.5.2 基于“距離”的聚類分析法

所謂基于樣品間“距離”大小來構造無序樣品聚類分析法，就是把每個樣品視為空間中的一個“點”，計算出任何兩點之間的距離，再根據(jù)距離數(shù)值的大小，將距離最小且相鄰的那些點聚在同一類中。此類分析方法可以進一步劃分為兩類：經(jīng)典統(tǒng)計學中的無序樣品聚類分析法和機器學習統(tǒng)計學中的無序樣品聚類分析法。前者又可細分為K-means聚類法、PAM聚類法、層次聚類法和EM聚類法等[2-3]；后者相對較少，通常叫做自組織映射神經(jīng)網(wǎng)絡分析法，簡稱SOM方法[2-3]。

1.5.3 基于“綜合評價指標”的聚類分析法

所謂基于“綜合評價指標”的聚類分析法就是基于多項原始定量指標計算出一個“綜合評價指標”來，計算出每個樣品在綜合評價指標上的取值，再按由小到大或由大到小進行排序(使無序樣品變成了有序樣品)，進而基于某種規(guī)則將全部“有序樣品”分為所需要的幾檔或幾組。

1.5.4 以上兩大類聚類分析方法的適用場合

當大部分或全部定量變量的取值大小在專業(yè)上既不是“高優(yōu)指標(即指標的取值越大越好，例如疾病的治愈率)”，也不是“低優(yōu)指標(即指標的取值越小越好，例如疾病的死亡率和復發(fā)率)”時，采用“基于距離的聚類分析方法”為宜；反之，采用“基于綜合評價指標的聚類分析方法”為宜。

因篇幅所限，本文僅介紹“基于主成分變量和距離實現(xiàn)無序樣品聚類分析”的方法。

2 主成分聚類分析的實現(xiàn)

2.1 基于主成分變量進行無序樣品聚類

將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中，命名為“23種腫瘤類期刊文獻計量學指標資料.txt”；設所需要的SAS程序名為“基于腫瘤類期刊文獻計量學指標進行主成分聚類分析.SAS”：

data a1;

infile 'F:CCC23種腫瘤類期刊文獻計量學指標資料.txt';

input name $20. x1-x8;

run;

proc princomp data=a1 out=b1 prefix=z;

var x1-x8;

run;

data a2;

set b1;

id=_n_;

ods graphics on;

proc cluster data=a2 method=war std simple ccc pseudo outtree=cluster;

var z1-z8;

id id;

copy name;

run;

proc tree horizontal;

id name;

run;

ods graphics off;

【SAS主要輸出結果】

圖1 以樹狀圖形式呈現(xiàn)的無序樣品聚類結果1

由圖1可看出，若希望分成兩類，則自上而下為：“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類，“腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第二類；若希望分成三類，則自上而下為：“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類，“腫瘤”到“腫瘤肺癌雜志”算作第二類，“中國腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第三類。

2.2 基于原變量進行無序樣品聚類

所需要的SAS程序如下：

data a1;

infile 'F:CCC23種腫瘤類期刊文獻計量學指標資料.txt';

input name $20. x1-x8;

id=_n_;

run;

ods graphics on;

proc cluster data=a1 method=war std simple ccc pseudo outtree=cluster;

var x1-x8;

id id;

copy name;

run;

proc tree horizontal;

id name;

run;

ods graphics off;

【SAS主要輸出結果】

圖2 以樹狀圖形式呈現(xiàn)的無序樣品聚類結果2

由圖2可看出，若希望分成兩類，則自上而下為：“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類，“腫瘤”到“現(xiàn)代腫瘤醫(yī)學”算作第二類；若希望分成三類，則自上而下為：“中華腫瘤雜志”到“中國腫瘤生物治療雜志”算作第一類，“腫瘤”到“四川腫瘤雜志”算作第二類，“腫瘤防治雜志”到“現(xiàn)代腫瘤醫(yī)學”算作第三類。

以上兩種聚類結果略有不同，究竟哪一個聚類結果更合理，目前尚無金標準。事實上，還有很多種聚類方法，例如可以采用《基于標準化變換的求和法：一種新的樣品聚類分析方法》一文提及的方法以及其他方法，如秩和比法、Topsis法等[4-5]。

參考文獻

[1] 胡良平. 面向問題的統(tǒng)計學——(3)試驗設計與多元統(tǒng)計分析[M]. 北京: 人民衛(wèi)生出版社, 2012: 19-39.

[2] 薛薇. R語言數(shù)據(jù)挖掘方法及應用[M]. 北京: 電子工業(yè)出版社, 2016: 226-281.

[3] 鄭捷. 機器學習——算法原理與編程實踐[M]. 北京: 電子工業(yè)出版社, 2015: 135-143, 208-213.

[4] 郭春雪, 沈?qū)? 胡良平. 基于標準化變換的求和法: 一種新的樣品聚類分析方法[J]. 四川精神衛(wèi)生, 2017, 30(3): 211-216.

[5] 胡良平, 黃國平. 醫(yī)學科研設計方法與關鍵技術[M]. 成都: 四川大學出版社, 2017: 349-360.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主成分分析應用(II)——主成分聚類分析

1 概 述

1.1 基本概念

1.2 何為主成分聚類分析

1.3 主成分聚類分析的作用

1.4 適合進行主成分聚類分析的數(shù)據(jù)結構

1.5 無序樣品聚類分析的種類

2 主成分聚類分析的實現(xiàn)

2.1 基于主成分變量進行無序樣品聚類

2.2 基于原變量進行無序樣品聚類

主成分分析應用(II)
——主成分聚類分析

1 概述