亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SAS與R軟件的主成分分析

        2018-05-18 09:55:49胡良平
        四川精神衛(wèi)生 2018年2期
        關鍵詞:計量學特征向量特征值

        胡良平

        (1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029 *通信作者:胡良平,E-mail:lphu812@sina.com)

        1 概 述

        1.1 基本概念

        在科學研究中,經(jīng)常需要從同一個體(或觀測單位)上觀測多個指標,這些指標從不同方面反映個體的性質(zhì)。但指標太多,不僅會增加計算的復雜性,也會給合理分析問題和解釋問題帶來困難。表面上,各指標之間地位相同。實際上,各指標所包含的信息量參差不齊,且指標間往往不是相互獨立的,它們所包含的信息有交叉或重疊的部分。所以,需要對眾多指標進行適當?shù)奶幚?,以便更好地反映事物的本質(zhì)特征。

        1.2 何為主成分分析

        主成分分析(principal components analysis)是將多個定量指標轉換為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。它是將彼此相關的一組變量轉化為彼此獨立的一組新變量,并以其中少數(shù)的幾個新變量綜合反映原先多個變量所包含的主要信息,且這少數(shù)幾個綜合變量具有獨特的專業(yè)含義。主成分變量實際上就是由原變量X1~Xm線性組合出來的m個互不相關、且未丟失任何信息的新變量,也稱為綜合變量。

        1.3 主成分分析的作用

        多指標的主成分變量常被用來揭示某種事物或現(xiàn)象內(nèi)在規(guī)律性的綜合指標,研究者結合基本常識和專業(yè)知識對綜合指標所蘊藏的信息予以恰當解釋,就可以更深刻地揭示事物的內(nèi)在規(guī)律。主要應用于以下三個方面:①降維,即利用較少的幾個主成分變量就可以取代原來眾多的變量所承載的信息;②基于消除多重線性回歸分析中自變量間共線性關系之后的主成分變量再進行回歸分析,即所謂的“主成分回歸分析”;③應用于綜合評價領域,就是基于綜合評價指標在各個體上的“取值或得分”對全部個體或觀測單位進行排序,還可進一步對其進行分檔。這種做法和結果事實上就是將原先的“無序樣品”轉變成“有序樣品”,此時,就相當于對“有序樣品”進行聚類分析了。

        1.4 適合進行主成分分析的數(shù)據(jù)結構[1]

        1.4.1 問題與數(shù)據(jù)結構

        【例1】某文獻計量學家收集到23種腫瘤類期刊的載文量(X1)、基金論文比(X2)、總被引頻次(X3)、影響因子(X4)、5年影響因子(X5)、即年指標(X6)、被引半衰期(X7)和Web即年下載率(X8)8個指標的具體數(shù)據(jù)。見表1。

        1.4.2 對數(shù)據(jù)結構的分析

        在表1中,23種期刊都是腫瘤學方面的期刊,故可認為它們具有“同質(zhì)性(簡單地理解,就是具有可比性)”;X1~X8這8個計量指標都是用來反映每種學術期刊的影響力、知名度、學術和社會價值等,而且,這些指標的取值都是越大越好,即所謂的“高優(yōu)指標”。顯然,從“性質(zhì)”上來看,這些指標也是具有“同質(zhì)性(簡單地理解,就是具有可比性)”的。滿足以上兩方面(橫向被稱為“樣品”、縱向被稱為“變量”)要求的資料,稱為“單組設計多元定量資料”。

        表1 23種腫瘤類期刊的文獻計量學指標及其取值

        1.4.3 適合選用的統(tǒng)計分析方法

        對于前面所呈現(xiàn)的“單組設計多元定量資料”而言,可以選用哪些多元統(tǒng)計分析方法呢?使人驚訝的是:適合分析這種數(shù)據(jù)結構的多元統(tǒng)計分析方法占據(jù)了全部多元統(tǒng)計分析方法的絕大部分。具體來說,需要按以下兩種情形來劃分:

        (1)不提供任何附加信息

        可以選擇的多元統(tǒng)計分析方法有以下5種:①無序樣品聚類分析法;②變量聚類分析法;③主成分分析法;④探索性因子分析法;⑤對應分析法。

        (2)提供某些附加信息

        可以選擇的多元統(tǒng)計分析方法有以下7種:①單組設計多元方差分析(需要提供各指標的標準值);②通徑分析(需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關系的圖形);③證實性因子分析[需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關系的圖形,變量包括“顯變量(可觀測其取值的變量)”與“隱變量(不可觀測其取值的變量)”];④結構方程模型分析[需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關系的圖形,變量包括“顯變量(可觀測其取值的變量)”與“隱變量(不可觀測其取值的變量)”];⑤多維尺度分析(需要提供任何兩個樣品之間相似度或不相似度系數(shù),全部系數(shù)構成相似度或不相似度矩陣);⑥典型相關分析(需要依據(jù)基本常識和專業(yè)知識將全部變量劃分為兩類);⑦復相關分析(需要指出一個變量為因變量、其他變量為自變量)。

        2 主成分分析的實現(xiàn)

        2.1 基于SAS實現(xiàn)計算

        2.1.1 所需要的SAS程序

        將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中,命名為“23種腫瘤類期刊文獻計量學指標資料.txt”;設所需要的SAS程序名為“基于腫瘤類期刊文獻計量學指標進行主成分分析.SAS”:

        data a1;

        infile 'F:CCC23種腫瘤類期刊文獻計量學指標資料.txt';

        input name $20. x1-x8;

        run;

        proc princomp data=a1 out=b1 prefix=z;

        var x1-x8;

        run;

        2.1.2 SAS程序主要輸出結果及解釋

        相關矩陣

        以上為8個計量變量兩兩之間的Pearson相關矩陣。

        相關矩陣的特征值特征值差值比例累積14.247249872.988574630.53090.530921.258675240.292497910.15730.688230.966177330.282557640.12080.809040.683619690.193382660.08550.894550.490237030.215778320.06130.955760.274458710.209337590.03430.990170.065121120.050660100.00810.998280.014461020.00181.0000

        以上為相關矩陣的特征值、相鄰兩特征值之差量、各特征值占總特征值(=8)的比例和累計百分比。

        特征向量z1z2z3z4z5z6z7z8x1-0.0475470.8480010.0821380.2345230.1693190.2703610.3258210.094669x20.322469-0.174411-0.4112910.3011670.774864-0.026423-0.0122710.066849x30.4213050.3191880.2766490.0479470.019984-0.073226-0.788615-0.118797x40.437866-0.0164280.218581-0.4329260.036042-0.0500050.1725700.734316x50.435547-0.0357640.297129-0.3369190.1626790.0328670.400564-0.647475x60.353989-0.003982-0.531820-0.119258-0.3588220.664815-0.070554-0.043710x70.267853-0.3275410.4423390.694887-0.2182420.2401780.1651710.099216x80.3711790.199364-0.3646910.232311-0.407886-0.6462190.222003-0.047511

        以上為8個特征值對應的特征向量。選取幾個主要的主成分變量就可近似取代原先8個變量信息的直觀判斷方法見圖1。

        圖1 碎石圖

        由圖1可知:在主成分變量為2個時,折線出現(xiàn)了明顯的“拐點”,也就是說,取前兩個主成分變量,就可近似反映原來的8個原變量所包含的信息。

        各主成分變量攜帶的信息量占總量8的比例見圖2。

        圖2 各主成分變量攜帶的信息量占總量8的比例

        由圖2可知:下面的折線代表各主成分變量攜帶的信息量占總量8的比例,上面的折線代表各主成分變量對應的特征值累積后的結果。

        下面寫出第一個主成分變量的線性表達式(系數(shù)來自“特征向量”第1列):

        z1=-0.047547x1+0.322469x2+0.421305x3+0.437866x4+0.435547x5+0.353989x6+0.267853x7+0.371179x8

        利用“特征向量”中的系數(shù),可以寫出第2~8個主成分變量的表達式。

        值得注意的是:“特征向量”中的各列系數(shù)都是采取了標準化變換(即每個變量減去其算術平均值除以標準差)而獲得的,若希望用原變量表達出來,需要進行相反的變換,此處從略。

        2.1.3 如何給主成分變量命名

        (1)選取幾個主成分變量

        應結合特征向量各列的系數(shù),給前幾個主要的主成分變量命名。究竟應該關注前幾個主成分變量呢?一般采取兩種決定方法之一:第一種,選取特征值≥1的那幾個主成分變量;第二種,選取累計貢獻率達到85%左右時所對應的那幾個最大和較大特征值所對應的主成分變量。在本例中,若按前者來選取,就選兩個主成分變量;若按后者來選取,就需要選4個主成分變量了。

        (2)給選取的前兩個主成分變量命名

        命名的依據(jù):根據(jù)各列特征向量的系數(shù)的絕對值大小及其左側變量的專業(yè)含義來給各列主成分變量命名。第一主成分變量可以命名為:除“載文量”之外的其他7個文獻計量指標的綜合效應指標;而第二主成分變量可以命名為:“載文量”與“總被引頻次”2個文獻計量指標的綜合效應指標。

        2.2 基于R軟件實現(xiàn)計算[2]

        2.2.1 所需要的R程序

        將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中,命名為“23種腫瘤類期刊文獻計量學指標資料含變量名.txt”;設所需要的R程序名為“基于腫瘤類期刊文獻計量學指標進行主成分分析.txt”:

        #設置路徑為"F://CCC/"

        setwd("F://CCC/")

        #下面data1中的數(shù)據(jù)為23行9列

        data1<- read.table("23種腫瘤類期刊文獻計量學指標資料含變量名.txt",header=TRUE)

        #刪掉第1列:期刊名稱

        data<- data1[,-1]

        attach(data)

        #假定已安裝stats子程序包

        #install.packages("survival")

        #加載stats子程序包

        library(stats)

        #基于princomp()函數(shù)且相關矩陣進行主成分分析

        model1=princomp(data,cor=TRUE,scores=TRUE)

        #系數(shù)保留4位小數(shù)

        options(digits=4)

        #輸出模型1的分析結果

        summary(model1,loading=TRUE)

        #繪制模型1的碎石圖

        screeplot(model1,type="line",main="碎石圖")

        #基于模型1且前兩個主成分變量繪制各指標的散布圖

        biplot(model1)

        #計算各主成分變量在各樣品上的預測值

        predict(model1)

        【R輸出結果】

        Importance of components:

        Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8Standarddeviation2.06091.12190.98290.826810.700170.523890.255190.120254ProportionofVariance0.53090.15730.12080.085450.061280.034310.008140.001808CumulativeProportion0.53090.68820.80900.894470.955740.990050.998191.000000

        以上為第1部分輸出結果,其中,第1行“標準差”實際上就是“特征值的平方根”。

        Loadings:

        Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8x10.8480.2350.169-0.270-0.326x2-0.322-0.174-0.4110.3010.775x3-0.4210.3190.2770.7890.119x4-0.4380.219-0.433-0.173-0.734x5-0.4360.297-0.3370.163-0.4010.647x6-0.354-0.532-0.119-0.359-0.665x7-0.268-0.3280.4420.695-0.218-0.240-0.165x8-0.3710.199-0.3650.232-0.4080.646-0.222

        以上為第2部分輸出結果,即“特征向量”,各列中空缺處為“0”。與前面“SAS輸出的特征向量”進行比較,在第一主成分變量上“差距”非常大,很可能是“定義或算法(如:是否采取了坐標軸旋轉)”不同所致。選取幾個主要的主成分變量就可近似取代原先8個變量信息的直觀判斷方法見圖3。

        圖3 碎石圖

        R軟件還可以以第一主成分變量為橫坐標軸、以第二主成分變量為縱坐標軸繪制出散布圖(因篇幅所限,此圖省略),從此圖上可看出:在8個文獻計量學指標中,唯獨x1(載文量)很特別,其他7個指標的性質(zhì)和表現(xiàn)比較接近。

        因篇幅所限,各主成分變量在各樣品上的預測值(或得分)從略。

        【說明】在醫(yī)學研究中,要謹慎使用主成分分析。關鍵在于:應注意本文中所提及的“數(shù)據(jù)結構”。若針對文獻[3]的資料,如何使用主成分分析,請讀者認真思考。

        參考文獻

        [1] 胡良平. 面向問題的統(tǒng)計學——(3)試驗設計與多元統(tǒng)計分析[M]. 北京: 人民衛(wèi)生出版社, 2012: 19-39.

        [2] 李詩羽, 張飛, 王正林. 數(shù)據(jù)分析: R語言實戰(zhàn)[M]. 北京: 電子工業(yè)出版社, 2015: 211-220.

        [3] 趙巍峰, 彭敏, 謝博, 等. 健康教育對精神分裂癥患者病恥感影響的持續(xù)性[J]. 四川精神衛(wèi)生, 2017, 30(6): 519-523.

        猜你喜歡
        計量學特征向量特征值
        二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        生物化學計量學原理在離散生物動力系統(tǒng)的應用
        云南化工(2021年5期)2021-12-21 07:41:34
        一類帶強制位勢的p-Laplace特征值問題
        針刺治療失眠癥的文獻計量學分析
        單圈圖關聯(lián)矩陣的特征值
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        基于科學計量學的公安院??蒲信c評價
        基于商奇異值分解的一類二次特征值反問題
        国产精品乱码人妻一区二区三区| 国产一区二区三区观看视频| 中文字幕亚洲中文第一 | 天天干夜夜操| 一区欧美在线动漫| 日韩人妖干女同二区三区| 帅小伙自慰videogay男男| 久久久久亚洲av无码专区体验 | 区三区久久精品水蜜桃av| 国产亚洲一区二区三区综合片| 亚洲日本一区二区一本一道| 99久久免费国产精品2017| 亚洲色图视频在线观看,| 日本av一区二区三区在线| 性欧美videofree高清精品| 国产精品麻豆成人AV电影艾秋| 午夜少妇高潮免费视频| 日本一区二区三区视频网站| 麻豆精品久久久久久久99蜜桃| 国内精品一区二区2021在线| 天堂麻豆精品在线观看| 午夜不卡无码中文字幕影院| ā片在线观看| 日本啪啪一区二区三区| 麻豆视频在线播放观看| 亚洲国产精品第一区二区| 久久AV中文综合一区二区| 日本国产精品高清在线| 精品国产综合区久久久久久 | 永久免费看免费无码视频| 亚洲av资源网站手机在线 | 揄拍成人国产精品视频肥熟女| 91久久精品一区二区三区大全| 中文字幕亚洲综合久久菠萝蜜| 美女扒开内裤让男生桶| 国产三级在线看完整版| 一本一道久久精品综合| 欧美精品中文字幕亚洲专区| 91精品国产91热久久p| 国内嫩模自拍偷拍视频| 在线看片免费人成视频久网下载 |