★ 趙敏 李軍山(1.南昌航空大學 南昌 330063;2.江西中醫(yī)藥大學 南昌 330004)
中醫(yī)藥是中華文明的瑰寶,為中華民族繁衍生息做出了巨大貢獻。繼2013年《中醫(yī)藥法》頒布實施后,2019年全國中醫(yī)藥大會在北京勝利召開,中醫(yī)藥迎來了大好發(fā)展機遇。2020年初,中醫(yī)藥在新冠疫情防治中的卓越表現,再次彰顯了中醫(yī)藥在健康維護和促進方面的特色優(yōu)勢。習近平總書記多次作出重要批示,提出要大力發(fā)展好、保護好、挖掘好中醫(yī)藥。當前,相對于中醫(yī)藥人才、設備、技術等服務能力條件建設明顯改善的狀況,中醫(yī)藥服務能力評價理論研究顯得有些滯后。多數文獻為定性分析或描述性統(tǒng)計分析[1-2]。少數學者采用了主成分分析或因子分析等現代統(tǒng)計分析方法[3-4],但對這兩種方法沒有進行區(qū)分[5-8],研究結果科學性有待于進一步提升。為此,本文采用Python語言編程[9-10],分別運用主成分分析和因子分析兩種方法,對我國中醫(yī)藥服務能力評價進行比較研究,為我國中醫(yī)藥服務能力評價和提升提供方法參考和智力支持。
1.1 資料來源 本文在全面梳理中醫(yī)藥服務能力相關文獻的基礎上,結合數據可得性,選取15個指標用來評價中醫(yī)藥服務能力,詳見表1。
表1 中醫(yī)藥服務能力指標體系一覽表
全部指標的數據均來源于2018年全國中醫(yī)藥統(tǒng)計摘編數據。除臺灣和西藏數據缺失外,本文分析評價對象共計北京、上海等其余30省(自治區(qū)、直轄市),以下簡稱30省。
為消除不同變量不同單位帶來的影響,所有變量數據分析之前均進行標準化處理。
1.2 研究方法與思路 本文主要分別采用主成分分析和因子分析法,對30省的中醫(yī)藥服務能力進行分析排名和聚類,旨在通過比較研究兩種方法的對應排名結果和聚類分析結果,進一步闡釋兩種定量分析方法的異同點,從而為科學客觀評價我國中醫(yī)藥服務能力提供方法參考。
主成分分析和因子分析都是利用降維思想,嘗試用幾個主成分(或公因子)來代表所有原始變量的信息。不同的是,主成分分析法是在損失很少信息的前提下把多個指標轉化為幾個不相關的綜合指標(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間一定互不相關。而因子分析中一般假定各公因子互不相關,但實際上各公因子并不一定滿足互不相關要求。因子分析也是利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發(fā),把一些具有錯綜復雜關系的變量表示成少數的公共因子和僅對某一個變量有作用的特殊因子線性組合而成。相對于主成分分析,因子分析更傾向于描述原始變量之間的相關關系。因子分析的前提是各公因子假定為互不相關,其重點在于解釋各變量之間的協(xié)方差。
本文主要運用Python語言,通過編程,調用有關函數,完成原始數據輸入、計算和結果輸出。
2.1 各省市中醫(yī)藥服務能力排名結果
2.1.1 主成分分析法對應排名結果 主成分分析法是通過方差值和方差比來評價降維效果是否合理。方差值代表降維后的各主成分的方差值,方差值越大,說明越是重要的成分;方差比代表降維后的各主成分的方差值占總方差值的比例,此比例越大,越是重要的主成分。15個指標(變量)會產生15個互相正交的主成分,各主成分的方差值和方差比見表2。
表2 全部成分的方差比和方差值
由表2可知,主成分(1)、(2)、(3)的方差比和方差值均遠遠大于其余成分的方差比和方差值。這3個主成分所占的方差值是總方差的98.0%,也遠遠大于其余成分的方差百分比,所以只選擇前3個成分為主要成分,其余成分丟失信息可以忽略不計。
運用Python語言,調用主成分分析(PCA)函數,最終得到30省中醫(yī)藥服務能力綜合得分排名,詳見表3。
表3 基于主成分分析和因子分析的30省市中醫(yī)藥服務能力綜合得分
從表3可以看出,兩種分析方法排名結果完全的一致省市有8個,排名僅相差1位的有13個省市,相差2位的有7個省市,三者加起來共計28個省市。其余兩個省市排名相差分別為3位和5位。
2.1.2 因子分析法對應排名結果
第一,因子分析適用性檢驗。運用Python語言,調用自定義函數及庫函數,適用性檢驗結果如表4。由表4可以看出,KMO> 0.7,效果比較理想,同時,巴特利特球形度檢驗P<<0.05,說明因子分析可以應用于本文原始數據。
表4 KMO 和巴特利特檢驗
第二,公因子的選取。由表5可知,前3個因子(factor 0,factor 1,factor 2)對應的特征根大于1,因此本文選取此3個因子。此3個因子累計方差貢獻率90.1%,也遠遠大于其余因子的累計方差貢獻率。
表5 公共因子的方差累計貢獻率、方差貢獻率、特征值
第三,計算中醫(yī)藥服務能力綜合得分。假定此3個因子互不相關。根據選取的3個因子,調用Factor Analyzer等相關函數,可得中醫(yī)藥服務能力綜合得分公式,具體如下:
C=A.B;K=D.C;E=(K.F)/ 0.900 778
其中:A:相關系數矩陣的逆矩陣(15*15);B:旋轉因子載荷矩陣(15*3);C:因子得分系數矩陣(15*3);D:原始數據(30*15);K:30省的3個因子得分(30*3);F:3個因子的方差貢獻率(3*1);E:綜合得分(30*1)。
根據以上公式,可得到基于因子分析的30省中醫(yī)藥服務能力綜合得分及排名,詳見表3。
2.2 30省中醫(yī)藥服務能力聚類分析結果 基于無監(jiān)督學習聚類分析中的K-Means法,運用輪廓系數法選取K值,以確定30省中醫(yī)藥服務能力聚類分析的類別數量。若K值過大或過小,則失去聚類的意義,一般規(guī)定K值的選擇范圍為4~9。調整K值并對比輪廓系數的大小,輪廓系數越接近1,表示K值越合理。
在運行程序過程中,測試發(fā)現直接聚類和降維后再聚類的輪廓系數的大小會稍有差異。通過表6看出,降維前、后K=4時,輪廓系數值都最接近1,因此在K-Means法聚類分析中,K值選擇4,即30省中醫(yī)藥服務能力分為四個類別比較合理。
表6 降維前后輪廓系數大小的比較
2.2.1 基于所有原始變量的對應聚類分析結果 首先,不對原始變量做任何降維操作,而是直接基于所有原始變量進行聚類分析。此聚類分析結果可作為比較主成分分析和因子分析相應結果的標準。具體結果如表7所示。
2.2.2 主成分分析法對應聚類分結果 運用主成分分析法,進行降維后聚類分析結果和沒有進行降維并直接進行聚類分析的結果完全一致。說明基于主成分分析的聚類結果與直接基于所有原始變量的聚類分析結果無差別如表7(左側)所示。
2.2.3 因子分析法對應聚類分析結果 運用因子分析降維后并進行聚類分析的結果如表7(右側)所示。也分為四類,各類差別一目了然。
表7 基于原始變量的直接聚類分析結果
(1)兩種方法都能夠較好分析說明中醫(yī)藥服務能力排名。從表3可以看出,兩種方法對應的中醫(yī)藥服務能力排名結果基本一致:30省中,排名相差3位以上的只有2個省市。比較表7和表8,兩種方法聚類分析結果也比較相似。這充分說明,針對本文30省中醫(yī)藥服務能力數據信息資料,兩種方法都能較好地分析中醫(yī)藥服務能力排名和分類。
(2)兩種分析方法對應結果存在一些差異。主成分分析中,三個主成分互不相關,且代表了近98 %原始變量信息。而因子分析中,提取的三個公因子并不一定不相關,且其代表的原始變量信息也只有90 %。這導致二者分析結果存在一定差異。尤其是聚類分析中,四個類別中僅有一個類別完全一致(即海南省自成1類),但其他三類的組成存在差別,個別類別差別較大。
(3)從聚類分析結果看,主成分分析方法相對更為準確。主成分分析對應結果和沒有進行降維,直接基于原始變量數據進行聚類分析的結果完全一致,而因子分析對應結果還存在一定差別,可能原因在于,因子分析必須假設各公因子互不相關,但實際上,往往并不一定符合此假設。
(4)相對SPSS,采用Python語言編程更具靈活性。Python語言可靈活調用相關函數,而基于SPSS的因子分析包含了主成分分析,容易導致混淆,初學者應優(yōu)先使用Python。
(5)本文沒有基于原始變量的相關關系來闡釋兩種分析方法的適用性,這是本文不足之處,也是未來研究方向所在。因子分析的優(yōu)勢在于能夠更好地說明各變量之間的相關性。顯然,用以表示中醫(yī)藥服務能力的15個變量之間有一定相關關系。未來需要基于原始變量之間相關性來分析兩種方法的適用性。