胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
1.1.1 模型的概念
人們經(jīng)常提及兩類模型,即數(shù)學(xué)模型與統(tǒng)計(jì)模型。那么,首先要知道什么是“模型”?;\統(tǒng)地說,“模型”就是描述一個(gè)單一變量或向量如何隨另一個(gè)變量或向量變化而變化的依賴關(guān)系的表達(dá)式或“函數(shù)”或“方程式”。當(dāng)“模型”揭示的是“總體”中變量之間的關(guān)系時(shí),稱其為“模型”更恰當(dāng);而當(dāng)“模型”揭示的是“樣本”中變量之間的關(guān)系時(shí),稱其為“方程”更恰當(dāng)。所謂“更恰當(dāng)”是指:當(dāng)表達(dá)式中帶有“隨機(jī)誤差項(xiàng)”時(shí),表達(dá)式呈現(xiàn)的是變量之間的“精確”數(shù)量關(guān)系;而當(dāng)表達(dá)式中不帶有“隨機(jī)誤差項(xiàng)”時(shí),表達(dá)式呈現(xiàn)的是變量之間的“近似”數(shù)量關(guān)系。
1.1.2 數(shù)學(xué)模型的概念
“數(shù)學(xué)模型”是描述確定性事物或現(xiàn)象之間數(shù)量關(guān)系的表達(dá)式。換言之,它是一個(gè)“函數(shù)”,即給定自變量一個(gè)特定取值,因變量就有一個(gè)確定的值與其對(duì)應(yīng)。事實(shí)上,可以這樣認(rèn)為:數(shù)學(xué)模型描述的是一般變量之間的數(shù)量依賴關(guān)系。
1.1.3 統(tǒng)計(jì)模型的概念
“統(tǒng)計(jì)模型”是描述隨機(jī)變量隨其他隨機(jī)變量或隨機(jī)過程或一般變量變化而變化的依賴關(guān)系的表達(dá)式或“方程式”或“模型”。事實(shí)上,可以這樣認(rèn)為:在統(tǒng)計(jì)模型中,因變量或是隨機(jī)變量、或是隨機(jī)變量的函數(shù)(被稱為隨機(jī)過程);而自變量可以是一般變量、隨機(jī)變量或隨機(jī)過程。
在經(jīng)典統(tǒng)計(jì)模型中,假定總體上的回歸系數(shù)(含截距項(xiàng))為常量,基于樣本信息構(gòu)建的樣本回歸系數(shù)(含截距項(xiàng))被視為總體回歸系數(shù)的估計(jì)值;而在貝葉斯統(tǒng)計(jì)模型中,假定總體上的回歸系數(shù)(含截距項(xiàng))是隨機(jī)變量,通常,需要通過總體信息、樣本信息和先驗(yàn)信息(有時(shí)還需借助隨機(jī)模擬)來推斷回歸系數(shù)的估計(jì)值。
1.2.1 概述
統(tǒng)計(jì)模型不計(jì)其數(shù),如何對(duì)其進(jìn)行分類呢?事實(shí)上,從不同的角度來考量,就會(huì)有不同的分類結(jié)果。顯然,這樣分類的結(jié)果之間具有“交叉重疊”現(xiàn)象;然而,這或許是引導(dǎo)讀者認(rèn)識(shí)“統(tǒng)計(jì)模型”的最簡(jiǎn)易、最直接的思路或方法。
1.2.2 基于統(tǒng)計(jì)思想分類
基于統(tǒng)計(jì)思想可分為經(jīng)典統(tǒng)計(jì)模型(可進(jìn)一步劃分為“參數(shù)統(tǒng)計(jì)模型”“半?yún)?shù)統(tǒng)計(jì)模型”和“非參數(shù)統(tǒng)計(jì)模型”)、貝葉斯統(tǒng)計(jì)模型、蒙特卡羅(隨機(jī)模擬)統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)統(tǒng)計(jì)模型。
1.2.3 基于統(tǒng)計(jì)模型是否有解析式分類
基于是否有解析式可分為有解析式的統(tǒng)計(jì)模型(絕大部分統(tǒng)計(jì)模型都屬于這一類)與無解析式的統(tǒng)計(jì)模型(機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法建?;旧蠈儆谶@一類,還有所謂的“概率圖模型”)。
1.2.4 基于統(tǒng)計(jì)功能分類
基于統(tǒng)計(jì)功能可分為廣義差異性分析模型、相關(guān)與關(guān)聯(lián)分析模型、回歸分析模型、判別分析模型、聚類分析模型、綜合評(píng)價(jià)模型和多元統(tǒng)計(jì)分析模型(包括通徑分析模型、主成分分析模型、探索性與證實(shí)性因子分析模型、結(jié)構(gòu)方程模型、典型相關(guān)分析模型、對(duì)應(yīng)分析模型、多維尺度分析模型、結(jié)合分析模型等)。
1.2.5 基于模型的個(gè)數(shù)分類
基于模型個(gè)數(shù)可分為單一結(jié)局變量的統(tǒng)計(jì)模型(或稱為一元統(tǒng)計(jì)模型)與多結(jié)局變量的統(tǒng)計(jì)模型(或稱為聯(lián)立方程組模型)。
1.2.6 基于模型的水平數(shù)分類
基于模型的水平數(shù)可分為單一水平統(tǒng)計(jì)模型(即通常的統(tǒng)計(jì)模型)與多水平統(tǒng)計(jì)模型(也稱為隨機(jī)系數(shù)統(tǒng)計(jì)模型)。
1.2.7 基于因變量與自變量之間的幾何關(guān)系分類
基于因變量與自變量之間的幾何關(guān)系可分為一般線性與非線性統(tǒng)計(jì)模型、廣義線性與非線性統(tǒng)計(jì)模型。
1.2.8 基于回歸系數(shù)的效應(yīng)關(guān)系分類
基于回歸系數(shù)的效應(yīng)關(guān)系可分為固定效應(yīng)統(tǒng)計(jì)模型、隨機(jī)效應(yīng)統(tǒng)計(jì)模型與混合效應(yīng)統(tǒng)計(jì)模型。
1.2.9 基于時(shí)間變量分類
基于時(shí)間變量可分為時(shí)點(diǎn)統(tǒng)計(jì)模型(包括所有不以“時(shí)間”為自變量的統(tǒng)計(jì)模型或與“時(shí)間”無關(guān)的統(tǒng)計(jì)模型)與時(shí)序統(tǒng)計(jì)模型(包括各種線性與非線性時(shí)間序列統(tǒng)計(jì)模型、Cox比例風(fēng)險(xiǎn)與非比例風(fēng)險(xiǎn)回歸模型、生存資料的各種參數(shù)模型、縱向追蹤或稱為重復(fù)測(cè)量設(shè)計(jì)混合效應(yīng)統(tǒng)計(jì)模型)。
1.2.10 基于因變量是否為“顯變量”分類
在常規(guī)的“回歸分析”中,在“經(jīng)典統(tǒng)計(jì)思想和貝葉斯統(tǒng)計(jì)思想”框架下,人們所討論的統(tǒng)計(jì)模型中的因變量基本上都是“顯變量”或由“顯變量變換所得到的結(jié)果”;在很多多元統(tǒng)計(jì)分析中,很少采用“統(tǒng)計(jì)模型”去描述所獲得的最終結(jié)果,而是采用“典型變量”或“主成分變量”等去描述。本質(zhì)上,它們就是以“隱變量”為因變量的“統(tǒng)計(jì)模型”。具體地說,在典型相關(guān)分析中,采用“顯變量”來線性表達(dá)“典型變量(本質(zhì)上就是隱變量)”。一個(gè)“典型變量對(duì)”就是一個(gè)“二元多重線性回歸模型”或視為由兩個(gè)“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;假定在所研究的問題中,有m個(gè)“顯變量(即定量結(jié)果變量)”,于是,在主成分分析中,用“顯變量”的不同線性組合分別表達(dá)m個(gè)“主成分變量(本質(zhì)上就是隱變量)”,實(shí)際上,全部m個(gè)主成分表達(dá)式就是由m個(gè)“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;在探索性因子分析中,“因子得分模型”也是由m個(gè)“一元多重線性回歸方程(注意:因變量為隱變量)”組成的回歸方程組;同理,在定量資料對(duì)應(yīng)分析(有公因子變量)、多維尺度分析(有公因子變量)和變量聚類分析(有類成分變量)中,都有“以隱變量為因變量”的統(tǒng)計(jì)模型。
1.2.11 基于統(tǒng)計(jì)模型中是否包含“未知參數(shù)”分類
一般來說,統(tǒng)計(jì)模型中會(huì)包含“未知參數(shù)”。然而,若按上述“基于因變量是否為‘顯變量’來劃分”,“廣義差異性檢驗(yàn)”可被視為“基于概率分布”的“統(tǒng)計(jì)模型”,因?yàn)闄z驗(yàn)統(tǒng)計(jì)量,如Z、t、F、χ2等,都可被視為“隱變量”,通過相應(yīng)的“概率分布”把握其變化規(guī)律,而基于“樣本信息”提取的是一般統(tǒng)計(jì)量,如樣本均值、標(biāo)準(zhǔn)差、樣本含量、觀察頻數(shù)與理論頻數(shù)等,它們并不包含“未知參數(shù)”。由此可知,基于某種概率分布的“檢驗(yàn)統(tǒng)計(jì)量”應(yīng)屬于“最簡(jiǎn)單的統(tǒng)計(jì)模型”,其他統(tǒng)計(jì)模型可被概括為反映“依賴關(guān)系的統(tǒng)計(jì)模型”。
1.2.12 基于統(tǒng)計(jì)模型是否為“最終模型”分類
若模型本身就是最終要求的模型,則該模型應(yīng)被稱為“目標(biāo)模型”;若模型本身只是在計(jì)算過程中起一個(gè)“橋梁”作用,通過它來獲得最終要求的模型中“未知參數(shù)”的估計(jì)值,則該模型可被稱為“過程模型”。
事實(shí)上,所有以“檢驗(yàn)統(tǒng)計(jì)量為別名的統(tǒng)計(jì)模型(它們?cè)诮y(tǒng)計(jì)學(xué)教科書上被稱為‘檢驗(yàn)統(tǒng)計(jì)量’)”和反映“變量間依賴關(guān)系的統(tǒng)計(jì)模型”都是研究者希望構(gòu)建的、具有解析式的統(tǒng)計(jì)模型,故它們都屬于“目標(biāo)模型”;而為了求解“目標(biāo)模型”中的“未知參數(shù)”,需要先構(gòu)造一個(gè)“目標(biāo)函數(shù)”,再依據(jù)某種原則(如最小平方法或最大似然法)經(jīng)由“目標(biāo)函數(shù)”導(dǎo)出一個(gè)“正規(guī)方程組”或直接構(gòu)建一個(gè)“廣義估計(jì)方程組”,進(jìn)而求出“目標(biāo)模型”中的未知參數(shù)。為后續(xù)指代方便,不妨把“正規(guī)方程組”或“廣義估計(jì)方程組”都統(tǒng)稱為“過程模型”。
前面“從不同角度劃分統(tǒng)計(jì)模型”給出了11種具有“交叉重疊”的分類結(jié)果,為讀者了解和認(rèn)識(shí)“統(tǒng)計(jì)模型”奠定了必要的基礎(chǔ)。下面,再分別基于“統(tǒng)計(jì)特性”“統(tǒng)計(jì)功能”和“預(yù)測(cè)結(jié)果”三個(gè)角度,給出更具有實(shí)際意義的“統(tǒng)計(jì)模型分類結(jié)果”。其中,基于“統(tǒng)計(jì)特性”劃分統(tǒng)計(jì)模型,其種類最多,而且,其數(shù)目會(huì)隨著所找出的“統(tǒng)計(jì)特性”的數(shù)目增加而成倍增加;而基于“預(yù)測(cè)結(jié)果”劃分統(tǒng)計(jì)模型,其種類最少,或許也是最有實(shí)用價(jià)值的分類方法。
根據(jù)同時(shí)考察模型是否具有下列9種“統(tǒng)計(jì)特性”(說明:事實(shí)上,可能還存在其他統(tǒng)計(jì)特性,此處歸納的僅是最常見的),可將統(tǒng)計(jì)模型歸納為1 152大類。9種“統(tǒng)計(jì)特性”分別指“模型的水平數(shù)(2種情況)、因變量的個(gè)數(shù)(2種情況)、因變量的性質(zhì)(3種情況)、自變量的個(gè)數(shù)(2種情況)、是否含隱變量(2種情況)、是否考慮抽樣權(quán)重(2種情況)、因變量觀測(cè)值是否獨(dú)立(2種情況)、因變量與自變量前回歸系數(shù)是否為線性關(guān)系(2種情況)以及是否基于‘參數(shù)’構(gòu)建模型(3種情形)”,于是,統(tǒng)計(jì)模型可被分解為以下1 152類,現(xiàn)概述如下:①模型的水平數(shù)(2種情況)指“一水平模型”與“多水平模型”;②因變量的個(gè)數(shù)(2種情況)指“一個(gè)因變量或稱一元模型”與“多個(gè)因變量或稱多元模型”;③因變量的性質(zhì)(3種情況)指“計(jì)量因變量”“計(jì)數(shù)因變量”和“定性因變量”;④自變量的個(gè)數(shù)(2種情況)指“一個(gè)自變量或稱一重模型”與“多個(gè)自變量或稱多重模型”;⑤是否含隱變量(2種情況)指“不含隱變量”與“含隱變量”;⑥是否考慮抽樣權(quán)重(2種情況)指“不考慮抽樣權(quán)重”與“考慮抽樣權(quán)重”;⑦因變量觀測(cè)值是否獨(dú)立(2種情況)指“相互獨(dú)立”與“相依(如‘時(shí)間序列資料’與‘具有重復(fù)測(cè)量的資料’)”;⑧因變量與自變量前回歸系數(shù)是否為線性關(guān)系(2種情況)指“線性”與“非線性”;⑨是否基于“參數(shù)”構(gòu)建模型(3種情況)指“參數(shù)法”“半?yún)?shù)法”和“非參數(shù)法”。
將上述9種“統(tǒng)計(jì)特性”全面組合起來構(gòu)建統(tǒng)計(jì)模型,就有27×3×3=1 152類。
基于“統(tǒng)計(jì)功能”對(duì)統(tǒng)計(jì)模型進(jìn)行分類,至少可以劃分為以下7類:①差異性分析的線性模型;②相關(guān)分析模型;③關(guān)聯(lián)分析模型;④回歸分析模型;⑤判別分析模型;⑥聚類分析模型;⑦多元統(tǒng)計(jì)模型。
2.4.1 概述
基于統(tǒng)計(jì)模型的“預(yù)測(cè)結(jié)果”劃分統(tǒng)計(jì)模型的種類,可將統(tǒng)計(jì)模型劃分為以下4類:①觀測(cè)結(jié)果的預(yù)測(cè)值;②觀測(cè)結(jié)果的概率值;③觀測(cè)結(jié)果的綜合值;④觀測(cè)結(jié)果的統(tǒng)計(jì)量。
2.4.2 基于“觀測(cè)結(jié)果的預(yù)測(cè)值”劃分統(tǒng)計(jì)模型
何為“觀測(cè)結(jié)果的預(yù)測(cè)值”?由模型計(jì)算的結(jié)果為觀測(cè)結(jié)果Y的預(yù)測(cè)值,兩者的屬性和單位完全相同。例如:①計(jì)量資料線性與非線性回歸分析模型;②時(shí)序資料線性與非線性時(shí)間序列分析模型;③通徑分析或路徑分析模型。
其中,“計(jì)量資料線性與非線性回歸分析模型”包括一般線性與非線性回歸分析模型、主成分回歸分析模型、嶺回歸分析模型、基于正交化方法的回歸分析模型、穩(wěn)健回歸分析模型、反應(yīng)曲面回歸分析模型、分位數(shù)回歸分析模型、加性與廣義加性回歸分析模型、局部模型回歸分析和有限混合模型回歸分析模型等。
2.4.3 基于“觀測(cè)結(jié)果的概率值”劃分統(tǒng)計(jì)模型
何為“觀測(cè)結(jié)果的概率值”?由模型計(jì)算的結(jié)果為觀測(cè)結(jié)果Y取某特定值(對(duì)離散型隨機(jī)變量而言)或某個(gè)小的取值區(qū)間內(nèi)的值(對(duì)連續(xù)型隨機(jī)變量而言)的概率,兩者的屬性和單位完全不同。例如:①生存資料回歸分析;②計(jì)數(shù)資料回歸分析;③定性資料回歸分析。
2.4.4 基于“觀測(cè)結(jié)果的綜合值”劃分統(tǒng)計(jì)模型
何為“觀測(cè)結(jié)果的綜合值”?由模型計(jì)算的結(jié)果為觀測(cè)結(jié)果Y1-Yk的綜合值,前者為隱變量、后者為顯變量。例如:①主成分分析模型;②因子分析模型;③結(jié)構(gòu)方程模型;④對(duì)應(yīng)分析模型;⑤多維尺度分析模型;⑥典型相關(guān)分析模型;⑦結(jié)合分析模型;⑧判別分析模型;⑨經(jīng)典綜合評(píng)價(jià)模型。
其中,“經(jīng)典綜合評(píng)價(jià)模型”包括三十多種方法,主要有如下幾種,即熵值法、Topsis法、秩和比法、基于標(biāo)準(zhǔn)化變換的求和法、投影尋蹤法、模糊綜合評(píng)價(jià)法和層次分析法等[5]。
2.4.5 基于“觀測(cè)結(jié)果的統(tǒng)計(jì)量”劃分統(tǒng)計(jì)模型
何為“觀測(cè)結(jié)果的統(tǒng)計(jì)量”?由模型計(jì)算的結(jié)果為“檢驗(yàn)統(tǒng)計(jì)量”的值,它是由觀測(cè)結(jié)果Y的一般統(tǒng)計(jì)量構(gòu)造出來的檢驗(yàn)統(tǒng)計(jì)量。例如:①Z、t、F、χ2、W等;②T2、Wilks’λ等。
值得一提的是:對(duì)于最后一種分類結(jié)果,人們通常并不認(rèn)為它們是“統(tǒng)計(jì)模型”,而認(rèn)為它們只是假設(shè)檢驗(yàn)的“檢驗(yàn)統(tǒng)計(jì)量”。事實(shí)上,在統(tǒng)計(jì)學(xué)上,可以認(rèn)為:一般線性模型包含了“假設(shè)檢驗(yàn)”,或者說,假設(shè)檢驗(yàn)屬于“統(tǒng)計(jì)模型”的“特例”。