張 磊 王 彤
樣本選擇模型 (sample selection model)源于芝加哥大學(xué)的 James J.Heckman教授在 20世紀(jì) 70年代中期所從事的關(guān)于勞動供給的大量研究。1974年,他在《Shadow Prices,Market Wages,and Labor Supp ly》一文中通過對婦女勞動力供給與市場工資關(guān)系的研究提出樣本選擇模型及其似然估計,但因其估計方法復(fù)雜、計算量大等原因使得該模型并未得到重視〔1〕。稍后的五、六年間,Heckman對該模型的估計方法做出了進一步發(fā)展,終于在 1979年首創(chuàng)樣本選擇模型的兩步估計,即著名的“heckman correction”。此后的二十年間,樣本選擇模型在勞動力供給、消費、教育、出生率和種族、性別歧視等諸多方面研究得到了極大的應(yīng)用。自2000年始,國外醫(yī)學(xué)領(lǐng)域已逐步將樣本選擇模型用于解決醫(yī)學(xué)問題如醫(yī)療費用、生存質(zhì)量評價和 HIV檢驗方法評價等,而該模型在國內(nèi)醫(yī)學(xué)領(lǐng)域的應(yīng)用尚未見報道〔2-4〕。
樣本選擇模型的主要價值在于它可以有效校正抽樣設(shè)計無法消除的樣本選擇性偏倚。例如在慢性疾病醫(yī)療費用的研究中,常將醫(yī)療費用作為因變量而家庭收入等影響因素(x′i)作為自變量建立研究所需的回歸方程,即結(jié)果等式。事實上,我們僅能收集到確實去就診患者的醫(yī)療費用(yi),無法獲得確診但不選擇住院或其他治療的這部分病人的醫(yī)療費用,這樣就發(fā)生了樣本選擇偏倚。是否住院治療是一種選擇,每一個人都會很謹(jǐn)慎地評估它的成本和效益,而不太可能以丟硬幣這樣完全隨機的方式來決定是否住院治療,故而缺失的那部分應(yīng)該發(fā)生的醫(yī)療費用通常不是理論上假設(shè)的完全隨機缺失 (MCAR,missing completely at random)。每個確診病人都會根據(jù)自身狀況(z′i)(如家庭收入、婚否和知識程度等)來擬定出一個“承受費用”。確診病人只有在發(fā)現(xiàn)住院費用(c)不高于承受費用時才會選擇住院治療;否則,不選擇住院治療。即每個確診病人是否住院是根據(jù)承受費用和真正住院醫(yī)療費用(c)的比較來決定。而每個確診病人的承受費用(d*i)與該病人的自身狀況(z′i)也可建立回歸方程,即選擇等式。由于僅能觀察到確診病人是否住院(di)而無法獲得承受費用(d*i)的信息,所以可以將二分類變量(di)作為選擇等式的因變量構(gòu)造出 Probit或 Logit模型。那么在給定z′i后,選擇等式的回歸系數(shù)γ和誤差項vi以及界值c都決定了個體被選入可觀測樣本(di=1)的概率。γ值越大,則個體被選入樣本(di=1)的機會越大,醫(yī)療費用被觀測到的(yi=y*i)可能性越大。而c值越大,個體被剔出樣本(di=0)的機會越大,醫(yī)療費用缺失(yi=0)的可能性越大。如果γ=0,則個體是否被選入樣本是隨機的,僅受樣本含量的影響。如果c取 -∞,無論γ值多大,所有個體都會被選入樣本;如果c取 +∞,無論γ值多小,則所有個體都會被剔出樣本。然而,僅基于上述可觀測到的有偏樣本(di=1)來估計結(jié)果等式是存在偏倚的。這樣就可以構(gòu)建出樣本選擇模型的基本結(jié)構(gòu):(1)是理論上存在的結(jié)果等式,(2)是因變量無法觀測到的選擇等式。(3)和 (4)分別反映了di和以及yi和的對應(yīng)關(guān)系。當(dāng)≥c時,di=1則yi=否則,di=0則yi=0。樣本選擇模型要求εi和vi相關(guān)且E[εi|vi]≠0。由于結(jié)果等式中x′i和 εi相關(guān)且εi和vi也相關(guān),應(yīng)用最小二乘估計無法獲取一致的參數(shù)估計量β,故衍生出有關(guān)該模型估計方法的大量研究。
一、似然估計
1.參數(shù)方法
Heckman和 Gronau率先引入似然估計。該法需對誤差項分布做出如下假設(shè) A:εi和vi服從均數(shù)為 0的雙變量正態(tài)分布,且相關(guān)系數(shù)介于 0~1之間。在假設(shè) A成立的條件下,應(yīng)用似然估計來獲取模型參數(shù)是最優(yōu)的,且該法常作為檢驗其他估計方法功效損失的一個參考。當(dāng)誤差項不服從雙變量正態(tài)分布但分布型已知時,可通過對應(yīng)分布型的逆標(biāo)準(zhǔn)正態(tài)分布函數(shù)將結(jié)果等式與選擇等式的誤差項轉(zhuǎn)換為雙變量正態(tài)分布后仍選用似然估計。
2.半?yún)?shù)方法
盡管轉(zhuǎn)換分布的方法并不嚴(yán)格要求誤差項服從正態(tài)分布,但仍需要獲得誤差項邊緣分布的信息。Gallant和 Nychka提出的方法可以不需要獲得誤差項分布的任何信息而產(chǎn)生一致估計量〔5〕。該法通過將誤差項的聯(lián)合密度函數(shù)近似為 Hermite級數(shù)來構(gòu)造受限形式的似然函數(shù),進而獲得聯(lián)合密度函數(shù)和模型參數(shù)的一致估計。通過實例分析發(fā)現(xiàn)在背離正態(tài)分布的假設(shè)下,應(yīng)用該方法是有效的。但是由于該法涉及較多數(shù)學(xué)理論且計算相對復(fù)雜,所以在實際應(yīng)用中比較少見。
二、兩步估計
似然估計對于初始值的選擇比較敏感,并且樣本選擇模型的對數(shù)似然函數(shù)常不是全局凹的,因而無法保證似然函數(shù)的解唯一,所以該法在實際應(yīng)用中也受到局限。而最常見的估計方法是 Heckman提出的兩步估計。依據(jù)誤差項的分布假設(shè),兩步估計可分為基于雙變量正態(tài)分布的參數(shù)兩步估計和不要求分布假設(shè)的半?yún)?shù)兩步估計。
1.參數(shù)兩步估計
參數(shù)兩步估計仍要求誤差項服從雙變量正態(tài)分布即上述假設(shè)A。兩步估計的具體計算可歸納為以下幾個步驟:①將有二分類因變量的選擇等式構(gòu)建成 Probit模型,然后應(yīng)用最大似然估計獲得選擇等式參數(shù)的一致估計量。由于γ和σv常以比值形式出現(xiàn),所以在樣本含量為n的完全樣本中,可應(yīng)用似然估計來獲得。Probit模型的對數(shù)似然函數(shù)是嚴(yán)格凹的,所以最大似然估計量γ是唯一的。②通過估計量γ獲得每個人的預(yù)測值(z′iγ-c)/σv后 ,將其密度函數(shù)與分布函數(shù)的比值 ,構(gòu)造出 λ((z′iγ-c)/σv)。 ③在因變量可觀測到的有偏樣本中,將σερεv^λi作為校正項加入結(jié)果等式后 ,應(yīng)用最小二乘獲得 σερεv和 β的一致估計量〔6〕。
參數(shù)兩步估計假設(shè)誤差項服從雙變量正態(tài)分布,本質(zhì)上是要求誤差項間的關(guān)系是線性的,即εi是vi的線性函數(shù)。由此可以考慮適當(dāng)放寬vi的分布做出假設(shè) B:vi的分布已知且εi是vi的線性函數(shù)。如vi服從正態(tài)分布就意味著εi和vi服從雙變量正態(tài)分布,這時假設(shè) A等價于假設(shè) B。由于假設(shè) B允許vi服從其他分布,所以對選擇等式可以構(gòu)建除 Probit以外的其他模型。如vi服從均勻分布,可應(yīng)用線性概率模型中最小二乘殘差的簡單變換來代替 λ((z′iγ-c)/σv),然后仍應(yīng)用兩步估計來獲得一致估計量。當(dāng)然,也可以對誤差項進行分布轉(zhuǎn)換來應(yīng)用參數(shù)兩步估計。
2.半?yún)?shù)兩步估計
參數(shù)兩步估計對分布假設(shè)異常敏感的特性限制了該法的應(yīng)用,故而在樣本選擇模型問世后的二十多年里,一直有學(xué)者致力于研究對分布假設(shè)較為穩(wěn)健的半?yún)?shù)兩步估計。與參數(shù)兩步估計不同,半?yún)?shù)兩步估計僅需做出假設(shè) C:E[εi|zi,di=1]=g(z′iγ),其中g(shù)是未知函數(shù)。參數(shù)兩步估計中可通過雙變量正態(tài)分布的分布假設(shè)詳細(xì)刻畫出校正項g(·),即σερεv^λi。但是半?yún)?shù)兩步估計對于校正項的具體形式并不作要求。此外,半?yún)?shù)兩步估計不需要利用vi的分布來獲得選擇等式估計量,且不需要通過誤差項的分布關(guān)系來獲得校正項。而半?yún)?shù)兩步估計正是圍繞著這兩個“不需要”發(fā)展起來的,且這類估計方法的核心大致分為以下兩個方面:選擇等式回歸系數(shù)γ的估計和校正項的估計。
(1)選擇等式回歸系數(shù)γ的估計
為了避免對誤差項分布的過分依賴,常在第一步中對選擇等式應(yīng)用一些半?yún)?shù)或非參數(shù)估計方法來獲得回歸系數(shù)γ。自 20世紀(jì) 80年代始,二分類選擇概率模型的估計方法在不斷完善,所以對選擇等式回歸系數(shù)γ的估計方法也在逐步發(fā)展。以下對文獻中所選用的方法作簡要介紹:
Cosslett首先通過應(yīng)用非參數(shù)最大似然估計 (nonparametric maximum likelihood estimator)來獲得選擇等式回歸系數(shù)^γ。Powell、Stock和Stoker選用的平均導(dǎo)數(shù)估計 (average derivative estimator)計算相對簡單,但是要求自變量是連續(xù)的。Kim和 Pollard選用最大得分估計 (maximum score estimation),但由于該法所獲估計量^γ不是連續(xù)和漸近正態(tài)的,故不能應(yīng)用標(biāo)準(zhǔn)的最優(yōu)化方法。為了避免最大得分估計量的不連續(xù)性,Horowitz提出光滑最大得分估計 (smoothed maximum score estimation)。盡管該估計量是一致和漸近正態(tài)的,但是窗寬的選擇相對困難〔7〕。此外,Ahn和 Powel選用非參數(shù) Kernel估計方法 (nonparametric kernel estimation method)要求選擇等式的誤差項是連續(xù)分布。Ichimura通過應(yīng)用對分布不作要求的半?yún)?shù)最小二乘法 (SLS)和加權(quán)半?yún)?shù)最小二乘法 (WSLS)不僅可獲得一致和漸近正態(tài)的^γ估計量,且可獲得協(xié)方差陣的一致估計〔8〕。另外,Klein和 Spady引入了輪廓似然估計法(profile likelihood estimator)來獲得選擇等式的回歸系數(shù),且所獲估計量是一致和漸近正態(tài)的,同時還可以計算出相應(yīng)的半?yún)?shù)可信區(qū)間。此外,該方法還可以解決多分類和有序分類的選擇問題〔9〕。
(2)校正項的估計
在獲得選擇等式回歸系數(shù)^γ的基礎(chǔ)上,如何估計校正項是比較棘手的。事實上,樣本選擇模型的半?yún)?shù)兩步估計難點就在于如何溝通選擇等式與結(jié)果等式之間的關(guān)系,即在未知分布的基礎(chǔ)上如何獲得校正項的一致估計。對于校正項的估計,眾多學(xué)者包括Heckman本人都做出了深入的研究:
Heckman和 Robb率先提出樣本選擇模型的半?yún)?shù)兩步估計。該法通過對選擇等式應(yīng)用非參數(shù)方法獲得回歸系數(shù)估計量^γ,然后進行傅里葉級數(shù)展開近似獲得校正項。Newey應(yīng)用類似的方法在獲得校正項的同時,還可以直接計算出結(jié)果等式的協(xié)方差陣〔10〕。Powell和 Robinson則是依據(jù)差分思想,比較結(jié)果等式中因變量存在缺失和不缺失對象的差別,來達(dá)到消除校正項的目的。而 Ahn和 Powell在此基礎(chǔ)上還引入了加權(quán)變量〔11〕。Ichimura與 Lee對選擇等式和結(jié)果等式的聯(lián)立方程,應(yīng)用迭代非線性最小二乘法,可獲得參數(shù)的一致估計。
綜合上述估計方法,Marcia Schafgans將半?yún)?shù)兩步估計歸納為:第一步,可選用多種半?yún)?shù)估計法如最大得分估計、光滑最大得分估計、輪廓似然估計、半?yún)?shù)最小二乘估計和平均導(dǎo)數(shù)估計等。由于最大得分估計量不是漸近正態(tài)的,光滑最大得分估計中參數(shù)窗寬的選擇比較困難,平均導(dǎo)數(shù)估計要求自變量是連續(xù)的,所以上述三種方法在實際應(yīng)用中并不推薦。而輪廓似然估計和半?yún)?shù)最小二乘估計則由于所獲估計量是一致和漸近正態(tài)的,所以在實際應(yīng)用中較為常見。第二步,存在以下兩種估計方法:(1)級數(shù)近似法該法利用第一步所獲的γ估計量進行級數(shù)近似來估計校正項后,應(yīng)用最小二乘來獲得參數(shù)一致估計量。(2)核回歸估計該法通過核回歸估計來獲取校正項,進行差分后構(gòu)造新的結(jié)果等式。
由于似然估計的計算需要占用大量時間,而兩步估計的計算相對簡單,所以最初對樣本選擇模型的估計方法常選用兩步估計。但是隨著計算機技術(shù)的發(fā)展和軟件包 (L IMDEP等)的開發(fā),兩步估計與似然估計在計算上所需的時間相差無幾,但是許多學(xué)者仍然選用兩步估計。這主要是由于兩步估計還具有似然估計所不具備的優(yōu)勢:①當(dāng)樣本含量很大和參數(shù)數(shù)目較多時,似然估計比兩步估計的計算仍要復(fù)雜很多,且樣本選擇模型的對數(shù)似然函數(shù)常常不是全局凹的,故無法保證似然函數(shù)的解是唯一的。②似然估計對于參數(shù)估計初始值的選擇是比較敏感的,常需要給出一個好的初始值才能獲得較好的估計量,而兩步估計可以為似然估計提供可靠和有效的初始值。③兩步估計比似然估計更穩(wěn)健。當(dāng)結(jié)果等式的因變量存在測量誤差時,似然函數(shù)常會被誤設(shè)以至于最大似然估計量不一致。然而,由于測量誤差會被吸收到結(jié)果等式的殘差項中,則所獲得的兩步估計量是一致。由于兩步估計與似然估計的比較中存在以上優(yōu)勢,所以兩步估計已成為計算樣本選擇模型參數(shù)估計量的標(biāo)準(zhǔn)程序,但該法仍存在需要完善的地方:
(1)共線性問題
盡管大多數(shù)應(yīng)用學(xué)者認(rèn)為樣本選擇模型兩步估計所獲估計量是完美的,但仍有部分學(xué)者基于兩步估計中存在的共線性問題而心存疑慮。事實上,許多統(tǒng)計學(xué)家對兩步估計中存在的共線性問題均給予了極大的關(guān)注,并提出了相應(yīng)的解決辦法。在樣本選擇模型的建模過程中,常發(fā)現(xiàn)選擇等式的自變量向量和結(jié)果等式的自變量向量常是類似甚至是相同的。由于兩者之間存在一定程度的相關(guān)性,且校正項在特定的取值范圍內(nèi)與選擇等式的自變量向量呈線性關(guān)系,那么結(jié)果等式的自變量向量與校正項間也存在某種程度的相關(guān)性,故對結(jié)果等式的估計極易產(chǎn)生共線性問題,而共線性問題又會導(dǎo)致較大標(biāo)準(zhǔn)誤以致所獲估計量不穩(wěn)定。
(2)異方差問題
如果隨機誤差項的方差不是常數(shù),即對不同的自變量觀測值彼此不同,則稱隨機項具有異方差性,這也是兩步估計過程中亟待解決的問題。兩步估計中,對結(jié)果等式標(biāo)準(zhǔn)誤估計是比較復(fù)雜的。由于樣本選擇模型要求兩等式殘差項不獨立,那么結(jié)果等式的方差很難退化為標(biāo)準(zhǔn)的方差 -協(xié)方差陣,且結(jié)果等式中常存在異方差性。顯而易見,結(jié)果等式中V(εi)并不是常數(shù)項,它是隨著選擇等式自變量向量和校正項的不同而不同。當(dāng)校正項已知時,擴大結(jié)果等式可以通過廣義最小二乘法來獲得。但是當(dāng)校正項未知且需要估計時,應(yīng)用上述方法就不再適合。因此,眾多學(xué)者都提出了解決辦法如“sandwich”估計法和自助法等〔12〕。盡管對標(biāo)準(zhǔn)誤的估計有多種解決措施,但是至今尚沒有公認(rèn)最優(yōu)的方法,故在實例分析中,多數(shù)應(yīng)用學(xué)家仍傾向于直接應(yīng)用兩步估計的漸近協(xié)方差陣來獲取標(biāo)準(zhǔn)誤。此外,由于異方差與分布假設(shè)緊密相關(guān),所以在對分布不作要求的半?yún)?shù)兩步估計中,異方差問題的解決也是比較棘手的。
在醫(yī)療費用調(diào)查研究中,每個病人常要面臨住院與否這樣的二分類選擇,而且還要對多種醫(yī)學(xué)檢查如尿檢、血檢、X線和 CT檢查等作出決策,這就意味著樣本選擇模型中選擇等式的因變量可能為多分類的,可構(gòu)建成多分類 probit(polychotomous probit)或多項logit(multinomial logit)模型。盡管我們可以將選擇等式構(gòu)建成有多分類因變量的離散選擇模型,但是如何反映選擇等式與結(jié)果等式的聯(lián)系將是很困難的。因此,如何將樣本選擇模型與離散選擇模型相結(jié)合可能會是該方法在醫(yī)學(xué)應(yīng)用問題中需解決的發(fā)展方向之一。
3.社會實踐 PBL法
單純的課內(nèi)加強實踐教學(xué)編排并不能讓學(xué)生馬上就會解決實際問題,還要定期組織學(xué)生上課期間或假期積極參與社會實踐活動,并對學(xué)生在課堂上學(xué)會的基本理論進行實際應(yīng)用指導(dǎo),培養(yǎng)學(xué)生對實際問題的判斷能力,縮短學(xué)生學(xué)習(xí)理論與實際工作應(yīng)用的時間,從而為社會培養(yǎng)出實用型人才。我們在臨床本科專業(yè)采用了“指定式”社會實踐 PBL法,即指定調(diào)查方向,實踐前一到兩周教師將相關(guān)資料分發(fā)給學(xué)生,要求學(xué)生根據(jù)所提出的問題去調(diào)查、獲取和分析數(shù)據(jù)并撰寫論文;而在預(yù)防醫(yī)學(xué)本科和勞動與社會保障專業(yè)采用“查閱文獻 -開題報告 -討論審核 -具體實施 -統(tǒng)計分析 -形成論文”這一完整的科研模式,讓學(xué)生圍繞問題從調(diào)查單位和對象的確定、樣本的抽取、問卷的編寫、發(fā)放、回收與審核、數(shù)據(jù)的錄入、整理與分析、直到論文的撰寫。這樣,學(xué)生經(jīng)過親身參與統(tǒng)計設(shè)計與調(diào)查、收集、整理和分析的整個過程,就比較系統(tǒng)地掌握了統(tǒng)計工作的各個環(huán)節(jié)。經(jīng)過社會實踐活動,醫(yī)學(xué)生接觸和參與了實際的醫(yī)學(xué)科研工作,既拓展了科學(xué)視野、鍛煉了實踐能力、激發(fā)了探索和學(xué)習(xí)的熱情,又增強了學(xué)生運用統(tǒng)計知識處理實際問題的能力,更有利于培養(yǎng)醫(yī)學(xué)生嚴(yán)謹(jǐn)?shù)目蒲兴季S,使學(xué)生畢業(yè)后很快融入到實際工作中去。
我們利用上述 PBL實踐教學(xué)法在我院臨床、預(yù)防、市場營銷和勞動與社會保障四個本科專業(yè)學(xué)生中試行。不僅提高了學(xué)生自主查閱資料、獲取信息的能力,拓寬了學(xué)生的知識面,還提高了學(xué)生統(tǒng)計邏輯思維和綜合分析的能力,并使學(xué)生在 PBL實踐中學(xué)會與他人進行有效的溝通、交流與合作,改革效果初現(xiàn)??偟膩碚f,PBL模式的實踐教學(xué)激勵了學(xué)生實踐的主動性、積極性和創(chuàng)造性,推進了學(xué)生自主學(xué)習(xí)、合作學(xué)習(xí)和研究型學(xué)習(xí)。也鮮明地顯示了實踐課在培養(yǎng)學(xué)生創(chuàng)新意識、綜合實踐能力與科研能力,培養(yǎng)現(xiàn)代化應(yīng)用型人才中的重要作用。PBL教學(xué)效果并非是一個短期效應(yīng),它對學(xué)生解決實際問題能力的培養(yǎng)需要一個長期的過程,而這種能力一旦形成則終身受益。
1.葉小華,部艷暉,李麗霞,等.信息時代提高醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)質(zhì)量的探索.醫(yī)學(xué)教育探索,2008,7(2):138-139.
2.孫亞林,賀佳,吳騁,等.構(gòu)建《醫(yī)學(xué)統(tǒng)計學(xué)》課程群的實踐探索.西北醫(yī)學(xué)教育,2008,16(6):1166-1168.
3.張羅漫,孟虹,孫亞林,等.信息化條件下《醫(yī)學(xué)統(tǒng)計學(xué)》分層次多目標(biāo)教學(xué)探索與實踐.中國衛(wèi)生統(tǒng)計,2009,26(3):311-312.
4.閆國立.中醫(yī)院校醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)改革的探索與實踐.中醫(yī)藥管理雜志,2008,16(11):834-835.
5.王春平,王汝芬,翟強.多媒體技術(shù)在醫(yī)學(xué)統(tǒng)計學(xué)教學(xué)中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2006,23(3):266-267.
6.Bhattacharya N,Shankar N,Khaliq F,et al.Introducing p roblem-based learning in physiology in the conventional.Indian M edical Curriculum.Natl M ed J India,2005,18(2):92-95.
7.鄧海燕,姚良悅,馬蓉.PBL教學(xué)模式在護理教學(xué)中的應(yīng)用探討.護理研究,2008,22(1):262-264.
8.胡良平,劉惠剛.統(tǒng)計學(xué)的三型理論及其在生物醫(yī)學(xué)科研中的應(yīng)用.中華醫(yī)學(xué)雜志,2005,85(27):1936-1940.