儲慶,羅強強
(1.中央民族大學民族學與社會學學院,北京100081;2.安慶師范學院,安徽安慶246133)
邏輯斯特模型在社會學量化研究中的應(yīng)用
儲慶1,2,羅強強1
(1.中央民族大學民族學與社會學學院,北京100081;2.安慶師范學院,安徽安慶246133)
隨著對社會科學研究科學性要求的不斷提高,越來越多的學者開始使用量化方法進行社會科學研究。從發(fā)表于國內(nèi)學術(shù)雜志的一些量化研究文章來看,存在著諸多對量化研究的誤解和一些對統(tǒng)計模型使用和解釋上的偏差。文章以社會科學研究中最為常用模型—邏輯斯特模型為例,詳細解析了模型使用前提和參數(shù)意義,避免了科學方法的誤用。
科學方法;線性回歸;邏輯斯特;社會學
縱觀社會學學科重建30年來的發(fā)展,可以看出社會學研究中的科學性在不斷加強,尤其是從近七、八年來發(fā)表在《中國社會科學》、《社會學研究》中的社會學論文更可以看出這一明顯的趨勢。雖然很多研究者在實際研究中使用的一些統(tǒng)計模型,但是仔細研讀這些論文,還是會發(fā)現(xiàn)很多作者對一些模型的前提假設(shè)并不甚了解,對一些模型參數(shù)的實質(zhì)意義與統(tǒng)計意義的區(qū)分比較模糊,這樣導致一些明顯有誤的解釋。本文將以在社會學量化研究中最為常用的模型之一邏輯斯特(Logistic)模型為例,系統(tǒng)分析社會學量化研究中模型使用的前提和參數(shù)的實際意義,避免科學方法的誤用。
回歸分析是一種利用兩個變量或幾個變量之間的關(guān)系,從而一個變量(因變量、響應(yīng)變量、結(jié)果變量)能被另一個或幾個變量(自變量、解釋變量、預(yù)測變量)所預(yù)測。線性回歸就是用一條直線來擬合一個變量與另一個或幾個變量之間的關(guān)系。線性回歸分析也是對數(shù)據(jù)的一種簡化。在線性回歸分析中,研究者利用自變量的一個線性函數(shù)來盡可能地預(yù)測因變量的一批觀測值。顯而易見,這種預(yù)測不可能完全準確。從形式上看,回歸分析將觀測值分解為兩個部分[1]:
因變量的實際觀測值=回歸線性方程所解釋的部分+隨機部分
回歸線性方程解釋的部分是研究者認為自變量與因變量之間存在的結(jié)構(gòu)關(guān)系,隨機部分包括現(xiàn)有方程中未能包括的其它結(jié)構(gòu)關(guān)系、測量誤差和“噪音”。對于個觀測值有:
對于方程(1)來說,xiβ相當于回歸線性方程所解釋的部分,亦即研究者假設(shè)的自變量與因變量的結(jié)構(gòu)關(guān)系,εi為隨機部分。方程(1)是對所有觀測值的完全擬合,而研究者的目的在于對復雜社會現(xiàn)象的簡化,因此方程(1)只有理論意義,而無實際意義。
對于實際研究來說,不是預(yù)測具體的個觀測值,而是對一定條件下yi均值的預(yù)測,即E(y|xi)。為了簡化模型,必須對(1)式進行一些必要限制。
(1)隨機部分的期望為零,即E(εi)=0;
(2)隨機部分的協(xié)方差為零,即Cov(εi,εj)=0,i≠j;
(3)隨機部分等方差,即Var(εi)=σ2;
(4)隨機部分服從正態(tài)分布,即εi~N(0,σ2)。
在上述四項假定的情況下,我們可以得到關(guān)于E(y|xi)數(shù)學方程式:
由于因變量Y是隨機變量εi的線性函數(shù),因此對εi的基本假定均適用于Y,只是Y的均值和方差與εi不一樣而已。
線性回歸模型以其簡潔性和解釋的方便性,在實際生產(chǎn)生活中有著廣泛的應(yīng)用。利用線性回歸分析,可以對數(shù)據(jù)進行描述,對生產(chǎn)過程進行控制和預(yù)測。在應(yīng)用線性回歸模型時,研究者應(yīng)對線性回歸模型的假定條件保持足夠警醒?,F(xiàn)實中的大多時候研究不能直接應(yīng)用線性回歸模型,需要對數(shù)據(jù)進行一定的變換。實際研究中,線性回歸模型的局限性主要表現(xiàn)在兩個方面。
(1)模型的基本假定不足
線性回歸模型最為基本的前提條件就是因變量與自變量之間的關(guān)系是線性。這一點在社會科學中不一定滿足。比如工作年限對收入的影響就不是線性,剛工作時收入會隨著工作年限的增長而增加,但到一定工作年限后收入會隨著年齡的增長而下降,這是一個二次曲線關(guān)系。線性回歸模型還假定因變量(也即殘差)之間互相獨立,且服從同一分布。在實際社會現(xiàn)象中,這項假定中的一項或幾項常常不滿足。比如社會科學中最為常見的收入變量,顯而易見的是剛開始參加工作的時候人們之間的收入差異比較小,工作一定年限后人們之間的收入差異會加大——收入作為因變量不符合等方差的假設(shè)。遇到類似不符合線性回歸模型基本假定的時候,處理的思路有二:一是采用其它模型擬合數(shù)據(jù);二是通過對數(shù)據(jù)進行適當?shù)霓D(zhuǎn)換,以使其符合線性回歸模型的基本假定。由于線性回歸模型具有的簡潔性和解釋的便利性,在可能的情況下,研究者都是采用后一種處理策略。比如對第一種情況,可以在工作年限變量上加上二次項,對于后一種情況,可以對收入取對數(shù)。如設(shè)收入為因變量y,工作年限為自變量x,若直接應(yīng)用線性回歸有:
顯然(3)式不符合線性回歸的基本假定,為使其符合線性假定,作如下變換有:
令y'=1ny,x1=x,x2=x2,則有:
式(5)即是標準的線性回歸方程。
(2)與社會現(xiàn)象的實際狀況不符
所謂與社會現(xiàn)象的實際狀況不符常常是與線性回歸模型的基本假定不符聯(lián)系在一起的。這種與社會現(xiàn)實狀況的不符,正是社會科學研究中廣泛采用Logistic模型的原因之一。由線性回歸方程可以看出,對因變量Y的取值沒有任何限制,即Y的取值區(qū)間在[-∞,+∞]。但是,研究者所關(guān)注的一些社會現(xiàn)象常常是“是”和“否”的問題,即0和1變量。比如研究人們的婚姻意愿,研究者關(guān)心的結(jié)果只有兩個取值:結(jié)婚和不結(jié)婚。在此情況下,若強行應(yīng)用線性回歸模型,有可能使因變量取值超出[0,1]的取值區(qū)間,沒有實際意義。面對這種情況,同樣有兩種方式出來:一是換模型,二是進行數(shù)據(jù)轉(zhuǎn)換。社會學研究中,最為常用的是進行邏輯斯特(Logit)轉(zhuǎn)換。
Logit模型廣泛應(yīng)用于社會科學和生物科學中,在人口學和流行病學研究時,對某一因素對某些結(jié)果的相對風險的評估中尤其有用。邏輯斯特轉(zhuǎn)換可以解釋為成功對失敗之發(fā)生比的對數(shù),下面將從最簡單的二分類變量開始對這一模型進行探討。
2.1.1 Logit轉(zhuǎn)換
在社會科學研究中,研究者面對的因變量很多時候是分類變量。最常見的分類變量就是二分類變量,又稱(0,1)變量。習慣上二分類變量的結(jié)果通常被描述為成功或失敗,比如一個高中畢業(yè)生能否上大學:上大學了就是成功,賦值為1,未能上大學認為是失敗,賦值為0。對于二分類因變量,研究者的目標是以一組自變量為條件來估計或預(yù)測成功或失敗的概率。這樣問題就轉(zhuǎn)化為,對概率p的回歸分析。
由于概率取值區(qū)間是[0,1],因此直接對概率進行線性回歸肯定不合適。這就要求能通過某種方式,對概率p進行轉(zhuǎn)換,使得轉(zhuǎn)換后的一個關(guān)于概率p的函數(shù)符合線性回歸的基本假定,從而進行(廣義)線性回歸分析。Logitic回歸模型就是對概率p進行Logit轉(zhuǎn)換,轉(zhuǎn)換的公式為:
公式(6)可以看作廣義線性模型框架內(nèi)的一個鏈接函數(shù),得到的Logti模型為:
對(7)式進行變換,即可得到概率p:
經(jīng)過Logit轉(zhuǎn)換后,對于x和β的所有可能取值,概率p始終在區(qū)間[0,1]內(nèi)。隨著p接近0,Logit(p)趨近于-∞;隨著p接近1,Logit(p)趨近于+∞。使用一般化線性模型理論的術(shù)語,則Logit鏈接使模型在未知參數(shù)上呈現(xiàn)線性形式。
2.1.2 比數(shù)、比數(shù)比和相對風險
從一般線性回歸模型的角度來思考,則得到事件的概率即8式后,似乎研究者的工作已經(jīng)結(jié)束。Logistic回歸模型之所以在社會科學得到非常廣泛的應(yīng)用,一個重要的原因在于logit(p)可以很容易的擴展為用來描述某一群體相對于另一群體的成功的比數(shù)之比。
⑴比數(shù)
在社會科學研究中,研究的興趣可能并不主要在于事件發(fā)生的概率。比如還以前述上大學為例,研究的目的不在于一個人上大學的概率是多少,更令人感興趣的問題時上大學與不上大學的兩組人之間比較。上大學與不上大學的概率比為pi/(1-pi),由1.6式可知,這恰好是logit轉(zhuǎn)換。比數(shù)定義為一個結(jié)果的概率對另一個結(jié)果的概率之比,公式為:
⑵比數(shù)比
線性回歸模型的目的是在于用自變量來預(yù)測因變臉。線性回歸模型得到極大的采用,就在于回歸系數(shù)解釋的簡潔性和實質(zhì)性意義:在保持其它自變量不變的情況下,回歸系數(shù)代表某一自變量增加一個單位因變量的增加量。Logistic回歸模型中的系數(shù)是否也具有類似的意義呢?
假設(shè)要研究性別與個人是否上大學的關(guān)系,Logit模型如下:
p為上大學的概率,xsex為性別,男性=1,女性=0,βkxk為其它控制變量。
研究者關(guān)注的是男女兩性在上大學這一事件上是否有差異。分別令xsex=0和1,可以得到關(guān)于男性和女性上大學的對數(shù)比數(shù)的線性回歸方程:
為得到男性與女性上大學的差異,將(12)式減去(11)式,有:
對(13)式進行變換:
ωm/ωf即為比數(shù)比,比數(shù)比具有與線性回歸系數(shù)類似的意義:在保持其它變量不變的情況下,男性上大學的比數(shù)是女性上大學的比數(shù)的expβ1倍。
⑶相對風險
比數(shù)比是與相對風險概念密切聯(lián)系在一起,從理解上來說,相對風險的概念要比比數(shù)比的概念更為直觀,更容易理解。風險是指在一定時間間隔內(nèi)(通常稱之為暴露期——explore)的概率。比如,假設(shè)100個人抽煙的人處在患肺癌的風險之中,觀察10年,發(fā)現(xiàn)有15人得了癌癥,則風險是15/ 100,或0.15。假定要研究抽煙與肺癌之間的關(guān)系,前述觀察的100人均分為兩組,結(jié)果發(fā)現(xiàn)控制組(戒煙)得肺癌的有5人,實驗組(不戒煙)得肺癌的10人,則可以兩組患肺癌的相對風險為:
若以前述的比數(shù)比的概念構(gòu)造,則為:
事件發(fā)生的概率很小的時候,即r戒煙→0,r不戒煙→0,比數(shù)比將非常接近于相對風險。而在生物統(tǒng)計學和流行病學中的患病研究時,患病率一般來說都是非常小的,因此比數(shù)比的概念得到了廣泛的應(yīng)用。對于社會科學的研究者來說,弄清楚相對風險的概念,有益于加深對比數(shù)比涵義的理解。
前面討論的只是二分類變量的Logit模型,從思路來說很容易將之擴展到一般分類變量(分類類別≥3)的情況,需要注意是,當涉及到3個或以上的分類時,需要考慮這些類別之間是否包含序次信息。
2.2.1 多分類定類變量的Logit回歸模型
假設(shè)因變量分為三個類別,三個類別的概率分別記為:p1,p2,p3。與二分類變量略微不同的是,對于多分類變量,研究者需要先確定一個參照組。為不失一般性,這里制定第一類別為參照組。則可以建立多項邏輯斯特回歸模型:
系數(shù)的解釋與二分類變量類似,只是此事的比數(shù)比是相對于參照組的比數(shù)比。
2.2.2 多分類定序變量的Logit回歸模型
當分類變量是定序變量時,當然也可以不考慮其包好的次序信息,直接應(yīng)用上述定類變量的Logit回歸模型??紤]變量自身的次序信息后,可以有三中稍微不同的處理方式。
⑴基線Logit模型
基線Logit模型實質(zhì)與定類的Logit模型一樣,只是在選擇參考類別時,會考慮到序次信息,一般選擇最低或最高序次作為參照。
⑵相鄰Logit模型
相鄰Logit模型的基本想法是比較一對相鄰的類別,一般式可以表達為:
⑶累積Logit模型
累積Logit模型是用累積概率來計算比數(shù),以某一類別為分界點,計算其上的概率與其下的概率的比率,一般表達式為:
以上只是從便于理解和實際應(yīng)用的角度,對邏輯斯特模型在社會學量化研究中的分析。在分析的過程中,筆者的分析始終圍繞兩方面來進行。第一,構(gòu)建模型的目的是什么,或者說模型的適用范圍是什么?第二,這一模型解決問題的基本思路是什么?至于模型背后復雜的數(shù)學推導過程,則不在本文論述之列。這兩點本質(zhì)上也是對利用模型進行量化研究的研究者的根本要求。研究者只有明了模型前提條件和基本思路,才能在實際科學研究中應(yīng)用自如。否則,只能是照貓畫虎,得出一些令人啼笑皆非的所謂研究發(fā)現(xiàn)。
在終極的分析中,一切知識都是歷史;在抽象的意義下,一切的科學都是數(shù)學;在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計學(C.R.勞,2004:2)。不僅是社會學的量化研究,可以說所有的科學研究,在其最為本質(zhì)的意義上都是對復雜的社會現(xiàn)象進行簡化和抽象。因此,在構(gòu)建模型的時候,不能本末倒置:社會現(xiàn)象本身是“本”,模型是“末”。換句話說就是,模型只是對現(xiàn)有觀測數(shù)據(jù)的一種擬合——即使模型對數(shù)據(jù)完全擬合,也可能該模型是對現(xiàn)象本身的歪曲。
[1][美]丹尼爾·A.鮑威斯(Daniel A.Powers),謝宇[M].分類數(shù)據(jù)分析的統(tǒng)計方法,2009.
[2]郭志剛主編.社會統(tǒng)計分析方法——SPSS軟件應(yīng)用[M].北京:中國人民大學出版社,1999.
[3]王濟川,郭志剛.Logistic回歸模型:方法與應(yīng)用[M].北京:高等教育出版社,2001.
[4][美]C.R.勞.統(tǒng)計與真理——怎樣運用偶然性[M].北京:科學出版社,2004.
[5]王靜龍,梁小筠編著.定性數(shù)據(jù)統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,2008.
[6]張堯庭等編著.定性資料的統(tǒng)計分析[M].廣西師范大學出版社,1991.
[7]Darrell Huff.How to Lie with Statistic[M].New York:W.W.Noton &Compand,1993.
[8]Kutner.AppliedLinearRegressionModels(4thEdition)[M].New York:McGraw-Hill Companies,2004.
(責任編輯/浩天)
C91
A
1002-6487(2011)05-0023-03
教育部人文社會科學研究資助項目(09YJC850006)
儲慶(1981-),男,安徽岳西人,博士生,研究方向:社會學理論與方法。
羅強強(1981-),男,寧夏西吉人,博士生,研究方向:環(huán)境社會學。