張春麗 邱佳玲 陳 莎 劉仲琦 古羽舟 魯永恒 鄧瑜,6 郝春,6△ 郝元濤,6
【提 要】 目的 簡要介紹離散選擇實驗的設(shè)計步驟和潛類別分析模型的基本原理,通過實例演示介紹潛類別logit模型在Stata中的實現(xiàn)過程,為該模型在離散選擇實驗中的實際應(yīng)用提供方法學(xué)的參考。方法 基于廣州市艾滋病高危人群選擇HIV自檢試劑偏好的離散選擇實驗數(shù)據(jù),通過實例演示潛類別logit分析模型的構(gòu)建過程,并提供相應(yīng)的Stata命令。結(jié)果 最終確立了4個類別模型為最優(yōu)分類,模型估計結(jié)果顯示4個類別模型中類別1(偏好尿液試劑),類別2(偏好更便宜的血液試劑配套說明書講解和自行判讀結(jié)果),類別3(偏好更便宜的尿液試劑),類別4(偏好血液試劑配套視頻講解和專業(yè)人員判讀結(jié)果)的差異具有統(tǒng)計學(xué)意義。結(jié)論 潛類別logit模型用于離散選擇實驗數(shù)據(jù)的分析具有簡便性與靈活性,但也有其應(yīng)用的局限性,因此需要進一步結(jié)合其他模型來優(yōu)化分析。
離散選擇實驗(discrete choice experiment,DCE)是一種多因素變量的分析方法,目前已廣泛用于市場研究、運輸經(jīng)濟學(xué)、心理學(xué)以及衛(wèi)生服務(wù)利用等領(lǐng)域,以了解個體偏好。而個體對于某一商品或者服務(wù)的偏好可分為基于現(xiàn)實場景的顯示性偏好和基于假設(shè)場景的聲明偏好,顯示性偏好即在實際生活中對于已經(jīng)確定屬性特征的商品或者服務(wù)的偏好,例如出行時對交通工具的選擇。而在聲明偏好中,商品或者服務(wù)的屬性特征組合是假定的,例如某運營商提前設(shè)置了假定的套餐A和套餐B來調(diào)查客戶對話費的選擇偏好。衡量顯示性偏好常用的為傳統(tǒng)問卷調(diào)查,而離散選擇實驗則是衡量聲明偏好的典型方法,其可以提供影響決策者選擇的各種商品或者服務(wù)特征相對重要性的定量信息[1]。
對于離散選擇實驗數(shù)據(jù)的分析,目前常用的有基礎(chǔ)的多項logit模型(multinomial logit model,MNL)、混合logit模型(mixed logit model,MXL)和潛類別logit模型(latent class model,LCL)等。在應(yīng)用研究中,傳統(tǒng)的多項式logit模型需要遵循無關(guān)選擇獨立性(independence of irrelevant alternatives,IIA)假設(shè),即刪除或者添加因變量中的類別不會影響剩余類別的選擇概率,然而在實際情景中,參與者做出的選擇決策之間往往呈現(xiàn)出一定的相關(guān)性,會違背IIA假設(shè),因此多項式logit模型已經(jīng)不適用于現(xiàn)實情況的分析,也無法處理隨機偏好差異[2]。但解釋個體選擇偏好的差異至關(guān)重要,即一些人比另一些人會更關(guān)心特定的產(chǎn)品屬性[3]。并且了解目標(biāo)群體對特定商品或者服務(wù)的偏好異質(zhì)性有助于決策者調(diào)整和多樣化他們的項目,以更好地匹配目標(biāo)人群的需求[4],因此選擇其他的logit模型才能使得分析更加精細化?;旌蟣ogit模型和潛類別logit模型則能彌補該方面的不足,但混合logit模型需要事先假定參數(shù)的分布形式,從而導(dǎo)致在應(yīng)用中受到限制。而潛類別logit模型則不需要對參數(shù)進行任何假設(shè),其從群體層面解釋異質(zhì)性,尤其在關(guān)于人群細分的研究中成為主流方法[5]。
社會科學(xué)領(lǐng)域一些比如智力、人格、社會經(jīng)濟地位等概念往往不能直接測量,這些變量被稱為潛變量,根據(jù)其分布形態(tài)可以分為連續(xù)型和離散型,當(dāng)潛變量為連續(xù)型時,可根據(jù)外顯變量是連續(xù)型和離散型分為因素分析和潛特質(zhì)分析;當(dāng)潛變量為離散型時,則根據(jù)外顯變量是連續(xù)型和離散型分為潛剖面分析和潛類別分析。潛類別模型是通過構(gòu)建潛變量估計外顯指標(biāo)間的關(guān)聯(lián),并對目標(biāo)人群分類[6],進而解釋研究對象群體的異質(zhì)性對于外顯指標(biāo)的影響[7],其假設(shè)潛變量X有t(t=1,2,…,T)個類別,A、B、C是三個外顯變量,且其水平數(shù)分別為I,J,K,可以表示為:
(1)
潛類別logit模型是基于潛類別模型的理論將人群細分后,結(jié)合多項式logit的似然函數(shù)進行偏好參數(shù)的估計,即基于偏好中未觀察到的或“潛在的”異質(zhì)性來識別參與者類別[10],考慮了每個對象做出的多種選擇,并根據(jù)他們的選擇模式隨機分配其到有限的C類集合中(其中C是類別總數(shù))。在同一類別內(nèi)[11],參與者被假定偏好相同,而在類別及其亞組間有不同偏好,并且每個類別都有自己特定的偏好參數(shù)(效用函數(shù)),β=(β1,β2,…,βC)[12]。分析過程主要包括最優(yōu)模型構(gòu)建、模型擬合以及參數(shù)估計與解釋。
在經(jīng)驗應(yīng)用中,通常通過檢驗信息準(zhǔn)則(如貝葉斯信息準(zhǔn)則(BIC)和一致性Akaike信息準(zhǔn)則(CAIC))來選擇最優(yōu)的潛類別數(shù),BIC=-2lnL+mlnN,CAIC=-2lnL+m(1+lnN),其中l(wèi)nL是最大樣本對數(shù)似然,m是擬合模型參數(shù)的總數(shù),N是所研究數(shù)據(jù)集中的決策者數(shù)。BIC和CAIC通過使用隨決策者數(shù)量N增加而增加的補償函數(shù),對具有額外參數(shù)的模型進行更嚴(yán)厲的補償。BIC和CAIC均建立在似然比卡方檢驗基礎(chǔ)之上,可用于比較對參數(shù)進行不同限制的模型,兩者均以越小表明適配度越好[13-14]。
為了更好地解釋潛類別logit模型,在這里先簡單介紹傳統(tǒng)多項式logit的建模,理論基礎(chǔ)為隨機效用理論,其效用函數(shù)Uij可以表示為:
Uij=Vij(β)+εij
(2)
Uij表示個體i選擇備選方案j的效用,其中i=1,…,n;j=1,…,k。Vij(β)是解釋變量的參數(shù)線性組合,β是一個參數(shù)向量,εij是誤差項,是服從Gumbel分布的隨機變量,則個體i選擇方案j的概率為[15]:
(3)
最大似然法(maximum likelihood,ML)可估算得到方程(2)中的系數(shù),來表示各因素對選擇偏好的影響。
潛類別logit模型也主要采用最大似然法進行參數(shù)估計,其迭代過程常用的算法有EM(expectation-maximization)、NR(Newton Rapson)等算法,其中 EM 算法最為常用。潛類別logit模型構(gòu)建如下:在類別C中,假設(shè)決策者n(n=1,2,3,…,N)在每個假設(shè)場景T中都面對J個備選。ynjt表示一個二元變量,如果決策者n在假設(shè)場景t中選擇備選j,則該變量等于1,否則等于0。在場景t中可供決策者選擇的備選j被具有K個屬性的xnjt所描述。βC為K系數(shù)的列向量,可以解釋為xnjt中相應(yīng)條目的邊際效用。則決策者n的T個選擇的聯(lián)合概率Pn為[14,16]:
(4)
使用潛類別logit模型對離散選擇實驗數(shù)據(jù)進行估計,會得出該類人群對所關(guān)注商品或服務(wù)某一特征屬性的選擇偏好參數(shù)β,β=(β1,β2,…,βC),數(shù)值為正,表示相對于參照水平,更偏好于選擇當(dāng)前水平;數(shù)值為負,則表示更傾向于選擇參照水平,從而可了解每一類人群的選擇偏好。
離散選擇實驗的設(shè)計步驟主要有[18]:(1)確定商品或者服務(wù)的屬性及其水平;(2)構(gòu)建選擇集及其選項方案,形成DCE問卷;(3)數(shù)據(jù)收集與整理;(4)統(tǒng)計分析與結(jié)果解釋。本研究確定了HIV自檢試劑盒的4個屬性,3個2水平,1個4水平,分別為樣本類型包括血液和尿液,操作說明方式包括說明書和視頻講解,結(jié)果判讀方式包括自行判讀和專業(yè)人員判讀,價格包括0元、20元、50元和80元。通過部分因子設(shè)計創(chuàng)建了8個選擇集(選擇集的創(chuàng)建參考文獻[18]),每個選擇集含有兩個選項方案。表1展示了經(jīng)過以上設(shè)計而產(chǎn)生的一個選擇集及其兩個選項方案試劑盒A和試劑盒B的示例,其他7個選擇集差別在于兩個選項即試劑盒類型的不同,比如下一個選擇集其兩個選項可能為試劑盒C與D。調(diào)查在廣州市嶺南伙伴社區(qū)HIV檢測咨詢服務(wù)點開展,最終收集問卷200份。
表1 離散選擇實驗設(shè)計的選擇集示例
傳統(tǒng)的數(shù)據(jù)即寬型數(shù)據(jù),其排列格式為一行數(shù)據(jù)對應(yīng)一個樣本,如表2,在第一個樣本中(PID),收入取值為2(5000~10000元),選擇集1的選擇為1(試劑盒A),選擇集2選擇為2(試劑盒D)。同理第二行對應(yīng)第二個樣本的相應(yīng)各變量取值。而在離散選擇實驗中,寬型數(shù)據(jù)無法展示商品或者服務(wù)的屬性變量,如HIV檢測試劑盒的樣本類型(血液或者尿液),并且因變量為8個選擇集的選擇結(jié)果,在寬型數(shù)據(jù)中只能橫向排列,在一列中無法進行體現(xiàn),因此需要整理成長型數(shù)據(jù),以本研究為例(文件:DCE樣本數(shù)據(jù).dta),整理形式見表3,一個樣本對應(yīng)多行數(shù)據(jù)。前兩行則表示PID為1的樣本,在GID為1的選擇集(包含兩個選項1和2)中進行選擇,兩個選項為試劑盒A和試劑盒B,根據(jù)表2中兩個試劑盒的配套情況,則可得試劑盒A對應(yīng)第一行,其血液、說明書與自行判讀幾個變量的值為1,價格變量的值為0元,而第二行對應(yīng)試劑盒B。在表3倒數(shù)第二列也即模型的因變量中,第一行的值是1,第二行是0,說明選擇了試劑盒A,同樣第三、四行對應(yīng)選擇集2中試劑盒C與D。一個體(PID)會在相同的8個選擇集(GID)中選擇,因此一個樣本會產(chǎn)生8×1×2=16行數(shù)據(jù),并且PID為9~16的選擇集的各試劑盒屬性是PID為1~8的重復(fù),不隨個體變化。其中HIV試劑盒屬性中樣本類型(血液和尿液)、操作說明方式(視頻講解和說明書)和結(jié)果判讀方式(自行判讀和專業(yè)人員判讀),均是無序二分類變量,因此進行了虛擬變量設(shè)置(即血液的取值為1,尿液的取值則為0),并將其中一個分類作為參照,模型分析時僅代入非參照類別。價格是連續(xù)性變量可直接代入。個體屬性收入會隨PID變化。(附:本研究所用數(shù)據(jù)與代碼鏈接:https://pan.baidu.com/s/1CycvmsY-wtKVw70o_uptlg,提取碼:zsdx)
表2 傳統(tǒng)寬型數(shù)據(jù)的形式
表3 離散選擇實驗長型數(shù)據(jù)排列格式示例
(1)最優(yōu)模型的建立
該過程使用Stata的外部命令lclogit來實現(xiàn),其返回列表中保存了信息標(biāo)準(zhǔn)BIC和CAIC。表4列出了6種分類模型的適配估計指標(biāo),Classes為類別數(shù),若Classes為3,表示根據(jù)某種潛在特征將研究對象分為3個類別,Classes最小為2,可以看到當(dāng)分類模型的類別數(shù)目越多,BIC與CAIC的值逐漸減少,到Classes為5時又開始上升,在Classes為4時CAIC與BIC均到達最小,分別為1276.306和1254.306。因此考慮可選擇4個類別作為最優(yōu)分類模型。
表4 Stata輸出模型分類數(shù)目及其適配估計指標(biāo)
確定了最優(yōu)分類模型后,接下來調(diào)用Stata的另一個外部命令lclogit2[16]來估計最優(yōu)分類模型即4個類別模型中類別1~4(Class 1~4)對應(yīng)的模型估計系數(shù)和類別分布比例。模型估計系數(shù)為正,則說明該類別人群對于HIV自檢試劑屬性水平的偏好可能大于其參照;系數(shù)為負,則可能更偏向于參照;價格的系數(shù)為負,表明可能更傾向于便宜的試劑。以樣本類型為例,Class 1的系數(shù)為1.611,說明相對于血液,該類人群可能更加偏向于尿液。價格的系數(shù)在4個分類中均為負,說明了Class 1~4都可能更愿意選擇便宜的試劑。同時還可以知道200個參與者在Class 1,Class 2,Class 3和Class 4中的分布比例分別為0.222,0.602,0.124和0.052,詳見表5。與潛類別logit模型每個解釋變量對應(yīng)每個類別都會有其參數(shù)估計值不同的是,多項式logit模型沒有對研究群體進行類別區(qū)分,參數(shù)估計建立在整個人群上,每個解釋變量只對應(yīng)一個參數(shù)。
表5 4類別模型對HIV檢測試劑各屬性水平偏好的參數(shù)估計及類別分布比例
(2)參數(shù)估計及解釋
前面初步得出了每一類別各屬性特征的模型估計參數(shù),同包括多項式logit在內(nèi)的其他logit模型相同,選擇偏好是否具有顯著性差異還需要對值與參數(shù)的P置信區(qū)間進行估計,可通過Stata中的lclogit2ml命令來進行,結(jié)果如表6,可以得出對樣本類型的偏好差異,Class 1(β=1.611,95%CI:1.108~2.113,P<0.001)和Class 3(β=1.830,95%CI:0.336~3.324,P=0.016)更愿意選擇尿液,而Class 2(β=-1.772,95%CI:-2.490~-1.054,P<0.001)和Class 4(β=-5.993,95%CI:-9.190~-2.796,P<0.001)更傾向于血液;對于操作說明方式,Class 2更愿意選擇說明書(β=1.893,95%CI:1.028~2.758,P<0.001),而Class 4則偏向于選擇視頻講解(β=-2.582,95%CI:-4.866~-0.297,P=0.027);而在結(jié)果判讀方式上,Class 2更愿意選擇自行判讀(β=-1.404,95%CI:-2.593~-0.214,P=0.021),而Class 4則偏好選擇專業(yè)人員判讀(β=2.364,95%CI:0.168~4.561,P=0.035);在價格方面,Class 2(β=-0.046,95%CI:-0.062~-0.030,P<0.001)和Class3(β=-0.044,95%CI:-0.088~-0.001,P=0.045)均更加傾向于便宜的試劑。
表6 HIV自檢試劑各屬性水平偏好的潛類別logit模型估計
而根據(jù)表5結(jié)果可知Class 1(22.2%)和Class 2(60.2%)人群占比較高,提示了這兩類艾滋病高危人群尿液和血液自檢試劑偏好提供配套的服務(wù)特征:Class 1偏好尿液自檢試劑配套視頻講解并由專業(yè)人員判讀的服務(wù);Class 2偏好血液自檢試劑配套說明書并由檢測者自行判斷的服務(wù)。
基于以上說明和案例,可見潛類別logit模型能夠基于潛在的變量將群體進行分類,并解釋類別間偏好的異質(zhì)性。按照個體“潛在”特征來進行分類,只假定個體被隱含地分在某個類別中,并且潛類別logit模型沒有對這種潛在異質(zhì)性的形式做出任何假設(shè),參數(shù)的效應(yīng)在同一類中相同而在不同類之間變化[2],這也使其在實際應(yīng)用中更加靈活。但是其需要事先假定分類數(shù),分類數(shù)目過多會導(dǎo)致模型不收斂,同時由于是在群體層面,故無法分析群體內(nèi)個體的異質(zhì)性。而分析偏好異質(zhì)性的另一個常見模型混合logit模型則是從個體層面進行分析,允許解釋變量的系數(shù)是隨機的,但需要通過設(shè)定模型系數(shù)服從一定的分布,并估計出相應(yīng)的分布參數(shù)[5],而且虛擬變量的設(shè)置會導(dǎo)致模型不收斂,該模型的詳細方法可查閱McFadden[19]等的文章??傮w而言,兩個模型處理隨機偏好的結(jié)果雖然比較相近,但多數(shù)研究表明潛類別logit模型在擬合性、理論基礎(chǔ)、信息豐富度等方面還是略優(yōu)于混合logit模型[5]
每個模型都有其自身的優(yōu)缺點,因此國外有關(guān)離散選擇實驗的研究中分析異質(zhì)性對于選擇偏好的影響常為兩個或多個模型的聯(lián)合對比使用或者混合建模,以減少單用一個模型帶來的限制。并且隨著研究的深入,衍生更多復(fù)雜的模型如隨機參數(shù)潛類別模型,馬爾科夫轉(zhuǎn)換模型等也會使分析更加優(yōu)化。本文介紹了潛類別logit模型的基本理論,結(jié)合離散選擇實驗演示了該模型的建立與分析以及在Stata 中實現(xiàn)的過程,也為其他領(lǐng)域的相關(guān)研究提供借鑒。