胡良平
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029
在心理、生理和精神衛(wèi)生等學科領(lǐng)域中,研究者常使用各種量表對患者進行評定[1-4],此類評分一般被視為“計量資料”。然而,在很多其他領(lǐng)域,研究者?;谧约旱闹R、經(jīng)驗、感受和偏好,來給被評價對象(以下簡稱為“被評者”)評分,此即“偏好評分”。這里的“被評者”可以是人(如某病患者、參加比賽的歌手、前來應(yīng)聘的求職者、課題或項目的申請者等)、物品或商品(如電腦、汽車、住宅或服裝等)等。評價者進行評分時,通常依據(jù)被評者在若干方面或?qū)傩曰蛞蛩氐谋憩F(xiàn)或真實情況,并結(jié)合自己的“偏好”,給出一個自己認為最合理的分值。由此可知,“偏好評分”不像試驗結(jié)果那樣客觀、精準,而在一定程度上帶有主觀性。這就不難理解,為什么同一位患者的影像學光片由多位放射科醫(yī)生來閱讀,通常會給出不同的評分結(jié)果。
如何區(qū)分“被評者A”與“被評者B”?通常需要根據(jù)具體情況,從幾個主要方面或角度來度量或認定被評者,用統(tǒng)計學的術(shù)語來描述,就是擬考慮的“因素”。以一位患者的CT光片為例,假定要考慮的主要因素有A、B、C、D,每個因素又可分為好、中、差3個檔次。于是,這4個因素都具有3個水平。請一位臨床醫(yī)生基于前述4個因素來給100例某病患者的CT光片進行病情評分,病情由輕到重依次評為1、2、……、10分。這樣就可以獲得對這100例患者的“偏好評分”。這里的“偏好”主要反映了該臨床醫(yī)生在閱片方面的經(jīng)驗和技能,顯然不可能像定量檢測樣品中某種物質(zhì)含量那樣精準。
通常,偏好評分有兩種具體形式,其一,僅用很少的幾個分值來描述所有的“被評者”,如用“1、2、3、4、5”5個分值來描述100例某病患者;其二,使用1~ 81共81個不相同的分值來描述81例某病患者。前一種“偏好評分”只能被視為“有序資料”;而后一種“偏好評分”可以被視為“有序資料”,也可被近似視為“計量資料”。
在一項關(guān)于輪胎的消費情況的調(diào)查中,假定輪胎主要屬性(或因素)有4個:品牌、價格、使用壽命、有無公路意外保險計劃,各屬性包含不同水平[5]。見表1。
表1 輪胎的屬性及其水平
若將各屬性的所有水平進行組合,一共有3×3×3×2=54種可能的組合形式(相當于有54種不同的輪胎或54種不同的試驗條件;在多因素試驗設(shè)計中,每種“組合”被稱為一個“試驗點”)。最好的做法是采用析因設(shè)計,即在54個試驗點的每個試驗點上至少做2次獨立重復(fù)試驗。那么總試驗次數(shù)至少需要108次。為了節(jié)約成本,研究者擬采用正交設(shè)計。利用SAS軟件產(chǎn)生一個組合數(shù)為18的正交設(shè)計表。見表2。其中最后兩列為兩名顧客(即在各試驗點上均做了2次獨立重復(fù)試驗)給出的偏好評分,用1~18來表示其偏好(1表示最愿意購買,18表示最不愿意購買)。
表2 具有18種水平組合的混合水平正交表
由表2可知,偏好評分資料的數(shù)據(jù)結(jié)構(gòu)由兩種性質(zhì)的變量及其取值構(gòu)成:定性的影響因素(表2中第2~5列)和偏好評分(表2中最后2列)。就整體而言,它是一個多因素析因設(shè)計或正交設(shè)計(或均勻設(shè)計)下所收集的一元或多元有序資料。
由于未找到合適的臨床實例,故借用上面關(guān)于“商品”的例子。若臨床工作者能在臨床工作中發(fā)現(xiàn)與此實例類似的“臨床問題”,可以采用本文介紹的“結(jié)合分析法”進行數(shù)據(jù)處理。
針對每一位顧客(即評價者)給出的“評分”,需要回答以下三個問題:其一,4個因素的“重要性(或貢獻率)”分別是多少(重要性之和為100.00%)?其二,每個因素各水平的“分值效用”(即每個水平的“重要性”,確切的含義為“水平效用”)是多少?其三,該顧客最偏愛或喜歡的輪胎是哪一款(即理想試驗點)?為實現(xiàn)前述的統(tǒng)計分析任務(wù),需要選擇“結(jié)合分析法”。
結(jié)合分析也叫聯(lián)合分析,它用于確定哪些產(chǎn)品(或服務(wù))的屬性(或因素)對于消費者(或評價者)來說是最重要的、哪些是中等重要的、哪些是次要的;還可用于估計每種屬性(或因素)的每個水平的“效用(即對偏好評分的作用)”大小。
結(jié)合分析的基本思想是:將偏好評分近似視為計量因變量,將每個屬性的每個水平視為一個“二值自變量”。假定每個屬性的所有水平對因變量的影響是可以疊加的,進一步假設(shè)每個屬性所有水平效應(yīng)之和為0(這在統(tǒng)計學上被稱為“約束條件”,以保證計算出的“效用值”有正有負,代表不同的作用方向)。在前述假設(shè)成立的條件下,構(gòu)建多重線性回歸模型,并基于最小平方法原理求解回歸模型中的參數(shù)估計值。
結(jié)合分析中通常采用普通最小平方法估計回歸模型中的參數(shù),因素的每個水平被視為一個自變量,并且,每個自變量只有0或1兩個可能的取值。模型可用式(1)表示。
Y=a+∑vx
(1)
在式(1)中,Y表示所有屬性(或因素)的一種水平組合條件下被評價對象的總效用,也被稱為“輪廓(即一個試驗點)”的總效用。a為截距,v為各水平的分值效用(相當于回歸系數(shù)),x為取值為0或1的啞變量,當它代表的某屬性的一個水平出現(xiàn)時,x=1;否則x=0。
若模型中屬性水平的分值效用的差值(最大效用與最小效用之差)越大,則該屬性的相對重要性越高。一般用百分比來描述各屬性的重要性。見式(2)。
(2)
在式(2)中,m表示屬性個數(shù),Wj表示第j個屬性的相對重要性,max(vj)和min(vj)分別表示第j個屬性各水平中最大和最小的分值效用。
在前面的“實例”中,表1列出了擬考察的“屬性(或因素)及其水平”,表2是將這個實際問題付諸研究所給出的一種“試驗設(shè)計”(第2~5列)及其兩位顧客給出的“偏好評分”(最后兩列)。表2中的每一行代表4個因素各取一個水平所對應(yīng)的一種組合(也叫試驗點),也就是一款特定的產(chǎn)品(在本例中為一種輪胎)。統(tǒng)計分析的目的是希望依據(jù)某位顧客的“偏好評分”,回答前述“偏好評分資料的分析任務(wù)”中提及的問題。
options validvarname=any;
proc format;
value brandf 1=' goodstone' 2=' pirogi' 3=' machismo' ;
value pricef 1=' $69.99' 2=' $74.99' 3=' $79.99' ;
value lifef 1=' 50,000' 2=' 60,000' 3=' 70,000' ;
value hazardf 1=' yes' 2=' no' ;
run;
data tires;
input brand price life hazard rank1 rank2 @@;
format brand brandf9. price pricef9.
life lifef6. hazard hazardf3.;cards;
;
run;
proc transreg utilities cprefix=0 lprefix=0;
ods select convergencestatus fitstatistics utilities;
model identity(rank1 rank2/reflect)=
class(brand price life hazard/zero=sum);
output out=out replace predicted;
run;
proc print label data=out;
var rank1 rank2 prank1prank2 brand price life hazard;
run;
【說明】“model語句”中的選項“reflect”的含義:代表各水平取正的“分值效用”時,對應(yīng)著最好的“偏好評分”。這樣可以免去使用者在下專業(yè)結(jié)論時,需要顧及結(jié)果變量究竟屬于高優(yōu)指標還是低優(yōu)指標。
若忽略了選項“reflect”,當結(jié)果變量為高優(yōu)指標時,需要選取絕對值最大的正效用值對應(yīng)的水平組成“理想試驗點”;而當結(jié)果變量為低優(yōu)指標時,需要選取絕對值最大的負效用值對應(yīng)的水平組成“理想試驗點”。
因篇幅所限,下面僅給出第一位顧客偏好評分對應(yīng)的結(jié)合分析結(jié)果:
RootMSE1.72562R-Square0.9385DependentMean9.50000AdjR-Sq0.8955CoeffVar18.16446
以上結(jié)果表明:模型對資料的擬合優(yōu)度較高,均方根誤差=1.72562、R2=0.9385。與“分值效用(Utility)”和“重要性(Importance)”有關(guān)的計算結(jié)果見圖1。
圖1 與表2中顧客A的偏好評分對應(yīng)的計算結(jié)果
由圖1中第4列計算結(jié)果可知:輪胎的4個屬性的相對重要性為:價格>使用壽命>品牌>是否有公路意外保險計劃。價格方面,越便宜越受顧客偏好;使用壽命方面,越長越受顧客偏好;品牌方面,顧客最偏好的是pirogi;是否有公路意外保險計劃方面,顧客更偏好有保險計劃的輪胎。最受顧客歡迎的輪胎屬性組合為“品牌pirogi +使用壽命70 000km+價格$69.99+有公路意外保險計劃”,它們都是各屬性中“分值效用”取最大正值的“水平”。
4.1.1 式(1)的解讀
結(jié)合分析的“回歸模型”式(1)的真實含義,就是把“偏好評分值”視為“計量因變量”,而把所有的“屬性(或因素)”視為“定性自變量”,但需要對每個屬性變量產(chǎn)生啞變量。值得注意的是:在對每個屬性變量產(chǎn)生啞變量時,不采取通常的方法(以其中一個水平為基準),而是將其每個水平產(chǎn)生一個“0與1”的二值變量,但必須限制該屬性的所有水平對應(yīng)的啞變量之和等于0。例如:對于“品牌”這個屬性變量而言,由表2的第2列可知,第1~6行都是第1種品牌“GOODSTONE”,若用TB1代表它,則TB1=1,其后的12行都不是該品牌,故TB1=0;同理,可用TB2代表第2種品牌,則在第7~12行令TB2=1,其他行上令TB2=0;可用TB3代表第3種品牌,則在第13~18行令TB3=1,其他行上令TB3=0。于是,就將一個具有3水平的“品牌”轉(zhuǎn)換成TB1、TB2、TB3三個“二值變量”了。
類似的,利用以上方法可將“價格”轉(zhuǎn)換成TP1、TP2、TP3三個“二值變量”,將“使用壽命”轉(zhuǎn)換成TL1、TL2、TL3三個“二值變量”,將“有無公路意外保險計劃”轉(zhuǎn)換成TH1、TH2兩個“二值變量”。于是,可用擬合多重線性回歸模型的REG過程來實現(xiàn)模型(1)的擬合。
4.1.2 用REG過程擬合式(1)
/*結(jié)合模型的構(gòu)建與參數(shù)估計*/
data abc;
input a b tb1 tb2 tb3 tp1 tp2 tp3
tl1 tl2 tl3 th1 th2;
cards;
161510010001010171810010000101541000101000199100010010012210000110010751000010011012110101001000118170101000010111120100101001014160100100011067010001010103301000101001131400110010010151300110001010480010100100110600101000110110010011000181000100100101
;
run;
proc reg data=abc;
model a=tb1-tb3 tp1-tp3 tl1-tl3 th1 th2;
restrict tb1+tb2+tb3=0,tp1+tp2+tp3=0,
tl1+tl2+tl3=0,th1+th2=0;
run;
4.1.3 上述SAS程序的主要輸出結(jié)果
方差分析源自由度平方和均方FPr>F模型7454.7222264.9603221.82<0.0001誤差1029.777782.97778校正合計17484.50000
均方根誤差1.72562R20.9385因變量均值9.50000調(diào)整R20.8955變異系數(shù)18.16446
以上結(jié)果與前面使用“TRANSREG過程”輸出的“擬合優(yōu)度”結(jié)果是相同的。
參數(shù)估計值變量自由度參數(shù)估計值標準誤差tPr>|t|Intercept19.500000.4067323.36<0.0001tb11-0.166670.57521-0.290.7779tb211.166670.575212.030.0700tb31-1.000000.57521-1.740.1128tp115.666670.575219.85<0.0001tp21-0.666670.57521-1.160.2734tp31-5.000000.57521-8.69<0.0001tl11-2.166670.57521-3.770.0037tl21-0.666670.57521-1.160.2734tl312.833330.575214.930.0006th110.944440.406732.320.0426th21-0.944440.40673-2.320.0426RESTRICT-11.66533E-161.28569E-80.001.0000?RESTRICT-1-9.4369E-161.28569E-8-0.001.0000?RESTRICT-17.12104E-161.28569E-80.001.0000?RESTRICT-100 - -
以上的輸出結(jié)果中,除了最后“RESTRICT”所在的4行外,第3列和第4列與前面圖1中第2列和第3列是完全一致的。此處,還多出了“t值”和“P值”,但少了關(guān)于各屬性“重要性”的計算結(jié)果。但若利用上面的計算結(jié)果代入式(2),就不難計算出“重要性”的數(shù)值。例如:
屬性最大值-最小值重要性(%)品牌1.1667-(-1.0000)=2.16672.1667/18.8889=0.114708=11.471%價格5.6667-(-5.0000)=10.666710.6667/18.8889=0.564707=56.471%壽命2.8333-(-2.1667)=5.00005.0000/18.8889=0.264705=26.471%保險0.9444-(-0.9444)=1.88881.8888/18.8889=0.099995=10.000%合計18.8889
上面的“重要性”計算結(jié)果與前面圖1中第4列對應(yīng)的結(jié)果略有出入,可能是每一項“分值效用”輸出時僅保留了4位小數(shù),屬于“舍入誤差”所致。
4.1.4在第3.2節(jié)SAS程序的“model語句”中不使用“reflect”的輸出結(jié)果
若將前面第3.2節(jié)SAS程序“model語句”中的選項“reflect”刪除,其他內(nèi)容不變,與圖1對應(yīng)的輸出結(jié)果見圖2。
將圖2與圖1對照,僅第2列中各因素的各水平的“分值效用”的正、負號發(fā)生了反轉(zhuǎn),絕對值沒有任何改變。此時,若希望找出“理想試驗點”,必須弄清楚“偏好評分”屬于“高優(yōu)指標”還是“低優(yōu)指標”。本例開始就交代了“偏好評分”為“低優(yōu)指標”,故“理想試驗點”應(yīng)由各屬性中“分值效用”取最大絕對值且為負號對應(yīng)的“水平”組合起來,即品牌pirogi+使用壽命70 000km+價格$69.99+有公路意外保險計劃。
圖2 與表2中顧客A的偏好評分對應(yīng)的計算結(jié)果(未用reflect選項)
結(jié)合分析模型是基于各屬性(或因素)的分值效用可以簡單疊加的假定成立的條件下構(gòu)造出來的,當實際問題符合此假定時,其分析結(jié)果是正確的;否則,要慎重使用。必要時,需要選擇其他統(tǒng)計模型。