鄧穩(wěn)根 戴海琦 戴慧群
性別是人格特質(zhì)研究的一個關(guān)鍵因素。Feingold通過元分析得出人格特質(zhì)的性別差異在不同的年齡階段、不同時代、不同教育水平的人群,以及不同的文化背景中都普遍存在,涉及的人格特質(zhì)包括外向、自尊、自信等諸多方面〔1〕。Canals等人則顯示男性在精神質(zhì)方面得分高于女性〔2〕;Eysenck發(fā)現(xiàn)女性的神經(jīng)質(zhì)得分顯著高于男性〔3〕。由于人格特質(zhì)性別差異的普遍性,Eysenck在編制艾森克人格問卷(Eysenck personality questionary,EPQ)時分別為不同性別的人群建立了常模。
20世紀(jì)80年代中期,幾個元分析研究證明了人格變量能用于預(yù)測重要的工作結(jié)果〔4-6〕,之后,人才選拔中人格的評估逐漸增加。例如Delgado在人才選拔中拒絕神經(jīng)質(zhì)得分高的求職者〔7〕。由于人格測驗經(jīng)常用于人們生活中做重要的決策,所以調(diào)查人格測驗上分?jǐn)?shù)的性別差異是人格的真正差異還是人格測量工具的虛假產(chǎn)物就尤為重要。項目功能(differential item function,DIF)分析有助于考查這個問題。目前人格測驗的DIF檢驗文章還很少,并且也只是近年來的事情。例如,Escorial和Navas采用標(biāo)準(zhǔn)化、同時性項目偏差檢驗、logistic回歸、Lord的χ2檢驗和項目與測驗功能差異框架等DIF檢驗方法來檢驗EPQ問卷中性別的差異,結(jié)果發(fā)現(xiàn)盡管在少數(shù)項目上存在功能差異,但在整個測驗上并不存在功能的差異,因此,性別差異并不是測量工具的產(chǎn)物,而是被試人格的真正差異〔7〕。
Escorial和Navas的方法是基于經(jīng)典測量理論和項目反應(yīng)理論的累積模型(cumulative model),這些理論和模型是建立在項目的優(yōu)勢反應(yīng)過程(dominant response process)假設(shè)上。優(yōu)勢過程認(rèn)為當(dāng)被試的特質(zhì)水平高于項目的位置水平時,被試更可能贊成(或答對)該項目。認(rèn)知評估項目的反應(yīng)普遍符合這一假設(shè),即被試能力水平越高于項目的難度(即項目的位置)時,被試越可能答對該項目。但Andrich和Luo認(rèn)為,態(tài)度項目的反應(yīng)并不是基于優(yōu)勢過程,而是基于理想點過程〔8〕。理想點過程假設(shè)只有當(dāng)被試的特質(zhì)水平和項目的位置水平最接近時,才最可能贊成該項目,而當(dāng)被試特質(zhì)水平高于或低于項目位置水平時,贊成項目的概率都低,兩者差距越大,贊成的概率就越低。Chernyshenko等人和Stark等人驗證了人格項目的反應(yīng)也是和理想點過程一致的〔9,10〕。
由于人格項目的反應(yīng)是和理想點過程一致的,所以采用經(jīng)典測量理論得到的總分和項目反應(yīng)理論累積模型得到的潛在特質(zhì)估計值就會歪曲被試的真正特質(zhì)水平,采用這些估計值用于形成DIF檢驗的匹配變量時可能會影響到DIF檢驗的正確性。
本文采用目前廣泛使用的基于理想點反應(yīng)過程的項目反應(yīng)理論模型——拓廣等級展開模型(Generalized graded unfolding model,GGUM)〔11〕對 EPQ 項目做DIF檢驗。
1.調(diào)查對象
本調(diào)查樣本共包括1 947名來自某大學(xué)的大學(xué)生,平均年齡為18.60歲,標(biāo)準(zhǔn)差為1.085。其中男生1181人,占61%;女生766人,占39%。
2.工具
采用陳仲庚修訂的艾森克人格問卷(EPQ)中的成人問卷〔12〕,該問卷包括85個項目,分別評估外向性(E)、神經(jīng)質(zhì)(N)和精神質(zhì)(P)三個人格特質(zhì)以及一個附加的效度量表(L)。目前該問卷在實踐中廣泛用于與心理健康相關(guān)問題的調(diào)查,例如王燕等人將其用于中國海員心理健康的調(diào)查研究中〔13〕,高宏生等人將其用于大學(xué)生自殺意念的研究中〔14〕。表1列出了本研究中三個人格特質(zhì)在不同性別上的克論巴赫α系數(shù)。
從表1中可以看出,E和N量表的信度相對較高,都達(dá)到了0.70以上的水平,而且男女生在這兩個量表上的信度相差并不大,因而可以用作進一步分析。而P量表的信度無論對男生還是女生都非常低,因而不適合作進一步分析。本文在后面的部分僅對E和N量表作DIF檢驗。
表1 EPQ信度估計值
3.數(shù)據(jù)分析方法
為考查性別的影響力,首先考查各個項目上是否存在顯著的性別差異。如果存在,則進一步做效果量(effect size)的測量。以往研究只關(guān)注有統(tǒng)計學(xué)差異檢驗的結(jié)果,但其容易受到樣本容量的影響,因而近年來開始轉(zhuǎn)而重視效果量的考查,1994年之后的APA出版手冊也鼓勵采用效果量來呈現(xiàn)研究結(jié)果。效果量普遍采用Cohen的d指標(biāo)來計算。
本文采用似然比統(tǒng)計量進行DIF檢驗,這種統(tǒng)計量是基于IRT框架的,因而這些統(tǒng)計量在計算前必須驗證所獲得的數(shù)據(jù)對GGUM模型擬合是否良好。為實現(xiàn)這一點,本文考查了模型的單維性假設(shè),并評估模型參數(shù)的擬合優(yōu)度。單維性檢驗采用四分相關(guān)求得相關(guān)矩陣,然后用主成分分析抽取成分?jǐn)?shù)目,結(jié)果是:對E量表,第一主成分的特征值為8.14,第二主成分的特征值為1.57,兩者相比為5.18;對N量表,第一主成分的特征值為9.24,第二主成分的特征值為1.66,兩者相比為5.57。兩個量表的第一主成分特征值均比第二主成分的特征值高5倍以上,因而可以認(rèn)為這兩個量表符合單維性假設(shè)。模型參數(shù)的擬合采用Roberts使用的S-X2指標(biāo)進行檢驗〔15〕,結(jié)果發(fā)現(xiàn),E 量表的所有項目都擬合GGUM,N量表上除了一個項目(項目36)不擬合模型而應(yīng)被刪除之外,其他項目也均擬合本模型。
4.DIF檢驗程序
拓廣等級展開模型的 DIF檢驗程序,可以在GGUM2004軟件1.1版本下進行,其基本步驟可以參見GGUM2004軟件手冊,該手冊可以從互聯(lián)網(wǎng)上直接下載,網(wǎng)址為:http://www.psychology.gatech.edu/Unfolding/。
1.性別影響力結(jié)果
表2列出了存在統(tǒng)計學(xué)差異的項目,并指出了哪個性別群體分?jǐn)?shù)更高。同時,也列出了那些存在統(tǒng)計學(xué)差異的項目的效果量范圍。
表2的結(jié)果表明男生在E和N量表的大多數(shù)項目上得分更高。男女生在這兩個量表上的總分也存在差異(E 量表上,t=3.013,P <0.001,d=0.14;N 量表上,t=3.722,P <0.001,d=0.17),男生得分均高于女生。但從效果量來看,無論是在項目水平還是在量表水平,d值都很低。效果量最大的是第82題,但它的值也只有0.38,還未達(dá)到中等水平。
表2 性別差異的項目
2.DIF檢驗結(jié)果
為了考查當(dāng)男生和女生在他們的外向性和神經(jīng)質(zhì)水平上相匹配時,上述這些差異是存在還是消失,我們采用前面敘述的程序?qū)量表和N量表存在顯著性別差異的項目進行DIF檢驗,結(jié)果發(fā)現(xiàn),E量表的第26、35、76個項目和 N量表的第74、82個項目存在DIF。
在一個廣泛的特質(zhì)區(qū)間[-4,4]上,男生在項目26、74、82上的贊成概率均高于女生。此外,項目26的ICC在[-4,-3]這個特質(zhì)水平的極低端發(fā)生了略微的折迭(folding),項目74的ICC在整個[-4,4]這個區(qū)間上均未發(fā)生折迭,而項目82的ICC則在[2,4]這個特質(zhì)連續(xù)體的較高端發(fā)生了折迭。圖1列出了項目26的項目參數(shù)值和ICC。限于篇幅,這里不再列出項目74和82的項目參數(shù)值和ICC。
從圖2中可以看出,在[-4,-1.5]區(qū)間內(nèi),男生在項目35上的贊成概率略高于女生,而在[-1.5,1.5]區(qū)間內(nèi)女生的贊成概率高于男生,而在[1.5,4]區(qū)間內(nèi)男生的贊成概率大大高于女生。該圖也反應(yīng)出在男生組上,ICC未發(fā)生折迭,而在女生組上ICC則發(fā)生明顯的折迭。
從圖3中可以看出,在[-4,1.5]區(qū)間內(nèi)男生的贊成項目76的概率高于女生,而在之后的區(qū)間[1.5,4]上女生的贊成概率總高于男生。無論在男生組還是女生組,該項目的ICC都發(fā)生了明顯的折迭現(xiàn)象。
圖1 項目26在男生組(左圖)和在女生組(右圖)中的項目參數(shù)估計值及特征曲線
圖2 項目35在男生組(左圖)和在女生組(右圖)中的項目參數(shù)估計值及特征曲線
圖3 項目76在男生組(左圖)和在女生組(右圖)中的項目參數(shù)估計值及特征曲線
本研究的結(jié)果顯示,在E和N量表上,男生無論是在總的量表上,還是在量表中的多數(shù)項目上得分均高于女生。這與Eysenck等人的研究結(jié)果〔3〕不符。這種不符合很可能是由于時代的變遷,項目的參數(shù)發(fā)生了漂移,即項目的功能發(fā)生了變化,一些項目可能逐漸變得更有利于男生,這提示隨著時代的變遷,量表需要不斷地進行修正。進一步的效果量計算結(jié)果顯示各個項目和兩個量表上的d值都很低,這與Escorial和Navas的結(jié)果〔7〕較為一致,表明外向性和神經(jīng)質(zhì)量表上的性別差異有統(tǒng)計學(xué)意義,是由于樣本容量較大導(dǎo)致的結(jié)果。
隨后對存在性別差異的項目進行的DIF檢驗結(jié)果發(fā)現(xiàn),有5個項目存在DIF。并且在3個項目(項目26、74、82)上,無論對哪個特質(zhì)水平,男生的贊成概率均高于女生,說明了這3個項目明顯偏向男生。對于項目35,在特質(zhì)連續(xù)體的中間部分,女生比男生的贊成概率高,而特質(zhì)連續(xù)體的中間部分集中了絕大部分的被試,說明該題比較偏向女生。項目76的贊成概率有利于男生的區(qū)間較有利于女生的區(qū)間更長,說明該題總的來說是偏向男生的。這些結(jié)果綜合在一起表明,前面在這幾個項目上發(fā)現(xiàn)的性別差異可能并不是真正的特質(zhì)水平的差異,而很可能是由于項目本身的偏向造成的。
本研究的DIF檢驗是在IRT理論模型框架下進行的。但本研究采用的模型并不是廣泛使用的兩參數(shù)logistic模型(2PLM),而是GGUM。2PLM 并不是基于理想點反應(yīng)過程假設(shè)的模型,而是一種基于優(yōu)勢反應(yīng)過程假設(shè)的累積模型,它假設(shè)項目的ICC是單調(diào)的,即隨著特質(zhì)水平的增加,項目的贊成概率(反向評分的項目需要先進行反向編碼)也隨之增加。從前面幾個DIF項目的ICC可以看出,除項目74的ICC是隨特質(zhì)水平的增加而單調(diào)增加外,其他幾個項目的ICC在一些特質(zhì)水平處,都呈現(xiàn)了一定程度的折迭。折迭的發(fā)生顯然與2PLM的ICC單調(diào)性假設(shè)不相符,說明采用2PLM并不適合用于EPQ的項目分析。而應(yīng)該采用與之相符的GGUM分析更為合理。GGUM假設(shè)當(dāng)項目的位置與被試的特質(zhì)水平(即理想點)一致時,贊成的概率最高,而當(dāng)項目位置與被試的理想點不一致時,無論是高于還是低于被試的特質(zhì)水平,贊成的概率都較低,所以項目的ICC是一個單峰形的曲線。這正好與本研究中的幾個項目的ICC形狀相符。
1.Feingold A.Gender differences in personality:A meta-analysis.Psychological Bulletin,1994,116(3):429-456.
2.Canals J,Vigil-Colet A,Chico E,et al.Personality changes during adolescence:The role of gender and pubertal development.Personality and Individual Differences,2005,39(1):179-188.
3.Eysenck HJ.Sex and Personality,Open Books Publishing Ltd,London,1976.
4.Barrick MR,Mount MK.The Big Five personality dimensions and job performance:A meta-analysis.Personnel Psychology,1991,44(1):1-26.
5.Barrick MR,Mount MK.Autonomy as a moderator of relationships between the Big Five personality dimensions and job performance:A meta-analysis.Journal of Applied Psychology,1993,78(1):111-118.
6.Ones DS,Viswesvaran C,Schmidt FL.Comprehensive meta-analysis of integrity test validities:Findings and implications for personnel selection and theories of job performance.Journal of Applied Psychology,1993,78(4):679-703.
7.Escorial S,Navas MJ.Analysis of the gender variable in the Eysenck personality questionnaire revised scales using differential item functioning techniques.Educational and Psychological Measurement,2007,67(6):990-1001.
8.Andrich D,Luo G.A hyperbolic cosine latent trait model for unfolding dichotomous single-stimulus responses.Applied Psychological Measurement,1993,17(3):253-276.
9.Chernyshenko OS,Stark S,Chan KY,et al.Fitting item response theory models to two personality inventories:Issues and insights.Multivariate Behavioral Research,2001,36(4):523-562.
10.Stark S,Chernyshenko OS,Drasgow F,et al.Examining assumptions about item responding in personality assessment:Should ideal point methods be considered for scale development and scoring?Journal of Applied Psychology,2006,91(1):25-39.
11.Roberts JS,Donoghue JR,Laughlin JE.A general item response theory model for unfolding unidimensional polytomous responses.Applied Psychological Measurement,2000,24(1):3-32.
12.陳仲庚.艾森克人格問卷的項目分析.心理學(xué)報.1983,15(2):211-218.
13.王燕,姜潮,劉啟貴,等.中國海員心理健康的調(diào)查研究.中國衛(wèi)生統(tǒng)計.2010,27(4):369-371.
14.高宏生,曲成毅,苗茂華.通徑分析在大學(xué)生自殺意念影響因素中的應(yīng)用.中國衛(wèi)生統(tǒng)計.2003,20(1):20-22.
15.Roberts JS.Modified Likelihood-Based Item Fit Statistics for the Generalized Graded Unfolding Model.Applied Psychological Measurement,2008,32(5):407-423.