黃明明?王立君
摘 要 文章運用項目反應(yīng)理論技術(shù)(IRT)對自陳式情緒智力量表WLEIS在大學(xué)生群體中的施測結(jié)果進行分析,從評分選項、題目參數(shù)以及測驗整體性能與結(jié)構(gòu)等方面考察WLEIS的質(zhì)量。以WLEIS中文版為測驗工具對大學(xué)生施測,獲得數(shù)據(jù)后利用WINSTEPS軟件進行分析。結(jié)果表明,WLEIS具有多維性,整個測驗內(nèi)部一致性系數(shù)達0.874,測驗整體偏易,個別項目的評分方式也需要進行修正后方可適合對大學(xué)生進行施測。
關(guān)鍵詞 情緒智力;情緒智力測驗;IRT;Rasch模型
分類號 B841.7
情緒智力(Emotional Intelligence,EI)的概念是美國心理學(xué)家Peter Salovey和John Mayer于1990年提出的,隨即引起了心理學(xué)界和管理學(xué)界的高度關(guān)注。目前為止,情緒智力的理論與實踐研究成果已經(jīng)非常豐碩,但是關(guān)于情緒智力的內(nèi)涵與結(jié)構(gòu)至今沒有達成統(tǒng)一。圍繞這個問題,學(xué)術(shù)界關(guān)于情緒智力的理論研究出現(xiàn)了能力模型流派與混合模型流派的爭議,情緒智力測驗也出現(xiàn)了相對應(yīng)的兩種取向。能力模型流派認為,情緒智力屬于一種能力,通常被定義為識別、管理自己與他人情緒的能力(Goleman,1995),常見的理論模型有Bar-On的情緒智力模型、許遠理的情緒智力三維結(jié)構(gòu)模型等,常見情緒智力測驗有MSCEIT(Mayer Salovey-Caruso Emotional Intelligence Test)、WLEIS(Wong and Law Emotional Intelligence Scale)以及WEIS(Wongs Emotional Intelligence Scale)等?;旌夏P土髋烧J為,情緒智力中的自我控制、自我管理等成分與人格有交叉點,常見的情緒智力測驗有ECI(Emotional Competence Inventory)和EQ-i(Emotional Quotient Inventory)等。
Goleman認為,一個人的情緒智力一般可以通過自我意識、自我管理、自我激勵、移情和社交技能五大方面進行評估。Wong和Law(2002)在Goleman研究的基礎(chǔ)上,通過對中國香港地區(qū)的實證研究發(fā)現(xiàn),可以從一個人的自我情緒評估、對他人情緒評估、情緒運用以及情緒調(diào)節(jié)四個方面來衡量一個人的情緒智力,并開發(fā)了包含16個項目的測量量表,稱為WLEIS(Wong & Law,2002)。此量表也是情緒智力流派中的能力模型流派代表與證明,常常被作為企業(yè)等用人單位人事測評與選拔的重要工具,對領(lǐng)導(dǎo)者情緒智力進行考察,而很少用于其他人群。為探討此測驗在大學(xué)生群體施測的有效性,本文以實證研究進行論證,采用項目反應(yīng)理論(Item Response Theory,IRT)分析方法對大學(xué)生群體的施測結(jié)果進行分析,為后續(xù)的研究提供參考。
1 測驗量表簡介
WLEIS是Wong和Law在2002開發(fā)出來的自陳式情緒智力量表(Wong & Law,2002),該量表是在中國背景下編制而成的,對中國人施測時不存在文化差異等問題,是一個較好的本土化情緒智力量表。量表有16個項目,采用李克特5點計分,共四個維度,每個維度下各有4個項目。四個維度分別是認知自我情緒、認知他人情緒、調(diào)節(jié)情緒和運用情緒,即四種情緒智力。認知自我情緒的能力是指個體可以理解自己深層次的情緒,并將其合適地表達出來;認知他人情緒的能力即個體可以感知和理解周圍其他人情緒的能力;調(diào)節(jié)情緒的能力即個體能夠快速調(diào)節(jié)不良情緒,以適應(yīng)當時情景;運用情緒的能力即個體能夠運用自己的情緒資源進行建設(shè)性活動以提高其個人績效的能力。這四種能力品質(zhì)共同組合成了情緒智力的四維結(jié)構(gòu),此量表常被認為可以較為全面科學(xué)地測查出個體的情緒智力狀態(tài)。相關(guān)實證研究(Wong & Law,2002;Wong,Law & Song,2004)已經(jīng)證明了該量表具有較好的信效度,因此也被廣泛采用,在管理者情緒智力的測量和研究中應(yīng)用最為普遍,但在學(xué)生群體施測情況較為少見。
2 研究方法
2.1 數(shù)據(jù)來源
采取線上與線下兩種施測方式相結(jié)合,以WLEIS中文版(WLEI-C)為測驗工具,得分越高,表示情緒智力水平越高。對來自浙江、河南等地的大學(xué)生進行施測,所有被試都自愿匿名填寫,最后回收有效問卷732份, 測驗所得數(shù)據(jù)利用SPSS19.0軟件和WINSTEPS3.66.0軟件進行處理,被試分布基本情況如下表1所示。
表1 被試基本分布
性別 專業(yè)類別 年齡
男 女 理工 文史 藝術(shù) 16~18 18~25 25以上
228 504 409 290 33 22 572 138
2.2 項目反應(yīng)理論技術(shù)
IRT是用來描述項目性質(zhì)(難度、區(qū)分度、猜測度等)與被試的潛在特質(zhì)對項目作答正確率影響的一種模型體系,與經(jīng)典測量理論不同的是,IRT從單一項目的性質(zhì)以及被試作答的正確率出發(fā),探討被試能力與試題性質(zhì)對答對機率的影響。此外,IRT其實是許多項目反應(yīng)模型的總稱,可以滿足各種不同計分方式與不同作答方式的測驗要求。IRT對測驗的分析大致可以從選項模式、項目參數(shù)特性、測量精準度等方面進行分析。
最簡單最常見的IRT模型是Rasch模型,它是一種單參數(shù)Logistic模型,其最大特點就是它的項目只有難度參數(shù),同一批項目測試被試時,應(yīng)該在一個線性系統(tǒng)上去評定被試水平。因此,除難度參數(shù) βi 外,其他特性都是相同的(羅照盛,2012),在測驗的分析與編制過程中起著重要作用。其表達式如下列公式所示:
=
其中 θj 為被試 j 的能力, βi 是項目 i 的難度,而 Pi(θj)是被試答對某個項目的概率。在Rasch模式中,影響被試答對概率的項目特性主要是難度,因此只要了解被試的能力與項目的難度,就能知道被試在某項目上的答對的概率是多少。它對項目的特性與被試的作答反應(yīng)有較嚴格的客觀性要求,所估計出來的能力值就能反映出被試的真實能力,而且是等距量尺(晏子,2010)。
3 研究結(jié)果
通過SPSS19.0軟件對所得數(shù)據(jù)進行基本分析可知,16個項目的內(nèi)部一致性系數(shù)是0.874。以下是由WINSTEPS軟件讀入數(shù)據(jù)后整理分析出來的結(jié)果。
3.1 評分模式分析
評分模式一般指計分方式(正反向計分)、計分等級以及評分難度等。在Rasch模型中,通常是通過分析估計出每個選項的難度值以及相鄰選項之間的難度差值來判定選項的合理性。
3.1.1 評分選項分布
WLEIS所得的五點計分數(shù)據(jù)由軟件分析輸出,評分選項共有16個不同的分布,每個項目對應(yīng)一個項目,其分布曲線圖可以直觀地看出每個選項的難度分布并反映出特質(zhì)的概率(見圖1)。通過分析看出第3個項目的選項分布異常,選項2與選項1的難度差值太小,致使第二個選項起不到應(yīng)有的作用,無法區(qū)分被試的能力差距,所有評分選項的難度偏小。第2個項目也出現(xiàn)類似的情況,但勉強可行。它們共同的缺點就是選項2與選項1的難度差距太小,不能很好地區(qū)分出被試的能力差距。第16個項目的評分選項設(shè)置較好,符合對被試能力的評定又不偏離被試群體的整體能力分布。
針對以上情況,我們則可以考慮將第14個項目的第二個選項刪除,或者通過修正第3個項目的難度,使之區(qū)分開來。
3.1.2 評分選項的難度分析
在評分選項的曲線分布圖中可以看出,選項的分析還是集中在對各個選項難度的分析。一個項目的選項等級所表現(xiàn)的難度往往會影響被試的最后作答結(jié)果。更重要的是,選項之間的難度差值體現(xiàn)了選項設(shè)置的質(zhì)量。IRT從選項本身的難度、相鄰選項之間的難度差值以及所有選項之間的難度差值判斷選項設(shè)置的合理性。如下表2反映了WLEIS五點計分的IRT分析結(jié)果。
一般情況下,項目的評分選項應(yīng)該符合以下5項標準:(1)每個選項上至少有10個觀測值;(2)評定量表的分布應(yīng)該是單維的;(3)每個類別的均值與評定量表的類別值應(yīng)該是單調(diào)漸進的;(4)Outfit MNSQ小于2.0;(5)相鄰的類別難度闊(step calibration),3點量表最少需要1.4個logit,4點量表要1.1個logit,5點量表要0.81個logit,至多為5個logit,當測驗結(jié)果未能滿足以上標準,則需要調(diào)整選項設(shè)置直至滿足(Linacre,2002)。照此來說,第三個選項與第四個選項的難度差0.79欠妥,一般而言,不可輕率做出刪除第三選項的決定,應(yīng)該考慮通過完善測驗的內(nèi)容、優(yōu)化自己的測驗數(shù)據(jù)等工作來修正。
3.2 項目參數(shù)分析
對測驗項目的參數(shù)分析大都集中在信效度、難度、區(qū)分度等。在此,我們采取IRT模型進行分析時主要考慮項目擬合度(goodness of fit)與項目難度的分析。
測驗數(shù)據(jù)對模型的擬合程度表現(xiàn)了測驗項目內(nèi)容的適合程度。WEIS施測的統(tǒng)計結(jié)果如表3所示。
表3 部分項目擬合性能表
Enter item Measure Infit Outfit Point-measure
MNSQ ZSTD MNSQ ZSTD
3 -0.76 1.10 1.7 1.15 2.6 0.48
2 -0.86 1.03 0.5 1.06 1.0 0.51
1 -0.66 1.09 1.7 1.10 1.9 0.51
12 0.15 0.85 -2.9 0.84 -3.1 0.66
5 -0.51 1.01 0.3 0.99 -0.2 0.56
13 0.65 0.96 -0.7 0.98 -0.3 0.62
9 0.45 1.03 0.6 1.03 0.70 0.59
16 0.19 1.05 0.9 1.11 2.0 0.57
Mean 0.00 0.99 -0.1 1.01 0.1
S.D. 0.49 0.08 1.5 0.09 1.7
測驗的各個項目的擬合度的標準尚未達成統(tǒng)一,研究者可以根據(jù)自己對測驗的要求來規(guī)定Infit MNSQ和Outfit MNSQ的范圍。大部分的國內(nèi)外研究均選擇Infit MNSQ作為評定項目對模型擬合的程度,因為Outfit MNSQ經(jīng)常受到外部因素的干擾,反映的精確性不如Infit MNSQ。Infit MNSQ的范圍越接近1越好,這項測驗結(jié)果的Infit MNSQ值的范圍在0.83至1.19之間,平均值是0.99。國內(nèi)外研究認為,Infit MNSQ值的范圍在0.8至1.2之間就可以認為測驗結(jié)果是較好地擬合了模型,這樣看來,本測驗擬合度還是很好的。從難度值(Measure)來看,項目2、3、1、5難度較低,項目13難度較高,其他項目難度均在誤差的范圍之內(nèi)。各項目的測驗內(nèi)容較符合被試的心理特質(zhì)。
項目的Point-measure則反應(yīng)了個體在某一項目上的表現(xiàn)與其在整個量表中表現(xiàn)的相關(guān)度,取值一般介于0.4和 0.8之間(Yan,2011)。一般地,中度相關(guān)是理想狀態(tài),即Point-measure值越接近于0.5~0.6越好。本測驗的統(tǒng)計結(jié)果表現(xiàn)良好的相關(guān)性。
3.3 測驗整體分析
測驗的整體分析包括了對測驗的精準性分析(是否可以精確地反映出被試的潛在特質(zhì)水平)和測驗的結(jié)構(gòu)分析(測驗維度分析)兩大類工作。
3.3.1 測驗精確性
對于測驗精準性,我們通常采用測驗信息函數(shù)(Test Information Function,TIF)和Persons-Item圖。Persons-Item圖更加直觀地反映了被試能力分布與測驗項目難度分布的一致性程度。這樣一來,被試的潛在特質(zhì)水平和測驗項目的難度同置于一個難度尺度上,能夠更加直觀地看出測驗項目對被試能力測查的準確性。
從圖2可以看出,左側(cè)被試的能力分布大多是以0為均值的正態(tài)分布,而右側(cè)的測驗項目分布卻集中在較低難度尺度的部分,測驗項目難度不能很好地與被試能力水平保持一致性。測驗項目難度過于集中,而且難度較低,不利于區(qū)分出高水平被試的情緒智力水平。出現(xiàn)這種情況的原因有很多,最常見的就是被試作答過程中有明顯的趨中效應(yīng)。因此,我們可以采取反向計分和正向計分相結(jié)合的方法,也可以通過加大項目難度來改善作答集中的現(xiàn)象。
3.3.2 測驗結(jié)構(gòu)
對于測驗結(jié)構(gòu)分析,我們可以從測驗的單維性進行分析。反映測驗單維性的指標主要是首成分殘差特征值的大小。一個測驗通常包含幾個維度,測出不同特質(zhì)。Rasch模型殘差的主成分分析檢驗量表單維性,首因子標準化殘差特征值和量度解釋變異數(shù)是衡量數(shù)據(jù)結(jié)構(gòu)單一性的重要指標,首成分標準化殘差特征值的范圍應(yīng)該在1.4至2.1之間(Rasch,2005)。我們分別對各個維度分開進行測查,最后勘察測驗的整體結(jié)構(gòu)。
由表4可知,測驗的各個維度的首成分標準化殘差特征值均在規(guī)定的范圍內(nèi),說明了測驗項目均在所屬的維度之內(nèi),即每個項目只能測驗大學(xué)生的一種情緒智力特質(zhì),沒有特質(zhì)之間的交叉現(xiàn)象。如果將整個測驗當作一個維度,此時的首成分標準化殘差特征值卻是3.5,遠在規(guī)定范圍之外。也就是說,量表是一個多維的測驗,不具有單維性。
4 討論
從以上幾個側(cè)面的測查結(jié)果可以看出,WLEIS可以一定程度地測出大學(xué)生的情緒智力水平,但不如對管理者情緒智力的測量效果好,突出體現(xiàn)在測驗的難度、區(qū)分度和測驗評分模式方面。
在評分模式方面,除項目2和項目3的選項評定不太理想外,其他14個項目的評分模式還是很好的。而項目2和項目3反映的是被試認識自己情緒的能力,屬于自我認知的范疇。大學(xué)生處于受教育階段,對很多事物的認識還不太深刻,因此也間接地影響了其對自身的認知,這也是很多在校大學(xué)生的認知誤區(qū)之一。對于選項2(較不同意)和選項3(不清楚),很多大學(xué)生界定不明;也有可能是大學(xué)生真的不太清楚自己的情緒狀態(tài),致使大多人選擇中間項;抑或是被試作答時受到趨中效應(yīng)的影響,沒有對二者進行仔細思考,導(dǎo)致兩個選項的難度差值達不到要求,不能區(qū)分二者之間的難度,也不能很好地界定被試的情緒智力水平。鑒于此,我們可以將表量修改為4點計分,去除選項3,這樣對被試的要求就是迫選(必須界定自己的感受),可以消除以上問題。
在測驗內(nèi)容方面,測驗從四個維度測查了被試的情緒智力水平,16個項目均在擬合的范圍之內(nèi)。在測驗難度和區(qū)分度方面,由Persons-Item圖可知,本測驗的難度應(yīng)該提高些,進而區(qū)分出高能力水平的被試,提高測驗的精準性。另外,由測驗的輸出結(jié)果可以得知,本測驗的項目信度指數(shù)(item reliability index)為0.99,個體信度指數(shù)(person reliability index)為0.85,它們從不同的側(cè)面反應(yīng)出了同一項目或者個體施測于相似的測驗時保持自身特性的一致性,范圍均在0至1之間。個體信度指數(shù)反映出被試心理特質(zhì)的穩(wěn)定性,常用來作為評價測驗信度的重要指標。除此之外,測驗的項目分割指數(shù)(item separate index)和個體分割指數(shù)(person separate index)則從側(cè)面反應(yīng)了測驗的結(jié)構(gòu)效度。一個測驗的結(jié)構(gòu)保持均衡最好,不宜過于緊湊也不宜過于松散,分割系數(shù)最低應(yīng)為2.0,方可保證測驗信度在0.8以上。
在測驗的整體結(jié)構(gòu)上,除了分割系數(shù)可以說明測驗的整體結(jié)構(gòu)之外,測驗單維性也反應(yīng)出一個測驗的維度結(jié)構(gòu)及其與整個測驗的關(guān)系。本測驗的統(tǒng)計結(jié)果顯示出測驗具有多維性,每個維度可清晰地測查其對應(yīng)的情緒智力成分,且維度內(nèi)的項目擬合性較好。這也論證了情緒智力四維結(jié)構(gòu)理論的合理性。
5 結(jié)論與展望
總體來看,情緒智力量表(WLEIS)不宜直接用來對在校大學(xué)生進行施測,尤其是在評分模式方面,5點計分的方法不太適合大學(xué)生群體。另外,由于大學(xué)生的自我認知水平不如職場管理者,量表的第一個維度中項目難度普遍過低,且所有項目難度過于集中,不利于區(qū)分被試的能力水平。如果修正測驗的難度,改5點計分為4點計分(刪除容易產(chǎn)生趨中效應(yīng)的中間選項),適當縮小兩端選項的難度差距,這樣的話,WLEIS就基本符合測驗對象的要求了。
此外,此次分析依然存在很大的爭議。首先,被試樣本的選取過于單一,范圍過于狹窄,這類被試群體的心理特征有較多的相似之處,很容易造成作答結(jié)果的一致性過高,致使內(nèi)部一致性系數(shù)偏高(本測驗高達0.876);其次,被試作答過程中存在偏差,如順序效應(yīng)等,被試作答過程中由于存在順序效應(yīng),使得被試在作答某個維度內(nèi)項目的情況趨向一致化,影響測驗單維性的分析結(jié)果;最后,測驗的分析方法過于單一,而實際測驗過程是復(fù)雜的,可能使之與實際有不符之處。本研究的不足之處恰好為后續(xù)的研究提供了新的契機。
參考文獻
羅照盛.(2012). 項目反應(yīng)理論基礎(chǔ).北京:北京師范大學(xué)出版社.
晏子.(2010). 心理科學(xué)鄰域的客觀測量——Rasch模型之特點及發(fā)展趨勢. 心理科學(xué)進展,18(8),1298-1305.
Goleman,D. (1995)Emotional Intelligence.New York:Bantam Books.
Linacre,J.M.(2002) . Optimizing rating scale category effectiveness. Journal of Applied Measure-ment,3(1),85-106.
Linacre,J. M.(2006)A users guide to WINSTEPS/MINISTEP:Rasch model computer programs. Chicago,IL:Winsteps.com.
Rasch,G.(2005). Critical Eigenvalue Sizes in Standardized residual Principal Components Analysis. Rasch Measurement Transactions. 19(1),1012.
Wong,C.S.,Wong,P.M.,Law,K.S.(2007). Evidence of the Practical Utility of Wongs Emotional Intelligence Scale in Hong Kong and Mainland China. Asia Pacific Journal of Management,24(1),43-60.
Wong,C.S.,Law,K.S.(2002). The Effects of Leader and Follower Emotional Intelligence on Performance and Attitude:An Exploratory Study .Leadership Quarterly,13(3),243-274.
Wong,C.S.,Law,K. S.,Song,L.J.(2004).The Construct and Criterion Validity of Emotional Intelligence and Its Potential Utility for Management Studies . Journal of Applied Psychology,89(3),483-496.
Yan,Z. (2011). Developing a Rasch Measurement Physical Fitness Scale for Hong Kong Primary School-Aged Students.Measurement in Physical Education and Exercise Science,(15),182-203.