鐘欣
摘 要:在心理學研究中,數(shù)據(jù)的質(zhì)量直接影響著研究的成敗。但沒有完美的數(shù)據(jù),對于那些因為某些原因遺失的數(shù)據(jù),即缺失值。綜合前人研究,提出了導(dǎo)致缺失值產(chǎn)生的三個因素,以及提出處理缺失值的六種方法。
關(guān)鍵詞:心理學問卷 缺失值 處理
中圖分類號:B841 文獻標識碼:A 文章編號:1674-098X(2014)08(a)-0201-02
心理學至成立以來一直致力于改善人們的生活,提高人們的生活質(zhì)量,為社會的發(fā)展與進步貢獻自己的綿薄之力。由于心理學是一門講求實證的學科,要達到這樣的目的,一定的研究則必不可少,這就不可避免的會遇到數(shù)據(jù)分析的問題。一個研究的成敗取決于這個研究所收集數(shù)據(jù)的質(zhì)量,質(zhì)量較好的數(shù)據(jù),即較少出現(xiàn)遺失、奇異、極端等情況,就能夠反應(yīng)研究的真實情況從而得到較好的研究結(jié)果。心理學是一門對人的行為進行研究的學科,然而對某些行為的研究可能會引起人們的抵觸,這種抵觸心理就會反映在數(shù)據(jù)的收集上,導(dǎo)致數(shù)據(jù)會出現(xiàn)一些問題,例如出現(xiàn)數(shù)據(jù)遺失,而怎樣應(yīng)對這種問題即是該文關(guān)注的焦點。
1 缺失值的概念及產(chǎn)生因素
缺失值指的是某項研究的某個項目或多個項目上的數(shù)據(jù)出現(xiàn)遺失的情況。在心理學研究中,出現(xiàn)缺失值是十分常見的現(xiàn)象,有些研究人員并沒有對這個問題予以重視,往往將其忽略并簡單處理了事,然而這個不受重視的問題有時會對研究結(jié)果產(chǎn)生致命的影響。在某些心理學研究中,由于研究經(jīng)費或是社會倫理性等原因,可能研究收集的數(shù)據(jù)較少,這就導(dǎo)致每個數(shù)據(jù)對研究人員來說都彌足珍貴,并且由于樣本量較小,一個數(shù)據(jù)的變化可能就會影響整個研究的結(jié)果。在這種情況下如果出現(xiàn)了缺失值,不當?shù)奶幚矸绞綄韲乐氐慕Y(jié)果,千里大堤潰于蟻穴。
缺失值對心理學研究可能會產(chǎn)生如此之大的危害,那么缺失值又是如何產(chǎn)生的呢?
1.1 被試因素
一個心理學的研究,被試自身的態(tài)度對研究結(jié)果有著至關(guān)重要的影響。例如,在某些心理學研究中由于涉及一些比較敏感的信息,被試在完成這樣的研究時可能基于對自我的保護,并不會認真的完成調(diào)查或干脆不予配合,這就導(dǎo)致了缺失值的出現(xiàn)。其次,由于社會贊許等現(xiàn)象的存在,被試也會不按真實的情況如實完成研究,有時在問卷調(diào)查中因沒有符合自己要求的答案而棄選,從而造成缺失值的出現(xiàn)。最后,也有可能是被試在作答時確實是因為對題目的遺漏而導(dǎo)致沒有作答。
1.2 研究本身因素
由于心理學屬于社會學科,在其進行的研究中,并不是每個研究的設(shè)計都完美無缺,特別是有些不是很嚴謹?shù)膯柧碚{(diào)查研究,問卷本身設(shè)計的不恰當,就已經(jīng)對研究的結(jié)果的可信性埋下了隱患。例如:問卷題目設(shè)計的不嚴謹,使被試在進行作答時感覺到疑惑,從而沒有作答。其次,問卷內(nèi)容過多,題目過長,這都會使被試產(chǎn)生疲倦感,促使他們應(yīng)付了事或者直接跳躍式作答。最后,對于實驗研究來說,實驗儀器的故障也是導(dǎo)致缺失值的因素之一。
1.3 主試因素
在心理學研究中,主試起到的是一個引導(dǎo)的作用,雖然不是被研究者,但是其本身所具有的屬性,也會對研究結(jié)果產(chǎn)生影響。一個嚴格的心理學研究必須要包括對主試的培訓過程,即讓主試熟悉研究目的,研究注意事項等等,然而有些研究因為經(jīng)費、時間等原因并沒有重視這一步驟,從而導(dǎo)致主試缺乏一些基本的問題應(yīng)對技巧,不能夠在研究過程中發(fā)現(xiàn)問題,或是在被試出現(xiàn)問題時沒有及時糾正。其次,在數(shù)據(jù)錄入時,由于主試的粗心,導(dǎo)致在錄入時出現(xiàn)錯錄、漏錄等現(xiàn)象。最后,主試對于數(shù)據(jù)分析軟件的操作不當也會導(dǎo)致數(shù)據(jù)的丟失。以上這些因素都可能會產(chǎn)生缺失值從而對研究產(chǎn)生負面影響。
2 常見的缺失值處理方法
倘若在研究中已經(jīng)無可避免的出現(xiàn)了數(shù)據(jù)的缺失,則必須采用一些辦法來填補這些缺失值,減小其對研究結(jié)果的影響。常見的處理方法有以下幾種。
2.1 個案剔除法(Listwise Deletion)
該方法是最常見也最簡單的缺失值處理方法,在很多統(tǒng)計軟件(例如:SPSS)中該方法作為默認的處理方法。該方法的處理思路是,如果在研究的某一變量上存在數(shù)據(jù)缺失,則將該被試的所有數(shù)據(jù)從統(tǒng)計分析中刪除。當缺失值的數(shù)量占數(shù)據(jù)總數(shù)量的比例沒有超過20%時,使用這種方法可以很好地解決數(shù)據(jù)缺失的問題。然而在某些研究中,研究所取得的數(shù)據(jù)量很小,如果出現(xiàn)缺失值,使用剔除法進行處理,由于該方法的特點,勢必會再次減少樣本的容量,這樣就會嚴重影響數(shù)據(jù)的客觀性與準確性。同時,當數(shù)據(jù)是非隨機分布時,使用這種方法會導(dǎo)致數(shù)據(jù)發(fā)生偏離,使最終的數(shù)據(jù)分析產(chǎn)生錯誤的結(jié)論。其次,由于被試某一變量存在缺失值而剔除該被試所有的數(shù)據(jù),這會造成資源的大量浪費,很可能丟失了隱藏在其中的重要信息。
2.2 均值替換法(Mean Imputation)
與個案剔除法不同的是,均值替換法不需要刪除被試的數(shù)據(jù),這樣就保留了與缺失變量無關(guān)的其他變量的信息,最大程度上的保證了數(shù)據(jù)的真實性與完整性。在心理學研究中,我們將變量的屬性分為數(shù)值型與非數(shù)值型,對于不同類型的變量缺失值,使用不同的替換方法。當缺失值為數(shù)值型,就根據(jù)該變量其他所有對象的取值平均值來填充該缺失值;但缺失值屬于非數(shù)值型則根據(jù)統(tǒng)計學中的眾數(shù)原理,用該變量在其他所有對象的取值次數(shù)最多的值來填補這個缺失值。均值替換法雖然簡單,但是使用這種方法可能會產(chǎn)生有偏估計,并且使用該方法的前提假設(shè)是缺失值的產(chǎn)生是完全隨機的。
2.3 熱卡填充法(Hotdecking)
對于存在缺失值的變量,熱卡填充法首先在數(shù)據(jù)中找到一個與它最相似的對象,然后用這個對象的值進行填充。不同的問題選擇的標準也會不同。一般最常用的是相關(guān)矩陣,即確定缺失值所在的變量A與變量B最相關(guān),然后將所有個案的B的取值從小到大排序,變量A的值就可以用排在此位置的變量B的值代替。
2.4 回歸替換法(Regression Imputation)endprint
回歸替換法利用回歸方程的特點,所限選擇若干個預(yù)測缺失值的自變量,然后建立回歸方程來估計該缺失值,利用缺失數(shù)據(jù)的條件期望值對缺失值進行替換。這種方法利用了數(shù)據(jù)庫中盡可能多的信息。這種方法也存在其自身的缺陷,首先,由于該方法的理論基礎(chǔ)是回歸方程,那么研究人員在使用該方法前必須要確定缺失值所在的變量與其他變量存在線性關(guān)系。其次,基于回歸方程的估計雖然是無偏估計,但卻容易忽略隨機誤差的影響,低估標準差和其他未知性質(zhì)的測量值,這個問題會隨著缺失值的增多而變得更加嚴重。
2.5 多重替代法(Multiple Imputation)
Rubin等人于1987年建立起該方法,該方法的特點在于不是使用單一的數(shù)值來替換缺失值,而是試圖建立一個隨機的樣本來估計缺失值。首先,用一系列可能的值來替換每一個缺失值,以反映被替換的缺失值的不確定性。然后,用標準的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計值。通過這種方法,研究人員不僅可以對缺失值進行填充,還可以在不刪除任何數(shù)據(jù)的情況下,對數(shù)據(jù)的未知性質(zhì)進行判斷。在缺失較少時(10%~20%),采用多重替代法準確度、精確度高于其他方法,且只需較低的填充次數(shù)即可達到較好的效果,填充后的分布接近完整數(shù)據(jù)集分布,并能很好地反映完整數(shù)據(jù)集的準確度,其處理結(jié)果與“實際情況”較接近。
2.6 期望最大化法(Expectation Maxim ization)
該方法常用于對實驗缺失值的處理。1930年Allan和威沙特Wishart首先提出插補單一不完整數(shù)據(jù)的觀念,并提出了對單一缺失值的估計方法;Yates于1933年在其基礎(chǔ)上進行改良,利用解聯(lián)立方程組的技巧,將之推廣到幾個缺失值的插補; Laird和Rubin(1977)利用極大似然估計發(fā)展出“EM”迭代算法計算缺失值的方法。EM迭代法估計缺失值的基本思想是,當數(shù)據(jù)出現(xiàn)缺失值,首先以其它觀測值計算估計總平均值、處理效應(yīng)及區(qū)組效應(yīng),再采用迭代方式,將上述估計的總平均值、處理效應(yīng)及區(qū)組效應(yīng)代入到原來的缺失值位置,重新計算總平均值、處理效應(yīng)和區(qū)組效應(yīng),再將重新計算的這些值代入重新估計,以此類推,直到前后兩次的估計值差異較小時停止。
以上六種缺失值的處理方法各有各的特點,在使用他們進行數(shù)據(jù)處理時,需要根據(jù)不同的情況合理選擇處理方法。不同的處理方法有時會帶來不同的結(jié)果,例如使用個案剔除法進行數(shù)據(jù)處理后,各變量的標準差可能會明顯的增大,而當使用均值替換法時,各變量的標準差可能會明顯的偏小。
缺失值的處理需要考慮缺失數(shù)據(jù)產(chǎn)生的原因、缺失值所占的比例、研究人員的研究能力、時間條件等因素,具體情況具體分析。與后期通過數(shù)據(jù)處理的方式來彌補缺失值,研究人員更應(yīng)該注重的是研究的實施過程,只要把好研究的每一道關(guān),就能夠盡力避免缺失值的產(chǎn)生,磨刀不誤砍柴工,希望廣大的研究人員能夠深刻理解這個道理。
參考文獻
[1] 張朝雄,沈昱,張慧.缺失數(shù)據(jù)插補方法比較研究[J].市場研究,2007(9):33-35.
[2] 花琳琳,施念,楊永利,等.不同缺失值處理方法對隨機缺失數(shù)據(jù)處理效果的比較[J].鄭州大學學報(醫(yī)學版),2012,47(3):315-318.
[3] 戴穩(wěn)勝,謝邦昌.實驗設(shè)計中缺失值的處理[J].統(tǒng)計與決策,2009(9):6-7.endprint