有關(guān)心理統(tǒng)計(jì)的三個(gè)疑問

2010-07-02 01:27:18辛自強(qiáng)

華南師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) 2010年1期

關(guān)鍵詞：理論測量心理

辛自強(qiáng)

（北京師范大學(xué)發(fā)展心理研究所，北京100875）

有關(guān)心理統(tǒng)計(jì)的三個(gè)疑問

辛自強(qiáng)

（北京師范大學(xué)發(fā)展心理研究所，北京100875）

統(tǒng)計(jì)學(xué)在心理學(xué)研究中的作用似乎是確定無疑，然而，本文提出了三個(gè)疑問：心理量能統(tǒng)計(jì)嗎？統(tǒng)計(jì)結(jié)果“顯著”就足夠了嗎？統(tǒng)計(jì)模型與理論模型相距有多遠(yuǎn)？在對(duì)三個(gè)問題的分析中，試圖說明：統(tǒng)計(jì)學(xué)作為心理學(xué)的工具，當(dāng)然很重要，但更重要的是對(duì)心理進(jìn)行有效測量，提高變量的測量水平和測量的有效性是心理學(xué)的根本任務(wù)。在數(shù)據(jù)分析過程中，應(yīng)該加強(qiáng)對(duì)統(tǒng)計(jì)方法和結(jié)果的理論思考，糾正一些錯(cuò)誤的統(tǒng)計(jì)規(guī)范和做法，彌補(bǔ)“零假設(shè)顯著性檢驗(yàn)”的不足。

心理統(tǒng)計(jì)學(xué)；測量學(xué)；零假設(shè)顯著性檢驗(yàn)；理論模型

技術(shù)的發(fā)展通常是以解放人的責(zé)任為目的的。比如，傻瓜相機(jī)是一種技術(shù)進(jìn)步，其目的是讓不懂照相原理的人也可以照出不錯(cuò)的照片來（景深、光圈、焦距、曝光時(shí)間等術(shù)語多繁瑣?。?，由此使照相機(jī)很快普及了。統(tǒng)計(jì)軟件的發(fā)展也有類似目的和功效。今天學(xué)習(xí)心理學(xué)的人幾乎都要學(xué)習(xí)統(tǒng)計(jì)原理和統(tǒng)計(jì)軟件（如SPSS，LISREL，AMOS等），無論本科生還是研究生都非常重視統(tǒng)計(jì)方法的學(xué)習(xí)，而且尤其熱衷學(xué)習(xí)復(fù)雜的統(tǒng)計(jì)方法。目前，心理學(xué)乃至其他學(xué)科中的統(tǒng)計(jì)教育和統(tǒng)計(jì)應(yīng)用，形勢(shì)一片大好，然而也伴隨著很多值得思考的問題。作者本人并不是專業(yè)學(xué)習(xí)并研究統(tǒng)計(jì)學(xué)的，而是和很多同行一樣只是用用統(tǒng)計(jì)而已，在自己的專業(yè)實(shí)踐中（如統(tǒng)計(jì)分析、論文寫作和評(píng)審）遇到了很多令人苦惱的問題，結(jié)合以往文獻(xiàn)，本文就目前的統(tǒng)計(jì)實(shí)踐提出三點(diǎn)疑問，并闡述一些粗淺的看法，以就教于各位專家。本文或許有“潑冷水”的嫌疑，但其初衷是自我反思和自我批評(píng)。

一、心理量可以統(tǒng)計(jì)嗎？

（一）統(tǒng)計(jì)方法與測量水平的不匹配

隨著統(tǒng)計(jì)軟件的普及，做統(tǒng)計(jì)分析變得容易，似乎只要有數(shù)據(jù)就可以計(jì)算，就可以統(tǒng)計(jì)，以致于有的研究不再關(guān)心數(shù)據(jù)的測量學(xué)品質(zhì)，而沉醉于擺弄統(tǒng)計(jì)的花樣。目前整個(gè)學(xué)界應(yīng)用的統(tǒng)計(jì)方法“進(jìn)展”很快，且日趨“高級(jí)”，而所統(tǒng)計(jì)的數(shù)據(jù)本身的測量水平和質(zhì)量卻很未必盡如人意。

每種統(tǒng)計(jì)方法對(duì)數(shù)據(jù)的性質(zhì)都有明確的要求，實(shí)際上，我們卻經(jīng)常在測量水平達(dá)不到的情況下應(yīng)用統(tǒng)計(jì)公式。幾乎在每本教育統(tǒng)計(jì)學(xué)或心理統(tǒng)計(jì)學(xué)這類應(yīng)用統(tǒng)計(jì)學(xué)教科書的開頭都要講清楚變量類型的劃分。比如，根據(jù)Stevens在1946年對(duì)測量水平的劃分［1］，嚴(yán)格區(qū)分稱名變量、順序變量、等距變量與等比變量。這些變量的性質(zhì)不同，對(duì)數(shù)學(xué)運(yùn)算的要求也不同：稱名變量的數(shù)據(jù)只是事物代碼，不能做數(shù)學(xué)四則運(yùn)算，在統(tǒng)計(jì)上可以計(jì)算頻次，做卡方檢驗(yàn)；順序變量表示的是等級(jí)和次序，也不能做四則運(yùn)算，在統(tǒng)計(jì)上可以求中數(shù)、百分位數(shù)；等距變量，則可以做加減運(yùn)算，本身不能被乘除，在統(tǒng)計(jì)上可以計(jì)算平均數(shù)、標(biāo)準(zhǔn)差、相關(guān)系數(shù)，能做回歸分析、方差分析；等比變量，可以做加減乘除及其他數(shù)學(xué)運(yùn)算，可以用于像等距變量那樣的統(tǒng)計(jì)分析以及其他處理。這四類變量實(shí)際上是四種測量尺度的結(jié)果，稱名變量測量水平最低，從前到后測量水平依次增高，最高的是等比變量。

根據(jù)Stevens的觀點(diǎn)［1］，心理學(xué)中沒有等比變量，等距變量都不多見，頂多是順序變量比較常見。比如，能力測驗(yàn)分?jǐn)?shù)、考試分?jǐn)?shù)（百分制）嚴(yán)格講屬于順序變量，還達(dá)不到等距變量水平，因?yàn)?0分只表示比60分多（分?jǐn)?shù)大小能表示順序），但從60分到80分的距離和從80分到100分的距離并不相等（分?jǐn)?shù)沒有相等單位，即無等距）。心理學(xué)用到的一些等比變量通常只是物理學(xué)變量，如反應(yīng)時(shí)以及心理物理學(xué)實(shí)驗(yàn)中表示外界刺激強(qiáng)度的某些物理量（長度、體積），但所有心理量都不是等比變量?？傊?，每本教科書關(guān)于變量測量水平的劃分都言之鑿鑿。

然而，頗有諷刺意味的是，幾乎所有的心理統(tǒng)計(jì)學(xué)教科書和統(tǒng)計(jì)方法的應(yīng)用在變量測量水平問題上都沒有“自我同一”：我們一方面堅(jiān)信心理學(xué)中幾乎沒有等距和等比量尺意義上的數(shù)據(jù)，也就是說沒有可以進(jìn)行算術(shù)運(yùn)算的數(shù)據(jù)，然而另一方面我們卻在使用各種以算術(shù)運(yùn)算為基礎(chǔ)的統(tǒng)計(jì)方法，并不斷追求使用更復(fù)雜的統(tǒng)計(jì)方法。說白了，所有的心理統(tǒng)計(jì)都是建立在錯(cuò)誤的假定基礎(chǔ)上的：我們收集的數(shù)據(jù)可以運(yùn)算，然而，實(shí)則不可。

是不是心理學(xué)研究就不該做統(tǒng)計(jì)呢？至少不能對(duì)心理量計(jì)算平均數(shù)、標(biāo)準(zhǔn)差以及做以此為基礎(chǔ)的各種推論統(tǒng)計(jì)呢？除了很多人嚴(yán)肅地支持Stevens的觀點(diǎn)外，也有少數(shù)學(xué)者嚴(yán)肅地認(rèn)為可以做統(tǒng)計(jì)，并試圖提出主觀感覺量可累加的證據(jù)。然而，絕大多數(shù)做心理統(tǒng)計(jì)的人，對(duì)此問題并不會(huì)做嚴(yán)肅的考慮，其結(jié)果就是：一方面Stevens關(guān)于數(shù)據(jù)測量水平劃分的觀點(diǎn)被廣泛接受，另一方面，實(shí)際做起統(tǒng)計(jì)時(shí)大家都不再理會(huì)或忘掉了這個(gè)觀點(diǎn)。關(guān)于“心理量能不能做統(tǒng)計(jì)”這樣一個(gè)極為復(fù)雜的問題，我無法提供簡單肯定或否定的答案。之所以重提這樣的疑問是想指出，心理學(xué)的根本困難不是統(tǒng)計(jì)而是測量，我們的任務(wù)是克服測量或量化的困難。

（二）心理學(xué)的根本任務(wù)不是統(tǒng)計(jì)而是測量

統(tǒng)計(jì)的前提是獲得數(shù)據(jù)，沒有數(shù)據(jù)，統(tǒng)計(jì)學(xué)就派不上用場。數(shù)據(jù)哪里來？測量。測量的本質(zhì)是以數(shù)值度量并表達(dá)心理現(xiàn)象。如上所述，理論上講，我們可以在不同的水平上測量心理，從而獲得稱名的、順序的、等距的、等比的數(shù)據(jù)。對(duì)測量數(shù)據(jù)進(jìn)行運(yùn)算的前提是尋找單位，即至少保證數(shù)據(jù)是等距的，當(dāng)然最好是等比的（不僅有單位，還存在絕對(duì)0點(diǎn)）。只有數(shù)據(jù)獲得了單位時(shí)，我們才能說真正對(duì)心理作了“度量”，得到了皮亞杰所謂的“度量量”［2］，包括等距和等比變量。所以皮亞杰講，“度量和數(shù)的應(yīng)用都必須以建立‘單位’為前提，也就是要有為求同而可能忽視異質(zhì)的那種對(duì)要素的考慮”。［2］37心理學(xué)面臨的最大困難是缺乏計(jì)量單位，而只能在順序或等級(jí)意義上測量，有時(shí)只是用數(shù)字來作為代碼而已（即稱名變量，這時(shí)數(shù)字只是一個(gè)代號(hào)，而非數(shù)值）。

雖然目前心理學(xué)廣泛使用測量方法，但絕大多數(shù)心理學(xué)的數(shù)據(jù)還算不上度量量，雖然我們假設(shè)成（或錯(cuò)誤地假設(shè)成）度量量來統(tǒng)計(jì)處理。正如，皮亞杰指出的，“測驗(yàn)法和多種多樣的‘心理物理法’能夠提供無數(shù)的所謂測量數(shù)據(jù)，因?yàn)檫@些數(shù)據(jù)只側(cè)重于行為的當(dāng)前可測量的方面，也就是說，側(cè)重于反應(yīng)的結(jié)果，或者如果人們?cè)敢膺@樣說的話，側(cè)重于‘性能’。但是，就這些結(jié)果而言，還談不上是計(jì)量單位。”［2］39就如前文我們舉例說明的，能力測驗(yàn)分?jǐn)?shù)沒有共同單位。皮亞杰接著指出：“尤其重要的是，對(duì)結(jié)果的測量還不能告訴我們所觀察的反應(yīng)的內(nèi)部機(jī)制，而要測量的正是這種內(nèi)部機(jī)制?！傊?，心理學(xué)的測量方法提供了一些數(shù)據(jù)，這些數(shù)據(jù)對(duì)細(xì)節(jié)的比較并從各種智力運(yùn)算的結(jié)果這個(gè)觀點(diǎn)來說都是有用的，但它們達(dá)不到智力運(yùn)算本身，因?yàn)槿狈δ軌蛴晒菀虻娜魏螁挝恢啤！保?］39皮亞杰看到了心理學(xué)問題的本質(zhì)：我們的很多研究只是測量外在結(jié)果，而無法測量內(nèi)部過程和機(jī)制本身，只好基于對(duì)前者的測量推測后者，而后者卻是我們最為關(guān)心的。這就是心理學(xué)面臨的基本困難——我們無法直接測量心理過程本身，無法為心理找到“單位”，由此，心理學(xué)里沒有度量量，我們只好強(qiáng)行對(duì)不能運(yùn)算的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。

換個(gè)角度來說，所有的對(duì)心理的量化，量化的都不是心理過程本身，我們對(duì)心理過程的研究都是間接的、推測式的。如果能找到測量單位，以此直接度量心理本身，那么心理學(xué)才會(huì)出現(xiàn)真正的“革命”。能夠帶來根本意義上的心理學(xué)研究范式革命的不是統(tǒng)計(jì)學(xué)，而只可能是測量學(xué)。如果能將心理測量提高到更高的水平（等距水平、等比水平），心理學(xué)將會(huì)獲得和嚴(yán)格自然科學(xué)一樣的地位。然而，這種可能性，目前幾乎看不到。所以，基于數(shù)據(jù)統(tǒng)計(jì)來做研究的心理學(xué)家，都只好接受這個(gè)“掩耳盜鈴”的假定：假定測得的數(shù)據(jù)是有單位的（等距或等比變量），然后“大肆”進(jìn)行統(tǒng)計(jì)分析。

這里之所以指出統(tǒng)計(jì)和測量之間的這個(gè)根本矛盾，并不是說我能克服它，目前還沒有解決這個(gè)問題的有效方法。我只是想提請(qǐng)人們特別是年輕的研究者注意，我們應(yīng)該努力解決測量問題，而不是把主要精力放在統(tǒng)計(jì)方法上。數(shù)據(jù)本身還是個(gè)問題呢，統(tǒng)計(jì)又有何用？雖然根本上提高數(shù)據(jù)測量尺度的水平是很困難的，但卻可以想方設(shè)法提高數(shù)據(jù)本身的質(zhì)量，即保證數(shù)據(jù)能代表我們理論上假定的變量，保證測量的效度。有了高質(zhì)量的數(shù)據(jù)，統(tǒng)計(jì)并不是困難的事情，數(shù)學(xué)系總有人會(huì)做，但數(shù)學(xué)家不能幫助我們解決心理的測量問題。

二、統(tǒng)計(jì)結(jié)果“顯著”是否足夠？

（一）零假設(shè)的顯著性檢驗(yàn)

與上文的“心理量能否統(tǒng)計(jì)”這樣的根本問題相比，這里關(guān)注的“統(tǒng)計(jì)結(jié)果‘顯著’是否足夠”的問題，主要是個(gè)技術(shù)層面的問題。在心理學(xué)研究過程中，我們最擔(dān)心的通常是能否找到夢(mèng)寐以求的統(tǒng)計(jì)“顯著性”，最關(guān)心的是找到幾顆星號(hào)。通常，如果p小于0.05、0.01、0.001這些臨界值時(shí)，我們會(huì)分別在統(tǒng)計(jì)量上標(biāo)上一顆、二顆、三顆星號(hào)。所以，心理統(tǒng)計(jì)有點(diǎn)找星號(hào)游戲的味道，星號(hào)對(duì)于我們，就像制服上的星星對(duì)于軍官一樣重要。

在心理統(tǒng)計(jì)中，核心的邏輯是“零假設(shè)顯著性檢驗(yàn)”（Null Hypothesis Significance Testing，NHST），即p值方法［3］，根據(jù)p值大小決定是接受，還是拒絕零假設(shè)。p值是一種概率，是指在零假設(shè)成立的前提下，獲得現(xiàn)有檢驗(yàn)統(tǒng)計(jì)量值（如t，z，F(xiàn)等）以及比該值更為極端情況下的概率。判定p值大小的標(biāo)準(zhǔn)，就是人為確定的顯著性水平，比如0.05、0.01、0.001這些常用的臨界值。如果統(tǒng)計(jì)得到的p值比臨界值小，比如小于0.05，就在0.05的顯著性水平上拒絕零假設(shè)，而接受備擇假設(shè)；反之，不能拒絕零假設(shè)，只好接受它。我們只能表述某種結(jié)果“在統(tǒng)計(jì)上是否顯著”，如果顯著，則意味著隨機(jī)因素不能解釋這個(gè)結(jié)果，而只好歸結(jié)為某種“必然性”（仍是統(tǒng)計(jì)上的必然性）。

然而，零假設(shè)顯著性檢驗(yàn)自身存在的缺陷一直被很多學(xué)者所詬病。一方面，證明零假設(shè)“不對(duì)”，或者拒絕零假設(shè)的做法，本身沒有實(shí)際意義。在統(tǒng)計(jì)檢驗(yàn)時(shí)，我們通常期望通過拒絕零假設(shè)來獲得對(duì)備擇假設(shè)（這是我們期望證實(shí)的）的確證。比如，零假設(shè)是“隨機(jī)分配到A、B兩個(gè)實(shí)驗(yàn)條件下的樣本來自的總體平均數(shù)是相等的”，然而，世界上有多少事物是完全相等的呢？Tukey指出，“去問‘A和B的效應(yīng)有不同嗎’這是愚蠢的，它們總是不同的——在小數(shù)點(diǎn)后某個(gè)數(shù)位上?！保?］100哪怕兩個(gè)樣本的平均數(shù)之間只有細(xì)小的差異（比如0.2、0.02、0.0002），只要樣本量足夠大，我們就能證明差異是“顯著的”，總是能拒絕零假設(shè)。實(shí)際上，如同Cohen認(rèn)為的，“零假設(shè)總是錯(cuò)的”［5，6］。既然零假設(shè)總是錯(cuò)的，我們?yōu)槭裁催€要費(fèi)力拒絕它呢？從心理學(xué)角度來看，拒絕零假設(shè)通常難以給我們?cè)黾佣嗌儆袃r(jià)值的專業(yè)知識(shí)。零假設(shè)通常假定兩個(gè)變量的相關(guān)系數(shù)為0，實(shí)驗(yàn)組和對(duì)照組平均數(shù)相同。然而，證明相關(guān)不等于0又能說明什么？世界上相關(guān)的事物太多了。在個(gè)體內(nèi)匹配數(shù)據(jù)，發(fā)現(xiàn)二者不相關(guān)倒是很奇怪的事情，共同方法效應(yīng)（如答題風(fēng)格、作答方式的影響）帶來的誤差都足以讓一個(gè)人回答的兩份問卷結(jié)果存在顯著相關(guān)。在心理學(xué)實(shí)驗(yàn)中，難道我們就滿足于實(shí)驗(yàn)組的平均數(shù)和對(duì)照組不一樣嗎？如果是干預(yù)實(shí)驗(yàn)，我們費(fèi)了那么多人力物力去干預(yù)，如果只表明實(shí)驗(yàn)組和對(duì)照組得分不一樣，而不是差異足夠大，實(shí)驗(yàn)還有何“效益”可談？

另一方面，如Cohen指出的，現(xiàn)行的假設(shè)檢驗(yàn)本身存在邏輯上的漏洞［6］。很多教科書或教師都會(huì)這么表述“拒絕零假設(shè)”的邏輯：如果零假設(shè)是正確的，那么這樣的統(tǒng)計(jì)結(jié)果（比如p小于0.05）就不會(huì)出現(xiàn)；然而，這樣的統(tǒng)計(jì)結(jié)果已經(jīng)出現(xiàn)了，因此零假設(shè)是錯(cuò)誤的。如果“拒絕零假設(shè)”的邏輯果真是這樣的，那么其通過“否定結(jié)果來否定前提”邏輯在形式上是沒問題的。不過，這個(gè)慣常的表述實(shí)際上是不準(zhǔn)確的，它忽視了假設(shè)檢驗(yàn)的概率性質(zhì)。而準(zhǔn)確的表述應(yīng)該是：如果零假設(shè)是正確的，那么這樣的統(tǒng)計(jì)結(jié)果（比如p小于0.05）就是很不可能的（不是完全不可能）；然而，這樣的統(tǒng)計(jì)結(jié)果已經(jīng)出現(xiàn)了，因此零假設(shè)是很不可能的。關(guān)鍵的問題是，在這種概率性的表述中，否定結(jié)果并不必然否定前提，可見現(xiàn)行“拒絕零假設(shè)”的邏輯存在漏洞［6］。

除了上述邏輯問題外，還應(yīng)指出，p值的大小，并不能說明研究結(jié)果的重要性或變量關(guān)系的“顯著性”。它只表示p值越小，拒絕零假設(shè)時(shí)可能犯錯(cuò)誤的機(jī)會(huì)或概率越小。然而Wright指出，在對(duì)統(tǒng)計(jì)結(jié)果的表述和理解上存在很多誤解［3］。

誤解之一是，將統(tǒng)計(jì)檢驗(yàn)的“顯著性”錯(cuò)誤地看作變量關(guān)系的強(qiáng)度。如將“無顯著意義”誤認(rèn)為“兩組均數(shù)基本相同”，或者“兩個(gè)變量沒關(guān)系”；將“差異顯著”誤認(rèn)為“兩均數(shù)差別很大”或“兩個(gè)變量關(guān)系很強(qiáng)”（有時(shí)哪怕“統(tǒng)計(jì)結(jié)果極其顯著”，也不能這么說）。零假設(shè)的顯著性檢驗(yàn)很容易受到樣本大小的影響。以平均數(shù)的差異檢驗(yàn)為例，在統(tǒng)計(jì)量（如t）的計(jì)算中，樣本大小部分決定了結(jié)果。當(dāng)平均數(shù)的差異固定時(shí)，樣本越大，獲得的p值越小，樣本越小，獲得的p值越大。也就是說，樣本大小將影響結(jié)果的顯著性與否。可見，統(tǒng)計(jì)結(jié)果的顯著性與否并不能推論到兩個(gè)平均數(shù)差異的大小。當(dāng)樣本很大時(shí)，兩個(gè)平均數(shù)之間細(xì)微的差異，都可能是“統(tǒng)計(jì)上顯著的”，然而，這種差異可能沒有實(shí)際意義?？傊?，統(tǒng)計(jì)上的“顯著性”與變量關(guān)系強(qiáng)度并非一碼事。然而，當(dāng)我們得到統(tǒng)計(jì)上顯著的結(jié)果（尤其是“非常顯著”或“極其顯著”），我們特別容易不自覺地相信變量關(guān)系是很強(qiáng)的，并做出類似表述或理解。

誤解之二是，將顯著性水平0.05、0.01、0.001這些取值神圣化。實(shí)際上這些取值只是習(xí)慣的沿襲，沒有多少數(shù)學(xué)上的必然性，更沒有考慮到研究內(nèi)容和領(lǐng)域的要求。在一定的條件下（如一個(gè)標(biāo)準(zhǔn)大氣壓下），水的沸點(diǎn)是100攝氏度，這個(gè)溫度上的100是水從液態(tài)轉(zhuǎn)為氣態(tài)的臨界值，具有實(shí)際的物理學(xué)意義。然而，統(tǒng)計(jì)檢驗(yàn)的顯著性水平只是人為地、武斷地劃定的標(biāo)準(zhǔn)。如果顯著性水平定為0.05，那么算出的p值為0.055就意味著不能拒絕零假設(shè)，這種根據(jù)顯著性水平所做的二值判斷（接受或拒絕）有時(shí)顯得過于粗暴和無理，沒有看到概率的連續(xù)意義［5］。所以，Rosnow和Rosenthal這樣寫道：“肯定的，上帝幾乎和喜愛0.05一樣喜愛0.06。上帝將支持和反對(duì)零假設(shè)的證據(jù)的力量視作p值大小的一個(gè)非常連續(xù)的函數(shù)，這難道還有什么疑問嗎？”［7］1277

順便說一下，在心理統(tǒng)計(jì)學(xué)中，存在許多類似的臨界值或“標(biāo)準(zhǔn)”的神話。比如，因素分析中特征根大于1的標(biāo)準(zhǔn)，信度中alpha大于0.7的標(biāo)準(zhǔn)，結(jié)構(gòu)方程模型擬和指標(biāo)的標(biāo)準(zhǔn)（各種指標(biāo)都有具體標(biāo)準(zhǔn)，比如GFI要大于0.9）。統(tǒng)計(jì)的結(jié)果在標(biāo)準(zhǔn)的這邊還是那邊，似乎就決定了研究結(jié)果是否令人滿意，決定了論文能否發(fā)表，決定了研究者的人生悲喜。在各種標(biāo)準(zhǔn)神話面前，研究者很容易放棄自己的理論思考，而把研究的責(zé)任交給計(jì)算機(jī)和這些機(jī)械的判定標(biāo)準(zhǔn)。以探索性因素分析為例，很多研究者根本不去對(duì)項(xiàng)目內(nèi)容和維度的結(jié)構(gòu)做理論分析，而只是讓計(jì)算機(jī)抽取所有特征根大于1的因素，然后給每個(gè)因素想當(dāng)然地取個(gè)名字，由此堅(jiān)信自己找到了量表的結(jié)構(gòu)，用該量表測試另一個(gè)樣本時(shí)就再次采用“事后諸葛亮”的方法確定另一些因素及其結(jié)構(gòu)。然而，研究者卻不能回答這些項(xiàng)目構(gòu)成一個(gè)因素的道理何在，因?yàn)楹芏嚯`屬于一個(gè)因素的項(xiàng)目從內(nèi)容上本來就“風(fēng)馬牛不相及”，只是數(shù)據(jù)計(jì)算時(shí)碰巧有關(guān)聯(lián)而已。我并非是說，完全不要考慮這些標(biāo)準(zhǔn)，但一定在應(yīng)用統(tǒng)計(jì)方法的同時(shí)加強(qiáng)理論的思考和說明。

（二）如何報(bào)告統(tǒng)計(jì)結(jié)果

由于零假設(shè)顯著性檢驗(yàn)本身的邏輯缺陷和諸多誤解，Cohen甚至宣稱，零假設(shè)顯著性檢驗(yàn)不僅沒能推動(dòng)心理學(xué)的進(jìn)步，而且嚴(yán)重阻礙了它［6］。在心理學(xué)以及其他學(xué)科中，假設(shè)檢驗(yàn)的使用都被過分強(qiáng)調(diào)了，這使我們的注意力偏離了核心的專業(yè)問題［5］。

然而，目前零假設(shè)顯著性檢驗(yàn)依然被廣泛使用，而且沒有能替代它的“備擇方案”，所以如何更好地分析并報(bào)告統(tǒng)計(jì)結(jié)果，就是個(gè)很重要的問題。在這方面，很多學(xué)者如Cohen［5］和Wright［3］提出了一些共識(shí)性的建議。首要的事情，是加強(qiáng)對(duì)數(shù)據(jù)的描述統(tǒng)計(jì)。比如提供關(guān)于一個(gè)變量分布的基本描述統(tǒng)計(jì)（頻次、百分?jǐn)?shù)、平均數(shù)、標(biāo)準(zhǔn)差、峰度、偏態(tài)程度），關(guān)于兩個(gè)變量關(guān)系的散點(diǎn)圖。Cohen引用的John Tukey（1977）的觀點(diǎn)說：現(xiàn)代統(tǒng)計(jì)學(xué)對(duì)推論統(tǒng)計(jì)的強(qiáng)調(diào)，在一定程度上導(dǎo)致了數(shù)據(jù)分析靈活性的降低。我們?nèi)菀撞患偎妓鞯亟柚?jì)算機(jī)進(jìn)行推論統(tǒng)計(jì)，而很少認(rèn)真地對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)，很少細(xì)致深入地理解數(shù)據(jù)的性質(zhì)以及數(shù)據(jù)是否適合我們選定的推論統(tǒng)計(jì)方法［5］。因此，我們應(yīng)該努力避免這些問題。其次，要在論文的結(jié)果部分報(bào)告效果量的信息。如前面所述，零假設(shè)檢驗(yàn)存在一些根本的問題，而且容易被誤解，也缺乏對(duì)變量關(guān)系的直接考察，所以，只報(bào)告檢驗(yàn)所得的p值是不充分的，還要提供一些關(guān)于效果量的信息。

對(duì)于效果量，有很多文獻(xiàn)［3，8］作了介紹。效果量（effect size）表明了我們專業(yè)上所關(guān)心的效果和效應(yīng)的大小，比如實(shí)驗(yàn)處理效果如何，這是p值所不能傳遞的信息。因此，現(xiàn)在重要的學(xué)術(shù)刊物都要求既報(bào)告統(tǒng)計(jì)檢驗(yàn)結(jié)果是否顯著，又報(bào)告效果量指標(biāo)［9］，報(bào)告效果量的目的是便于不同研究所得效果量的比較。效果量指標(biāo)很多，但應(yīng)該采用容易被理解的、可比的、有意義的指標(biāo)。要保證有意義，就要報(bào)告測量效果量的單位。效果量的單位可以采用原始變量的單位，也可以采用標(biāo)準(zhǔn)化的單位［3］。例如，在某個(gè)測驗(yàn)上，10歲組比8歲組多做對(duì)4道題，或者，每周增加1小時(shí)的作業(yè)練習(xí)在這個(gè)測驗(yàn)上就多答對(duì)2道題，這都是有意義的信息。然而，由于不同研究的原始變量單位的差異，為了保證可比性，大多數(shù)情況下需要報(bào)告有標(biāo)準(zhǔn)單位的效果量。比如，實(shí)驗(yàn)組比對(duì)照組得分高1個(gè)標(biāo)準(zhǔn)差，或者每周作業(yè)時(shí)間能解釋答題正確率30%的變異。

常用的標(biāo)準(zhǔn)化的效果量指標(biāo)大致可以分為兩類，一類是反映各組平均數(shù)差異的，另一種是反映變量關(guān)聯(lián)強(qiáng)度或變異解釋率的。在實(shí)驗(yàn)研究中，我們通常關(guān)心的是實(shí)驗(yàn)組與控制組（對(duì)照組）平均數(shù)差異問題，除了對(duì)差異做“顯著性檢驗(yàn)”外，我們關(guān)心的研究中實(shí)驗(yàn)處理效果的大小，即研究的效果量，其常用統(tǒng)計(jì)指標(biāo)為d。這個(gè)指標(biāo)的計(jì)算方法由Cohen提出，并為Glass等［10，11］所完善。d主要說明實(shí)驗(yàn)研究中處理的效果量。用實(shí)驗(yàn)組平均數(shù)（M e）減去控制組平均數(shù)（M c）再除以兩組共同標(biāo)準(zhǔn)差（S），所得結(jié)果即為效果量d，因此它也可以理解為實(shí)驗(yàn)組與控制組平均數(shù)差異的標(biāo)準(zhǔn)分。能反映變量關(guān)聯(lián)強(qiáng)度的指標(biāo)就是r2，即決定系數(shù)，它表明了兩個(gè)變量之間共享的變異的比例。實(shí)際上，d、r2以及其他各種統(tǒng)計(jì)量（如F，t，卡方）都是相互關(guān)聯(lián)的，具體的轉(zhuǎn)換公式和報(bào)告方法可以參考有關(guān)文獻(xiàn)［8－11］。

關(guān)于如何改進(jìn)研究結(jié)果的報(bào)告，如何彌補(bǔ)或消除零假設(shè)顯著性檢驗(yàn)的不足和可能帶來的誤解，研究者還提出了其他一些措施，比如報(bào)告置信區(qū)間，計(jì)算統(tǒng)計(jì)檢驗(yàn)力等，這里不一一闡述。

三、統(tǒng)計(jì)模型與理論模型相距有多遠(yuǎn)？

（一）統(tǒng)計(jì)方法作為“科學(xué)環(huán)”的一部分

雖然統(tǒng)計(jì)方法本身可能存在問題，對(duì)統(tǒng)計(jì)方法的誤解和誤用更是普遍，但無論如何，統(tǒng)計(jì)方法的使用總是有些明確的規(guī)范，每個(gè)開始學(xué)習(xí)心理學(xué)的人都會(huì)接受這方面的專門的教導(dǎo)。相比之下，關(guān)于如何在統(tǒng)計(jì)模型和理論模型之間進(jìn)行合理推理的問題，非常缺乏“規(guī)范的”指導(dǎo)，甚至缺乏“指導(dǎo)性”的規(guī)范。然而，這個(gè)問題才是心理學(xué)真正的專業(yè)問題（畢竟統(tǒng)計(jì)的問題可以得到統(tǒng)計(jì)學(xué)家的幫助），它涉及到如何將心理學(xué)的理論建立在堅(jiān)實(shí)的經(jīng)驗(yàn)資料基礎(chǔ)上，關(guān)乎心理學(xué)的理論建設(shè)。

為什么強(qiáng)調(diào)理論模型和統(tǒng)計(jì)模型的對(duì)接問題呢？因?yàn)樵诙咧g建立關(guān)聯(lián)是科學(xué)研究最重要的環(huán)節(jié)之一，但是關(guān)于二者對(duì)接的邏輯卻非常復(fù)雜，很容易出現(xiàn)思路錯(cuò)誤。圖1是社會(huì)學(xué)家華萊士（W.Wallace）1971年提出的一個(gè)研究的流程模型——“科學(xué)環(huán)”（轉(zhuǎn)引自袁方、王漢生［12］93），它描述科學(xué)研究循環(huán)的邏輯。

圖1 華萊士的“科學(xué)環(huán)”

在這個(gè)科學(xué)環(huán)中，用方框表示五種狀態(tài)的知識(shí)：（1）理論；（2）假設(shè)；（3）經(jīng)驗(yàn)觀察；（4）經(jīng)驗(yàn)概括；（5）被檢驗(yàn)的假設(shè)。一項(xiàng)科學(xué)研究工作可能從任意一種狀態(tài)的知識(shí)開始，從而加入到這種科學(xué)循環(huán)中，在往復(fù)循環(huán)的過程中，研究日益深入，對(duì)規(guī)律的認(rèn)識(shí)從感性認(rèn)識(shí)上升到理性認(rèn)識(shí)，再上升到具體的理性認(rèn)識(shí)。在科學(xué)環(huán)中，這五種狀態(tài)的知識(shí)是由六套研究方法（以橢圓表示）連接起來的。它們是：（1）邏輯演繹的方法；（2）操作方法；（3）量度、測定與分析方法；（4）檢驗(yàn)假設(shè)的方法；（5）邏輯推論方法；（6）建立概念、命題和理論的方法。各種狀態(tài)的知識(shí)通過這些方法得以轉(zhuǎn)換。垂直中軸線的右側(cè)是從理論到經(jīng)驗(yàn)的演繹過程，左側(cè)是從經(jīng)驗(yàn)到理論的歸納和概括過程。在水平中軸線的上側(cè)是理論研究的過程，下側(cè)則屬于經(jīng)驗(yàn)研究的過程。一個(gè)完整的科學(xué)循環(huán)或者科學(xué)研究過程應(yīng)當(dāng)包括所有的這些過程，只有這樣才能建立起能夠解釋經(jīng)驗(yàn)且經(jīng)得起經(jīng)驗(yàn)檢驗(yàn)的理論。而事實(shí)上，一個(gè)具體的研究過程可能會(huì)簡單一些，只重點(diǎn)進(jìn)行某個(gè)環(huán)節(jié)上的工作。

這個(gè)“科學(xué)環(huán)”模型刻畫了研究的大致過程，說明了知識(shí)類型和方法類型及其關(guān)系。這里引用這個(gè)模型是想說明兩點(diǎn)。第一點(diǎn)是統(tǒng)計(jì)方法的地位。統(tǒng)計(jì)方法的應(yīng)用是這個(gè)科學(xué)環(huán)中的一部分，它非常重要，然而并非無它不可。在這個(gè)科學(xué)環(huán)模型的“外圈”的各種知識(shí)和方法已經(jīng)構(gòu)成完整的科學(xué)環(huán)。統(tǒng)計(jì)對(duì)于科學(xué)研究而言，是重要的，而非必要的，更非充分的。在心理學(xué)中，非常鼓勵(lì)統(tǒng)計(jì)方法的學(xué)習(xí)和應(yīng)用，目前這方面做得比較好；然而，其他環(huán)節(jié)的方法訓(xùn)練卻非常薄弱，這應(yīng)該引起人們的重視。特別要加強(qiáng)理論方法的訓(xùn)練，也就是科學(xué)環(huán)上半部分提到的邏輯演繹的方法，邏輯推論方法，以及建立概念、命題和理論的方法等。我想說明的第二點(diǎn)是，應(yīng)該深入理解統(tǒng)計(jì)工作與其前后相鄰的環(huán)節(jié)之間的關(guān)聯(lián)和差異。如前所述，測量學(xué)很重要，它主要提供了科學(xué)環(huán)中提及的操作方法，以及量度、測定與分析方法，這些都是經(jīng)驗(yàn)研究的方法。如果不能通過測量獲得高質(zhì)量的數(shù)據(jù)，也就無所謂統(tǒng)計(jì)的意義。如果不能從統(tǒng)計(jì)結(jié)果有效推論到心理學(xué)的理論命題，就忘掉了統(tǒng)計(jì)的目的。統(tǒng)計(jì)僅僅是科學(xué)研究過程的一環(huán)，我們需要明白常用的假設(shè)檢驗(yàn)的方法究竟有何用途，在科學(xué)環(huán)中處于什么地位。只有正確理解各種知識(shí)狀態(tài)的差異和層次，并利用合理的方法解決知識(shí)狀態(tài)的轉(zhuǎn)化問題，科學(xué)才能發(fā)展。

（二）統(tǒng)計(jì)與理論的距離

心理學(xué)的大部分研究報(bào)告都是建立在數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ)上的。然而，在統(tǒng)計(jì)工作的前前后后還有很多環(huán)節(jié)，目前在統(tǒng)計(jì)與理論關(guān)系的認(rèn)識(shí)上誤區(qū)最多，通常人們會(huì)忽視統(tǒng)計(jì)模型與理論模型的距離。下面舉例說明二者之間的復(fù)雜關(guān)系。

第一，統(tǒng)計(jì)能證明理論嗎？我們經(jīng)?？梢栽谘芯繄?bào)告中看到“統(tǒng)計(jì)證明理論”的提法和做法。比如，在問題提出中，綜述兩種相互矛盾的理論，來看自己的統(tǒng)計(jì)結(jié)果支持哪種理論；在討論中，聲稱自己的統(tǒng)計(jì)結(jié)果證明哪個(gè)理論是對(duì)的，哪個(gè)是錯(cuò)的。不過，這些提法值得商榷。心理學(xué)中有無數(shù)的理論，能夠直接被數(shù)據(jù)證明的理論卻寥寥無幾。因?yàn)榇蟛糠掷碚摱挤浅?fù)雜，是由許多命題組成的龐大的理論體系，如皮亞杰理論、信息加工理論，這些理論難以直接由經(jīng)驗(yàn)來證明，統(tǒng)計(jì)對(duì)這類理論幾乎毫無用武之地。即便很小的理論，如韋伯定律，也只有限制好條件，對(duì)變量操作測量后，才能以數(shù)據(jù)統(tǒng)計(jì)來證明。而且理論命題并不都是關(guān)于經(jīng)驗(yàn)問題的陳述，很多命題只是表述了邏輯問題，并不需要經(jīng)驗(yàn)研究去解決邏輯問題。數(shù)據(jù)代表經(jīng)驗(yàn)，數(shù)據(jù)統(tǒng)計(jì)所能證明的只是由理論推導(dǎo)出來的研究假設(shè)（這里的“假設(shè)”和理論假定是不同的），研究假設(shè)必須具體地表述變量關(guān)系。從理論到研究假設(shè)，從理論概念到操作概念再到可測定的變量之間都有很大的距離。所以，我們不能輕易地聲明數(shù)據(jù)統(tǒng)計(jì)能證明理論，除非在一些極端特定的情況下。這里我在最隨便的意義上使用了“證明”一詞，實(shí)際上，這個(gè)詞以及一些類似的詞語都要有區(qū)別地使用，比如“證實(shí)”、“證偽”、“確證”、“確認(rèn)”等，基于不同的科學(xué)哲學(xué)思想和研究的實(shí)際情況，我們要選擇合適的詞匯表述經(jīng)驗(yàn)和理論之間的關(guān)系。這個(gè)問題如此復(fù)雜，尚需專文展開論述。

第二，研究結(jié)果的表述要多具體？與理論和經(jīng)驗(yàn)之間的距離有關(guān)，我們究竟應(yīng)該在多么具體或抽象的程度上表述研究結(jié)果呢？舉例來說，我們關(guān)心的是學(xué)生的智商和學(xué)業(yè)成就的關(guān)系。智商、學(xué)業(yè)成就都是理論概念，關(guān)于智商的操作定義和測量方法有很多，學(xué)業(yè)成就也是如此。一項(xiàng)研究所獲得的直接統(tǒng)計(jì)結(jié)果通常是限定于特定的測量工具背景下的，或許在研究報(bào)告的討論部分我們應(yīng)該在一定的理論“高度”上抽象表達(dá)二者的關(guān)系。但無論如何，我們都不能忘記數(shù)據(jù)統(tǒng)計(jì)結(jié)果的限制條件，超出了這個(gè)條件的理論概括是存在風(fēng)險(xiǎn)的。當(dāng)操作定義和測量方法改變后，統(tǒng)計(jì)結(jié)果或許是另外一回事，其理論含義也許不同。在另一方面，過于具體的研究結(jié)果表述有時(shí)也可能是不妥的。比如，結(jié)果表明“大學(xué)生對(duì)高頻詞和低頻詞的反應(yīng)時(shí)有差異”，這就是個(gè)非常具體的統(tǒng)計(jì)結(jié)果，然而，很多時(shí)候我們不能停留在如此技術(shù)化的層面，而是要根據(jù)反應(yīng)時(shí)模型推論心理加工過程模型。否則，這類詞頻影響反應(yīng)時(shí)的結(jié)果，只是一種表淺的廢話。我們不能以統(tǒng)計(jì)結(jié)論代替心理學(xué)結(jié)論。總之，從統(tǒng)計(jì)結(jié)果到心理學(xué)結(jié)論，到心理學(xué)理論之間還有很多層次，我們究竟如何概括推論，如何表述結(jié)果，都是要慎重思考的，目前這方面還很難提出統(tǒng)一的規(guī)范，只能具體問題具體分析。

第三，統(tǒng)計(jì)模型與理論模型在術(shù)語上的差異。很多不同的概念因?yàn)樽置娴南嗨菩越?jīng)常會(huì)被混為一談，出現(xiàn)統(tǒng)計(jì)術(shù)語和理論術(shù)語的混淆。舉例說明，目前心理學(xué)中常用一個(gè)英文詞“interaction”，這個(gè)詞在不同背景下的含義有巨大差別。在統(tǒng)計(jì)學(xué)中，一般翻譯為“交互作用”。以方差分析為例，若考察自變量A、B與因變量C的關(guān)系，通常要考察A、B各自單獨(dú)對(duì)C的影響，即主效應(yīng)，也要考察A、B二者如何對(duì)C交互作用。這里的交互作用，并非指兩個(gè)自變量彼此作用，而是指其中一個(gè)自變量對(duì)因變量的影響要以另一個(gè)自變量為條件，這時(shí)作為條件的自變量也稱為“調(diào)節(jié)變量”，它調(diào)節(jié)著另一個(gè)自變量對(duì)因變量的影響程度和（或）方向［13］。統(tǒng)計(jì)學(xué)所說的“交互作用”中，自變量A、B之間不存在因果關(guān)系，只是體現(xiàn)了A、B的乘積項(xiàng)能解釋因變量變異的程度（比如，在線性回歸中經(jīng)常如此處理）。在討論變量關(guān)系時(shí)，“interaction”還可指“相互作用”，如果我們說A、B之間存在相互作用，應(yīng)該指二者互為因果，A可以影響B(tài)，B也可以影響A。比如，有攻擊性的人選擇觀看暴力電視，而看暴力電視加強(qiáng)了攻擊性。這就是一種“相互作用”，即兩個(gè)變量互為因果（但如果僅發(fā)現(xiàn)A、B兩個(gè)變量有相關(guān)，并不能說是“相互作用”，因?yàn)樯胁恢雷饔玫姆较颍?。若是涉及到時(shí)間維度的相互作用，則兩個(gè)變量構(gòu)成一個(gè)動(dòng)態(tài)系統(tǒng)，如攻擊性和觀看暴力電視的相互加強(qiáng)過程。此外，在心理學(xué)中“interaction”還可以指人際“互動(dòng)”、社會(huì)“交往”等等含義，在物理學(xué)等其他學(xué)科“interaction”另有更多的其他含義?；蛟S因?yàn)檫@方面英文詞匯的貧乏，一個(gè)“interaction”表達(dá)了如此多的含義，但我們應(yīng)該準(zhǔn)確地使用中文指代不同的含義。然而，我們經(jīng)常把貌似相同而實(shí)則不同的概念混用，比如，以統(tǒng)計(jì)上的“交互作用”推論兩個(gè)變量的“相互作用”，卻忘掉了無論是方差分析還是回歸分析中，都要假定自變量之間彼此獨(dú)立，不能存在相互作用，更錯(cuò)誤地將自變量之間的條件關(guān)系（對(duì)應(yīng)于統(tǒng)計(jì)上的“調(diào)節(jié)模型”）等同于自變量之間的因果關(guān)系。若自變量之間還存在因果關(guān)系，就要考察“因果鏈”問題，這時(shí)可以借用統(tǒng)計(jì)上的中介模型來考察［13］。但要指出的是，中介模型可能但不必然意味著“因果性”。如果我們不能清晰區(qū)分各種貌似而實(shí)異的統(tǒng)計(jì)術(shù)語，不能理解統(tǒng)計(jì)模型和理論模型的關(guān)系，其結(jié)果便是我們寫出的文章，在很多術(shù)語使用上“言不由衷”，因?yàn)槲覀兏緵]有深入考慮這些術(shù)語究竟是什么意思，是否能代表我們要表達(dá)的含義。所以，李其維教授建議仔細(xì)區(qū)分這些概念，并明確指出行為遺傳學(xué)中，往往以統(tǒng)計(jì)上的“交互作用”錯(cuò)誤地推論遺傳與環(huán)境“相互作用”這類理論命題［14］。

最后，在從統(tǒng)計(jì)結(jié)果推論到理論的過程中還容易出現(xiàn)諸多這樣那樣的問題，這里再簡單列舉一些。比如，有的研究者在分類變量基礎(chǔ)上做統(tǒng)計(jì)，卻按照連續(xù)變量表述結(jié)論。如以焦慮分?jǐn)?shù)分布的前后27%，確定高焦慮組和低焦慮組，然后統(tǒng)計(jì)考察兩組在某種認(rèn)知作業(yè)上表現(xiàn)有無差異，就下結(jié)論說“焦慮得分越高，認(rèn)知表現(xiàn)就如何”，這種結(jié)論實(shí)則不妥。又如，發(fā)現(xiàn)兩個(gè)年齡組某種得分差異顯著，就推論說發(fā)展出現(xiàn)“質(zhì)變”或者出現(xiàn)“階段”，而實(shí)則不明白究竟什么是“階段”，以及能否由“量上的差異”（哪怕差異極其顯著）推論出“質(zhì)變”。只有真正理解這些理論概念，理解所得統(tǒng)計(jì)結(jié)果的本質(zhì)，才不致于草率地做推論。

四、結(jié)束語

綜上所述，我認(rèn)為，對(duì)于心理學(xué)而言，真正的難點(diǎn)和突破口不是統(tǒng)計(jì)學(xué)，而是找到有價(jià)值的變量和數(shù)據(jù)，這是測量學(xué)問題；有了數(shù)據(jù)，統(tǒng)計(jì)并不難，難的是如何在統(tǒng)計(jì)模型和心理學(xué)理論模型之間建立有效的聯(lián)系，讓數(shù)據(jù)統(tǒng)計(jì)服務(wù)于心理學(xué)理論建設(shè)的需要。

目前，心理學(xué)中對(duì)統(tǒng)計(jì)方法特別是所謂“高級(jí)”統(tǒng)計(jì)方法的熱衷，部分上掩蔽了心理學(xué)的核心目的，助長了“數(shù)字游戲”的傾向。方法本來無所謂高下，能解決問題就行?，F(xiàn)在我們借助統(tǒng)計(jì)軟件可以很容易地分析變量關(guān)系，但是統(tǒng)計(jì)本身不能解決變量是什么的問題，也不能解決如何有效測量心理的問題。心理統(tǒng)計(jì)學(xué)幾乎和任何一門應(yīng)用統(tǒng)計(jì)學(xué)都沒有多少根本差異，統(tǒng)計(jì)工作可以交給數(shù)學(xué)家做，但心理測量問題卻只能由心理學(xué)家來完成。所以我們的基本責(zé)任是搞清心理是什么以及如何測量和量化，而統(tǒng)計(jì)只是其次的工作。如果能在心理變量的測量水平上和測量的有效性上有所改進(jìn)的話，將會(huì)大大推動(dòng)心理學(xué)的發(fā)展。

我始終認(rèn)為，心理學(xué)的根本問題不是發(fā)現(xiàn)某個(gè)變量和其他變量的關(guān)系，而是告訴人們心理究竟是什么，如何刻畫它，如何測量它，如何說明它的內(nèi)在結(jié)構(gòu)。但關(guān)于“是什么”的問題，缺乏現(xiàn)成的思維模型，而統(tǒng)計(jì)方法對(duì)此基本幫不上忙。然而，在這個(gè)統(tǒng)計(jì)方法統(tǒng)治心理學(xué)的時(shí)代，很多人能夠思考變量關(guān)系，但未必擅長思考變量究竟是什么?？雌饋懋?dāng)前研究的思維方式在走向復(fù)雜化（如處理多變量關(guān)系），但實(shí)際上思維在簡化，在惰化。

研究者思維的惰化，很大程度上與統(tǒng)計(jì)軟件的應(yīng)用有關(guān)。各種現(xiàn)成的統(tǒng)計(jì)軟件的存在雖然推動(dòng)了統(tǒng)計(jì)方法的應(yīng)用和普及，但它們?cè)趲矸奖愕耐瑫r(shí)，也很容易培養(yǎng)人們的依賴性和思考的惰性。比如，我們花幾個(gè)月、甚至幾年時(shí)間設(shè)計(jì)研究并做研究，得到數(shù)據(jù)后，只用幾分鐘、幾小時(shí)就做完了統(tǒng)計(jì)。在研究者的頭腦中很少再思考統(tǒng)計(jì)方法教科書上的那些基本要求，比如變量的類型、分布形態(tài)、變量關(guān)系的線性程度，好像我們只要有數(shù)據(jù)，只要點(diǎn)幾下按鈕，一切就交給計(jì)算機(jī)處理好了。由此，統(tǒng)計(jì)分析這類復(fù)雜的認(rèn)知活動(dòng)，就退化成了點(diǎn)擊鼠標(biāo)的身體動(dòng)作，一切都輕松搞定，然而，便捷的同時(shí)增加了犯錯(cuò)誤的風(fēng)險(xiǎn)。

如今做統(tǒng)計(jì)，被有人譏諷為一種“統(tǒng)計(jì)儀式”。以零假設(shè)的顯著性檢驗(yàn)為例，其存在的問題已經(jīng)被討論了幾十年，然而人們?cè)谧珜懷芯繄?bào)告時(shí)依然未能充分考慮那些補(bǔ)救措施，因?yàn)橐呀?jīng)形成的統(tǒng)計(jì)儀式、統(tǒng)計(jì)規(guī)范依然有強(qiáng)大的慣性，在左右著人們的觀念和行為。雖然有了統(tǒng)計(jì)軟件的幫助，但真正用好統(tǒng)計(jì)也實(shí)屬不易，我們應(yīng)該加強(qiáng)對(duì)統(tǒng)計(jì)方法和結(jié)果的理論思考，糾正一些流傳已久的錯(cuò)誤觀念和做法。統(tǒng)計(jì)軟件的應(yīng)用帶來了方便，但不能因此讓我們喪失了對(duì)數(shù)據(jù)的深入思考，研究者有責(zé)任正確使用統(tǒng)計(jì)方法并合理報(bào)告統(tǒng)計(jì)結(jié)果及其意義。統(tǒng)計(jì)不是心理學(xué)，只是心理學(xué)的工具。就像Cohen提醒我們的那樣，別忘了歷史上那些真正出色的心理學(xué)家都是不做統(tǒng)計(jì)推論的，比如馮特、苛勒、皮亞杰、勒溫、巴特萊特、弗洛伊德……［5］。所以我們應(yīng)該反思：如果不做統(tǒng)計(jì)，我們還會(huì)研究心理學(xué)嗎？

［1］ STEVENSSS.On the Theory of Scales ofMeasurement.Science，1946，103（2684），677－680.

［2］皮亞杰.人文科學(xué)認(rèn)識(shí)論.鄭文彬，譯.北京：中央編譯出版社，1999.

［3］ WRIGHT D B.Making Friends with Your Data：Improving How Statistics Are Conducted and Reported.British Journal of Educational Psychology，2003，73，123－136.

［4］ TUKEY JW.The Philosophy of Multiple Comparisons.Statistical Science，1991，6，100－116.

［5］ COHEN J.Things IHave Learned（so far）.American Psychologist，1990，45，1304－1312.

［6］ COHEN J.The Earth Is Round（p＜.05）.American Psychologist，1994，49，997－1003.

［7］ ROSNOW R L，ROSENTHAL R.Statistical Procedures and the Justification of Knowledge in Psychological Science.American Psychologist，1989，44，1276－1284.

［8］ ROSNOW R L，ROSENTHALR.Effect Sizes for Experimenting Psychologists.Canadian Journal of Experimental Psychology，2003，57（3），221－237.

［9］ WILKINSON L，The Task Force on Statistical Inference，APA Board of Scientific Affairs.Statistical Methods in Psychology Journals：Guidelines and Explanations.A-merican Psychologist，1999，54，594－604.

［10］ GLASSG V.Primary，Secondary and Meta－Analysis of Research.Educational Researcher，1976，10（5），3－8.

［11］ GLASSG V，MCGAW B，SMITH M L.Meta－Analysis in Social Research.Beverly Hills，CA：Sage，1981.

［12］袁方，王漢生.社會(huì)研究方法教程.北京：北京大學(xué)出版社，1997.

［13］ XIN Ziqiang，CHILiping，YU Guoliang.The Relationship between Interparental Conflict and Adolescents'AffectiveWell－Being：Mediation of Cognitive Appraisals and Moderation of Peer Status.International Journal of Behavioral Development，2009，33（5），421－429.

［14］李其維.“認(rèn)知革命”與“第二代認(rèn)知科學(xué)”芻議.心理學(xué)報(bào)，2008，40（12），1306－1327.

【責(zé)任編輯：王建平】

B841

1000－5455（2010）01－0039－08

2009－08－25

辛自強(qiáng)（1975—），男，山東費(fèi)縣人，心理學(xué)博士，北京師范大學(xué)發(fā)展心理研究所副教授、博士生導(dǎo)師。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

有關(guān)心理統(tǒng)計(jì)的三個(gè)疑問

一、心理量可以統(tǒng)計(jì)嗎？

二、統(tǒng)計(jì)結(jié)果“顯著”是否足夠？

三、統(tǒng)計(jì)模型與理論模型相距有多遠(yuǎn)？

四、結(jié)束語

一、心理量可以統(tǒng)計(jì)嗎？

二、統(tǒng)計(jì)結(jié)果“顯著”是否足夠？

三、統(tǒng)計(jì)模型與理論模型相距有多遠(yuǎn)？

四、結(jié)束語