國(guó)際視野下的中國(guó)運(yùn)動(dòng)心理學(xué)研究考量

2010-09-14 05:41:48王進(jìn)

體育科學(xué) 2010年10期

王進(jìn)

王進(jìn)

今天的中國(guó)運(yùn)動(dòng)心理學(xué)研究發(fā)展需要新的視點(diǎn)。國(guó)際對(duì)接更需要研究的質(zhì)量做保證?；诖?在回顧并比較國(guó)際運(yùn)動(dòng)心理學(xué)研究發(fā)展的同時(shí),著重就我國(guó)運(yùn)動(dòng)心理學(xué)研究發(fā)展中的問(wèn)題進(jìn)行了分析與討論。首先肯定了我國(guó)運(yùn)動(dòng)心理研究發(fā)展的成果。同時(shí),也指出了發(fā)展中的瓶頸問(wèn)題。從國(guó)際視野的角度,針對(duì)我國(guó)運(yùn)動(dòng)心理研究的理論運(yùn)用問(wèn)題進(jìn)行了辨析;進(jìn)一步,對(duì)我國(guó)部分學(xué)術(shù)期刊發(fā)表的運(yùn)動(dòng)心理研究結(jié)果的真實(shí)性問(wèn)題進(jìn)行了分析?！皺z力分析”(Power Analysis)發(fā)現(xiàn),在所測(cè)樣本中效應(yīng)大、中、小的“檢力”分別為0.94、0.40和0.10,普遍低于國(guó)際水平;總體分析樣本中符合國(guó)際通用“檢力”接受標(biāo)準(zhǔn)的研究?jī)H占10%, 90%的研究可能存在“I型錯(cuò)誤”(Type I Error)或“II型錯(cuò)誤”(Type II Error)。另外,研究P值解釋誤區(qū)和研究設(shè)計(jì)問(wèn)題也在文中進(jìn)行了討論?；谶@些問(wèn)題,從研究論文的可讀性和質(zhì)量?jī)蓚€(gè)方面提出改進(jìn)的建議。并提出,今后的學(xué)術(shù)研究應(yīng)報(bào)告“效應(yīng)大小”(Effect Size)。

運(yùn)動(dòng)心理學(xué);檢力分析;效應(yīng)大小;置信區(qū)間

1 前言

國(guó)際運(yùn)動(dòng)心理學(xué)會(huì)第13屆世界大會(huì)將于2013年在中國(guó)北京舉行,這對(duì)中國(guó)的運(yùn)動(dòng)心理學(xué)研究來(lái)說(shuō)無(wú)疑是一個(gè)發(fā)展契機(jī)。然而,如何面對(duì)國(guó)際化科學(xué)研究發(fā)展的新挑戰(zhàn)、如何展示中國(guó)運(yùn)動(dòng)心理學(xué)研究發(fā)展的水平并與國(guó)際對(duì)接,是本文要探討的問(wèn)題。

文章回顧國(guó)際運(yùn)動(dòng)心理學(xué)研究發(fā)展的同時(shí),考量我國(guó)相關(guān)學(xué)科研究的現(xiàn)狀,從中領(lǐng)悟中國(guó)運(yùn)動(dòng)心理學(xué)研究發(fā)展的國(guó)際對(duì)接新途徑?；诖?筆者結(jié)合多年來(lái)教學(xué)、科研及審稿過(guò)程中引發(fā)的思考,對(duì)比國(guó)外運(yùn)動(dòng)心理學(xué)研究的水平,著重分析國(guó)內(nèi)運(yùn)動(dòng)心理學(xué)研究存在的一些質(zhì)量問(wèn)題,其目的在于通過(guò)質(zhì)量討論,努力尋求解決我國(guó)運(yùn)動(dòng)心理學(xué)研究的瓶頸問(wèn)題,盡快縮短國(guó)內(nèi)、外同類研究的差距。當(dāng)然,在分析問(wèn)題的同時(shí),難以做到盡善盡美,甚至有的觀點(diǎn)不一定能得到認(rèn)同,僅供參考。希望這些討論能為2013年北京運(yùn)動(dòng)心理學(xué)大會(huì)召開(kāi)前的中國(guó)運(yùn)動(dòng)心理學(xué)研究發(fā)展帶來(lái)一些啟示。

2 發(fā)展比較,尋找“短板”

20世紀(jì)80年代,國(guó)際運(yùn)動(dòng)心理學(xué)經(jīng)歷了跨越式的發(fā)展。在以后的30多年中,人們逐漸認(rèn)識(shí)到了運(yùn)動(dòng)心理學(xué)研究的重要性,這不僅是因?yàn)楦?jìng)技體育的制勝要取決于心理、技術(shù)與體力的綜合效應(yīng),更是因?yàn)轶w育活動(dòng)對(duì)健康的涵義在于提升幸福感狀態(tài)和生活質(zhì)量(Buckworth&Dishman,2002)。早在20世紀(jì)80年代,隨著積極心理學(xué)的出現(xiàn),研究人員開(kāi)始關(guān)注運(yùn)動(dòng)心理學(xué)的應(yīng)用發(fā)展,并提出了“心理訓(xùn)練”的概念[4,28,36,48]。當(dāng)時(shí)的運(yùn)動(dòng)心理學(xué)研究與實(shí)踐主要集中在高級(jí)競(jìng)技運(yùn)動(dòng)的個(gè)體項(xiàng)目上[21]。到了21世紀(jì),運(yùn)動(dòng)心理學(xué)研究已普遍被母學(xué)科所接受,并在世界范圍內(nèi)達(dá)成了運(yùn)動(dòng)心理學(xué)家,包括社會(huì)心理學(xué)應(yīng)用的學(xué)術(shù)資格認(rèn)證共識(shí)[15]。這一時(shí)期的國(guó)際運(yùn)動(dòng)心理學(xué)的研究領(lǐng)域得到拓展,內(nèi)容涵蓋了運(yùn)動(dòng)成績(jī)的提高與賽前心理準(zhǔn)備、運(yùn)動(dòng)中的情緒與情感、過(guò)度訓(xùn)練與倦怠、運(yùn)動(dòng)創(chuàng)傷的恢復(fù)以及體育鍛煉的心理效應(yīng)與生活質(zhì)量等問(wèn)題。

隨著競(jìng)技體育的競(jìng)爭(zhēng)性增加,研究不僅涉及個(gè)體運(yùn)動(dòng)項(xiàng)目的探索,還發(fā)展了許多團(tuán)隊(duì)體育項(xiàng)目的理論。許多運(yùn)動(dòng)心理學(xué)實(shí)踐者意識(shí)到,心理援助已不僅僅是幫助運(yùn)動(dòng)員準(zhǔn)備比賽,更重要的是增強(qiáng)運(yùn)動(dòng)團(tuán)隊(duì)有效的交流和培養(yǎng)積極團(tuán)隊(duì)發(fā)展的動(dòng)機(jī)氛圍,以及發(fā)展運(yùn)動(dòng)員人格[39]。從這個(gè)角度上講,當(dāng)代的國(guó)際運(yùn)動(dòng)心理學(xué)應(yīng)用研究更加關(guān)注系統(tǒng)的縱向效應(yīng)。由此,在教練員心理、運(yùn)動(dòng)學(xué)習(xí)與控制、鍛煉心理與終身發(fā)展等研究領(lǐng)域衍生出了健康發(fā)展的相關(guān)問(wèn)題與臨床運(yùn)動(dòng)心理學(xué)的探索[14,37]。另外,在體育有關(guān)的社會(huì)心理學(xué)領(lǐng)域里,團(tuán)隊(duì)動(dòng)力、凝聚力、交流技術(shù)和體育道德等方面的問(wèn)題也是研究的熱點(diǎn)[29]。

以1979年和1980年,中國(guó)心理學(xué)會(huì)和中國(guó)體育科學(xué)學(xué)會(huì)分別成立了運(yùn)動(dòng)心理學(xué)分會(huì)為標(biāo)志,開(kāi)始形成了學(xué)科建設(shè)的初創(chuàng)階段。與國(guó)外相比,初創(chuàng)時(shí)期的研究似乎更強(qiáng)調(diào)針對(duì)高水平競(jìng)技體育的服務(wù),主要關(guān)注優(yōu)秀運(yùn)動(dòng)員心理特征評(píng)定、心理訓(xùn)練與咨詢、教練員心理和運(yùn)動(dòng)員選材等方面的問(wèn)題[3]。進(jìn)入21世紀(jì)后,學(xué)科研究開(kāi)始轉(zhuǎn)向多元化發(fā)展,特別是在研究方法上,從不同角度、不同層面探索體育運(yùn)動(dòng)中的心理現(xiàn)象。此時(shí),中國(guó)的研究領(lǐng)域已基本形成了競(jìng)技運(yùn)動(dòng)心理、鍛煉心理和體育教育心理三個(gè)方向,主要包含了心理訓(xùn)練、運(yùn)動(dòng)認(rèn)知、心理生理、自我概念、心理疲勞、鍛煉與心境、鍛煉與自尊、鍛煉與認(rèn)知功能、鍛煉與生活滿意感、健康運(yùn)動(dòng)處方、學(xué)習(xí)心理動(dòng)力、體育教師心理特征、教學(xué)心理建設(shè)與教學(xué)模式心理效應(yīng)等內(nèi)容[1,2]。

總體上講,國(guó)際運(yùn)動(dòng)心理學(xué)學(xué)者與我國(guó)學(xué)者所關(guān)注的問(wèn)題略有不同,主要為運(yùn)動(dòng)心理與鍛煉心理兩個(gè)方向,從相關(guān)學(xué)術(shù)期刊看,國(guó)外學(xué)者相對(duì)偏重運(yùn)動(dòng)心理問(wèn)題的探索,而且,研究較細(xì)、較深。我國(guó)運(yùn)動(dòng)心理學(xué)的研究除了運(yùn)動(dòng)心理與鍛煉心理方向外,還有教學(xué)心理,這是我國(guó)研究的特色(表1)。

表1 運(yùn)動(dòng)心理學(xué)研究領(lǐng)域的國(guó)際比較一覽表

表2 我國(guó)部分體育學(xué)術(shù)期刊發(fā)表的運(yùn)動(dòng)心理學(xué)研究領(lǐng)域分布一覽表(1998—2009)

結(jié)合我國(guó)運(yùn)動(dòng)心理學(xué)研究成果的展示窗口,本文選擇了國(guó)內(nèi)具有代表性的體育學(xué)術(shù)期刊,考察研究的質(zhì)量狀況。根據(jù)《體育科學(xué)》、《中國(guó)體育科技》和《北京體育大學(xué)學(xué)報(bào)》1998—2009年以來(lái)發(fā)表的心理有關(guān)的研究,共統(tǒng)計(jì)到719篇論文。按照國(guó)際同類研究領(lǐng)域的劃分方法[40],目前三種學(xué)術(shù)期刊涉及的內(nèi)容主要包括增強(qiáng)運(yùn)動(dòng)表現(xiàn)、運(yùn)動(dòng)認(rèn)知、運(yùn)動(dòng)情緒、過(guò)度訓(xùn)練與倦怠、運(yùn)動(dòng)創(chuàng)傷恢復(fù)、鍛煉心理、社會(huì)心理、教練心理、運(yùn)動(dòng)學(xué)習(xí)與控制、健康心理、運(yùn)動(dòng)人格和研究方法等方面。從論文主題分布的情況看,與運(yùn)動(dòng)成績(jī)有關(guān)的探索仍然是主流方向,其次是與健康心理、運(yùn)動(dòng)學(xué)習(xí)與控制、運(yùn)動(dòng)認(rèn)知和運(yùn)動(dòng)情緒有關(guān)的研究(表2)。另外,從研究采用的設(shè)計(jì)范式看,定量的調(diào)查研究形成了主流,其次是實(shí)驗(yàn)研究。除此之外,文獻(xiàn)綜述是定性研究的主要內(nèi)容(表3)。

應(yīng)該說(shuō),目前我國(guó)運(yùn)動(dòng)心理學(xué)研究探索的領(lǐng)域基本上還是跟隨了國(guó)際的主流意識(shí)。研究關(guān)注的問(wèn)題也并不落后于國(guó)外的同類研究,有的甚至還表現(xiàn)出了中國(guó)自己的特色,研究水平也較過(guò)去有所提高。而且,越來(lái)越多的研究開(kāi)始運(yùn)用生理學(xué)、神經(jīng)學(xué)、運(yùn)動(dòng)學(xué)、社會(huì)學(xué)等交叉學(xué)科的指標(biāo)來(lái)探討運(yùn)動(dòng)心理學(xué)的問(wèn)題。從研究的設(shè)計(jì)上看,定量的實(shí)證性調(diào)查與實(shí)驗(yàn)研究(包括準(zhǔn)實(shí)驗(yàn))形成了目前較流行的運(yùn)用范式。值得一提的是,現(xiàn)在仍有相當(dāng)數(shù)量的研究在關(guān)注心理測(cè)量工具的開(kāi)發(fā),這對(duì)我國(guó)運(yùn)動(dòng)心理學(xué)研究的本土化探索有著重要的意義。

表3 我國(guó)部分體育學(xué)術(shù)期刊發(fā)表論文研究范式一覽表(1998—2009)

表4 我國(guó)部分體育學(xué)術(shù)期刊發(fā)表的運(yùn)動(dòng)心理研究論文統(tǒng)計(jì)方法一覽表(1998—2009)

但是,客觀地講,就國(guó)內(nèi)學(xué)術(shù)期刊發(fā)表的論文質(zhì)量來(lái)看,與國(guó)外的研究相比還有一定差距。筆者以為,缺乏科學(xué)嚴(yán)謹(jǐn)?shù)难芯吭O(shè)計(jì)和操作應(yīng)該是造成差距的主要原因,這可能與我國(guó)研究人員的科學(xué)專業(yè)訓(xùn)練不夠有關(guān)。例如,在統(tǒng)計(jì)的期刊論文中,有相當(dāng)數(shù)量的研究論文缺乏理論,且方法創(chuàng)新不夠;定性研究中采用具有探索特征的“現(xiàn)象歸納”和“理論演繹”設(shè)計(jì)并不是主流。除了《體育科學(xué)》雜志刊發(fā)的論文運(yùn)用“現(xiàn)象歸納”和“理論演繹”相對(duì)多于“文獻(xiàn)綜述”外,《北京體育大學(xué)學(xué)報(bào)》和《中國(guó)體育科技》刊發(fā)的文章中“文獻(xiàn)綜述”研究仍是主流內(nèi)容。這種現(xiàn)象表明相關(guān)的研究缺乏對(duì)新理論的探索,在創(chuàng)新性方面還顯得不足。同時(shí),在統(tǒng)計(jì)的論文中,有些還使用過(guò)于陳舊的,甚至錯(cuò)誤的研究設(shè)計(jì)和統(tǒng)計(jì)方法,使得研究的信、效度過(guò)低,基本不能作為研究參考的依據(jù);有的論文存在展示信息不全的問(wèn)題,特別是許多論文忽略了研究過(guò)程和必要數(shù)據(jù)結(jié)果,使文章的可讀性較低,對(duì)后續(xù)研究的參考價(jià)值不大。需要指出的是,在數(shù)據(jù)分析結(jié)果的表述中,發(fā)現(xiàn)在391次差異檢驗(yàn)對(duì)其效應(yīng)大小的報(bào)告,僅僅出現(xiàn)了4次(表4),說(shuō)明研究人員對(duì)這一問(wèn)題的認(rèn)識(shí)并不十分清楚。其實(shí),早在20世紀(jì)末,這個(gè)問(wèn)題就引起了國(guó)際上許多學(xué)者的關(guān)注,并撰寫(xiě)了大量的論文來(lái)闡述它的重要性[8,9,24,41,49]。例如, Vacha-Haase等于2000年在《理論與心理學(xué)》上發(fā)表了名為“研究報(bào)告的實(shí)際情況與APA統(tǒng)計(jì)意義和效應(yīng)大小的編輯原則”的論文,在文中他再次強(qiáng)調(diào)了APA標(biāo)準(zhǔn)對(duì)研究效應(yīng)大小報(bào)告的意義[49]。

到目前為止,還不能給出中國(guó)運(yùn)動(dòng)心理學(xué)研究問(wèn)題的前瞻性評(píng)價(jià),但從我國(guó)學(xué)術(shù)期刊發(fā)表的論文看,研究成果展示出來(lái)的質(zhì)量應(yīng)該說(shuō)還是存在著較大的差距。目前,我國(guó)所有學(xué)術(shù)期刊每年要發(fā)表上百篇運(yùn)動(dòng)心理學(xué)相關(guān)的論文,如果樂(lè)觀地預(yù)測(cè)一下,真正有價(jià)值并可以引用的研究恐怕也是屈指可數(shù)的。關(guān)于這些研究質(zhì)量的疑問(wèn),將逐一進(jìn)行討論。

3 理論在哪里

近年來(lái),筆者深感有相當(dāng)一部分的研究人員對(duì)理論在研究中的角色認(rèn)識(shí)并不十分清楚。在國(guó)外,研究的最終目的是為了發(fā)展理論。所謂“發(fā)展理論”在研究中不外乎有兩種情況:一是,研究開(kāi)始并沒(méi)有可用的理論來(lái)進(jìn)行指導(dǎo),理論是通過(guò)研究創(chuàng)建起來(lái)的,這種情況通常是“發(fā)現(xiàn)研究”(Exploratory Research);二是,在原有理論基礎(chǔ)上改進(jìn)理論,這是真正意義上的“發(fā)展理論”,通常是通過(guò)“實(shí)證研究”(Empirical Research)來(lái)實(shí)現(xiàn)的。第一種情況的理論應(yīng)該在研究的結(jié)論中清晰可見(jiàn),如定性研究中,通過(guò)“現(xiàn)象歸納”提出新的概念和現(xiàn)象關(guān)系的解釋機(jī)制。第二種情況是我們最常見(jiàn)到的,在研究的一開(kāi)始就應(yīng)該有理論的引導(dǎo),而發(fā)展的理論在假設(shè)中。在這種情況下,數(shù)據(jù)的收集與分析固然重要,但僅能說(shuō)明心理與行為的狀態(tài)。只有理論才能賦予數(shù)據(jù)的內(nèi)涵,解釋心理與行為變化的原因和回答為什么變量與變量間會(huì)存在關(guān)系。

diSessa和Cobb曾討論過(guò)理論在研究中的角色,他們認(rèn)為,理論并不需要復(fù)雜,關(guān)鍵是要提供對(duì)觀察對(duì)象的解讀,回答“為什么”的問(wèn)題[13],也就是闡述行為發(fā)生的內(nèi)在含義。例如,研究體育活動(dòng)參與的問(wèn)題,研究人員假設(shè)自我障礙認(rèn)知越高的個(gè)體,體育活動(dòng)的行為就越可能會(huì)減少。理論提供了這種關(guān)系的解釋,說(shuō)明自我障礙會(huì)導(dǎo)致體育活動(dòng)的自我效能感和自信心下降,以致使個(gè)體認(rèn)為沒(méi)有能力和信心去完成體育運(yùn)動(dòng)。進(jìn)一步,自我效能和自信可能會(huì)減少行為的意向。這樣,研究假設(shè)自我障礙的認(rèn)知可能是影響體育活動(dòng)的重要因素。這一演繹推理的結(jié)論可以通過(guò)數(shù)據(jù)來(lái)驗(yàn)證,所以,研究變量關(guān)系的構(gòu)建實(shí)際上是一個(gè)理論的演繹。然而,許多研究卻忽略對(duì)理論假設(shè)的演繹。試想,如果研究沒(méi)有理論,讀者就不能連接問(wèn)題探索的前后背景,更無(wú)法判斷為什么要研究這些變量。在審稿過(guò)程中,發(fā)現(xiàn)超過(guò)半數(shù)的稿件缺乏理論來(lái)解釋變量間的關(guān)系。

從這個(gè)角度講,要提升運(yùn)動(dòng)心理研究的質(zhì)量,我們不能僅僅是簡(jiǎn)單地對(duì)過(guò)去的文獻(xiàn)進(jìn)行綜述,或表述變量出現(xiàn)在過(guò)去的研究中,而應(yīng)該意識(shí)到變量的關(guān)系組合是需要理論來(lái)組織的。Richard L Daft是一位《管理科學(xué)季刊》和《管理學(xué)雜志》的審稿專家,他曾在1995年寫(xiě)過(guò)一篇名為“為什么我要建議拒絕你的投稿與你能做什么”的文章[12]。在文中他清楚地闡述了理論在研究中所處的地位,并指出,“變量的測(cè)量、數(shù)據(jù)的收集以及數(shù)據(jù)的分析技術(shù)都是研究的重要部分,但它們并不足以使一篇論文發(fā)表”。

另外,特別值得一提的,是在一些定性研究中也存在著缺乏理論的問(wèn)題。一般情況下,定性研究的基本目的是構(gòu)建理論。論文要基于研究者觀察或訪談的數(shù)據(jù)提出理論框架,結(jié)論則要明確提出新的概念和模型。與定量研究一樣,定性研究同樣要遵循理論比數(shù)據(jù)更重要的原則。研究人員應(yīng)通過(guò)論文來(lái)提煉實(shí)踐中的觀察,完成理論對(duì)知識(shí)的貢獻(xiàn)。然而,有的研究人員,特別是年輕的研究人員,可能是過(guò)于“膽怯”而不敢去深挖數(shù)據(jù)的內(nèi)涵,更不敢嘗試從自己觀察到的現(xiàn)象中提出一個(gè)新的理論。我們應(yīng)該明白一點(diǎn),有時(shí)候并不是編輯不喜歡定性研究,而是這些研究沒(méi)有模式、沒(méi)有觀點(diǎn)、也沒(méi)有結(jié)論,更沒(méi)有把構(gòu)建理論放在論文首要位置而不得不拒絕發(fā)表。

4 結(jié)果真實(shí)嗎

對(duì)于一個(gè)希望發(fā)表的研究成果來(lái)說(shuō),無(wú)論是審稿專家還是期刊編輯,都會(huì)鼓勵(lì)作者提供有意義的促進(jìn)性成果。這樣,在進(jìn)行數(shù)據(jù)分析時(shí),研究人員總是希望追求有意義的結(jié)果(即P<0.05)。然而,我們的問(wèn)題是:當(dāng)你提供一個(gè)研究結(jié)論時(shí),你對(duì)自己有多大的把握保證你所提供的發(fā)現(xiàn)是真實(shí)的?就目前本文能夠分析到的38個(gè)研究結(jié)果發(fā)現(xiàn),90%的結(jié)論值得商榷。也就是說(shuō),當(dāng)實(shí)際的差異并不存在時(shí),作者卻報(bào)告一個(gè)“有意義”的結(jié)果,統(tǒng)計(jì)學(xué)上把這種結(jié)論的錯(cuò)誤稱之為“I型錯(cuò)誤”(Type I error)。相反,當(dāng)實(shí)際的差異確實(shí)存在時(shí),作者卻報(bào)告了一個(gè)“沒(méi)有意義”的結(jié)果,這種錯(cuò)誤通常被稱為“II型錯(cuò)誤”(Type IIerror)。

怎樣理解這個(gè)結(jié)果呢?我們還需要提到“零假設(shè)意義驗(yàn)證”(Null hypothesis significance testing,NHST)的理論。在統(tǒng)計(jì)學(xué)里,所謂NHST的理論是指研究中人們通常會(huì)尋求拒絕沒(méi)有關(guān)系或沒(méi)有差異的假設(shè)(即“零假設(shè)”),并以此為證據(jù),說(shuō)明研究假設(shè)存在的可能性[16]。但是,由于事件的偶然性,或是研究樣本的問(wèn)題,導(dǎo)致這些證據(jù)并非完全真實(shí)。這樣,我們?cè)谔峁┻@些證據(jù)時(shí),必須要把這些因素考慮進(jìn)去。因此,在NHST中,P值與α水平被用來(lái)判斷證據(jù)錯(cuò)誤的依據(jù)。同時(shí),在這個(gè)過(guò)程中,我們接受至少有兩種判斷上的錯(cuò)誤。第一,如果我們拒絕了零假設(shè),非差異的結(jié)果可能的確存在,這就是“I型錯(cuò)誤”;第二,如果我們接受了零假設(shè),非差異的結(jié)果可能的確不存在,即“II型錯(cuò)誤”。

這種理論在當(dāng)今的科學(xué)研究中非常有意義,它是說(shuō)服讀者相信研究結(jié)果的有力工具,最早是由Rounald Fisher提出來(lái)的。但它不是惟一的驗(yàn)證理論[17]。當(dāng)時(shí)Fisher創(chuàng)建了“單一的二元零假設(shè)驗(yàn)證”(the testing of a single binary null hypothesis)理論,并建議采用P值作為統(tǒng)計(jì)的強(qiáng)度。然而,在他的理論中,并沒(méi)有提到“兩者選一的假設(shè)”(Alternative hypothesis)、“I型錯(cuò)誤”和“II型錯(cuò)誤”、“統(tǒng)計(jì)檢力”(Statistical Power)等概念。這些重要概念是由與Fisher同時(shí)期的波蘭人Jerzy Neyman和Egon Pearson發(fā)展的,并且,他們認(rèn)為,意義驗(yàn)證并不是單一的假設(shè)驗(yàn)證,而應(yīng)該是兩者選一的假設(shè)驗(yàn)證[25]。一直以來(lái),這些觀點(diǎn)僅在各自的研究領(lǐng)域里被承認(rèn),直到20世紀(jì)50年代,統(tǒng)計(jì)學(xué)教科書(shū)才把他們的觀點(diǎn)整合到意義驗(yàn)證理論中,并成為今天我們看到的NHST理論。后來(lái),許多學(xué)科如心理學(xué)、社會(huì)學(xué)、教育學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)等都把這個(gè)理論作為研究假設(shè)的驗(yàn)證工具[27]。

Neyman和Pearson認(rèn)為,當(dāng)研究人員在對(duì)假設(shè)進(jìn)行選擇時(shí),可能會(huì)做出錯(cuò)誤的決定,并用概率來(lái)反映錯(cuò)誤存在的可能性[17]。這樣,在他們的驗(yàn)證理論中,“I型錯(cuò)誤”發(fā)生的概率被表示為意義的水平(即α值)。也就是說(shuō),如果選擇0.05的水平為有意義的驗(yàn)證,“I型錯(cuò)誤”發(fā)生的概率就是5%。當(dāng)α值取值越低時(shí)(如0.01),“零假設(shè)”接受的標(biāo)準(zhǔn)就越高,同時(shí),“I型錯(cuò)誤”發(fā)生的概率就越低。但是,所有事件都是可逆的。當(dāng)“I型錯(cuò)誤”發(fā)生的概率越低,這個(gè)驗(yàn)證的檢力(Power)就變得越低了。

所謂“檢力”(Power),是指驗(yàn)證檢出統(tǒng)計(jì)意義的概率[10,32]。例如,如果選擇0.5為中度“檢力”,獲得有意義的檢出率就是50%。根據(jù)NHST理論的界定,“檢力”的完整余值(即1-power,β)表示為NHST中“II型錯(cuò)誤”的比值。Cohen(1988)建議,在假設(shè)驗(yàn)證前,研究人員應(yīng)考慮它們的比重。例如,如果把α水平設(shè)置在0.01,研究的“I型錯(cuò)誤”風(fēng)險(xiǎn)可以降低到很小。但是,驗(yàn)證的“檢力”同時(shí)也被減小到0.1。這樣,“II型錯(cuò)誤”的風(fēng)險(xiǎn)就增加到90%(1 -0.1=0.9)。一個(gè)0.1水平的驗(yàn)證“檢力”意味著研究人員只有10%的機(jī)會(huì)獲得一個(gè)有意義的結(jié)果。

“檢力”的指標(biāo)對(duì)于人們的研究結(jié)論具有重要的解釋意義,也就是說(shuō),如果我們?cè)谘芯恐邪l(fā)現(xiàn)一個(gè)具有統(tǒng)計(jì)意義的結(jié)果,“檢力”的大小將決定它的實(shí)際價(jià)值。例如,當(dāng)研究的“檢力”為0.1時(shí),意味著統(tǒng)計(jì)發(fā)現(xiàn)的結(jié)果只有10%的機(jī)會(huì)可以得到驗(yàn)證。而當(dāng)研究的“檢力”為0.9時(shí),則意味著我們的發(fā)現(xiàn)有90%的機(jī)會(huì)可以得到驗(yàn)證。顯然,對(duì)于一個(gè)90%的事件發(fā)生率來(lái)說(shuō),更具有實(shí)踐的指導(dǎo)意義。所以,在實(shí)際的研究中,一個(gè)結(jié)果的真實(shí)性與實(shí)際獲得的結(jié)果有關(guān)。

其實(shí),除“檢力”控制外,國(guó)外的學(xué)者建議了各種方法來(lái)減少判斷錯(cuò)誤的發(fā)生。例如,在方差分析的后測(cè)驗(yàn)證中,采用Tukey測(cè)試、Newman-Keuls測(cè)試等可以很好地控制“I型錯(cuò)誤”。但是,當(dāng)控制了“I型錯(cuò)誤”后,“II型錯(cuò)誤”的風(fēng)險(xiǎn)卻又會(huì)增加。那么,怎樣來(lái)平衡這個(gè)風(fēng)險(xiǎn)點(diǎn)呢?學(xué)者建議通過(guò)計(jì)劃控制研究的“效應(yīng)大小”(Effect Size)來(lái)達(dá)到平衡的目的[29]。關(guān)于這一點(diǎn),Cohen首次提出了基于“效應(yīng)大小”來(lái)確定“檢力”的方法,以此判斷研究結(jié)論的真實(shí)性[30]。當(dāng)時(shí),他通過(guò)對(duì)《變態(tài)與社會(huì)心理雜志》發(fā)表的78篇論文進(jìn)行了“檢力”分析,結(jié)果發(fā)現(xiàn),在中等效應(yīng)水平上的研究“檢力”均值為0.48,接近50%的意義檢出率,而大效應(yīng)水平上的意義檢出率為70%。Cohen認(rèn)為,如果考慮這些研究結(jié)論的真實(shí)性,這樣的“檢力”均值普遍偏低。所以,他在1988年建議研究的“檢力”應(yīng)該在0.80以上為可接受的水平[10]。但是,Sedlmeier和Gigerenzer在1989年重復(fù)了Cohen的工作,結(jié)果發(fā)現(xiàn),中等效應(yīng)研究的“檢力”均值僅為0.37,比Cohen的0.48減少了0.11。Sedlmeier和Gigerenzer強(qiáng)調(diào)這種問(wèn)題距離10年前Cohen提出之后不但沒(méi)有改善,反而變的更糟了。因此,他們呼吁學(xué)術(shù)界應(yīng)該關(guān)注研究“檢力”過(guò)低的問(wèn)題[34]。

在體育科學(xué)研究中(包括運(yùn)動(dòng)心理的研究),Jones和Brewer(1972)曾對(duì)《研究季刊》(Research Quarterly)發(fā)表的研究論文進(jìn)行過(guò)“檢力”分析,結(jié)果發(fā)現(xiàn),小、中、大效應(yīng)研究結(jié)果的平均“檢力”值為0.13、0.50和0.78[22]。另一項(xiàng)Christensen和Christensen(1977)對(duì)《健康、體育與娛樂(lè)研究》(Health,Physical Education,and Recreation Research)發(fā)表的論文分析也發(fā)現(xiàn),研究“檢力”的平均值更低,分別為0.08、0.32和0.69[7]。這些分析結(jié)果表明,兩個(gè)研究統(tǒng)計(jì)的體育研究論文結(jié)果均未達(dá)到Cohen建議的“檢力”接受標(biāo)準(zhǔn)。這意味著這些研究發(fā)表的結(jié)果都可能包含了“II型錯(cuò)誤”。2000年,Speed和Andersen對(duì)《體育科學(xué)與醫(yī)學(xué)雜志》(Journal of Science and Medicine in Sport)發(fā)表的29篇論文進(jìn)行了“檢力”分析,結(jié)果發(fā)現(xiàn),小、中、大效應(yīng)研究結(jié)果的“檢力”均值分別為0.14、0.63和0.97[38]。Speed和Andersen指出,統(tǒng)計(jì)論文中小效應(yīng)研究的“檢力”均值仍然沒(méi)有達(dá)到Cohen建議的標(biāo)準(zhǔn)。但是,中等和大效應(yīng)的研究中,已分別有38%和75%的“檢力”值到標(biāo)準(zhǔn)?？傮w上,超過(guò)半數(shù)的研究“檢力”達(dá)到接受標(biāo)準(zhǔn)(56.5%)。由此可見(jiàn),從1972—2000年,經(jīng)過(guò)了近30年的努力,國(guó)際體育科學(xué)研究的質(zhì)量在不斷地提高。

由于我國(guó)體育學(xué)術(shù)期刊對(duì)發(fā)表論文的要求沒(méi)有與國(guó)際對(duì)接,無(wú)法獲取相關(guān)的完整數(shù)據(jù)用于研究質(zhì)量的分析。但在《體育科學(xué)》、《中國(guó)體育科技》和《北京體育大學(xué)學(xué)報(bào)》3種期刊中仍然獲得38個(gè)有意義驗(yàn)證的數(shù)據(jù),經(jīng)“檢力”分析統(tǒng)計(jì)法發(fā)現(xiàn),小、中、大效應(yīng)研究結(jié)果的“檢力”均值分別為0.10、0.40和0.94(表5)。參照Cohen對(duì)研究“檢力”的接受標(biāo)準(zhǔn)(80%),在本文的分析數(shù)據(jù)中,只有10%的意義驗(yàn)證達(dá)到可接受的標(biāo)準(zhǔn),也就是說(shuō),90%的統(tǒng)計(jì)意義選擇都可能存在“II型錯(cuò)誤”。這個(gè)百分比遠(yuǎn)遠(yuǎn)地高于國(guó)外的同類研究。進(jìn)一步初步分析發(fā)現(xiàn),在這些隨機(jī)抽取的38個(gè)樣本中,約80%的結(jié)果是小的效應(yīng)值,而且“檢力”值都在49%以下。所以,應(yīng)該說(shuō)我國(guó)運(yùn)動(dòng)心理學(xué)研究的質(zhì)量距離國(guó)際水平仍然存在著差距。

表5 《體育科學(xué)》、《中國(guó)體育科技》、《北京體育大學(xué)學(xué)報(bào)》發(fā)表的部分研究的“檢力”分析一覽表(n=38)

5 P值的誤區(qū)

在中國(guó)運(yùn)動(dòng)心理的實(shí)證研究中,運(yùn)用P值來(lái)幫助研究人員做出結(jié)論的幾乎成了惟一的手段。但是,筆者發(fā)現(xiàn),有相當(dāng)一部分作者似乎并不了解P值的真正含義。總結(jié)起來(lái)至少可以列出3個(gè)方面的誤區(qū);1)低于α值的P值與研究結(jié)果的重要性無(wú)關(guān)。然而,有的作者在討論結(jié)果時(shí)強(qiáng)調(diào)自己發(fā)現(xiàn)的重要性僅僅是因?yàn)楂@得了一個(gè)較小的P值。2)一個(gè)有意義的統(tǒng)計(jì)結(jié)果不可能告訴研究結(jié)果的可重復(fù)性。然而,有的作者卻認(rèn)為P值計(jì)算是評(píng)估研究結(jié)果可重復(fù)的概率。3)P值并不能單獨(dú)評(píng)估研究效應(yīng)的大小。然而,有的作者卻把P值的大小作為研究的效應(yīng)來(lái)解釋。

為什么會(huì)產(chǎn)生這些錯(cuò)誤的認(rèn)識(shí)呢?筆者認(rèn)為,可能問(wèn)題出在對(duì)NHST的理解上。一般地講,統(tǒng)計(jì)意義上的P值具有兩個(gè)含義:1)低于α值的P值可以視為拒絕“零假設(shè)”的證據(jù);而等于或大于α值的P值則被視為接收“零假設(shè)”的證據(jù)。從這個(gè)意義上講,P值作為對(duì)“零假設(shè)”拒絕與否的憑據(jù)。2)P值反映效應(yīng)大小與樣本誤差的功能,也就是說(shuō),在一個(gè)給定的樣本中驗(yàn)證意義與效應(yīng)大小直接相關(guān),表現(xiàn)為:

在NHST的使用中,由于P值比較敏感,無(wú)論是當(dāng)樣本誤差很小時(shí)(可能是因?yàn)榇髽颖玖炕虼笮?yīng)所致),還是當(dāng)樣本誤差很大時(shí)(可能是因?yàn)樾颖玖炕蛐〉男?yīng)所致),只要有很小的差異都可以被判為有意義的統(tǒng)計(jì)。但需要指出的是,此時(shí)的P值并不能區(qū)分哪些差異是由于效應(yīng)大小,而哪些差異是由于樣本誤差的作用。所以,P值沒(méi)有提供任何關(guān)于研究意義大小的信息,更談不上復(fù)制研究的概率。

Thompson(1995)曾建議了一個(gè)正確運(yùn)用P值的步驟:首先,當(dāng)獲得一個(gè)有意義的結(jié)果后,應(yīng)根據(jù)P值的情況決定下一步的分析(即是否繼續(xù)分析)。然后,應(yīng)該分別考慮該樣本誤差和效應(yīng)大小。這樣,研究人員通過(guò)計(jì)算效應(yīng)大小來(lái)區(qū)分識(shí)別樣本量的效應(yīng)與誤差。最后,研究人員可采用其他方法來(lái)復(fù)制這個(gè)分析結(jié)果[42]。這一步驟的運(yùn)用不僅可以驗(yàn)證所獲得的分析結(jié)果,還可以為他人提供一個(gè)分析指南。

然而,統(tǒng)計(jì)意義的驗(yàn)證并不是完美的。許多學(xué)者(包括Cohen,1990、1994;Schmidt,1996;Hunter,1997;Levin, 1998;Thompson,1998等)對(duì)此提出過(guò)質(zhì)疑[8,9,41,33,19,26]。例如,Cohen曾在1994年指出,意義驗(yàn)證存在“非必然的推理錯(cuò)覺(jué)”(Illusion of attaining imp robability)[9]。具體地講,驗(yàn)證是基于拒絕“零假設(shè)”的意義水平設(shè)定在至少0.05,并表現(xiàn)為拒絕是否正確的概率。這樣,假設(shè)驗(yàn)證的推理為:

如果“零假設(shè)”是正確的,則數(shù)據(jù)發(fā)生的可能性不大。但是,數(shù)據(jù)發(fā)生了。所以,“零假設(shè)”的可能性不大。

由于這個(gè)因果關(guān)系推理的后置并非前提的必然結(jié)果,所以,犯了前置邏輯錯(cuò)誤。Cohen把它稱之為“前提錯(cuò)覺(jué)”(The Permanent Illusion)[9]?；诖?Cohen等一些學(xué)者建議研究人員不能依賴這一方法作為惟一手段,并推薦使用“效應(yīng)大小”(Effect Size)的指標(biāo)來(lái)彌補(bǔ)這一缺陷。所謂“效應(yīng)大小”,指一個(gè)標(biāo)準(zhǔn)差異的度量,即兩組平均值差與標(biāo)準(zhǔn)差的比率:

Thompson給出了兩個(gè)理由闡述為什么采用研究效應(yīng)的大小值:1)研究的效應(yīng)大小可以反映統(tǒng)計(jì)結(jié)果的實(shí)際意義;2)報(bào)告研究效應(yīng)的大小有利于在將來(lái)的文獻(xiàn)綜述中進(jìn)行元分析綜合[43]。目前,國(guó)際學(xué)術(shù)界已基本達(dá)成共識(shí),要求作者在報(bào)告P值的同時(shí)必須附帶研究效應(yīng)大小的值。有的學(xué)術(shù)期刊在投稿指南中就明確注明需要報(bào)告研究效應(yīng)大小的值[30]。Murphy是《應(yīng)用心理學(xué)雜志》的一名編輯,他曾在1997年的期刊編輯附言中建議:

“如果一個(gè)作者在報(bào)告意義驗(yàn)證結(jié)果的同時(shí)決定不附帶效應(yīng)大小的值,我會(huì)要求他(她)提供特別的解釋為什么不報(bào)告研究效應(yīng)大小。到目前為止,我還沒(méi)有得到一個(gè)充足的理由拒絕報(bào)告效應(yīng)值。所以,除非是真的有困難,通常情況下都應(yīng)該在論文中報(bào)告研究效應(yīng)的大小。”[30]

從這個(gè)角度講,不能不說(shuō)我國(guó)運(yùn)動(dòng)心理研究把這個(gè)問(wèn)題忽略得太久了。正如前面提到的,在統(tǒng)計(jì)的391次P值報(bào)告僅附帶4次研究效應(yīng)大小。這種狀況應(yīng)該是改變的時(shí)候了。

6 實(shí)驗(yàn)設(shè)計(jì)的“短板”

在本文統(tǒng)計(jì)的158個(gè)實(shí)驗(yàn)研究設(shè)計(jì)中,有73個(gè)采用了“前后測(cè)試控制組設(shè)計(jì)”(Pretest-posttest Control Group Design),約占實(shí)驗(yàn)設(shè)計(jì)的50%,說(shuō)明該設(shè)計(jì)已成為研究人員常用的方法,其主要原因有兩個(gè):首先,它屬于“真實(shí)驗(yàn)設(shè)計(jì)”(True Experimental Design),能科學(xué)地控制對(duì)內(nèi)部效度的威脅;其次,是一個(gè)多層設(shè)計(jì)。通常情況下,它被用于兩組比較(實(shí)驗(yàn)組與控制組,或兩組給予不同的干預(yù)),但很容易延伸進(jìn)行另外的多組比較,所以使用方便。

然而,使用這種設(shè)計(jì)時(shí)應(yīng)小心選擇數(shù)據(jù)分析方法。如果運(yùn)用數(shù)據(jù)處理方法不恰當(dāng),就可能產(chǎn)生結(jié)論錯(cuò)誤。例如,Speed和Andersen(2000)曾指出t檢驗(yàn)分析與這種設(shè)計(jì)有關(guān)的“II型錯(cuò)誤”[38]。具體地講,“前后測(cè)試控制組設(shè)計(jì)”中的t檢驗(yàn)分析主要由前測(cè)的組間同質(zhì)檢驗(yàn)和組內(nèi)差異的分析組成。但是,這種“同質(zhì)”可能會(huì)因?yàn)橐粋€(gè)小效應(yīng)的“無(wú)意義差異”結(jié)論而引起質(zhì)疑。如前討論,在效應(yīng)值較小的情況下接受“零假設(shè)”,無(wú)疑會(huì)增加判斷上的“II型錯(cuò)誤”。這樣,由于同質(zhì)驗(yàn)證并不能保證組間“相等”結(jié)論的真實(shí)性,前置的邏輯錯(cuò)誤必然會(huì)導(dǎo)致組內(nèi)差異錯(cuò)誤判斷的結(jié)論。

關(guān)于“前后測(cè)試控制組設(shè)計(jì)”中使用ANOVA的數(shù)據(jù)處理方法,Huck和M cLean早在1975年就指出了其潛在的危機(jī)[18]。他們分析了此種情況下可能存在的3個(gè)問(wèn)題: 1)ANOVA結(jié)果的組間主效應(yīng)可能過(guò)小,引起表述上的錯(cuò)誤;2)交互效應(yīng)與干預(yù)效應(yīng)的重復(fù)計(jì)算;3)多層分析結(jié)果前后矛盾。具體地講,根據(jù)“前后測(cè)試控制組設(shè)計(jì)”模式的原理,由于因變量的前測(cè)得分是在實(shí)驗(yàn)干預(yù)施加前獲得的,故交互效應(yīng)與干預(yù)效應(yīng)不對(duì)其產(chǎn)生作用。然而,對(duì)于后測(cè)得分來(lái)說(shuō),則會(huì)受到交互效應(yīng)的影響,但交互效應(yīng)的結(jié)構(gòu)又不成立。另一方面,基于實(shí)驗(yàn)施加的干預(yù)僅僅作用于因變量后測(cè)得分的事實(shí),這樣,當(dāng)重復(fù)測(cè)試的ANOVA被運(yùn)用于前后設(shè)計(jì)時(shí),線性數(shù)據(jù)模型中主效應(yīng)F值將會(huì)被分散,從而使其計(jì)算的效應(yīng)比實(shí)際的效應(yīng)小,造成對(duì)分析的結(jié)果的錯(cuò)誤描述。

Huck和McLean進(jìn)一步指出,理論上講,由于實(shí)驗(yàn)干預(yù)只能作用因變量的后測(cè)得分,采用One-way ANOVA分析主效應(yīng)也是一個(gè)思路。但是,如果缺乏因變量的前測(cè)得分,對(duì)于分析模型來(lái)說(shuō)會(huì)影響兩個(gè)效應(yīng):1)解釋組間差異有關(guān)的實(shí)驗(yàn)干預(yù)主效應(yīng)變化;2)減少組間差異引起的分析“檢力”下降。然而,如果采用因變量的前測(cè)得分,ANOVA就會(huì)計(jì)算交互效應(yīng)的F值和干預(yù)主效應(yīng)F值。在這種情況下,實(shí)際上是重復(fù)計(jì)算了干預(yù)的效應(yīng),兩個(gè)F值具有同樣的含義。最后,在運(yùn)用重復(fù)測(cè)試的ANOVA分析數(shù)據(jù)時(shí),Huck和McLean發(fā)現(xiàn)許多研究存在交互效應(yīng)F值與實(shí)驗(yàn)干預(yù)主效應(yīng)F值不同。這也反映了該分析方法與理論之間產(chǎn)生了不符的問(wèn)題。

另外,有學(xué)者建議把干預(yù)前后得分的差值作為因變量,進(jìn)行One-way ANOVA分析。但Sheeber等指出,這種方法仍然無(wú)法控制前測(cè)組間的差異問(wèn)題[35],也就是說(shuō),如果前測(cè)組間存在差異,統(tǒng)計(jì)得出的意義結(jié)果仍然無(wú)法確定是否是實(shí)驗(yàn)干預(yù)的效應(yīng),與前面分析的One-way ANOVA情況基本相似。所以,在運(yùn)用“前后測(cè)試控制組設(shè)計(jì)”時(shí),它同樣存在One-way ANOVA方法的問(wèn)題。

為了克服ANOVA在“前后測(cè)試控制組設(shè)計(jì)”中產(chǎn)生的問(wèn)題,許多學(xué)者建議用協(xié)方差分析(ANCOVA)來(lái)處理前后測(cè)試的設(shè)計(jì)實(shí)驗(yàn)問(wèn)題[18,35,20]。ANCOVA是用于隨機(jī)分組的前后測(cè)試組間差異的分析方法。一般地講,后測(cè)得分作為因變量,前測(cè)作為協(xié)變量。在心理學(xué)實(shí)驗(yàn)設(shè)計(jì)中, ANCOVA是一個(gè)較好分析組間變化的方法。但是,Jamieson(2004)指出,當(dāng)被試組的構(gòu)成不是隨機(jī)分組,而是自然分組時(shí),分析的基線變化就不是由于機(jī)會(huì)產(chǎn)生的了。這時(shí)的ANCOVA結(jié)果表述就會(huì)產(chǎn)生偏差[20]。所以,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì)時(shí),需要注意這一點(diǎn)。

7 發(fā)展的思考

差距的對(duì)比并非在于打擊自信,問(wèn)題的分析旨在激勵(lì)尋求發(fā)展的出路。中國(guó)運(yùn)動(dòng)心理學(xué)研究需要冷靜思考,更需要新的視點(diǎn)。一方面,希望通過(guò)本文的討論能啟迪人們對(duì)科學(xué)研究的再思考;另一方面,也渴望從以下幾個(gè)方面去進(jìn)行再探索:

1.學(xué)術(shù)論文可讀性的提升——眾所周知,寫(xiě)論文不是寫(xiě)給自己看的,而是要面對(duì)你的讀者。因此,讀者是否能讀懂你的文章就變得尤為重要。例如,有的研究缺乏理論支持,或是操作不能反映理論的模式與概念;有時(shí),作者尋求一個(gè)間接變量,卻不能給讀者一個(gè)直接的理由;在一些操作變量的關(guān)系上,有的邏輯分析思路混亂、有的甚至缺乏必要的研究過(guò)程表述,內(nèi)容顯得雜亂無(wú)章,而且遠(yuǎn)離主題,大量篇幅討論與題目無(wú)關(guān)的信息,讓讀者很難讀懂論文的真實(shí)意圖等。

其實(shí),高水平的論文最能顯示作者良好的科學(xué)訓(xùn)練,也就是說(shuō),作為研究人員,要努力學(xué)會(huì)讓別人理解你的思路,了解研究問(wèn)題的來(lái)龍去脈。理論總是與研究相關(guān),不管是創(chuàng)新一個(gè)理論,還是驗(yàn)證一個(gè)理論,都要給出具有說(shuō)服力的證據(jù)。讓讀者了解到什么是研究的新發(fā)現(xiàn),并給出足夠信息,讓研究結(jié)果變的可再現(xiàn)。同時(shí),作為研究論文的作者,要努力做到文章前后一致、邏輯有序,避免在結(jié)論中突然提出新觀點(diǎn)。

實(shí)際上,由于在研究過(guò)程中收集到的信息是零亂的,所以,我們需要自我訓(xùn)練,學(xué)會(huì)去除無(wú)序的信息,讓讀者知道研究中究竟發(fā)生了什么。學(xué)會(huì)展示必要的研究信息,努力提高論文的可讀性。我想說(shuō)的是:一個(gè)好的學(xué)術(shù)論文作者應(yīng)該追求把復(fù)雜的科學(xué)問(wèn)題變得讓大眾讀懂,而不是追求“玄學(xué)”般地把簡(jiǎn)單事情變得復(fù)雜化。

2.學(xué)術(shù)研究質(zhì)量的提升——高質(zhì)量的研究不僅經(jīng)得起考驗(yàn),更能為后續(xù)研究提供具有說(shuō)服力的證據(jù),并成為有價(jià)值的參考來(lái)源。一般的講,學(xué)術(shù)研究質(zhì)量的控制可以通過(guò)對(duì)研究的“信度”和“效度”評(píng)估來(lái)實(shí)現(xiàn)。這里所指的“信度”是研究結(jié)論的誤差度,而“效度”則是一個(gè)“宏”概念,反映了理論推理與研究證據(jù)的一致性。心理學(xué)中已經(jīng)建立了一些有效的評(píng)判方法。例如,早在2001年,國(guó)外的《應(yīng)用心理學(xué)雜志》、《咨詢與臨床心理學(xué)雜志》、《實(shí)驗(yàn)教育學(xué)雜志》、《當(dāng)代教育心理學(xué)》等17種學(xué)術(shù)期刊編輯指南中就明確要求作者在報(bào)告P值的同時(shí)“必須”附帶效應(yīng)大小的值[44]。另外,為了提高研究的質(zhì)量,有學(xué)者還建議在因素分析中要求報(bào)告構(gòu)想系數(shù),并要求把信度和效度數(shù)據(jù)設(shè)置在0.75以上作為可接受的底線以及建議避免運(yùn)用進(jìn)級(jí)分析等[45,46,47]。

當(dāng)然,相關(guān)的研究人員還在不斷地探索更有效的方法,以保證學(xué)術(shù)成果質(zhì)量的提高。例如,“置信區(qū)間”(Confidence Intervals)就是一個(gè)最近流行的假設(shè)驗(yàn)證方法,并正在開(kāi)始取代P值的地位[23]。所謂“置信區(qū)間”主要反映干預(yù)效應(yīng)的測(cè)量值,表示干預(yù)效應(yīng)大小的范圍。置信設(shè)立為一個(gè)上限和下限,以使包含在一個(gè)隨機(jī)區(qū)間內(nèi)的擬合參數(shù)等于1-α,用公式表示為:

其中,θ為關(guān)注的參數(shù),θL(X)和θU(X)隨機(jī)置信的上限和下限,主要基于觀察數(shù)據(jù)X和P值概率。由于θL(X)和θU(X)直接表述為θL和θU,而且,取決于隨機(jī)數(shù)據(jù),所以,我們可以理解為值信的上、下限是隨機(jī)的。在實(shí)際的應(yīng)用中,由于“置信區(qū)間”告訴我們可能的效應(yīng)大小范圍,所以,作為結(jié)果的判斷,它更優(yōu)于P值。從實(shí)踐的意義上講,由于“置信區(qū)間”直接反映效應(yīng)大小,對(duì)研究的結(jié)果解釋更直觀。理論上講,統(tǒng)計(jì)學(xué)上的意義并不表示干預(yù)效應(yīng)。所以,在很多情況下,統(tǒng)計(jì)沒(méi)有意義,并不意味著實(shí)際沒(méi)有效應(yīng)。相反,統(tǒng)計(jì)出現(xiàn)了意義,也并不一定表示對(duì)實(shí)際具有重要性。

“置信區(qū)間”的特點(diǎn)在于驗(yàn)證研究假設(shè)的方法簡(jiǎn)單易行,其原理為:首先,假設(shè)置信水平為95%。這意味著構(gòu)建的“置信區(qū)間”有95%的機(jī)會(huì)包含了真實(shí)的干預(yù)效應(yīng)值(換算成P值則表示為出錯(cuò)率小于0.05)。這樣,判斷過(guò)程表示為:1)如果置信值落在“無(wú)效應(yīng)”值區(qū),差異則表示無(wú)統(tǒng)計(jì)意義(對(duì)于一個(gè)95%的“置信區(qū)間”,無(wú)意義在5%的水平上);2)如果置信值落在“無(wú)效應(yīng)”值區(qū)外,差異則視為具有統(tǒng)計(jì)意義(對(duì)于一個(gè)95%的“置信區(qū)間”,有意義在5%的水平上)。所以,“統(tǒng)計(jì)意義”(相當(dāng)于P<0.05)被認(rèn)為是“置信區(qū)間”,但對(duì)于一個(gè)具體的觀察數(shù)據(jù)來(lái)說(shuō),這些區(qū)間反映了可能的最大和最小效應(yīng)值。

“置信區(qū)間”之所以優(yōu)于傳統(tǒng)的假設(shè)驗(yàn)證,是因?yàn)樗軌蚋嬖V人們更多的信息。例如,區(qū)間的上、下值反映了真實(shí)效應(yīng)可能存在的大小。從區(qū)間寬度看,窄的區(qū)間說(shuō)明效應(yīng)大小存在一個(gè)小的范圍。這樣,任何遠(yuǎn)離這個(gè)區(qū)間的效應(yīng)都可以很肯定地被研究排除在外。這種情況通常會(huì)出現(xiàn)在大效應(yīng)的研究中,這樣,對(duì)真實(shí)效應(yīng)的估計(jì)通常會(huì)很準(zhǔn)確,也就是說(shuō),研究有足夠的“檢力”來(lái)選擇效應(yīng)。但是,對(duì)于一個(gè)寬區(qū)間來(lái)說(shuō),意味著可獲取多個(gè)效應(yīng)范圍,則認(rèn)為研究效應(yīng)可能很小。因此,任何效應(yīng)大小的評(píng)估都可能是不準(zhǔn)確的。這樣的研究通常被視為較低“檢力”的研究,而且可提供的信息也是很有限的。

如同P值一樣,“置信區(qū)間”提供了判斷研究效應(yīng)的描述。然而,需要指出的是:1)理論上講,組間的差異是通過(guò)計(jì)算獲得的,這樣,“置信區(qū)間”提供了可觀察的“統(tǒng)計(jì)意義”差異。但是,正是因?yàn)楹?jiǎn)單地憑借機(jī)會(huì)很難觀察到這個(gè)差異,導(dǎo)致人們判斷結(jié)論不是真實(shí)的。根據(jù)定義,20次有意義的發(fā)現(xiàn)中出現(xiàn)1次假的,則可能被誤認(rèn)為非真實(shí)的事件。這通常被稱為“I型錯(cuò)誤”。雖然這很不幸,但在統(tǒng)計(jì)意義中這又是不可避免的。而且,統(tǒng)計(jì)比較的計(jì)算次數(shù)越多,這種錯(cuò)誤的發(fā)生率就越高。2)另一方面,有時(shí)“統(tǒng)計(jì)意義”可能錯(cuò)誤地被描述為一個(gè)重要的結(jié)果。其實(shí),“統(tǒng)計(jì)意義”僅僅是關(guān)注干預(yù)之間的數(shù)據(jù)是否產(chǎn)生了差異。對(duì)于一個(gè)大樣本的研究來(lái)說(shuō),發(fā)現(xiàn)了“統(tǒng)計(jì)意義”的差異,可能對(duì)實(shí)際的指導(dǎo)意義也不大。關(guān)于這一點(diǎn)的統(tǒng)計(jì)描述,可基于研究樣本量來(lái)考慮結(jié)果的重要性(表6)。

表6 研究結(jié)果表述中統(tǒng)計(jì)意義與樣本量的角色一覽表

8 小結(jié)

本文在回顧國(guó)內(nèi)、外運(yùn)動(dòng)心理學(xué)研究發(fā)展的基礎(chǔ)上,著重對(duì)我國(guó)運(yùn)動(dòng)心理學(xué)研究的質(zhì)量進(jìn)行了分析。從國(guó)際視野的角度,分析了發(fā)表在《體育科學(xué)》、《中國(guó)體育科技》和《北京體育大學(xué)學(xué)報(bào)》上的運(yùn)動(dòng)心理學(xué)研究論文。筆者認(rèn)為,我國(guó)運(yùn)動(dòng)心理研究的問(wèn)題與領(lǐng)域較為豐富,在學(xué)科的交叉研究方面也有較快的發(fā)展。但是,從研究的質(zhì)量上看,與國(guó)際水平差距較大。主要反映的問(wèn)題是研究人員普遍對(duì)理論的作用認(rèn)識(shí)不足,研究設(shè)計(jì)缺乏科學(xué)的計(jì)劃;數(shù)據(jù)分析手段落后,甚至有錯(cuò)誤運(yùn)用,而且也不嚴(yán)謹(jǐn),導(dǎo)致研究普遍存在“檢力”較低的現(xiàn)象;在研究成果的展示方面,一些關(guān)鍵的環(huán)節(jié)和數(shù)據(jù)被忽略?？傮w上看,盡管多年來(lái)發(fā)表了一定的研究論文,但真正可以作為參考的有價(jià)值的文獻(xiàn)較少。

基于這些問(wèn)題,筆者主要對(duì)理論在研究中的作用進(jìn)行了辨析,同時(shí),分析了研究結(jié)論的真實(shí)性問(wèn)題。經(jīng)過(guò)初步的“檢力”分析發(fā)現(xiàn),在分析的研究中約90%可能存在“檢力”不達(dá)標(biāo)的問(wèn)題。進(jìn)一步,文章就P值的誤區(qū)問(wèn)題進(jìn)行了討論,并強(qiáng)調(diào)了研究“效應(yīng)大小”的重要性。最后,討論了我國(guó)運(yùn)動(dòng)心理學(xué)研究存在的設(shè)計(jì)問(wèn)題。在此基礎(chǔ)上,建議我國(guó)運(yùn)動(dòng)心理學(xué)研究的質(zhì)量把關(guān)應(yīng)從文章的可讀性和數(shù)據(jù)分析方法方面入手。

[1]姚家新,張力為,李京城,等.運(yùn)動(dòng)心理學(xué)研究進(jìn)展[J].天津體育學(xué)院學(xué)報(bào),2008,23(1):1-10.

[2]姚家新,徐霞.中國(guó)運(yùn)動(dòng)心理學(xué)的研究現(xiàn)狀與展望[J].體育科學(xué),2004,24(10):38-45.

[3]張力為,丁雪琴.中國(guó)運(yùn)動(dòng)心理學(xué)的發(fā)展:歷史、現(xiàn)狀與未來(lái)[J].心理學(xué)報(bào),1994,27(3):324-330.

[4]ALDERMAN R B.The future of sport psychology.In J.H.Silva,&R.S.Weinberg(Eds.).Psychological Foundations of Sport[M].Champaign,IL:Human Kinetics,1984:45-54.

[5]ARON E,COUPS E,ARON A.Statistics for Behavioral and Social Sciences(4th ed)[M].Langue:Anglais,2007.

[6]BUCKWORTH J,DISHMAN R K.Exercise Psychology[M]. Champaign,Il:Human Kinetics,2002.

[7]CHRISTENSEN J E,CHRISTENSEN C E.Statistical power analysis of health,physical education,and recreation research[J]. Res Q,1977,48:204-208.

[8]COHEN J.Thing Ihave learned(so far)[J].Am Psychol,1990, 45:1304-1312.

[9]COHEN J.The earth is round(P<0.5)[J].Am Psychol,1994, 49:997-1003.

[10]COHEN J.Statistical Pow er Analysis fo r the Behavio ral Sciences(2nd ed.)[M].Hilladale,N.J.:Law rence Erlbaum Associate,1998.

[11]COHEN J.The statistical pow er of abnormal social psychology research[J].J Abnormal Soc Psychol,1962,63(3):145-153.

[12]DAFT R L.Why Irecommended that yourmanuscript be rejected and w hat you can do about it.In L.L.Cummings&J.P. Frost(eds.).Publishing in the Organizational Sciences[M]. Thousand Oaks,California:SAGE Publications,Inc,1995:164-182.

[13]DISESSA A A,COBB P.Ontological innovation and the role of theory in design experiments[J].J Learning Sci,2004,13(1): 77-103.

[14]GARDNER F,MOORE Z.Clinical Sport Psychology[M]. Champaign,Il.:Human Kinetics,2006.

[15]HAN IN J,STAMBULOVA N.Spo rt psychology:Overview [J].Encyclopaedia Appl Psychol,2004,(3):463-477.

[16]H INKLED E,W IERSMA W,JURSS G.Applied Statistics for the Behavioral Sciences(3rd ed.)[M].Boston:Houghton Mifflin Company,1994.

[17]HUBERTY C J.Histo rical o rigins of statistical testing p ractices:The treatment of Fisher versus Neyman-Pearson view s in textbooks[J].J Experimental Edu,1993,61(4):317-333.

[18]HUCK SW,MCLEAN R.Using a repeated measures ANOVA to analyze the data from a pretest-posttest design:A potentially confusing task[J].Psychol Bulletin,1975,82(4):511-518.

[19]HUN TER J E.Needed:A ban on the significance test[J].Psychol Sci,1997,8(1):3-1.

[20]JAM IESON J.Analysis of covariance(ANCOVA)w ith difference scores[J].Int J Psychol,2004,52:277-283.

[21]JOHNSON U.Sport Psychology-past,p resent and future:The percep tions of Sw edish sport psychology students[J].A thl Insight,2006,8(3):64-78.

[22]JONESB J,BREWERJ K.An analysisof the power of statistical tests repo rted in The Research Quarterly[J].Res Q,1972, 43:23-30.

[23]KILLEEN P R.An alternative to null-hypothesis significance tests[J].Psychol Sci,2005,16(5):345-353.

[24]KIRK R.Practical significance:A concep t w hose time has come [J].Edu Psychol Measurement,1996,56:746-759.

[25]LEHMANN E L.The Fisher,Neyman-Pearson theoriesof testing hypotheses:One theory or two?[J].J Am Statistical Association,1993,88:1242-1249.

[26]LEV IN J R.To test or not to test H0?[J].Edu Psychol Measurement,1998,58:311-331.

[27]LOFTUS G R.On the tyranny of hypothesis testing in the social sciences[J].Contemporary Psychol,1991,36(2):102-105.

[28]ISBERG L.Applied sport psychology in Sweden-historical development-today’s wo rk-future development[J].J App l Spo rt Psychol,1989,(1):52-60.

[29]MELLAL IEU S D,HANTON S.Advances in Applied Sport Psychology:A Review[M].London:Routledge,2008.

[30]MURPHY K R.Editorial[J].J Appl Psychol,1997,82:3-5.

[31]N IX TW,BARNETTEJ J.The data analysis dilemma:Ban or abandon[J].Res Schools,1998,5(2):3-14.

[32]SAW YER A G,BALL A D.Statistical power and effect size in marketing research[J].J Marketing Res,1981,18:275-290.

[33]SCHM IDT F.Statistical significance testing and cumulative know ledge in psychology:Implications for the training of researchers[J].Psychol Methods,1996,1(2):115-129.

[34]SEDLM EIER P,GIGERENZER G.Do studies of statistical power have an effect on the power of studies?[J].Psychol Bulletin,1989,105(2):309-316.

[35]SHEEBER L B,SORENSEN E D,HOWE S R.Data analytic studies w ith p retest/posttestmeasurement:An extensive p rimer[J].J Psychiatry Res,1996,30(3):185-199.

[36]SILVA J M.The emergence if applied sport psychology contemporary trends-future issues[J].Int J Sport Psychol,1984, 15:40-51.

[37]SILVA J M.Current trends and future directions in sport psychology.In R.N.Singer,H.A.Hausenblas,&C.M.Janelle (Eds.).Handbook of Sport Psychology(2nd ed.)[M].New York:John Wiley,2001:823-832.

[38]SPEED H D,ANDERSEN M B.What exercise and sport scientists don’t understand[J].J Sci Med Sport,2000,3(1):84-92.

[39]STELTER R.New app roaches to exercise and sport psychology-Critical reflections and useful recommendations.In R. Stelter&K.K Roessler(Eds.).New App roaches to Sport and Exercise Psychology[M].Meyer&M eyer Spo rt,2005:13-30.

[40]TENENBAUM G,EKLUND R C.Handbook of Sport Psychology(3ird)[M].Hoboken,New Jersey:John Wiley&Sons, 2007.

[41]THOMPSON B.Review of w hat if there w ere no significance test?By L Harlow,SMulaik,J Steiger(eds.)[J].Edu PsycholM easurement,1998,58:332-344.

[42]THOM PSON B.Edito rial Policies Regarding Statistical Significance Testing:Three Suggested Reforms[M].Paper presented at the annualmeeting of Mid-South Education Research Association,Biloxi,MS,1995.

[43]THOMPSON B.Effect sizes,confidence intervals,and confidence intervals for effect sizes[J].Psychol Schools,2007,44: 423-432.

[44]THOMPSON B.Significance,effect sizes,stepw ise methods, and other issues:Strong argumentsmove the field[J].J Experimental Edu,2001,70(1):80-93.

[45]THOMPSON B.Guidelines for authors[J].Edu Psychol Measurement,1994,54:837-847.

[46]THOM PSON B.Stepw ise regression and stepw ise discriminant analysis need not apply here:A guidelines editorial[J].Edu Psychol Measurement,1995,55:525-534.

[47]THOM PSON B,DAN IEL L G.Facto r analytic evidence fo r the construct validity of scores:An historical overview and some guidelines[J].Edu Psychol Measurement,1996,56:197-208.

[48]UNESTAHL L E.Sport Psychology in Theory and Practice [M].Orebro:VEJE International,1985.

[49]VACHA-HAASE T,et al.Reporting p ractices and APA editorial policies regarding statistical significance and effect size[J]. Theory Psychol,2000,10:413-425.

A Critical Thinking over Sport Psychology Research in China From an International Perspective

WANG Jin

Today’s development of spo rt psychology research in China needs new ideas,and the research harmony w ith the international level also needs the guarantee in the quality.Based on these considerations,this article gives an international comparison to research development of spo rt psychology in China.Meanw hile,the focus of the discussion is on the research issue of the Chinese spo rt psychology.A t first,a positive view on the achievement of the research and some issues about obstructing development fo r the sport psychology in China are p resented, and meanw hile,the article discusses the issue of app lied theo ries in the relative studies from an international perspective.Furthermore,w ith the power analysis the article discusses the verisimilitude of research results published on the Chinese sport academic journals.The findings show that the power w ith large,middle and small are 0.94,0.40 and 0.10,w hich they are lower than it at the international level.Only 10%of the mean of power fo r the samp le are accep table at the international level,w hich means the research results of 90%are likely to contain either Type Ierror o r Type IIerro r.In addition,the misunderstand about P value and the issue about research design are discussed in the article.On the basis of these discussions,the article gives some suggestions about how to imp rove research readability and quality.Meanw hile,the author suggests the effect size repo rting requirements w hile a research gave the p value in o rder to making the harmony w ith the international research.

Sportpsychology;Poweranalysis;Effectsize;Confidenceinterval

G804.8

1000-677X(2010)10-0052-10

2010-08-30;

2010-09-15

王進(jìn)(1959-),男,教授,博士,博士研究生導(dǎo)師,主要研究方向?yàn)檫\(yùn)動(dòng)心理學(xué)、健康及社會(huì)心理學(xué)、休閑心理學(xué),E-mail:jinwang47@live.cn。

浙江大學(xué)教育學(xué)院應(yīng)用心理交叉學(xué)科研究中心,浙江杭州310028 College of Education,Zhejiang University,Hangzhou 310028,China.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

國(guó)際視野下的中國(guó)運(yùn)動(dòng)心理學(xué)研究考量

1 前言

2 發(fā)展比較,尋找“短板”

3 理論在哪里

4 結(jié)果真實(shí)嗎

5 P值的誤區(qū)

6 實(shí)驗(yàn)設(shè)計(jì)的“短板”

7 發(fā)展的思考

8 小結(jié)