我國(guó)英語(yǔ)語(yǔ)言學(xué)博士生實(shí)驗(yàn)研究類論文質(zhì)量評(píng)價(jià)

2020-05-22 08:47:38鮑貴

外國(guó)語(yǔ)文 2020年1期

鮑貴

(南京工業(yè)大學(xué) 外國(guó)語(yǔ)言文學(xué)學(xué)院，江蘇南京.11816)

0 引言

近年來(lái)，應(yīng)用語(yǔ)言學(xué)領(lǐng)域開(kāi)始重視研究質(zhì)量評(píng)價(jià)。研究質(zhì)量以研究報(bào)告的質(zhì)量為前提。報(bào)告質(zhì)量以充分性和透明度為原則，反映研究要素或事實(shí)陳述的清晰度與完整性。研究質(zhì)量，即研究本身的質(zhì)量，是依據(jù)報(bào)告事實(shí)或證據(jù)做出的價(jià)值判斷，體現(xiàn)研究設(shè)計(jì)的合理性、變量測(cè)量的準(zhǔn)確性、統(tǒng)計(jì)分析的恰當(dāng)性和結(jié)論的可推廣性。報(bào)告得當(dāng)會(huì)增加研究結(jié)論的可信度，為研究?jī)r(jià)值判斷提供依據(jù)；報(bào)告不當(dāng)則會(huì)給研究質(zhì)量帶來(lái)不確定因素，削弱研究的價(jià)值。

論文報(bào)告指導(dǎo)原則或標(biāo)準(zhǔn)的建議(Larson-Hall et al.，2015；Norris et al.， 2015)主要依據(jù)《美國(guó)心理協(xié)會(huì)出版手冊(cè)》(2010)。Norris et al.(2015)就語(yǔ)言學(xué)習(xí)研究論文中方法論和結(jié)果部分的報(bào)告提出了一些基本原則。在這些原則中，有些適用于不同類研究，如實(shí)驗(yàn)和調(diào)查研究中實(shí)施測(cè)量，有些則具有研究特質(zhì)性，如實(shí)驗(yàn)研究中使用隨機(jī)分配。在結(jié)果報(bào)告標(biāo)準(zhǔn)方面，Larson-Hall et al.(2015)與Norris et al.(2015)提出了大致相同的建議。不過(guò)，Larson-Hall et al.(2015)強(qiáng)調(diào)元分析思維模式的重要性，對(duì)結(jié)果報(bào)告建議的論述更充分。

論文質(zhì)量評(píng)價(jià)性研究為數(shù)不多，主要集中于期刊論文實(shí)驗(yàn)研究(Plonsky et al.，2011；Plonsky，2013/2014；Plonsky et al.，2016；吳旭東等, 2002)。在觀察性研究評(píng)價(jià)領(lǐng)域，只有個(gè)別研究剖析調(diào)查類研究期刊論文存在的問(wèn)題，如鄭新民等(2014)。另外，也有一些研究(Lindstromberg，2016；潘珣祎等，2008；何家寧等, 2009；鮑貴, 2012)調(diào)查期刊論文數(shù)據(jù)收集或統(tǒng)計(jì)分析問(wèn)題，一定程度上反映出期刊論文存在的質(zhì)量問(wèn)題。從整體上看，實(shí)驗(yàn)研究論文的評(píng)價(jià)尚需系統(tǒng)化。

坎貝爾(Campbell)及其同事開(kāi)創(chuàng)的效度框架(validity framework)為系統(tǒng)化評(píng)價(jià)實(shí)驗(yàn)研究方法論的質(zhì)量提供了理論依據(jù)(Campbell et al., 1966；Cook et al.，1979；Shadish et al.， 2002)。效度框架以效度分類和效度威脅清單為特色。根據(jù)Shadish et al.(2002)，效度分為四類：內(nèi)部效度(internal validity)、構(gòu)念效度(construct validity)、統(tǒng)計(jì)結(jié)論效度(statistical conclusion validity)和外部效度(external validity)。關(guān)于效度框架的詳細(xì)介紹與評(píng)論，參見(jiàn)鮑貴(2015)。迄今為止，尚沒(méi)有應(yīng)用語(yǔ)言學(xué)評(píng)價(jià)性研究完整地利用這一效度框架。本研究嘗試采用這一效度框架較為系統(tǒng)地評(píng)價(jià)我國(guó)博士生學(xué)位論文報(bào)告的實(shí)驗(yàn)研究。

選擇我國(guó)博士生實(shí)驗(yàn)研究類論文作為評(píng)價(jià)對(duì)象的主要理由在于學(xué)位論文方法論質(zhì)量評(píng)價(jià)研究匱乏。鄭新民(2009)發(fā)現(xiàn)，國(guó)內(nèi)博士學(xué)位論文在這一方面存在更為嚴(yán)重的問(wèn)題，因而有必要展開(kāi)深入研究。

1 研究設(shè)計(jì)

1.1 研究問(wèn)題

本文主要回答以下兩個(gè)問(wèn)題：

(1)博士生實(shí)驗(yàn)研究類論文在各類效度整體上呈現(xiàn)怎樣的階段性特點(diǎn)？

(2)博士生實(shí)驗(yàn)研究類論文在各類效度指標(biāo)上總的特點(diǎn)和階段性特點(diǎn)是什么？

1.2 實(shí)驗(yàn)研究效度評(píng)價(jià)指標(biāo)體系

本次實(shí)驗(yàn)研究質(zhì)量評(píng)價(jià)以研究效度為依據(jù)，效度評(píng)價(jià)指標(biāo)體系的構(gòu)建主要參照Shadish et al.(2002)、《美國(guó)心理協(xié)會(huì)出版手冊(cè)》(2010)以及鮑貴(2019)，包括四類效度：內(nèi)部效度、構(gòu)念效度、統(tǒng)計(jì)結(jié)論效度和外部效度，涵蓋32項(xiàng)效度指標(biāo)，如圖1所示。

圖1 實(shí)驗(yàn)研究效度評(píng)價(jià)指標(biāo)體系

圖1中，內(nèi)部效度評(píng)價(jià)指標(biāo)有八項(xiàng)；構(gòu)念效度評(píng)價(jià)指標(biāo)有六項(xiàng)；統(tǒng)計(jì)結(jié)論效度評(píng)價(jià)指標(biāo)有13項(xiàng)；外部效度評(píng)價(jià)指標(biāo)有五項(xiàng)。每類效度評(píng)價(jià)指標(biāo)體系均包括威脅意識(shí)指標(biāo)。這是因?yàn)橥{意識(shí)能夠體現(xiàn)研究者開(kāi)展實(shí)驗(yàn)研究的能力。由于內(nèi)部效度與研究設(shè)計(jì)緊密聯(lián)系，因而在內(nèi)部效度指標(biāo)的選擇上盡可能考慮實(shí)驗(yàn)設(shè)計(jì)的特點(diǎn)。譬如，在內(nèi)部效度指標(biāo)中設(shè)計(jì)“對(duì)照組”“隨機(jī)分配”和“設(shè)計(jì)局限意識(shí)”等指標(biāo)。使用對(duì)照組是確定變量之間因果關(guān)系的重要控制手段。使用隨機(jī)分配是為了減少外擾變量對(duì)研究變量之間因果關(guān)系的干擾。使用“設(shè)計(jì)局限意識(shí)”指標(biāo)的目的是考察研究者是否能夠意識(shí)到某個(gè)研究設(shè)計(jì)在內(nèi)部效度方面的局限性。本次評(píng)價(jià)使用的“被試特征”指標(biāo)與Shadish et al.(2002)列出的內(nèi)部效度威脅清單中的“被試選擇偏差”一致。這一指標(biāo)用于考察研究者是否在準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)中使實(shí)驗(yàn)組或發(fā)現(xiàn)實(shí)驗(yàn)組在一個(gè)或多個(gè)前測(cè)或其他被試特征變量測(cè)量上相似，減少選擇偏差。為了不使評(píng)價(jià)指標(biāo)過(guò)于繁瑣，本次評(píng)價(jià)將Shadish et al.(2002)列出的內(nèi)部效度威脅清單中的“歷史”“成熟”“回歸”和“測(cè)試”等威脅歸入“威脅意識(shí)”指標(biāo)。“程序標(biāo)準(zhǔn)化”指標(biāo)與Shadish et al.(2002)提出的“工具變化”威脅一致。Shadish et al.(2002)提出的內(nèi)部效度威脅框架中的“流失”威脅在本次評(píng)價(jià)中得以保留，但是“模糊的時(shí)序性”威脅未予考慮，因?yàn)樗械膶?shí)驗(yàn)研究都能排除這一威脅。在實(shí)際操作中，流失率低于20%視作被試流失不嚴(yán)重，否則視作被試流失嚴(yán)重(Bausell，2015)。

在構(gòu)念效度方面，本研究使用的“構(gòu)念操作定義”指標(biāo)和“操作可比性”指標(biāo)與Shadish et al.(2002)列出的構(gòu)念效度威脅清單中的“構(gòu)念論述不充分”和“構(gòu)念混淆”分別一致。設(shè)計(jì)“操縱檢查”指標(biāo)是為了考察研究者是否使用操縱檢查或使用類似的方法檢驗(yàn)并確保實(shí)驗(yàn)處理實(shí)施的忠實(shí)度(fidelity)?！皽y(cè)量效度”指標(biāo)考察研究者是否提供主要因變量測(cè)量的效度證據(jù)。如果一項(xiàng)研究能夠提供效度證據(jù)，很大程度上就能夠排除Shadish et al.(2002)提出的“單一方法偏差”威脅。本研究主要評(píng)價(jià)定量型實(shí)驗(yàn)研究，Shadish et al.(2002)提出的“單一操作偏差”威脅未予考慮。將Shadish et al.(2002)列出的構(gòu)念效度威脅清單中的“對(duì)實(shí)驗(yàn)情境的反應(yīng)性”和“實(shí)驗(yàn)者期望”兩個(gè)威脅歸入“雙盲”指標(biāo)。如果一項(xiàng)實(shí)驗(yàn)采用雙盲技術(shù)，這兩個(gè)威脅基本可以被排除。Shadish et al.(2002)列出的其他構(gòu)念效度威脅歸入“效度威脅意識(shí)”指標(biāo)。

在統(tǒng)計(jì)結(jié)論效度評(píng)價(jià)方面，“測(cè)量信度”指標(biāo)反映Shadish et al.(2002)列出的統(tǒng)計(jì)結(jié)論效度威脅清單中的“測(cè)量無(wú)信度”威脅。本研究增加“數(shù)據(jù)描述”指標(biāo)(至少包括樣本量、平均數(shù)、標(biāo)準(zhǔn)差或頻數(shù)和比率)是為了考察研究者是否較充分地報(bào)告描述性統(tǒng)計(jì)量。本研究還增加了“統(tǒng)計(jì)推理”和“統(tǒng)計(jì)方法”兩項(xiàng)指標(biāo)。統(tǒng)計(jì)推理是定量研究統(tǒng)計(jì)決策的必要手段。“統(tǒng)計(jì)方法”指標(biāo)的重要性是不言而喻的。譬如，如果研究者對(duì)兩個(gè)實(shí)驗(yàn)組在二項(xiàng)類別變量數(shù)據(jù)上分布差異的比較采用獨(dú)立樣本t檢驗(yàn)，統(tǒng)計(jì)結(jié)果就沒(méi)有意義，因?yàn)閠檢驗(yàn)使用的平均數(shù)不適用于類別變量數(shù)據(jù)。本研究使用的“統(tǒng)計(jì)假設(shè)”“多重比較”“效應(yīng)量”和“統(tǒng)計(jì)效力”等指標(biāo)分別對(duì)應(yīng)于Shadish et al.(2002)提出的“違背統(tǒng)計(jì)檢驗(yàn)假設(shè)”“捕捉和錯(cuò)誤率問(wèn)題”“不精確的效應(yīng)量估計(jì)”以及“統(tǒng)計(jì)效力低”等威脅。Shadish et al.(2002)列出的統(tǒng)計(jì)結(jié)論效度威脅清單中的“范圍限制”“實(shí)驗(yàn)場(chǎng)景中的額外方差”和“研究單位的異質(zhì)性”等威脅是導(dǎo)致統(tǒng)計(jì)效力低的主要原因，本研究將這些威脅歸入“效度威脅意識(shí)”指標(biāo)。樣本量的大小也與統(tǒng)計(jì)效力密切相關(guān)，因而本研究將“樣本量”列為一個(gè)效度指標(biāo)。樣本量多大才合適依具體的研究性質(zhì)而定。為了不使問(wèn)題復(fù)雜化，本次評(píng)價(jià)依據(jù)Gersten et al.(2000)，將每個(gè)實(shí)驗(yàn)條件下的被試數(shù)不少于20人作為質(zhì)量評(píng)判的大致標(biāo)準(zhǔn)。此外，本研究統(tǒng)計(jì)結(jié)論效度評(píng)價(jià)體系還包括“結(jié)果報(bào)告”“結(jié)果解釋”和“統(tǒng)計(jì)控制”指標(biāo)?！敖Y(jié)果報(bào)告”指標(biāo)(指結(jié)果報(bào)告的完整性，如t檢驗(yàn)報(bào)告中至少包括t值、正確的自由度和p值)同“數(shù)據(jù)描述”指標(biāo)一樣是應(yīng)《美國(guó)心理協(xié)會(huì)出版手冊(cè)》(2010)對(duì)研究結(jié)果報(bào)告的要求?！敖Y(jié)果解釋”指標(biāo)體現(xiàn)研究者對(duì)重要統(tǒng)計(jì)概念正確理解和應(yīng)用的能力。如果結(jié)果解釋錯(cuò)了，統(tǒng)計(jì)結(jié)論就不可信。使用“統(tǒng)計(jì)控制”這一指標(biāo)是為了與內(nèi)部效度指標(biāo)中的“被試特征”指標(biāo)相一致。如果研究者在統(tǒng)計(jì)分析中包括了外擾變量，統(tǒng)計(jì)結(jié)論的信度就會(huì)提高。

外部效度評(píng)價(jià)采用“樣本描述”等五項(xiàng)指標(biāo)?！皹颖久枋觥敝笜?biāo)包括被試年齡、性別和外語(yǔ)水平?！巴{意識(shí)”指標(biāo)涵蓋Shadish et al.(2002)列出的四種外部效度威脅，即“因果關(guān)系和場(chǎng)景的交互作用”“因果關(guān)系在處理變體上的交互作用”“因果關(guān)系和結(jié)果的交互作用”和“依賴于環(huán)境的中介作用”。但是，本研究將Shadish et al.(2002)列出的外部效度威脅清單中的“因果關(guān)系和研究單位的交互作用”歸入“子群體推廣”指標(biāo)。“生態(tài)效度”指實(shí)驗(yàn)場(chǎng)景、程序或處理方式等是否自然?！翱傮w效度”指研究樣本是否從被試總體中隨機(jī)抽樣得到。

1.3 數(shù)據(jù)收集

本研究使用的博士論文數(shù)據(jù)為2005—2014年間我國(guó)英語(yǔ)語(yǔ)言學(xué)博士生的學(xué)位論文，檢索語(yǔ)料庫(kù)為中國(guó)知網(wǎng)(CNKI)的“中國(guó)博士論文全文數(shù)據(jù)庫(kù)”。選擇檢索的學(xué)科領(lǐng)域?yàn)椋赫軐W(xué)與人文科學(xué)·外國(guó)語(yǔ)言文字·英語(yǔ)。檢索詞為“experiment”，檢索年度為2005—2014年。符合初始檢索條件的博士論文數(shù)為353 篇。

文中有“實(shí)驗(yàn)”一詞的博士論文未必就是實(shí)驗(yàn)研究，需要對(duì)初次檢索的論文進(jìn)行再次篩選。篩選的論文滿足以下條件：(1)作者為英語(yǔ)語(yǔ)言學(xué)專業(yè)博士研究生；(2)以中國(guó)語(yǔ)境下的英語(yǔ)學(xué)習(xí)者為主要研究對(duì)象(被試)；(3)作者在摘要或在研究方法論中采用術(shù)語(yǔ)“實(shí)驗(yàn)”“試驗(yàn)”“實(shí)驗(yàn)組”“控制組”或“對(duì)照組”等中、英文術(shù)語(yǔ)表明研究的實(shí)驗(yàn)性質(zhì)，且為定量研究；(4)滿足實(shí)驗(yàn)研究的基本特征：研究者有意地操縱一個(gè)或多個(gè)自變量，觀察操縱水平的變化對(duì)結(jié)果變量(因變量)的影響；(5)如果作者在論文中聲稱開(kāi)展了多項(xiàng)實(shí)驗(yàn)，則以第一個(gè)所謂的實(shí)驗(yàn)為評(píng)價(jià)對(duì)象。按照以上篩選標(biāo)準(zhǔn)，得到有效博士論文數(shù)104篇。博士論文的階段性劃分以每?jī)赡隇橐粋€(gè)時(shí)段，如2005—2006年為一個(gè)階段，共五個(gè)階段。每個(gè)階段博士論文樣本量依次為12、20、25、31和16。

1.4 數(shù)據(jù)標(biāo)注與統(tǒng)計(jì)分析方法

博士論文數(shù)據(jù)標(biāo)注的范圍是論文的研究方法、結(jié)果和結(jié)論章節(jié)。各類效度指標(biāo)的標(biāo)注采用二分法。凡某項(xiàng)指標(biāo)在論文中得以顯示，評(píng)價(jià)結(jié)果就為“是”，計(jì)數(shù)為“1”，表示在某項(xiàng)指標(biāo)上有效度。凡某項(xiàng)指標(biāo)在論文中缺失，評(píng)價(jià)結(jié)果就為“否”，計(jì)數(shù)為“0”，表示在某項(xiàng)指標(biāo)上沒(méi)有效度。譬如，若一項(xiàng)研究使用對(duì)照組，評(píng)價(jià)結(jié)果就為“是”，否則評(píng)價(jià)結(jié)果為“否”。一項(xiàng)研究沒(méi)有被試流失現(xiàn)象，評(píng)價(jià)結(jié)果就為“是”。若流失率超過(guò)20%，評(píng)價(jià)結(jié)果則為“否”。

研究問(wèn)題的回答采用描述性統(tǒng)計(jì)和推理統(tǒng)計(jì)相結(jié)合的方法。比較每類效度顯示度的階段性差異采用秩次型單因素穩(wěn)健方差分析(1)秩次型單因素穩(wěn)健方差分析允許方差不齊和等值(tied values)，詳見(jiàn)Wilcox(2017)。關(guān)于穩(wěn)健統(tǒng)計(jì)的基本概念，見(jiàn)鮑貴(2017)。。效度顯示度定義為同類效度指標(biāo)上的計(jì)數(shù)之和與指標(biāo)題項(xiàng)數(shù)的比率。對(duì)各類效度指標(biāo)變化總體特點(diǎn)的探索采用卡方擬合優(yōu)度檢驗(yàn)。每項(xiàng)指標(biāo)上的效度顯示度定義為各個(gè)階段該指標(biāo)上的計(jì)數(shù)之和與總樣本量的比率。本研究的零假設(shè)為論文總體(population)中效度指標(biāo)顯示度可能有三種情形，即P0= 0.25、P0= 0.5或P0= 0.75。在零假設(shè)情況下，P0= 0.25指在總體中某個(gè)效度指標(biāo)的顯示度為0.25，缺失度為0.75，表示只有1/4的學(xué)位論文在該指標(biāo)上體現(xiàn)了效度。P0= 0.5和P0= 0.75的解釋與之相似。0.25、0.5和0.75是三個(gè)有意義的比率，依次反映低、中、高效度。

各類效度指標(biāo)階段性變化特點(diǎn)的探索采用卡方列聯(lián)表檢驗(yàn)。由于分階段統(tǒng)計(jì)中有些單元格觀察頻數(shù)較小，每項(xiàng)效度指標(biāo)與階段性關(guān)系的檢驗(yàn)實(shí)際采用卡方置換檢驗(yàn)(permutation test)。

2 研究結(jié)果

2.1 博士論文實(shí)驗(yàn)研究效度階段性分析

各個(gè)階段博士論文每類效度平均顯示度的比較如圖2所示。

圖2 每類效度平均顯示度階段性變化

圖2顯示，各階段博士論文內(nèi)部效度顯示度在四類效度中最高，介于0.5-0.7之間，有隨階段緩慢下降的趨勢(shì)，只是在近期兩個(gè)階段基本持平。構(gòu)念效度顯示度在前三個(gè)階段保持較高的水平(介于0.45-0.5之間)，后兩個(gè)階段處于較低的水平(介于0.3-0.4之間)，下降趨勢(shì)較明顯。各個(gè)階段統(tǒng)計(jì)結(jié)論效度顯示度呈前升后降之勢(shì)，大致介于0.4-0.5之間，最大值位于第三階段。外部效度顯示度階段性變化不明顯，大致維系在0.4的水平。總體上看，在四類效度中，只有內(nèi)部效度顯示度高于0.5的水平。各類效度均有不同程度的階段性變化，階段性變化最明顯的是構(gòu)念效度，變化最平緩的當(dāng)屬外部效度。

為進(jìn)一步了解博士論文中每類效度顯示度在不同階段是否存在統(tǒng)計(jì)顯著性差異，本研究采用秩次型單因素穩(wěn)健方差分析，統(tǒng)計(jì)結(jié)果如表1所示。

表1 各階段效度顯示度穩(wěn)健方差分析

2.2 博士論文各類效度指標(biāo)推理統(tǒng)計(jì)分析

為了推斷在博士論文總體中各項(xiàng)效度指標(biāo)的變化模式，排除隨機(jī)誤差的干擾，本研究在P0=0.25、P0=0.5和P0=0.75三種假設(shè)情形下，采用卡方擬合優(yōu)度檢驗(yàn)推導(dǎo)各項(xiàng)指標(biāo)變化模式，統(tǒng)計(jì)分析結(jié)果如表2所示。

表2 效度指標(biāo)卡方擬合優(yōu)度檢驗(yàn)

表2顯示，內(nèi)部效度指標(biāo)變化有兩極化趨勢(shì)。總體中，隨機(jī)分配、威脅意識(shí)和設(shè)計(jì)局限意識(shí)三項(xiàng)指標(biāo)上的效度顯示度很低(P≤0.25)。區(qū)組化指標(biāo)顯示度處于中間水平(P=0.5)。其他四項(xiàng)內(nèi)部效度指標(biāo)上的效度顯示度較高(P≥0.75)。

在構(gòu)念效度方面，構(gòu)念操作定義、測(cè)量效度和雙盲三項(xiàng)指標(biāo)上的效度顯示度很低(P≤0.25)。操作可比性和操縱檢查指標(biāo)的顯示度較好(P≥0.75)，威脅意識(shí)顯示度達(dá)到了中等水平(P=0.5)。

在BIM模型上對(duì)施工計(jì)劃和施工方案進(jìn)行分析模擬，消除沖突，得到最優(yōu)施工計(jì)劃和方案。如塔吊定位及運(yùn)行，工具式模板選型及設(shè)計(jì)等均可充分利用BIM的參數(shù)化和可視化特性對(duì)節(jié)點(diǎn)進(jìn)行施工流程的分析模擬，可以改進(jìn)施工方案實(shí)現(xiàn)可施工性。

統(tǒng)計(jì)結(jié)論效度指標(biāo)上的效度顯示度分布較為分散。有近一半的效度指標(biāo)(六項(xiàng)指標(biāo))顯示度很低(P≤0.25)。這些指標(biāo)包括測(cè)量信度、統(tǒng)計(jì)假設(shè)、統(tǒng)計(jì)控制、效應(yīng)量、統(tǒng)計(jì)效力和威脅意識(shí)。結(jié)果報(bào)告指標(biāo)上的顯示度處于較低水平(0.25

在外部效度方面，只有生態(tài)效度指標(biāo)上的顯示度較高(P=0.75)，威脅意識(shí)指標(biāo)顯示度次之(P=0.5)，其他三項(xiàng)指標(biāo)上的顯示度處于較低或很低的水平(0.25

2.3 博士論文各類效度指標(biāo)與階段性之間的關(guān)系

雖然2.1節(jié)只在構(gòu)念效度上發(fā)現(xiàn)階段性差異，但是這未必意味著構(gòu)念效度的每項(xiàng)指標(biāo)均有階段性差異，也未必意味著其他效度的每項(xiàng)指標(biāo)均沒(méi)有階段性差異。各類效度指標(biāo)與階段性關(guān)系的卡方置換檢驗(yàn)結(jié)果如表3所示。

表3 各類效度指標(biāo)階段性變化的卡方置換檢驗(yàn)

*表示在.05概率水平上有顯著關(guān)聯(lián)。w=0.1、0.3和0.5分別表示小、中、大效應(yīng)(Cohen，1988)

概而言之，雖然有六個(gè)效度指標(biāo)的顯示度與階段性有關(guān)聯(lián)，但是并未體現(xiàn)隨階段性穩(wěn)步提升的跡象，甚至出現(xiàn)“不進(jìn)則退”的現(xiàn)象，譬如在構(gòu)念效度威脅意識(shí)指標(biāo)上，后期論文的效度顯示度不及前期論文。

3 討論與建議

本研究得出以下主要結(jié)論。其一，整體上，在博士論文體現(xiàn)的四類效度中，只有構(gòu)念效度存在階段性變化，不過(guò)這種變化沒(méi)有顯示階段性或歷時(shí)性穩(wěn)步提升。其二，以三種效度顯示度(P0=0.25、P0=0.5和P0=0.75)為參照，14項(xiàng)指標(biāo)上的效度顯示度在0.25以下，占指標(biāo)總數(shù)(32項(xiàng))的44%。即是說(shuō)，這些效度指標(biāo)上的效度在至少3/4的博士論文中沒(méi)有得到體現(xiàn)。兩項(xiàng)指標(biāo)上的效度顯示度在0.25-0.5之間，占指標(biāo)總數(shù)的6%。16項(xiàng)指標(biāo)上的效度顯示度在0.5以上。這意味著16項(xiàng)指標(biāo)在一半以上的博士論文中得到體現(xiàn)。其三，絕大部分效度指標(biāo)(26項(xiàng)，占指標(biāo)總數(shù)的81%)與階段性沒(méi)有關(guān)聯(lián)。雖有少數(shù)效度指標(biāo)(六項(xiàng)，占指標(biāo)總數(shù)的19%)與階段性有關(guān)聯(lián)，但是這些關(guān)聯(lián)沒(méi)有體現(xiàn)效度的歷時(shí)性穩(wěn)步提升。

這些結(jié)果表明，博士論文實(shí)驗(yàn)研究的質(zhì)量不容樂(lè)觀，特別是在經(jīng)過(guò)近10年之后依然沒(méi)有出現(xiàn)質(zhì)量明顯提高的跡象。針對(duì)我國(guó)英語(yǔ)語(yǔ)言學(xué)博士生實(shí)驗(yàn)研究論文中普遍存在的主要問(wèn)題，建議研究生教學(xué)和論文指導(dǎo)以效度為抓手，重視實(shí)驗(yàn)設(shè)計(jì)、實(shí)驗(yàn)實(shí)施和統(tǒng)計(jì)分析的三位一體性。

3.1 提高研究生實(shí)驗(yàn)設(shè)計(jì)能力

研究設(shè)計(jì)在整個(gè)研究過(guò)程中發(fā)揮著統(tǒng)領(lǐng)的作用。在實(shí)驗(yàn)設(shè)計(jì)階段，博士生需明確研究的具體設(shè)計(jì)形式、研究中的自變量和因變量如何定義和測(cè)量、有哪些外擾變量需要通過(guò)設(shè)計(jì)本身、通過(guò)實(shí)施程序或通過(guò)統(tǒng)計(jì)程序加以控制。建議方法論課程的教學(xué)多開(kāi)展實(shí)驗(yàn)設(shè)計(jì)案例分析，增強(qiáng)博士生的感性認(rèn)識(shí)，明確一種實(shí)驗(yàn)設(shè)計(jì)形式可能面臨哪些效度威脅以及如何排除或降低這些威脅。Shadish et al.(2002)系統(tǒng)、深刻地論述了實(shí)驗(yàn)研究的原理、原則和方法，被尊奉為實(shí)驗(yàn)研究的“圣經(jīng)”。Bausell (2015)從實(shí)用的角度簡(jiǎn)明扼要地闡述了設(shè)計(jì)與開(kāi)展實(shí)驗(yàn)的基本原則。推薦將這些著作作為方法論教材或研究生必讀書目。

3.2 重視使用雙盲技術(shù)，加強(qiáng)構(gòu)念定義與操作之間的聯(lián)系

本次評(píng)價(jià)的博士論文在構(gòu)念操作中幾乎沒(méi)有使用雙盲技術(shù)。這一方面是由于有些教學(xué)實(shí)驗(yàn)研究是由研究者本人實(shí)施的，或者被試知情，因而雙盲技術(shù)很難實(shí)現(xiàn)。另一方面，很多博士生可能不了解雙盲技術(shù)的重要性，未能在研究中應(yīng)用這項(xiàng)技術(shù)。雙盲技術(shù)能夠避免實(shí)驗(yàn)者效應(yīng)和被試對(duì)實(shí)驗(yàn)情境的反應(yīng)性(如霍桑效應(yīng))。由研究助手或其他教師(非研究者本人)實(shí)施實(shí)驗(yàn)，可以避免實(shí)驗(yàn)者效應(yīng)。如果被試不知情不會(huì)對(duì)他們?cè)斐蓚?，則在被試不知情的情況下參與實(shí)驗(yàn)就會(huì)避免被試對(duì)實(shí)驗(yàn)情境的反應(yīng)性威脅。

大多數(shù)博士生對(duì)構(gòu)念的操作及其與構(gòu)念定義之間關(guān)系的重視程度明顯不足。如果構(gòu)念的操作不能體現(xiàn)構(gòu)念的核心要素，或者構(gòu)念的操作中引入了其他外擾變量，構(gòu)念效度就會(huì)受到威脅。要提高構(gòu)念效度，既要有明確、合理的操作程序，又要保證實(shí)施程序的嚴(yán)謹(jǐn)性。實(shí)驗(yàn)正式實(shí)施前的先導(dǎo)研究幾乎是必不可少的。通過(guò)先導(dǎo)研究發(fā)現(xiàn)可能出現(xiàn)的外擾變量，并制定有效措施在正式實(shí)施中加以控制。建議研究生方法論教學(xué)中對(duì)構(gòu)念定義與構(gòu)念操作之間的聯(lián)系給予足夠的重視，通過(guò)案例來(lái)提高研究生批判性學(xué)術(shù)思維的能力。

3.3 提高研究生統(tǒng)計(jì)分析能力

本次評(píng)價(jià)發(fā)現(xiàn)，博士生普遍忽視測(cè)量信度、統(tǒng)計(jì)假設(shè)、效應(yīng)量和統(tǒng)計(jì)效力報(bào)告。忽視測(cè)量信度和統(tǒng)計(jì)假設(shè)為統(tǒng)計(jì)結(jié)論的效度畫上了問(wèn)號(hào)。報(bào)告信度的博士論文數(shù)占論文總數(shù)的32%，同吳旭東等(2002)在期刊論文調(diào)查中報(bào)告的14%相比有很大的進(jìn)步。但是，在當(dāng)今實(shí)證研究重視測(cè)量的大背景下，信度報(bào)告如此不足還是令人不安的。譬如，Plonsky et al.(2011)發(fā)現(xiàn)，64%的期刊論文報(bào)告了信度估計(jì)。當(dāng)然，期刊論文對(duì)統(tǒng)計(jì)假設(shè)和統(tǒng)計(jì)效力的忽略程度也是相當(dāng)嚴(yán)重的。譬如，在Plonsky et al.(2011)的調(diào)查中，只有3%的研究檢驗(yàn)了統(tǒng)計(jì)假設(shè)，只有2%的論文開(kāi)展了效力分析。在Plonsky(2013)的調(diào)查中，17%的研究檢驗(yàn)了統(tǒng)計(jì)假設(shè)，只有1%的論文開(kāi)展了效力分析。這說(shuō)明很多博士論文中存在的問(wèn)題在期刊論文中同樣存在，是普遍性問(wèn)題。大多數(shù)博士論文忽視效應(yīng)量(報(bào)告效應(yīng)量的論文比率為5%)，使研究結(jié)論過(guò)度依賴統(tǒng)計(jì)顯著性。相比之下，Plonsky(2014)通過(guò)對(duì)兩個(gè)階段期刊論文的調(diào)查發(fā)現(xiàn)，效應(yīng)量報(bào)告的比率由前期的3%增至42%，說(shuō)明效應(yīng)量的報(bào)告越來(lái)越受到期刊作者的重視。樣本量小是導(dǎo)致統(tǒng)計(jì)效力不足的主要原因之一。雖然有不少博士生意識(shí)到樣本量的重要性，但是他們只將樣本量問(wèn)題與外部效度聯(lián)系在一起，而沒(méi)有意識(shí)到樣本量不足會(huì)降低統(tǒng)計(jì)效力。

本次評(píng)估暴露出來(lái)的問(wèn)題為我們的研究生教學(xué)敲響了警鐘。長(zhǎng)期以來(lái)，博士生課程教學(xué)不重視統(tǒng)計(jì)理論教學(xué)或者統(tǒng)計(jì)學(xué)教學(xué)過(guò)于強(qiáng)調(diào)統(tǒng)計(jì)分析的軟件操作，未能使博士生真正掌握統(tǒng)計(jì)學(xué)的基本原理，未能認(rèn)識(shí)到統(tǒng)計(jì)假設(shè)檢驗(yàn)以及效應(yīng)量等統(tǒng)計(jì)量報(bào)告的重要性。我們建議在研究生課程設(shè)置中增加應(yīng)用統(tǒng)計(jì)學(xué)課程，或增加原有應(yīng)用統(tǒng)計(jì)學(xué)課程的技術(shù)含量，切實(shí)提高博士生統(tǒng)計(jì)分析的能力。

3.4 研究生導(dǎo)師要重視過(guò)程性指導(dǎo)

學(xué)位論文寫作是一個(gè)較長(zhǎng)的過(guò)程。在這一過(guò)程中，除了博士生本人的努力之外，也需要導(dǎo)師的精心指導(dǎo)。

研究設(shè)計(jì)是實(shí)驗(yàn)成敗的關(guān)鍵。研究生導(dǎo)師首先要把好設(shè)計(jì)這一關(guān)，最好能夠結(jié)合研究實(shí)際列出問(wèn)題清單逐一審查博士生論文的研究設(shè)計(jì)，內(nèi)容包括研究問(wèn)題、研究設(shè)計(jì)的具體形式、設(shè)計(jì)形式與研究問(wèn)題的關(guān)聯(lián)性、實(shí)驗(yàn)處理的核心要素、測(cè)量方法和被試招募等。其次，研究生導(dǎo)師要確保實(shí)驗(yàn)程序制定和執(zhí)行的有效性，最好能列出問(wèn)題清單，內(nèi)容包括構(gòu)念定義與操作的一致性、實(shí)驗(yàn)處理的忠實(shí)度、實(shí)驗(yàn)實(shí)施者的能力和測(cè)量的信度和效度等。最后，建議研究生導(dǎo)師規(guī)范統(tǒng)計(jì)分析流程，避免統(tǒng)計(jì)分析和認(rèn)知誤區(qū)。

4 結(jié)語(yǔ)

本文依據(jù)效度框架制定了效度指標(biāo)體系，并借以評(píng)價(jià)2005—2014年間我國(guó)英語(yǔ)語(yǔ)言學(xué)方向博士生百篇實(shí)驗(yàn)性學(xué)位論文方法論的質(zhì)量。我國(guó)博士研究生整體上初步具備開(kāi)展實(shí)驗(yàn)研究的能力，但是也有不少“短板”。譬如，對(duì)實(shí)驗(yàn)研究設(shè)計(jì)的意識(shí)比較淡薄，對(duì)外擾變量的控制能力不強(qiáng)，統(tǒng)計(jì)分析與報(bào)告能力較弱。這些“短板”為博士生培養(yǎng)方案和課程設(shè)置的改革指明了方向。

本研究制定的效度指標(biāo)體系具有普適性，為研究者開(kāi)展實(shí)驗(yàn)研究評(píng)價(jià)或?qū)彶樽陨淼膶?shí)驗(yàn)研究問(wèn)題提供了參考框架。在實(shí)際應(yīng)用中，研究者可以結(jié)合具體的研究領(lǐng)域?qū)⒅笜?biāo)體系進(jìn)一步細(xì)化。另外，本研究沒(méi)有對(duì)效度指標(biāo)設(shè)定不同的權(quán)重。毋庸置疑，不同指標(biāo)體現(xiàn)的難易度是不一樣的。譬如，控制外擾變量比樣本量報(bào)告要難得多，因?yàn)橥鈹_變量控制與因果推論息息相關(guān)，不僅需要研究者有專業(yè)的知識(shí)和技能，還要有研究經(jīng)驗(yàn)，而樣本量報(bào)告只體現(xiàn)報(bào)告的完整性，技術(shù)含量低。能否或如何設(shè)定效度指標(biāo)的權(quán)重或許是未來(lái)評(píng)估研究的一個(gè)難點(diǎn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放