基于結(jié)構(gòu)方程模型的普通話水平測試構(gòu)想效度研究

2024-01-01 00:00:00原鑫

考試研究 2024年6期

[摘要] 構(gòu)想效度是效度論證的核心問題，也是檢驗測試質(zhì)量的關(guān)鍵指標(biāo)。以普通話水平測試實測數(shù)據(jù)為研究材料，考察普通話水平測試的構(gòu)想效度。使用結(jié)構(gòu)方程驗證性因子分析檢驗測試的構(gòu)想效度，使用跨組別驗證性因子分析測試構(gòu)想在男女考生組別的跨組別一致性。驗證性因子分析結(jié)果顯示：“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型與實測數(shù)據(jù)擬合最佳；參數(shù)估計結(jié)果顯示測試聚斂效度良好，判別效度較低?？缃M別分析結(jié)果顯示：兩因子模型各項參數(shù)在男女考生群體中表現(xiàn)一致，測試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。從實證角度論證了普通話水平測試的構(gòu)想效度，并對命題說話題目提出設(shè)置情境、更新題庫、提高被試表達(dá)真實性等改進建議。

[關(guān)鍵詞] 普通話水平測試；構(gòu)想效度；結(jié)構(gòu)方程模型；因子結(jié)構(gòu)

[中圖分類號] G424.74 [文獻(xiàn)標(biāo)識碼] A

[文章編號] 1673—1654（2024）06—031—011

普通話水平測試（Putonghua Shuiping Ceshi，PSC）是專門測試漢語母語者標(biāo)準(zhǔn)語水平的大規(guī)?？谠嚕谴龠M國家通用語言高質(zhì)量推廣普及的重要舉措。該測試對象范圍廣、測試數(shù)量龐大，是相關(guān)職業(yè)及專業(yè)資格認(rèn)證、學(xué)生學(xué)業(yè)成就認(rèn)證的重要依據(jù)。效度是衡量測試質(zhì)量的核心標(biāo)準(zhǔn)，“任何嚴(yán)肅的測試都必須提供令人滿意的效度證據(jù)”[1]，測試最重要的效度證據(jù)就是測試的構(gòu)想效度，即被試的考試成績與考試開發(fā)者所設(shè)想的語言能力理論相符的程度[2]。PSC測評質(zhì)量的研究一直受到學(xué)界重視，相關(guān)研究也從不同角度論證了測試的質(zhì)量，但幾乎沒有觸及構(gòu)想效度這一測試質(zhì)量的核心問題。關(guān)于PSC的構(gòu)想及效度等諸多關(guān)鍵問題，需要深入研究和探索。

一、研究背景和提出問題

（一）口語測試的構(gòu)想效度研究

測試的構(gòu)想效度研究一直是語言測驗領(lǐng)域的一個核心課題。構(gòu)想是一種語言能力理論在測驗中的體現(xiàn)。語言測驗涉及的一個重要假設(shè)就是測驗的構(gòu)想與所測內(nèi)容有著同樣的結(jié)構(gòu)關(guān)系。研究構(gòu)想效度是為了檢驗試卷結(jié)構(gòu)與所測語言能力之間的相符程度，以回答“測試到底在多大程度上測到了其想測的能力”這一反映測試質(zhì)量的關(guān)鍵問題。盡管研究者們對效度的分類法存在差異，但構(gòu)想效度一直居于效度研究的中心地位，Cronbach將效度研究比作對以構(gòu)想效度為特征的科學(xué)理論的評估，指出大多數(shù)教育測量都需要構(gòu)想效度[2]。Messick認(rèn)為構(gòu)想效度也許不能代表效度的全部，但它是效度的核心[3]。Bachman引用Messick的論述[4-5]，指出盡管研究者們將效度證據(jù)分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度、結(jié)構(gòu)效度等不同種類，但效度具有一元性，內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度都是支持構(gòu)想效度的輔助性證據(jù)[6]?？梢?，構(gòu)想效度的論證是語言測驗的開發(fā)與使用無法回避的問題。

Messick的一元化效度觀認(rèn)為，效度是一個綜合性的評價，效度證據(jù)來自多個方面[7]。效度是一種程度，有高低之分，不是非有即無。效度驗證是動態(tài)的、持續(xù)的過程，研究者可以通過多種渠道、從多個方面收集構(gòu)想效度證據(jù)，以說明測試分?jǐn)?shù)解釋和使用的合理性。

目前國內(nèi)外直接研究PSC構(gòu)想效度的文章相對較少。張國華通過面向應(yīng)試人員的問卷調(diào)查和面向測試員的座談收集對PSC各類效度的評價數(shù)據(jù)，包括PSC的構(gòu)念效度、內(nèi)容效度、表面效度等；調(diào)查結(jié)果顯示應(yīng)試人和測試員普遍認(rèn)為PSC構(gòu)念效度較高，但多數(shù)被試認(rèn)為第一項“讀單音節(jié)字詞”內(nèi)容效度較低；同時相當(dāng)比重的應(yīng)試人認(rèn)為試卷表面效度較好，但仍需做很多改進[8]。常曉宇對PSC“朗讀短文”測試項進行效度研究，使用層次分析法確定了PSC朗讀短文測試項各評分要素的比重，使用多重線性回歸的方法構(gòu)建了普通話朗讀能力要素的回歸方程[9]。張寵以華裔學(xué)生PSC實測數(shù)據(jù)為研究材料，從內(nèi)容效度、校標(biāo)關(guān)聯(lián)效度、構(gòu)想效度、測試后效等效度的不同方面探討PSC對華裔學(xué)生的適用性[10]?？傮w上看，PSC的構(gòu)想效度研究領(lǐng)域?qū)y試效度的研究經(jīng)驗探討多，實證研究少。

（二）口語測試因子結(jié)構(gòu)的跨組別一致性研究

測試的公平性是影響測試效度的一個重要方面，只有公平的測試才可能是有效的測試，任何削弱公平性的行為都會損害測試分?jǐn)?shù)解釋和使用的有效性[11]。進行因子結(jié)構(gòu)跨組別的比較研究是為了檢驗測試構(gòu)想在不同應(yīng)試群體中是否存在偏差，即測試構(gòu)想對不同群體是否公平。如果測試因子結(jié)構(gòu)與不同考生群體測試數(shù)據(jù)的擬合具有跨組別不變性，那么可以認(rèn)為測試構(gòu)想對不同考生群體是一致且有效的。否則，測試可能會顯示出對特定考生群體的偏見。《教育與心理測量標(biāo)準(zhǔn)》（Standards for Educational and Psychological Testing）一書認(rèn)為，當(dāng)測試涉及不同的亞群體受試時，應(yīng)該實施效度的跨群體一致性驗證[12]。已有研究涉及的亞群體類別包括社會地位、性別、語言和文化背景、專業(yè)背景等[13-16]。但已有研究多是針對紙筆考試的試卷結(jié)構(gòu)，對口語能力結(jié)構(gòu)模型的公平性研究較少。

在語言測試領(lǐng)域，性別對口語能力的影響是比較受關(guān)注的話題。有研究認(rèn)為，男女在會話風(fēng)格、語言互動方面存在較大差異，口語交際能力的構(gòu)想在男女性別上并沒有做到公平一致[17]；也有研究發(fā)現(xiàn)性別對口語水平并無明顯的影響[18]?？梢?，對于口語能力與性別的關(guān)系，研究者們觀點并不一致。PSC作為一項大規(guī)模的母語口語水平考試，測試構(gòu)想對男女考生群體是否存在偏差是值得研究的課題。

（三）結(jié)構(gòu)方程模型在測試效度研究中的應(yīng)用

結(jié)構(gòu)方程模型（Structure Equation Model，SEM）也稱為協(xié)方差結(jié)構(gòu)分析或結(jié)構(gòu)方程建模，是基于變量的協(xié)方差矩陣分析變量間關(guān)系的一種統(tǒng)計方法。SEM可分為測量方程（Measurement Equation）和結(jié)構(gòu)方程（Structural Equation）兩部分。測量方程描述潛變量與指標(biāo)之間的關(guān)系。結(jié)構(gòu)方程則描述潛變量之間的關(guān)系。SEM通過假設(shè)模型與實測數(shù)據(jù)的擬合，估計觀測變量、潛在變量之間的關(guān)系，確定理論構(gòu)想與實際數(shù)據(jù)表現(xiàn)的相符程度。20世紀(jì)80年代以來，SEM廣泛應(yīng)用于語言能力結(jié)構(gòu)、測試構(gòu)想效度、測試公平性的研究[19-22]。SEM的最大優(yōu)點之一就是能夠評估理論模型的構(gòu)想效度[23]，是一種“理論檢驗”的活動[24]。

PSC作為一項服務(wù)國家語言文字事業(yè)，對國家通用語言高質(zhì)量普及提升起到重要助推作用的測試，其構(gòu)想效度研究是重要的研究課題，也是推動國家通用語言高質(zhì)量發(fā)展的應(yīng)有之義。本研究將使用結(jié)構(gòu)方程模型，在論證考試因子結(jié)構(gòu)的基礎(chǔ)上，進一步探討測試結(jié)構(gòu)在不同考生群體上的穩(wěn)定性，為PSC的效度論證提供實證依據(jù)。具體研究問題有兩個：一是PSC的構(gòu)想效度如何？二是PSC對男女性別的被試是否具有跨組別一致性？

二、研究方法與過程

（一）樣本數(shù)量的確定及樣本情況

目前學(xué)界對結(jié)構(gòu)方程模型研究的最低樣本量并沒有確定且統(tǒng)一的標(biāo)準(zhǔn)，經(jīng)常被引用的一種確定樣本量的方法是考慮樣本量與觀測變量個數(shù)的關(guān)系。Bentler和Chou認(rèn)為對于呈正態(tài)分布和橢圓分布的數(shù)據(jù)，樣本量應(yīng)該是觀測變量個數(shù)的5倍；而對于其他分布情況的數(shù)據(jù)，樣本量應(yīng)該是觀測變量個數(shù)的10倍[25]。Muthen L和Muthen B認(rèn)為，對于一個有10個觀測變量的模型，如果數(shù)據(jù)分布接近正態(tài)且無缺失值，則最低樣本量為150[26]。一般來說，觀測變量個數(shù)越少、數(shù)據(jù)越接近正態(tài)、缺失值越少，則需要的樣本數(shù)量越少。本研究的PSC包含4個觀測變量，在數(shù)據(jù)呈正態(tài)分布、無缺失值的情況下，100至200名被試可以保證研究的信度。此外，結(jié)構(gòu)方程模型多組比較時，如不同組別的樣本量差異較大，估計值會盡量遷就人數(shù)較多的組，使總χ2最小，為保證模型估計的準(zhǔn)確性，應(yīng)保證各組人數(shù)等同或接近。

從某次普通話測試中抽取180名被試的語音樣本，其中男性90名，女性90名。180名被試的語音樣本均包含讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文、命題說話4項。聘請兩名省級評分員對180名被試在4個題型上的表現(xiàn)進行分項評分，取兩名評分員評分結(jié)果的平均數(shù)作為測試最終得分。被試分項得分情況見表1。

（二）競爭模型的建立及指標(biāo)的設(shè)定

《普通話水平測試大綱》（以下簡稱“《大綱》”）對PSC的試卷結(jié)構(gòu)進行了描述。如表2所示，普通話水平測試包括“讀單音節(jié)字詞”“讀多音節(jié)詞語”“朗讀短文”和“命題說話”?！白x單音節(jié)字詞”“讀多音節(jié)詞語”“朗讀短文”屬于有文字憑借測試項，測查被試讀字詞的語音標(biāo)準(zhǔn)程度和朗讀書面作品的水平；命題說話測試項為無文字憑借測試項，測查被試在沒有文字憑借的情況下使用普通話所達(dá)到的規(guī)范程度[27]。

根據(jù)《大綱》對PSC試卷結(jié)構(gòu)的闡述，本研究構(gòu)擬了2個競爭模型。模型A包含普通話能力1個潛變量，將其命名為PT；4個觀測變量分別為讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文和命題說話，分別命名為DZ、DC、DW和MS。模型B包含“有文字憑借模式下的普通話表達(dá)”和“無文字憑借模式下的普通話表達(dá)”兩個潛變量，分別命名為YWZ和WWZ；YWZ因子包含讀單音節(jié)字詞（DZ）、讀多音節(jié)詞語（DC）、朗讀短文（DW）3個觀測變量；WWZ因子的觀測變量為命題說話（MS）。結(jié)構(gòu)方程模型進行指標(biāo)設(shè)定時，每個因子至少有2個指標(biāo)模型才可被識別。使用兩位評分員的評分結(jié)果作為WWZ因子的2個測量指標(biāo)，分別命名為MS1、MS2。對于含有2個指標(biāo)的多因子模型，侯杰泰等提出兩指標(biāo)法則[28]，即對于一個多因子模型，如果有因子只含兩個指標(biāo)，模型可識別的充分條件如下：一是每個因子有兩個或兩個以上的指標(biāo)；二是每個指標(biāo)只測量一個潛變量；三是對每個潛變量，至少有另一個潛變量與之相關(guān)；四是誤差之間不相關(guān)。根據(jù)此法則對本研究各理論模型進行檢視，結(jié)果均符合法則要求，因此本研究模型的建立是可行的。

模型A和模型B的結(jié)構(gòu)關(guān)系圖分別見圖1和圖2。

（三）數(shù)據(jù)分析步驟

對所有模型的擬合、參數(shù)估計均使用結(jié)構(gòu)方程模型分析軟件Lisrel（8.80）。數(shù)據(jù)研究分為三步：一是數(shù)據(jù)一元正態(tài)和多元正態(tài)性檢驗，二是確立基準(zhǔn)模型，三是跨組別分析。

一元正態(tài)及多元正態(tài)檢驗參考數(shù)據(jù)偏度、峰度顯著性檢驗以及總體顯著性檢驗，檢驗的零假設(shè)是數(shù)據(jù)符合正態(tài)分布，我們希望接受這個零假設(shè)，即希望p值大于0.01。使用極大似然估計（Maximum Likelihood，ML）進行數(shù)據(jù)擬合。模型與數(shù)據(jù)的擬合程度主要參考兩個標(biāo)準(zhǔn)：一是模型擬合指數(shù)，二是參數(shù)估計結(jié)果的合理性?；鶞?zhǔn)模型的建立和跨組別分析參考一系列擬合指數(shù)。目前普遍認(rèn)為評價模型擬合程度時應(yīng)參考多個不同類型的評價指標(biāo)。參考已有研究常用且普遍認(rèn)為較穩(wěn)定的擬合指數(shù)[29-30]，擬選擇以下幾個擬合指數(shù)作為模型擬合的檢驗標(biāo)準(zhǔn)：χ2（越小越好）、χ2/df（＜3）、χ2檢驗p值（＞0.01）、GFI（＞0.9）、AGFI（＞0.9）、NFI（＞0.9）、NNFI（＞0.9）、CFI（＞0.9）、RMSEA（＜0.08）。

三、研究結(jié)果

（一）數(shù)據(jù)正態(tài)檢驗結(jié)果

對各項數(shù)據(jù)的正態(tài)檢驗結(jié)果顯示，只有命題說話項分?jǐn)?shù)符合正態(tài)分布，其它數(shù)據(jù)正態(tài)顯著性檢驗均不符合正態(tài)分布（P＜0.01）。其中DZ、DC呈負(fù)偏態(tài)，DW呈負(fù)峰度。根據(jù)Hair，Black amp; Babin針對不同偏態(tài)提出的轉(zhuǎn)換法則[23]，對以上3個變量進行了處理1。處理結(jié)果顯示，變量均符合正態(tài)分布（P＞0.01）。使用處理后的數(shù)據(jù)計算單因子模型和兩因子模型的協(xié)方差矩陣，作為模型驗證時參數(shù)估計的基礎(chǔ)。

（二）基準(zhǔn)模型的確立

在結(jié)構(gòu)方程模型中，要確定哪個模型與實測數(shù)據(jù)的擬合結(jié)果最佳，主要從兩個方面進行評估：一是用擬合指數(shù)對模型做整體評價，二是檢驗參數(shù)估計值的顯著性及參數(shù)的意義和合理性。

1.模型擬合指數(shù)比較

如表3所示，單因子模型（模型A）、兩因子模型（模型B）的各項擬合指數(shù)均符合評價標(biāo)準(zhǔn)。通過對比發(fā)現(xiàn)，除GFI值均為0.99，模型B的各項擬合指數(shù)表現(xiàn)均明顯優(yōu)于模型A；模型B χ2檢驗的顯著性p值也明顯高于模型A。根據(jù)擬合指數(shù)的總體表現(xiàn)，模型 B兩因子模型擬合數(shù)據(jù)最佳。

2.參數(shù)估計結(jié)果檢驗

進而考察模型 B的參數(shù)估計合理性，參數(shù)估計值見表4。經(jīng)過檢視，模型B所估計的誤差方差、標(biāo)準(zhǔn)誤等均未出現(xiàn)負(fù)值；標(biāo)準(zhǔn)化估計值都小于1；參數(shù)估計顯著性檢驗t值也都大于2，表明所有參數(shù)估計值都顯著地不等于0。從表4可以看出，標(biāo)準(zhǔn)化因子負(fù)荷均介于0.5～0.95，R2的值都介于0.5～0.9，表明觀測變量很好地解釋了潛在變量，模型擬合結(jié)果良好。因此，模型B作為基準(zhǔn)模型是成立的。根據(jù)計算，PSC因素結(jié)構(gòu)圖見圖3。

3.構(gòu)想效度的考察

通過參數(shù)估計值考察測試構(gòu)想效度。聚斂效度和判別效度是衡量構(gòu)想效度的兩個主要指標(biāo)：聚斂效度指測量指標(biāo)多大程度上測到了所附屬的潛在變量；判別效度指各潛在變量之間的區(qū)別程度。根據(jù)Hair等的研究，聚斂效度的考察標(biāo)準(zhǔn)主要包括因子負(fù)荷、方差析出量（Variance Extracted）1和構(gòu)想信度（Construct Reliability）2。Hair等對3個指數(shù)提出了具體的評價標(biāo)準(zhǔn)：一是每個指標(biāo)在相應(yīng)因子上的負(fù)荷越高，表明聚斂效度越好，一般標(biāo)準(zhǔn)化的因子負(fù)荷應(yīng)至少達(dá)到0.5，0.7以上則較為理想；二是方差析出量達(dá)到0.5以上表明收斂性較好；三是構(gòu)想信度達(dá)到0.7以上表示各指標(biāo)具有內(nèi)部一致性，說明指標(biāo)測量了同一個潛在構(gòu)想[23]。判別效度的考察方法為，將兩個因子間相關(guān)（標(biāo)準(zhǔn)化）的平方同這兩個因子各自的方差析出量進行比較，兩個方差析出量都大于相關(guān)的平方時，說明測量模型具有較好的判別效度。

根據(jù)表5，本研究所有5個指標(biāo)在相應(yīng)因子上的負(fù)荷均超過0.7，其中DW、MS1指標(biāo)的標(biāo)準(zhǔn)化因子負(fù)荷達(dá)到0.9以上，每個因子的方差析出量都在0.7以上，構(gòu)想信度也都達(dá)到0.9，表明測量模型具有非常好的聚斂效度。表6中判別效度檢驗結(jié)果顯示，兩個因子的方差析出量均略小于因子間相關(guān)的平方，因子間區(qū)別程度不明顯。綜合聚斂效度和判別效度的檢驗結(jié)果，本研究認(rèn)為PSC具有較好的聚斂效度，判別效度有待提高。

（三）跨組別檢驗結(jié)果

多組驗證性因子分析的目的在于檢驗測試結(jié)構(gòu)在男女考生群體上的一致性。根據(jù)侯杰泰等的建議[28]，結(jié)合本研究具體情況，對基準(zhǔn)模型在男女考生群體上的估計值進行逐層的等值限制，具體步驟如下：一是完形模型（Configural Model），模型形態(tài)等同，對兩組數(shù)據(jù)在模型上的參數(shù)估計不做限制；二是因子負(fù)荷等同，限定模型形態(tài)等同的基礎(chǔ)上，追加限定兩組對應(yīng)的因子負(fù)荷相同；三是協(xié)方差等同，在前兩步基礎(chǔ)上繼續(xù)限定男女組別因子協(xié)方差等同，即限定各組因子的相關(guān)系數(shù)等同；四是在前3種限定的基礎(chǔ)上，繼續(xù)限定兩組指標(biāo)截距等同；五是在前四步限制的基礎(chǔ)上，限定因子均值等同。五層限制分別產(chǎn)生了5個模型，5個模型的擬合指標(biāo)見表7。

對比5個模型發(fā)現(xiàn)，整體上隨著限制條件的增加，GFI、NFI、NNFI、CFI幾個擬合指標(biāo)并未發(fā)生顯著變化。RMSEA存在變好的趨勢。χ2/df結(jié)果越來越小。χ2顯著性檢驗p值也越來越大。每一步追加等同條件后模型擬合指數(shù)都在評價標(biāo)準(zhǔn)范圍內(nèi)，模型擬合均比較理想。整體上模型擬合的結(jié)果越來越好。

一個經(jīng)驗性法則是，觀察增加等同限制條件前后χ2和自由度的變化，如Δχ2/Δdf小于5，則認(rèn)為增加同等條件后，擬合優(yōu)度沒有顯著變壞，等同條件成立[28]。本研究將Model 2-5與基準(zhǔn)模型Model 1進行比較，發(fā)現(xiàn)追加限制后的模型Δχ2/Δdf值均小于5。此外，基準(zhǔn)模型與其它模型的卡方差異檢驗結(jié)果表明，每一層追加限制后的模型（Model 2-Model 5）與基準(zhǔn)模型（Model 1）相比，在與實測數(shù)據(jù)的擬合程度上并不存在統(tǒng)計學(xué)意義上的顯著差異（p值均大于0.05）。這些分析說明，經(jīng)過逐層等值限制以后的模型與基準(zhǔn)模型在擬合上不存在顯著的差異，測試構(gòu)想在男女考生群體中均可以保持較好的穩(wěn)定性。

四、討論與建議

本研究使用結(jié)構(gòu)方程模型驗證性因子分析檢驗PSC因子結(jié)構(gòu)以及測試在男女考生群體中的穩(wěn)定性，以考察測試的構(gòu)想效度。研究對兩個競爭模型的驗證性因子分析顯示，“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型數(shù)據(jù)擬合結(jié)果最佳，兩因子模型的聚斂效度良好，判別效度偏低?？缃M別分析結(jié)果顯示，兩因子模型各項參數(shù)在男女考生群體中表現(xiàn)一致，測試結(jié)構(gòu)表現(xiàn)出較好的穩(wěn)定性。

（一）關(guān)于PSC因子結(jié)構(gòu)的討論

研究結(jié)果顯示，PSC試卷結(jié)構(gòu)包含“有文字憑借模式下的普通話表達(dá)”和“無文字憑借下的普通話表達(dá)”兩個因子。從標(biāo)準(zhǔn)化因子負(fù)荷估計結(jié)果看，讀單音節(jié)字詞、讀多音節(jié)詞語、朗讀短文3個測量指標(biāo)在“有文字憑借”因子上的負(fù)荷都比較高（分別為0.78、0.83、0.96），有文字憑借因子的方差析出量達(dá)到0.74，說明3個觀測變量較好地解釋了有文字憑借因子。從讀單音節(jié)字詞、讀多音節(jié)詞語再到讀語篇，3個觀測變量對有文字憑借因子的解釋能力逐漸增強。這也符合單音節(jié)字詞、多音節(jié)詞語、語篇對普通話應(yīng)用的實際影響程度。命題說話題目在無文字憑借因子上的負(fù)荷也比較高。說明測試各項觀測指標(biāo)都對相應(yīng)的潛變量具有很好的解釋效力，PSC測試結(jié)構(gòu)具備良好的聚斂效度。

有文字憑借和無文字憑借兩個因子達(dá)到0.93的較高相關(guān)。對參數(shù)估計值的考察也發(fā)現(xiàn)，兩因子模型中兩個因子各自的方差析出量均略小于因子間相關(guān)的平方，說明兩個因子間區(qū)別程度較低，測試判別效度不太理想。

（二）關(guān)于測試判別效度的討論和改進建議

一般來說我們希望兩個因子間具有一定的區(qū)別性，即希望測試結(jié)構(gòu)中的兩個因子分別代表普通話表達(dá)能力下的兩種不同的微技能?！坝形淖謶{借”是借助文字材料說普通話，由于文字材料已給定，應(yīng)試人只需要朗讀出試卷內(nèi)容，那么測試主要測查的就是語音標(biāo)準(zhǔn)程度和流暢程度?！盁o文字憑借”是在沒有文字輔助的情況下進行普通話表達(dá)，除了語音標(biāo)準(zhǔn)程度和流暢程度，也考查語法規(guī)范以及遣詞造句、修辭等語用能力。從理論上來說兩個因子間應(yīng)當(dāng)具有一定的區(qū)別性，為何兩個因子卻達(dá)到0.93的高相關(guān)呢？

從測評維度看，我國幅員遼闊，方言復(fù)雜，方言間差異最大的是語音，其次是詞匯和語法。PSC從設(shè)計之初就是為了推廣普通話，促進各民族各地區(qū)人民的交流。因而PSC題型設(shè)計和分值權(quán)重主要側(cè)重語言本身的語碼操作能力（即語音、詞匯、語法等語言結(jié)構(gòu)系統(tǒng)中各要素的操作能力），尤其是語音標(biāo)準(zhǔn)程度。即便是應(yīng)該體現(xiàn)交際能力的“命題說話”也主要側(cè)重語音標(biāo)準(zhǔn)程度的測評，較少涉及語用能力，交際策略能力則幾乎沒有涉及。有文字憑借測試項和無文字憑借測試項在測評維度上較為一致，因而相關(guān)程度較高。

從測試形式來看，PSC屬于獨白式口試，被試依據(jù)試卷上的文字引導(dǎo)語進行口語產(chǎn)出。無論是有文字憑借還是無文字憑借測試項，都不涉及交際情境，考官不參與對話交流[31]。PSC“命題說話”缺乏語境、情境等因素，交際性不明顯[32-33]，因而無文字憑借的“命題說話”與有文字憑借的測試項間沒有形成明顯的區(qū)別。

從測試流程看，為達(dá)到以測促訓(xùn)的目的，PSC說話題目的范圍是事先給定的，被試在考前充分培訓(xùn)、準(zhǔn)備的情況下，單向說話的表現(xiàn)由即興口頭表達(dá)變成機械背稿，“命題說話”并未在真實、即興的情境下表達(dá)，沒有實現(xiàn)口語測試真實性的目的。因而，有文字憑借與無文字憑借測試在測查表現(xiàn)上區(qū)別度較低。

總體上，PSC測試構(gòu)想較好地反映了測試目的，無文字憑借與有文字憑借測試項相關(guān)度較高也有其客觀原因。但不可否認(rèn)的是，為了達(dá)到以測促訓(xùn)的目的，測試在一定程度上犧牲了真實性，進而影響了測試的構(gòu)想效度。如何在確保被試充分訓(xùn)練、以考促學(xué)的同時，提高測試的構(gòu)想效度是測試需要解決的問題。

在測試中應(yīng)保證命題說話測試的真實性，最大程度獲得被試日常普通話表達(dá)原汁原味的樣本，以確保分?jǐn)?shù)推論的有效性。為此可以從以下4個方面對測試進行改進：一是在題型設(shè)置上，將命題說話題目改為貼近日常工作生活且具有一定語境情境的話題，引導(dǎo)貼近生活的真實口語表達(dá)；二是在考試命題方面，組織人員進行命題說話項的命題，定期更新題庫；三是在測試流程方面，命題說話的試題在考試時臨場給出，避免提前準(zhǔn)備、背稿的問題，保證考生語言表現(xiàn)的真實性；四是在測試培訓(xùn)和準(zhǔn)備方面，在《普通話水平測試實施綱要》中只公開第一、二、三項測試的字表、詞表和朗讀篇目，并給出一部分命題說話項例題作為考前練習(xí)，但命題說話正式施測題目不在《綱要》中出現(xiàn)。這樣既達(dá)到通過訓(xùn)練提高普通話水平的目的，也保證了測試的效度。

根據(jù)構(gòu)想效度的研究結(jié)果，PSC測試結(jié)構(gòu)包含“有文字憑借模式下”和“無文字憑借模式下”兩種普通話表達(dá)模式，且包含單音節(jié)字詞、多音節(jié)詞語、語篇、命題說話等測量指標(biāo)?？梢娍谡Z表達(dá)不是簡單的語言能力要素的組合，而是表達(dá)模式和表達(dá)內(nèi)容相互作用的結(jié)果。

（三）關(guān)于PSC測試構(gòu)想跨組別一致性的討論

測試結(jié)構(gòu)在不同亞群體中的穩(wěn)定性是效度的重要證據(jù)，測試構(gòu)想的一致性關(guān)系到考試是否對所有考生一視同仁，這對考試的公平使用和決策至關(guān)重要。關(guān)于性別與口語能力的關(guān)系，研究者的觀點并不一致。一些研究認(rèn)為男女在會話風(fēng)格上存在明顯差異[34-35]，在英語口語表現(xiàn)方面，女性的口試成績明顯高于男性[36]。但也有研究發(fā)現(xiàn)，不同性別的考生口語能力幾乎沒有差異[37]。O’ Loughlin、范勁松等分別考察了語言測試對男女考生群體的公平性，研究結(jié)果顯示，測試因子結(jié)構(gòu)和評分在男女考生中具有較好的一致性[38-39]。已有研究得出不同的結(jié)論，可能與被試樣本選擇及測試內(nèi)容存在一定關(guān)系。本研究效度的跨組別一致性檢驗結(jié)果表明，PSC測試結(jié)構(gòu)在男女組別表現(xiàn)相同，具有較好的穩(wěn)定性，說明測試構(gòu)想在男女生被試群體中是充分且合適的，并不存在偏差。

五、結(jié)束語

本研究使用SEM驗證性因子分析檢驗PSC的構(gòu)想效度，以及構(gòu)想效度的跨群體穩(wěn)定性。理論模型與實測數(shù)據(jù)擬合及參數(shù)估計結(jié)果顯示“有文字憑借模式下的普通話表達(dá)+無文字憑借模式下的普通話表達(dá)”兩因子模型較好地代表了被試的實際語言能力結(jié)構(gòu)，且測試結(jié)構(gòu)在男女考生組別上具有良好的穩(wěn)定性，測試構(gòu)想效度良好，但兩個因子區(qū)別度較低。構(gòu)想效度的研究本質(zhì)上是證明測試背后的理論有效[40]。研究論證了測試的理論構(gòu)想的有效性，為PSC提供了實證性的效度證據(jù)，并為未來開展PSC的效度研究提供了一些方法和路徑上的參考。

本研究還存在以下尚待補充之處。首先，研究僅從測試因子結(jié)構(gòu)的角度考察測試效度。隨著效度理論的發(fā)展，在新的效度理論框架下，效度是一個多層面的整體概念，效度驗證需要多方面收集不同類型的證據(jù)，使這些證據(jù)構(gòu)成一個相互補充的效度論證鏈[41]。PSC的效度研究還有很多尚待探索的領(lǐng)域。測試的效標(biāo)關(guān)聯(lián)效度、評分效度，以及測試效度的質(zhì)性研究都是PSC效度研究值得關(guān)注的課題。在以后的研究中，可以考察測試分?jǐn)?shù)與外部語言量表的校標(biāo)關(guān)系，檢驗評分量表的效度；也可使用話語分析、有聲思維、專家判斷等質(zhì)性研究方法考察PSC的構(gòu)想效度，為PSC的效度驗證提供多方面的效度證據(jù)。其次，由于篇幅所限，跨組別研究只檢驗了構(gòu)想效度在男女考生群體中的公平性。在普通話水平的測量中，文化背景、學(xué)歷背景、方言背景、語言水平、認(rèn)知特點、年齡等因素都可能使測試構(gòu)想效度存在偏差。未來可以使用DIF、多面Rasch分析、SEM多組驗證分析等方法全面考察PSC構(gòu)想效度和評分在不同背景考生群體中的公平性。

參考文獻(xiàn)：

[1] HUGHES A，PORTER D，WEIR C J. Validating the ELTS Test：A Critical Review [M]. Cambridge：The British Council and the University of Cambridge Local Examination Syndicate，1988：4.

[2] CRONBACH L J. Test Validation [C]. // R L Thorndike（ed.）. Educational Measurement（2nd edition）. Washington DC：American Council on Education，1971：443-507.

[3] MESSICK S. Evidence and Ethics in the Evaluation of Tests [J]. Educational Researcher，1981，10（9）：9-20.

[4] MESSICK S. Test Validity and the Ethics of Assessment [J]. American Psychologist，1980，35（11）：1012-1027.

[5] MESSICK S. The Once and Future Issues of Validity：Assessing the Meaning and Consequences of Measurement [C]. // H Wainer，H I Braun（eds.）. Test Validity. Hillsdale，NJ：Lawrence Erlbaum，1988：33-45.

[6] BACHMAN L F. Fundamental Considerations in Language Testing [M]. Oxford：Oxford University Press，1990：241-242，255.

[7] MESSICK S. Validity of Psychological Assessment：Validation of Inferences from Pearson’s Responses and Performances as Scientific Inquiry into Score Meaning [J]. American Psychologist，1995，50（9）：741-749.

[8] 張國華.對PSC測試有效度的驗察[C].//第四屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集，2005.

[9] 常曉宇.口語測試中朗讀類題型的效度研究——以普通話水平測試“朗讀短文”測試項為例[D].中國社會科學(xué)院研究生院博士學(xué)位論文，2017.

[10] 張寵.普通話水平測試對留學(xué)生的適用性研究[D].中國社會科學(xué)院研究生院碩士學(xué)位論文，2019.

[11] XI，X. How Do We Go About Investigating Test Fairness？ [J]. Language Testing，2010，27（2）：147-170.

[12] American Educational Research Association，American Psychological Association，National Council on MEASUREMENT in Education. Standards for Educational and Psychological Testing [M]. Washington，D C：Author，1999.

[13] STRICKER L J，ROCK D A，LEE Y W. Factor Structure of the LanguEdge Test across Language Groups [J].Ets Research Report，2005，（1）：i-43.

[14] SHIN，S-K. Did They Take The Same Test？ Examinee Language Proficiency And The Structure Of Language Tests [J]. Language Testing，2005，22（1）：31-57.

[15] YOO H，Manna V F. Measuring English Language Workplace Proficiency across Subgroups：Using Cfa Models to Validate Test Score Interpretation [J]. Language Testing，2017，34（1）：101-126.

[16] YAN X，CHENG L，GINTHER A. Factor Analysis for Fairness：Examining the Impact of Task Type and Examinee L1 Background on Scores of an ITA Speaking Test [J]. Language Testing，2019，36（2）：207-234.

[17] COATES J. Women，Men and Language（2nd edition）[M]. London：Longman，1993.

[18] LUMLEY T，O' SULLIVAN B. The Effect of Test-taker Gender，Audience and Topic on Task Performance in Tape-mediated Assessment of Speaking [J]. Language Testing，2005，（4）：415-437.

[19] MUTH?N B O，SATORRA A. Multilevel Aspects of Varying Parameter in Structural Models [C]. // Bock H（ed.）. Multilevel Analysis of Educational Data. San Diego：Academic Press，1989：87-99.

[20] KUNNAN A J. Test Taker Characteristics and Test Performance：A Structural Modelling Approach [M]. Cambridge：Cambridge University Press，1995.

[21] PURPURA J E. Modeling the Relationships between Test Takers’ Reported Cognitive and Metacognitive Strategy Use and Performance on Language Tests [D]. Unpublished Ph.D. Dissertation，University of California，Los Angeles，1996.

[22] GINTHER A，STEVENS J. Language Background，Ethnicity，and the Internal Construct Validity of the Advanced Placement Spanish Language Examination [M]. // A. J. Kunnan（ed）. Validation in Language Assessment. Mahwah，NJ：Lawrence Erlbaum，1998：169-194.

[23] HAIR F J，BLACK C W，BABIN J B，ANDERSON F R，TATHAM L R. Multivariate Data Analysis [M]. NJ：Pearson Education，Inc，1987：471-472.

[24] HUCK S. Reading Statistics and Research [M]. Boston：Pearson Education Inc，2012.

[25] Bentler P M，Chou C-P. Practical Issues in SEM [J]. Sociological Methods and Research，1987，16：78-117.

[26] Muthe'n L K，Muthe'n B O. Mplus User's Guide（Sixth Edition）[M].Los Angeles，CA：Muthe'n amp;Muthe'n，2007.

[27] 國家語委普通話培訓(xùn)測試中心.普通話水平測試實施綱要[M].北京：商務(wù)印書館，2017：2-5.

[28] 侯杰泰，溫忠麟，成子娟.結(jié)構(gòu)方程模型及其應(yīng)用[M].北京：教育科學(xué)出版社，2004：114-115，190-192.

[29] RAYKOV T，TOMER A，NESSELROADE J R. Reporting Structural Equation Modeling Results in Psychology and Aging：Some Proposed Guidelines [J]. Psychology and Aging，1991，6（4）：499-503.

[30] BOOMSMA A. Reporting Analyses of Covariance Structures [J]. Structural Equation Modeling：A Multidisciplinary Journal，2000，7（3）：461-483.

[31] 聶丹.普通話水平測試研究概說[M].北京：語文出版社，2012：193-195.

[32] 朱麗紅. PSC中“說話”項的題型分析和改進建議[C].//第二屆全國普通話水平測試學(xué)術(shù)研討會論文集.北京：商務(wù)印書館，2004：152-165.

[33] 王暉.普通話水平測試依據(jù)研究[D].中國社會科學(xué)院研究生院博士學(xué)位論文，2016.

[34] MALTZ D，BORKER R. A Cultural Approach to Male–female Mis-communication [C]. // Gumperz J（ed）. Language and Social Identity. Cambridge：Cambridge University Press，1982：196-216.

[35] TANNEN D. You Just Don’t Understand：Women And Men In Conversation [M]. New York：William Morrow，1990.

[36] 肖德法，向平.性別與PETS口試成績研究[J].山東外語教學(xué)，2005，（1）：54-56.

[37] HYDE J S，LINN M C. Gender Difference in Verbal Ability：A Meta-analysis [J]. Psychological Bulletin，1988，104（1）：53-69 .

[38] O'LOUGHLIN K. The Impact of Gender in Oral Proficiency Testing [J]. Language Testing，2002，19（2）：169-192.

[39] 范勁松，季佩英，俞明理.語言測試效度研究的另一視角：考試的因子結(jié)構(gòu)研究[J].外語教學(xué)理論與實踐，2014，（4）：34-40.

[40] American Psychological Association（APA）. Technical Recommendations for Psychological Test and Diagnostic Techniques [M]. Washington，D C：APA，1954.

[41] WEIR C J. Language Testing and Validation：An Evidence-based Approach [M]. New York：Palgrave Macmillan，2005.

A Study on the Construct Validity of Putonghua Proficiency Test Based on Structural Equation Model

Yuan Xin

Beijing Chinese Language and Culture College，Beijing，102206

Abstract：Construct validity is the core issue of test validation and a key criterion for test quality. This study examines the construct validity of the Putonghua Proficiency Test by using the testing data. Through confirmatory factor analysis and multi-group confirmatory factor analysis，the construct validity of the test and the consistency of the test construct among male and female candidates are examined. The results of confirmatory factor analysis show that the two factor model of \"Mandarin speaking under the mode with text support + Mandarin speak under the mode without text support\" fits the measured data better. The parameter estimation results show that the convergent validity of the test is good，while the discriminant validity is low. The results of multi-group analysis shows that the parameters of the two factor model performs consistently among male and female candidates，and the test structure shows good stability. The study empirically demonstrates the construct validity of the Putonghua proficiency test. Based on the research findings，some suggestion，such as setting situation，renewing item bank，enhancing the authenticity of the subjects’ expressions，are proposed for test improvement.

Key words：Putonghua Proficiency Test，Construct Validity，Structural Equation Model，F(xiàn)actor Structure

（責(zé)任編輯：吳茳）

作者簡介原鑫，講師，北京華文學(xué)院。北京，102206。

基金項目北京華文學(xué)院2023年度科研課題“普通話水平測試的效度研究”（HW-23-B08）。

1對負(fù)偏態(tài)的變量求平方，負(fù)峰度的變量取倒數(shù)。

1方差析出量的算法是：每個因子各指標(biāo)因子負(fù)荷（標(biāo)準(zhǔn)化）平方的平均數(shù)。一般方差析出量達(dá)到0.5以上表明收斂性較好。

2構(gòu)想信度的計算方法為，每個因子各指標(biāo)因子負(fù)荷（標(biāo)準(zhǔn)化）之和的平方，比上各指標(biāo)因子負(fù)荷之和的平方與該因子各指標(biāo)誤差方差之和的和。

考試研究2024年6期

考試研究的其它文章: 基于需求分析、課程標(biāo)準(zhǔn)與量表的高職護理英語教學(xué)目標(biāo)設(shè)定; “僅為舉業(yè)而作？”：明代科舉化經(jīng)學(xué)價值的再認(rèn)識; 從弘治十二年春闈案看科場押題; “首違不罰”在考試作弊執(zhí)法中的探討; 省級教育考試機構(gòu)專業(yè)化現(xiàn)代化發(fā)展現(xiàn)狀調(diào)查與分析; 恢復(fù)高考以來我國依法治考研究述評與展望

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于結(jié)構(gòu)方程模型的普通話水平測試構(gòu)想效度研究