亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

PETS-CAST的效度研究

2013-11-08 08:06:12劉慶思關(guān)丹丹

中國考試 2013年9期

劉慶思關(guān)丹丹

1 引言

計(jì)算機(jī)自適應(yīng)序列測試（Computer-Adaptive Sequential Testing，CAST）是一種在計(jì)算機(jī)自適應(yīng)測試（CAT）基礎(chǔ)上開發(fā)出的計(jì)算機(jī)化測試形式，幾乎繼承了CAT所有的優(yōu)點(diǎn)，同時(shí)還有獨(dú)到之處，已經(jīng)成為計(jì)算機(jī)輔助測試發(fā)展的方向（關(guān)丹丹&劉慶思，2010）。注意跟蹤考試技術(shù)發(fā)展的全國英語等級(jí)考試（Public English Tests System，PETS）在此領(lǐng)域進(jìn)行了探索，并開發(fā)出了相應(yīng)的考試系統(tǒng)，稱為PETS-CAST（關(guān)丹丹，劉慶思，莫春暉，2011）。

PETS-CAST采用的是1-2-5-5框架，每個(gè)控制板由13個(gè)模塊構(gòu)成，組成13條路徑（見圖1，最初的設(shè)計(jì)不包含通過虛線箭頭所能到達(dá)的路徑）。PETS-CAST將對(duì)考生在英語語言知識(shí)掌握方面和聽、讀方面的能力進(jìn)行考查，采用的題型為較適合自適應(yīng)測試需要的選擇題。首先，任一考生將需要解答來自PETS-3級(jí)的完形填空題。作為本測試系統(tǒng)中的中等難度試題，該部分內(nèi)容有著雙重考查功能，一是確定考生的大致能力層次，以為其選取相應(yīng)難度的后續(xù)試題；二是考查本級(jí)別考生對(duì)語言知識(shí)的掌握情況。鑒于PETS各級(jí)別試題難度跨度較大，一、二級(jí)別的考生會(huì)覺得該完形填空題過難，而四、五級(jí)別的考生則會(huì)覺得過易，因此，難以用這篇完形填空考查出這幾個(gè)能力層次考生對(duì)語言知識(shí)的掌握情況，所以在第二階段為這些考生設(shè)計(jì)了難度較為恰當(dāng)?shù)耐晷翁羁疹}。處于三級(jí)能力范圍內(nèi)的考生，將直接得到PETS三級(jí)聽力試題。測試系統(tǒng)會(huì)對(duì)考生解答每一階段試題的情況進(jìn)行分析，估算出其大致的語言能力，然后據(jù)此為其投放相應(yīng)難度（級(jí)別）的下一階段的試題?？忌淖鞔鸱磻?yīng)組態(tài)為0/1二元計(jì)分方式，考生的能力估計(jì)采用極大似然估計(jì)法，作答完閱讀理解模塊后施測終止。

為了檢驗(yàn)PETS-CAST測試系統(tǒng)的性能，研究者從理論和實(shí)踐兩方面探討CAST測試的可行性和測試效果。模擬研究顯示（關(guān)丹丹，劉慶思，莫春暉，2011；關(guān)丹丹 & 劉慶思，2013）PETS-CAST測試所設(shè)計(jì)的路徑能夠滿足不同能力水平考生的要求，一次測試能夠?qū)忌⒄Z水平所達(dá)到的級(jí)別（五個(gè)級(jí)別）進(jìn)行準(zhǔn)確的判斷，各條路徑的測量精度均能夠達(dá)到適應(yīng)性考試的要求。為了確保PETS-CAST測試的效度，除了模擬研究外，實(shí)證研究是必不可少的。談到效度的概念時(shí)，《心理與教育測量標(biāo)準(zhǔn)》指出，“效度指證據(jù)和理論支持從測驗(yàn)分?jǐn)?shù)得出推斷的程度”（p.9）；“效度研究（validation）就是搜集證據(jù)來科學(xué)合理地論證測驗(yàn)的解釋是否恰當(dāng)。按照現(xiàn)代效度理論觀，研究者需要從整個(gè)考試過程的各個(gè)環(huán)節(jié)來闡述效度概念。為了檢驗(yàn)PETS-CAST的效度，根據(jù)全國英語等級(jí)考試的考生群體分布，研究者選擇有代表性的學(xué)生群體參加PETS-CAST考試，從多個(gè)角度搜集效度證據(jù)。具體包括：了解學(xué)生的計(jì)算機(jī)操作水平，采用實(shí)證方式獲得PETS-CAST的多項(xiàng)信度和效度指標(biāo)，調(diào)查學(xué)生對(duì)PETS計(jì)算機(jī)呈現(xiàn)形式和輔助工具的意見。測試系統(tǒng)的效度研究，有助于為該測試形式的完善和正式推出提供依據(jù)。

2 研究方法

2.1 被試

考慮到PETS各級(jí)別目標(biāo)學(xué)生的英語語言能力，研究者選擇了兩個(gè)考試群體作為考試樣本，一個(gè)是普通中學(xué)的高二學(xué)生，主要用于測試PETS低級(jí)別；另一個(gè)是大學(xué)英語系學(xué)生，主要測試PETS高級(jí)別。為了便于考試實(shí)施，利于考試效度研究，該研究采取整群抽樣方法。

北京某中學(xué)高二的全體學(xué)生共423人參加了PETS-CAST考試；男生179人，占42.3%；女生244人，占57.7%。北京某高校英語系大一（75人）、大二（140人）和大三（126人）共 341人參加了PETS-CAST考試；男生24人，占7%；女生317人，占93%。大部分學(xué)生熟悉計(jì)算機(jī)操作，65.72%的高二學(xué)生經(jīng)常（一周一次以上）使用計(jì)算機(jī)，93.26%的大學(xué)生經(jīng)常使用計(jì)算機(jī)；高中從未使用過計(jì)算機(jī)的為16人（3.78%），大學(xué)從未使用過計(jì)算機(jī)的有2人（0.59%）。88.74%的學(xué)生對(duì)自己計(jì)算機(jī)熟練程度的自我評(píng)定為一般或較好，其中高二學(xué)生中認(rèn)為自己計(jì)算機(jī)操作水平為一般（67.14%）和較好（19.39%）的占總?cè)藬?shù)的86.52%，大學(xué)生認(rèn)為自己計(jì)算機(jī)操作水平為一般（66.57%）和較好（24.93%）的占總?cè)藬?shù)的91.50%。因此，大部分學(xué)生都具備了一定的計(jì)算機(jī)操作技能，達(dá)到了作答PETS-CAST考試的基本要求。

2.2 研究設(shè)計(jì)

為了驗(yàn)證PETS-CAST的可靠性，大學(xué)英語系學(xué)生在參加完第一次PETS-CAST考試（使用控制板1）一個(gè)月后，再次參加了PETS-CAST考試（使用控制板2）。兩次考試中，構(gòu)成考試控制板的模塊的數(shù)量、試題量，以及模塊的難度等均是平行的，即為兩套等價(jià)、可替換的考試控制板。

為了驗(yàn)證PETS-CAST的效度，研究者搜集了各學(xué)生群體最近一次的英語統(tǒng)一模擬考試成績，作為效標(biāo)。

考試結(jié)束后，通過在線問卷調(diào)查的形式從四個(gè)方面調(diào)查了學(xué)生對(duì)本次PETS-CAST考試的感受與意見，分別是：對(duì)答題演示、指導(dǎo)語和作答方式的滿意情況，對(duì)試題難度的感知情況，對(duì)計(jì)算機(jī)自適應(yīng)考試優(yōu)點(diǎn)的認(rèn)同情況，對(duì)計(jì)算機(jī)自適應(yīng)考試缺點(diǎn)的認(rèn)同情況。

3 結(jié)果分析

3.1 接受各路徑的學(xué)生人數(shù)

表1顯示的是抽樣學(xué)生在各路徑的人數(shù)分布。

表1 學(xué)生在各路徑的人數(shù)分布

高中作答人數(shù)較多的路徑是3222、3-32和3-33這三個(gè)路徑，占高中學(xué)生總?cè)藬?shù)的61.47%，為低級(jí)別學(xué)生設(shè)計(jì)的各條路徑均有學(xué)生分布（3232、3233、3234、3432、3433、3434這六條路徑試測時(shí)尚未開啟）；從路徑來看，大部分高二學(xué)生的英語水平應(yīng)介于PETS-2級(jí)和PETS-3級(jí)之間。大學(xué)生作答人數(shù)分布較多的路徑是3434、3444、3445和3455，占總?cè)藬?shù)的84.76%，各高級(jí)別路徑均有學(xué)生分布；從路徑來看，大學(xué)英語系學(xué)生的英語水平應(yīng)介于PETS-4級(jí)和PETS-5級(jí)之間。另外，3434這條臨時(shí)開啟的輔助路徑考試人數(shù)最多，這說明增加輔助路徑的決策是正確的，對(duì)于某個(gè)水平的學(xué)生而言，輔助路徑可能恰恰是測量這部分學(xué)生的最佳路徑。據(jù)此，最終確定了PETS-CAST系統(tǒng)測試框架（見圖1，包含通過虛線箭頭所能到達(dá)的路徑）。

3.2 對(duì)學(xué)生英語水平所屬級(jí)別的判斷

學(xué)生作答結(jié)束后，根據(jù)學(xué)生在各部分的作答情況采用極大似然法估計(jì)學(xué)生能力值，同時(shí)，參照PETS各級(jí)別合格標(biāo)準(zhǔn)，對(duì)學(xué)生英語水平所屬級(jí)別進(jìn)行判斷（見表2）。

表2 PETS-CAST對(duì)學(xué)生合格與否的判斷情況

69.27%的高二學(xué)生達(dá)到PETS二級(jí)合格水平，達(dá)到一級(jí)合格和三級(jí)合格水平的學(xué)生分別占高二學(xué)生的14.89%和14.18%；57.48%的大學(xué)英語專業(yè)學(xué)生達(dá)到PETS四級(jí)合格水平，31.09%達(dá)到五級(jí)合格水平。

高二男生和女生英語水平對(duì)比見圖2。女生達(dá)到PETS二級(jí)合格和三級(jí)合格的總百分比（91.80%）要遠(yuǎn)高于男生（72.07%）。

大一、大二、大三3個(gè)年級(jí)學(xué)生的英語水平對(duì)比見圖3。大二和大三學(xué)生在PETS三級(jí)和四級(jí)合格率上相差不明顯，大一學(xué)生的五級(jí)合格率（14.67%）要遠(yuǎn)遠(yuǎn)低于大二學(xué)生（34.29%）和大三學(xué)生（37.30%）的合格率。

圖1 PETS-CAST系統(tǒng)測試框架

圖2 PETS-CAST考試高二男、女學(xué)生各級(jí)別合格率

3.3 PETS-CAST的測量標(biāo)準(zhǔn)誤

由于PETS-CAST采用的是項(xiàng)目反應(yīng)理論模型，反映測量信度的指標(biāo)是估計(jì)的標(biāo)準(zhǔn)誤。高二學(xué)生和大學(xué)英語系學(xué)生的具體測量精度分別見表3和表4。對(duì)于不同的群體，測量標(biāo)準(zhǔn)誤均小于0.20，顯示該考試具有非常高的測量精度。

圖3 PETS-CAST考試大學(xué)一、二、三年級(jí)學(xué)生各級(jí)別合格率

表3 高二學(xué)生在PETS-CAST上的測量精度

表4 大學(xué)英語系學(xué)生在PETS-CAST上的測量精度

3.4 PETS-CAST的重測信度

重測的有效樣本為223人。計(jì)算兩次考試對(duì)學(xué)生能力估計(jì)值的相關(guān)，即為大學(xué)英語系學(xué)生在PETS-CAST上的重測信度。PETS-CAST的復(fù)本重測信度為0.785。其中，大一學(xué)生的重測信度為0.746，大二學(xué)生的重測信度為0.815，大三學(xué)生的重測信度為0.713。PETS-CAST覆蓋的學(xué)生英語水平跨度較大，而考試中受各種條件的限制僅選取高級(jí)別學(xué)生作為試測對(duì)象，使得群體的同質(zhì)性較強(qiáng)，這一樣本選取方法無疑會(huì)低估PETS-CAST的重測信度。

3.5 PETS-CAST的效標(biāo)關(guān)聯(lián)效度

高二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)為0.557，男生的相關(guān)系數(shù)為0.523，女生的相關(guān)系數(shù)為0.439。大學(xué)英語系學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)具體為：大一學(xué)生的相關(guān)系數(shù)為0.438，大二英文專業(yè)學(xué)生的相關(guān)系數(shù)為0.619，大二英教專業(yè)學(xué)生的相關(guān)系數(shù)為0.556，大三英文專業(yè)學(xué)生的相關(guān)系數(shù)為0.520，大三英教專業(yè)學(xué)生的相關(guān)系數(shù)為0.444。

上述相關(guān)系數(shù)的大小介于0.40～0.65，屬于中等程度相關(guān)。經(jīng)檢驗(yàn)，均具有統(tǒng)計(jì)學(xué)意義（P＜0.01），即學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績具有顯著相關(guān)。對(duì)于高二學(xué)生而言，男生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)系數(shù)要明顯高于女生的相關(guān)系數(shù)；對(duì)于大學(xué)英語系學(xué)生而言，大二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)系數(shù)要高于大一、大三學(xué)生的相關(guān)系數(shù)。雖然總體上選擇了兩個(gè)英語水平相差比較大的群體，但在計(jì)算效標(biāo)關(guān)聯(lián)效度時(shí)卻需對(duì)若干群體分別計(jì)算，即仍然是同質(zhì)性比較強(qiáng)的群體，這無疑也會(huì)低估PETS-CAST的效標(biāo)關(guān)聯(lián)效度。

另需加以說明的是，作為效標(biāo)的模擬考試與PETS-CAST考試的考試性質(zhì)、構(gòu)想等均有較大差別，這也是造成兩者相關(guān)不夠高的原因。

毫無疑問，計(jì)算機(jī)熟練程度會(huì)影響學(xué)生在PETS-CAST上的成績。將高二學(xué)生和大學(xué)英語系學(xué)生中計(jì)算機(jī)操作水平自評(píng)為較差的（高二刪除52人，大學(xué)刪除29人）刪除后，再次計(jì)算其他學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)。高二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)無論是總體（0.588）上，還是分男生（0.553）、女生（0.474）不同群體，均有一定程度的提高；大學(xué)英語系學(xué)生則表現(xiàn)為英文專業(yè)（大一為0.495，大二為0.633，大三為0.577）均有提高，而英教專業(yè)（大二為0.533，大三為0.436）略有下降。對(duì)于大學(xué)英語系學(xué)生而言，計(jì)算機(jī)水平較差的人數(shù)非常少（29人），具體到各年級(jí)和各專業(yè)刪除掉的學(xué)生更少，如英教大二和英教大三各刪除3人，所以英教專業(yè)相關(guān)系數(shù)的下降幅度可以忽略。

總體上看，校正后的相關(guān)系數(shù)提高，表明計(jì)算機(jī)操作水平對(duì)學(xué)生在PETS-CAST的成績有一定影響。

3.6 學(xué)生參加PETS-CAST考試的感受

3.6.1 對(duì)考試形式和優(yōu)缺點(diǎn)的評(píng)價(jià)

絕大部分學(xué)生都“同意”或“基本同意”“考前答題演示對(duì)答題有幫助”（92.41%）、“各部分指導(dǎo)語清楚，容易理解”（96.86%），以及“各部分試題呈現(xiàn)和答題方式合適”（95.55%）。

學(xué)生對(duì)計(jì)算機(jī)化英語考試的優(yōu)點(diǎn)滿意程度非常高，大部分學(xué)生都認(rèn)同計(jì)算機(jī)自適應(yīng)考試的各項(xiàng)優(yōu)點(diǎn)，具體包括：形式新穎（92.80%），界面舒服（85.99%），無須書寫、涂卡（96.47%），聽力聲音大小可調(diào)（94.50%），提供標(biāo)記等輔助工具（92.67%），顯示剩余時(shí)間提醒（93.98%）和有漏答提醒（97.77%）。同時(shí)，他們認(rèn)為，相比于紙筆考試，計(jì)算機(jī)自適應(yīng)考試形式也有很多不易適應(yīng)之處，具體包括：“長時(shí)間盯著計(jì)算機(jī)屏幕”（86.39%）、“不能答題前瀏覽全卷”（88.35%）以及“不能自由選擇作答的順序”（87.57%）。這些缺點(diǎn)對(duì)計(jì)算機(jī)自適應(yīng)考試而言難以克服。

另外，考試過程中，研究者記錄了學(xué)生使用標(biāo)記等輔助工具的情況，對(duì)試題題號(hào)做標(biāo)記的頻率為人均0.92次，對(duì)試題內(nèi)容做標(biāo)記的頻率是人均1.04次。對(duì)標(biāo)記等輔助工具使用的頻率總體上非常低。這表明學(xué)生對(duì)計(jì)算機(jī)呈現(xiàn)的英語考試還不太適應(yīng)，不能有效地利用計(jì)算機(jī)提供的輔助工具做標(biāo)記。

3.6.2 學(xué)生對(duì)PETS-CAST的難度感知（見表5）

表5 學(xué)生對(duì)PETS-CAST難度的感知

表6 學(xué)生對(duì)PETS紙筆考試和計(jì)算機(jī)考試的偏好

總體看來，超過60%的學(xué)生認(rèn)為試題難度適中；但具體到兩個(gè)群體，差別較大。高二學(xué)生近半數(shù)認(rèn)為試題較難，原因是：其一，PETS考試與學(xué)校里常見的英語水平考試在設(shè)計(jì)理念、題型上等有所不同，學(xué)生不適應(yīng)；其二，PETS-CAST針對(duì)某些能力較強(qiáng)學(xué)生拋出的試題較他們熟悉的高考題難度增加，而導(dǎo)致他們明顯感到試題較難。這兩點(diǎn)在最后的開放性意見與建議中，均得到印證，許多英語水平好的學(xué)生都在“其他意見與建議”中指出試題較難。

68.85%的學(xué)生認(rèn)為不同階段的試題在難度上有一些差別，76.70%的學(xué)生感覺“有些不會(huì)答、有些會(huì)答”，這兩個(gè)問題的調(diào)查結(jié)果可互為印證，符合自適應(yīng)考試的特點(diǎn)。

3.6.3 學(xué)生對(duì)英語采用紙筆考試和計(jì)算機(jī)自適應(yīng)考試的偏好

關(guān)于學(xué)生對(duì)紙筆考試和計(jì)算機(jī)自適應(yīng)考試的感受見表6。

總體看來，學(xué)生關(guān)于“計(jì)算機(jī)打字速度與手寫速度哪個(gè)更快”的選擇，“計(jì)算機(jī)”（49.61%）比“手寫”（34.42%）稍多；認(rèn)為“計(jì)算機(jī)上對(duì)試題做標(biāo)記有影響”的比率（45.94%）比沒影響的（33.51%）稍多；認(rèn)為“在屏幕上閱讀長篇材料需要滾動(dòng)，影響作答”的比率（44.24%）與沒影響的（44.76%）持平；但喜歡“參加紙筆考試”的比率（59.16%）遠(yuǎn)遠(yuǎn)高于計(jì)算機(jī)的（26.83%）。

大學(xué)英語系學(xué)生對(duì)計(jì)算機(jī)考試的喜好程度大大低于高二學(xué)生，喜歡參加紙筆英語考試的竟占到80.35%；高二學(xué)生對(duì)紙筆考試（42.08%）和計(jì)算機(jī)考試（41.61%）的選擇基本持平，沒有明顯偏好（見圖4）。

圖4 高二學(xué)生和大學(xué)生對(duì)紙筆考試和計(jì)算機(jī)考試的偏好選擇

4 總結(jié)

該研究所選取的被試為高二學(xué)生和大學(xué)英語系學(xué)生。高二學(xué)生是PETS低級(jí)別考試的目標(biāo)考試對(duì)象，而大學(xué)英語系學(xué)生則是PETS高級(jí)別考試的目標(biāo)考試對(duì)象，關(guān)于他們英語水平的級(jí)別判斷也符合研究者對(duì)學(xué)生能力分布的預(yù)期。

大部分學(xué)生具備計(jì)算機(jī)操作的基本能力，僅少數(shù)學(xué)生尚未接觸過計(jì)算機(jī)，可能導(dǎo)致對(duì)其英語成績的測量產(chǎn)生一定誤差。高二學(xué)生的英語水平基本上呈正態(tài)分布，大部分處于PETS二級(jí)合格水平，其次是一級(jí)合格和三級(jí)合格水平；大學(xué)英語系學(xué)生大部分處于PETS四級(jí)和五級(jí)合格水平。從能力分布看，所選被試廣泛地分布于PETS的各個(gè)級(jí)別，具有一定的代表性。

從測量標(biāo)準(zhǔn)誤來看，PETS-CAST的信度非常好，能夠?qū)W(xué)生的英語水平進(jìn)行比較準(zhǔn)確的測量；從PETS-CAST成績與最近一次統(tǒng)考成績的相關(guān)來看，相關(guān)顯著但相關(guān)系數(shù)并不高。這一方面與效標(biāo)的選擇有關(guān)，校方提供的最近一次統(tǒng)考成績都是由學(xué)校老師自命的非標(biāo)準(zhǔn)化測驗(yàn)，無論是測量目標(biāo)、測驗(yàn)構(gòu)想、測驗(yàn)質(zhì)量都與PETS考試不同。另一方面，計(jì)算機(jī)考試形式以及被試對(duì)計(jì)算機(jī)的熟練程度等會(huì)對(duì)考試成績帶來一定影響，如，女生的相關(guān)系數(shù)值明顯低于男生，可能是女生對(duì)計(jì)算機(jī)不夠熟練而受作答方式的影響較大；另一例證是，排除了計(jì)算機(jī)操作水平較差的學(xué)生后，效標(biāo)關(guān)聯(lián)效度有所提高。

就學(xué)生對(duì)PETS-CAST中工具的使用以及考試感受進(jìn)行的調(diào)查顯示，學(xué)生對(duì)考試系統(tǒng)所提供的輔助工具使用不足，這與學(xué)生不熟悉計(jì)算機(jī)形式的英語考試、缺乏經(jīng)驗(yàn)等有關(guān)。學(xué)生對(duì)計(jì)算機(jī)自適應(yīng)考試的優(yōu)點(diǎn)非常認(rèn)同，對(duì)其缺點(diǎn)也有同感，這與其他計(jì)算機(jī)自適應(yīng)考試研究得出的結(jié)果類似。總體上看，高二學(xué)生對(duì)于計(jì)算機(jī)自適應(yīng)考試和紙筆考試的選擇沒有明顯偏好，但大學(xué)英語系學(xué)生則對(duì)計(jì)算機(jī)考試的缺點(diǎn)反應(yīng)更加強(qiáng)烈，更傾向于選擇紙筆考試。

綜上所述，計(jì)算機(jī)自適應(yīng)英語考試的效度研究，證實(shí)了PETS-CAST系統(tǒng)的考試效果，展現(xiàn)了CAST考試的優(yōu)越性；研究結(jié)果為該考試形式的完善指明了方向。由于本研究中考試對(duì)象的代表性不夠，試測樣本未能覆蓋PETS各級(jí)別的目標(biāo)學(xué)生；另外，還需對(duì)兩種考試成績的可比性等進(jìn)行更為深入的研究。所以，PETS-CAST考試目前只能作為英語學(xué)習(xí)者或者PETS考生的自我考試或練習(xí)工具，尚難以取代現(xiàn)有的各級(jí)別紙筆考試。

[1]關(guān)丹丹，劉慶思.計(jì)算機(jī)自適應(yīng)序列考試概述[J].中國考試，2010（1）：29-35.

[2]關(guān)丹丹，劉慶思，莫春暉.PETS計(jì)算機(jī)自適應(yīng)序列測試設(shè)計(jì)與模擬研究[J].心理學(xué)探新，2011，31（5）：467-471.

[3]關(guān)丹丹，劉慶思.兩種PETS計(jì)算機(jī)自適應(yīng)序列測試框架比較研究[J].中國考試，2013（1）：16-22.

[4]AERA，APA，&NCME.Standardsfor Educational and Psychological Testing.Washington，D.C.:AERA，1999：1-174.