孟匯涓 Kirk Becker Joy Matthews-López
創(chuàng)新試題(Innovative item)泛指那些在機考中利用計算機的功能特點來完成紙筆考試不易完成的測試任務的試題,其創(chuàng)新性可以體現(xiàn)在以下幾個方面(Parshall,Harmes,Davey&Pashley,2010):
(1)測試結(jié)構(gòu)(Assessment structure):包括單一試題和試題組。單一試題可以分為兩類,選答題(如對錯題、單選題、多選題、排序題、匹配題、熱點題)和應答題(如填空題、簡答題、應用題、作文題),試題前后之間沒有關(guān)聯(lián)性。而試題組中的試題類型可以是上面提到的任一種或幾種的組合,但它們之間是有聯(lián)系的。常見的試題組包括場景任務題或模擬環(huán)境操作題。組中試題的結(jié)構(gòu)可以是設(shè)置好的,即所有考生都按照一個順序回答一樣的試題;它們也可以是松散的,試題的順序和內(nèi)容會根據(jù)考生答題情況的不同而不同。
(2)答題行為(Response action):指考生如何應答問題,包括他們的動作和使用的設(shè)備。在紙筆考試中,最常見的答題行為是用鉛筆在答題紙上涂圈;而在機考中,最常見的答題行為是用鼠標選擇答案和用鍵盤輸入文字或數(shù)字。此外,鼠標也可以用來拖拽選項、播放音頻或視頻、打開補充信息和操作計算器等。除此之外,機考中還可以使用語音識別軟件和麥克風來采集甚至評判考生對口語表達一類試題的回答。
(3)試題使用的媒體(Media inclusion):傳統(tǒng)的試題表述大多以文字為主,圖像為輔;而機考試題中對圖像的使用超越了以往紙筆考試中單一的靜態(tài)表述功能??忌梢灾苯釉趫D像上進行選擇、拖拽、旋轉(zhuǎn)、縮放等操作。同時,創(chuàng)新題型開始了對音頻、視頻和動漫的使用,這些新媒體為命題人員提供了更加直接有效的表達方式,也拓寬了考試可以涵蓋的內(nèi)容領(lǐng)域。
(4)答題時需要的人機互動(Interactivity):這里的互動是指試題對考生答題行為的反應程度。雖然機考中的單一試題里面可以加入基本的互動,比方說題目中圖片熱區(qū)對鼠標移動的反應,或填空題對考生填入的文字或數(shù)字形式上的限制。創(chuàng)新題型的互動,更多的是應用在前面提過的場景或模擬試題組中,例如在一個情境中有大量的信息和不同工具,考生需要分析試題,選擇性地使用相關(guān)資料或工具來完成任務;而計算機則需要根據(jù)考生在每一步的回答作相應調(diào)整,選擇下一道試題。完成任務、解決復雜問題的這一過程包含了很多真正意義上的人機互動。
(5)試題的復雜性(Complexity):指考生回答問題時需要考慮使用的元素,其數(shù)量的大小和種類的多少。如果一道試題里包含很多種類的信息(如文字、圖像、表格等),它們同時分布在計算機屏幕的不同區(qū)間,考生需要綜合分析這些信息才能應答試題。那么,在考查內(nèi)容同等的前提下,這道題的復雜性高于那些信息集中、元素單一的試題。
(6)試題的仿真度(Fidelity):是指當考查內(nèi)容包含現(xiàn)實世界中的人、物、場景時,試題是否能夠真實準確地復制這些實際事物和情境。提高試題的仿真度,意味著考試主辦方在時間和費用上的投入加大。因此只有當這種付出能夠增加測試效度時它們才有意義。
(7)試題的評分方法(Scoring method):指如何將考生的回答轉(zhuǎn)換為分數(shù)。傳統(tǒng)的紙筆考試需要很多人工操作的步驟,花費時間長,并且容易出錯。在計算機考試中,絕大多數(shù)單一試題實現(xiàn)了自動評分。而那些場景或模擬題組,如果對人機互動有較高要求,則需要使用復雜的方法才能實現(xiàn)自動評分。這類評分方法的實施面臨很多挑戰(zhàn),如設(shè)計、計算、編程、花費以及分數(shù)的效度和解讀。
以上就是Parshall等人在創(chuàng)新題型理論中對“創(chuàng)新”設(shè)定的7個維度,它們可以幫助命題人員在設(shè)計試題時考慮得更全面、更具體,從根本上提高試題質(zhì)量。
很多考試主辦方喜歡使用創(chuàng)新試題。他們認為,比起傳統(tǒng)的、以文本為基礎(chǔ)的單項選擇題,這類試題能夠更直接真實地考查更多更廣的知識和技能(Parshall,Spray,Kalohn,&Davey,2002),更有效地測量高層次、復雜的認知、分析以及解決問題的能力(Huff&Sireci,2001)。同時,它們還可以增加考生的興趣(Strain-Seymour,Way,&Dolan,2009),減少一定的閱讀量(Kumar,White,&Helgeson,1993),降低可猜對試題的數(shù)量(Huff&Sireci,2001),從而提高考試分數(shù)的效度。
雖然測量專家為創(chuàng)新題型的撰寫提供了具體的指導(Parshall&Becker,2008;Parshall&Harmes,2009;Sireci&Zenisky,2006),但是目前在絕大多數(shù)考試中,創(chuàng)新試題所占的比例都很小,主要原因有:一是做試題的費用,比起傳統(tǒng)的單選題,使用多媒體或虛擬場景的試題成本高出許多;二是對考查內(nèi)容的覆蓋,在一定的時間范圍內(nèi),考生可以回答的單選題數(shù)量通常多于設(shè)計復雜的創(chuàng)新題(Joidin,2003),因此對于考查范圍廣、內(nèi)容多的測試,為了保證測試效度,單選題是更為適合的選擇;三是對創(chuàng)新試題的分析,因為在考試中這類試題的比例很小,很多考試主辦方不知道該如何分析這些試題,為命題人員提供怎樣的反饋信息,所以本文旨在通過具體實例,介紹幾種常見的、低成本的創(chuàng)新題型的數(shù)據(jù)分析,以更好地幫助命題人員了解試題表現(xiàn)。本文未涵蓋復雜的、仿真的場景或模擬試題組,因為在這類試題中使用的單題題型基本上還是文中介紹的幾種,它們更多需要考慮的是設(shè)計、預測和評分方法,而這不在本文闡述范圍之內(nèi)。
多選題、排序題、填空題和熱點題是目前在機考中使用頻率最高的4種創(chuàng)新題型。其實,這些題型并不是什么新鮮事物,傳統(tǒng)的紙筆考試中對它們都有不同程度的使用,但計算機技術(shù)賦予這些題型更多的功能變化,拓寬了考查內(nèi)容的范圍,考生的答題體驗也更貼近現(xiàn)實生活中的自然反應。
2.1.1 多選題(Multiple-choice multiple-response)
多選題和單選題形式相仿,只是答案中選項的個數(shù)不再限定為一。試題中的答題指示可以告訴考生答案中選項的個數(shù),或只告訴他們選擇所有符合條件的選項。下面的例題使用的是后者,也是在實際考試中更為常見的情況,這樣的指示可以減少考生猜測行為對分數(shù)的影響。
多選題例題:
藥劑師為病人準備他克莫司口服藥時應該提供哪些服藥指導信息?(選擇所有適用的選項)
A.避免活病毒疫苗 □
B.避免葡萄柚和葡萄柚汁 □
C.如果服藥時錯過一劑,下次劑量翻倍 □
D.服用此藥時不要飲酒 □
E.需要監(jiān)控藥物水平 □
2.1.2 排序題(List ordering)
排序題要求考生將試題中提供的信息或步驟按順序排列,如比較三角函數(shù)大小,或?qū)讉€句子組合成一段邏輯順暢的文字。排序題可以單選題的形式出現(xiàn),在選項中列出不同順序,如:選項A:B-A-C-D;選項B:A-B-C-D,等等,但在這種形式下,可測試的排序數(shù)量有限,也不方便考生答題。機考中的排序題通常使用拖拽技術(shù),就是考生用鼠標點住選項,依次將它們移動到相應的位置。這種題的指示需要非常清晰,如果是數(shù)量上的排序,考生要知道是從大到小,還是從小到大。同時,如果考生群體的計算機水平參差不齊,在考試開始之前應該將回答排序題時所用的拖拽方法演示清楚,以確保考試公平。
排序題例題:
將以下外用皮質(zhì)類固醇按效力從高到低排序。(必須使用所有選項)
單擊鼠標左鍵選中,拖拽,并排列答案選項。
未排序選項 排序選項氟輕松0.05%醋酸氫化可的松1%丙酸鹵倍他索0.05%糠酸莫米松0.1%
2.1.3 填空題(Fill in the blank)
填空題可分為文字題和計算題,對這類試題,考生的回答往往會和標準答案有些許形式上的出入,例如英文中的大小寫,詞語之間的空隙,以及數(shù)字的精確程度。如果命題人員事先設(shè)定的答案沒有把考生答案中可能出現(xiàn)的這些細微差異考慮進來,可能會影響計算機評分的準確性。因此,命題人員在試題中需要清楚地告訴考生填入文字或數(shù)字的格式,就像下面例題中顯示的那樣。同時,機考系統(tǒng)開發(fā)人員可以在自動評分系統(tǒng)中實施一定程度的格式微調(diào),如四舍五入或刪除多余的空格,等等。
填空題例題:
灰黃霉素口服混懸液包含125毫克/5毫升。醫(yī)生為一個病人開出服藥兩周,每天兩次250毫克計量的藥方。這個方子需要配多少毫升的灰黃霉素?(答案必須是數(shù)字,并近似到整數(shù)。)
2.1.4 熱點題(Hot spot)
熱點題要求考生用鼠標點擊試題提供的圖像上或文字中符合條件的區(qū)間或詞語,可以是單選題,也可以是多選題。比起以往使用ABCD選項的試題,考生回答熱點題時不需要重復理解選項中的信息,而是在試題內(nèi)容上直接操作,答題行為更加自然。
熱點題例題:
在下面圖片上找出在HIV生命周期中馬拉韋羅發(fā)揮作用所在之處。(選擇圖中的文字選項,左擊鼠標。如要改變答案,可移動光標,選擇其他文字選項。)
表1是機考中不同試題的常規(guī)樣本數(shù)據(jù),共5種,包括傳統(tǒng)的單選題(作為參照)和前面介紹的4種題型。多選題的數(shù)據(jù)中,答案選項沒有固定個數(shù),可以選一個,也可以把所有選項全部選中。排序題的數(shù)據(jù)中,包括試題中的所有選項,它們在數(shù)據(jù)中的位置反應了考生對選項的排列順序。填空題的數(shù)據(jù)最直觀,就是考生輸入計算機的答案,可以是數(shù)字,也可以是詞語。與紙筆考試相比,機考中的填空題可以保證考生填入的內(nèi)容完全符合答案的格式要求。熱點題的數(shù)據(jù)和單選題差不多,也是考生選擇的選項,但除此之外多了兩個數(shù)字,它們是考生點擊熱點區(qū)間時鼠標對應的圖片上的橫坐標和縱坐標。
表1 5種題型樣本數(shù)據(jù)
通常在考試一個周期結(jié)束后,負責考試分析的工作人員會對所有的試題進行分析,把表現(xiàn)不好的試題找出來,由命題人員從試題考查的內(nèi)容、邏輯、答案、選項以及試題寫作的不同方面來審查這些試題,看看需不需要修改,如何修改。因為分析結(jié)果是決定試題表現(xiàn)好壞的第一步,使用科學的方法計算試題統(tǒng)計指標,確定合理的評估標準,以及為命題人員提供詳細的反饋信息對于提高試題質(zhì)量、發(fā)展考試題庫至關(guān)重要。
試題分析的常用統(tǒng)計指標是難度和區(qū)分度。以下例題選自美國某行業(yè)資格考試,都是預測題,即不算分的題目。每道題的原始分值為1。難度就是答對的考生人數(shù)除以考生總?cè)藬?shù)。對應試題的每一個選項或選項組合,分析中提供選擇這個選項或選項組合的考生人數(shù)、占所有考生的比例、區(qū)分度和考生的平均分4個指標。試題的正確答案后面帶一個星號,它對應的選擇比例就是試題的難度。答案的區(qū)分度一般說來應該是正值,至少在0.2以上,而其他錯誤選項的區(qū)分度應該是負值,因為成績越低的考生,越容易選這些迷惑選項。同時,選擇正確答案的考生平均分應該最高。如果很多高分的考生都選擇某個錯誤選項,那很有可能它里面含有正確的內(nèi)容;它后面會帶一個箭頭,作為備選答案供命題人員查看。
2.3.1 多選題數(shù)據(jù)分析
表2是一道正確答案為ACD的多選題的選項組合分析結(jié)果。數(shù)據(jù)列出了考生回答的19個不同的選項及選項組合(表中只列出平均分最高的4個)。從選擇比例來看,50.2%的考生選擇AC,區(qū)分度0.24,考生平均分最高;而正確答案ACD,只有5.3%的考生選擇(試題難度為0.053),區(qū)分度是0.04,考生平均分也略低。從數(shù)據(jù)分析結(jié)果來看,選項組合AC完勝正確答案ACD,選項后面帶了一個箭頭,說明需要命題人員仔細審查試題及答案。
表2 多選題選項(組合)分析結(jié)果
當試題數(shù)據(jù)中選項組合過多的時候,命題人員不容易找出試題表現(xiàn)不好的根源所在,這時分析單獨選項會有幫助。如表3所示,正確答案中使用的選項A和選項C沒問題,選的人多,區(qū)分度也不錯,對應的考生平均分也很高;而選項D每一項指標都不盡如意。因此命題人員要仔細分析選項D,考察考生把它排除在答案之外的原因。這種單獨選項分析在備選答案和正確答案差異較大的時候格外有效。
表3 多選題選項分析結(jié)果
2.3.2 排序題數(shù)據(jù)分析
表4是一道排序題的分析結(jié)果。這道題的正確答案是B-A-D-C,只有5%的考生這樣排序,區(qū)分度也僅有0.1。雖然這組考生的平均分最高,但因為人數(shù)很少,統(tǒng)計指標的穩(wěn)定性不如平均分第二高的B-D-A-C,有近40%的考生這樣排序,區(qū)分度也是正確答案的2倍。因此,這道題的正確答案有可能是B-D-A-C,需要命題人員分析試題。
表4 排序題排列順序分析結(jié)果
除了這些常規(guī)的統(tǒng)計結(jié)果,表5提供了一些額外的分析,即每個位置上不同選項的表現(xiàn)。表5中的P1到P4,對應的是每個選項在位置1至位置4的表現(xiàn)。在位置1,B本身是正確答案,各項統(tǒng)計結(jié)果顯示B都是最高,因此B排在第一位不存在異議。在位置2,備選答案D的表現(xiàn)明顯好于正確答案A,選D的區(qū)分度是正值,選A的區(qū)分度是負值。位置3的結(jié)果同樣存在這樣的問題,備選答案A的表現(xiàn)明顯好于正確答案D。位置4的結(jié)果與正確答案吻合。因此位置2和位置3的選項可能存在問題。
表5 排序題位置-選項表現(xiàn)分析結(jié)果
在此基礎(chǔ)上,繼續(xù)對相連兩個位置(位置1和位置2、位置2和位置3、位置3和位置4)的排序結(jié)果進行分析,見表6。結(jié)果顯示,B-D、D-A、A-C的數(shù)據(jù)要好于B-A、A-D、D-C的結(jié)果。分析結(jié)果再次表明,命題人員提供的正確答案有可能存在問題。
表6 排序題位置-選項表現(xiàn)分析結(jié)果
在這個例子中,因為需要排列的步驟只有4個,正確答案和備選答案的區(qū)別又很小,只是中間兩個步驟的位置變化,所以這些分析與常規(guī)分析的結(jié)果相比,并沒有提供太多額外的信息。如果排列步驟的數(shù)量比較多,正確答案和備選答案的排序又非常不同,這樣的分析可以幫助命題人員理清選項之間的邏輯關(guān)系,迅速發(fā)現(xiàn)問題所在,從而有效地修改試題。
2.3.3 填空題數(shù)據(jù)分析
考生對填空題的回答通常是五花八門,很難一一分析,因此只有當正確答案表現(xiàn)不好時才需要對數(shù)據(jù)進一步查看,找出可能的答案。如表7中的例題,只有13.6%的考生填寫的是正確答案,有35.4%的考生給出的結(jié)果是40,與其對應的區(qū)分度也很好,這一組考生的平均分也最高。因此需要命題人員再次確認正確答案的數(shù)值。
表7 填空題數(shù)據(jù)分析結(jié)果
2.3.4 熱點題數(shù)據(jù)分析
表8是一道熱點題的分析結(jié)果。該題共有11個選項(A~J,Z),B是正確答案,Z是所有選項之外的地方。有21.9%的考生選擇正確選項B,區(qū)分度只有0.1,同時答對的考生平均分104分,排在第2位。在其他備選項中,選A的考生平均分最高,區(qū)分度也最高;選擇D的考生也不少,占了總?cè)藬?shù)的1/4,它的區(qū)分度是負值,平均分也比較低,說明這個迷惑選項吸引了一批低分考生。此外,有30.1%的考生選擇了Z。因為選項過多,為給命題人員提供更為直觀的反饋信息,采取了圖1的選項坐標分布圖。
表8 熱點題選項數(shù)據(jù)分析結(jié)果
圖1 熱點題選項坐標分布圖
對照前面提過的這幾個選項來看,答案B在左上角,而Z的坐標上下環(huán)繞B,所以也許考生以為他們選的是B,實際上他們點擊的都是周邊的無效地段Z。選項D和正確答案B涇渭分明,卻吸引了不少低分考生,因此這是一個不錯的迷惑項。另一個迷惑項A和正確答案B相離甚遠,卻吸引了近10%的成績不錯的考生,命題人員需要在試題審查會議上找出其原因??傊褂米鴺朔植紙D,命題人員很容易發(fā)現(xiàn)有疑問的選項問題所在,并作相應的修改。
題型之間的差異不僅表現(xiàn)在題目本身的形式和考查的側(cè)重點上,同時也反映在試題分析的各項統(tǒng)計指標上。表9是文中提到的美國某行業(yè)資格考試從2009年到2014年7月所有預測題的分析結(jié)果總結(jié)。
從表9可以看出,預測題總數(shù)4041道,其中單選題數(shù)量最多,占76.1%;排序題數(shù)量最少。在這5種題型中,考生在填空題上花費的時間最長,多選題需要時間最短。從試題難度上來說,單選題最簡單,多選題最難,排序題和熱點題的難度居中。就區(qū)分度而言,填空題最好,多選題最差,這是因為難度高的試題考生猜測成分多。最后一列的題目通過率,是指試題通過預先設(shè)定的統(tǒng)計指標(難度和區(qū)分度)的百分比,它們能否進入題庫還需要命題專家綜合判斷決定。在這5種題型中,多選題因為難度大、區(qū)分度低,通過率最低,填空題的通過率最高。這種結(jié)果和預期是一樣的,因為填空題無法猜測,所以它的試題質(zhì)量比較容易保證。
一般來說,隨著命題人員寫題技巧的提高和考生對新題型熟悉程度的加深,創(chuàng)新題型的統(tǒng)計指標可能會發(fā)生變化,因此,對每種題型統(tǒng)計指標年度之間的縱向評估可以幫助考試主辦方進一步了解并更好地使用創(chuàng)新題型。
表10是對單選題的分析,可以用來作為其他題型表現(xiàn)的參照??傮w來說,單選題數(shù)量呈下降趨勢,答題時間和試題難度雖然沒有顯著變化,但區(qū)分度略微降低,導致2012年至2014年的題目通過率下降5~6個百分點。
表9 5種題型統(tǒng)計指標總結(jié)
表10 單選題統(tǒng)計指標年度總結(jié)
多選題是從2010年開始進入到考試中的,試題數(shù)量在2012年大幅度增長,見表11??傮w來說,除第一年外,試題難度、區(qū)分度和通過率基本比較穩(wěn)定,但考生答題時間略有增加,考慮到這類試題的數(shù)量較大,對考試時間可能會有影響,命題人員需要審查試題,找出原因,是試題閱讀量增大,還是試題本身更加復雜。
排序題題型比較新,從2011年才開始使用。試題數(shù)量很少,見表12,年度之間的統(tǒng)計結(jié)果比較沒有太大意義。
表13是對填空題的分析,這類試題的數(shù)量在2010年到2012年達到高峰,2013年開始下降。答題時間從191秒減少到170秒左右,試題難度明顯下降,反映考生對這種題型的逐漸適應。
熱點題的數(shù)量很少,每年都不到10題,見表14。如果不考慮2010年(只有兩題),這類試題的難度有所下降,區(qū)分度有所提高。
以上就是對各種題型的跨年度分析總結(jié)。從中可以看出,試題通過率總體呈上升趨勢,說明命題人員的命題水平有所提高,同時,也說明考生對創(chuàng)新題型日漸熟悉,這一點從填空題的答題時間變化上看尤為明顯??荚囍鬓k方在使用創(chuàng)新題型初期要非常謹慎,充分考慮評估這類試題對題目質(zhì)量和答題時間的影響,控制它們在試卷中的數(shù)量,讓不同年度的考生之間成績依然具有可比性。
表11 多選題統(tǒng)計指標年度總結(jié)
表12 排序題統(tǒng)計指標年度總結(jié)
表13 填空題統(tǒng)計指標年度總結(jié)
表14 熱點題統(tǒng)計指標年度總結(jié)
總之,對于創(chuàng)新題型,數(shù)據(jù)分析需要根據(jù)題型特點加以調(diào)整,豐富分析報告中關(guān)于試題表現(xiàn)的內(nèi)容。全面細致的反饋意見可以幫助命題人員更好地了解考生行為,更容易發(fā)現(xiàn)試題選項邏輯上的漏洞,更有效地修改表現(xiàn)不好的試題,以及在撰寫同一類型的新題時避開常見誤區(qū),提高試題通過率,以降低考試主辦方命題方面的成本。同時,高質(zhì)量的試題可以最大程度地減少創(chuàng)新題型對考生的影響,從而確??荚嚬健?/p>
[1] Parshall,C.G.,Harmes,J.C.,Davey,T.,&Pashley,P.Innovative items for computerized testing[M]//W.J.van der Linden and C.A.W.Glas(Eds.),Elements of adaptive testing.New York:Springer,2010:215-230.
[2] Parshall,C.G.,Spray,J.A.,Kalohn,J.C.,&Davey,T.Practical considerations in computer-based testing[M].New York:Springer-Verlag,2002.
[3] Strain-Seymour,E.,Way,W.D.,&Dolan,R.P.Strategies and Processes for Developing Innovative Items in Large-Scale Assessments[C]//Research Report.Iowa City,IA:Pearson Education,2009.
[4] Kumar D.D.,White A.L.,Helgeson S.L.Effect of HyperCard and traditional performance assessment methods on expert-novice chemistry problem-solving[C]//Paper Presented at the Annual Meeting of the National Association for Research in Science Teaching.Atlanta,Georgia,1993.
[5] Huff,K.L,&Sireci,S.G.Validity Issues in Computer-based Testing[J].Educational Measurement:Issues and Practice,2001(20):6-25.
[6] Parshall,C.G.,Becker,K.A.Beyond the technology:Developing innovative items[C]//Paper presented in bi-annual meeting of the International Test Commission.Manchester,UK,2008.
[7] Parshall,C.G.,&Harmes,J.C.Improving the quality of innovative item types:Four tasks for design and development[J].Journal of Applied Testing Technology,2009(10):1-20.
[8] Sireci,S.G.&Zenisky,A.L.Innovative item formats in computer based testing:In pursuit of improved construct representation[M]//S.M.Downing and T.M.Haladyna(Eds.),Handbook of Testing.Mahwah,NJ:Lawrence Erlbaum,2006:329-347.
[9] Joidoin,M.G.Measurement Efficiency of Innovative Item Formats in Computer-based Testing[J].Journal of Educational Measurement,2003(40):1-15.