楊會(huì)永, 張 寧(石家莊鐵道大學(xué) 人文學(xué)院 ,河北 石家莊 050043)
計(jì)算機(jī)輔助普通話水平測試“命題說話”項(xiàng)評(píng)分誤差控制
楊會(huì)永, 張 寧
(石家莊鐵道大學(xué) 人文學(xué)院 ,河北 石家莊 050043)
國家普通話水平測試“命題說話”項(xiàng)主觀性較強(qiáng),評(píng)測誤差不容易控制。設(shè)計(jì)開發(fā)一套計(jì)算機(jī)軟件,對(duì)評(píng)測員的測評(píng)工作進(jìn)行實(shí)時(shí)監(jiān)控,力圖將由主觀性導(dǎo)致的測評(píng)誤差控制在最小程度,監(jiān)控主要從測試員試評(píng)誤差控制、測試員與測試員集體之間一致性對(duì)比誤差控制、測試員本人一致性誤差控制、不同評(píng)測點(diǎn)之間誤差控制、管理員抽查監(jiān)控誤差控制等六個(gè)方面進(jìn)行。這套程序?qū)?duì)目前正在使用的評(píng)測系統(tǒng)產(chǎn)生積極的輔助作用。
普通話; 命題說話;水平測試; 誤差控制
目前國內(nèi)計(jì)算機(jī)輔助普通話水平測試所使用的是科大訊飛公司研制開發(fā)的“國家普通話水平智能測試系統(tǒng)”,該系統(tǒng)基于國家普通話水平測試大綱,可較準(zhǔn)確地對(duì)考生“命題說話”之外的三個(gè)題型進(jìn)行自動(dòng)評(píng)測?!澳壳暗恼Z音評(píng)判技術(shù)還無法對(duì)考生在沒有文字憑借的情況下的第4題說話項(xiàng)目上的普通話水平進(jìn)行評(píng)判”[1]。這樣,第4題“命題說話”則由該系統(tǒng)錄音后由測試員基于該系統(tǒng)網(wǎng)絡(luò)平臺(tái)在網(wǎng)上進(jìn)行評(píng)分,這較之以前的人工集中評(píng)測有很多的方便之處。但須承認(rèn)的是,由于“命題說話”項(xiàng)的評(píng)分受評(píng)測員自身水平的影響較大,具有較強(qiáng)的主觀性,故對(duì)考生的評(píng)分存在程度不等的誤差。所以,如何有效減小“命題說話”項(xiàng)的評(píng)分誤差,真正測出考生實(shí)際的普通話水平,切實(shí)提高普通話水平測試的公信度,已成為計(jì)算機(jī)輔助普通話水平測試要解決的重要問題之一。我們結(jié)合自身多年的普通話測試經(jīng)驗(yàn),并學(xué)習(xí)借鑒國內(nèi)一些水平考試的有效做法,對(duì)計(jì)算機(jī)輔助普通話水平測試“命題說話”項(xiàng)的評(píng)分誤差控制做了研究。
我們對(duì)目前“命題說話”項(xiàng)的評(píng)分誤差控制主要是研究開發(fā)了一套計(jì)算機(jī)輔助普通話水平測試“命題說話”項(xiàng)人工評(píng)分誤差控制系統(tǒng),該系統(tǒng)能對(duì)評(píng)測員的評(píng)測結(jié)果進(jìn)行實(shí)時(shí)監(jiān)控,能將由于評(píng)測員主觀性導(dǎo)致的評(píng)測誤差控制在評(píng)測過程之中。
“命題說話”項(xiàng)評(píng)分標(biāo)準(zhǔn)中,“語音標(biāo)準(zhǔn)程度”較其他五項(xiàng)其主觀性最強(qiáng),該項(xiàng)評(píng)分共分為六檔,評(píng)測員的評(píng)分誤差多在這項(xiàng)中出現(xiàn)。為使評(píng)測員對(duì)六檔評(píng)分標(biāo)準(zhǔn)有比較準(zhǔn)確的把握,我們?cè)O(shè)計(jì)從往年“命題說話”項(xiàng)語音數(shù)據(jù)中每檔選取50人的說話數(shù)據(jù)(評(píng)分確定比較準(zhǔn)確的),通過排列組合編排100組試評(píng)題目,每組5個(gè)說話語料,每組題目要照顧到“語音標(biāo)準(zhǔn)程度”的不同檔次,即一組題目盡可能顯示多類型語音面貌。如果時(shí)間允許,可以多編排幾個(gè)說話語料,因?yàn)椤爱?dāng)其樣本容量增大時(shí),測量的概化系數(shù)Eρ2和可靠性指數(shù)φ(類似于CTT中的信度)都會(huì)提高”。[2]測試員每天上網(wǎng)評(píng)測前均要為一組題目評(píng)分、對(duì)比后才能評(píng)測,以幫助測試員盡快找到語音面貌歸類感覺。
這項(xiàng)功能是監(jiān)測某測試員的評(píng)分與測試點(diǎn)全體測試員評(píng)分分布是否一致,如評(píng)測員集體評(píng)分分布為正態(tài)分布,而某測試員與正態(tài)分布有誤差,則表明該測試員評(píng)測與集體評(píng)測存在誤差。對(duì)此類誤差,有多種方法進(jìn)行控制,我們依靠評(píng)分曲線來控制。假如一個(gè)測試點(diǎn)有考生3 000人,測試員10名,考生測試之后測試員開始評(píng)測,每天所有測試員的評(píng)測分?jǐn)?shù)會(huì)自動(dòng)生成一個(gè)曲線,每個(gè)測試員的評(píng)測分?jǐn)?shù)也會(huì)生成一個(gè)曲線,就會(huì)看到單個(gè)測試員評(píng)測分?jǐn)?shù)曲線和評(píng)測員集體評(píng)測分?jǐn)?shù)曲線的比較圖,隨著評(píng)測人數(shù)的增多,就會(huì)越來越清楚地看到每位評(píng)測員的打分傾向,是與集體打分分?jǐn)?shù)分布曲線吻合還是或高或低。上述單個(gè)評(píng)測員的評(píng)分?jǐn)?shù)據(jù),與評(píng)測員集體數(shù)據(jù)相比較,如在誤差允許范圍內(nèi),可視為合格。否則,監(jiān)測系統(tǒng)將在該評(píng)測員的屏幕和監(jiān)測員的屏幕上出現(xiàn)提示警告信息,以提醒評(píng)測員及時(shí)修正。這個(gè)方案我們是參考了一些地區(qū)高考作文評(píng)分電腦監(jiān)控的方法提出的,陳佳民指出:“有了評(píng)分常模,即對(duì)評(píng)分標(biāo)準(zhǔn)理解方面多了一個(gè)數(shù)量模式作為參照,就大大提高了對(duì)評(píng)分標(biāo)準(zhǔn)的理解的準(zhǔn)確性和一致性?!盵3]我們這套程序所提供的測試員集體的分?jǐn)?shù)曲線就是一個(gè)評(píng)分常模,可以作為個(gè)體評(píng)測員的評(píng)分參考。
圖1是我們所研制計(jì)算機(jī)輔助普通話水平測試“命題說話”項(xiàng)人工評(píng)分誤差控制系統(tǒng)的一個(gè)截圖。該圖是“語音標(biāo)準(zhǔn)程度”檔測試員集體評(píng)分曲線和劉榮貴測試員評(píng)分曲線的比較,從圖1中可以看出,劉榮貴測試員的得分分布基本在集體分布的左側(cè),表明其控制標(biāo)準(zhǔn)偏嚴(yán)格,考生得分偏低?!霸~匯與語法規(guī)范程度”等五項(xiàng)也可用同樣的方法進(jìn)行檢測,不再詳述。
圖1 普通話測試評(píng)測員個(gè)體打分與評(píng)測集體打分對(duì)比圖
這項(xiàng)功能的目的是檢查測試員在評(píng)測時(shí)掌握標(biāo)準(zhǔn)是否寬嚴(yán)適度,始終如一,是否隨意性大??刂品椒ㄊ潜O(jiān)測員可定時(shí)隨機(jī)抽取某評(píng)測員已經(jīng)評(píng)測完成題目的百分之幾來由其本人復(fù)評(píng)。比如某評(píng)測員今天評(píng)測的3個(gè)說話語料,過兩天仍安排他復(fù)評(píng)。如同一說話語料同一測評(píng)員不同時(shí)間段的評(píng)分誤差超過一定限度,則可說明該測評(píng)員評(píng)測標(biāo)準(zhǔn)掌握不準(zhǔn),需提醒或取消其評(píng)測資格。該方法在評(píng)測之初可多使用,包括復(fù)評(píng)比例也可提高,待評(píng)測穩(wěn)定后復(fù)評(píng)比例和次數(shù)可相對(duì)減少。
“在普通話測試中一個(gè)主要的可能誤差,就是評(píng)分者之間或評(píng)分者本身內(nèi)部(例如:對(duì)甲、乙部評(píng)分松緊不一)的不一致性”。[4]為了避免這種人為的誤差,同一說話語料往往由兩個(gè)評(píng)測員評(píng)分,一般取其平均分作為得分。如果兩個(gè)評(píng)測員評(píng)分相差較大時(shí),這時(shí)就會(huì)產(chǎn)生一個(gè)閾值,“閾值是指兩個(gè)評(píng)分之差的絕對(duì)值達(dá)到原先定義評(píng)測誤差的最大允許值”。[5]兩評(píng)相差的絕對(duì)值超過某一值時(shí),評(píng)測系統(tǒng)會(huì)自動(dòng)分配給第三位評(píng)測員評(píng)測。評(píng)測的閾值可由評(píng)測管理部門根據(jù)實(shí)際情況確定。這項(xiàng)功能目前科大訊飛的測試系統(tǒng)也有,但根據(jù)我們研制的控制系統(tǒng)檢測,科大訊飛平臺(tái)這項(xiàng)功能尚不完善,兩個(gè)評(píng)測員的評(píng)測分?jǐn)?shù)有些超過某一閾值的并不能檢測出來,在這方面還需完善。
目前普通話測試中“命題說話”項(xiàng)的評(píng)測是由各單位自己負(fù)責(zé)評(píng)分的,如河北的各高校的評(píng)測都是每個(gè)學(xué)校的評(píng)測員評(píng)測本校的測試者。一個(gè)單位的測試員一般十幾個(gè),這些測試員絕大多數(shù)都是兼職測試工作的,往往是每年集中評(píng)測一至二次,這就很可能造成一個(gè)單位的評(píng)測員評(píng)測水平參差不齊,也就很有可能出現(xiàn)一個(gè)單位總體評(píng)測分?jǐn)?shù)偏高或偏低的情況。為避免這種情況發(fā)生,保證一個(gè)地區(qū)評(píng)測的公正性,我們?cè)谙到y(tǒng)中設(shè)計(jì)了不同評(píng)測點(diǎn)之間的誤差控制,即在評(píng)測時(shí)可參考同地區(qū)不同測試點(diǎn)的評(píng)測分?jǐn)?shù)。如同在石家莊的省屬重點(diǎn)高校的學(xué)生就可以作為評(píng)分互為參考的對(duì)象。這種誤差控制主要由省級(jí)普通話測試管理中心負(fù)責(zé),可以隨機(jī)抽取某個(gè)評(píng)測點(diǎn)的已評(píng)說話語料由另一個(gè)評(píng)測點(diǎn)的評(píng)測員再評(píng),如誤差率在允許的范圍內(nèi)可視為合格,如誤差率超過一定的閾值則需提醒被抽測評(píng)測點(diǎn)注意評(píng)測標(biāo)準(zhǔn)。
本方法主要由省級(jí)評(píng)測管理中心和各測試站管理人員操作,主要使用管理、監(jiān)控手段從整體上來減少誤差。如可采用簡單隨機(jī)抽查某位測試員的評(píng)測成績;還可使用分階段抽樣方法,如可抽取第一天和某一天的評(píng)測成績做比較,看前后標(biāo)準(zhǔn)把握是否一致;還可自動(dòng)抽樣檢測,即檢測系統(tǒng)可以根據(jù)統(tǒng)計(jì)結(jié)果自動(dòng)抽取某位評(píng)測員的評(píng)測成績同整體評(píng)測成績相比,以發(fā)現(xiàn)評(píng)測中存在的問題;還可使用等距抽樣方法檢測,即間隔抽樣,如可抽取考號(hào)尾數(shù)是2的考生成績進(jìn)行復(fù)評(píng)。
(一)分級(jí)率統(tǒng)計(jì)功能
我們這套程序可以將一個(gè)單位的所有考生的普通話測試等級(jí)進(jìn)行統(tǒng)計(jì),以圖表形式直觀展示一個(gè)單位考生的普通話測試等級(jí),見圖2。
圖2 普通話測試等級(jí)統(tǒng)計(jì)圖
圖2是石家莊鐵道大學(xué)2011年學(xué)生普通話測試等級(jí)統(tǒng)計(jì)圖,各個(gè)等級(jí)的情況一目了然,對(duì)總體了解一個(gè)單位的普通話等級(jí)情況非常方便。
(二)不同年份、不同單位測試成績的比較
這個(gè)功能可以為我們提供橫向和縱向的普通話測試成績比較數(shù)據(jù),對(duì)理性認(rèn)識(shí)每一年的普通話成績提供翔實(shí)數(shù)據(jù)。將石家莊鐵道大學(xué)2011至2013年三年的“命題說話”項(xiàng)成績做了比較,發(fā)現(xiàn)2012年的成績明顯高于2013年和2011年,而2013和2011年的成績基本持平,我們覺得2012年學(xué)生的總體評(píng)測分?jǐn)?shù)偏高了,而不是2012年那一批學(xué)生的普通話水平確實(shí)高過2013和2011年的學(xué)生。如果獨(dú)立考察一年的測試成績這樣的問題是發(fā)現(xiàn)不了的。同理,不同學(xué)校的比較在這個(gè)程序中也可以比較,如果同層次學(xué)校同年級(jí)的學(xué)生普通話分?jǐn)?shù)有較大差距,很可能是評(píng)分標(biāo)準(zhǔn)的把握上有問題。重要的是,有了這樣的比較可以讓我們發(fā)現(xiàn)更多問題,做更多的思考,使我們對(duì)普通話測試這個(gè)主觀性較強(qiáng)的問題盡可能客觀化。
(三)得分異常情況處理
這項(xiàng)功能科大訊飛普通話智能測試系統(tǒng)也有,我們發(fā)現(xiàn)它還存在問題,一是統(tǒng)計(jì)有疏漏;二是有的異常檢測不出。如前文提到的評(píng)分誤差超過一定限度的有的就檢測不出,可為疏漏問題。像有的扣分標(biāo)準(zhǔn)只能扣0、1、2分,結(jié)果扣了3分或1.5分這類情況科大訊飛系統(tǒng)是檢測不出的。在我們這個(gè)系統(tǒng)里這類問題都得到了較好的解決。
計(jì)算機(jī)輔助普通話水平測試“命題說話”項(xiàng)人工評(píng)分誤差控制系統(tǒng)總體而言是比較科學(xué)的,它能及時(shí)監(jiān)控到評(píng)測教師的評(píng)測誤差,將問題控制在開始階段;還有就是其客觀性,發(fā)現(xiàn)問題依據(jù)的是具體的數(shù)據(jù)而不是憑感覺,更具有說服力;蔡偉在談到高考作文評(píng)分誤差控制時(shí)說:“參照量表最大的也是公認(rèn)的優(yōu)點(diǎn)是直觀、具體、形象, 更易使評(píng)卷員產(chǎn)生一致的理解, 便于操作。評(píng)分標(biāo)準(zhǔn)和參照量表都是為了克服評(píng)分的隨意性而編制的。”[6]這套系統(tǒng)的設(shè)計(jì)初衷也是用量化的標(biāo)準(zhǔn)來約束評(píng)測員打分的隨意性。另外,在實(shí)時(shí)的檢測過程中還能發(fā)現(xiàn)哪些測試員更負(fù)責(zé),水平更高,相反水平低、不負(fù)責(zé)任的測試員也難逃這些數(shù)據(jù)的檢測,為選拔一批優(yōu)秀的測試員提供了較準(zhǔn)確的數(shù)據(jù)。針對(duì)“命題說話”項(xiàng)主觀性很強(qiáng)、容易出錯(cuò)的特點(diǎn),盡快開發(fā)比較科學(xué)實(shí)用、具有更高水平的計(jì)算機(jī)輔助人工測試評(píng)分誤差控制系統(tǒng),將問題解決在過程或是萌芽之中,應(yīng)是十分必要的。
[1]雷竣.計(jì)算機(jī)輔助普通話測試的問題思考及技術(shù)對(duì)策[J].武漢理工大學(xué)學(xué)報(bào),2010(13):161-163.
[2]楊志明,張雷.改進(jìn)普通話測試的概化理論分析[J].湖南師范大學(xué)教育科學(xué)學(xué)報(bào),2003(1):76-82.
[3]陳佳民.用電腦建立常模監(jiān)控高考作文評(píng)分[J].華南師范大學(xué)學(xué)報(bào),1996(2):87-91.
[4]張雷,侯杰泰.普通話測試的錄音評(píng)分可行性、信度及經(jīng)濟(jì)效率[J].心理學(xué)報(bào),2001(2):97-103.
[5]丁琳.基于互聯(lián)網(wǎng)網(wǎng)上閱卷系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].上海:華東師范大學(xué),2003.
[6]蔡偉,婁慶華.高考作文評(píng)分誤差控制構(gòu)想[J].教育理論與實(shí)踐,2008(7):24-25.
The Preliminary Ideas on Proposition Speaking Error Control in Computer-aided Putonghua Proficiency Test
Yang Huiyong, Zhang Ning
(College of Humanities, Shijiazhuang Tiedao University, Shijiazhuang, 050043, China)
The Proposition Speaking in Putonghua Proficiency Test has strong subjectivity. We design and develop a set of computer software which can be used to monitor the testers and control their errors to the minimum. The monitor system includes six aspects, i.e. error control, scoring consistency among testers, scoring consistency of individual tester, error control different test site, and the errors found by administrators.
Putonghua; Proposition Speaking; proficiency test; error control
2016-12-20
楊會(huì)永(1967- ),男,副教授,博士,研究方向:漢語言文字學(xué)。
2095-0365(2017)02-0068-04
G434
A
10.13319/j.cnki.sjztddxxbskb.2017.02.13
本文信息:楊會(huì)永,張 寧.計(jì)算機(jī)輔助普通話水平測試“命題說話” 項(xiàng)評(píng)分誤差控制[J].石家莊鐵道大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2017,11(2):68-71.
石家莊鐵道大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2017年2期