胡智丹 田娜 王萌
摘? 要:普通話水平測試“命題說話”項的計算機評測,技術難度要大大高于其他三項題型,其評測質量直接關涉考試信度。采用抽樣統(tǒng)計的方法,對比人工評測和人機評測的組內初評數(shù)據(jù)、人機評測的組內復審數(shù)據(jù),并對復審案例進行復聽,試圖通過人機數(shù)據(jù)互證來考察計算機評測的質量。研究結果顯示,計算機評測總體達到人工評測水平,評分穩(wěn)定性優(yōu)于人工評測,但尚存在因信息處理能力欠缺而導致的少量誤判、漏判現(xiàn)象。具體表現(xiàn)為對某些語言材料的識別不夠精準,對不同水平考生的評分尺度難以高度一致。
關鍵詞:普通話水平測試;命題說話;計算機評測;統(tǒng)計;評價
普通話水平測試是一項大規(guī)模的國家級通用語口語測試。2007年之前,該測試全程采用人工評測;2007年起,計算機輔助普通話水平測試開始試行[1](P108)。這一時期的計算機輔助測試僅實現(xiàn)了“讀單音節(jié)字詞”“讀多音節(jié)詞語”“朗讀短文”三項內容的自動評測,第四項“命題說話”(以下簡稱“說話”)仍然由測試員評定分數(shù)[2]。2017年,“說話”項計算機輔助評測開始試點,本文調查的考點采用一名測試員和計算機合作評分的模式(以下稱“人機評測”)。與前三項不同,“說話”項屬于無固定文本參照的語音評測,評測內容不僅涉及語音,還涉及詞匯語法、語言流暢度、內容相關性、缺時等多個方面,其性質決定了自動評測的技術難度要高于前三項?!罢f話”項計算機評測的質量究竟如何?本文抽取同一考點人工評測時期和人機評測時期的初始評分數(shù)據(jù)、人機評測中的復審評分數(shù)據(jù)進行統(tǒng)計對比,并對進入復審環(huán)節(jié)的考生錄音再次復聽,嘗試通過人機數(shù)據(jù)相互論證的分析方法,來考察計算機的評測質量。人機評測的初始評分數(shù)據(jù)來自初評測試員(以下稱“測試員1”)和計算機評測系統(tǒng)(以下稱“機評”),復審樣本的評分數(shù)據(jù)則在前兩者的基礎上又加入了復審測試員(以下稱“測試員2”)的評分。
一、抽樣考生的基本情況
關于人機評測的數(shù)據(jù),本文采用某高校普通話水平測試考點2019年9月至12月4195名考生的樣本。這些考生中,高校在讀學生占93.37%,其余為高校教師和附屬醫(yī)院醫(yī)務人員??忌鷣碜匀珖?1個省、直轄市、自治區(qū),七大方言區(qū)均有分布??忌鷺嫵膳c測試成績的等級分布分別如表1、表2所示:
我們同時抽取了該考點2016年9月至2017年6月人工評測的4863名考生數(shù)據(jù)作為對比組的樣本,這些考生的構成情況與上述人機評測模式下的情況基本相似。
二、人機評測與人工評測初始評分結果的統(tǒng)計分析
(一)組內評分差異的比較
各省、直轄市、自治區(qū)對“說話”項的偏差數(shù)據(jù)都有復審的要求,如果兩個初始評分的差異值在一定范圍之內,成績取兩者的平均值;如果差異值超出一定范圍,需要對考生錄音進行偏差復審,重新計算成績。因此,測試員間的評分差異是反映測試員評分一致性的主要指標,也是管理過程中衡量評分質量的重要依據(jù)。表3是對人機組、人工組各自初始評分差異值的統(tǒng)計學描述,表4是人機組、人工組各分差段人數(shù)及比例的統(tǒng)計。
“平均值”反映一組數(shù)據(jù)的一般水平,“標準差”則反映各項數(shù)據(jù)與平均值的接近程度,標準差越小,數(shù)據(jù)的離散程度越低。初始評分差異的平均值低、標準差小,則說明評分的準確性、穩(wěn)定性較好。從表3的統(tǒng)計數(shù)據(jù)來看,人機組與人工組組內評分差異的平均值在1.27~1.29分之間,幾乎沒有差別,標準差則人機組略低。組內評分差異的“最大值”,兩者雖然都達到10分以上,但通過“中位數(shù)”和“眾數(shù)”可知,差異值小于等于1分的數(shù)據(jù)占多數(shù)。表4也顯示,分差在1.5分以內的評分在兩組的占比均接近70%,而分差大于等于4分的占比不到5%。
(二)評分相關系數(shù)的比較
兩個初始評分的相關系數(shù)是反映評分一致性的另一項重要指標。普通話水平測試屬于主觀性測試[3](P101),依據(jù)被測人的語音表現(xiàn)來評定其能力水平。人工評測可能會因聽測能力、標準把握、心理和生理等多種因素的影響而出現(xiàn)評分的不穩(wěn)定。因此,兩名測試員之間或測試員與計算機之間的評分不可能完全同步,而是呈現(xiàn)出非確定的關系。這里主要是利用相關系數(shù)來度量評測者評分的相關程度和相關方向。表5是人機組和人工組評分相關系數(shù)的比較。
相關系數(shù)r是介于-1到1之間的一個數(shù)值。當|r|≥0.8時,認為兩個變量有高度的線性相關性;當0.5≤|r|<0.8時,認為有中度線性相關;當0.3≤|r|<0.5時,認為有低度相關性;當|r|<0.3時,說明兩個變量之間的線性相關關系極弱[4](P191-192)。相關系數(shù)r還只是總體相關系數(shù)的近似值,它能否說明總體的相關程度還需要結合樣本相關系數(shù)的顯著性檢驗進行考察,如果檢驗結果低于給定的顯著性水平,則表示相關性顯著。表5顯示,人機組和人工組的相關系數(shù)都屬于中度線性相關。我們按0.01顯著性水平檢驗,顯示兩組的相關性均達到了統(tǒng)計學意義上的顯著水平。雖然兩組都處于中度相關水平區(qū)域,但人機組的數(shù)值臨近低度相關,人工組接近高度相關,人機組相關系數(shù)明顯低于人工組。
(三)人機組內部評分分布的比較
人機組相關系數(shù)低于人工組,說明機評系統(tǒng)與測試員1在有些評分上存在較為明顯的不一致性。這種不一致具體表現(xiàn)在哪里?兩者的評分分布可以提供分析依據(jù)。表6是人機組機評分和測試員1評分分布情況的對比,圖1為表6數(shù)據(jù)的曲線示意圖;表7是人機組機評和測試員1各自的總平均分及在不同成績等級的平均分。
表6顯示,機評給出35分以上高分126個,測試員1給出458個;機評給出29.5分以下低分122個,測試員1給出281個。機評分35分以上高分和29.5分以下低分的數(shù)量明顯少于測試員1。圖1則直觀地顯示了兩者分數(shù)的分布,機評分在高分段和低分段的數(shù)量較少,評分有向中間分數(shù)段集中的傾向。
表7對比了機評和測試員1的總平均分及在各等級的平均分,同樣揭示了上述傾向。兩者總平均分幾乎相同,但在不同成績等級的平均分卻并不一致。一級乙等中,機評分明顯低于測試員1;二級甲等中,兩者趨于一致;從二級乙等開始到三級乙等,機評分逐漸高于測試員1,并且隨著等級的降低而差距逐漸擴大。
三、人機評測復審評分結果的統(tǒng)計分析
(一)機評、測試員1、測試員2的評測結果比較分析
初始評分數(shù)據(jù)可以從全局角度考察“說話”項的計算機評測狀況,而復審數(shù)據(jù)則為深入分析提供了新的視角。偏差復審是測試管理中矯正評分偏差的重要手段?,F(xiàn)將參與初評的機評系統(tǒng)、測試員1和參與復審的測試員2三者之間的評分差異、評分相關系數(shù)進行比較,分析大分差數(shù)據(jù)中它們各自的評分信度。我們從復審樣本中隨機抽取125份初始評分差異值≥4分的樣本作進一步考察。復審測試員2的成績來自兩名測試員,一名國測、一名省測,兩人均長期從事普通話教學和測試工作。表8、表9為機評系統(tǒng)、測試員1、測試員2相互之間評分差異和評分相關系數(shù)的統(tǒng)計。
表8顯示,“機評—測試員2”和“測試員1—測試員2”的組內分差在中位數(shù)、眾數(shù)、平均值各項均明顯小于“機評—測試員1”。由此可見,復審測試員2評分的準確性顯著高于初評測試員和機評系統(tǒng)。表9顯示,“機評—測試員1”的評分出現(xiàn)負相關,雖然顯著性不強,但同樣能說明“機評”和“測試員1”中至少有一方的評分存在問題。“機評—測試員2”的相關系數(shù)高于“測試員1—測試員2”,這與初始評分中人工組相關系數(shù)高于人機組的總體情況并不一致。據(jù)此可以推測,在大分差樣本中,機評系統(tǒng)評分的穩(wěn)定性、準確性較高。
需要指出的是,機評系統(tǒng)的評分偏誤同樣存在。據(jù)統(tǒng)計,復審樣本中仍有31.2%是測試員1、測試員2評分接近而與機評分偏離較大。對于機評系統(tǒng)而言,復審樣本中發(fā)現(xiàn)的問題有可能在全體樣本的初始評分中就已存在,應引起充分重視。
(二)復審樣本的個案分析
復審后考生的最終成績取三個評分中兩個相近分值的平均值,這一規(guī)則的依據(jù)是相近評分的可信度較高,而偏差較大的評分可能會存在偏誤。這樣的預判與事實是否一致?評測偏誤一方的問題可能在哪里?我們按照分值接近這一標準將樣本分成兩組進行了再次復聽。
第一組是機評分與測試員2接近的68個樣本錄音。通過復聽證實,機評分和測試員2的評分更加合理,而測試員1存在明顯偏誤。測試員1的偏誤主要集中在兩個方面:一是對缺時的計算不夠準確,尤其對說話時中斷多次的缺時計算扣分偏少;二是對語音面貌的評判有失誤,評分有較大偏差。這一印象也可以通過比較考生前三項與第四項得分的相關性得到驗證。例如:某考生前三項得分46.09分,按照前三項分值所占比例測算,該考生的總成績應該低于80分。機評和測試員2對該考生“說話”項扣分均在10分以上,而測試員1僅扣6分。測試員1的評分不僅與機評、測試員2很不一致,也與考生前三項的成績倒掛,這足以說明測試員1對語音面貌的評測存在偏誤。
第二組是測試員1、測試員2評分相近而機評分偏離較大的39份樣本。通過復聽可以證實,機評分存在明顯偏誤。表10選取了6個典型案例進行描述(見下頁)。
以上案例反映出機評系統(tǒng)的評測偏誤主要有以下三種類型:
第一,“語音規(guī)范程度”評測偏誤。表中第一類的前兩例除“語音”項需要扣分,其他5項均無需扣分。案例(1)考生某一類語音錯誤或缺陷比較嚴重。案例(2)考生方言口音明顯,語音錯誤類別在兩類及以上,錯誤數(shù)量較多。機評對這兩名考生少扣3—4分。案例(3)則相反,考生語音面貌較好,但或因錄音質量問題而被過度扣分。
第二,“缺時”與“語音規(guī)范程度”失誤共存時的評測偏誤。第二類考生的扣分原因除語音不規(guī)范外,還伴有缺時?!叭睍r”和“語音規(guī)范程度”是兩項分列的扣分規(guī)則,如果考生普通話水平相當,伴有缺時的考生得分應低于僅有語音問題的考生。但從案例(4)的機評分推測,機評系統(tǒng)在兩項失誤共存時扣分偏少。
第三,“離題”“無效語料”評測偏誤。第三類考生在“離題”“無效語料”上出現(xiàn)明顯失誤,但機評系統(tǒng)沒有作出有效識別,存在漏判現(xiàn)象?!半x題”“無效語料”是評判說話內容與主題之間相關性的重要規(guī)則,需要機評系統(tǒng)對語義作出準確理解和判斷。從案例(5)、案例(6)的評測結果來看,機評系統(tǒng)對這類現(xiàn)象的識別能力不足,因此造成評判的偏差。
四、“說話”項計算機評測質量的評價與思考
(一)智能評測系統(tǒng)具有較高可信度
“說話”項的自動評測雖然具有一定的復雜性,但依靠人工智能領域的研究成果和日趨成熟的語音識別、語義分析技術,機評系統(tǒng)整體上已經(jīng)達到了測試員的平均評測水平。本文對初始評分的抽樣調查顯示,機評系統(tǒng)替代測試員之后,人機評分差異值的各項指標已經(jīng)達到該測試點人工評測時期的水平。將人機評測的抽樣數(shù)據(jù)與其他考點的人工評測結果比較,可以得出同樣的結論。上海市語言文字水平測試中心2009年和2010年人工評測的組內分差標準差的估計值為1.47和1.53[5](P68),以該考點人工評分差異值的標準差進行估算,“在整個評分過程中,大概會有15%左右的考生,測試員對他們評分的差異會超過3分”[5](P71)。在我們的調查中,人機評測的標準差為1.133,人機評分差異值大于等于3分的只占11.21%。
在復審樣本中,機評系統(tǒng)更是表現(xiàn)出穩(wěn)定的評測性能。初評樣本中人工組評分的相關系數(shù)為0.72,高于人機組的0.53,但復審樣本中測試員1與測試員2之間的評分相關系數(shù)降為0.36,而機評系統(tǒng)與測試員2的相關系數(shù)仍然保持在0.52。這說明,測試員有可能受個人狀態(tài)的影響而出現(xiàn)評分的不穩(wěn)定,而計算機在這方面具有明顯的優(yōu)勢。
(二)對某些語言材料的識別能力仍有欠缺
在初始評分中,雖然人機組評分差異的各項指標與人工組接近,但其相關系數(shù)卻明顯低于人工組。這說明相比人工評測,機評系統(tǒng)與測試員之間存在更多分歧,其中就有因計算機信息處理而引起的評測偏誤。
復聽復審樣本發(fā)現(xiàn),機評系統(tǒng)對某些語音錯誤和缺陷存在明顯誤判,僅我們觀察到的就有兩類。一類是對平翹舌音錯誤和缺陷的評判。這類考生的普通話存在舌尖后音明顯偏前,或平翹舌混讀同時伴有r讀作l的現(xiàn)象。測試員對此一般都能明顯感知并作出準確評判,而機評系統(tǒng)漏判較多。另一類是對明顯具有粵方言口音的評判。這類問題人耳同樣容易聽辨,但機評系統(tǒng)扣分明顯偏少。
復審樣本中,還有一定比例的評測偏誤表現(xiàn)為計算機對說話中“離題”“無效語料”等現(xiàn)象無法有效識別,致使考生的錯誤沒能在評分中得到體現(xiàn)。如一位考生在講述“我的朋友”時,將歷史上的一位革命領袖說成自己的朋友,并杜撰了共同參加戰(zhàn)爭的經(jīng)歷。對于如此離奇的編造,評分中只有“離題”一項可以反映,人工評測很容易判斷出謬誤,而計算機卻未能識別,造成“離題”項的漏判。語義理解方面的缺陷反映出計算機在常識學習與歸納推理方面的能力亟待提高[6](P24)。
人工智能的近期研究目標在于研究用機器來模仿和執(zhí)行人腦的某些智力功能[7](P18),但在進行智能信息處理時,人和計算機可以用不同的原理和方式進行活動[7](P13)。測試員對語音的評測建立在人耳聽辨的語感基礎上,而計算機的評測則是以聲學建模、預測算法等為基礎。數(shù)據(jù)學習表現(xiàn)的是統(tǒng)計頻率,不是因果關系,不是客觀規(guī)律[8](P3)。因此,計算機評測雖然在客觀性、穩(wěn)定性上會優(yōu)于人工評測,但一旦信息處理系統(tǒng)的設計存在某些缺陷,它在某一類甚至某幾類問題上的評測準確性以及對待各類考生的公平性都會受到影響。
(三)對不同水平等級的評測尺度不夠統(tǒng)一
4195份人機初評樣本顯示,機評35分以上的高分和29.5分以下的低分的數(shù)量明顯少于測試員1,分值有向中間集中的趨勢。結合成績等級考察發(fā)現(xiàn),機評與測試員1的總平均分幾乎相同,但在不同等級的評測結果卻有差別,機評分呈現(xiàn)出高等級評測嚴格、中低等級評測寬松的特點。我們在機評偏誤的39份錄音中也發(fā)現(xiàn),機評分顯著偏高的31個樣本中,二級甲等只有1個,其余均為二級乙等與三級甲等,這也再次印證了機評在中低等級存在寬容評測的傾向。
以上情況說明,對于不同普通話水平的考生群體,機評系統(tǒng)的評測尺度具有一定差異??傮w而言,對一級以上的高水平考生評分偏低,對二級乙等及以下的中低水平考生評分偏高,其評測體現(xiàn)出寬嚴不一的特點。機評分的這一表現(xiàn),反映了機評系統(tǒng)對語音面貌較好的高分考生和口音較重的中低分考生的評測還不夠準確,識別能力尚有不足。雖然這類偏誤程度較輕,但同樣會造成一部分考生的測試成績與實際水平相偏離,在一定程度上影響了測試的信度與測試結果的公平公正。
總的來看,提高評測的自動化程度是普通話水平測試走向現(xiàn)代化、科學化的必然需求,而自動化評測的生命力主要體現(xiàn)在評測的效率和評測結果的可信度。我們需要在廣泛的評測實踐中不斷反饋信息、檢驗結果,發(fā)現(xiàn)計算機評測的偏誤,優(yōu)化評測系統(tǒng)的性能。普通話水平測試“命題說話”項采用人機合作評分的模式,恰好為我們提供了人機數(shù)據(jù)互證的條件。通過人機評分數(shù)據(jù)的對比、分析、論證,我們得以從宏觀和微觀兩個層面審視計算機評測質量的總體面貌及存在的問題?!罢f話”項的機評質量在總體上達到了人工評測的水平,但人機評測的相關性仍然明顯低于人工評測,反映出機評系統(tǒng)的評測能力尚有某些不足。語音識別能力強而語義理解能力弱;面對不同水平程度的考生,評分寬嚴尺度還難以高度一致;對某些方言口音的感知還不夠敏銳;錄音背景噪音對評分產(chǎn)生的干擾也不能完全避免。上述問題都反映出智能語音評測技術和評測系統(tǒng)設計尚有繼續(xù)完善的空間,有必要在自然語言的深度理解、高質量的語音數(shù)據(jù)庫建設與算法的優(yōu)化等方面作出進一步的探索與改進??梢哉f,計算機智能只有在與人類的合作中才能不斷提高,本文的討論主要是基于語言學的知識和測試員對評分規(guī)則的把握,但分析的現(xiàn)象及揭示的問題能為進一步完善計算機評測系統(tǒng)提供參考。
參考文獻:
[1]王暉,曹昭,云天驕.普通話水平測試發(fā)展歷程的分期[J].語言文字應用,2013,(3).
[2]教育部語言應用管理司.計算機輔助普通話水平測試評分試行辦法[S].2009-01-09.
[3]宋欣橋.普通話水平測試員實用手冊(增訂本)[M].北京:商務印書館,2005.
[4]張瑜,牟曉云,等.統(tǒng)計學原理與應用[M].南京:東南大學出版社,2014.
[5]趙偉國,喬麗華,王頤嘉,等.普通話水平測試的評分誤差的影響分析[J].語言文字應用,2012,(S1).
[6]宗成慶.中文信息處理研究現(xiàn)狀分析[J].語言戰(zhàn)略研究, 2016,(6).
[7]蔡自興,等.人工智能及其應用(第5版)[M].北京:清華大學出版社,2016.
[8]李宇明.計算機正改變著我們的語言生活[J].韓山師范學院學報,2020,(1).