呂鳴
(上海市教育考試院,上海 200433)
語音檢測(cè)技術(shù)在高考外語聽說機(jī)考中的應(yīng)用探析
呂鳴
(上海市教育考試院,上海 200433)
本文介紹應(yīng)用語音檢測(cè)技術(shù)實(shí)時(shí)甄別聽說機(jī)考語音異常的方法和策略:先由機(jī)器學(xué)習(xí)異常語音特征,再經(jīng)反復(fù)試驗(yàn),優(yōu)化檢測(cè)組件,最終集成入機(jī)考系統(tǒng)。上海市高考外語聽說機(jī)考的結(jié)果表明,應(yīng)用語音檢測(cè)技術(shù)檢測(cè)聽說機(jī)考語音異常非常有效。
高考;外語聽說測(cè)試;計(jì)算機(jī)輔助考試;語音檢測(cè)技術(shù)
依據(jù)2014年9月頒布的《上海市深化高等學(xué)??荚囌猩C合改革實(shí)施方案》,從2017年起,上海市高考外語考試包括筆試和聽說測(cè)試,聽說測(cè)試部分采用人機(jī)對(duì)話的方式,一年舉行兩次,分別在每年1月和6月。高中生可最多參加兩次外語考試,選擇其中較好的一次成績(jī)計(jì)入高考總分[1]。由于外語聽說測(cè)試納入統(tǒng)一高考,并以多批次人機(jī)對(duì)話方式實(shí)施,使得考試安全管理內(nèi)容變得豐富而復(fù)雜,其重要性和高利害性不言而喻。從以往僅關(guān)注現(xiàn)場(chǎng)考試安全,發(fā)展為硬件環(huán)境的可靠性、考試系統(tǒng)的穩(wěn)定性和現(xiàn)場(chǎng)監(jiān)考的完整性三個(gè)方面,而現(xiàn)場(chǎng)監(jiān)考也分成了候考管理、現(xiàn)場(chǎng)監(jiān)考和留置管理三個(gè)環(huán)節(jié),不僅環(huán)節(jié)增多、人員多樣,還要空間支撐,可以說這已經(jīng)不是原有管理方式或規(guī)則可以涵蓋的[2]。由于前幾年口語機(jī)考均在非標(biāo)準(zhǔn)化考場(chǎng)中進(jìn)行,不同考點(diǎn)的考場(chǎng)環(huán)境各不相同,耳麥的選擇參差不齊,座位間距也各不相同,可能會(huì)因噪聲干擾或設(shè)備故障導(dǎo)致極個(gè)別考生答卷語音異常而影響評(píng)卷。為避免高考外語聽說機(jī)考中因設(shè)備原因?qū)е落浺舢惓?,需要通過技術(shù)手段,在系統(tǒng)收卷過程中實(shí)時(shí)發(fā)現(xiàn)可能的異常,及時(shí)進(jìn)行人為干預(yù),避免考試結(jié)束后某份答卷因錄音問題而影響評(píng)分。
使用2016年上海市普通高中學(xué)業(yè)水平考試英語口語考試中已知的因設(shè)備故障影響評(píng)卷的語音樣本作為訓(xùn)練集,分析并歸類異常類型,提取異常語音的特征,確定語音檢測(cè)組件的檢測(cè)對(duì)象,并初步調(diào)整其各項(xiàng)參數(shù),盡可能多地覆蓋訓(xùn)練集中的異常語音,然后使用調(diào)試過的語音檢測(cè)組件篩選出2013年至2015年所有考生答卷中存在的異常語音,分別與各年度的異常列表進(jìn)行對(duì)比,優(yōu)化語音檢測(cè)組件的各項(xiàng)參數(shù),并將語音檢測(cè)組件集成入機(jī)考系統(tǒng),在隨后的全真模擬考試中測(cè)試其效果,最終應(yīng)用于2017年1月高考外語聽說機(jī)考。
在調(diào)整語音檢測(cè)組件各項(xiàng)參數(shù)前,首先需要對(duì)訓(xùn)練集中的錄音異常樣本進(jìn)行分析,找出可以作為機(jī)器學(xué)習(xí)的對(duì)象。通過對(duì)2016年因設(shè)備故障影響評(píng)卷的16個(gè)異常樣本逐一試聽后發(fā)現(xiàn):其中1個(gè)樣本錄音正常,但答題錯(cuò)位,判斷為考生錯(cuò)拿鄰座耳麥答題造成,不能作為機(jī)器學(xué)習(xí)的對(duì)象;另外1個(gè)樣本錄音時(shí)長(zhǎng)嚴(yán)重不足,需要強(qiáng)化考試系統(tǒng)對(duì)錄音設(shè)備的監(jiān)控,也不能作為機(jī)器學(xué)習(xí)對(duì)象;最終確定有14個(gè)語音樣本可以作為機(jī)器學(xué)習(xí)的對(duì)象。
人工反復(fù)試聽這14個(gè)異常樣本,可以將它們分成無語音、雜音多和信噪比低三大類(見表1)。機(jī)器可以通過分析異常語音樣本的各項(xiàng)物理參數(shù),較為精確地找出這三類異常語音,并通過調(diào)整參數(shù)來實(shí)現(xiàn)判定尺度的松緊。
所有答卷包中的語音文件經(jīng)過語音檢測(cè)組件篩選后,會(huì)生成疑似語音異常列表。將這個(gè)列表與答卷總數(shù)以及各年度已知的因設(shè)備故障影響評(píng)卷的異常列表進(jìn)行關(guān)聯(lián),可得到如下四個(gè)指標(biāo):
報(bào)出數(shù):系統(tǒng)判定為疑似語音異常的樣本個(gè)數(shù)報(bào)出率:(報(bào)出數(shù)/實(shí)考總?cè)藬?shù))×100%
召回?cái)?shù):系統(tǒng)判定為疑似語音異常樣本與該年因設(shè)備故障影響評(píng)卷的樣本交集中的樣本個(gè)數(shù)
召回率:召回?cái)?shù)/該年因設(shè)備故障影響評(píng)卷的樣本數(shù)
在正式考試中,系統(tǒng)判定為疑似語音異常的答卷需要人工逐一小題試聽,因此報(bào)出數(shù)的多少將直接影響到每場(chǎng)考試的正常進(jìn)行。一場(chǎng)考試如果僅有個(gè)別答卷被判定為語音異常,可以安排考生在后續(xù)批次的備用機(jī)上完成重考;但如果有超過5%的考生被判定為語音異常,那將造成重考考生過多而不斷積壓,影響后續(xù)場(chǎng)次考試的進(jìn)行。召回率能直觀地反映語音檢測(cè)組件的準(zhǔn)確性,召回率越高說明語音檢測(cè)異常越準(zhǔn)確。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),召回率與報(bào)出率兩者間強(qiáng)相關(guān),提高召回率將導(dǎo)致報(bào)出率的增加。因此,為了確保語音檢測(cè)組件不影響正??荚囘M(jìn)行,報(bào)出率必須經(jīng)過反復(fù)實(shí)驗(yàn)并控制在一定范圍內(nèi)。
對(duì)于歷年異常列表中沒有被召回的部分,要分析遺漏的原因。如因訓(xùn)練集中缺少某種異常類型,則要將其添加入訓(xùn)練集,逐步提升語音異常檢測(cè)覆蓋的種類;如因檢測(cè)參數(shù)精度設(shè)定不合理,則需要調(diào)整組件參數(shù)。但某些參數(shù)之間存在一定的相關(guān)性,需要綜合考慮如何最大可能地提高檢測(cè)準(zhǔn)確率,同時(shí)降低可能產(chǎn)生的負(fù)面影響,使語音檢測(cè)組件達(dá)到最優(yōu)。
語音檢測(cè)的對(duì)象是單個(gè)語音文件,而整套試卷由12個(gè)小題構(gòu)成,因此每個(gè)考生答卷包中包含12個(gè)語音文件。一份答卷是否存在語音異常,不能簡(jiǎn)單地根據(jù)每小題語音是否存在異常來判定,需要按語音異常類型和題塊類型制定判定策略。經(jīng)調(diào)試后的判定策略為:(1)有任意一個(gè)小題為靜音,則判定該答卷為語音異常。(2)為盡可能降低報(bào)出率,提高召回率,需要將小題語音組合成塊,以降低單個(gè)短語音報(bào)異常的權(quán)重。將12小題組合成4個(gè)題塊,如表2所示。只有題塊中所有語音均異常,才判定該題塊異常。異常的題塊數(shù)大于或等于3個(gè),則判定該答卷為語音異常。
表1 訓(xùn)練集異常情況
將調(diào)試完畢的語音檢測(cè)組件集成入機(jī)考系統(tǒng),原先的收卷流程會(huì)略微發(fā)生變化??荚嚱Y(jié)束自動(dòng)收卷時(shí),答卷包會(huì)首先經(jīng)過語音檢測(cè)組件;如果發(fā)現(xiàn)疑似語音異常,系統(tǒng)會(huì)提示需要人工試聽。試聽后如所有小題錄音聲音或環(huán)境聲音清晰且完整,則判定為有效答卷,不需要重考,點(diǎn)擊“語音正?!焙笸顺鰴z查對(duì)話框;如有任一個(gè)小題的錄音聲音不清晰或不完整,則判定為無效答卷,需要安排考生重考,點(diǎn)擊“語音異常(安排重考)”后退出檢查對(duì)話框。流程如圖1所示。
表2 試卷各題塊情況
圖1 機(jī)考收卷流程圖
使用調(diào)校完畢的語音檢測(cè)組件,對(duì)近四年所有考生答卷中的語音進(jìn)行檢測(cè),測(cè)試效果如表3所示。可以看出,所有未召回樣本中只有一個(gè)是檢測(cè)誤判造成的,其余均由于未滿足判定策略而未被召回。
通過對(duì)每年度所有考點(diǎn)及場(chǎng)次的報(bào)出數(shù)進(jìn)行統(tǒng)計(jì),列出報(bào)出數(shù)最多的前三名(見表4和表5)??梢钥闯?,報(bào)出數(shù)較多集中在固定的幾個(gè)考點(diǎn)中,且每場(chǎng)次報(bào)出數(shù)最高不超過13個(gè),絕大部分考點(diǎn)的報(bào)出數(shù)在合理范圍內(nèi),可以基本忽略對(duì)考試組織的影響。
表3 調(diào)校后的語音檢測(cè)組件測(cè)試效果
語音檢測(cè)的目的就是要在考試現(xiàn)場(chǎng)迅速找出錄音存在異常的答卷,理論上召回率越接近100%越好。但提高召回率勢(shì)必會(huì)大幅增加報(bào)出率,可能會(huì)影響到考試的正常進(jìn)行。從測(cè)試結(jié)果中可以看出,每年均有未被召回的異常。根據(jù)判定策略,只有異常的題塊數(shù)大于或等于3個(gè),才判定該答卷為語音異常,絕大多數(shù)未召回的答卷中題塊異常數(shù)均小于3個(gè),這些考生的答卷會(huì)被系統(tǒng)誤判為“語音正?!?。因此,判定策略還存在改進(jìn)空間,需要通過反復(fù)試驗(yàn)來驗(yàn)證,確保報(bào)出率在正??山邮艿姆秶鷥?nèi)。
表4 2013—2016年按考點(diǎn)統(tǒng)計(jì)報(bào)出數(shù)前三名
表5 2013—2016年按場(chǎng)次統(tǒng)計(jì)報(bào)出數(shù)前三名
目前語音檢測(cè)組件在單個(gè)語音的判定上,還做不到100%的準(zhǔn)確,存在誤判的可能:(1)由于運(yùn)算精度的限制,目前語音檢測(cè)組件對(duì)于波形起伏與正常語音波形接近的異常判定準(zhǔn)確度還有待提高。有時(shí)噪音波形看起來與正常語音的波形很類似,系統(tǒng)會(huì)誤判為正常語音。(2)由于采樣精度的限制,對(duì)于有些語音,從波形上看類似一條直線,應(yīng)判斷為靜音,但經(jīng)放大后便可聽清語音。系統(tǒng)在此類情況下也容易出現(xiàn)誤判。
從以上數(shù)據(jù)分析可以看出,設(shè)備故障和判定策略是目前部分異常答卷未被召回的主要原因。其中,錄音時(shí)間不足的故障已由考試系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控并攔截,可降低因錄音設(shè)備故障導(dǎo)致的未被召回。
調(diào)試完畢的語音檢測(cè)組件最終應(yīng)用于2017年1月高考外語聽說測(cè)試,總報(bào)出疑似語音異常數(shù)241個(gè),占比0.47%。對(duì)所有考點(diǎn)及場(chǎng)次的報(bào)出數(shù)進(jìn)行統(tǒng)計(jì),列出報(bào)出數(shù)最多的前三名(見表6和表7)??梢园l(fā)現(xiàn),單考點(diǎn)、單場(chǎng)次的報(bào)出數(shù)相比往年有明顯下降,且最終所有答卷語音均正常,這得益于首次投入使用的外語聽說測(cè)試標(biāo)準(zhǔn)化考場(chǎng)。標(biāo)準(zhǔn)化考場(chǎng)使用考試專用USB耳機(jī)和全新的品牌電腦,并安裝有可升降式隔斷;采用高指向性拾音麥克風(fēng),當(dāng)距離麥克風(fēng)50 cm以上時(shí),其拾音效果衰減10 dB,盡可能減少采集遠(yuǎn)距離的噪音,提高了錄音效果。另外,在考試過程中,當(dāng)耳機(jī)出現(xiàn)人為拔插時(shí),監(jiān)考端會(huì)產(chǎn)生報(bào)警并記入日志,同時(shí)考試機(jī)退出考試狀態(tài)。這些舉措均能大幅降低設(shè)備的故障率,提高錄音質(zhì)量,確保錄音數(shù)據(jù)的完整性。
表6 2017年1月正式考試按考點(diǎn)統(tǒng)計(jì)報(bào)出數(shù)前三名
表7 2017年1月正式考試按場(chǎng)次統(tǒng)計(jì)報(bào)出數(shù)前三名
通過對(duì)2016年上海市普通高中學(xué)業(yè)水平考試英語口語考試中已知的異常語音進(jìn)行特征提取并由機(jī)器學(xué)習(xí),然后在2013年至2015年所有樣本中進(jìn)行反復(fù)試驗(yàn),不斷優(yōu)化檢測(cè)組件并集成入機(jī)考系統(tǒng),在考試收卷過程中便可將錄音異常的答卷實(shí)時(shí)檢測(cè)出來。2017年1月高考外語聽說機(jī)考首次使用表明,語音檢測(cè)組件能非常有效地檢測(cè)出可疑異常,以便現(xiàn)場(chǎng)進(jìn)行人工處理,最終所有答卷語音均正常。這也得益于外語聽說測(cè)試標(biāo)準(zhǔn)化考場(chǎng)的投入使用,在硬件上確保了可靠性。
由于語音檢測(cè)組件只能針對(duì)目前已知的異常進(jìn)行檢測(cè),在今后的考試中,難免會(huì)出現(xiàn)漏判或者誤判的可能性。因此,需要時(shí)刻對(duì)新的異常樣本保持關(guān)注,遇到新的異常情況,及時(shí)分析是否可以通過技術(shù)手段檢出。同時(shí),還需要不斷改進(jìn)判定策略,提高檢測(cè)的準(zhǔn)確性。
[1]上海市人民政府.上海市深化高等學(xué)??荚囌猩C合改革實(shí)施方案[EB/OL].(2014-09-18)[2017-03-29].http://www.shmec.gov.cn/html/xxgk/201409/420032014012.php.
[2]上海招考熱線.高考也進(jìn)入了計(jì)算機(jī)時(shí)代[EB/OL].(2017-01-15)[2017-03-29].http://www.shmeea.edu.cn/page/17122/20170115/7780.html.
Exploratory Analysis of the Application of Voice Detection Technology in the Computerbased Test of Foreign Language Listening and Speaking for College Entrance
LV Ming
(Shanghai Education Examinations Authority,Shanghai 200433,China)
This article introduces the method and strategy of the application of voice detection technology in realtime screening of abnormal voices for computer-based testing of listening and speaking.To optimize the detection components,which will be ultimately integrated into the computer test system for the live test,the computer learns the abnormal voice features first,which are then confirmed through repeated trials.The result of the computerbased test of foreign language listening and speaking for college entrance in Shanghai shows that the use of the technology to detect abnormal voices is very effective.
College Entrance Examination;Testing Foreign Language Listening and Speaking;Computer-assisted Test;Voice Detection Technology
G405
A
1005-8427(2017)06-0055-5
10.19360/j.cnki.11-3303/g4.2017.06.009
(責(zé)任編輯:陳寧)
呂鳴(1982—),男,上海市教育考試院,工程師。