俞顯
隨著深度學習、自動化語義分析、多模態(tài)分析技術(shù)等人工智能技術(shù)的發(fā)展以及語言綜合運用能力測評的現(xiàn)實需求,基于智能測評技術(shù)開展大規(guī)模語言聽說能力測評受到越來越多的關注。目前,智能語音測評技術(shù)在語言綜合能力測評中已經(jīng)有較多的成熟案例,如國際上的托福、雅思等語言能力認定考試,國內(nèi)部分省市的中考、高考、學考的英語聽說能力測試等,從考試到評分均采用人工智能。中考英語聽力口語測試引入機考(以下簡稱“人機對話”),特別是新增口語考試模塊后,考試內(nèi)容和形式的變化勢必會對英語學習帶來影響,中考生對這項改革的感知和認可程度將成為人機對話能否有效開展的關鍵因素,當前尚缺乏這方面的實踐研究。為此,本研究在S市范圍內(nèi)以分層隨機抽樣的方法就中考生對人機對話的認知和態(tài)度開展調(diào)查,以期為相關研究提供實證參考。
以分層隨機抽樣的方式在S市內(nèi)抽取14所高中學校,研究對象是參加中考人機對話的初中畢業(yè)生(該批學生已升入高一)。調(diào)查活動以網(wǎng)絡調(diào)查問卷形式開展,共回收問卷2165份,其中有效問卷2150份,有效率為99.31%。性別上,男生1057人(49.16%),女生 1093 人(50.84%);所在區(qū)域,農(nóng)村101人(4.70%),鄉(xiāng)鎮(zhèn) 882人(41.02%),中心城區(qū)1167人(54.28%)。
對有關文獻進行檢索和分析,初步總結(jié)中考生對智能語音測評技術(shù)應用的感知影響因素,并借鑒已有的英語口語測試研究成果[1-2],形成了調(diào)查問卷。內(nèi)容分為基本信息和調(diào)查主題兩部分,調(diào)查主題涉及感知程度選擇時采用李克特5點等級量表,按照程度由低到高排列,即很不滿意(1)到很滿意(5)賦值。經(jīng)過試測和調(diào)整,采用SPSS對數(shù)據(jù)進行處理,調(diào)查的4個維度的Cronbach’s alpha系數(shù)介于0.718到0.826,整份問卷問卷的Cronbach’s alpha系數(shù)0.796,問卷信度達到測量要求。效度方面,問卷的形成過程中采用德爾菲法多輪專家征詢,問卷內(nèi)容效度具有較好保證;結(jié)構(gòu)效度上,采用因子分析法,KMO值為0.916,Bartlett球形檢驗的近似卡方分布為279.721,相伴概率p<0.05,適合做因素分析,獲得4個因子并且方差解釋量為89.762%,說明問卷具有較好的結(jié)構(gòu)效度。所有數(shù)據(jù)采用SPSS21.0處理。
S市中考英語人機對話采用智能語音測評技術(shù)支持,包括考務編排、試題制作和考生作答結(jié)果評分在內(nèi)的所有考試環(huán)節(jié)均采用計算機自動化處理。在綜合考慮計算機數(shù)量和考試風險管控后,測試采用分時段按批次進行。出于保密的要求,不同時段的測試采用不同的試卷。試卷分聽力和口語兩部分。
總體感知調(diào)查結(jié)果顯示,中考生對人機對話的總體感知均值為4.11,呈較滿意水平。進一步對總體感知得分與中考生性別、常住區(qū)域進行獨立樣本T檢驗或方差分析發(fā)現(xiàn),在中考生性別 (t=-3.38,p<0.05)和常住區(qū)域(F=4.37,P<0.05)上存在顯著性差異,從感知程度均值上看女生高于男生,而LSD事后多重比較顯示鄉(xiāng)鎮(zhèn)考生和城市、農(nóng)村考生均存在顯著性差異且在三類區(qū)域中感知程度最高。
從性別上看,可能由于女生在語言學習的動機、生理、認知能力上存在優(yōu)勢,相應地獲得更多的學業(yè)成就[3],從而加強了女生對人機對話的信心。從區(qū)域性質(zhì)上看,調(diào)查結(jié)果顯示,對鄉(xiāng)鎮(zhèn)考生而言,相較于農(nóng)村考生其擁更多的學習資源和工具,能較有效地支持自身的語言學習;而相比城市考生,在以升學率作為主要教學考核指標的情況下,低難度的人機對話試題為鄉(xiāng)鎮(zhèn)考生通過投入更多的時間和精力從而縮小與城市考生的差距提供更大的可能,這些可能是鄉(xiāng)鎮(zhèn)考生整體滿意度高的原因。
人機對話考試能否有效考查出考生真實的英語聽說能力、考生是否適應人機對話形式是影響考生對人機對話滿意度的重要內(nèi)容之一。調(diào)查從人機對話考試內(nèi)容與課程標準一致性程度、人機對話考查學生英語聽說能力的層次、考生對人機對話形式的適應度等方面展開。調(diào)查結(jié)果顯示,中考生對人機對話內(nèi)容和形式的總體較為認可,滿意度均值為3.42。具體來看,對人機對話考試內(nèi)容體現(xiàn)所學內(nèi)容的程度有63.90%的考生表示滿意,但有將近1/4的中考生持不滿意的態(tài)度;而從中考生人機對話考試形式的適應度上看,有將近一半的考生表示適應,但近35%的中考生適應度為一般。進一步對人機對話考試內(nèi)容和形式的滿意度總體得分與考生性別、常住區(qū)域進行獨立樣本T檢驗或方差分析發(fā)現(xiàn),在考生性別上不存在顯著性差異(t=-0.766,p>0.05);在常住區(qū)域上存在顯著性差異 (F=3.761,P<0.05),經(jīng)過LSD事后多重比較發(fā)現(xiàn)城市考生與鄉(xiāng)鎮(zhèn)考生在滿意度上存在顯著性差異,且鄉(xiāng)鎮(zhèn)考生的滿意度高于城市考生。
從對考試的形式和內(nèi)容的滿意度上看,考生的整體的滿意度不高,呈中等略偏上。筆者分析,由于新增口語模塊和新的考試形式,考慮到中考英語的難度穩(wěn)定性和人機對話的接受度,通過縮小考試內(nèi)容的廣度和深度并降低話題難度來應對考試形式變化給考生帶來的額外的身心負荷是常見的命題技術(shù)。但這一做法可能會帶來一些負面效果從而影響考生對考試的滿意度:一方面試題難度降低對高水平考生存在不公平,低區(qū)分度試題無法讓其在競爭性考試中發(fā)揮優(yōu)勢;二是通過降低試題難度來規(guī)避由于考試形式變化而引起的考試難度“不穩(wěn)定”的風險,實際的效果并不理想,這是因為命題專家往往無法在考試形式改變引起的試題難度“變化量”和實際試卷難度“降低幅度”之間做出有效的判斷;此外,由于智能測評技術(shù)的局限,導致考試內(nèi)容和形式為適應技術(shù)而做“削減式”的調(diào)整,在一定程度上違背了考試對考生真實能力考查的原有規(guī)律。
難度作為評價試題質(zhì)量的一個重要的技術(shù)指標,直接影響測試功能的實現(xiàn)[4]。從考試的社會屬性上講,大規(guī)模高利害考試的難度異??赡軙|發(fā)社會群體事件而影響社會穩(wěn)定,因此考試難度的把握至關重要。研究設置4題,主要涵蓋中考生對整個考試難度感知、對不同時段不同批次試卷難度的感知。試題的難度方面,34.70%的中考生認為人機對話難度適中,58.25%的認為試卷較容易或很容易。總體而言,絕大部分中考生認為試卷較容易,這與考試難度設計要求達到0.80-0.85之間的要求吻合。試卷難度等值方面,有32.22%的中考生認為人機對話不同批次試卷的難度等值情況不容樂觀,僅有37.87%的中考生認為不同批次試題的難度基本等值。進一步分析發(fā)現(xiàn),在性別上中考生對試題難度等值的認知程度沒有顯著性差異(t=-1.437,p>0.05),不同區(qū)域的中考生對試題難度等值的認知程度沒有顯著性差異(F=0.576,p>0.05)。
中考具有“兩考合一”的屬性,試題難度設計需綜合考慮標準參照與常模參照的要求,而人機對話需要兼顧考試形式變化和激發(fā)考生的學習積極性,所以難度往往偏向容易。難度等值方面,每位考生只作答一套試卷,其他批次的試卷對其保密。但考試分數(shù)公布后,同一批次的考生、同一個班級日常語言學習成績相近的考生會互相對比,從而感知自己批次試卷和其他批次試卷的難度情況。需要明確的是,考后數(shù)據(jù)顯示該年各批次試卷之間的難度基本均衡,然而考后難度均衡的結(jié)論與考生感知試卷難度等值差異大的情況呈較大的反差。可能的原因是,一是各套試卷難度是通過均值除以滿分來計算的,在教育統(tǒng)計中均值是常用的集中量,但易受極值影響,在轉(zhuǎn)換成難度系數(shù)時往往忽略配合標準差進行數(shù)據(jù)解讀,從而掩蓋了數(shù)據(jù)描繪全景事實的情況;二是由于中考屬于高利害競爭性考試,部分考生在考試中發(fā)揮“失常”會將考試矛盾引向考試形式的改變,從而在考生群體間營造了一種考試難度差異大的“責難”氛圍并在考生群體間蔓延,這些情況應當引起重視。
嚴謹規(guī)范的考試組織是保證考試公平的基礎,也是考試順利實施的基本保障。調(diào)查從考務組織流程和考試物理環(huán)境兩個方面展開??荚嚱M織流程方面,9.81%的中考生認為人機對話考務組織不太合理規(guī)范,9.24%的中考生不了解具體情況,54.16%選擇基本合理規(guī)范,26.79%選擇完全合理規(guī)范,可以發(fā)現(xiàn)將近80.95%的中考生認可人機對話的考務組織。在考試物理環(huán)境的保障上,調(diào)查對象群體均值為3.42,對人機對話物理環(huán)境持較為肯定的態(tài)度。進一步分析發(fā)現(xiàn),男女生在考試物理環(huán)境的保障上呈顯著性差異(t=-2.064,p<0.05),女生對考試物理環(huán)境更為認可;從不同區(qū)域看,城市中考生與鄉(xiāng)鎮(zhèn)中考生、農(nóng)村中考生在考試物理環(huán)境的滿意度上呈顯著性差異(F=17.307,P<0.05),城市中考生得分均值最低。
從S市的經(jīng)驗上看,人機對話從啟動開始,先后進行了可行性論證、案例學校實地考察、仿真考試評比、模擬考試等環(huán)節(jié),在不同環(huán)節(jié)緊緊圍繞“安全考試、服務學生”的精細化施考理念,設計和優(yōu)化了一系列考務組織管理工作。但由于各個考點建設受資金投入的影響,存在考試計算機新舊、考場加裝隔板、機房布線改造等軟硬件不一致的客觀情況。從性別上看,相較于男生,女生可能更關注考試本身,對考試的支持環(huán)境并不太在意。從某種程度上說,城市學校的軟硬件環(huán)境一般會優(yōu)于農(nóng)村學校,如果考試物理環(huán)境與日常練習的環(huán)境有較大差異時,可能會對城市考生造成一定的影響。
利用信息技術(shù)支持教與學活動是教育領域關注的熱點話題。教育考試信息化已經(jīng)成為考試專業(yè)能力發(fā)展、提高考試服務滿意度的重要手段,其中扮演重要角色的是考試信息軟件的設計與應用。研究從考試軟件運行穩(wěn)定性、頁面布局合理性、文字設計規(guī)范性、提示信息適切性、語音語料流暢性等直接影響考生應考體驗的角度入手,調(diào)查中考生對考試軟件的滿意度的感知。結(jié)果顯示,滿意度均值為4.16,總體持較為滿意的態(tài)度。進一步分析發(fā)現(xiàn),男女生在軟件設計的滿意度感知上存在顯著性差異 (t=-4.967,p<0.05),從均值上看,男生的滿意度低于女生。在常住區(qū)域因素上做方差分析發(fā)現(xiàn),不同區(qū)域的中考生的滿意度感知在統(tǒng)計學意義上存在顯著性差異 (F=6.061,P<0.05),LSD 事后多重比較結(jié)果顯示,農(nóng)村中考生與城市、鄉(xiāng)鎮(zhèn)中考生均存在顯著性差異,從均值上看農(nóng)村中考生得分最低。
圖1 中考生對考試軟件的滿意度分布情況
與相關的研究結(jié)論類似,相較女生,男生在日常學習和生活中對數(shù)碼、軟件等信息產(chǎn)品更感興趣,接觸軟件產(chǎn)品的機會和愿望更多,基于自己的體驗對軟件產(chǎn)品的優(yōu)劣有著更為明晰的判斷[5]。此外,從考生區(qū)域來源上看,農(nóng)村中考生相對來說整體的信息素養(yǎng)偏低,新信息產(chǎn)品的考試應用可能會對其造成一定的壓力,從而影響了農(nóng)村中考生對信息產(chǎn)品體驗的滿意度。可以說,考生的信息素養(yǎng)作為非語用能力卻直接影響了考生對人機對話的反應,這一現(xiàn)象在日常聽力口語教學活動中需要引起重視。
信息技術(shù)與大規(guī)模高利害考試深度融合是教育考試信息化發(fā)展的重要議題,而信息技術(shù)與教育考試融合的質(zhì)量直接決定應用主體(學校、教師、學生等)滿意度的感知。為進一步提高考生對人機對話的滿意度,提出以下建議。
項目功能差異分析是用來檢測測試工具對目標群體是否公平的有力手段[6]。調(diào)查顯示,在滿意度的影響因素上,不同性別、區(qū)域的學生往往表現(xiàn)出較大的差異。因此在設計試題的過程中,要充分考慮不同學生群體的學習體驗和生活經(jīng)歷,盡力消減非考試目標因素的干擾。當然,在項目功能差異分析的實際應用過程中,要注重混合式方法的運用,即在使用統(tǒng)計方法分析項目功能差異的同時,還需要對存在項目功能差異的項目進行深入的質(zhì)性分析,尋找造成項目功能差異的可能原因[7],既要知其然,更要知其所以然,只有這樣才能確??荚図椖康馁|(zhì)量,維護考試公平公正。而考生的信息素養(yǎng)分布情況、人機對話給考生帶來的心理負荷情況、試題話題廣度和深度等維度是后期教學和命題應該重點關注的內(nèi)容。
考試等值問題本質(zhì)上是考試難度控制問題。傳統(tǒng)的試卷難度易受命題專家個人業(yè)務能力、命題偏好的影響,試卷難度的穩(wěn)定性難以保證?!耙豢级嗑怼钡娜藱C對話對各套試卷難度的等值有著嚴格的要求。從已有的研究成果看,依托項目反應理論設置試卷之間的錨題機制,構(gòu)建試卷等值的同一測量尺度,以解決“一考多卷”難度等值問題是當前主流的實踐[8],但在我國高利害考試中往往難以實施。筆者認為要改善這一困境,一是要優(yōu)化命題機制,即在保證考試公平和考務有效組織的前提下,減少試卷的數(shù)量和修訂考試內(nèi)容,如通過增加考場壓縮考試天數(shù)、口語“語篇朗讀”部分可采用教材上的內(nèi)容等。二是不同試卷成績的報告采用等級賦分的原則[9],等級賦分的初衷是解決不同學科、不同批次考試難度不一致導致成績?nèi)狈杀刃院屠奂有缘膯栴} (不考慮學科屬性),當然實踐中還有一些需要注意的技術(shù)問題。長期來看,構(gòu)建基于等值技術(shù)的試題庫建設依然是解決此類問題的主要方法,期待這一方面在實踐應用中有更深入的突破。
精細化管理是工業(yè)生產(chǎn)過程中,為了提高管理質(zhì)量和效率而形成的管理理念[10]??紕站毣倪^程是考務管理體系化、標準化、規(guī)范化的過程。人機對話相較于傳統(tǒng)紙筆測試,面臨更多的考務管理環(huán)節(jié),需要防控更多的風險點。開展人機對話考務精細化管理,建立體系化、標準化、規(guī)范化的精細化管理方案是人機對話考試安全和穩(wěn)定的內(nèi)在要求??偟膩碇v,人機對話精細化管理方案要遵循繼承性、發(fā)展性和預見性原則。繼承性是要充分歸納考試管理的普遍規(guī)律,這是設計人機對話精細化管理的“基柱”。發(fā)展性是指要注重人機對話考務管理的獨有特點,避免考務管理“經(jīng)驗主義”的陷阱。在實施人機對話的過程中,要防控更多的風險點,風險的防控在于預測風險發(fā)生的概率和破壞的程度,因此人機對話精細化管理方案必須要具有預見性。與精細化考務管理內(nèi)在把控考務風險對應的是外在的考試環(huán)境的呈現(xiàn),包括考試的流程設計、環(huán)境構(gòu)建、服務支持等等,都需要按照精細化考務管理的原則實施。
人機對話是借助智能語音測評技術(shù)實施的新的考試形式,是信息技術(shù)教育應用的重要組成部分,提高用戶體驗、增加語言考試的情境性至關重要。一是考試軟件優(yōu)化,在充分調(diào)研考生的認知和需求的基礎上,分析學生的個性特征和學習風格,提高考試軟件的交互性體驗;二是促進考試軟件與考試內(nèi)容和形式的深度融合,融合不是簡單將紙質(zhì)的考試內(nèi)容復制到電腦軟件中,而是要全面分析紙質(zhì)考試對考試內(nèi)容呈現(xiàn)的不足以及考試軟件對傳統(tǒng)考試內(nèi)容的呈現(xiàn)優(yōu)勢,明確考試目標、考試內(nèi)容、考試形式、考生認知特點,遵循多媒體軟件設計原則[11],積極探索多媒體環(huán)境下的考試;三是注重考生信息素養(yǎng)的發(fā)展,本次調(diào)查顯示有將近85%的學生利用手機進行日常人機對話練習,如何正確引導學生使用信息設備支持學習、發(fā)展學生的信息素養(yǎng)是當前不可回避的重要的教學問題;四是利用信息技術(shù)縮小城鄉(xiāng)學生之間的英語聽說能力差距,發(fā)揮信息技術(shù)在學習資源、學習反饋、傳播方式等方面的優(yōu)勢,為優(yōu)化鄉(xiāng)村學生的語言學習環(huán)境、轉(zhuǎn)變學習方式和學習結(jié)果反饋方式提供有力條件[12]。