魏瓊?cè)A
摘 要:隨著語音識別技術(shù)的應(yīng)用,出現(xiàn)了一種新的可能性,即在與英美外籍人士交流時,可以使用語音識別技術(shù)對話的同時在手機顯示對應(yīng)的英文文本,這將顯著減小交流的障礙。本文將這種新的模式應(yīng)用于大學(xué)英語聽力教學(xué)中并進行定量評估,通過實驗證明基于語音識別的大學(xué)英語聽力教學(xué)模式可以更有效提高學(xué)生的英語聽力成績,這有助于學(xué)生樹立信心,提高學(xué)習(xí)興趣,達到良好的學(xué)習(xí)效果。
關(guān)鍵詞:語音識別;大學(xué)英語;聽力教學(xué)
中圖分類號:H319.9 文獻標識碼:A 文章編號:2096-3866(2020)24-0-02
近年來,以深度學(xué)習(xí)為代表的人工智能飛速發(fā)展,各種軟件和功能不斷出現(xiàn)。其中不少深度學(xué)習(xí)的應(yīng)用和英語教學(xué)密切相關(guān)。在聽的方面,語音識別已經(jīng)取得了長足的進展,準確率不斷提高。說的方面則更為簡單,語音合成技術(shù)已經(jīng)非常成熟,除了有時有語調(diào)或者斷句之類的小問題,根據(jù)文本的自動語音合成效果已經(jīng)可以和真人比擬。使用深度學(xué)習(xí)的翻譯機則表現(xiàn)了讀寫方面的能力,在注意力機制出現(xiàn)之前,RNN曾經(jīng)取得了不少令人矚目的結(jié)果,在注意力機制和BERT出現(xiàn)之后,翻譯水平進一步提高。不僅如此,人工智能也可以用來做文甚至寫詩,還出現(xiàn)了能夠看圖做文的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[1]。這些成果都表明,過去需要枯燥學(xué)習(xí)和長期積累才能獲得的語言能力,可以使用人工智能輕易地獲得。這將給英語教學(xué)帶來天翻地覆的變化。
不過,盡管人工智能已經(jīng)取得了豐碩的成果,但是其不同領(lǐng)域的表現(xiàn)仍存在差異,特別是在機器翻譯方面,由于語言可以被用來表述不同專業(yè)領(lǐng)域的知識,使用語言時可能還有暗喻/典故/傾向/背景等很多因素的影響,所以機器翻譯還難以在所有領(lǐng)域代替人工翻譯。這一問題在可預(yù)見的將來(數(shù)十年內(nèi))應(yīng)該也不會改變。相比之下,語音識別的表現(xiàn)則略勝一籌,其誤差主要來自背景噪音。在信噪比較高的場合,語音識別的正確率可以相當高??紤]到中國學(xué)生的英語能力有一個突出的特點,就是讀寫較好而聽說卻差強人意,所以在需要和英美人士交流的場合出現(xiàn)一種新的可能性:語音識別軟件將英語語音轉(zhuǎn)換為英語文本并顯示給國人,從而方便一個方向的交流。當然,語音識別對反向的交流沒有幫助(外籍人士不可能閱讀中文文本),但語言交流的另外一個特點是,母語人士會很輕易地理解非母語人士說出的話。所以反向交流障礙會小很多?;谶@些特點,將出現(xiàn)全新的涉外交流模式。
隨著社會國際化的不斷發(fā)展,在大學(xué)英語教學(xué)中,各高校越來越重視學(xué)生聽說能力的培養(yǎng),但是實際的教學(xué)效果不容樂觀,因而,本文將通過具體的實證研究,對將語音識別應(yīng)用于大學(xué)英語聽力教學(xué)的效果進行探討和評價。
一、語音識別技術(shù)
語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進行分類,進而依據(jù)判定準則找出最佳匹配結(jié)果。語音識別技術(shù)已經(jīng)經(jīng)過了幾十年的發(fā)展,曾經(jīng)使用過的技術(shù)包括支持向量機、BP人工神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶模塊(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等[2]。其中,LSTM、CNN ?等技術(shù)都基于深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)技術(shù)自 2009 年興起之后,已經(jīng)取得了長足進步,語音識別的準確率也隨之同步提高。目前,語音識別的精度和速度取決于實際應(yīng)用環(huán)境,但在安靜環(huán)境、標準口音、常見詞匯場景下的語音識別率已經(jīng)超過 95%,意味著具備了與人類相仿的語言識別能力。隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場景下的語音識別也達到了可用狀態(tài),特別是遠場語音識別已經(jīng)隨著智能音箱的興起成為全球消費電子領(lǐng)域應(yīng)用最為成功的技術(shù)之一。
當然,當前技術(shù)還存在很多不足,如對于強噪聲、超遠場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升;不過,在需要和外籍人士交流的場合,一般都可以保證相對安靜的環(huán)境和較高的信噪比,不會有太大的干擾,所以這些障礙一般不會表現(xiàn)出來。
二、實驗方案與結(jié)果
(一)研究假設(shè)與對象
本研究的主要目的是檢驗語音識別是否能夠?qū)邆湎喈斢⒄Z讀寫能力的學(xué)生提高聽力水平,能夠提高多少。研究對象為河南中醫(yī)藥大學(xué)2018級非英語專業(yè)本科生80人,由于考慮到英語成績太差的學(xué)生看字幕可能有困難,而成績優(yōu)秀的學(xué)生語音識別作用不明顯,選取的80位同學(xué)在2019年春季期末英語考試成績均在60分至75分之間,將這80人隨機分成實驗組和對照組,兩組均為40人。
(二)研究步驟
本文實驗具體方法:選定聽力語料,對實驗組和對照組進行聽力測試,統(tǒng)計考試成績進行分析。實驗組和對照組的聽力語料相同,實驗區(qū)別在于,實驗組聽力測試的同時在學(xué)生前面的顯示器上顯示語音識別的英文文本。實驗結(jié)束后,對兩組成績核對分布、方差齊性,再進行獨立樣本t檢驗。
在實驗中,首先確定實現(xiàn)語音識別的接口。目前,百度和科大訊飛等公司都提供了中文語音識別接口,但是這些公司更多地關(guān)注中文。相比之下,Google云提供的語音識別引擎不僅提供流式語音識別,還能通過提供提示來定制語音識別功能,以轉(zhuǎn)錄特定領(lǐng)域的術(shù)語和生僻字詞,并提高特定字詞或短語的轉(zhuǎn)錄準確率。所以是我們實驗中選用Google云的引擎。
本文測試選用的語料則為大學(xué)外語題庫中的聽力測試題目,按照常規(guī)考試安排,包含對話理解(60分)和短篇理解(40分)。其中對話理解的難度較低,而短篇理解來自大四聽力考試的題庫。所有題目語音識別的結(jié)果均來自Google云服務(wù)。需要注意的是,盡管Google語音識別的速度很快,但是流式語音識別畢竟要搜集到一段話后才能結(jié)合上下文給出語音識別結(jié)果,表現(xiàn)為語音識別給出的文本會滯后于語音發(fā)生時刻,這一時延一般在5-10秒之間(有時為網(wǎng)絡(luò)延遲),為真實計,在給學(xué)生顯示語音識別結(jié)果時,也同時精確地體現(xiàn)這一時延。這延時正好可以讓學(xué)生評價自己所聽到的內(nèi)容,并且跟隨后的語音識別提供的文本進行對比,找出聽力的不足。此外,語音識別偶然會出錯,對應(yīng)的錯誤文本也不加修改向?qū)W生展示。