李剛
摘要:隨著全球語音識別相關(guān)技術(shù)突飛猛進(jìn)的進(jìn)步,各行各業(yè)的智能信息化與語音相關(guān)技術(shù)的融合越來越引起業(yè)界的關(guān)注。該文先介紹國內(nèi)外的智能語音識別應(yīng)用的戰(zhàn)略規(guī)劃及布局,給出開展智能語音平臺建設(shè)的關(guān)鍵技術(shù)及架構(gòu)實(shí)踐,最后分析了學(xué)校應(yīng)用智能語音識別系統(tǒng)的難點(diǎn)。
關(guān)鍵詞:語音識別;語音錄入;信息化
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)18-0175-03
1 背景
隨著我國邁入高科技社會以及人民生活需求增多,人們對信息化技術(shù)的落地應(yīng)用提出越來越高的要求,尤其是語音技術(shù)的發(fā)展,人們希望通過語音對話這樣更加自然的方式去獲取信息,達(dá)到對話交流的效果。因此,高??蒲腥藛T也應(yīng)積極研究語音識別技術(shù),要不斷地探究該技術(shù)在教育領(lǐng)域的應(yīng)用,從而提升了人們的生活水平和工作效率[1]。
2 智能語音識別技術(shù)的簡介
2.1 智能語音相關(guān)技術(shù)的概念
語音識別技術(shù)是研發(fā)相應(yīng)的硬件和軟件,通過識別語音信號和信號處理等過程把各種各樣的語音信號轉(zhuǎn)成文本的技術(shù)體系,該技術(shù)的本質(zhì)是研究出一種能聽懂語言并能對話的軟硬件[2]。該技術(shù)是一個(gè)系統(tǒng)工程,融合多學(xué)科多領(lǐng)域的技術(shù),包括聲學(xué)、計(jì)算機(jī)科學(xué)、信號處理技術(shù)、人工智能及硬件技術(shù)等,該成果具有廣泛的應(yīng)用領(lǐng)域。
2.2 智能語音的發(fā)展現(xiàn)狀
2.2.1 國外智能語音相關(guān)技術(shù)的布局及現(xiàn)狀
世界上第一個(gè)語音識別的體系化研究起源于20世紀(jì)50年代的貝爾實(shí)驗(yàn)室,該實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng),當(dāng)時(shí)可識別十個(gè)英文字母,是初步具有語音識別功能的系統(tǒng)。20世紀(jì)90年代前期,許多有技術(shù)實(shí)力的公司都開始對語音識別系統(tǒng)的實(shí)用化應(yīng)用,投入大量的人力物力[1],到了90年代中后期,整個(gè)語音識別系統(tǒng)的準(zhǔn)確率得到大幅提升,例如ViaVoice平臺、Dragon平臺、Naturally Speaking平臺、Nuance Voice Platform語音平臺等等。最近幾年,巨頭們開始加速語音識別行業(yè)的布局,蘋果、Google、Facebook、微軟等相繼收購SayNow、Phonetic Arts、Skype、Cortana等技術(shù)公司,做強(qiáng)語音識別功能與應(yīng)用[3]。
2.2.2 我國智能語音相關(guān)技術(shù)的布局及現(xiàn)狀
我國語音識別研究工作也是開始于20世紀(jì)50年代,隨著我們科學(xué)技術(shù)實(shí)力的發(fā)展,語音識別技術(shù)發(fā)展很快,已逐步走向?qū)嵱玫碾A段。目前,我國語音識別相關(guān)的技術(shù)基本上與國外的技術(shù)處在同一水平上,尤其在漢語識別方面已達(dá)到國際先進(jìn)水平。清華大學(xué)研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達(dá)到95%,中科院自動化所于2002年推出的PattekASR產(chǎn)品,結(jié)束了漢語語音識別技術(shù)一直由國外壟斷的現(xiàn)狀,具有劃時(shí)代的意義[4]。除此之外,科大訊飛、百度語音、思必馳、出門問問等公司也成了國內(nèi)智能語音的支柱企業(yè)。
3 語音識別的基本原理及系統(tǒng)架構(gòu)
3.1 語音識別技術(shù)的基本原理
語音識別技術(shù),其實(shí)質(zhì)就是將人類的語音信號轉(zhuǎn)變成可數(shù)字信號,并且被相關(guān)的軟件所識別,從而正確的理解說話人或機(jī)器的意思,所包括的一系列技術(shù)體系[5]。語音識別的過程基本包括如下三個(gè)部分:特征提取、模型匹配、語言處理等,具體架構(gòu)如圖1所示。
3.2 語音識別的系統(tǒng)架構(gòu)
常見的智能語音系統(tǒng)可同時(shí)輸入多路語音信號,并行處理多個(gè)語音識別任務(wù)。如圖2所示的智能語音系統(tǒng)采用分布式語音識別系統(tǒng),該技術(shù)是分布式架構(gòu)、利用云計(jì)算、大數(shù)據(jù)和機(jī)器學(xué)習(xí)等形成的系統(tǒng)架構(gòu),該架構(gòu)可以將一個(gè)大的任務(wù)分解成多個(gè)小任務(wù)并行處理,提高了語音識別的整體性能,精簡了語音服務(wù)流程,給用戶更好的體驗(yàn)及服務(wù)。
語音識別系統(tǒng)主要包括操作系統(tǒng)層,引擎層、資源包和管理工具4個(gè)層次,這四個(gè)邏輯層共同構(gòu)成了完整的語音識別系統(tǒng)產(chǎn)品系統(tǒng)架構(gòu)。其中操作系統(tǒng)層是智能語音識別系統(tǒng)的開發(fā)接口,是底層的應(yīng)用環(huán)境。引擎層提供大部分核心的語音處理模塊,同時(shí)為便于后續(xù)的新的應(yīng)用及需求,也提供一系列高效、易用的集成工具。資源包是針對特定行業(yè)特定領(lǐng)域的用戶提供的專門的語音、語義資源包。開發(fā)接口是為了支持后續(xù)開發(fā)而預(yù)留的API接口。
4 智能語音關(guān)鍵技術(shù)研究
4.1 語音資料庫的建立
該部分的目的是建立具有針對性的語音數(shù)據(jù)庫。目前通過兩種途徑實(shí)現(xiàn)該數(shù)據(jù)庫,一部分語音資源是結(jié)合現(xiàn)有的語音數(shù)據(jù),包括其他機(jī)構(gòu)的語音數(shù)據(jù),相關(guān)數(shù)據(jù)庫中的音頻資源。另一部分是針對我校現(xiàn)有的文本數(shù)據(jù),針對這一部分?jǐn)?shù)據(jù),專門請人將已有的文本信息錄入成語音信息,形成語音資料庫。為了方便后續(xù)更好的語音訓(xùn)練,提高識別率,同樣的文本資源,使用多人在不通場景下錄入語音信息。
4.2 語音識別處理的實(shí)現(xiàn)
4.2.1 語音信號數(shù)字化及數(shù)字編碼
語音信號數(shù)字化包括取樣和量化兩個(gè)方面,實(shí)現(xiàn)將自然語言模擬信號轉(zhuǎn)變成數(shù)字信號,便于下一步進(jìn)行數(shù)據(jù)編碼壓縮。在實(shí)際應(yīng)用中,通過對信號的編碼壓縮,達(dá)到高效率存儲和傳輸,減少數(shù)據(jù)傳輸和存儲壓力。
4.2.2 語音檢測技術(shù)
教學(xué)環(huán)境下的語音識別使用復(fù)雜多變,語音不可避免的包含了復(fù)雜背景環(huán)境噪聲。例如在教室環(huán)境下,存在學(xué)生和老師之間無關(guān)緊要的對話,機(jī)房等環(huán)境下,存在機(jī)器設(shè)備噪聲的干擾等,這些噪聲對識別的準(zhǔn)確性會造成很大的干擾。語音信號的端點(diǎn)檢測主要是為了從連續(xù)采樣得到的數(shù)字信號中檢測出有效的信號段和無效的噪聲段,從而判斷有效信號的開始和結(jié)束點(diǎn),把這段信號提取出來,從而獲得真實(shí)有效的語音信息。
4.3 語音信號特征參數(shù)的提取
語音識別技術(shù)一般是采用特征提取模塊,進(jìn)行語音信號處理,目的是將語音信號轉(zhuǎn)換成一組特征矢量序列。并且采用聲學(xué)模型和大數(shù)據(jù)等相關(guān)技術(shù),解決不同地區(qū)口音/噪聲對語音識別的干擾,增強(qiáng)聲學(xué)模型的魯棒性。針對性結(jié)合教育領(lǐng)域的大量文本術(shù)語語義知識,構(gòu)建統(tǒng)計(jì)語言模型,減少解碼搜索范圍,降低教育領(lǐng)域語言識別的錯(cuò)誤率,得到最優(yōu)的識別結(jié)果。
4.4 語言模型和聲學(xué)模型
語音識別的模型通常由語言模型和聲學(xué)模型兩部分組成,它們分別對應(yīng)兩個(gè)概率,即:識別單元到字詞的概率、語音到識別單元的概率。其中語言模型表示識別單元與語言的概率關(guān)系,聲學(xué)模型則表示聲學(xué)與識別單元的關(guān)系,目前市場上流行的語音識別技術(shù)一般都采用基于隱馬爾可夫模型(Hidden Markov Models)的方法構(gòu)建聲學(xué)系統(tǒng)模型。該聲學(xué)系統(tǒng)模型首先要對大量語音數(shù)據(jù)的做訓(xùn)練,形成的數(shù)學(xué)模型。實(shí)際中,不同的環(huán)境、地區(qū)、使用人群和使用習(xí)慣等等因素都直接影響到語音識別的準(zhǔn)確度,因此我們在做語音系統(tǒng)的時(shí)候,要針對具體的使用場景和使用人群,專門做特殊化的訓(xùn)練,這樣可以大大提升系統(tǒng)識別的準(zhǔn)確度。
5 智能語音識別系統(tǒng)的應(yīng)用總結(jié)
目前,我校智能語音應(yīng)用建設(shè)正在蓬勃建設(shè)中,在系統(tǒng)開發(fā)及應(yīng)用推廣過程中,取的一定成果,還存在一些困難及不足,主要體現(xiàn)在以下幾個(gè)方面。
5.1 教師的使用習(xí)慣
目前國內(nèi)外部分高校已開始部署應(yīng)用語音識別系統(tǒng),已做了大量工作以減少教學(xué)、行政的工作量,如提供語音識別系統(tǒng)提供人員識別、借閱圖書、錄入信息等。通過語音識別技術(shù)來實(shí)現(xiàn)學(xué)校環(huán)境下的信息錄入和信息識別及教學(xué)活動,相關(guān)人員都需要一個(gè)熟悉過程,尤其是一些年齡稍大的老教師,更需要一個(gè)培訓(xùn)和適應(yīng)的過程。
5.2 方言識別準(zhǔn)確率
國內(nèi)教學(xué)的工作環(huán)境下口音和雜音的相互干擾等問題無法回避,如何保證系統(tǒng)識別的準(zhǔn)確高效,讓學(xué)校工作者用得更加流暢,也是這個(gè)智能語音識別系統(tǒng)真正落地使用面臨的重要挑戰(zhàn)之一。
5.3 滿足移動辦公的趨勢
隨著手機(jī)、pad的流行,基于移動端小屏幕的移動辦公也逐步流行起來,可是在移動端由于屏幕小等原因,文本輸入效率不高一直是困擾的難題,如何在教學(xué)復(fù)雜環(huán)境下,提升移動端的語音識別效果也是遇到的難題之一。
5.4 教學(xué)信息化系統(tǒng)多樣
由于教育學(xué)科的專業(yè)性較強(qiáng),每個(gè)學(xué)科都有自己特有的專用詞匯,所使用的語音專業(yè)語料庫也比較分散,因此教學(xué)環(huán)境下的智能語音識別系統(tǒng)需要同時(shí)支持多個(gè)多學(xué)科多場景下使用,并且要最大限度降低系統(tǒng)間的耦合性。
6 結(jié)束語
綜上所述,智能語音識別技術(shù)在生活中得到了有效的應(yīng)用,對我們的日常生活的發(fā)展產(chǎn)生了重大的影響,該文通過應(yīng)用智能語音識別技術(shù),給出建立智能語音系統(tǒng)的關(guān)鍵技術(shù)和系統(tǒng)架構(gòu),其在引導(dǎo)高校信息化向智能化、智慧化方向發(fā)展,提高工作速度、效率甚至準(zhǔn)確性,提升降本增效能力等方面將表現(xiàn)出巨大的潛力。
參考文獻(xiàn):
[1] 科大訊飛. 探索語音識別技術(shù)的前世今生[J]. 科技導(dǎo)報(bào), 2016, 36(9): 76-77.
[2] 于俊婷, 劉伍穎, 易綿竹. 國內(nèi)語音識別研究綜述[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用, 2014(10): 76-78.
[3] 戴禮榮, 張仕良, 黃智穎. 基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J]. 數(shù)據(jù)采集與處理, 2017, 32(2): 221-231.
[4] 曾旎, 鄭世玨, 周駿, 等. 一種高校虛擬輔導(dǎo)員智能語音對話系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識與技術(shù), 2017, 13(9): 175-177.
[5] 李秀珍. 語音識別算法及應(yīng)用技術(shù)研究[D]. 重慶: 重慶大學(xué), 2010.