續(xù)珩
摘要:隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,語音識別技術(shù)在人們的實際生活中得到了更加廣泛的應(yīng)用,而語音識別也開始進(jìn)入到普通人的視野之內(nèi),借助于其準(zhǔn)確的識別率以及較強(qiáng)的實用性,受到了越來越多用戶的青睞。現(xiàn)階段,智能語音識別在家居、汽車等多種設(shè)備中得以普遍應(yīng)用,也成為了人機(jī)交互的關(guān)鍵性設(shè)備。本文主要探討了基于深度學(xué)習(xí)技術(shù)的智能語音識別的應(yīng)用。
關(guān)鍵詞:深度學(xué)習(xí);智能語音識別;應(yīng)用
智能語音識別屬于人工智能中的重要性技術(shù)之一,目前在智能家居、智能穿戴以及智能車載中得到了十分普遍的應(yīng)用。智能語音技術(shù)基于深度學(xué)習(xí)算法,結(jié)合大數(shù)據(jù)技術(shù)、高性能運算技術(shù)等,不但能夠?qū)崿F(xiàn)準(zhǔn)確“偵聽”人類語言,同時更能夠“聽懂”人類語言,甚至可以達(dá)到“回答”人類的能力。
1基于深度學(xué)習(xí)的語音識別方法
深度學(xué)習(xí)屬于人工職能中得以飛速發(fā)展的重要領(lǐng)域,能夠輔助計算機(jī)理解更多圖像、聲音以及文本形式的數(shù)據(jù)。借助于多元化的神經(jīng)網(wǎng)絡(luò),目前的計算機(jī)能夠類似于人類一樣進(jìn)行觀察和學(xué)習(xí),同時做出相應(yīng)反應(yīng),甚至比人類更敏捷迅速。如此一來就能夠帶來一種有效的識別方式,用于分析數(shù)據(jù)信息[1]。下圖1為基本的智能語音識別流程。
1.1語音拾取
語音拾取主要是采樣以及端點檢測。所謂采樣即是利用聲卡將語音信息進(jìn)行采集,同時把語音信息數(shù)字化;而端點檢測即是從語音信息中確定其起點以及終點,屬于預(yù)處理中的關(guān)鍵性內(nèi)容,端點檢測一般來說是采用能量與過零率結(jié)合的算法。
1.2特征提取
特征提取屬于語音識別中非常重要的技術(shù),有效的特征可以非常準(zhǔn)確的體現(xiàn)出語音包含的有價值信息,從而摒棄其他無價值的內(nèi)容。
1.3模擬訓(xùn)練和語音識別判決
模擬訓(xùn)練與語音識別判決包含兩個步驟,首先是訓(xùn)練,即使用一種識別策略,通過訓(xùn)練和聚類的途徑獲得該字的語音參數(shù),并將其當(dāng)成為模板進(jìn)行存儲,在識別系統(tǒng)內(nèi)部存儲所有需要識別的參考模板,構(gòu)建參考模板庫;其次是識別判決,把等待識別的語音樣本和參考模板中的信息進(jìn)行分析對比,以相似程度最大的作為最終判斷。
2人工智能語音識別的應(yīng)用
對于電話以及通信系統(tǒng)來說,智能語音識別逐漸把電話機(jī)從單純的服務(wù)工具轉(zhuǎn)變?yōu)榉?wù)的提供者以及人們智能生活的伙伴;借助于電話以及互聯(lián)網(wǎng),現(xiàn)代人能夠依靠語音命令就可以從遠(yuǎn)端數(shù)據(jù)庫中調(diào)取和查詢相應(yīng)的內(nèi)容;現(xiàn)代科技的發(fā)展讓計算機(jī)趨于小型化發(fā)展,鍵盤開始變?yōu)橐苿悠脚_的阻礙,比如手表式手機(jī),再借助于鍵盤實施撥號就會變?yōu)樘旆揭棺T。因此,智能語音識別已經(jīng)開始轉(zhuǎn)變?yōu)楝F(xiàn)代信息技術(shù)中人機(jī)交互的重要節(jié)點,語音識別和語音合成讓現(xiàn)代人逐漸開始丟棄鍵盤,借助于語音實施操作,其實際應(yīng)用也開始發(fā)展為一個具備更高競爭性的產(chǎn)業(yè)。
當(dāng)前智能語音識別技術(shù)持續(xù)發(fā)展,尤其是中小詞匯量非特定語音識別系統(tǒng)的最大精確程度已經(jīng)超過98%,對普通人群語音識別的精確度必然更高,這類技術(shù)逐漸可以滿足人們的日常需求。而進(jìn)入新時代之后大規(guī)模集成電路的發(fā)展,讓很多較為復(fù)雜的智能語音識別系統(tǒng)依舊能夠制作為專門的芯片。目前,已經(jīng)有非常多的語音識別產(chǎn)品投入到市場中來,部分電話以及智能手機(jī)都可以提供語音識別撥號服務(wù),同時還具備語音筆記本、智能軟件等功能。人們能夠借助于語音來識別機(jī)票、旅游以及銀行信息,從而獲得更加便捷的服務(wù)體驗。
3人工智能語音識別發(fā)展趨勢
深度學(xué)習(xí)技術(shù)應(yīng)用的主要目標(biāo)是構(gòu)建模擬人腦實施分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),隨后依靠計算機(jī)模擬人腦來對數(shù)據(jù)進(jìn)行分析,例如分析圖像、文本等。換句話說,深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)中的表現(xiàn)相對于其他學(xué)習(xí)策略更優(yōu),它更加符合無標(biāo)記數(shù)據(jù),所以不單單是以實體識別為主的自然語言(NLP)領(lǐng)域。根據(jù)現(xiàn)階段的語音識別而言,主要識別途徑包含了語音拾取以及特征拾取等,依靠語音來分析人們實際工作與生活中可能遇到的問題。但從另一方面而言,智能語音識別關(guān)系到語音學(xué)、心理學(xué)以及數(shù)據(jù)統(tǒng)計等專業(yè)理論知識,對研究人員的要求較高,在對這一技術(shù)實施研究的過程中要求對各方面知識都有所涉及[2]。
當(dāng)前深度學(xué)習(xí)技術(shù)屬于最為熱門的技術(shù)之一,正越來越普遍的應(yīng)用到實踐中,智能語音屬于未來人機(jī)交互的重要窗口,在很大程度上關(guān)系到用戶實際體驗。將深度學(xué)習(xí)技術(shù)和智能語音識別聯(lián)系起來,不但智能語音識別技術(shù)所獲取的數(shù)據(jù)信息能夠訓(xùn)練出更加強(qiáng)大的深度學(xué)習(xí)網(wǎng)絡(luò),同時深度學(xué)習(xí)技術(shù)能夠支持智能語音識別系統(tǒng)進(jìn)行更加精確完整的操作。
4結(jié)束語
總而言之,隨著現(xiàn)代社會的發(fā)展,智能語音識別技術(shù)必然會得到更為普遍的應(yīng)用,深度學(xué)習(xí)技術(shù)可能并非是智能語音識別中最有效的應(yīng)用,但實踐證明其對于智能語音識別而言能夠發(fā)揮出非常積極的作用,可以幫助現(xiàn)代人在實際生活和工作中處理好相應(yīng)的問題,實現(xiàn)有效的人機(jī)交互,更好的滿足人們工作和生活所需。
參考文獻(xiàn):
[1]蔣久松,熊富強(qiáng),毛文奇,張超峰.智能語音識別方法在電力移動作業(yè)平臺中的應(yīng)用[J].自動化應(yīng)用,2017 (11):124-127.
[2]鄧逸鈺,王垚.智能化語境下的數(shù)字出版領(lǐng)域知識服務(wù)生態(tài)構(gòu)建[J].出版發(fā)行研究,2017 (06):34-36.