周晶 賈江凱 孫博 李曉明
(國網電子商務有限公司,北京 100053)
在大數(shù)據、云計算等技術的發(fā)展下,人工智能技術研究有了較好的成果,以深度學習為基礎的人工智能技術應用越來越廣泛。在當前的語音識別系統(tǒng)中,對識別提出了更高的要求,一些技術有待完善,難以滿足人們的實際需求??刹捎萌斯ぶ悄艿纳疃葘W習,加強語音系統(tǒng)的識別準確性,使識別效果得到改善。因此,應對人工智能技術應用于語音識別的方面進行深入研究,為語音識別方法創(chuàng)新帶來幫助。
語音識別技術是通過讓機器識別人的聲音進行理解,將語音信號轉換為文本形式。在識別過程中,包括了語音信號預處理、信號特征提取、模型庫匹配、語言處理幾個環(huán)節(jié)。隨著互聯(lián)網技術的發(fā)展,社會對智能化的需求逐漸提升,在語音識別研究中,可通過多方面途徑獲得原始語音數(shù)據,并且對其進行詳細的分析。然而在應用語音識別系統(tǒng)的時候,僅僅借助傳統(tǒng)語音識別算法會使數(shù)據得不到有效的應用。深度學習理論屬于一種模擬人類大腦進行感知和學習信息的理論,借助該理論的核心可使計算機云計算與海量的語音數(shù)據結合起來,對語音數(shù)據進行高效處理,使人們的應用需求得到滿足,因此,深度學習理論具有有效的作用。
語音拾取方法包括采樣及斷點檢測,采樣指的是語音信息用聲卡采集到系統(tǒng)之中,對語音信息模數(shù)處理后使其轉化為數(shù)字化信息。端點檢測是將語音信息中的語音起點、終點確定,這是預處理中的重要內容。進行端點檢測的時候通常使用的算法為能量以及過零率結合的檢測方式。
對于語音識別,應選擇合適的特征,保證方法應用的效果。通過良好的特征能夠使語音自身區(qū)別于其他語音的信息被明確地反映出來,之后將沒有聯(lián)系的信息去除,達到對特征的提取。在檢測過程中,應用該方法能夠使識別順利實現(xiàn)。
模擬訓練及語音識別判決是兩個步驟,在訓練過程中選擇識別適合的方法,通過訓練以及聚類的方式來獲取語音參數(shù),以參數(shù)為模板進行存儲,當識別系統(tǒng)中存儲了大量的識別字參數(shù)模板后,可產生模板數(shù)據庫。在識別的過程中,將識別的內容與參考模板數(shù)據庫中的數(shù)據進行比較和分析,具有最大相似度的是識別出來的字。
語音識別系統(tǒng)應用中,將語音信號特征提取出來是關鍵的環(huán)節(jié),通過該環(huán)節(jié)能夠使語音信號中的大量信息得到量化,進而從中找出代表語音信號的特征,實施聲學模型的分析及處理。通過對深度學習的研究,實現(xiàn)圖像的識別之后,在語音識別中發(fā)揮了有效的作用,這使語音識別的效果增強。深度學習中的訓練方式具有特殊性,可將多種優(yōu)良初始權值以及偏重給予神經網絡,這樣可使神經網絡模型接受訓練的過程中不會產生局部最優(yōu)解的問題,還能夠收斂到合理極值點。此外,深度神經網絡可描繪原始音素相關數(shù)據中的本質特征,使數(shù)據的可區(qū)分性加強,同時能夠提升語音識別系統(tǒng)的識別性能。
進行語音預處理的時候,需要進行數(shù)據模型訓練,由于網絡模型層數(shù)比較深,網絡的結構比較復雜,在訓練的過程中,應對大量的參數(shù)進行調整,需要使用自編碼器模型,可避免產生局部最優(yōu)以及過擬合的情況。在語音識別的模擬訓練中,開展的目的是使語音識別系統(tǒng)能夠掌握語音特征值,在輸入了較多的數(shù)據之后,通過多次的循環(huán)訓練才可得到理想的深度識別效果。不僅需要將語音識別系統(tǒng)中添加模擬訓練模板,還應對模板庫文字進行判別,投入較多的相似度高的字,在這樣的方式下進行訓練可使語音識別的效果加強,提升了識別的效率,避免產生錯誤問題。
隨著人工智能技術的快速發(fā)展,人機互動的應用也逐漸普及,在溝通過程中,其中包含著一些感情,可將語音情感識別融入到語音識別系統(tǒng)中。識別分析出語音之中的情感信息,同時將其中的信息提取出來具有較大的難度,要想實現(xiàn)這個功能,需要經歷復雜的過程,僅僅以語音來識別其中包含的情感有著較大的困難,可將發(fā)聲器官的運動數(shù)據、人的面部表情數(shù)據,根據聲學及運動學習來進行語音情感識別,在這個過程中需要采集大量的數(shù)據,在采集完成之后,需要對數(shù)據的特征進行提取,融合到語音識別系統(tǒng)之中,可使語音情感識別效果加強,提升了識別的水平。
人工智能下深度學習理論能夠為語音識別提供更多的條件,語音識別的要求逐漸提升,為了滿足語音識別的不同需求,應結合深度學習對語音識別系統(tǒng)進行改善,合理利用語音識別方法,根據語音識別的實際需求,應加強語音系統(tǒng)對特征的識別,還應多次開展語音識別的模擬訓練,并且根據聲學特征及運動學特征進行識別,為語音識別系統(tǒng)的應用帶來了幫助,實現(xiàn)智能化識別,進而使語音識別發(fā)揮出更多的功能。