金豪圣
(國網(wǎng)浙江省電力有限公司信息通信分公司,浙江杭州 310000)
人們對于人工智能已經(jīng)進(jìn)行了數(shù)十年的研究,在人工智能領(lǐng)域,智能機(jī)器人是重要的研究課題之一。智能機(jī)器人研發(fā)主要包括語音識別、圖像識別、語言處理等內(nèi)容,隨著語音搜索的不斷普及,語音搜索的重要性也越來越高,因此相關(guān)學(xué)者針對語音信號特征參數(shù)提取這一問題進(jìn)行了深入研究[1-3]。
對于智能機(jī)器人的語音信號特征參數(shù)提取的方法,文獻(xiàn)[4]采用融合遞歸求逆濾波識別技術(shù),解決復(fù)雜場景識別辦法,通過對全場景的準(zhǔn)確識別確定語音濾波效果,但是需要頻繁使用濾波器。文獻(xiàn)[5]采用廣義交叉閾值同步壓縮小波方法,估計降噪的閾值水平。通過基于峭度測量的預(yù)處理和基于自適應(yīng)硬閾值的后處理,能夠精確地提取超聲信號特征,但該方法的提取時間較長。
為了解決上述三種方式的缺陷,文中提出了基于VMD 的智能機(jī)器人語音信號特征參數(shù)提取方法。
為了提取智能機(jī)器人語音信號的特征參數(shù),文中提出了智能機(jī)器人語音信號特征參數(shù)數(shù)學(xué)模型[6-7]。由于智能機(jī)器人大多具有統(tǒng)一性,因此智能機(jī)器人的語音信號的脈沖模型G(z)表示如式(1)所示:
其中,z表示分析的數(shù)字信號;? 表示脈沖系數(shù)。
智能機(jī)器人語音信號中的激勵信號在實時性系統(tǒng)中進(jìn)行數(shù)據(jù)傳輸,其中的傳遞函數(shù)通常為極點模型,因此,如果智能機(jī)器人的語音信號含帶噪音,便會用AR-MA 模型進(jìn)行表述,因此實時性系統(tǒng)頻率H(z)的定義如式(2)所示:
其中,A(z)表示濾波器系數(shù),系數(shù)的大小由實際運算情況而定。
當(dāng)智能機(jī)器人發(fā)出語音信號時,聲波頻率會發(fā)生諧振作用,語音信號調(diào)制函數(shù)計算公式如(3)所示:
其中,V(z)表示得到的語音信號調(diào)制函數(shù);B表示信號聲波頻率;C表示諧振函數(shù)常量。通過以上公式建立智能機(jī)器人語音信號特征參數(shù)的數(shù)學(xué)模型,計算智能機(jī)器人語音信號的特征參數(shù)[8-9]。
為了確保提取效果,文中在30 Hz 頻率下進(jìn)行采樣,從而解決外界干擾這一問題。通過VDM 建立分子程序化模型,將采樣數(shù)據(jù)進(jìn)行分析[10-12]。在對智能機(jī)器人語音信號的采樣中,通常為三個不連續(xù)的信號為一組,因為在采樣過程中,會產(chǎn)生不穩(wěn)定的振幅,導(dǎo)致智能機(jī)器人的語音信號變得離散化,因此不能采樣到連續(xù)的語音信號,通過離散化的語音信號防止語音信號失真。在對語音信號進(jìn)行預(yù)處理前,文中對智能機(jī)器人的語音通道進(jìn)行采樣和量化。采樣的點數(shù)也會隨著采樣頻率的增加而變得密集,當(dāng)采樣頻率降低時,采樣點數(shù)便變得稀疏散亂,離散信號與原始信號混淆在一起,發(fā)生混亂,因此文中在30 Hz 的采樣頻率下工作,有效防止語音信號出現(xiàn)混亂重疊現(xiàn)象[13]。
特征參數(shù)處理過程如圖1 所示。
圖1 特征參數(shù)處理過程
根據(jù)圖1 可知,語音信號不具備穩(wěn)定性,因此在識別過程中,經(jīng)過三次處理,確保處理信號的準(zhǔn)確性。在分析智能機(jī)器人語音信號時,不穩(wěn)定性會帶來很大的困難,文中采用VDM 技術(shù)建立一個分子可視化程序,將不穩(wěn)定的語音信號拆散開來進(jìn)行分析處理。
當(dāng)語音信號處在一定的限制范圍內(nèi)時,智能機(jī)器人的語音信號特征參數(shù)便不會發(fā)生太大的物理量的變化,因此當(dāng)使用VDM 分子可視化程序?qū)⒄Z音信號拆散時,就會給特征提取帶來很大的便利。通過利用平穩(wěn)隨機(jī)的理論對智能機(jī)器人的語音信號進(jìn)行分析,分幀處理語音信號。將在一個時間段的語音信號進(jìn)行離散化處理,通過使用連續(xù)分幀、交叉重疊分幀等方法,對語音信號進(jìn)行加窗處理,以此得到處理后的數(shù)據(jù),進(jìn)行提取[14]。
在經(jīng)過VMD 分子可視化程序?qū)⒄Z音信號處理完后,去除對于語音信號識別無關(guān)的雜質(zhì)信息,獲得關(guān)鍵識別語音信號的重點信息數(shù)據(jù)。從關(guān)鍵信息獲取更多的信號特征參數(shù),對數(shù)據(jù)進(jìn)行信息壓縮,由于智能機(jī)器人的語音信號會發(fā)生動態(tài)變化,因此對于語音信號特征參數(shù)的提取必須在一小部分語音信號上進(jìn)行,稱為短時效提取,這一小部分語音信號稱為平穩(wěn)信號區(qū)間[15-16]?;赩MD 的智能機(jī)器人語音信號特征參數(shù)提取如圖2 所示。
圖2 基于VMD的智能機(jī)器人語音信號特征參數(shù)提取流程
根據(jù)圖2 可知,文中提出的基于VMD 的智能機(jī)器人語音信號特征參數(shù)的提取方式主要由三步組成,分別為自我相關(guān)分析、LPC 分析以及倒譜分析。抽取的語音信號特征參數(shù)數(shù)據(jù)在VDM 分子可視化程序進(jìn)行處理后,抽取語音信號特征參數(shù)樣本進(jìn)行自我相關(guān)分析,利用線性預(yù)測倒譜系數(shù)對數(shù)據(jù)確定,是對加窗語音信號頻譜的極點模型的近似模型系數(shù)[17-18]。文中采用了舒爾遞推的方式進(jìn)行求解,在遞推的過程中,所有所求量都小于1,因此非常適用于語音信號特征參數(shù)的提取推算。具體公式如下:
根據(jù)式(4)設(shè)置自我相關(guān)方程作一變換,定義變量為Qm;r為歸一化系數(shù)常數(shù),i為線性預(yù)測倒譜系數(shù)。同時根據(jù)Qm的性質(zhì)以及正相關(guān)定理證明語音信號特征系數(shù)Km與Qm的關(guān)系為:
在求出系數(shù)后,根據(jù)倒譜原理求得倒譜特征系數(shù),倒譜特征系數(shù)是一種高效的語音信號度量標(biāo)準(zhǔn),經(jīng)過VMD 分子可視化進(jìn)行提取,得到了智能機(jī)器人的語音信號特征參數(shù)。通過以上步驟完成對智能機(jī)器人語音信號特征參數(shù)的提取。
為了驗證文中提出的基于VMD 的智能機(jī)器人語音信號特征參數(shù)提取方法的實際應(yīng)用效果,設(shè)定如下實驗。
由于在特征參數(shù)提取過程中,很容易受到外界的沖擊,因此應(yīng)用文中提出的基于VMD 的智能機(jī)器人語音信號特征參數(shù)提取方法對信號進(jìn)行處理,通過對語音信號進(jìn)行加幀處理,確保數(shù)據(jù)提取效果,處理過程如圖3 所示。
圖3 加幀處理
根據(jù)圖3 可知,加幀處理出現(xiàn)在第一幀和第二幀中間的位置,加幀處理后,得到的實驗結(jié)果如圖4所示。
圖4 加幀處理實驗結(jié)果
根據(jù)圖4 可知,加幀處理能夠很好地完成數(shù)據(jù)處理,通過文中提出的方法進(jìn)行加窗處理,確保通過理想數(shù)據(jù)窗抵消外界的沖擊響應(yīng),從而保證提取效果。
特征參數(shù)提取時間實驗結(jié)果如表1 所示。
表1 特征參數(shù)提取時間實驗結(jié)果
根據(jù)表1 可知,為了保證實驗的準(zhǔn)確性,進(jìn)行了10 次實驗,并與文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行實驗對比。對比結(jié)果表明,文中設(shè)計的提取方法具有很強(qiáng)的提取能力,能夠在短時間內(nèi)提取出特征參數(shù)。對于智能機(jī)器人語音信號的提取,必須滿足三個要求:提取的語音信號特征參數(shù)數(shù)據(jù)真實有效,能夠代表智能機(jī)器人的語音特征、提取的語音信號特征具有明顯的區(qū)分性、語音信號參數(shù)之間具有獨立性,計算方便?;赩MD 分子可視化程序所用的智能機(jī)器人語音信號特征參數(shù)主要有兩種系數(shù):倒譜系數(shù)以及線性預(yù)測系數(shù)。這兩種系數(shù)主要為了模仿智能機(jī)器人的發(fā)聲裝置,不考慮智能機(jī)器人的聽覺系統(tǒng),對于語音信號有較好的識別能力,計算量小、易于實現(xiàn)。
提取準(zhǔn)確率實驗結(jié)果如圖5 所示。
圖5 提取準(zhǔn)確率實驗結(jié)果
根據(jù)圖5 可知,在最初提取過程中,文中提取方法和文獻(xiàn)[3]方法、文獻(xiàn)[4]方法都存在提取準(zhǔn)確率較低的問題,但是隨著提取時間的增加,文中提取方法提取能力顯著增加,在短時間內(nèi),文中設(shè)計的提取方法就能夠完成數(shù)據(jù)提取。
綜上所述,文中通過建立智能機(jī)器人語音信號數(shù)學(xué)模型來計算智能機(jī)器人語音信號的特征參數(shù),再通過VMD 建立分子可視化程序,對智能機(jī)器人語音信號的特征參數(shù)進(jìn)行處理,并結(jié)合自我相關(guān)模塊、LPC 模塊以及倒譜系數(shù),對智能機(jī)器人的語音信號特征參數(shù)進(jìn)行提取,解決了文獻(xiàn)[3]方法和文獻(xiàn)[4]方法中誤差率大、提取速度慢、提取參數(shù)不精確等問題。
智能機(jī)器人語音信號特征參數(shù)的提取一直是智能機(jī)器人領(lǐng)域和語音信號領(lǐng)域的重點問題,現(xiàn)有方法都有著各種缺陷,例如誤差率高、提取速度慢、提取的參數(shù)不準(zhǔn)確等。文中提出的基于VMD 的智能機(jī)器人語音信號特征參數(shù)提取方法可以有效提高檢測準(zhǔn)確率,縮短特征參數(shù)提取時間,并為后續(xù)對于智能機(jī)器人領(lǐng)域以及語音信號領(lǐng)域的研究提供參考。