視聽語音識別系統(tǒng)
由于對大多數(shù)視聽語音識別系統(tǒng)的設計都是基于試驗室環(huán)境,因此難以解決視覺域干擾方面的問題,如說話者移動、照明不良、分辨率不高等。介紹了一種基于口型及聲音信息工作的視聽語音識別(AVSR)系統(tǒng)。利用主動外觀模型這個功能強大的統(tǒng)計工具,采用梯度下降法將物體的形狀和紋路相結合,確保建立的模型與目標圖像匹配。利用路面標記的位置坐標獲得物體的尺寸大小,從外觀矢量中獲取像素信息(如顏色或亮度)。因此,采用主動外觀模型可根據(jù)人體下巴和嘴唇的特征,精確提取其形狀和外觀信息。將傳統(tǒng)聲學特征與視覺特征識相結合,識別復雜環(huán)境下駕駛員的指示命令。
德州儀器和麻省理工學院(TIMIT)將語言庫融入多個相機與視聽組件相結合的機制中,研究雙向視聽語音識別系統(tǒng)的性能??紤]“Mc-Guruk”的效應,分
別根據(jù)口型動態(tài)特征和語音信息建立聲學和視覺模型。在嚴苛的真實環(huán)境下進行一系列視聽語音識別試驗,以驗證所提出的具有活動外觀模型視覺特征方案的有效性。將幾何結構、紋路模型與外觀子空間相結合,提取出的視覺特性對視覺干擾有較強的抵抗能力。將4個相機識別的圖片進行融合,能夠補充從不同視覺角度中獲得的圖片信息。在現(xiàn)實場景中,車窗玻璃打開時,由于行駛過程中的風可能會遮擋照相機捕捉的視圖,因此利用側面相機可以根據(jù)補充信息相互支持。試驗結果表明,聲學和視覺形態(tài)的集成比單個形態(tài)語音識別系統(tǒng)好,特別是在車輛以一定速度行駛時,即基于語音-口型動態(tài)的視聽語音識別系統(tǒng)的性能明顯高于傳統(tǒng)的基于語音信息的視聽語音識別系統(tǒng),聲音和口型特征有助于開發(fā)穩(wěn)定的視聽語音識別系統(tǒng)。此外,從結果可以看出,還需進一步開發(fā)不依賴實際口型的視聽語音識別系統(tǒng),減少4個照相機的融合需要大量的計算時間,使其既具有識別功能,又能較精確地獲取車輛信息。
刊名:Computers and Electrical Engineering(英)
刊期:2015年第47期
作者:Pradnya N.Bhujbal et al
編譯:朱會