孟繁平
(長春金融高等??茖W校 吉林省長春市 130028)
隨著科技的進步和公眾的需求,近幾年來越來越多的科研技術人員開始涉及人工智能方面的研究,旨在使人類的生活越來越智能化。通過智能分析技術可以使得課堂教學更加智能化和個性化。智慧課堂主要是通過利用信息技術來構建智能、高效和個性化的課堂全過程。國內的不同學者對于智慧課堂都有各自不同角度的理解。學者唐燁偉等認為智慧課堂是在信息技術的加持下將智慧教育融入到課堂中構建智能、高效和個性化的新型課堂。學者龐敬文等認為智慧應該以學生為導向,利用創(chuàng)新技術構建愉快的數(shù)值化教學新模式,讓學生能夠發(fā)揮特長,有智慧的學習。學者孫曙輝等認為智慧課堂應該以學習為導向,運用新一代科學技術來構建智能高效的全過程教學課堂。
目前國內針對智慧課堂教學進行深入研究和探討依然在理論層面,實際應用研究尚淺,針對語音評測的研究目前國內主要研究的公司包括科大訊飛、有道、云知聲和馳聲科技等,主要是針對單個發(fā)音者進行語音評測,無法針對課堂教學場景中的多人發(fā)音進行語音評測。本文設計的基于FastICA 盲源分離的改進算法的口語教學多人語音評測系統(tǒng),可以為課堂師生提供一種高效的教與學模式。
盲源分離技術來自Colin Cherry 在1953年提出的雞尾酒會問題的語音分離技術,主要目的是分離在同一房間里同時說話的多人發(fā)音。
目前,許多盲源分離算法被提了出來。源信號的混合方式可以將盲源分離算法分為線性和非線性兩種。從源信號與觀察信號數(shù)量關系上可以將現(xiàn)有的盲源分離算法分為超定(觀察信號數(shù)量大于或等于源信號數(shù)量的情形)和欠定(觀察信號數(shù)量小于源信號數(shù)量的情形)兩種情況,針對超定場景中的主要算法包括獨立成份分析(ICA)方法,非負獨立成份分析(Nonnegative ICA)方法,最大信息熵(Infomax)方法,針對欠定場景中的主要算法包括稀疏成份分析的方法,基于信號時間-頻率(TF)分布特性的方法,基于特征函數(shù)的方法,基于貝葉斯估計和MCMC(Markov Chain Monte Carlo)采樣的方法以及基于空間幾何和聚類分析的方法等,針對欠定場景中的盲源分離是當前研究的熱點。
目前針對聲紋識別主要分為說話人辨別和說話人確認,針對說話的的內容可以分為文本無關和文本相關兩部分,說話人無關只能識別出說話的人身份與說話人所說的內容無關,而文本相關既可以識別出說話人的身份同時可以識別出說話的內容。目前采用比較多的聲紋識別算法是GMM 模型。
圖1:標準語音信號
圖2:標準語音信號
隨著語音識別技術的發(fā)展,發(fā)音自動語音評測已經(jīng)成為計算機輔助語言學習系統(tǒng)的研究熱點,計算機輔助語言學習系統(tǒng)起源于20世紀60年代,最著名的代表是PLATO 系統(tǒng),主要采用的方法是通過矢量量化和動態(tài)時間對齊來計算標準發(fā)音和測試者發(fā)音之間的差異程度,并以此差異程度評測發(fā)音標準程度。到了20世紀80年代末,Rabiner 等研究者提出了隱馬爾科夫模型,可以針對連續(xù)語音的發(fā)音進行評測。20世紀90年代后期到21世紀初,代表性的如美國斯坦福研究中心語音技術研究組的VITL 系統(tǒng),以及英國劍橋大學人工智能實驗室語音組和麻省理工學院人工智能實驗室聯(lián)合研制的SCILL 系統(tǒng)。
本文設計了基于改進的FastICA盲源分離算法的多人語音評測系統(tǒng),將盲源分離與聲紋識別技術相結合,打造一款智慧課堂口語教學系統(tǒng),為口語教學提供了新的智慧教學模式。在該模式下,當老師讀完一個單詞或句子后,該系統(tǒng)記錄下老師的語音信號作為標準發(fā)音,學生們跟讀后,系統(tǒng)再次記錄下幾十個學生的語音混合信號,并通過藍牙傳入PC 客戶端,客戶端利用盲源分離技術將每個學生的語音信號分離出來,然后再利用聲紋識別技術匹配出說話人,每個說話人的語音信號都與老師的標準發(fā)音作對比,進行發(fā)音評測,根據(jù)匹配程度進行打分。
本系統(tǒng)采用基于高斯混合模型(Gaussian Mixture Model,GMM)的聲紋識別算法,在訓練過程中,通過提取到每個說話人的語音特征參數(shù),這里考慮提取梅爾頻率倒譜系數(shù)(MFCC),通過對每個說話人的語音的MFCC 特征參數(shù)進行估計建立說話人模型,在識別過程中,可以對比測試語音的MFCC 特征參數(shù)與建立好的MFCC 特征參數(shù)模型之間的相似度,進而可以確定具體的說話人。本仿真實現(xiàn)考慮從特征參數(shù)的維數(shù)和GMM 的混合數(shù)探究聲紋識別性能。實驗中的訓練和測試樣本信號,共13 個說話人,即13 類。不同特征參數(shù)維數(shù)下的識別結果,不同GMM 混合數(shù)的識別結果。當特征參數(shù)的維數(shù)從0 到18 增加的時候,語音的識別率是提高,但是當特征參數(shù)的維數(shù)增加到18 以后的時候,識別率提高的幅度并不大。表明了通過增加有效可靠的特征參數(shù)可以提高聲紋識別系統(tǒng)的識別率。隨著GMM 的混合數(shù)增加,識別率呈現(xiàn)先增大后減小的趨勢。GMM 的混合數(shù)對語音識別系統(tǒng)的性能影響較大,通過選擇合適的混合數(shù),可以提高聲紋識別系統(tǒng)的識別率,同時還能減少訓練和識別兩個階段的計算量
FastICA 算法是由芬蘭學者Hyvarinen 在1999年提出的批處理的順序提取算法,算法根據(jù)非高斯性的度量不同,常用基于負熵的方法,負熵的計算如公式(1)所示。
FastICA 算法的性能和算法的穩(wěn)定性主要依賴初始矢量W0的選擇。因此我們采用K-means 聚類算法設置W0的方法對原方法進行改進,稱為KM-FastICA 算法。
K-means 聚類算法是在基于屬性和特征在若干組中進行分類或分組,通過計算每個數(shù)據(jù)與相應的聚類中心的距離進行迭代更新實現(xiàn)的,給定一組觀測值K-means 聚類算法目的是把N 個觀測值分到K 個類中關于最小化函數(shù)的計算公式如公式(2)所示:
這里的μi是Si類的均值矢量,i=1,2,...K。
K-means 聚類算法輸出的是均值矢量μ1,μ2,...,μk。μi(i=1,2,...K)是聚類中心并且代表對應類的特征。因此,選擇在μi(i=1,2,...K)中選擇初始矢量W0,這樣的選擇可以使算法具有較好的魯棒性和收斂性。
基于改進的FastICA盲源分離算法的多人語音評測系統(tǒng)實現(xiàn)采用最為成熟的基于特征比較的評測方法。通過訓練得到標準發(fā)音的模板,通過將待測語音與標準語音模板進行相似度度量,將距離值帶入評分映射公式中能夠計算出最后的得分,得分越高,發(fā)音與模板相似度就越高。
本系統(tǒng)的發(fā)音評測中的特征提取采用Mel 頻率倒譜系數(shù)(MFCC),其原因之一是MFCC 特征考慮了人耳的聽覺特性,具有良好的識別特性和抗噪特性,較好地體現(xiàn)了語音的內容,其二是本系統(tǒng)在聲紋識別時已經(jīng)計算了各分離語音信號的MFCC,可以直接用于發(fā)音評測的距離計算。
當?shù)玫搅舜郎y語音信號和標準語音模板的特征向量后,就需要用到特征比較方法來計算出兩個特征向量的距離。采用了DTW(Dynamic Time Warping)計算語音之間的相似度。DTW 是基于動態(tài)規(guī)劃的思想設計的一種將時間規(guī)整和距離測度結合起來的算法,如果參考模板為測試數(shù)據(jù)記為那么DTW 的主要目的便是在由T、R構成的平面上找出一條最佳的對應路徑使得測試數(shù)據(jù)與參考模板間的距離D 最小,其中,。
本實驗使用的語音是在手機錄音APP 進行采集的,本試驗為12 名來自不同地區(qū)的學生,說話漢語內容為一首唐詩——“白日依山盡,黃河入海流,欲窮千里目,更上一層樓”,各錄制一遍。選擇其中一個學生的語音作為標準語音,剩下12 個學生的語音與之對發(fā)音評測對比。標準語音信號如圖1所示,12 個學生的發(fā)音評測得分直方圖如圖2所示。從圖中可以看出來盲源分離和語音評測準確率都在96%以上,通過該口語教學系統(tǒng),能讓老師及時掌握每一位學生的口語發(fā)音情況,提高教學效率,增加課堂互動性與積極性。
本文設計了基于改進的FastICA盲源分離算法的多人語音評測系統(tǒng),通過把本系統(tǒng)應用于口語課堂教學,可以將幾十個學生的混合跟讀語音分離處理,并分別與老師的標準語音做自動發(fā)音評測,且能及時地進行信息交互,將學生的發(fā)音情況清晰快捷地展示給老師。每個說話人的語音信號都與老師的標準發(fā)音作對比,進行發(fā)音評測,根據(jù)匹配程度進行打分,盲源分離和語音評測準確率都在96%以上,通過該口語教學系統(tǒng),能讓老師及時掌握每一位學生的口語發(fā)音情況,提高教學效率,增加課堂互動性與積極性。
該智慧課堂口語教學系統(tǒng)由硬件系統(tǒng)和PC 客戶端組成。硬件系統(tǒng)分為語音采集模塊、語音傳輸模塊和片上MCU。PC 客戶端負責盲源分離、聲紋識別和發(fā)音評測等核心算法本系統(tǒng)的盲源分離、聲紋識別和發(fā)音評測三個核心算法分別采用的是改進的FastICA、GMM 和DTW。從測試結果可以看出,該系統(tǒng)的盲源分離、聲紋識別和發(fā)音評測算法性能滿足系統(tǒng)要求,在未來,課堂教學模式必將越來越個性化、智能化、數(shù)字化。而隨著傳感器技術能夠越來越快速的獲取語音信號,且各種智能算法的性能能夠越來越強大,相信隨著技術的發(fā)展和需求的進步,未來的設計必將更加智能和完善。