趙冬梅 王林 李學(xué)林 劉秋會(huì)
摘 ?要:文章對(duì)水語的七個(gè)單元音進(jìn)行聲學(xué)特性研究。首先利用線性預(yù)測(cè)編碼LPC模型提取七個(gè)單元音的共振峰頻率值,然后繪制聲學(xué)元音圖并進(jìn)行分析,最后利用隱馬爾可夫模型HMM對(duì)水語的七個(gè)單元進(jìn)行識(shí)別,識(shí)別率為83.75%。實(shí)驗(yàn)結(jié)果表明:水語七個(gè)單元音的共振峰頻率分布之間存在相關(guān)性,驗(yàn)證了水語七個(gè)單元音共振峰頻率分布的正確性,為水語研究提供了有力依據(jù)。
關(guān)鍵詞:水語元音;共振峰頻率;聲學(xué)元音圖;HMM模型
中圖分類號(hào):TN912.3 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)04-0017-04
Abstract:In this paper,the acoustic characteristics of the seven purevowels in Sui language are studied. First,the linear predictive coding (LPC) model was used to extract the formant frequency values of the seven purevowels,and then the acoustic vowelschart was drawn and analyzed. Finally,the seven purevowelsof Sui were identified using the hidden markov model (HMM). The recognition rate was 83.75%. The experimental results show that correlation between the formant frequency distributions of the seven purevowels in Sui language. The correctness of the formant frequency distribution of the seven purevowels in Sui language is verified,which provides a strong basis for the study of Sui language.
Keywords:Sui vowels;formant frequency;acoustic vowelschart;HMM model
0 ?引 ?言
隨著人工智能時(shí)代的到來,各語言學(xué)者將人工智能中模式識(shí)別的方法應(yīng)用到語音識(shí)別領(lǐng)域,在分析單元音聲學(xué)特性時(shí)借助模式識(shí)別方法進(jìn)行驗(yàn)證。2019年王桂榮、金小峰[1]等人提出了共振峰參數(shù)的對(duì)比分析方法,對(duì)兩種語言單元音的共振峰頻率進(jìn)行聲學(xué)特性分析,并采用t檢驗(yàn)的方法進(jìn)行了驗(yàn)證;2018年王桂榮、金小峰[2]等人利用單元音連續(xù)出現(xiàn)的概率作為特征參數(shù)對(duì)聲學(xué)進(jìn)行分析,然后采用HMM模型進(jìn)行訓(xùn)練,提出了一種單元音的相似度分析方法;2015年楊柳新[3]等人通過對(duì)比藏語拉薩話主要元音的共振頻率和聲學(xué)元音圖,得出藏語中五個(gè)主要元音共振頻率之間的關(guān)系;2010年王昆侖[4]等人利用隱馬爾可夫工具集HTK對(duì)維語八個(gè)單元音的共振頻率的分布規(guī)律進(jìn)行了研究;2007年錢博[5]通過仿生模式識(shí)別理論改進(jìn)傳統(tǒng)的模式識(shí)別算法,提出了基于神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別方法,完成了對(duì)漢語元音映射的說話人進(jìn)行識(shí)別。
貴州是一個(gè)多民族聚居的省份,隨著經(jīng)濟(jì)社會(huì)的不斷發(fā)展,各少數(shù)民族的語言使用越來越少,有些語言面臨失傳的危險(xiǎn)。因此,保護(hù)少數(shù)民族語言成了一個(gè)迫切需要解決的問題。水族是貴州省黔南苗族布依族自治州的一個(gè)少數(shù)民族,盡管其人口不多,但有自己的語言,還有相應(yīng)的文字——水書,水族語言具有獨(dú)特的語言特性,因而本文選取水語作為研究對(duì)象。由于我校獨(dú)特的地理優(yōu)勢(shì),以及豐富的民族文化特色,在進(jìn)行水語研究時(shí)能獲得豐富的資源,為水語的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。
1 ?水語語音數(shù)據(jù)采集
水語是漢藏語系中較為復(fù)雜的一門語言,據(jù)統(tǒng)計(jì),水語輔音有44個(gè),元音有16個(gè),其中/i,e,a,o,u,?,?/[6]是水語的七個(gè)單元音。根據(jù)韋學(xué)純[7]《水語描寫研究》中的詞匯內(nèi)容,參考文中對(duì)詞匯標(biāo)注的音標(biāo),選擇年齡在18~30歲的水族學(xué)生和教師進(jìn)行詞匯朗讀并錄音,錄音環(huán)境選取類似辦公室場(chǎng)地,噪聲控制在60 dB以內(nèi),錄音軟件借助斐風(fēng)錄音軟件進(jìn)行錄制,采樣頻率為44100 Hz,采樣精度是16 bits,獲取的語音數(shù)據(jù)采用WAV形式進(jìn)行存儲(chǔ),標(biāo)注采用Praat軟件,共采集詞匯2327條。
2 ?水語元音共振峰頻率分析
共振峰是決定元音的音質(zhì)和音色的重要參數(shù)。2015年Delattre[8]對(duì)聲譜圖的生理特征進(jìn)行了解釋,Delattre認(rèn)為第一共振峰與人在發(fā)音時(shí)口腔的開合度有直接關(guān)系,即口腔張開越大,共振頻率F1的值越大;第二共振峰則與舌位的前后有關(guān),即舌位越往前,共振頻率F2的值越大,另外,F(xiàn)2與圓唇非圓唇有關(guān),即F2越小唇越圓,反之則越不圓。因此在對(duì)水語七個(gè)主要元音進(jìn)行分析時(shí),通常對(duì)元音的共振頻率以及它的聲學(xué)元音圖進(jìn)行對(duì)比分析,在水語語音特征提取、分類、識(shí)別中起到關(guān)鍵作用。
2.1 ?水語元音共振峰估算
2.1.1 ?估算方法
LPC模型是元音共振峰估算方法中最常用的一種方法,考慮到模型的普適性以及操作便利性,采用了該方法提取水語七個(gè)單元音的共振峰值,將語音信號(hào)模型化如圖1所示。
2.1.2 ?實(shí)驗(yàn)數(shù)據(jù)
為了使實(shí)驗(yàn)具有一定代表性,實(shí)驗(yàn)從已建立的水語語料庫中選取男生和女生的發(fā)音共210個(gè)數(shù)據(jù),另外,還選取了吳宗濟(jì)[9]《普通話元音和輔音的頻譜分析及共振峰的測(cè)算》中普通話元音共振峰數(shù)據(jù)與水語元音的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。與其他語音不同的是水語單元音無法準(zhǔn)確地直接發(fā)音,必須借助詞句進(jìn)行錄制,本文中采用錄制好且標(biāo)注完成的孤立詞,在時(shí)域范圍內(nèi)對(duì)水語七個(gè)單元音的穩(wěn)定段進(jìn)行切割,將切割完成后的語音進(jìn)行預(yù)處理,測(cè)量出共振峰頻率值,對(duì)測(cè)量的共振峰數(shù)據(jù)進(jìn)行統(tǒng)計(jì),如表1所示。
2.2 ?聲學(xué)特性分析
在2.1.2節(jié)中的表1是將估算出的共振峰數(shù)據(jù)進(jìn)行統(tǒng)計(jì)得出最大值、最小值、平均值、標(biāo)準(zhǔn)差和離散度(離散度是用來衡量水語七個(gè)單元音中每個(gè)元音的離散程度)。離散度是標(biāo)準(zhǔn)差與平均值的百分比,即離散度越大、平均值越小、標(biāo)準(zhǔn)差越大,離散度越小、平均值越大、標(biāo)準(zhǔn)差越小,而標(biāo)準(zhǔn)差本身反映組內(nèi)個(gè)體間的離散程度。根據(jù)表1的數(shù)據(jù)繪制水語的聲學(xué)元音圖,如圖2所示,圖縱、橫坐標(biāo)分別代表水語七個(gè)單元音的第一、第二共振峰,橢圓圈代表各個(gè)元音的離散程度。從圖2中可以看出,水語單元音/?/的離散程度最大,其次是/i/、/u/,但/i/音的共振峰頻率分布獨(dú)立于其他六個(gè)單元音,只有/u/音的少數(shù)幾個(gè)奇異點(diǎn)落入/i/的離散圈內(nèi),同理,/a/音與其他六個(gè)單元音共振峰頻率分布相對(duì)獨(dú)立,但是/e/、/?/、/?/、/o/、/u/之間出現(xiàn)了相關(guān)性較大的情況,很難將其區(qū)分開,尤其是/e/、/?/和/u/、/?/這兩對(duì)音的共振峰頻率分布出現(xiàn)了包含與被包含關(guān)系。
/i/音的F1在268 Hz~433 Hz之間,F(xiàn)2在2037 Hz~ 2867 Hz之間,符合水語單元音/i/是舌面前高不圓唇的發(fā)音特點(diǎn);/a/音的F1在930 Hz~1095 Hz之間,F(xiàn)2在1208 Hz~2000 Hz之間,符合水語單元音/a/是前低不圓唇的發(fā)音特點(diǎn),水語元音舌位圖如圖3所示,普通話元音舌位圖如圖4所示,從圖3和圖4可以看出,水語/a/音與普通話的/a/音相似,但略靠前;對(duì)于/e/、/?/、/?/、/o/、/u/這五個(gè)音的F1、F2的分布出現(xiàn)了重疊現(xiàn)象,/e/、/?/、/o/三個(gè)元音兩兩F1、F2分布相互獨(dú)立,/e/與/u/的F1、F2分布也相互獨(dú)立。在進(jìn)行元音識(shí)別時(shí)會(huì)出現(xiàn)/i/、/a/音識(shí)別率高,/e/音會(huì)受/?/的影響識(shí)別率會(huì)降低,/?/音受/u/音的影響識(shí)別率也會(huì)相應(yīng)降低。
由此繪制出水語單元音的舌位圖和普通話元音的舌位圖進(jìn)行對(duì)比分析,如圖3和圖4所示,從圖中可以看出:(1)水語元音和普通話元音/i/的位置舌面前高不圓唇元音;(2)由于/?/和/?/兩個(gè)音只出現(xiàn)在漢借詞中,所以水語/?/和/?/的音位大致與普通話的音位相同,從圖3和圖4中也可以看出;(3)水語的其他4個(gè)單元音與普通話的音位就有所差異,水語/a/、/e/音比普通話/a/、/e/音的開口度小、舌位靠前;水語/o/音比普通話/o/音的開口度小、舌位靠前、圓唇度低;水語/u/音比普通話/u/音的開口度大、舌位靠前、圓唇度低。
3 ?HMM模型識(shí)別水語七個(gè)單元音
在語音識(shí)別中,HMM模型由于其獨(dú)特的優(yōu)良性被廣泛應(yīng)用,在第二節(jié)分析的基礎(chǔ)上,利用HMM模型對(duì)水語的七個(gè)單元音進(jìn)行識(shí)別,來證實(shí)分析結(jié)果的正確性。
3.1 ?HMM算法模型
在元音識(shí)別中,利用該算法模型求解出最大概率δt(i)時(shí)的最佳狀態(tài)序列,為水語七個(gè)單元音的識(shí)別提供了算法模型。
3.2 ?實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)選取已建立的水語語音數(shù)據(jù)庫中男女發(fā)音共1 120個(gè)數(shù)據(jù),將訓(xùn)練后的數(shù)據(jù)送往HMM模型進(jìn)行測(cè)試,實(shí)驗(yàn)中選取的特征向量是24維的MFCC系數(shù),其中包括12維倒譜系數(shù)和12維一階差分系數(shù),識(shí)別結(jié)果如表2所示。
結(jié)合2.2節(jié)的分析結(jié)果和HMM模型的識(shí)別結(jié)果進(jìn)行綜合分析,可以得出:(1)/a/音的識(shí)別率達(dá)到了97.5%,識(shí)別效果較好,證實(shí)了水語/a/音與其他六個(gè)水語單元音的共振峰頻率分布較獨(dú)立,差異性較大;(2)對(duì)于/i/音的識(shí)別率有所下降,其主要原因是由于音強(qiáng)的影響,特征不明顯,導(dǎo)致誤判;(3)表中/e/音和/?/音識(shí)別率低,其原因主要是在共振峰頻率分布中出現(xiàn)的包含關(guān)系,導(dǎo)致兩音之間相互受影響,符合2.2節(jié)的分析結(jié)果;(4)針對(duì)/o/音的識(shí)別率有所降低,根據(jù)圖2可以看出,/o/音的共振峰頻率分布相對(duì)比較獨(dú)立,但是與/u/音有所交織,所以識(shí)別率也相應(yīng)受影響,除此之外,還受音強(qiáng)的影響,在識(shí)別過程中被誤判成/e/音;(5)表2中/?/音的識(shí)別率為82.5%,在水語的七個(gè)單元音中,/?/音是唯一的一個(gè)舌尖元音,有其獨(dú)特發(fā)音方式,所以24維的MFCC特征向量能夠很好地對(duì)/?/音進(jìn)行識(shí)別,在共振峰頻率分布上受其他音的影響也較小;(6)在水語的七個(gè)單元音中,/u/音是最特殊的一個(gè)音,在圖2中可以看出它受到/?/、/?/、/o/這三個(gè)音共振峰頻率分布的影響,所以這導(dǎo)致在HMM模型識(shí)別時(shí)的效果不佳,識(shí)別率低。
4 ?結(jié) ?論
總的來說,水語的七個(gè)單元音中,/a/音和/i/音的共振峰頻率分布較獨(dú)立,而/?/音和/e/音的共振峰頻率分布會(huì)相互影響,/u/、/?/、/o/三個(gè)音之間也會(huì)產(chǎn)生一定的影響,相比之下,/u/音受到的影響最大。
通過對(duì)水語七個(gè)單元音的聲學(xué)特性進(jìn)行分析和HMM模型的語音識(shí)別,得出的識(shí)別率對(duì)聲頻特性分析的結(jié)果進(jìn)行了驗(yàn)證,從識(shí)別率可以看出,水語七個(gè)單元音的識(shí)別效果相對(duì)較好,最低的識(shí)別率都達(dá)到了60.00%,七個(gè)元音的識(shí)別率為83.75%,獲得了較好的識(shí)別率,為今后水語的進(jìn)一步研究奠定了基礎(chǔ),為保護(hù)水族語言文化做出了貢獻(xiàn)。
參考文獻(xiàn):
[1] 王桂榮,金小峰.基于計(jì)算語音方法的朝蒙單元音對(duì)比研究 [J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2019,37(1):68-74.
[2] 王桂榮,金小峰.語音段中朝蒙單元音概率分布的對(duì)比分析 [J].延邊大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,44(3):260-265.
[3] 楊柳新,于洪志.藏語拉薩話主要元音的聲學(xué)分析 [J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(2):51-55.
[4] 王昆侖,張貫虹,吐爾洪江·阿布都克力木.維吾爾語元音的聲頻特性分析和識(shí)別 [J].中文信息學(xué)報(bào),2010,24(2):122-128.
[5] 錢博.基于漢語元音映射的說話人識(shí)別技術(shù)研究 [D].南京:南京理工大學(xué),2007.
[6] 賴靜如.李方桂《水話研究》之語言學(xué)研究 [D].北京:中國(guó)社會(huì)科學(xué)院研究生院,2015.
[7] 韋學(xué)純.水語描寫研究 [D].上海:上海師范大學(xué),2011.
[8] DELATTRE P. The Physiological Interpretation of Sound Spectrograms [J]. PMLA,1951,66(5):864-875.
[9] 吳宗濟(jì).普通話元音和輔音的頻譜分析及共振峯的測(cè)算 [J].聲學(xué)學(xué)報(bào),1964(1):33-40.
[10] 韓紀(jì)慶,張磊,鄭鐵然.語音信號(hào)處理 [M].北京:清華大學(xué)出版社,2004.
作者簡(jiǎn)介:趙冬梅(1993.04-),女,白族,貴州畢節(jié)人,碩士研究生,研究方向:模式識(shí)別。