孫廣武,戴永,喻世東,李璇
湘潭大學(xué)智能計算與信息處理教育部重點實驗室,湖南湘潭 411105
音素關(guān)聯(lián)的多文種語音融合編碼方法
孫廣武,戴永,喻世東,李璇
湘潭大學(xué)智能計算與信息處理教育部重點實驗室,湖南湘潭 411105
多文種兼容是多文種信息處理的發(fā)展方向[1-6],多文種語音融合編碼成為這類系統(tǒng)能否具有實用性的重要研究內(nèi)容,如文獻(xiàn)[3]利用嵌入式技術(shù)發(fā)明的多文種文字書寫教學(xué)系統(tǒng),主要受眾是低齡用戶,多文種語音表達(dá)指導(dǎo)意見是必備功能。迄今的語音編碼研究集中在單文種,涉及方法主要有小波變換和矢量量化[7]、SPIHT[8]、多頻帶編碼[9]、ADPCM、MELPC、PSELP等。將單文種語音編碼方法直接用于多文種系統(tǒng),不僅導(dǎo)致語音庫容量膨脹,索引邏輯復(fù)雜,而且不利于系統(tǒng)性能優(yōu)化。本文以漢語、英語等文種為例,依據(jù)語種內(nèi)部和語種間基本字詞音素數(shù)據(jù)關(guān)聯(lián)特性,提出多文種語音融合編碼方法。音素關(guān)聯(lián)分析過程為:根據(jù)異類文種音素數(shù)據(jù)存在的相同段塊結(jié)構(gòu),按段塊模板截取語音樣本序列,對序列進(jìn)行小波變換,提取變換序列的特征,生成共享模板序列集合;基于音素關(guān)聯(lián)分析的語音庫構(gòu)建規(guī)則為:任意字音或語句音串均依據(jù)共享模板序列集合元素進(jìn)行編碼與解碼,相應(yīng)的語音記錄庫由(音節(jié)、音素)進(jìn)行二級檢索。實驗表明,本文方法在單字語音數(shù)據(jù)壓縮比、語音數(shù)據(jù)存儲量、語音還原分段信噪比等方面均明顯優(yōu)于已有方法,語音還原質(zhì)量達(dá)到實用要求。
圖1線框所圍為漢字“書”中“u”和英語音標(biāo)“u:”的發(fā)音音譜,“書”和“u:”的語音數(shù)據(jù)長度分別為8 664字節(jié)和8 544字節(jié),在數(shù)據(jù)開始部分和結(jié)尾部分,二者均有一定長度的無聲樣本點,“書”和“u:”中發(fā)音相似的樣本點序列(框中所示)長度分別為4 740字節(jié)和4 696字節(jié);圖2線框中為漢語韻母“a(阿)”與英文音標(biāo)“?”的音譜,“a”、“?”發(fā)音相似的音頻段塊長度分別為3 976字節(jié)與3 465字節(jié)。
圖1 “書”與“u:”的音譜(x軸:0~10 000)
圖2 “a”與“?”的音譜(x軸:0~6 000)
字詞語音數(shù)據(jù)結(jié)構(gòu)表明,同語種內(nèi)不同字音之間、不同語種字詞之間,音頻段塊發(fā)音相似現(xiàn)象較為普遍。在語言學(xué)中,相同、相似的語音段塊往往以一個特定發(fā)音基元表征。以聲韻母作為漢語語音分析基元,稱為漢語音素;以英語音標(biāo)發(fā)音作為英文分析基元,稱為英文音素。
用P表示音素,s表示語音樣本點,P為相關(guān)s的有序集合,即P={s1,s2,…}。
基于音素數(shù)據(jù)結(jié)構(gòu)進(jìn)行多文種語音融合編碼,關(guān)鍵在于建立多文種通用的音素數(shù)據(jù)鏈接結(jié)構(gòu)模板序列集合,簡稱為共享模板集,被編碼語音是共享模板集中相關(guān)元素的數(shù)據(jù)序列。
3.1 截取語音樣本序列
式(1)、(2)分別計算語音幀ν的短時能量E(ν)和短時過零率Z(ν):
f為幀內(nèi)變量,以maxCorr(ν)表示幀ν自相關(guān)函數(shù)的峰值。
由語音幀能零比、能零積、自相關(guān)函數(shù)峰值3個參量組合進(jìn)行清濁音音素的判別。
依據(jù)濁音音素在濁音段的時長比例和濁音段的總幀數(shù)計算第d個濁音音素的幀數(shù):
PT(0)=0,T為濁音段幀數(shù),T=νfe-νfs+1,νfs、νfe表示濁音段的起、止幀號,D和d為濁音音素個數(shù)與編號,PhoneT(d)為d音素的相對時長。
算法1單字音素樣本序列截取
任意Pi對于所選mi個訓(xùn)練字,算法1執(zhí)行mi次,分別獲得Pi1,Pi2,…,Pimi。
3.2 序列小波變換與特征矢量提取
基于聲音信號的非平穩(wěn)時變特點,對Pi1,Pi2,…,Pimi分別進(jìn)行小波變換[10-11],相應(yīng)變換模型為:
xJ(η)、yJ(η)分別為第J層的尺度系數(shù)和細(xì)節(jié)系數(shù);h、g為低通和高通分解濾波器;H、G為低通和高通重構(gòu)濾波器。小波變換后生成的系數(shù)序列記為由于低頻系數(shù)對信號還原影響較大且不同尺度間系數(shù)具有相關(guān)性,分別提取的低頻成分和跨頻帶成分,構(gòu)成Pi的兩類特征矢量集VAi1[p]和VAi2[q],包含矢量個數(shù)分別為VNi1、VNi2。
算法2Pi特征矢量提取
3.3 共享模板集生成
從矢量總體中,劃分出若干類,每一類生成適當(dāng)?shù)氖噶孔鳛檫@一類的代表,稱之為共享矢量,所有的共享矢量構(gòu)成共享矢量集。對于Pi,記VBi1為與VAi1對應(yīng)的p維共享矢量集,VBi1中矢量個數(shù)為Ni1,VAi1生成VBi1算法的主要步驟如下所示。
(2)初始化:Yt=Xr(r=t·(Mi1/Ni1)),為初始共享矢量,設(shè)置迭代次數(shù)最大值Max_Round,初始失真值d′,迭代結(jié)束的閾值e。
(3)計算VAi1中矢量與VBi1中所有矢量的失真度,公式為:
3.4 編碼與解碼
任意字音及語句音串均依據(jù)共享模板集T(i)的元素進(jìn)行編碼與解碼,字音編碼分解為字音中若干音素的編碼,語句音串可看做單個字音的拼接。編碼語音數(shù)據(jù)特征集VA中輸入矢量X與共享集VB中Yt(t=1,2,…,N)以式(8)比較失真度,輸出與X失真度最小的矢量Yf′的編號f′作為X的編碼值。
解碼是編碼的逆過程。首先,讀取字音中第一個音素的編碼結(jié)果,根據(jù)T(i)生成該音素的兩類矢量;其次,把兩類矢量組合成初始小波系數(shù)形式;然后,進(jìn)行與編碼過程同級的小波逆變換,截取準(zhǔn)確長度的數(shù)據(jù)序列作為該音素的還原音素,對字音包含的音素都執(zhí)行上述解碼過程,得到全部解碼音素;最后,將各音素依次組合,加入格式與長度信息,形成可播放的字音文件。
4.1 整體結(jié)構(gòu)設(shè)計
被練習(xí)字的描述字[3]根據(jù)教材按(文種號、學(xué)期號、課號、課內(nèi)字號)保存,4個字段組合構(gòu)成被練習(xí)文字的檢索碼。由(音節(jié)、音素)構(gòu)成的語音記錄庫索引是描述字的字段之一。
語音體系由音素記錄庫與(音節(jié)、音素)記錄庫組成,系統(tǒng)通過檢索碼在(音節(jié)、音素)記錄庫中查詢(音節(jié)、音素),由(音節(jié)、音素)查詢音素記錄庫中相關(guān)音素模板串記錄進(jìn)行相應(yīng)的語音重構(gòu)。此機理從根本上擺脫文種、文字、語句等差異的影響。
4.2 檢索碼與音節(jié)、音素碼的映射關(guān)系
檢索碼與(音節(jié)、音素)的映射邏輯關(guān)系,有多種方法實現(xiàn),查表法是基本方法之一。表1是針對人民教育出版社新版小學(xué)語文教材部分被練習(xí)文字的檢索碼與(音節(jié)、音素)映射結(jié)構(gòu)示例。檢索碼(L00,1,4,2)中,L00表示大陸漢語文種,其余3項解讀為第1學(xué)期第4課的第2個字,被練習(xí)字為“入”。通過(L00,1,4,2)得到“入”的語音庫索引碼為(ru4,(31,124,r)(83,332,u)),其中音素用于索引音素庫中的音素數(shù)據(jù)段塊進(jìn)行拼接實現(xiàn)語音重構(gòu);音素碼的三元結(jié)構(gòu)對應(yīng)(VA1編碼長度,VA2編碼長度,音素名)。
表1 檢索碼與音節(jié)、音素碼映射關(guān)系
實驗平臺為嵌入式開發(fā)系統(tǒng)YC2440,設(shè)備SDRAM為36.76 MB,NandFlash容量為30.8 MB。
漢語中聲韻母音素個數(shù)為47個,英語中音標(biāo)音素個數(shù)為48個,綜合后音素集合中保留的音素個數(shù)為55個,即“b,p,m,f,…,ai,uw,jh,….in,ang”,其中,“uw”音素代表了漢語聲母“w”,韻母“u”與英語音標(biāo)“w”、“v”、“u:”、“u”。以“ai”為例進(jìn)行模板訓(xùn)練,“ai”在音素序列中排序為25,記為P25;以“zai4.wav(在)”為例進(jìn)行語音編碼,“zai4.wav”的原始語音數(shù)據(jù)長度為8 358 Byte。
訓(xùn)練過程:挑選含有“ai”發(fā)音的字音,共66個,為“埃,挨,……,債,寨,ai,e,?”(最后3個訓(xùn)練字為英文音標(biāo)),即m25=66,設(shè)置CA[m25],CB[m25]分別保存每個訓(xùn)練字的A值和相應(yīng)的β值,m25個訓(xùn)練字均執(zhí)行算法1后,得到樣本序列P25,1,P25,2,…,P25,66,以算法2對樣本序列提取特征矢量,其中waνname=“bior1.5”,W=4,p=4,q=15,執(zhí)行后VN25,1=3 022,VN25,2=12 088;共享模板集T(25)= {VB25,1,VB25,2}生成,N25,1=N25,2=256。
編碼過程:對于算法1,A=2,β=2,執(zhí)行后得到音素“z”和“ai”的起止區(qū)間分別為[1,2 400],[2 241,8 358];以算法2中方法對“z”進(jìn)行特征矢量提取,waνname,W,p,q取值與訓(xùn)練過程相同,算法執(zhí)行后,“z”的VN1=38,VN2=152,其編碼后的數(shù)據(jù)長度為190 Byte,同理,對“ai”進(jìn)行矢量提取后,其VN1=96,VN2=384,編碼后數(shù)據(jù)長度為480 Byte。在編碼文件“zai4.dev”中,先加入音素位置信息(1,2 400,“z”),(2 241,8 358,“ai”),然后依次存儲音素編碼數(shù)據(jù),編碼文件總長度為694 Byte,原始數(shù)據(jù)與編碼數(shù)據(jù)的壓縮比例為8 358∶694=12.04∶1。
本文方法與文獻(xiàn)[7]和文獻(xiàn)[8]方法的編碼結(jié)果的比較分析,見表2。實驗1和2分別為文獻(xiàn)[7-8]的運行效果;實驗3為本文方法運行效果。表2表明本文方法在數(shù)據(jù)編碼的三項重要指標(biāo)上均優(yōu)勢明顯。
表2 文字語音編碼效果分析例表
以“在”字讀音為例,圖3為其原始與還原音譜,圖4為原始與還原頻譜;圖5是第11條語音串“S11”(“筆畫的起始書寫方向出錯”)的自然與拼接還原音譜。
圖3 “在”字原始音譜與還原音譜
圖5 語音串“S11”的自然音譜與拼接還原音譜
圖3、4、5說明本文方法有著高質(zhì)量的語音還原效果。
本文方法已實用于文獻(xiàn)[3]系統(tǒng),使得35.9 MB的原始語音數(shù)據(jù)降為3.04 MB。
多文種共處的相關(guān)系統(tǒng)越來越多,如何實現(xiàn)異類文種數(shù)據(jù)的融合,減輕系統(tǒng)容量壓力以避免系統(tǒng)性能受影響是必須面對的重要問題。數(shù)據(jù)段塊處理技術(shù)是當(dāng)前研究熱點[12],本文對具有代表性的數(shù)據(jù)段塊拼接技術(shù)進(jìn)行研究,具體實現(xiàn)了漢語、英文等文種的語音融合編碼、融匯建庫,其機理適用于進(jìn)一步擴展文種,也可借鑒于其他多文種語音的融合;本文方法不僅適用于多文種文字書寫教學(xué)系統(tǒng)語音數(shù)據(jù)結(jié)構(gòu)優(yōu)化,也可推廣到多種類圖形識別[13-14】、圖形繪制等指導(dǎo)系統(tǒng),或其他含語音庫系統(tǒng)的語音庫記錄及其記錄數(shù)據(jù)結(jié)構(gòu)優(yōu)化。面向低齡用戶的嵌入式多文種文字書寫教學(xué)系統(tǒng),在研究語音數(shù)據(jù)結(jié)構(gòu)優(yōu)化的同時,MC/OS改進(jìn)及主成分時間序列等的研究[15-17]需進(jìn)一步跟進(jìn)。
[1]Herve B,John D,Mathew M,et al.Current trends in multilingual speech processing[J].Sadhana,2011,36(5):885-915.
[2]王心覺,戴永,張維靜,等.面向指導(dǎo)的自由式英文字母書寫跟蹤[J].湘潭大學(xué)自然科學(xué)學(xué)報,2012,34(2):85-89.
[3]戴永.可聯(lián)網(wǎng)交互的多功能規(guī)定格式習(xí)字系統(tǒng)及方法:中國,ZL201010149767.2[P].2010-09-01.
[4]Fung P,Schultz T.Multilingual spoken language processing[J]. IEEE Signal Processing Magazine,2008,25(3):89-97.
[5]Polyákova T,Bonafonte A.Introducing nativization to Spanish TTS systems[J].Speech Communication,2011,53(8):1025-1041.
[6]Bojan I,Zdravko K,Bogomir H,et al.Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones[J].Speech Communication,2003,39(3/4):353-366.
[7]李淑紅,桑恩方.基于小波變換和矢量量化的語音壓縮編碼方案[J].聲學(xué)學(xué)報,2000,25(1):50-55.
[8]趙丹,馬勝前,鄭杰.基于SPIHT編碼的語音信號壓縮算法[J].計算機工程與應(yīng)用,2011,47(9):142-145.
[9]Kulkarni P N,Pandey P C,Jangamashetti D S.Multi-band frequency compression for improving speech perception by listeners with moderate sensorineural hearing loss[J].Speech Communication,2012,54(3):341-350.
[10]Joseph S M,Anto P B.Speech compression using wavelet transform[C]//Proceedings of the International Conferenceon Recent Trends in Information Technology,2011:754-758.
[11]Hamid R T,Seyyed A S,Hossein B,et al.A new representationforspeechframerecognitionbasedonredundant wavelet filter banks[J].Speech Communication,2012,54(2):256-271.
[12]徐友武,吳云.P_skip模式提前判決的幀間編碼算法優(yōu)化[J].湘潭大學(xué)自然科學(xué)學(xué)報,2011,33(3):119-122.
[13]倪問尹,王建新.多媒體數(shù)據(jù)內(nèi)容檢測系統(tǒng)關(guān)鍵技術(shù)研究[J].湘潭大學(xué)自然科學(xué)學(xué)報,2012,34(2):107-110.
[14]戴永,曾艷艷.基于RBF神經(jīng)網(wǎng)絡(luò)的手繪電氣草圖分類研究[J].湘潭大學(xué)自然科學(xué)學(xué)報,2010,32(4):102-107.
[15]簡巖,許道云.實時操作系統(tǒng)μC/OS—II子任務(wù)擴展的一種改進(jìn)方法[J].湘潭大學(xué)自然科學(xué)學(xué)報,2009,31(1):121-124.
[16]彭景斌,姜小奇.一種基于主成分分析的時間序列趨勢預(yù)測方法[J].湘潭大學(xué)自然科學(xué)學(xué)報,2010,32(2):123-126.
[17]張欣,梁宗保.多分類器融合算法研究與應(yīng)用[J].湘潭大學(xué)自然科學(xué)學(xué)報,2011,33(2):99-103.
SUN Guangwu,DAI Yong,YU Shidong,LI Xuan
Key Laboratory of Intelligent Computing and Information Processing,Ministry of Education,Xiangtan University,Xiangtan, Hunan 411105,China
Multilingual speech data fusion coding method is proposed according to the phoneme data correlation properties, which exist among heterogeneous languages and different words in the same language.Voice sample sequences of the same phoneme data segment in different languages are intercepted according to the segment templates,wavelet transform is done to those sequences,then feature vectors is extracted to generate shared template sets.Speech data of any word or sentence are coded or decoded according to the template sets.The speech record database made up of template phoneme sets is indexed according to(syllable,phoneme)structure.The single word compression ratio,speech data size,segmental signal-to-noise ratio(SNRS)and score of subjective evaluation(MOS)are significantly better than existing methods,also the voice restoration is of good quality. Key wards:speech;phoneme;correlation;multilingual;fusion coding
依據(jù)異類文種之間、同類文種不同語音之間存在音素數(shù)據(jù)關(guān)聯(lián)的特性,提出多文種語音數(shù)據(jù)融合編碼方法。將不同文種存在的相同音素數(shù)據(jù)段塊按段塊模板截取語音樣本序列,小波變換,提取特征矢量,生成共享模板集;任意字音或語句音串均按共享模板集提供的元素進(jìn)行編碼與解碼;以模板音素串構(gòu)成的語音記錄庫按(音節(jié)、音素)索引。實驗結(jié)果表明,單字語音數(shù)據(jù)壓縮比、語音數(shù)據(jù)存儲量、語音還原分段信噪比、主觀評價得分等參數(shù)均明顯優(yōu)于已有方法,語音還原質(zhì)量良好。
語音;音素;關(guān)聯(lián);多文種;融合編碼
A
TP391
10.3778/j.issn.1002-8331.1302-0065
SUN Guangwu,DAI Yong,YU Shidong,et al.Phonemes associated multilingual speech fusion coding method.Computer Engineering and Applications,2013,49(19):217-221.
湖南省高校創(chuàng)新平臺開放基金(No.09K040);湖南省“十二五”重點學(xué)科建設(shè)項目。
孫廣武(1988—),男,碩士研究生,主要研究方向為模式識別,信號處理;戴永(1956—),男,教授,主要研究方向為人工智能,信號處理;喻世東(1989—),男,碩士研究生,主要研究方向為知識處理與智能系統(tǒng);李璇(1989—),女,碩士研究生,主要研究方向為信號處理。E-mail:sunguangwu123@163.com
2013-02-09
2013-04-11
1002-8331(2013)19-0217-05
CNKI出版日期:2013-04-26http://www.cnki.net/kcms/detail/11.2127.TP.20130426.1018.002.html