劉雙君,金小峰,崔榮一
(延邊大學 計算機科學與技術學科智能信息處理研究室,吉林 延吉 133002)
基于基頻的朝鮮語方言辨識方法的研究
劉雙君,金小峰,崔榮一
(延邊大學 計算機科學與技術學科智能信息處理研究室,吉林 延吉 133002)
該文提出了一種基于基音頻率特征的中國朝鮮族語言、韓國朝鮮語和朝鮮朝鮮語方言的自動辨識方法。首先,選擇具有良好區(qū)分度的基頻移位差分系數(shù)作為三個方言的特征參數(shù);其次,設計和采用了分層支持向量機分類器,并進一步引入投票法確定最佳的分類結果。實驗結果表明該文提取的特征參數(shù)具有良好的區(qū)分性和較強的穩(wěn)定性,該文提出的方言辨識方法比傳統(tǒng)的移位差分倒譜系數(shù)特征方法識別率高,可以有效解決朝鮮朝鮮語、韓國朝鮮語和中國朝鮮族語言的方言辨識問題。
方言辨識;語種辨識;基頻特征;移位差分系數(shù);支持向量機
隨著計算機和多媒體技術的發(fā)展,語音信號逐步成為人機交互的主要方式之一。方言辨識技術通常是指計算機通過學習給定的方言語音的樣本特征,判別說話人所說語音片段為何種方言的技術,它是在語種識別的基礎上發(fā)展起來的。自動方言辨識的任務在于快速準確地辨識出待判別語音的方言歸屬地,目前在信息服務、公共安全、刑事偵查、言語工程等諸多領域都有重要的研究價值[1]。語種辨識技術指的是計算機自動判別說話人語音片段所屬語言種類的技術[2],判別范圍在于語種之間,不同的語種不僅文字不同,發(fā)音、元輔音排列方式、詞法結構、韻律特征等差別較大;而方言辨識的范圍則是同一個語種之內(nèi),不同的方言之間文字相同,發(fā)音有所差異,元輔音排列、詞法結構等的差異性較小,可用于區(qū)分的特征較少,識別難度相對較大[3-4]。中國是一個多民族國家,中國朝鮮族語言主要是指生活在我國延邊朝鮮族自治州的朝鮮族同胞說的語言,其作為我國的重要方言之一,在歷史發(fā)展過程中受到中華文化的影響,逐步形成了具有自己鮮明特色的語言,這種特色有別于韓國和朝鮮兩國的朝鮮語,韓國朝鮮語是指常年生活在韓國的人所說的語言,受到英語的影響較大,朝鮮朝鮮語是指常年生活在朝鮮境內(nèi)的人所說的語言,受到外部的影響較小,兩國由于地理位置的差異及經(jīng)濟發(fā)展和政治方面的原因,亦逐漸形成了具有自己風格的語言特色,通過與文獻[5-6]對比分析發(fā)現(xiàn)三地的朝鮮語方言在發(fā)音、詞法、語法、韻律等語音特征方面存在很多差異。在朝鮮語研究方面,韓國科學技術院語音處理實驗室研制出了在3 064單詞規(guī)模內(nèi)識別率達到96.7%的語音識別系統(tǒng);朝鮮也開發(fā)出了識別率高達95%的“Insik”朝鮮語自動識別系統(tǒng);中國延邊大學朝鮮韓國學院針對中國朝鮮語構建了文本語料庫、平行語料庫和病句、中介語語料庫,標準統(tǒng)一、規(guī)范,為進一步的研究奠定了基礎。但我國的相關研究相對韓國乃至朝鮮還比較滯后,不能掌握相關信息技術的自主知識產(chǎn)權,不符合我國未來的政治軍事戰(zhàn)略,不利于我國朝鮮語文化和相關產(chǎn)業(yè)的發(fā)展[7]。
根據(jù)提取的語音特征信息,可以將方言辨識方法分為四類。
(1) 基于聲學特征的方法[8-10]。主要思想是不同語言的頻譜存在著較明顯的差異并提取表現(xiàn)該差異的特征向量用于方言辨識,但是不同人對同一種語言的發(fā)音也會產(chǎn)生差異頻譜,因此,采用基于聲學特征的方法實現(xiàn)方言辨識時的最終目標就是尋找既可以表現(xiàn)不同方言之間的頻譜差異,又可以減弱不同說話人的頻譜差異的特征來表征出方言之間的頻譜差別。
(2) 基于韻律特征的方法[11-14]。依據(jù)是不同方言之間的音高、時長、幅度和短時能量等特征信息存在明顯差別。
(3) 基于音素識別的方法[15]。每一種語言均包含有大量的固有音素,且不同種類語言的音素表差別也較大,但是使用該方法進行語言辨識時需要了解該語言背景知識的專業(yè)人員對待辨識語音進行大量的音素標注。
(4) 基于高層語言信息的方法[16-17]。構詞方式、詞匯、詞法和句法等語言學信息在不同語言中的差別非常大,是比語音音素更高一層也更為復雜的語言標志性信息之一。
基于聲學特征的方法和基于韻律特征的方法不需要待辨識語言的先驗信息,適應性最強,但其性能也劣于基于音素識別的方法和基于高層語言信息的方法,且聲學特征對語言信息和不同說話人信息的區(qū)分能力直接影響基于聲學特征方法的辨識性能;基于音素識別的方法充分利用待辨識語言的先驗信息,取得了較好的識別性能,但大量的音素標注限制了基于音素識別方法的發(fā)展和應用;基于高層語言信息的方法使用大量的后驗信息、語音學信息和詞匯信息,被認為是最好的辨識方法,但其需要龐大的訓練數(shù)據(jù),不僅計算量繁重,而且速度慢。
本文根據(jù)朝鮮朝鮮語、韓國朝鮮語、中國朝鮮族語言等三地朝鮮語方言之間語音韻律的不同,選取可以較好反映語音韻律的基頻移位差分系數(shù),然后采用抗干擾能力較強的支持向量機,并采用投票法從多個候選輸出中確定最佳的方言辨識結果。
基音是指發(fā)濁音時聲帶的周期性振動,即聲帶的振動頻率,最低為50Hz,最高可達500Hz?;纛l率決定著整段語音的音高曲線,反映了語音的韻律特征?;l的移位差分倒譜系數(shù)SDC(Shifted Delta Cepstral coefficients)是指基頻的動態(tài)特征[18],由多個連續(xù)語音幀的一階差分譜擴展連接而成,通過將k塊差分倒譜特征串聯(lián)在一幀內(nèi)擴展了差分倒譜,而且每塊差分倒譜特征將向后滑動P幀。
設c=[c0,c1,…,cj,…,cN-1],其中,cj是語音中第j個基頻系數(shù),每幀語音中只包含一個基頻系數(shù)。每段語音可表示為式(1)。
(1)
其中,Cj是第j段語音,n表示每段語音包含的幀數(shù),每段語音包含n個基頻系數(shù)。因此一個完整的語音片段可表示為式(2)。
(2)
故第t段語音的一階差分系數(shù)可表示為式(3)。
(3)
t+P段的一階差分系數(shù)可表示為式(4)。
(4)
進而推得t+kP段的一階差分系數(shù)可表示為式(5)。
(5)
把t段、t+P段直到t+kP段的一階差分系數(shù)連接起來,作為當前第t段的移位差分系數(shù)特征向量,如式(6)所示。
(6)
從而使每段內(nèi)的差分系數(shù)由n個擴展到了k*n個,基頻的移位差分系數(shù)特征向量由四個參數(shù)確定:n為每段語音中包含的基頻個數(shù),d為計算基頻移位差分系數(shù)的時移,P為差分塊向后滑動的幀數(shù),k為一個移位差分系數(shù)中包含的差分系數(shù)塊的個數(shù)。不同的(n-d-P-k)參數(shù)組合,極大地影響著辨識系統(tǒng)的辨識性能,每個語言辨識系統(tǒng)都需要尋找自己獨特的最優(yōu)參數(shù)組合。
支持向量機的理論基礎是非線性映射,利用內(nèi)積核函數(shù)將特征向量從低維空間映射到高維空間,并求解對特征向量具有良好區(qū)分效果的最優(yōu)分類超平面,是一種有堅實理論基礎且魯棒性較強的小樣本學習方法,因此本文選取支持向量機作為朝鮮語方言辨識系統(tǒng)分類器。由于支持向量機是二分類分類器,所以本文采用了多個支持向量機進行組合來辨識輸入的語音。
3.1 訓練分類器SVM_GN
將現(xiàn)有的三種特征進行變換,變?yōu)閮山M特征。隨機選取中國朝鮮族語言、韓國朝鮮語和朝鮮朝鮮語三地方言的基頻移位差分系數(shù)特征,并利用拉普拉斯流形降維方法將其從高維空間降維至二維空間,如圖1所示,菱形標記表示朝鮮朝鮮語方言特征降維后的空間分布情況,同理,圓形標記和星形標記分別表示韓國朝鮮語和中國朝鮮族語言的空間分布情況。可看出,韓國朝鮮語和中國朝鮮語空間分布較為靠近,這與現(xiàn)今中國和韓國的政治經(jīng)濟和文化交流密切,兩地朝鮮語方言的相似性趨于增強有直接關系。因此本文首先將中國朝鮮族語言和韓國朝鮮語方言的特征組合為一個集合G,朝鮮朝鮮語方言作為另一個集合N,以這兩個方言集合的特征參數(shù)作為支持向量機SVM_GN的輸入?yún)?shù),訓練分類器。
判別過程中將待判別方言的特征輸入分類器SVM_GN,若分類器的判別結果為0,則該待判別方言判別為朝鮮朝鮮語方言;若分類器的判別結果為1,表明待識別方言可能屬于中國朝鮮族語言或韓國朝鮮語,需要由SVM_YS做進一步的判定。
3.2 訓練分類器SVM_YS
方言辨識系統(tǒng)經(jīng)分類器SVM_GN辨識后,可判別出某種待辨識方言是否屬于朝鮮朝鮮語方言。若是,則辨識結束,否則屬于方言集合G,因此還應設計一個分類器SVM_YS進一步確定其屬于中國朝鮮族語言還是韓國朝鮮語的朝鮮語方言。訓練分類器SVM_YS時,將中國朝鮮族語言和韓國朝鮮語的朝鮮語方言的移位差分系數(shù)特征作為支持向量機SVM_YS的輸入?yún)?shù),訓練分類器。若分類器的辨識結果為0,則該待判別方言屬于韓國朝鮮語方言,否則屬于中國朝鮮族語言方言,辨識結束。
針對基頻移位差分系數(shù)特征進行了仿真實驗。本文所使用的朝鮮朝鮮語、韓國朝鮮語、中國朝鮮族語言三地朝鮮語方言樣本分別來自朝鮮中央電視臺KCTV、韓國KBS國際廣播電臺、中國中央人民廣播電臺朝鮮語頻道近兩年的新聞廣播內(nèi)容,其中朝鮮朝鮮語407條,韓國朝鮮語291條,中國朝鮮族語言375條,使用CoolEdit軟件錄制,采樣頻率為8kHz,使用MATLAB工具進行仿真實驗,每次實驗均隨機抽取三地朝鮮語方言樣本集中每種方言樣本的三分之二用于訓練分類器,三分之一用于測試方言辨識系統(tǒng),方言辨識系統(tǒng)的準確率為測試樣本的總正確個數(shù)與測試樣本總個數(shù)的比值。
4.1 基頻的移位差分系數(shù)可行性分析
使用某種新特征時,應該首先分析該特征是否具有較好的區(qū)分能力,只有區(qū)分能力較強的特征,才能獲得好的結果。由于語音特征的維數(shù)一般都比較大,故很難直觀地說明其區(qū)分能力。本文采用拉普拉斯降維方法,將三地朝鮮語的移位差分系數(shù)特征從高維空間降維到二維空間中,如圖1所示,使其可在新空間中基本保持原來的局部結構。
圖1表示三地的方言特征在不同參數(shù)組合下經(jīng)降維后的空間分布效果圖,可看出三種方言特征所占區(qū)域雖存在交集但區(qū)域較小,在高維空間中的影響勢必更小,故本文選用基頻的移位差分系數(shù)這一特征可較好地區(qū)分三地的朝鮮語方言。
4.2 基頻的移位差分系數(shù)特征穩(wěn)定性分析
較好的特征不僅要求其擁有較好的區(qū)分能力,還應具有較強的魯棒性和穩(wěn)定性,即其區(qū)分能力的強弱不應依賴于提供的樣本。若該特征在某些樣本上表現(xiàn)很好,在某些樣本上表現(xiàn)卻較差,不僅影響系統(tǒng)的穩(wěn)定性,還將限制其更廣的應用。
圖1 拉普拉斯降維后效果圖
圖2中,每幅子圖分別表示在相同參數(shù),樣本隨機打亂后任意選取一部分用于實驗所得的三地朝鮮語方言的辨識結果分析圖??煽闯?,雖然樣本的順序被打亂,以致每次訓練所用的樣本和測試所用的樣本發(fā)生了變化,每種參數(shù)組合下四次的實驗結果雖略有起伏,但是差別不大,充分說明了本文所選用的基頻移位差分系數(shù)特征具有較強的穩(wěn)定性和較好的魯棒性。
4.3 確定特征的參數(shù)值
本文提出的語音特征共有(n-d-P-k)和m五個參數(shù),其中參數(shù)組合(n-d-P-k)影響本文所用特征—移位差分系數(shù)的提取,m用于對結果準確性的進一步提升,即以連續(xù)m個語音結果中少數(shù)服從多數(shù)的投票原則共同決策最終的辨識結果,可進一步提高方言辨識系統(tǒng)的穩(wěn)定性和辨識準確率。參數(shù)n,d,P,k,m的值的確定方法如下:
step 1 設待確定參數(shù)集合U,包括參數(shù){n,d,P,k,m},確定參數(shù)集合V,開始為空
step 2 選取待確定參數(shù)集合U中的一個參數(shù),其余待確定參數(shù)選取任一值作為參數(shù)值
step 3 將待確定參數(shù)集合U中選取的參數(shù)以不同的參數(shù)值做實驗直到選定最佳的參數(shù)值,將該待確定參數(shù)從待確定參數(shù)集合移至確定參數(shù)集合V中
step 4 檢測待確定參數(shù)集合U是否為空。若為空,參數(shù)的值全部確定完畢,輸出V;否則,執(zhí)行step 2
表1是根據(jù)參數(shù)值的確定算法經(jīng)過多次實驗獲得的在n,d,P,k,m值分別不同情況下的方言辨識系統(tǒng)的準確率。在參數(shù)n=3,d=3,P=6,k=8時,取m=3。繼續(xù)增大m值,準確率雖有所上升,但上升幅度較小,而且會使朝鮮語方言辨識速度降低,因此取m=3。從表1中可看出方言辨識系統(tǒng)在參數(shù)V={3,3,6,8,3}時辨識正確率最大,此時方言辨識系統(tǒng)的正確率為92.4%。
圖2 穩(wěn)定性分析圖
n準確率/%d準確率/%P準確率/%k準確率/%m準確率/%188.2189.2190.2189.1188.2291.6291.6289.2290.1392.4392.4392.4391.2390.2592.5492.0492.1491.5491.1792.8591.9591.1592.0591.5——————692.4691.3792.1792.1891.1892.4——990.5
4.4 本文所提特征與SDC特征的對比
表2是本文特征和SDC特征在不同實驗次數(shù)下的正確率,從中可看出使用本文提出的特征獲得的三地方言的正確辨識率要高于以SDC為特征的辨識率,證明本文方法的有效性。
表2 本文特征和SDC不同實驗次數(shù)下的準確率
文中提出了一種新的區(qū)分朝鮮語方言的語音特征。采用的基頻移位差分系數(shù)特征是由基頻的一階差分擴展而來,反映了語音韻律的動態(tài)特征,且使用時不需要專業(yè)的背景知識,不需要進行大量的標注,節(jié)省大量的人力物力,算法也相對較簡單。實驗結果表明,基頻的移位差分系數(shù)特征對于三地朝鮮語方言具有良好的區(qū)分性和較強的穩(wěn)定性,采用該特征用要比使用傳統(tǒng)的移位差分倒譜系數(shù)特征的識別率高。但是本文所使用的語音樣本來自朝鮮、韓國、中國三地朝鮮語方言的新聞廣播內(nèi)容,說話方式專業(yè)性較強,故下一步實驗將采集更多不同人的語音樣本驗證本文方法的可行性。
[1] 顧明亮,沈兆勇. 基于語音配列的漢語方言自動辨識[J]. 中文信息學報,2006,20(6): 77-82.
[2] 張衛(wèi)強,劉加. 基于聽感知特征的語種識別[J].清華大學學報(自然科學版),2009,49(1): 78-81.
[3] 賈晶晶,顧明亮,朱恂,張世形. 基于流形學習與特征融合的漢語方言辨識[J]. 計算機工程與應用,2015,51(7): 233-237.
[4] 蘆世丹,崔榮一. 發(fā)音相似的朝鮮語和漢語單元音辨識方法[J].中文信息學報,2013,27(2): 112-117.
[7] 畢玉德. 朝鮮語自然語言處理研究管窺[J]. 中文信息學報,2011,25(6): 166-169.
[8] L Burget, P Matejka, J Cernocky. Discriminative Training Techniques for Acoustic Language Identification[C]//Proceedings of International Conference on Acoustics, Speech and Signal Processing. Toulouse, France, 2006: 209-212.
[9] M H Hedge, A M Hema. Automatic Language Identification and Discrimination Using the Modified Group Delay Feature[C]//Proceedings of International Conference on Intelligent Sensing and Information Processing. Chennai, India, 2005: 395-399.
[10] F Allen, E Ambikairajah, J Epps. Warped Magnitude and Phase-Based Features for Language Identification[C]//Proceedings of International Conference on Acoustics, Speech and Signal Processing. Toulouse, France, 2006: 201-204.
[11] S Itahashi, T Kiuchi, M Yamamoo. Spoken Language Identification Utilizing Fundamental Frequency and Cepstra[C]//Proceedings of Eurospeech. Budapest, Hungary, 1999: 383-386.
[12] F Pellegrino, J Farinas, R Obrecht. An Unsupervised Approach to Language Identification[C]//Proceedings of the International Conference on Acoustics, Speech and Signal Processing. Phoenix, USA, 1999: 833-836.
[13] J Farinas, F Pellegrino. Automatic Rhythm Modeling for Language Identification[C]//Proceedings of Eurospeech. Aalborg, Denmark, 2001: 2539-2542.
[14] J Rouas. Modeling Long and Short-term Prosody for Language Identification[C]//Proceedings of Interspeech. Lisbon, Portugal, 2005: 2257-2260.
[15] P Dalsgaard, O Andersen, H Hesselager. Language Identification Using Language Dependent Phonemes and Language Independent Speech Units[C]//Proceedings of International Conference on Spoken Language Processing. Philadelphia, USA, 1996: 1808-1811.
[16] S Kadambe, J L Hieronymous. Language Identification with Phonological and Lexical Models[C]//Proceedings of International Conference on Acoustics, Speech and Signal Processing. Dtroit, USA, 1995: 3507-3511.
[17] H L Thomas, E S Parris, J H Wright. Recurrent Substring and Data Fusion for Language Recognition[C]//Proceedings of International Conference on Spoken Language Processing. Sydney, Australia, 1998: 169-173.
[18] P A Torres-Cassrasquillo.Language Identification Using Gaussian Mixture Models [D]. Michigan State University,2002.
Research on Korean Dialect Identification Based on Pitch Feature
LIU Shuangjun, JIN Xiaofeng, CUI Rongyi
(Intelligent Information Processing Lab., Dept. of Computer Science & Technology,Yanbian University, Yanji, Jilin 133002, China)
This paper presents a pitch-based automatic recognition method of China’s Korean, Republic of Korea and DPRK Korean dialects. Firstly, the shifted delta coefficients of pitch is extracted as feature parameter because of its strong discriminability. Secondly, the layered SVM algorithm and a voting mechanism are adopted to get the optimal classification result. Experimental results show that the recognition rate of the proposed method is better than conventional method based on shifted delta cepstral coefficients.
dialect identification; language identification; pitch feature; shifted delta cepstral coefficients; support vector machine
劉雙君(1988—),碩士,研究實習員,主要研究領域為智能語音處理(語種辨識等)。E?mail:liushuangjun0318@163.com金小峰(1970—),通信作者,碩士,教授,主要研究領域為智能語音處理,計算機視覺、機器人技術。E?mail:xfjin@ybu.edu.cn崔榮一(1962—),博士,教授,主要研究領域為智能計算,模式識別,機器學習,自然語言處理。E?mail:cuirongyi@ybu.edu.cn
2016-01-10 定稿日期: 2016-03-10
吉林省科技廳自然科學基金(20140101225JC)
1003-0077(2017)02-0055-06
TP391
A