亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

維哈柯及蒙語(yǔ)多文種語(yǔ)言相似性考查研究

2013-04-23 06:16:27達(dá)瓦伊德木草1吾守爾斯拉木1

中文信息學(xué)報(bào) 2013年6期

王玲, 達(dá)瓦·伊德木草1,,吾守爾·斯拉木1,

(1. 新疆大學(xué) 信息與工程學(xué)院，新疆烏魯木齊 830046; 2. 新疆大學(xué) 新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室，新疆烏魯木齊 830046)

1 引言

多語(yǔ)言信息處理，尤其是少數(shù)民族語(yǔ)言信息處理正從文字信息處理階段跨越到較復(fù)雜的自然語(yǔ)言及語(yǔ)音處理階段，機(jī)器翻譯MT(Machine Translation), 大詞匯連續(xù)語(yǔ)音識(shí)別LVCSR(Large Vocabulary Continuous Speech Recognition )等新技術(shù)在少數(shù)民族語(yǔ)言信息處理中逐步得到預(yù)期測(cè)試效果[1-3]。

語(yǔ)言信息的自動(dòng)處理往往需要豐富的語(yǔ)言信息知識(shí)，大規(guī)模語(yǔ)言資源的收集、整理、建設(shè)，需要耗費(fèi)大量人力、物力、財(cái)力，并且對(duì)于小語(yǔ)種語(yǔ)言(即少數(shù)民族語(yǔ)言)其現(xiàn)有語(yǔ)言資源缺乏，嚴(yán)重阻礙了少數(shù)民族語(yǔ)言信息處理的深入發(fā)展。本文研究同語(yǔ)系多種黏著語(yǔ)言間的相似性，以期實(shí)現(xiàn)語(yǔ)言資源間的共享。自然界存在許多較相似的語(yǔ)言，如同語(yǔ)系語(yǔ)言，而同一語(yǔ)系下同語(yǔ)族語(yǔ)言間相似性更高，這些語(yǔ)言不僅在文字字模、構(gòu)詞方法、語(yǔ)序、句法、語(yǔ)法等結(jié)構(gòu)上較接近，而且在發(fā)音風(fēng)格上有更多相似特征[4]。接下來(lái)將以阿勒泰語(yǔ)系下土耳其語(yǔ)族TLB(Turkish Language Branch)和蒙古語(yǔ)族MLB(Mongolian Language Branch)的文本信息為例進(jìn)行說(shuō)明。圖1顯示了維(Uyghur)哈(Kazakh)柯(Kyrgyz)三種語(yǔ)言的文本句對(duì)，及其相應(yīng)的Unicode編碼，三條語(yǔ)句都表達(dá)“你什么時(shí)候來(lái)我們家？”，它們同屬土耳其語(yǔ)族。仔細(xì)觀察發(fā)現(xiàn)，每條語(yǔ)句由若干個(gè)阿拉伯字母按至右向左順序書(shū)寫(xiě)而成，字符串間用空格分隔。雖然有Uyghur, Kazakh, Kyrgyz不同語(yǔ)言之分，但其字模，字符串構(gòu)成方式，語(yǔ)序以及句法和語(yǔ)法規(guī)則大體相通。另外，三種語(yǔ)言對(duì)應(yīng)字符串的Unicode編碼不僅內(nèi)容上大體相同，而且在表現(xiàn)形式上 (斜體字部分) 也較接近，即使某些略有差別，但切分詞干與后綴功能詞后，詞干部分幾乎相同。如圖1各條語(yǔ)句的第一個(gè)字符串(從右)編碼中，詞干 /biz/ 都相同，僅后綴功能詞不同。黏著語(yǔ)言中這些功能詞數(shù)量有限，這充分說(shuō)明同語(yǔ)族語(yǔ)言在書(shū)寫(xiě)表現(xiàn)形式上有公共信息。

圖1 維哈柯語(yǔ)文本句對(duì)及其Unicode編碼

這種公共信息結(jié)構(gòu)也同現(xiàn)于蒙古語(yǔ)族，圖2顯示了三種蒙古語(yǔ)(TM，TODO，NM)文本句對(duì)樣式，它們同屬M(fèi)LB，目前在不同國(guó)家或不同地區(qū)被使用。觀察它們的Unicode編碼，發(fā)現(xiàn)TODO與NM(New Monglian蒙古國(guó)語(yǔ)言文字系統(tǒng)) 語(yǔ)言詞對(duì)齊公共部分出現(xiàn)較多。圖3進(jìn)一步說(shuō)明TODO與NM詞與詞之間直接轉(zhuǎn)寫(xiě)的可能性較大。

圖2 不同蒙古語(yǔ)文本句對(duì)樣式及其Unicode

圖3 MLB語(yǔ)言間詞對(duì)齊關(guān)系

據(jù)以上分析，同語(yǔ)族各語(yǔ)言間存在較多公共信息，能否有效利用這些公共部分實(shí)現(xiàn)各語(yǔ)言之間的文本語(yǔ)音信息的轉(zhuǎn)換處理，從而降低少數(shù)民族語(yǔ)言與不同語(yǔ)序、不同語(yǔ)法語(yǔ)言(如漢語(yǔ))之間的翻譯處理難度，是極其有意義的討論課題。因此本文設(shè)計(jì)以下技術(shù)路線，如圖4所示，先采用MT(Machine Translation) 高代價(jià)復(fù)雜技術(shù)解決漢語(yǔ)與維語(yǔ)的轉(zhuǎn)換問(wèn)題，再討論用TT(Text Transformation)技術(shù)解決同語(yǔ)族語(yǔ)言文本轉(zhuǎn)換問(wèn)題，進(jìn)而實(shí)現(xiàn)漢語(yǔ)與不同少數(shù)民族語(yǔ)言的機(jī)器翻譯。該方法或許比各少數(shù)民族語(yǔ)言單獨(dú)使用MT技術(shù)更方便有效。為此，探討語(yǔ)言之間共享性或者相通性很有必要。

圖4 漢語(yǔ)與少數(shù)民族語(yǔ)言(同語(yǔ)族語(yǔ)言)機(jī)器翻譯技術(shù)路線

本文組織結(jié)構(gòu)如下：第2節(jié)簡(jiǎn)介相關(guān)研究現(xiàn)狀，第3節(jié)討論Cosine相似尺度理論，第4節(jié)基于對(duì)齊文本及語(yǔ)音音律參數(shù)，利用Cosine相似度算法，通過(guò)具體實(shí)驗(yàn)考察各語(yǔ)言間相似性，分析實(shí)驗(yàn)結(jié)果，第5節(jié)為結(jié)論與展望。

2 相關(guān)研究現(xiàn)狀

近年來(lái)，關(guān)于跨語(yǔ)言信息處理研究，主要側(cè)重于跨語(yǔ)言檢索以及相似語(yǔ)音參數(shù)橫向移植等方面。文獻(xiàn)[5]運(yùn)用德、英、法等15種歐洲語(yǔ)言語(yǔ)音聲學(xué)參數(shù)橫向移植，實(shí)現(xiàn)目標(biāo)語(yǔ)的語(yǔ)音識(shí)別。文獻(xiàn)[6]借助機(jī)器翻譯實(shí)現(xiàn)中文與英文文本跨語(yǔ)言信息檢索。文獻(xiàn)[7-8]闡述了在同一語(yǔ)言文本中，通過(guò)計(jì)算句子相似度，獲取語(yǔ)義接近的句子，提高機(jī)器翻譯質(zhì)量的方法。然而，關(guān)于相似語(yǔ)種的文本及語(yǔ)音信息的橫向轉(zhuǎn)換處理研究，還很稀少。本研究前期工作基于語(yǔ)料庫(kù)以及語(yǔ)言學(xué)規(guī)則實(shí)現(xiàn)蒙古語(yǔ)多文種橫向轉(zhuǎn)寫(xiě)，取得較好成果[9-10]。

3 cosine相似尺度

設(shè)有兩個(gè)n維向量A和B，如式(1)所示，這兩個(gè)向量的相似性由式(2)給出。當(dāng)cosineθ=1,(θ=0°)時(shí)，兩個(gè)向量A和B相同，即A和B完全相似；當(dāng)cosineθ=0,(θ=90°)時(shí)，兩個(gè)向量A和B完全不相同，即A和B無(wú)相關(guān)性；用cosineθ在[0,1]之間的取值，度量?jī)蓚€(gè)向量A和B的相關(guān)程度[11-12]。

4 相似度考察實(shí)驗(yàn)

4.1 文本相似度考察實(shí)驗(yàn)

4.1.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于多語(yǔ)言平行文本語(yǔ)料，該語(yǔ)料由科研項(xiàng)目NSFC61163030*國(guó)家自然科學(xué)基金支持建造，有關(guān)該語(yǔ)料的數(shù)據(jù)統(tǒng)計(jì)信息見(jiàn)表1。

表1 多語(yǔ)言平行文本語(yǔ)料數(shù)據(jù)統(tǒng)計(jì)信息

4.1.2 實(shí)驗(yàn)方法

首先對(duì)語(yǔ)料中各種語(yǔ)言的文本句對(duì)進(jìn)行量化處理，獲取量化向量歸正參數(shù)；再利用式(2)分別計(jì)算句對(duì)級(jí)以及詞對(duì)級(jí)相似度。

4.1.3 實(shí)驗(yàn)結(jié)果及分析

圖5顯示了各語(yǔ)言句對(duì)級(jí)相似度計(jì)算結(jié)果，從圖中觀察到，在文本級(jí)實(shí)驗(yàn)中, 同語(yǔ)族語(yǔ)言之間相似度較高，MLB語(yǔ)言之間相似度達(dá)到0.8，TLB語(yǔ)言之間相似度高達(dá)0.9；不同語(yǔ)族的語(yǔ)言之間相似度明顯下降，如TLB-TODO，TLB-TM；并且TLB-TODO語(yǔ)言(同地區(qū)不同語(yǔ)族語(yǔ)言)的相似性略高于TLB-TM(不同地區(qū)不同語(yǔ)族語(yǔ)言)。

圖5 各語(yǔ)言句對(duì)級(jí)相似度計(jì)算結(jié)果

上述同語(yǔ)族語(yǔ)言之間以及不同語(yǔ)族語(yǔ)言之間的文本相似度差別，同現(xiàn)于各語(yǔ)言詞對(duì)級(jí)相似度計(jì)算結(jié)果中，并且表現(xiàn)得更加明顯，如圖6所示。圖中顯示MLB詞相似度接近0.9，TLB詞相似度超過(guò)0.9，然而不同語(yǔ)族語(yǔ)言之間詞相似度極低。實(shí)驗(yàn)結(jié)果揭示，對(duì)于不同的少數(shù)民族語(yǔ)言，如果它們屬于同一語(yǔ)族，則實(shí)現(xiàn)不同形式語(yǔ)言文本轉(zhuǎn)換處理，在詞級(jí)單元平行進(jìn)行是可能實(shí)現(xiàn)的。

圖6 各語(yǔ)言詞對(duì)級(jí)相似度計(jì)算結(jié)果

4.2 語(yǔ)言的發(fā)音相似度考察實(shí)驗(yàn)

4.2.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)以維哈柯語(yǔ)言為主，利用平行語(yǔ)料錄制語(yǔ)音，分別選用各語(yǔ)言10個(gè)發(fā)話人，每人朗讀相同內(nèi)容的50個(gè)句子，進(jìn)行錄制。錄制數(shù)據(jù)用16KHz，16bit，單聲道WAVE格式保存。最后，對(duì)錄制的每句語(yǔ)音流，人工嚴(yán)格地標(biāo)注出音素，再分別抽出音素單元的聲學(xué)特征參數(shù)以及句子發(fā)話段的基頻參數(shù)F0，如圖7所示，本實(shí)驗(yàn)將分別考察各語(yǔ)言聲學(xué)特征及音律特征的相關(guān)性，進(jìn)而探討相似語(yǔ)言語(yǔ)音信息橫向處理的可行性，這將有利于相似語(yǔ)言連續(xù)語(yǔ)音識(shí)別，語(yǔ)音合成等跨語(yǔ)言信息處理的深入發(fā)展。

圖7 聲頻分析

4.2.2 共振峰分析

共振峰是指說(shuō)話者聲道脈沖響應(yīng)，如果將聲道視為一個(gè)諧振腔，共振峰就是這個(gè)腔體的諧振頻率。表示濁音信號(hào)，最主要的是前三個(gè)共振峰F1,F2和F3(圖8)。本實(shí)驗(yàn)利用LPC(頻域線性預(yù)測(cè)算法)，提取元音前兩個(gè)共振峰F1和F2，分別比較TLB語(yǔ)言和MLB語(yǔ)言的聲頻特性。TLB語(yǔ)言和MLB語(yǔ)言基本元音的F1和F2共振峰分析結(jié)果分別見(jiàn)圖9(a,b,c) 和圖10(a,b)，為比較黏著語(yǔ)言常用標(biāo)準(zhǔn)，圖9(d)中給出日本語(yǔ)5個(gè)元音共振峰標(biāo)準(zhǔn)分布圖[13]。分析以下各圖，得出結(jié)論： 1) 同語(yǔ)族語(yǔ)言TLB中各元音F1共振峰取值大致相同(350Hz～950Hz)，F(xiàn)2共振峰有明顯差別，哈語(yǔ)和柯語(yǔ)取值范圍明顯高于維語(yǔ)，維語(yǔ)為500Hz～4 000Hz，而哈語(yǔ)為900Hz～5 000Hz，柯語(yǔ)為1 000Hz～7 000Hz。

2) 比較圖9和文獻(xiàn)[14]的研究結(jié)果圖10，不同語(yǔ)族(TLB和MLB)語(yǔ)言的基本元音共振峰分布特性差別較大，并且從圖10(新疆和內(nèi)蒙地區(qū)蒙語(yǔ)口語(yǔ)發(fā)音)觀察到不同地區(qū)的蒙古語(yǔ)發(fā)音有明顯差距。

圖8 元音共振峰提取方法

4.2.3 音律特性—基頻(F0)分析

人類(lèi)的語(yǔ)音信息主要體現(xiàn)在韻律的變化上，在韻律特征中，基頻結(jié)構(gòu)最能反映說(shuō)話人的語(yǔ)言信息特征。語(yǔ)音中只有濁音和元音有周期性脈沖串，其頻率就是基音頻率，簡(jiǎn)稱(chēng)基頻F0。實(shí)驗(yàn)利用語(yǔ)音信號(hào)時(shí)域算法工具Wavesurfer提取不同語(yǔ)言發(fā)話段的基頻F0曲線，分析比較各語(yǔ)言基頻之間的相似性。表2和表3以及圖11(a)和圖11(b)分別給出不同語(yǔ)言話者說(shuō)相同內(nèi)容話語(yǔ)/bizningvygEqachankilisen/時(shí)基頻實(shí)驗(yàn)結(jié)果。

從表2和表3以及圖-11(a)和圖-11(b)觀察到，維哈柯各語(yǔ)言發(fā)音風(fēng)格幾乎接近，在不同民族的男女發(fā)話中，h-k(哈柯)說(shuō)話人音律最相似，其次是u-k(維柯)，接下來(lái)是u-h(維哈)。特別是，維語(yǔ)男聲(u-m)有明顯的音調(diào)特征。

表2 維哈柯語(yǔ)言男聲發(fā)話語(yǔ)音基頻實(shí)驗(yàn)結(jié)果

表3 維哈柯語(yǔ)言女聲發(fā)話語(yǔ)音基頻實(shí)驗(yàn)結(jié)果

5 結(jié)論與展望

大數(shù)據(jù)條件下建立共享云模型實(shí)現(xiàn)相似語(yǔ)言橫向或者跨語(yǔ)言信息處理，多方位通信，促進(jìn)少數(shù)民族語(yǔ)言的信息化發(fā)展是十分重要的研究方向。本文以阿勒泰語(yǔ)系下維哈柯及蒙古語(yǔ)為研究對(duì)象，利用平行語(yǔ)料從文本層面和發(fā)音層面研討了同語(yǔ)系下諸多語(yǔ)言間的相似性或者相通性，定量給出這些語(yǔ)言間的相似程度。實(shí)驗(yàn)結(jié)果顯示，在文本層面同族語(yǔ)言間以詞為單元的文本轉(zhuǎn)換的可能性較高；在語(yǔ)音層面維哈柯語(yǔ)言完全利用共享語(yǔ)音模型橫向?qū)崿F(xiàn)語(yǔ)音轉(zhuǎn)換的可能性也較高。也就是說(shuō)，如果在具備維吾爾語(yǔ)語(yǔ)言資源的前提下，通過(guò)橫向處理方式實(shí)現(xiàn)哈語(yǔ)、柯語(yǔ)或者蒙古語(yǔ)多語(yǔ)種之間的機(jī)器轉(zhuǎn)換，語(yǔ)音識(shí)別及語(yǔ)音合成等技術(shù)是完全有可能的，然而對(duì)于相似語(yǔ)言橫向處理共享模型應(yīng)該如何建設(shè)，還需要進(jìn)一步研究。

[1] Wushour Slam, et al, Speech Processing Technology of Uyghur Language[C]//Proceedings of Oriental COCOSDA International Conference on Speech Database and Assessments, 2009： 11-16.

[2] 卡哈爾江,等. 一種改進(jìn)的維吾爾語(yǔ)句子相似度計(jì)算方法[J], 中文信息學(xué)報(bào),2011, 25(4): 50-53.

[3] 伊·達(dá)瓦,等. 語(yǔ)料資源缺乏的連續(xù)語(yǔ)音識(shí)別方法的研究[J], 自動(dòng)化學(xué)報(bào),2010, 36(4): 550-557.

[4] Shuichi Itahashi, Chiu-yu Tseng. Computer Processing of Oriental Languages[M]. 2010. World Scientific,www.American-sGroup.com.

[5] T Schultz, A Waibel. Fast Bootstrapping of LVCSR System with Multilingual Phoneme Sets[C]//Proceedings of Eurospeech 2001: 371-374.

[6] Lin jun Zhang, et al. Cross-Language information retrival, Journal of Computer Science,2004,31(7), 16-19.

[7] EHARA Terumasa, et al. Mongolian to Japanese machine translation system[C]//Proceedings of second international symposium on information and language processing, 2007: 27-33.

[8] Idomucogiin Dawa, Satoshi Nakamura. A Study on Cross Transformation of Mongolian Family Language[J], Journal of Natural Language Processing, J-STAGE, 2008,15 (5): 3-21.

[9] 達(dá)瓦·伊德木草. 基于機(jī)器翻譯的蒙文多文本轉(zhuǎn)寫(xiě)方法的研究[C]//新疆維吾爾自治區(qū)科技廳自然科學(xué)基金資助項(xiàng)目(2011211A012).

[10] 伊·達(dá)瓦等, 蒙古語(yǔ)語(yǔ)言—文字的自動(dòng)化處理[J]. 中文信息學(xué)報(bào),2006, 20(4): 56-62.

[11] Jun Ye. Cosine similarity measures for intuitionistic fuzzy sets and their applications[J]. Mathmatical and Computer Modeling, 2011, 53: 91-97.

[12] TSchultz, A Waibel. Experiments on Cross Language Acoustic Modeling[C]//Proceedings of Eurospeech, 2001.

[13] 古井貞熙. 音響·音聲工學(xué)[M], 東京, 近代科學(xué)社,1992.

[14] 伊·達(dá)瓦, 大川茂村,白井克彥, 蒙古語(yǔ)七個(gè)元音聲頻特性計(jì)算機(jī)分析[J], 聲學(xué)學(xué)報(bào)，1999, 24(1): 94-97.