亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自然語言處理下的語音形式化研究

2014-06-21 11:27:24鄭瑩，陳明

湖北科技學(xué)院學(xué)報 2014年12期

鄭瑩，陳明

(宜春學(xué)院，江西宜春 336000)

一、自然語言理解概述

自然語言處理是一種技術(shù)，通過自然語言在計算機領(lǐng)域?qū)崿F(xiàn)通訊，研究利用計算機通過計算理解和生成自然語言，亦稱為計算語言學(xué)。姚天順等(1995)認為自然語言處理通常包含三個主要過程：首先，將自然語言處理的對象在語言學(xué)上形式化，通過某種規(guī)整而嚴密的數(shù)學(xué)形式表現(xiàn)；其次，將嚴密且規(guī)整的數(shù)學(xué)形式稱為算法，并在計算上形式化算法；最后，依照算法編寫計算機程序，并將程序在計算機上加以實現(xiàn)。

計算機上的自然語言理解包括自然語言的口語理解(如語音識別)和自然語言的書面語理解(如機器翻譯)。本文的研究對象主要指向自然語言中的口語理解部分。

二、語音與形式化

(一)語音的基本屬性

首先，語音以語言的物質(zhì)外殼形式存在，語音也是承載人類思維和信息的物質(zhì)載體。因此，語音作為一種聲音形式具有物理屬性。經(jīng)過形式化的語音，可以存儲、壓縮、傳輸和再生人類的思維和信息，進而最大限度地拓展人類思維和信息傳播的時間范圍與空間范圍。其次，語音也具有生理屬性，是人腦控制發(fā)音器官共同作用的產(chǎn)物，也是人類感知外界信息的主要來源。再者，語言具有社會性，而作為語言要素之一的語音，其社會性主要體現(xiàn)為社會對語音各種功能的既定性。

實際上，語音的物理、生理和社會屬性彼此相互聯(lián)系。因此，從多角度對語音現(xiàn)象展開分析對語音的形式化研究具有指導(dǎo)意義。

(二)語音的分解與離散化

自然語言處理中的語音形式化需要經(jīng)歷模擬和數(shù)字兩個階段(胡航，2005)。模擬語音信號會連續(xù)對聲音變化態(tài)勢實施取值；數(shù)字化語音信號所實施的取值具有離散性。數(shù)字化語音信號的離散特性較模擬語音信號更加便于分析和演算、可靠性高和保密性強。

依據(jù)語音學(xué)理論，語音被分解為若干單位，其中最大單位是音句，而自小單位為音素。在自然語言理解過程中，為了便于語音形式化，音素又被進一步分解成具有區(qū)別性特征的更小單位。因為人類的自然語音具有連續(xù)性，因此，自然語言理解中的語音分解被歸屬為離散化分析，要求將連續(xù)語音分解為各種離散的具有區(qū)別性特征的序列，用“0”和“1”組成的二進制序列表示語音信號。對連續(xù)語音的進一步分解，為語音數(shù)字化的不斷發(fā)展奠定良好基礎(chǔ)。

(三)語音的編碼與調(diào)制

分析處理語音信息之前，應(yīng)對語音信號實施編碼。1937年提出的脈沖編碼調(diào)制 (PCM) 經(jīng)過一系列的傳承與發(fā)展，依據(jù)對語音進行采樣、量化、編碼的基本原理和過程，在語音編碼方案中PCM一直占據(jù)主要位置(胡航，2005)。

1.采樣階段

自然語音信號首先由話筒接收，然后被轉(zhuǎn)為模擬的電信號，以連續(xù)變化的電壓波動形式呈現(xiàn)。隨后，這些電壓波動被切割成時間片段，在時間軸上被離散化。至此，電壓波動轉(zhuǎn)變?yōu)閿?shù)字信號。采樣是針對離散化后時間片段內(nèi)的電壓值。

如圖1，選取時間軸上等時長的八個采樣點，這些采樣點均以不同的電壓值呈現(xiàn)自然語音信號，他們構(gòu)成了一個脈沖序列為0，0.11，0.21，0.20，0.09，-0.05，-0.19，-0.25。這些采樣電壓值呈現(xiàn)出電波振幅的變化軌跡。

圖1 語音信號采樣示意圖

值得一提的是采樣頻率并非隨意選擇，Nyquist采樣定理認為當采樣頻率是信號頻率的兩倍或兩倍以上時，原語音信息才不被失真(韓紀慶等， 2007)。

2.量化階段

經(jīng)采樣離散化后的語音信息的電壓值(振幅)仍具有連續(xù)性。量化的目的就是分級處理采樣數(shù)據(jù)，將采樣數(shù)據(jù)逐一歸入有限的數(shù)字柵格，從而離散化波形幅度值。本文采用寬度為0.06的七個柵格分級處理上文選取的八個采樣值。

如圖2所示，采樣值被置于不同的區(qū)間，區(qū)間從-3到+3被逐一標號，八個采樣值分別對應(yīng)區(qū)間上的數(shù)值0，2，3，3，1，0，-2，-3 。任意采樣值在(-0.22，0.22)區(qū)間內(nèi)均能被離散化為七個量化值之一，進而有效的實現(xiàn)了有限量化值。

圖2 采樣值量化示意圖

但是，量化值與采樣值之間存在誤差，被稱為量化誤差。密度均勻和平穩(wěn)是量化誤差的主要特征。該特征對語音信號的影響主要表現(xiàn)為響亮的“嘶嘶”聲。實際上，量化誤差與量化分級之間有著緊密的關(guān)系，量化分級越細化，量化的數(shù)值就越精確，語音信號的噪聲就越小。

3.編碼階段

基于前兩個階段的語音信息處理，語音信號在時間和振幅上均被離散為數(shù)字信號，真正實現(xiàn)語音的傳輸、存儲和分析，仍需完成編碼階段的任務(wù)。

由電路的物理特性決定，制造與運轉(zhuǎn)現(xiàn)代電子設(shè)備主要依據(jù)二進制。因此，電子設(shè)備的工作模式通常是二進制的。編碼過程的實質(zhì)就是多進制數(shù)據(jù)向二進制數(shù)據(jù)的轉(zhuǎn)化。

用三位二進制數(shù)對在時間和振幅上均被離散的數(shù)字信號進行編碼，得出二進制序列和碼表(電壓數(shù)值與二進制數(shù)值的對應(yīng)表)。依據(jù)查表步驟，脈沖信號與二進制數(shù)據(jù)之間可以互相轉(zhuǎn)換。該表的制定也要遵循就近原則，即要求二進制碼在相鄰的量化區(qū)間內(nèi)只允許1位不相同；目的在于，一旦傳輸過程發(fā)生故障，不會影響信號整體。

在該階段，一系列的二進制序列被得到，語音數(shù)字化基本得以實現(xiàn)。二進制序列作為單純的語音轉(zhuǎn)換數(shù)據(jù)，不包括量化位數(shù)、采樣頻率和其他數(shù)據(jù)結(jié)構(gòu)的信息，但能夠輔助存儲語音產(chǎn)出者語音樣本片段的主要信息。

三、語音形式化的新領(lǐng)域——語音識別

語音識別的最終目的是讓機器能夠像人一樣能夠接受、理解和分析收到的語音信息，它是實現(xiàn)人機對話不可或缺的環(huán)節(jié)。語音識別的基本過程包括預(yù)處理階段、聲學(xué)特征提取階段、距離測度計算階段和判斷階段。

預(yù)處理主要處理原始連續(xù)語音，移除原始連續(xù)語音中的多余片段，并實現(xiàn)部分去噪和檢測個體發(fā)音差異。經(jīng)過預(yù)處理階段，自然語音信號更能反映語音信號的本質(zhì)特征。特征提取階段主要針對頻譜特性、共振峰、LPC線性預(yù)測系數(shù)以及某些超音段特征等常見聲學(xué)特征。特征提取階段可以是單個特征提取，也可以涉及兩個或兩個以上的特征提取。經(jīng)過特征提取階段，最具區(qū)別性的語音信號特征將被保留。距離測度計算階段，包括板倉一齋藤測度、歐式距離測度、主觀感知測度等，主要對比輸入語音信號中的特征值與參考模式庫中樣本值之間的相似度，為下一步處理提供充足的參考數(shù)據(jù)。判斷階段，即依據(jù)前一階段的數(shù)據(jù)結(jié)果實施判斷，對應(yīng)參考模式庫中與輸入聲學(xué)特性對應(yīng)匹配的語音單位。

在整個語音識別的過程中，每一個語音產(chǎn)出者都擁有自己獨有的個體語音特征。為使語音識別系統(tǒng)中的參考模式庫與語音產(chǎn)出者的輸入聲學(xué)特性能夠最終匹配，通常在實驗實施前，需要適當?shù)奶崆坝?xùn)練語音產(chǎn)出者，要求其誦讀一段文本。此后，語音產(chǎn)出者的個體語音特征就是語音識別系統(tǒng)比對出的個體語音樣本和標準語音樣本之間的差異結(jié)果。語音識別系統(tǒng)能夠依照個體語音特征針對性地建立個性化參考模式庫，也能夠建立個性化語音矯正參數(shù)(吳義堅等，2006)。通過參考模式庫的訓(xùn)練，能夠有效提升語音識別的準確率，因此該庫一般被用作高級語音識別系統(tǒng)的標準組成部分。

語音模式識別常用的計算方法是模版匹配法和概率統(tǒng)計法。模板匹配法的參考模式庫主要記錄離散化語音單位的特征參數(shù)，比對個體語音樣本和標準語音樣本，判斷個體語音樣本的歸屬，提取參數(shù)與選擇距離測度是該方法的應(yīng)用關(guān)鍵；該方法的優(yōu)點是訓(xùn)練時間少，缺點是對系統(tǒng)運算速度要求高且計算量大。后者的參考模式庫主要記錄數(shù)學(xué)模型，通過統(tǒng)計語音樣本符合數(shù)學(xué)模型的概率實施語音識別和判斷；該方法的優(yōu)點是靈活、計算量小，反應(yīng)速度快，充分利用語音頻譜的相關(guān)性與動態(tài)變化。但是，實際語音識別系統(tǒng)的操作過程中，較多使用模板匹配法，因為大量的訓(xùn)練才能保證較高的識別準確率。

四、小結(jié)

隨著科技的不斷發(fā)展和進步，各種不同的現(xiàn)代化信息處理方式不斷涌現(xiàn)，其中，語音作為人類最重要的信息物質(zhì)載體之一，必須順應(yīng)時代的發(fā)展和需要。因此，自然語言理解下對語音進行形式化的研究，能夠充分利用各種有限的物質(zhì)形式分析并重塑自然語音信號，拓展自然語音信號的適應(yīng)性，使其滿足各種現(xiàn)代應(yīng)用領(lǐng)域的需要。

參考文獻：

[1]胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社，2005.

[2]吳義堅，王仁華.基于HMM的可訓(xùn)練中文語音合成[J].中文信息學(xué)報，2006，(4).

[3]姚天順等.自然語言理解:一種讓機器懂得人類語言的研究[M].北京:清華大學(xué)出版社，1995.