文/卓嘎
隨著計(jì)算機(jī)的發(fā)展和人工智能技術(shù)的普及,語(yǔ)音信號(hào)處理技術(shù)作為人工智能接口和交互模塊的交叉學(xué)科研究領(lǐng)域得到了越來(lái)越多的關(guān)注。各種語(yǔ)音處理工具和軟件也應(yīng)運(yùn)而生,其中Praat作為一個(gè)比較簡(jiǎn)單有效的語(yǔ)音處理和分析軟件,在嗓音分析、語(yǔ)音波合成、語(yǔ)言輔助教學(xué)和語(yǔ)音數(shù)據(jù)統(tǒng)計(jì)分析等相關(guān)研究領(lǐng)域得到了廣泛的應(yīng)用。
Praat最早是荷蘭阿姆斯特丹大學(xué)的Paul Boersma教授和David Weenink教授合作開(kāi)發(fā)的語(yǔ)音分析軟件,Praat在荷蘭語(yǔ)里是交談和說(shuō)話的意思。研究資料顯示,目前國(guó)內(nèi)外有很多語(yǔ)言教學(xué)工作者、語(yǔ)音信號(hào)處理和人工智能研究者都在使用Praat軟件進(jìn)行世界各國(guó)語(yǔ)言的語(yǔ)音研究分析,如英語(yǔ)、荷蘭語(yǔ)、日語(yǔ)、西班牙語(yǔ)、法語(yǔ)、俄語(yǔ)等。
近年來(lái),Praat在國(guó)內(nèi)語(yǔ)音處理研究中得到了廣泛的應(yīng)用,這些研究主要內(nèi)容集中在對(duì)漢語(yǔ)普通話、漢語(yǔ)方言進(jìn)行語(yǔ)音參數(shù)提取特征分析、語(yǔ)音頻譜和聲紋分析、語(yǔ)音標(biāo)注以及語(yǔ)料庫(kù)統(tǒng)計(jì)分析等方面。Praat也是語(yǔ)音教學(xué)過(guò)程中的有效工具之一,在輔助教學(xué)、發(fā)音糾正、口語(yǔ)測(cè)評(píng)等方面獲得了很好的教學(xué)效果。
Praat在少數(shù)民族語(yǔ)言的語(yǔ)音處理研究中也有一些應(yīng)用,如維吾爾語(yǔ)、藏語(yǔ)等,但是相關(guān)的資料和文獻(xiàn)比較少,本文利用Praat強(qiáng)大的語(yǔ)音分析和聲學(xué)參數(shù)提取功能對(duì)藏語(yǔ)語(yǔ)音進(jìn)行錄音、標(biāo)注、參數(shù)提取、頻譜分析和藏語(yǔ)連續(xù)語(yǔ)音聲學(xué)分析。
1993年P(guān)aul Boersma教授和David Weenink教授合作發(fā)布了Praat語(yǔ)音分析軟件的第一個(gè)版本,后來(lái)他們?nèi)∠耸跈?quán),作為開(kāi)源軟件為用戶免費(fèi)提供。目前最新的版本是Praat6.1,在語(yǔ)音處理研究領(lǐng)域得到了廣泛的應(yīng)用。軟件可以在不同的操作系統(tǒng)上跨平臺(tái)使用,是一款具有語(yǔ)音波形繪制、語(yǔ)譜顯示、特征參數(shù)標(biāo)注、語(yǔ)音分解和合成等多種功能的語(yǔ)音信號(hào)分析研究工具。Praat強(qiáng)大的可視化交互界面,可以直觀動(dòng)態(tài)觀察語(yǔ)音信號(hào)的細(xì)節(jié)參數(shù)。圖1是把一個(gè)真人錄音的語(yǔ)音文件導(dǎo)入到Praat軟件后的語(yǔ)音分析界面。
在Praat軟件環(huán)境下,一段語(yǔ)音完成錄音后,可以進(jìn)行語(yǔ)音的各種時(shí)域參數(shù)提取和分析。圖2是一個(gè)語(yǔ)音文件的時(shí)域語(yǔ)音強(qiáng)度波形圖。從強(qiáng)度曲線變化上可以直觀的觀察這段語(yǔ)音強(qiáng)度的特性,是語(yǔ)音發(fā)音過(guò)程中節(jié)奏變化的體現(xiàn)。在Praat里可以通過(guò)設(shè)置音強(qiáng)參數(shù)生成語(yǔ)音的分析文件進(jìn)行數(shù)據(jù)分析。繪制的強(qiáng)度曲線單位為分貝,可以通過(guò)轉(zhuǎn)換功能變成振幅強(qiáng)度曲線。
Praat軟件還可以提取語(yǔ)音的各種評(píng)語(yǔ)參數(shù),包括語(yǔ)譜圖、共振峰、基音軌跡等。語(yǔ)譜圖是一種三維圖形,橫坐標(biāo)和縱坐標(biāo)分別表示語(yǔ)音持續(xù)的時(shí)間和對(duì)應(yīng)的頻率,而第三維坐標(biāo)一般為灰度圖或者是彩色圖,代表對(duì)應(yīng)時(shí)刻語(yǔ)音的強(qiáng)度。圖3是上面例句語(yǔ)音的語(yǔ)譜圖,陰影的濃度表示語(yǔ)音的強(qiáng)度,通過(guò)選擇不同的帶寬可以繪制寬帶語(yǔ)譜圖和窄帶語(yǔ)譜圖。語(yǔ)譜圖上有各種不同的“圖紋”,如亂紋、橫杠和沖直條等,分別代表不同的語(yǔ)音發(fā)音特征,沖直條代表發(fā)音的爆破音,亂紋是摩擦音,而橫杠紋路代表語(yǔ)音的濁音。語(yǔ)譜圖包含了語(yǔ)音的豐富的頻率信息,包括語(yǔ)音音調(diào)的變化和語(yǔ)音基音頻率變化軌跡以及語(yǔ)音的共振峰等參數(shù)特征,可以比較精確地分析語(yǔ)音的頻域聲學(xué)特征。
Praat還可以編寫(xiě)腳本語(yǔ)言,praat script語(yǔ)法簡(jiǎn)單、數(shù)據(jù)類型豐富,占用空間少,對(duì)于具備一定的編程能力的人可以進(jìn)行快速有效的程序編寫(xiě),實(shí)現(xiàn)語(yǔ)音數(shù)據(jù)參數(shù)的快速提取。在軟件主窗口的Control菜單下面點(diǎn)擊“New praat script”按鈕,就可以建立新的腳本語(yǔ)言編輯窗口。
圖1:Praat語(yǔ)音分析界面
圖2:時(shí)域語(yǔ)音強(qiáng)度波形圖
圖3:語(yǔ)音頻域語(yǔ)譜圖
圖4:Praat腳本代碼
圖4是一個(gè)提取語(yǔ)音二維譜中各頻率成分的能量值的腳本界面。在對(duì)象列表窗口中選定一個(gè)二維頻譜對(duì)象(Spectrum),然后點(diǎn)擊“Run”按鈕,運(yùn)行腳本編輯器,完成執(zhí)行后會(huì)以txt文件形式默認(rèn)保存在“C:/temp.txt”下面。
表1:藏文輔音元音拉丁字母轉(zhuǎn)換表
圖5:藏語(yǔ)連續(xù)語(yǔ)音時(shí)域、頻譜和音節(jié)標(biāo)注
圖6:藏語(yǔ)連續(xù)句子標(biāo)注
圖7:語(yǔ)音強(qiáng)度曲線
Praat軟件可以在前期的錄音、標(biāo)注和各種語(yǔ)音參數(shù)提取基礎(chǔ)上,進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析,如語(yǔ)音聲學(xué)參數(shù)數(shù)據(jù)的相關(guān)性分析、相似度分析、方差分析、回歸分析各種統(tǒng)計(jì)分析,為語(yǔ)音合成、語(yǔ)音濾波和建立語(yǔ)音聲學(xué)模型提供重要的數(shù)據(jù)分析依據(jù)。
本實(shí)驗(yàn)是在安靜環(huán)境下的真人錄音,被錄音者是藏語(yǔ)母語(yǔ)話者,用cool edit錄音軟件錄制了一段藏語(yǔ)連續(xù)語(yǔ)音,句子內(nèi)容為“”,漢語(yǔ)翻譯為“好的,那到時(shí)候咱兩一起去看節(jié)目吧!”,語(yǔ)音文件保存為tbs.wav。采集的語(yǔ)音數(shù)據(jù)采樣頻率為44100Hz,量化精度為16bit。錄制后導(dǎo)入到Pratt語(yǔ)音分析軟件并進(jìn)行標(biāo)注,該段語(yǔ)音的時(shí)域波形、頻譜分布和對(duì)應(yīng)的語(yǔ)料標(biāo)注如圖5所示。第1層是語(yǔ)音的使用波形,第2層是頻譜分布、語(yǔ)音強(qiáng)度,共振峰峰分布和基音軌跡的混合圖。第3層和4層是標(biāo)注層,第3層是該連續(xù)句子中每一個(gè)音節(jié)段的切分和藏語(yǔ)標(biāo)注,標(biāo)注為“sl”的是靜音段。最后一層是每一個(gè)音節(jié)對(duì)應(yīng)的序號(hào)標(biāo)注。從圖上可以看出語(yǔ)音信號(hào)延續(xù)的時(shí)間是2.91秒。
藏語(yǔ)是拼音文字,發(fā)音規(guī)則類似于英語(yǔ),以音節(jié)為單位,由30個(gè)輔音字母作為音節(jié)的基字,基字與“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”和四個(gè)元音符號(hào)拼讀出一個(gè)音節(jié)。音節(jié)是由一個(gè)或一個(gè)以上的音素構(gòu)成,藏語(yǔ)音素的發(fā)音可以轉(zhuǎn)寫(xiě)成對(duì)應(yīng)的國(guó)際音標(biāo)拉丁字母。表1是藏語(yǔ)輔音(30個(gè))和元音的拉丁字母轉(zhuǎn)寫(xiě)表,表中最后4個(gè)音素對(duì)應(yīng)的是藏語(yǔ)4個(gè)元音的拉丁轉(zhuǎn)寫(xiě),分別為i,u,e,o。
在Praat軟件里,通過(guò)各種分層標(biāo)注可以對(duì)原始語(yǔ)音進(jìn)行各種語(yǔ)音聲學(xué)參數(shù)提取,這些分層標(biāo)注類型包括:音節(jié)層、音素層、重音標(biāo)注層、聲韻母層、清音濁音層等等。Praat軟件可以較精確的標(biāo)注連續(xù)語(yǔ)音波形對(duì)應(yīng)的音素和音節(jié),為了正常顯示各個(gè)音標(biāo)的拉丁符號(hào)需要提前將國(guó)際音標(biāo)字體IPA下載到本地機(jī)器上。標(biāo)注層按所需聲學(xué)參數(shù)分層后,就可以把對(duì)應(yīng)音素的國(guó)際音標(biāo)用拉丁字母標(biāo)注在Praat的聲波層(Tier)里,圖6是上述藏語(yǔ)連續(xù)語(yǔ)音例句的錄音文件tbs.wav的時(shí)域波形和對(duì)應(yīng)的藏語(yǔ)拉丁字母轉(zhuǎn)寫(xiě)的音節(jié)標(biāo)注,圖中包含三層標(biāo)注層,第一層是例句的藏文句子,第二層是對(duì)應(yīng)拉丁字母轉(zhuǎn)換的音節(jié)層標(biāo)注,標(biāo)注為“sl”的單元代表靜段,最后一層是句子中各個(gè)音節(jié)的序號(hào)標(biāo)注,便于后面的數(shù)據(jù)描述。
圖7是上述連續(xù)語(yǔ)音句子的語(yǔ)音強(qiáng)度曲線波形圖.橫坐標(biāo)是時(shí)間,以秒為單位,縱坐標(biāo)是語(yǔ)音強(qiáng)度的分貝值,單位是dB,整體句子的強(qiáng)度分布比較均勻,在提取時(shí)間線上的全部強(qiáng)度值,發(fā)現(xiàn)平均強(qiáng)度為63.7dB,最大強(qiáng)度11.8dB,最小強(qiáng)度為84.1dB。圖7是根據(jù)前面連續(xù)語(yǔ)音句子的標(biāo)注信息,將每個(gè)藏語(yǔ)音節(jié)對(duì)應(yīng)的幅度曲線分割繪制出來(lái)。從圖上可以直觀的看到每個(gè)音節(jié)的強(qiáng)度曲線波形,在句子中一共有14個(gè)音節(jié),語(yǔ)音的強(qiáng)度值越大,能量就越強(qiáng),發(fā)清音時(shí)聲帶不振動(dòng),能量小,因此其強(qiáng)度值也??;發(fā)濁音時(shí)聲帶振動(dòng),能量強(qiáng)其強(qiáng)度值也較大,在語(yǔ)音特征分析研究中,通常也會(huì)用輕音和濁音的能量值的高低作為語(yǔ)音端點(diǎn)檢測(cè)的依據(jù)之一。對(duì)照?qǐng)D6中第三層標(biāo)注的音節(jié)序列,在這句藏語(yǔ)連續(xù)語(yǔ)音中,第2,4,9,11音節(jié)的能量較強(qiáng)對(duì)應(yīng)的幅值也較高。
共振峰是語(yǔ)音信號(hào)的重要頻域參數(shù)之一,反映了語(yǔ)音的聲道諧振的情況也是體現(xiàn)語(yǔ)音音質(zhì)的重要參數(shù)。圖8是實(shí)驗(yàn)例句共振峰頻率峰值點(diǎn)的曲線圖,圖中橫坐標(biāo)是時(shí)間,縱坐標(biāo)為共振峰頻率值。圖9是例句語(yǔ)音的語(yǔ)譜圖,語(yǔ)音信號(hào)中元音的發(fā)音較長(zhǎng)其能量比較強(qiáng)對(duì)應(yīng)的頻率值也較高。元音是一種周期信號(hào),因此共振峰的頻率也是按周期倍數(shù)增長(zhǎng),在語(yǔ)譜圖上是橫杠,如第1、4和9音節(jié),例句中摩擦音類似于噪聲的隨機(jī)信號(hào),共振峰頻率值相對(duì)較低,語(yǔ)譜圖上是亂紋,如圖中的第2、11音節(jié);爆破音類似猝發(fā)波,發(fā)音前端的頻譜波紋是沖直線,如圖中的第3、13、14音節(jié)的前端的共振峰頻率。在語(yǔ)音信號(hào)中,共振峰的前三個(gè)頻率是非常重要,一般會(huì)用F0,F1和F2來(lái)表示,其中F0是基音頻率,對(duì)應(yīng)圖8中最下面的曲線,F(xiàn)1是1次諧波頻率對(duì)應(yīng)基頻F0上面的的頻率,F2為2次諧波頻率,對(duì)應(yīng)F1上面的頻率,以此類推,圖8中實(shí)驗(yàn)例句的第1個(gè)音節(jié)的前三個(gè)共振峰頻率分別為327.80Hz,1932.16Hz,2733.38Hz。
語(yǔ)音的基音參數(shù)提取方法很多,包括波形估計(jì)、自相關(guān)算法、語(yǔ)音倒譜算法等。在語(yǔ)音信號(hào)分析中,對(duì)于有調(diào)的語(yǔ)音來(lái)說(shuō),通常用提取基音的頻率軌跡波形來(lái)觀察語(yǔ)音的語(yǔ)調(diào)和韻律。圖10是例句語(yǔ)音的基音頻率包絡(luò)曲線和對(duì)應(yīng)的音節(jié)序號(hào)圖,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為各個(gè)時(shí)刻的基音頻率值,平均基音頻率為115.28Hz;從曲線上可以看出藏語(yǔ)的發(fā)音語(yǔ)調(diào)有起伏變化,有明顯的聲調(diào)、降調(diào)、平調(diào)等四聲的變化,也有韻律短語(yǔ),如第4、5、6、7音節(jié)的連讀音的韻律。另外,在語(yǔ)音合成處理過(guò)程中可以通過(guò)修改基音頻率周期進(jìn)行語(yǔ)調(diào)合成。
Praat是可視化語(yǔ)音綜合分析的有效平臺(tái)之一。Praat軟件對(duì)語(yǔ)音錄音數(shù)據(jù)繪圖比較直觀,語(yǔ)音特征參數(shù)提取方法簡(jiǎn)單,數(shù)據(jù)也比較準(zhǔn)確,誤差較小,特別是繪制的語(yǔ)音參數(shù)圖像分辨率較高,語(yǔ)譜圖的紋理比較清晰,基音軌跡輪廓清楚,因此在利用圖像處理技術(shù)進(jìn)行語(yǔ)音參數(shù)方面具有很大優(yōu)勢(shì)。本文中,對(duì)錄制的藏語(yǔ)連續(xù)語(yǔ)音的音頻文件,利用Praat軟件進(jìn)行了詳細(xì)的語(yǔ)音標(biāo)注并提取了基本的語(yǔ)音參數(shù),分析了藏語(yǔ)連續(xù)語(yǔ)音中音節(jié)語(yǔ)音強(qiáng)度、共振峰曲線、基音軌跡等特征參數(shù),研究?jī)?nèi)容為藏語(yǔ)連續(xù)語(yǔ)音的參數(shù)提取、語(yǔ)音識(shí)別、語(yǔ)音合成以及藏語(yǔ)言發(fā)音教學(xué)提供一些基礎(chǔ)研究數(shù)據(jù)。
圖8:共振峰頻率曲線圖
圖9:連續(xù)語(yǔ)音的語(yǔ)譜圖
圖10:語(yǔ)音基音軌跡