宋金淼,王楠楠,竇浩鵬,周 未(大連民族大學(xué) .大連市民族文化數(shù)字技術(shù)重點(diǎn)實(shí)驗(yàn)室;b.文科綜合實(shí)驗(yàn)教學(xué)中心,遼寧 大連116605)
中國是一個(gè)多民族大雜居小聚居的國家,各族人民在長期生產(chǎn)生活中創(chuàng)造了各具特色的民族文化,畬族口傳文化是中國民族文化最具代表性的內(nèi)容之一,畬族民間口傳文化相當(dāng)豐富,如畬族神話、故事、民歌、民謠等。作為有語言無文字的民族,語言的保護(hù)尤為重要。畬族語音交互平臺(tái)包括畬族文化研究、畬語采集方案設(shè)計(jì)與語音處理研究、媒體播放技術(shù)、移動(dòng)應(yīng)用設(shè)計(jì)與開發(fā),網(wǎng)絡(luò)服務(wù)接口與數(shù)據(jù)交換等技術(shù),實(shí)現(xiàn)畬族語言教學(xué)、文化保護(hù)與傳承功能。
畬族是中國東南地區(qū)古老民族之一,主要聚居在福建、浙江、江西、廣東、安徽等省份。畬族內(nèi)部交流使用本民族語言,與其它民族交流使用聚居地方言或普通話。由于社會(huì)的發(fā)展,會(huì)使用本民族語言的人越來越少,畬族使用本族語的人數(shù)比例為0.15%,而轉(zhuǎn)用其他語言的人數(shù)比例占99.74%[1]。文獻(xiàn)[2]以移動(dòng)終端作為民族語言學(xué)習(xí)的工具,利用HTML5網(wǎng)頁在移動(dòng)終端上顯示,解決了大多數(shù)民族語言在移動(dòng)終端上的顯示問題,但受網(wǎng)絡(luò)因素制約會(huì)出現(xiàn)數(shù)據(jù)加載遲緩問題。文獻(xiàn)[3]實(shí)現(xiàn)了多界面的連接和界面多內(nèi)容的滑動(dòng)顯示藏漢雙語,并且成功輸出對應(yīng)藏文的音頻,但軟件平臺(tái)屬于單機(jī)應(yīng)用靈活性和擴(kuò)展性不足。目前擁有民族語言文字信息化處理平臺(tái)較少,能把畬語與信息化平臺(tái)相融合的更少。此外,在互聯(lián)網(wǎng)方面淘寶網(wǎng)上畬族商品只有10余種不重復(fù)的商品,關(guān)于畬語語音方面則是更少;在互聯(lián)網(wǎng)娛樂媒體中,優(yōu)酷上畬族視頻僅有2 000個(gè),其中高清和超清視頻總共僅有1 330個(gè);在手機(jī)軟件方面,蘋果APP與畬語語音相關(guān)的數(shù)量為0,Android應(yīng)用商店里與畬語語音相關(guān)的APP數(shù)量為0。從目前來看,畬族文化遺產(chǎn)保護(hù)工作進(jìn)展緩慢,針對畬族語言文化研究工作嚴(yán)重滯后,把畬族語言研究與日益發(fā)展的技術(shù)融合的工作亟待推進(jìn)。
建立畬語口語語料庫是瀕危語言畬語數(shù)字化保護(hù)基礎(chǔ)性工程。建立畬語口語語料庫,一方面能夠?qū)崿F(xiàn)對畬語的搶救與永久性保存,另一方面它能夠?yàn)楹罄m(xù)研究語音識(shí)別技術(shù)提供有力可靠的數(shù)據(jù)基礎(chǔ)。經(jīng)過對撫州畬族聚居地實(shí)地走訪調(diào)研畬族語言語音文化,研究多媒體數(shù)據(jù)庫設(shè)計(jì)與管理的相關(guān)資料,選調(diào)本族群人和語言專家進(jìn)行漢語的轉(zhuǎn)譯,最終收集整理畬族語音資料包括采集的初選畬語口語語料、對畬語語料進(jìn)行的口語發(fā)音的國際音標(biāo)標(biāo)注、漢語對譯標(biāo)注和漢語翻譯標(biāo)注資料。原始畬語口語語料預(yù)處理是整個(gè)工作內(nèi)容的基礎(chǔ),包括三個(gè)方面的內(nèi)容:語料的標(biāo)注與轉(zhuǎn)寫、語料校驗(yàn)以及語料的更新與存儲(chǔ),畬語口語語料的處理總體流程如圖1。
圖1 畬語口語語料處理總體流程圖
首先,原始口語語料的標(biāo)注與轉(zhuǎn)寫這個(gè)過程是由畬族人與語言專家共同完成的,將原始口語語音語料的音頻文件導(dǎo)入到軟件中,對語音進(jìn)行切分。建立轉(zhuǎn)寫標(biāo)注層,包括音標(biāo)、畬語標(biāo)注語料對譯、畬語標(biāo)注語料翻譯、畬語-語法標(biāo)注、畬語-語法備注,此部分工作由人工轉(zhuǎn)寫與標(biāo)注。然后利用軟件對音頻格式的語料進(jìn)行轉(zhuǎn)碼,轉(zhuǎn)換為國際通用編碼格式,設(shè)定奇數(shù)行為畬語-國際音標(biāo),偶數(shù)行為畬語標(biāo)注語料對譯,利用計(jì)算機(jī)編程實(shí)現(xiàn)句子之間的分離,人工按照順序進(jìn)行一一對應(yīng)地學(xué)習(xí)與校驗(yàn)。最后,將語料的更新與存儲(chǔ)存在的問題進(jìn)行反饋,由母語人和語言專家將標(biāo)注轉(zhuǎn)寫的語料內(nèi)容中的任何漏標(biāo)、誤標(biāo)、多標(biāo)、標(biāo)注不統(tǒng)一等情況進(jìn)行修正更新,形成了一套完整無誤的畬語口語語料,將畬語口語語音音頻文件以及畬語口語標(biāo)注轉(zhuǎn)寫語料文件進(jìn)行存儲(chǔ)到數(shù)據(jù)庫中。
由于采集到的原始語音信號(hào)帶有噪聲,直接使用不利于平臺(tái)用戶學(xué)習(xí)體驗(yàn),需要進(jìn)一步降噪處理,語音信號(hào)降噪前需要對原始語音信號(hào)頻譜分析和濾波。本文選擇快速傅里葉變換方法進(jìn)行頻譜分析和用雙線性變換法設(shè)計(jì)的低通濾波器,具體實(shí)現(xiàn)通過MATLAB工具箱提供的函數(shù)完成。
本文選擇基于語音激活性檢測的噪聲估計(jì)算法作為噪聲估計(jì)方法,主要關(guān)注語音背景噪聲特性和無音語音段檢測。語音活性檢測一般基于語音幀處理,具體可以概括為:從輸入信號(hào)中提取一個(gè)或一系列的對比特征參數(shù),然后將其和一個(gè)或一系列的門限閾值進(jìn)行比較。如果大于門限閾值則表示當(dāng)前為有音段,否則就表示當(dāng)前為無音段?;谛盘?hào)的短時(shí)能量檢測具體算法如下:
Step1:定義短時(shí)平均幅度函數(shù)來表征一幀語音信號(hào)的能量大小為
(1)
式中:N為幀長;n為幀的編號(hào);m為每一幀中的各點(diǎn);median為每一幀幀向量的中位數(shù);1≤n≤L,L為幀數(shù)。
Step2:L幀平均噪聲能量Em。
Step3:求能量最大值和能量最小值。
Emax=maxE(n),n=1,2,…,L,
(2)
Emin=mixE(n),n=1,2,…,L。
(3)
Step4:根據(jù)式(4)確定門限,
T=min[0.25(Emax—Emin),3Em]。
(4)
最后使用譜減法處理語音噪聲。譜減法就是從輸入信號(hào)的幅度譜中減去估計(jì)得來的噪聲平均的幅度譜,其效果相當(dāng)于在變換域?qū)г胄盘?hào)進(jìn)行了某種均衡化處理。
畬族語言文化數(shù)字化系統(tǒng)是一套轉(zhuǎn)譯畬語設(shè)備和軟件的集合,它具有畬語數(shù)字化傳輸和存儲(chǔ),資源共享,操作人性化等特點(diǎn)和優(yōu)勢。本論文對畬族語言數(shù)字化系統(tǒng)的整體方案進(jìn)行了分析和研究,解決了語言學(xué)習(xí)終端存在的數(shù)據(jù)傳輸,流媒體等方面的技術(shù)難題。
本平臺(tái)主要采用C/S模式,服務(wù)器端利用Visual Studio 2017搭建的Web Services為其他接入終端提供遠(yuǎn)程訪問數(shù)據(jù)接口;終端設(shè)備則利用Wifi或移動(dòng)信息號(hào)網(wǎng)絡(luò)訪問服務(wù)器端提供的數(shù)據(jù)接口來獲取有效數(shù)據(jù)信息,系統(tǒng)業(yè)務(wù)模型如圖2。畬族語音交互平臺(tái)在數(shù)據(jù)的傳輸過程中對數(shù)據(jù)進(jìn)行AES對稱加密,保證數(shù)據(jù)的安全。系統(tǒng)在數(shù)據(jù)交換過程采用消息異步通信方式,提高數(shù)據(jù)響應(yīng)速率與用戶體驗(yàn)。Web Services提供統(tǒng)一格式數(shù)據(jù)交互接口,其他系統(tǒng)通過接口協(xié)議與平臺(tái)進(jìn)行數(shù)據(jù)交換,在人機(jī)交互過程中消息流不會(huì)被復(fù)雜的內(nèi)部網(wǎng)絡(luò)操作流所攔截,保證了系統(tǒng)整體的設(shè)計(jì)與架構(gòu)的穩(wěn)定性。接口程序編寫采用XML協(xié)議封裝數(shù)據(jù)用以在因特網(wǎng)上傳輸,使用SOAP協(xié)議來實(shí)現(xiàn)訪問服務(wù),使得服務(wù)接口具有良好的封裝性和松散耦合。對于使用者而言,只能看到服務(wù)的描述,對與調(diào)用者來說,服務(wù)接口實(shí)現(xiàn)的任何操作都是透明的[4]。平臺(tái)整體架構(gòu)采用分層設(shè)計(jì),數(shù)據(jù)的交互不會(huì)對原有業(yè)務(wù)系統(tǒng)的功能和業(yè)務(wù)操作產(chǎn)生任何影響,邏輯層定義系統(tǒng)訪問接口、數(shù)據(jù)交換方式和業(yè)務(wù)需求邏輯,各個(gè)功能模塊封裝成服務(wù)接口發(fā)布供表示層和其他需要數(shù)據(jù)交換的業(yè)務(wù)系統(tǒng)或平臺(tái)調(diào)用,采用分層設(shè)計(jì)和接口交互方式使得系統(tǒng)具有良好的可擴(kuò)展性和可維護(hù)性。
圖2 服務(wù)程序設(shè)計(jì)與數(shù)據(jù)交換流程圖
畬族語音交互平臺(tái)分為移動(dòng)APP、web servers應(yīng)用服務(wù)接口系統(tǒng)、語音文件處理系統(tǒng)三部分。利用錄音采集平臺(tái)收集原始畬族語言語音文件,通過語音文件處理系統(tǒng)完成語音詞語和短句分割、語音語料庫構(gòu)建、降噪等處理,再使用網(wǎng)絡(luò)通信與服務(wù)器進(jìn)行數(shù)據(jù)交互,移動(dòng)APP對數(shù)據(jù)進(jìn)行封裝和組織呈現(xiàn)。畬族語音交互平臺(tái)界面如圖3。平臺(tái)提供畬語學(xué)習(xí)、畬族習(xí)俗、畬音唱響三部分功能,其中畬語學(xué)習(xí)模塊包括八個(gè)類別詞語和一個(gè)類短句,畬族習(xí)俗模塊分為畬族歷史介紹、畬族服飾、畬族風(fēng)情3個(gè)子模塊,畬音唱響模塊提供畬族代表民歌、兒歌等口傳藝術(shù)欣賞,另外,為了方便用戶學(xué)畬族語言設(shè)計(jì)了語速、音量調(diào)節(jié)和播放與停止功能。
圖3 畬族語音交互平臺(tái)部分界面展示圖
本文介紹了語音處理技術(shù)、網(wǎng)絡(luò)通信技術(shù)和移動(dòng)開發(fā)技術(shù)在民族語言文化方面的應(yīng)用研究。由于語音技術(shù)在少數(shù)民族文化研究工作中的應(yīng)用剛剛起步,具體研究技術(shù)和方法有限,本文相關(guān)成果對今后民族語言語音數(shù)字處理、語言知識(shí)網(wǎng)絡(luò)的語料庫構(gòu)建具有參考作用,對畬族語言文化數(shù)字化保護(hù)與傳承有促進(jìn)作用。由于當(dāng)前采集詞語和句子的語音數(shù)量有限,在以后工作中增加語料庫內(nèi)容逐漸擴(kuò)展成為多民族語言語音學(xué)習(xí)系統(tǒng),從而進(jìn)一步提高應(yīng)用系統(tǒng)受眾性。
參考文獻(xiàn):
[1] 趙峰. 閩東畬語瀕危現(xiàn)狀考察[J]. 長春工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版), 2009, 10(1):75-78.
[2] 劉錦,周喜,張巖.基于 Android平臺(tái)的維-漢雙語顯示和播放方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):241-244.
[3] 榮再輝, 許寧, 漆婉春. 基于Android平臺(tái)的藏漢雙語學(xué)習(xí)軟件的研究與實(shí)現(xiàn)[J]. 西藏科技, 2015(12):75-77.
[4] 范華峰. 基于Web Services的數(shù)據(jù)交換平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 南京:南京大學(xué), 2010.