摘要:每年的國家普通話測試,都留下普通話測試的相關(guān)信息。為了有效利用這些信息,建立了普通話測試語音信息庫,實(shí)現(xiàn)了信息錄入、信息查詢、數(shù)據(jù)統(tǒng)計(jì)、權(quán)限管理等多種功能。為了實(shí)現(xiàn)最小到音節(jié)的錄音語料查詢,信息庫利用HTK進(jìn)行音頻文件的自動(dòng)切分處理。普通話測試語音信息庫可方便地用于包括測試錄音語料在內(nèi)的各種資料的調(diào)用和各種關(guān)聯(lián)數(shù)據(jù)的統(tǒng)計(jì)。
關(guān)鍵詞:普通話測試;語音信息庫;信息查詢;設(shè)計(jì)與實(shí)現(xiàn)
0 引言
分析利用普通話測試信息,可以了解不同背景人群習(xí)說普通話的規(guī)律和特點(diǎn),了解普通話各種語音單元的實(shí)際發(fā)音狀況,了解普通話測試的具體實(shí)施情況。在普通話語音特征研究、普通話教學(xué)改進(jìn)與完善、普通話測試方法的科學(xué)與智能化發(fā)展等方面,普通話測試信息是不可多得的資料。有效地利用普通話相關(guān)測試信息,對(duì)掌握普通話推廣工作的形勢,加快普通話推廣進(jìn)程,加強(qiáng)全國各地區(qū)各民族人民的交流與交往,促進(jìn)和諧社會(huì)的發(fā)展都具有十分重要的意義。
一般情況,普通話測試信息被分成幾種形式保存:現(xiàn)場錄音語料為音頻資料,專家評(píng)定的分?jǐn)?shù)為紙質(zhì)試卷,考生及管理信息則多為電子信息。其中,音頻資料和試卷查閱起來比較困難,錄音、分?jǐn)?shù)和其他不同形式的信息之間的關(guān)聯(lián)查詢更為不易。此外,信息利用和隱私保護(hù)之間的矛盾也難以協(xié)調(diào)。
為了更好地利用和保護(hù)普通話測試信息,有必要建立普通話測試語音信息庫。信息庫應(yīng)綜合各類普通話測試信息,方便各種信息的關(guān)聯(lián)調(diào)用,并具有信息保護(hù)與權(quán)限管理功能。
國內(nèi)外學(xué)者對(duì)語音及相關(guān)信息的利用價(jià)值早有定論,開發(fā)出了各式各樣的語音信息庫。國內(nèi)也有一些和普通話測試相關(guān)的信息處理軟件,在普通話測試實(shí)踐中發(fā)揮了巨大作用。這些軟件的功能偏重于測試管理,在信息利用方面有待進(jìn)一步完善。
本文以一個(gè)普通話測試中心為背景,建立了一個(gè)包含數(shù)字化錄音語料信息、數(shù)字化試卷與分?jǐn)?shù)信息、其他測試相關(guān)信息的普通話測試信息數(shù)據(jù)庫,實(shí)現(xiàn)了錄音語料、試卷分?jǐn)?shù)、考生背景等信息的關(guān)聯(lián)查詢。數(shù)據(jù)庫還附有分?jǐn)?shù)錄入工具和錄音自動(dòng)切分工具。分?jǐn)?shù)錄入工具可以用來錄入試卷分?jǐn)?shù),測試專家也可以用它進(jìn)行現(xiàn)場打分。錄音自動(dòng)切分工具可以從語流中切分出單字和單詞并分別存放,以實(shí)現(xiàn)細(xì)化到字、詞的音頻語料查詢。
普通話測試語音信息庫存貯了錄音語料音頻信息、試卷分?jǐn)?shù)信息、試題信息、考生信息及考試信息,具有信息錄入、信息查詢、數(shù)據(jù)統(tǒng)計(jì)、音頻文件處理及權(quán)限管理功能。普通話測試語音信息庫中的Windows應(yīng)用程序采用Visual C++編寫,由OBDC接口與Microsoft SQL Server數(shù)據(jù)庫相連,實(shí)現(xiàn)系統(tǒng)軟件的構(gòu)建。
1 普通話測試語音信息庫總體設(shè)計(jì)
1.1 用戶需求分析
普通話測試語音信息庫主要服務(wù)于普通話水平測試管理、普通話推廣與教學(xué)研究、語音處理與語音學(xué)研究。
在普通話水平測試管理方面,需要實(shí)現(xiàn)測試前和測試中的報(bào)名、考試安排以及測試后信息的分類查詢等功能?,F(xiàn)有的普通話測試信息軟件,多數(shù)只服務(wù)于普通話測試前和測試中的管理工作,測試后可供查詢的信息種類較少。本文的普通話測試語音信息庫提供了多種信息的綜合查詢??刹樵兊男畔⒅饕校嚎荚囆畔?、考生信息和試題信息。考試信息用于了解各個(gè)考場的使用、評(píng)委工作量的分配情況??忌畔⒂糜谟?jì)算考生比例、了解不同語言背景下考生的分布情況,分析普通話測試的影響力。試題信息可用于查閱歷次測試的試題內(nèi)容。
在語音處理與語音學(xué)研究中,需要大量具有不同發(fā)音質(zhì)量的語音材料,以提高語音識(shí)別的正確性和自動(dòng)語音評(píng)估系統(tǒng)的精確度。本文的普通話測試語音信息庫能處理測試錄音語料,得到以單字、單詞、段落形式存放的音頻文件。這些音頻文件同時(shí)關(guān)聯(lián)和反映了發(fā)音質(zhì)量的測試分?jǐn)?shù),以及發(fā)音者來自哪個(gè)方言區(qū)、從事專業(yè)、年齡等信息,可為測試錄音語料的研究和利用提供方便。
在普通話推廣與教學(xué)研究方面,母語、日常方言對(duì)語音、語調(diào)誤讀的影響較為明顯,為了解不同語言背景下的發(fā)音特點(diǎn),需要大量不同背景發(fā)音者的不同質(zhì)量的發(fā)音語料。本文的普通話測試語音信息庫實(shí)現(xiàn)了發(fā)音文本、發(fā)音質(zhì)量和發(fā)音人背景信息的關(guān)聯(lián),為分析不同背景學(xué)生普通話說不準(zhǔn)的原因提供了方便,有助于有的放矢地開展普通話教學(xué)。另外,本信息庫可以動(dòng)態(tài)地接收學(xué)生的讀音,并對(duì)其發(fā)音的標(biāo)準(zhǔn)性給出即時(shí)的評(píng)價(jià)。
1.2 信息種類
為了滿足普通話水平測試管理、普通話推廣與教學(xué)研究、語音處理與語音學(xué)研究的需要,普通話測試語音信息庫需要包含錄音語料音頻信息、試卷分?jǐn)?shù)信息、試題信息、考生信息及考試信息。
錄音語料音頻信息是普通話測試現(xiàn)場記錄的考生讀音。根據(jù)普通話測試的內(nèi)容,每個(gè)測試考生的錄音語料音頻信息分為單字(100個(gè)音節(jié))朗讀、單詞(i00個(gè)音節(jié))朗讀、短文朗讀和主題談話四個(gè)部分。前兩部分經(jīng)過語音切分后,以獨(dú)立單字、單詞的形式存貯,并將路徑索引到數(shù)據(jù)庫中。后兩部分則整體分別存貯,路徑同樣索引到數(shù)據(jù)庫中。
試卷分?jǐn)?shù)信息是普通話測試時(shí)測試專家根據(jù)測試者的讀音正誤給出的分?jǐn)?shù)。字、詞部分的分?jǐn)?shù)包含了每個(gè)音節(jié)的發(fā)音分?jǐn)?shù)。短文朗讀和主題談話部分的分?jǐn)?shù)包含了發(fā)音的準(zhǔn)確性、流暢性、語速控制等方面的分?jǐn)?shù)。數(shù)據(jù)庫存貯了上述各單項(xiàng)分?jǐn)?shù)、總分及其相對(duì)應(yīng)的測試等級(jí)。
試題信息包括題號(hào)、題目文本、以及相應(yīng)的拼音等內(nèi)容。
考生信息包括考生個(gè)人信息和考生語言背景信息??忌膫€(gè)人信息包含考生的專業(yè)、出生年月、學(xué)歷等基本信息??忌恼Z言信息包含考生的家庭使用語言、父母學(xué)歷、母語等先天語言背景信息,還有日常用語、工作用語等后天語言背景信息。
考試信息記錄了普通話測試時(shí)的時(shí)間、地點(diǎn)、測試專家等信息。
2 主要功能的設(shè)計(jì)與實(shí)現(xiàn)
普通話測試語音信息庫的主要功能為:信息錄入、信息查詢、數(shù)據(jù)統(tǒng)計(jì)(第三章中進(jìn)行討論)、音頻文件處理及權(quán)限管理。
2.1 信息錄入
錄入信息包含:錄音語料音頻信息、試卷分?jǐn)?shù)信息、試題信息、考生信息及考試信息。
錄音語料音頻信息的錄入采用現(xiàn)場錄音的方法,與測試同步進(jìn)行,經(jīng)語音自動(dòng)切分后,存放在數(shù)據(jù)庫中(將在2.3節(jié)討論)。
試卷分?jǐn)?shù)信息需要人工錄入。有兩種錄入方式:其一是在測試時(shí),由測試專家直接在界面上打分;其二是在測試后,由數(shù)據(jù)庫維護(hù)人員錄入各題分?jǐn)?shù)。試卷分?jǐn)?shù)錄入界面與紙質(zhì)試卷版面嚴(yán)格一致。計(jì)算機(jī)統(tǒng)計(jì)各題得分和總分后,將分?jǐn)?shù)信息輸出到屏幕或存入數(shù)據(jù)庫。
試題信息由工作人員錄入數(shù)據(jù)庫。
考生和考試信息在普通話測試報(bào)名和考試安排時(shí)獲得,由考生和普通話水平測試管理人員分別在普通話測試網(wǎng)絡(luò)管理系統(tǒng)上填寫個(gè)人信息、考場和評(píng)委信息。這些信息直接存入數(shù)據(jù)庫。
普通話測試語音信息庫有較好的人機(jī)交互接口和完善的信息保護(hù)設(shè)置。
2.2 信息查詢
信息錄入以后,按照相應(yīng)的數(shù)據(jù)模型組織到數(shù)據(jù)庫中。系統(tǒng)利用Microsoft SQL Server存貯人員信息,試卷分?jǐn)?shù)信息、錄音語料音頻信息等多種數(shù)據(jù),具有較小的冗余度,較高的數(shù)據(jù)獨(dú)立性和易擴(kuò)展性,并可被各種用戶共享。
系統(tǒng)對(duì)各查詢條件使用“交”的關(guān)系操作。如:關(guān)系R和關(guān)系S的交,就是同時(shí)在R和S中存在的元素的集合。
本程序采用開放數(shù)據(jù)庫互聯(lián)技術(shù)(Open Database Connec-tivity,ODBC)使Visual C++與Microsoft SQL Server數(shù)據(jù)庫相連,通過添加相應(yīng)的控件(DBGird和RemoteData)來完成查詢系統(tǒng)的界面與數(shù)據(jù)源的綁定。
2.3 音頻文件處理
測試者的錄音資料經(jīng)過數(shù)字化以后,需要以單字、單詞、段落的形式存放。本文利用HTK工具箱(The Hidden Markov Model Toolkit——?jiǎng)虼髮W(xué)開發(fā)),通過普通話測試語音材料的訓(xùn)練,得到普通話測試語音模型。在此基礎(chǔ)上利用HTK的自動(dòng)強(qiáng)制對(duì)齊(Force Alignment)功能,將普通話測試錄音語流中的單字、單詞等語音單元與試卷中對(duì)應(yīng)的文本進(jìn)行時(shí)間對(duì)齊,標(biāo)出每一個(gè)語音單元的邊界時(shí)間。最后根據(jù)標(biāo)注出的邊界編寫程序,實(shí)現(xiàn)語音單元自動(dòng)切分,得到以單字、單詞等形式存放的音頻文件。切分后的音以“WAV”的文件格式存放在特定的文件夾中。利用查詢功能用戶可以快速、準(zhǔn)確地找出各個(gè)語音的存放路徑,進(jìn)行語音查詢。
系統(tǒng)調(diào)用Visual C++MCI(Media Control Interface)中自帶的音頻處理函數(shù),實(shí)現(xiàn)后綴名為“.way”的音頻文件播放。
2.4 權(quán)限管理
使用普通話測試語音信息庫的人員大致劃分為:系統(tǒng)管理人員、試卷分?jǐn)?shù)錄入人員、普通話測試管理與研究人員、語音研究人員。
權(quán)限管理的主要方法是:①管理人員對(duì)不同類型的用戶設(shè)定不同的密碼;②用不同的密碼登錄之后,只能進(jìn)行特定的操作。
權(quán)限管理采用的技術(shù)路線是:①系統(tǒng)對(duì)用戶輸入的密碼進(jìn)行類型判別,激活相應(yīng)的操作菜單,提供相應(yīng)的操作;②只有激活的菜單才具有可操作性。例如:試卷分?jǐn)?shù)錄入人員輸入相應(yīng)的密碼后,“試卷錄入”的菜單被激活,點(diǎn)擊菜單后彈出相應(yīng)的對(duì)話框,即可進(jìn)行試卷分?jǐn)?shù)的錄入。這時(shí),信息查詢的菜單處于未激活狀態(tài),即使點(diǎn)擊信息查詢菜單,也不能彈出相應(yīng)的對(duì)話框,從而達(dá)到阻止下一步操作之目的。
3 數(shù)據(jù)庫設(shè)計(jì)
普通話測試語音信息庫需要將大量的數(shù)據(jù)存入數(shù)據(jù)庫中,以方便用戶查詢。我們根據(jù)不同目標(biāo)用戶的需求,對(duì)數(shù)據(jù)庫進(jìn)行了概念結(jié)構(gòu)、邏輯結(jié)構(gòu)和物理結(jié)構(gòu)的設(shè)計(jì)。
3.1 概念結(jié)構(gòu)
根據(jù)數(shù)據(jù)庫需求分析及系統(tǒng)功能需求分析,可以確定數(shù)據(jù)庫的概念結(jié)構(gòu)。本系統(tǒng)中有考生、音頻、考試、試題、試卷分?jǐn)?shù)5個(gè)基本實(shí)體,分別記錄了考生信息、測試后的語音資料、考場與評(píng)委信息、試題和分?jǐn)?shù)信息等。數(shù)據(jù)庫實(shí)體(entity)一關(guān)系(relationship)的E-R圖如圖1所示。
3.2 邏輯結(jié)構(gòu)
根據(jù)數(shù)據(jù)庫的概念結(jié)構(gòu),構(gòu)建了5張數(shù)據(jù)總表來存貯和反映5個(gè)基本實(shí)體。即:考生(student)、音頻(speech)、考試(test)、試題(test paper)、試卷分?jǐn)?shù)(test score)。每張數(shù)據(jù)總表又包含若干分表,存貯各個(gè)實(shí)體的各方面信息。例如:考生信息包括出生年月、所在單位等多種屬性。5個(gè)實(shí)體之間存在相互作用的關(guān)系,故在構(gòu)建數(shù)據(jù)庫時(shí)將具有關(guān)系的實(shí)體項(xiàng)進(jìn)行了級(jí)聯(lián)。
3.3 物理結(jié)構(gòu)
數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計(jì)如圖2所示。
主鍵是實(shí)體中惟一標(biāo)識(shí)元組的屬性。本系統(tǒng)中考生編號(hào)(student_ID)是每個(gè)實(shí)體的主鍵。相較考生姓名(有可能重復(fù))等屬性,考生編號(hào)更能夠惟一地標(biāo)識(shí)數(shù)據(jù)庫中的一條記錄。
外鍵用于實(shí)現(xiàn)數(shù)據(jù)庫中表與表之間的關(guān)聯(lián),起到橋梁作用??忌幪?hào)(student_D)為各個(gè)表的外鍵。例如:查詢來自不同單位的考生成績時(shí),“考生”和“測試成績”這兩個(gè)表就需要實(shí)現(xiàn)關(guān)聯(lián)。為此,在考生表中找出滿足查詢條件的考生,即可獲得相應(yīng)的考生編號(hào),再將考生編號(hào)對(duì)應(yīng)到測試成績表中,就可查詢出考生的成績。
4 應(yīng)用舉例
普通話測試語音信息庫中的試卷分?jǐn)?shù)信息、試題信息、考生信息及考試信息可統(tǒng)稱為文字基礎(chǔ)信息。經(jīng)處理后,從文字基礎(chǔ)信息中可得到數(shù)據(jù)統(tǒng)計(jì)信息。
4.1 文字基礎(chǔ)信息
文字基礎(chǔ)信息在普通話水平測試管理、考生成績管理、普通話推廣與教學(xué)研究、語音處理與語音學(xué)研究等方面,有較為廣泛的應(yīng)用(表1)。
作為實(shí)例,圖3示出了考生測試成績查詢界面,表2列出了—個(gè)具體的查詢結(jié)果。
4.2 數(shù)據(jù)統(tǒng)計(jì)信息
數(shù)據(jù)統(tǒng)計(jì)信息也廣泛應(yīng)用于普通話推廣與教學(xué)研究、語音處理與語音學(xué)研究中。
數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過導(dǎo)出,可生成一份EXCEL的電子表格文件,利用EXCEL自帶的圖表操作功能,最后可以生成直觀的統(tǒng)計(jì)圖表,利用這些圖表可以得到許多有價(jià)值的論斷。
例如:圖4所示為某次測試對(duì)不同方言背景的考生發(fā)“仄”音的得分分布情況的統(tǒng)計(jì)。由圖4可以看出:使用少數(shù)民族語言和吳方言的考生發(fā)“仄”音的正確率較高,贛方言、閩方言的考生發(fā)“仄”音的正確率較低。可能的原因有:①“仄”音在少數(shù)名族語言中出現(xiàn)頻率高,其發(fā)音標(biāo)準(zhǔn)與普通話的發(fā)音標(biāo)準(zhǔn)基本一致;②在贛方言和閩方言中,“仄”音的發(fā)音標(biāo)準(zhǔn)與普通話的發(fā)音標(biāo)準(zhǔn)有較大差異;③一些考生不認(rèn)識(shí)“仄”音的部分字,不能正確地發(fā)音。
實(shí)際上,日常方言對(duì)語音、語調(diào)的影響較大。通過對(duì)不同方言背景下考生對(duì)某個(gè)字發(fā)音正誤率的比較,可以得出具有該方言背景的人的發(fā)音特點(diǎn)。普通話測試語音信息庫系統(tǒng)可以給出不同方言背景下的考生對(duì)某個(gè)字發(fā)音的正誤率,以助于語音研究。
4.3 錄音語料音頻信息
通過查詢界面。找到某一語言背景下某個(gè)單字的得分和存放路徑,可以幫助建立該語言背景下某單字的語言模型,此模型可運(yùn)用到語音識(shí)別和自動(dòng)發(fā)音評(píng)估系統(tǒng)中。圖5所示為日常用語是北方方言的考生發(fā)“拐”音的情況。
得到查找音的存放路徑后,在音頻播放界面點(diǎn)擊“打開文件”按鈕,彈出對(duì)話框,在對(duì)話框中填入相應(yīng)的路徑,就可進(jìn)行音頻播放。
系統(tǒng)沒有音頻播放的暫停/繼續(xù)、停止等功能(圖5)。語音研究者可以根據(jù)需要選擇合適的播放方式。
5 結(jié)束語
本文開發(fā)了普通話測試語音信息庫,軟件具有信息錄入、信息查詢、數(shù)據(jù)統(tǒng)計(jì)、音頻文件處理、權(quán)限管理等功能。語音信息庫包含了錄音語料音頻信息、試卷分?jǐn)?shù)信息、試題信息、考生信息及考試信息。系統(tǒng)可應(yīng)用于普通話水平測試管理、普通話推廣與教學(xué)研究、語音處理與語音學(xué)研究中,具有廣泛的實(shí)用價(jià)值。