曾誰飛,王仁波
(東華理工大學(xué)信息與電子工程學(xué)院 撫州344000)
語音合成技術(shù)在電信、交通運輸以及銀行等領(lǐng)域的語音廣播中得到了廣泛的應(yīng)用,如電信營業(yè)廳的排隊叫號系統(tǒng)、CRM(客戶關(guān)系管理)系統(tǒng)、計費系統(tǒng)等,交通運輸行業(yè)的候車大廳廣播系統(tǒng)以及銀行的客戶營業(yè)廳排隊叫號系統(tǒng)。隨著語音與信號處理技術(shù)的迅速發(fā)展,語音播報應(yīng)用在各個行業(yè)得到了充分的展示。隨著各行業(yè)服務(wù)質(zhì)量的競爭日益加劇,行業(yè)對智能語音播報的需求也越來越強烈。如在通信行業(yè),我國已進(jìn)入3G網(wǎng)絡(luò)的加速建設(shè)階段,人們對服務(wù)質(zhì)量的要求也愈來愈高,傳統(tǒng)的人工語音廣播已不能滿足用戶的需要。目前電信運營商也把提升整體服務(wù)水平作為吸引客戶的重要手段之一,并且投入了很大精力和財力。如在話費查詢、票務(wù)預(yù)訂、信息資訊、語音信息播報等服務(wù)方面,投入較多,但收效并不明確。如何打造高效有特色和專業(yè)化的智能語音播報系統(tǒng)仍然是一個極大的挑戰(zhàn)。
一般來講,傳統(tǒng)人工語音廣播存在以下幾個方面的問題。
· 發(fā)音朗讀不規(guī)范。如地方話、普通話相混雜,抑揚頓挫不規(guī)則。
·易出錯。比如在營業(yè)廳和候車/機廳等每日需播報大量的用戶須知、車次到達(dá)和出發(fā)信息以及找人尋物等臨時信息,看錯、念錯、漏播、錯播等現(xiàn)象在所難免。
·狀態(tài)不佳。天天大量重復(fù)性的工作,使得播音員精神狀態(tài)不佳,無精打采。
·浪費人力。需要安排多人專職輪流播音,耗費管理成本。
智能語音播報系統(tǒng)則完全解決了這些問題。本文采用國際領(lǐng)先的語音合成技術(shù)為業(yè)內(nèi)用戶提出了智能語音播報的解決方案,不僅降低了建設(shè)成本,而且提高了服務(wù)效率。
基于語音合成技術(shù)的智能語音播報系統(tǒng),其組網(wǎng)架構(gòu)主要由服務(wù)/營業(yè)大廳和智能語音播報兩大區(qū)域組成,主要服務(wù)器有合成平臺管理服務(wù)器、TTS合成服務(wù)器、詞庫維護(hù)服務(wù)器、定制音庫管理服務(wù)器和語音合成監(jiān)控服務(wù)器,如圖1所示?;谠摷軜?gòu),智能語音播報系統(tǒng)能夠方便輕松地實現(xiàn)對廣播的音效管理和維護(hù)。每種服務(wù)器的具體功能簡要說明如下。
合成平臺管理服務(wù)器:提供在線演示Demo和設(shè)置各項參數(shù)進(jìn)行試聽功能。
TTS合成服務(wù)器:完成文本轉(zhuǎn)換處理功能,將文本內(nèi)容轉(zhuǎn)換成語音流或語音文件。
詞庫維護(hù)服務(wù)器:對傳入文本詞條進(jìn)行優(yōu)化和修改。定制音庫管理服務(wù)器:對定制文本修改和添加。
語音合成監(jiān)控服務(wù)器:對語音合成服務(wù)進(jìn)行檢測和檢查。
以上多臺服務(wù)器所承載的應(yīng)用服務(wù)可以合并到一臺或兩臺服務(wù)器來加載運行。
根據(jù)語音合成技術(shù)的特點,智能語音播報系統(tǒng)的體系結(jié)構(gòu)如圖2所示,具體描述如下。
·應(yīng)用層:是智能語音播報系統(tǒng)的操作系統(tǒng),用戶可以直接在該操作系統(tǒng)中實現(xiàn)業(yè)務(wù)操作以及平臺管理。
·接口層:提供各種業(yè)務(wù)的服務(wù),如語音合成服務(wù),ActiveX接口控件服務(wù),版本、信息服務(wù)等。
· 核心層:通過核心控制系統(tǒng)提供的各種引擎、模塊,實現(xiàn)各種業(yè)務(wù)進(jìn)程處理。
· 基礎(chǔ)層:由基礎(chǔ)音庫和行業(yè)領(lǐng)域音庫組成,為智能語音播報系統(tǒng)提供語音數(shù)據(jù)。
系統(tǒng)采用多線程多任務(wù)程序設(shè)計思想,語音合成引擎采用北京捷通華聲公司jTTS5.0產(chǎn)品。為了兼容多種語言,且使產(chǎn)品具備版本升級的可操作性,系統(tǒng)分為三層:應(yīng)用層、核心層和底層,如圖3所示。每層的作用如下。
應(yīng)用層:位于最高層,實現(xiàn)智能語音播報系統(tǒng)的業(yè)務(wù)應(yīng)用??梢灾苯优c核心層的API通信;可以使用VB、Web等工具二次開發(fā)后,通過OCX控件,再與核心層API通信。
核心層:提供應(yīng)用程序需要的相關(guān)接口和實現(xiàn)語音播放、系統(tǒng)管理等功能的引擎。
底層:語音庫,為應(yīng)用程序提供基本語音數(shù)據(jù)來源。
根據(jù)業(yè)務(wù)的運營經(jīng)驗,為了同時兼顧界面應(yīng)用層的靈活度、平臺層和接口層的穩(wěn)定性,系統(tǒng)從整體上劃分為基礎(chǔ)功能、核心功能和擴(kuò)展功能,可以支撐產(chǎn)品的快速創(chuàng)新和深度運營能力,如圖4所示。
創(chuàng)建與設(shè)置語音播報流程如圖5所示,具體如下。
(1)選擇發(fā)音人(例如:zhangnan),后臺系統(tǒng)將播音員設(shè)置為“zhangnan”,其他相關(guān)選項設(shè)置為默認(rèn)。
(2)選擇播報的行業(yè)領(lǐng)域音庫,如電信運營商、鐵路、航空行業(yè)。
(3)操作員可以通過鍵盤等輸入設(shè)備輸入播音的內(nèi)容,也可以直接導(dǎo)入TXT文本文件。
(4)操作員可以通過音量、音頻、符號讀法、英文讀法、數(shù)字讀法等控制選項,對播音的內(nèi)容進(jìn)行編輯。
(5)根據(jù)需要,可以插入預(yù)錄音(播音正式內(nèi)容開始前插入的音效、音樂)和背景音(與播音正式內(nèi)容同步播報的音效、音樂)。
(6)根據(jù)需要,可以選擇播音的發(fā)音風(fēng)格,如:抑揚頓挫(適用小說、評述等)和平穩(wěn)端重(適用新聞、講解等)。
(7)編輯完畢之后,可以選擇播音(play),將本次播音通過音頻設(shè)備(音響系統(tǒng))輸出。
(8)操作員可以保存該播音項目,即選擇以文件輸出,下次播音相同內(nèi)容時,可以調(diào)用。
打開語音播報流程如圖6所示,具體如下。
(1)選擇打開語音文件,將已保存的語音提取到平臺。
(2)選擇播報(play),即可將保存好的文件播報至設(shè)備。
預(yù)約語音播報流程如圖7所示,具體如下。
(1)選擇“預(yù)約”,系統(tǒng)自動轉(zhuǎn)到預(yù)約語音播報菜單。
(2)在預(yù)約語音播報菜單中,打開文件。
(3)選擇預(yù)約時間,可以特指某時間,也可以選擇每天的固定時間。
(4)保存該預(yù)約語音播報。
(5)操作完畢,當(dāng)系統(tǒng)時間至預(yù)約時間時,系統(tǒng)將自動啟動該語音播報任務(wù)。
為了滿足不同行業(yè)的應(yīng)用,在有通用語音庫(基礎(chǔ)音庫)的基礎(chǔ)上首先必須進(jìn)行語音合成領(lǐng)域庫的制作與優(yōu)化,其步驟說明如下(具體流程如圖8所示)。
(1)獲取領(lǐng)域語料。
(2)基于自然語言處理技術(shù)對領(lǐng)域語料進(jìn)行分析,生成錄音語料、標(biāo)注信息和最佳顆粒度的詞條列表。
(3)基于分析結(jié)果,對標(biāo)注信息進(jìn)行人工校對。
(4)基于分析結(jié)果或者聽音測試結(jié)果,對文本分析模塊及數(shù)據(jù)字典進(jìn)行領(lǐng)域改進(jìn),預(yù)生成優(yōu)化引擎。
(5)錄音。
(6)切音。
(7)領(lǐng)域庫預(yù)生成。
(8)聽音測試,根據(jù)結(jié)果重復(fù)步驟(4)~(7)。
(9)完成最終的優(yōu)化引擎和領(lǐng)域庫。
(1)語音合成引擎中的行業(yè)發(fā)音特點
每一個行業(yè)均有其語音應(yīng)用特點,尤其是涉及眾多老百姓用戶的電信營業(yè)廳、鐵路與醫(yī)院服務(wù)大廳的語音廣播,對語音播報的感情要求、節(jié)奏要求、變量(比如時間、服務(wù)柜臺號、檢票口、站臺)等信息的清晰性要求各有不同。
(2)語音合成引擎中的音色(發(fā)音人)問題
需要對語音合成引擎中的音色或者發(fā)音人進(jìn)行篩選及制定發(fā)音人的挑選標(biāo)準(zhǔn),為所在的行業(yè)創(chuàng)造“聲音品牌”服務(wù)效應(yīng)。
(3)語音合成引擎的擴(kuò)展與版本管理問題
根據(jù)各行業(yè)語音播報的發(fā)音風(fēng)格特征,建立一套易擴(kuò)展的TTS標(biāo)記規(guī)則以滿足該行業(yè)的應(yīng)用,達(dá)到最佳的合成效果,同時要注意版本管理的問題。
(4)語音合成標(biāo)記語言和語音合成引擎API的擴(kuò)充性問題
根據(jù)現(xiàn)有不同的電信運營商服務(wù)特點和要求,必須充分考慮到語音合成引擎的標(biāo)記語言擴(kuò)展性,才能靈活地滿足該行業(yè)不同業(yè)務(wù)平臺各種功能二次開發(fā)的要求,并且語音合成引擎必須提供豐富和功能強大的API函數(shù),才能有效地融入電信運營商的系統(tǒng)信息化建設(shè)中。
TTS技術(shù)在語音播報應(yīng)用中具有很多優(yōu)勢,如開發(fā)形式簡單、語音庫具有通行性等,并且在TTS語音庫的基礎(chǔ)語料上補充了相應(yīng)行業(yè)廣播人員的錄音制作成的領(lǐng)域庫,這樣的TTS語音引擎模式可以應(yīng)用到電信、鐵路、銀行等行業(yè)領(lǐng)域,使智能語音播報服務(wù)具有廣泛的應(yīng)用需求和良好的發(fā)展前景,為目前競爭激烈的各個電信運營商提升自己營業(yè)廳服務(wù)水平,創(chuàng)造語音播報品牌提供了很好的選擇。
1 北京捷通華聲語音技術(shù)有限公司.jTTS5.0技術(shù)白皮書,http://www.sinovoice.com.cn/upload/2008120809091517179667.pdf,2007
2 北京捷通華聲語音技術(shù)有限公司.jTTS5.0技術(shù)開發(fā)手冊,2007