嵌入式語音合成技術(shù),又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實時轉(zhuǎn)化為標準流暢的語音并朗讀出來,相當于給機器裝上了人工“嘴巴”。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機科學(xué)等多個學(xué)科,是中文信息處理領(lǐng)域的一項前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,即讓機器像人一樣開口說話。我們所說的“讓機器像人一樣開口說話”,與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機,是通過預(yù)先錄制聲音,然后回放,從而實現(xiàn)“讓機器說話”的,這種方式無論是在內(nèi)容的存儲、傳輸或者方便性、及時性等方面都存在很大的局限性。而通過計算機語音合成技術(shù)則可以在任何時候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實現(xiàn)讓機器“像人一樣開口說話”。
利用文語轉(zhuǎn)換技術(shù)進行語音的合成,需要經(jīng)歷一個文語轉(zhuǎn)換的過程。
“語言學(xué)處理”在文語轉(zhuǎn)換過程中起著重要的作用,主要模擬人對自然語言的理解過程 文本規(guī)整、詞的切分、語法分析和語義分析,使計算機對輸入的文本能完全理解,并給出后兩部分所需要的各種發(fā)音提示。
“韻律處理”為合成語音規(guī)劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。
聲學(xué)處理,主要是根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音。
文語轉(zhuǎn)換過程
基于文語轉(zhuǎn)換技術(shù),可制成文語轉(zhuǎn)換系統(tǒng),這個系統(tǒng)實際上可以看作是一種人工智能系統(tǒng)。為了合成出高質(zhì)量的語音,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對文字的內(nèi)容有很好的理解,這也涉及到自然語言理解的問題。下圖顯示了一個完整的文語轉(zhuǎn)換系統(tǒng)示意圖(圖略)。文語轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中第一步涉及語言學(xué)處理,例如分詞、字音轉(zhuǎn)換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進的語音合成技術(shù),能按要求實時合成出高質(zhì)量的語音流。因此一般說來,文語轉(zhuǎn)換系統(tǒng)都需要一套復(fù)雜的從文字序列到音素序列的轉(zhuǎn)換程序,也就是說,文語轉(zhuǎn)換系統(tǒng)不僅要應(yīng)用數(shù)字信號處理技術(shù),而且必須有大量的語言學(xué)知識的支持。
嵌入式語音合成技術(shù)的本質(zhì)是基于它能將輸入的語音通過語言轉(zhuǎn)文本技術(shù)轉(zhuǎn)化為語言代碼。語音是信息的載體,語音識別的基本任務(wù)就是將輸入的語音轉(zhuǎn)化為相應(yīng)的代碼。通過這個轉(zhuǎn)化的過程,使人們在存儲和傳輸這樣的語言代碼的時候,無論是存儲空間還是傳輸率都比語音直接存儲和傳輸要方便的多,而且它還可以把連續(xù)的語音信號變成一種只需要有限符號集中的代碼,這樣也很容易被計算機或者專用的信息處理單元所理解,便于和人進行交流。因此,該技術(shù)可以實現(xiàn)廣泛的應(yīng)用,如聲控應(yīng)用、用于自動口語翻譯、把語音識別和合成技術(shù)相結(jié)合構(gòu)成的一種超低比特率的語音通信系統(tǒng)等。
國外的語音合成技術(shù)發(fā)展較早,且前期運用最多的就是共振峰合成器技術(shù)。但經(jīng)過多年的研究與實踐發(fā)現(xiàn),雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質(zhì)難以達到文語轉(zhuǎn)換系統(tǒng)的實用要求?;诖?,自八十年代末期至今,語言合成技術(shù)又有了新的發(fā)展,特別是1990年基音同步疊加(PSOLA)方法的提出,使基于時域波形拼接方法合成的語音的音色和自然度都有了很大的提高。
國內(nèi)的漢語語音合成研究起步較晚,二十世紀八十年代初期,國內(nèi)漢語語音合成研究才逐步興起。但此后,國內(nèi)漢語語音合成研究基本與國際上的研究同步,大致也經(jīng)歷了從共振峰合成、LPC合成到應(yīng)用PSOLA技術(shù)的過程。在國家863計劃、國家自然科學(xué)基金委、國家攻關(guān)計劃、中國科學(xué)院有關(guān)項目等支持下,漢語文語轉(zhuǎn)換系統(tǒng)研究近年來取得了令人矚目的進展,其中不乏成功的例子:如1993年中國科學(xué)院聲學(xué)所研發(fā)的KX-PSOLA、清華大學(xué)研發(fā)的TH_SPEECH;1995年聯(lián)想佳音、中國科技大學(xué)研發(fā)的KDTALK系統(tǒng)等。這些系統(tǒng)基本上都是采用基于PSOLA方法的時域波形拼接技術(shù),其合成漢語普通話的可懂度、清晰度都達到了較高的水平。然而同國外其它語種的文語轉(zhuǎn)換系統(tǒng)一樣,這些系統(tǒng)合成的句子及篇章“語音機器味”較濃,其自然度還不達到用戶可以廣泛接受的程度,從而制約了這項技術(shù)的商品化進程。
總的說來,我國語音合成技術(shù)研發(fā)與技術(shù)應(yīng)用的發(fā)展,同計算機技術(shù)的普及和網(wǎng)絡(luò)、通信、廣播電視等技術(shù)和業(yè)務(wù)的發(fā)展是同步的,可以說,正是信息產(chǎn)業(yè)的迅猛發(fā)展推動了語音合成技術(shù)應(yīng)用領(lǐng)域的發(fā)展和突破,進而刺激了語音合成技術(shù)突飛猛進的發(fā)展。
我國在語音合成領(lǐng)域的研究選擇了與國外錯位發(fā)展的策略,并且目前在逐步縮小與國外關(guān)鍵技術(shù)領(lǐng)域的差距,在車載語音裝置、計算機聲音輸入或輸出技術(shù)、自然語言數(shù)據(jù)的數(shù)字數(shù)據(jù)處理方法或設(shè)備等領(lǐng)域已具有了一定的競爭優(yōu)勢。
嵌入式語音合成技術(shù)在智能家居中的應(yīng)用
這幾年,智能家居行業(yè)發(fā)展較快。具體到智能家居領(lǐng)域,嵌入式語音合成技術(shù)可以有以下幾個方面的應(yīng)用:
1、防盜功能:安裝在房間內(nèi)外的紅外探測器、門磁等,可以探測到任何非法入侵活動,并利用語音合成技術(shù),發(fā)出警告,連動開啟相應(yīng)燈光或電器,對小偷起到震懾作用;同時向用戶發(fā)送短信及拔打用戶事先預(yù)設(shè)的電話進行報警。
2、緊急求助:當用戶家中的老人或小孩獨自在家發(fā)生了意外,需要幫助時,只要按一下隨身攜帶的遙控器,系統(tǒng)就會自動拔打用戶的手機,并利用語音合成技術(shù),播報家中的實時情況,以便于用戶盡快采取幫助措施。
3、防火防煤氣泄露:安裝在室內(nèi)的無線“煙感”、“氣感”在探測到有危險信息的時候會向系統(tǒng)發(fā)射信號,系統(tǒng)將自動通過網(wǎng)絡(luò)向用戶發(fā)送短信,并通過電話拔打用戶預(yù)設(shè)的電話號碼,此舉可以最大限度地保證用戶家中的財產(chǎn)不受損失。
4、方便控制:無需起身,開門、關(guān)燈,只要輕輕一按遙控器就可立刻開啟或關(guān)閉燈光,從而大大的方便了用戶的日常生活。
5、科技時尚:通過網(wǎng)絡(luò),用戶可以監(jiān)控家中的情況,并控制家中的安防系統(tǒng)的開啟或關(guān)閉;而通過電話,用戶不僅可遠程控制家中的安防系統(tǒng),還能有效的控制家中燈光的開啟及關(guān)閉。
如今,嵌入式語音合成技術(shù)已為很多家居公司的產(chǎn)品提升了內(nèi)在價值,同時,TTS語音引擎的加載也使得很多家居產(chǎn)品更加具有生動性,便捷性,更富于人性化。
物聯(lián)網(wǎng)時代將是全面邁入聲控的時代
其實,語音控制在物聯(lián)網(wǎng)領(lǐng)域早有應(yīng)用,不久之前,美國一家視聽公司就已經(jīng)透過SIRI對快思聰自動化控制系統(tǒng)進行了控制,用戶可以通過語音進行開啟燈光、調(diào)整燈光亮度、啟動家庭劇院、控制空調(diào)、切換影音頻道等操作,這也使得家庭自動化的發(fā)展往前邁進了一大步。然而,語音交互要真正實現(xiàn)面向大眾,則面臨著技術(shù)、使用模式和用戶文化環(huán)境等多重挑戰(zhàn)。語音控制雖有一定的優(yōu)越性,但由于其控制的準確度和穩(wěn)定性都還存在一定缺陷,一直未能得到規(guī)模化的應(yīng)用。
不過,中國移動李正茂在中國語音產(chǎn)業(yè)聯(lián)盟成立之際曾透露:“今后,中國移動將在客戶系統(tǒng)、語音門戶、搜索門戶、智能家居、短信及郵件中逐步提高智能語音功能,包括智能語音翻譯,助推中國移動的業(yè)務(wù)和服務(wù)再上新的臺階?!倍壳?,語音合成技術(shù)也已在我國的車載調(diào)度、導(dǎo)航、智能家居、安防監(jiān)控、考勤、播報終端等二十多個領(lǐng)域有了很多成功的案例,這說明,誰能在行業(yè)浪潮中放出創(chuàng)新之舉,誰就能夠奪得更多的市場先機。
放眼全球,智能化的語音產(chǎn)品扎堆上陣,一股語音聲控的熱潮已是勢不可擋。雖然面臨一些技術(shù)瓶頸,但在技術(shù)不斷走向成熟的背景下,將語音技術(shù)融入更多領(lǐng)域已成為一種新的發(fā)展趨勢,其應(yīng)用的準確度和穩(wěn)定性問題也有望迎刃而解。展望物聯(lián)網(wǎng)未來的發(fā)展,將語音控制技術(shù)規(guī)?;膽?yīng)用于物聯(lián)網(wǎng)亦將成為未來市場發(fā)展的新趨勢之一。物聯(lián)網(wǎng)時代,用聲音引領(lǐng)未來,值得期待!