福建船政交通職業(yè)學(xué)院 吳毅君
面對日益增長的需要,播音自動識別系統(tǒng)的開發(fā)設(shè)計需要引入人工智能的技術(shù)理念,通過人工智能技術(shù)的支撐,可以讓播音自動識別系統(tǒng)更加智能化、精確化和快速化。針對這種需求,本文從硬件層面和軟件層面完成了人工智能技術(shù)下的播音自動識別系統(tǒng)的設(shè)計,系統(tǒng)硬件由VS78型號的主機、結(jié)構(gòu)框架解調(diào)設(shè)備、信號接收機、芯片以及TI處理器組成,廣播自動識別系統(tǒng)的工作需求采用HI89型號的芯片、軟件系統(tǒng)關(guān)鍵詞程序、自動識別程序和音頻處理程序三個部分組成,文章將針對整個硬件和軟件的設(shè)計過程進行詳細地說明和分析。
隨著科學(xué)技術(shù)的發(fā)展,信息傳播的方式越來越豐富,除了傳統(tǒng)的實體刊物、報紙、電視廣播等方式,人們還可以通過智能手機、電腦等終端設(shè)備從網(wǎng)絡(luò)獲取信息資訊,極大地方便了人們的生活。對于播音來說,聽是最主要的信息接收方式,但是在一些特殊的場合下也需要文字字幕來配合,文字字幕目前流行的匹配方式是人工手打和智能識別兩種試,人工匹配準確率高但是費時費力,帶來極大的工作量;智能識別是利用算法自動識別語音內(nèi)容,并將語音內(nèi)容轉(zhuǎn)化為文字內(nèi)容的方式,在目前的技術(shù)水平下,識別速度已經(jīng)達到了一個可以接受的水平,但是準確率有待提升。
播音自動識別系統(tǒng)主要是進行兩個步驟的處理,即提取信息和處理信息,提取信息是指的取得音頻信息,并將音頻信息進行預(yù)處理而轉(zhuǎn)化成可處理的數(shù)字信號。在播音信號中存在大量的非線性、非平穩(wěn)特征的常見信息,同時也存在大量的無用信號和干擾信息,需要通過智能算法對此進行分類處理,自動識別出有價值的、內(nèi)部時域和頻域中所包含的信息。想要實現(xiàn)自動識別需要借助于人工智能技術(shù)和智能算法,通過程序的自我學(xué)習(xí)來不斷的優(yōu)化算法以達到精確識別的目的。想要實現(xiàn)自動識別就需要用到人工智能技術(shù),人工智能是近十年間興起的熱門技術(shù)。人工智能包括智能人、語言識別、圖像識別和轉(zhuǎn)接系統(tǒng),通過人工智能來模擬真實世界的行為是人工智能技術(shù)最高層次的應(yīng)用。傳統(tǒng)的播音識別系統(tǒng)最大的問題就是準確率低,還需要在后期由人工進行核檢,無法達到“智能”的水平,通過引用人工智能技術(shù),可以設(shè)計一種新的播音自動識別系統(tǒng),大幅度改良識別的速度和準確率。
硬件部分的設(shè)計首先要考慮的是其性能和功能要滿足軟件設(shè)計的需求,即在硬件水平上做到與軟件程序相匹配,合理的硬件設(shè)計可以讓系統(tǒng)的運行更加高效穩(wěn)定。在設(shè)計硬件時要充分考慮軟件正常運行所需要的配置水平。本系統(tǒng)的設(shè)計是基于人工智能的播音自動識別系統(tǒng),其硬件部分整體結(jié)構(gòu)如圖1所示。
圖1 播音自動識別系統(tǒng)硬件設(shè)計
硬件部分的信號接收機使用無線網(wǎng)絡(luò)連接到局域網(wǎng)中,無線網(wǎng)絡(luò)的設(shè)計使得其便攜性和擴展性更強,同時也不需要再進行硬件器材結(jié)構(gòu)上的改進。無線連接時,數(shù)據(jù)信息通過無線電波傳輸,接收到的信號類型分為兩種,一種是來自于定向的信息,一種是來自于全局的信息,在接收信號時為了防止無關(guān)信號的干擾,將頻率段設(shè)置為100~1300Hz,這一頻段擁有較強的抗干擾能力,同時也符合國際波段使用標準。
在本系統(tǒng)中,信號接收機對于在可識別范圍內(nèi)存在的聲音的識別分析速度為210MHz/s,速度設(shè)計合理,并且還能夠?qū)Σ煌ㄐ?、不同頻率的廣播輸出信號進行識別,性能方面可以保證能夠同時并行處理來自6個不同頻道的廣播音頻。該接收機擁有多方面的優(yōu)點,比如可以充分地保證數(shù)據(jù)的安全性和完整性,同時還擁有自動錄音備份功能,防止接收機突出現(xiàn)宕機故障而損失已經(jīng)接收到的關(guān)鍵音頻信息。在系統(tǒng)的設(shè)計中,有幾個需要特別注意的點,其中最重要的一個方面是需要在廣播節(jié)目開始播報前的5min進入到對應(yīng)頻道中,然后運行系統(tǒng)開始進行錄音和備份,這樣做的主要目的是為了保證可以在最一時間接收到開始的廣播信息,防止信息出現(xiàn)不完整的情況。
主處理芯片使用的是HI89型號的芯片,作為系統(tǒng)中最主要的一個部分,芯片的選擇需要考慮很多方面的問題,不僅要有強大的數(shù)據(jù)存儲性能,還需要滿足穩(wěn)定、安全等要求。這一款芯片是最新研究發(fā)布的高新技術(shù)芯片,其性能和設(shè)計規(guī)格符合人工智能技術(shù)的實現(xiàn)要求,HI89有四個通道的接口,在讀寫性能上表現(xiàn)尤為突出,可以在不到一分鐘的時間內(nèi)完成1GB數(shù)據(jù)量的廣播音頻識別,是保證系統(tǒng)運行速度的關(guān)鍵器件。
基于人工智能的播音自動識別系統(tǒng)的TI處理器主要是負責(zé)對音頻的自動識別功能,執(zhí)行的主要操作是數(shù)據(jù)處理,是整個系統(tǒng)的核心元器件。TI處理器睿頻頻率高達4.1GHz,額外具備300個系列的主板功能,處理器的基礎(chǔ)頻率為3GHz,完全可以滿足本系統(tǒng)性能需求和功能需求,運行效率強大,并且可以對運行時的功耗及處理器溫度進行動態(tài)監(jiān)測,根據(jù)溫度的高低智能控制散熱風(fēng)扇的開啟,實現(xiàn)節(jié)能的目的。
硬件需要配合軟件程序才能完成工作,軟件部分的設(shè)計由自動識別、音頻處理和關(guān)鍵詞處理三個主要功能組成,通過這三個功能共同實現(xiàn)了人工智能語音識別功能。關(guān)鍵詞處理模塊的功能是利用關(guān)鍵詞詞庫來實現(xiàn)關(guān)鍵詞的對比和匹配,通過關(guān)鍵詞進行音頻文字的識別;音頻處理程序主要實現(xiàn)的功能是對音頻信息的加工處理,過濾掉一些由噪音帶來的物理化信號,方便進行后續(xù)的識別工作;自動識別程序主要的功能是進行音頻的識別,通過復(fù)雜的數(shù)據(jù)分析將音頻信息轉(zhuǎn)化為文字信息。針對此三個軟件的功能和設(shè)計思路,下面將對這三個部分進行詳細說明:
音頻處理程序是一個預(yù)處理階段,由于音頻是實時播放的,在收集到音頻數(shù)據(jù)之后這些信號并不能直接交由處理器來處理,而是需要進行預(yù)加工。預(yù)加工的主要目的是過濾以一些物理化的音頻數(shù)據(jù),這些數(shù)據(jù)主要是由環(huán)境噪聲和其他噪音組成,如果不將這些噪音數(shù)據(jù)過濾掉就會讓后續(xù)的自動識別準確率和成功率降低。整個調(diào)解流程大致是先對播音數(shù)據(jù)進行識別,分析數(shù)據(jù)是否存在異常情況,如果存在異常情況就將異常數(shù)據(jù)傳輸給主機,如果沒有發(fā)現(xiàn)異常則繼續(xù)運行。
通過人工智能技術(shù),可以對播音信號頻率進行有效的掃描和識別,再根據(jù)已經(jīng)設(shè)計好的算法將這些波形信號和頻率信息轉(zhuǎn)換為文字。自動識別程序處理的步驟是首先程序會對播音音頻進行預(yù)處理操作,并參照相應(yīng)的聲學(xué)參數(shù)進行分析,識別出播音音頻的初始文檔,再對初始文檔與播音音頻進行二次對比,對比之后加以核對和糾正,增加識別的準確率。數(shù)據(jù)的處理的時候需要進行拼音文法比對和聲學(xué)模型對比,同時還要進行關(guān)鍵詞識別,通過多方面的分析、糾正和比對之后最終得出最后的輸出。
關(guān)鍵詞處理的本質(zhì)是進行關(guān)鍵詞匹配,這也是整個自動識別系統(tǒng)的關(guān)鍵之處。在人的正常發(fā)言中,一段話可以拆解成多個關(guān)鍵詞,通過檢索關(guān)鍵詞可以得到整句話大致的意思,而人工智能識別系統(tǒng)之所以可以快速地將音頻信息轉(zhuǎn)化為文字信息,主要的實現(xiàn)手段也是對信號進行匹配。在處理的過程中,程序會對整個句子進行拆分,并將拆分的部分與庫中的關(guān)鍵詞進行快速掃描匹配,這樣一來,只有關(guān)鍵詞庫的詞充足且結(jié)構(gòu)合理,才可以準確地完成自動識別工作。詞庫的獲取可以從網(wǎng)絡(luò)上進行收集,網(wǎng)絡(luò)上有許多特定領(lǐng)域的詞庫,這里主要是使用廣播電視臺的廣播詞庫。為了保證關(guān)鍵詞的獨立性,關(guān)鍵詞的字節(jié)需要控制到6個字節(jié)以內(nèi)。
關(guān)鍵詞處理程序的核心設(shè)計要點除了詞庫的建立還有智能檢索和匹配,每一個關(guān)鍵詞都擁有自己的數(shù)據(jù)特征,在傳輸而來的音頻數(shù)據(jù)經(jīng)過其他步驟和處理之后,就可以根據(jù)信號的數(shù)據(jù)特征來進行匹配,檢索速度是決定匹配速度的關(guān)鍵性因素,基于人工智能的檢索機制可以實現(xiàn)檢索匹配的智能化。當(dāng)在自動識別的過程中查詢到了幾個相似的關(guān)鍵詞,為了提高準確性,通常需要進行反向傳播識別,反向傳播的公式如下所示:
在反向傳播公式中,Wij代表著關(guān)鍵詞的總長度,a為關(guān)鍵詞的個數(shù),α為文字相似的關(guān)聯(lián)度,L(w, b)是播音音頻文檔的總字節(jié)長度,是降階階數(shù)。通過這一公式可以計算出關(guān)鍵詞與播音文檔的字節(jié)是否是同一長度。在解釋相似度的時候,還需要借助于一些百科工具,這里選用的百度平臺,通過百度可以解釋兩個關(guān)鍵詞之間的匹配度,從而完成最佳關(guān)鍵詞的最佳匹配,這一過程被稱為降階匹配法,如果一個關(guān)鍵詞與對比片段的關(guān)聯(lián)度很低,則繼續(xù)匹配下一個關(guān)鍵詞,直到找出最優(yōu)解為止。
播音自動識別系統(tǒng)的設(shè)計由硬件層面設(shè)計和軟件層面設(shè)計組成,其主要作用是可以實現(xiàn)將實時的音頻廣播轉(zhuǎn)化為文字信息,滿足特殊場景下信息資訊獲得需求。本播音自動識別系統(tǒng)是基于人工智能技術(shù),經(jīng)驗證后表明本系統(tǒng)擁有較快的識別速度和較高的識別準確率,完全可以滿足日常的使用需要。本播音自動識別系統(tǒng)是人工智能應(yīng)用的一個重要體現(xiàn),也是智能化語言識別的一次大膽嘗試,相信會對語音自動識別領(lǐng)域的發(fā)展起到一定的促進作用。