文/趙楊陽
當(dāng)前,電磁環(huán)境越來越復(fù)雜,如何有效利用無線電頻率資源,最大限度地提升廣播電視視頻業(yè)務(wù)的綜合質(zhì)量,充分優(yōu)化頻譜資源的優(yōu)化配置以更好地為人民群眾提供廣播電視服務(wù),這些都是廣播電視監(jiān)測(cè)監(jiān)管人員需要負(fù)責(zé)的重要工作。具體來說,語音識(shí)別技術(shù)是指借助某種算法,通過計(jì)算機(jī)來識(shí)別語音信號(hào),且把這些信號(hào)轉(zhuǎn)換成文本的技術(shù)。對(duì)于現(xiàn)階段的語音識(shí)別技術(shù)來說,廣播新聞的識(shí)別率為90%左右,其中語音識(shí)別技術(shù)涵蓋關(guān)鍵詞識(shí)別技術(shù)、模糊語音技術(shù)等多種技術(shù)。說話人識(shí)別技術(shù)也指聲紋識(shí)別技術(shù),結(jié)合語音信號(hào)對(duì)說話人身份進(jìn)行識(shí)別;關(guān)鍵詞識(shí)別技術(shù)指借助文本信息來獲取關(guān)鍵詞。在廣播電視監(jiān)測(cè)業(yè)務(wù)中運(yùn)用語音識(shí)別技術(shù),能夠?qū)φZ音信號(hào)的特點(diǎn)做出針對(duì)性的判斷,并智能化地識(shí)別頻譜占用情況,以此為基礎(chǔ)有效監(jiān)管廣播電視的播出內(nèi)容。
語音識(shí)別技術(shù)作為一門綜合性交叉型的學(xué)科,涵蓋了多種領(lǐng)域的學(xué)科知識(shí)。隨著科學(xué)技術(shù)的進(jìn)步,語音識(shí)別技術(shù)得到廣泛運(yùn)用。這項(xiàng)技術(shù)利用把輸入的聲信號(hào)轉(zhuǎn)化成其所對(duì)應(yīng)的命令或是文字的一種現(xiàn)代化技術(shù),借助語音識(shí)別技術(shù),可以不用傳統(tǒng)的鍵盤、鼠標(biāo)等操作設(shè)備,只需利用語言就能夠發(fā)號(hào)施令,從而更加簡(jiǎn)便快捷地完成在多種情況下的任務(wù),這項(xiàng)技術(shù)在社會(huì)中具有十分重要的作用[1]。
自開始研究語音識(shí)別技術(shù)到現(xiàn)在,語音識(shí)別技術(shù)的發(fā)展已有超過半個(gè)世紀(jì)的歷史。最開始對(duì)于語音識(shí)別技術(shù)的研究只是Audry系統(tǒng)的研究,其是那個(gè)階段第一個(gè)能夠得到幾個(gè)英文字母的系統(tǒng)。在20世紀(jì)60年代,計(jì)算機(jī)技術(shù)得到發(fā)展,促進(jìn)了語音識(shí)別技術(shù)進(jìn)一步發(fā)展,利用線性預(yù)測(cè)分析技術(shù)與動(dòng)態(tài)規(guī)劃技術(shù)能夠?qū)φZ音信號(hào)出現(xiàn)的模型問題進(jìn)行有效解決,這一技術(shù)是語音識(shí)別中最為關(guān)鍵的技術(shù)。到了20世紀(jì)70年代,語音識(shí)別技術(shù)獲得重大突破,表現(xiàn)在動(dòng)態(tài)時(shí)間規(guī)整技術(shù)基本成熟,讓語音能夠等長(zhǎng),同時(shí),矢量量化、隱馬爾科夫模型理論得到進(jìn)一步完善,為語音識(shí)別技術(shù)的進(jìn)步奠定了良好的基礎(chǔ)。在20世紀(jì)80年代,相關(guān)人員更加深入地探究了語音識(shí)別技術(shù),提出了多種語音識(shí)別算法,最為顯著的成就為人工神經(jīng)網(wǎng)絡(luò)與HMM模型。在20世紀(jì)90年代,語音識(shí)別技術(shù)得到更加廣泛的應(yīng)用,更多的科技互聯(lián)網(wǎng)公司均在語音識(shí)別技術(shù)的研究與開發(fā)上投入了龐大的資金。進(jìn)入21世紀(jì)后,對(duì)于語音識(shí)別技術(shù)的研究,主要是對(duì)多種語種的同聲翻譯、即興口語及自然對(duì)話進(jìn)行重點(diǎn)研究[2]。
語音識(shí)別技術(shù)常用的方法有:(1)基于語言學(xué)與聲學(xué)的方法。這種方法在語音識(shí)別技術(shù)中得到最早運(yùn)用,然而該方法涵蓋的知識(shí)十分匱乏,這就造成現(xiàn)如今這一方法仍就沒有得到大范圍應(yīng)用;(2)隨機(jī)模型法?,F(xiàn)如今,隨機(jī)模型法已得到比較成熟的應(yīng)用,這種方法選擇提取特征、訓(xùn)練模塊、分類模塊、判斷模塊的步驟來識(shí)別語音,涉及了隱馬爾科夫模型(HMM)理論、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、矢量量化(VQ)技術(shù),其中最為簡(jiǎn)便優(yōu)質(zhì)的技術(shù)為隱馬爾科夫模型算法,其在語音識(shí)別性能上更加優(yōu)異,所以大多數(shù)語音識(shí)別系統(tǒng)都選擇隱馬爾科夫模型;(3)神經(jīng)網(wǎng)絡(luò)的方法。這一方法是在語音識(shí)別發(fā)展的后期出現(xiàn)的一種新的識(shí)別方法,其能夠?qū)θ祟惖纳窠?jīng)活動(dòng)進(jìn)行模擬,并具備人的一些特性,例如自主學(xué)習(xí)和自動(dòng)適應(yīng)等,其歸類能力與映射能力比較強(qiáng),在語音識(shí)別技術(shù)中具備較高的利用價(jià)值,在行業(yè)中通過有機(jī)結(jié)合神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的方法,取長(zhǎng)補(bǔ)短,從而在極大程度上提升語音識(shí)別的效率[3];(4)概率語法分析法。這種方法屬于一種可以識(shí)別大長(zhǎng)度語段的技術(shù),能夠?qū)崿F(xiàn)區(qū)別語言的特征,借助多種層次的知識(shí)來解決多種層次的問題,但是這種方法也存在一些不足,最為明顯的是需要構(gòu)建合適、有效的適用知識(shí)系統(tǒng)。
語音識(shí)別程序主要包括:(1)語音識(shí)別的工作模式:主要為命令模式與識(shí)別模式,結(jié)合這兩種模式的區(qū)別來選擇對(duì)應(yīng)類型的程序,從而實(shí)現(xiàn)語音識(shí)別程序;識(shí)別模式的工作原理為引擎系統(tǒng)在后臺(tái)直接提供一個(gè)詞庫與識(shí)別模塊庫,所有系統(tǒng)無需進(jìn)一步改動(dòng)識(shí)別語法,只需結(jié)合識(shí)別引擎所具備的主程序源代碼加以改寫就能夠完成;與之相比,命令模式比較難以實(shí)現(xiàn),必須由程序員來編寫詞典,再加以編程,然后結(jié)合語音詞典進(jìn)行更正與處理;命令模式與識(shí)別模式最大的區(qū)別是程序員應(yīng)結(jié)合詞典內(nèi)容來修改和核對(duì)代碼;(2)語音識(shí)別環(huán)境設(shè)置。通常語音識(shí)別程序的環(huán)境設(shè)置主要有:CTI服務(wù)器硬件默認(rèn)參數(shù)采集和設(shè)定、識(shí)別硬件采集卡初始化、引擎端口設(shè)置等,其中應(yīng)用程序的全部工作均要結(jié)合CTI技術(shù)來開展工作;對(duì)于語音采集系統(tǒng)的初始化,語音識(shí)別的平臺(tái)可通過對(duì)是否已經(jīng)輸入語音進(jìn)行判斷來開展工作,再利用語音采集系統(tǒng)獲得語音,同時(shí)利用語音卡來對(duì)語音進(jìn)行輸出與采集;在實(shí)際工作中,將語音卡中具備的板卡打開,再在程序中加入?yún)?shù)就能夠運(yùn)行;對(duì)于引擎端口設(shè)置,語音開發(fā)平臺(tái)提供了硬件API接口函數(shù),這樣做只需要調(diào)用與賦值函數(shù)就能夠運(yùn)行;(3)編譯語音字典。對(duì)于語音字典的設(shè)置,主要內(nèi)容有:識(shí)別語音的規(guī)則、語法、語音模板制作等,結(jié)合語音平臺(tái)的標(biāo)準(zhǔn)來開展。對(duì)于語音字典的設(shè)置,應(yīng)先對(duì)語音識(shí)別核心包進(jìn)行設(shè)置,再結(jié)合自己編譯的語言標(biāo)準(zhǔn)來實(shí)現(xiàn)字典的設(shè)置;(4)編制識(shí)別主程序。這是語音識(shí)別程序編譯的最后環(huán)節(jié),程序員應(yīng)為主程序的Graphical User Interface界面進(jìn)行編寫,從而方便使用者和計(jì)算機(jī)開展交互操作[4]。
除此之外,現(xiàn)如今國(guó)內(nèi)外提供語音識(shí)別技術(shù)的廠商非常多,本文對(duì)語音識(shí)別平臺(tái)進(jìn)行了橫向?qū)Ρ?,具體見表1。結(jié)合表1的內(nèi)容可以認(rèn)識(shí)到商家的語音識(shí)別技術(shù)都有一定的優(yōu)勢(shì)和特點(diǎn),企業(yè)可結(jié)合相應(yīng)的應(yīng)用場(chǎng)景來選擇恰當(dāng)?shù)恼Z音識(shí)別技術(shù)。
語音識(shí)別技術(shù)利用語音波形對(duì)人的行為特點(diǎn)進(jìn)行分析,從而識(shí)別出講話人的身份。一方面,對(duì)于講話人身份的識(shí)別,可評(píng)估出說話人;另一方面,需要評(píng)估判定某一個(gè)語音是否為指定人聲。語音信號(hào)始終是開展聲紋識(shí)別的基礎(chǔ)所在,依據(jù)一個(gè)人的發(fā)音特點(diǎn)對(duì)說話人的性格特征進(jìn)行掌握。作為生物因子認(rèn)證范疇內(nèi)的重要內(nèi)容,聲紋識(shí)別和我們較為熟悉的指紋有一定的相通之處,都是根據(jù)人體生物特征來加以評(píng)估的。所不同的是,聲紋識(shí)別主要是依照說話人的特征加以針對(duì)性的識(shí)別[5]。
這里我們所介紹的內(nèi)容辨識(shí)主要是指,以語音的生理屬性、物理屬性為出發(fā)點(diǎn),結(jié)合其內(nèi)容來進(jìn)行針對(duì)性的分析、鑒別,主要目標(biāo)是對(duì)語音信號(hào)承載內(nèi)容的判斷。但是在內(nèi)容識(shí)別方面仍然存在一定的提升空間,如發(fā)音習(xí)慣、方言等,都對(duì)識(shí)別效果有著直接的影響;對(duì)于這一問題的處理,可利用聲紋識(shí)別加以解決。為能夠使語法、語義和聲紋相一致,需要借助詞性標(biāo)記、詞語區(qū)分、語境理解等綜合判定語音內(nèi)容,不過整體上來說,其需要在短時(shí)間內(nèi)做出大量的對(duì)比判斷[6]。
語種識(shí)別指對(duì)語音材料兼容的語種特點(diǎn)進(jìn)行評(píng)估,在語種識(shí)別的基礎(chǔ)上進(jìn)一步研究而得到語音內(nèi)容判斷與智能翻譯技術(shù)。同時(shí),語種識(shí)別可以評(píng)估計(jì)算機(jī)中多種語音材料,通過識(shí)別系統(tǒng)對(duì)語音材料加以提取是該技術(shù)主要應(yīng)用的方法。與此同時(shí),標(biāo)準(zhǔn)語音模型和個(gè)人語音的對(duì)比,是語音評(píng)估標(biāo)準(zhǔn)判定過程中明確不標(biāo)準(zhǔn)發(fā)音的主要手段。
表1 橫向比較語音識(shí)別技術(shù)
現(xiàn)階段,隨著語音識(shí)別技術(shù)的不斷突破和發(fā)展,自動(dòng)化語音識(shí)別技術(shù)的應(yīng)用,可以幫助我們針對(duì)性地判斷廣播頻率節(jié)目播出的實(shí)時(shí)狀態(tài),并從中提取關(guān)鍵數(shù)據(jù)信息,從而對(duì)語音類型和語種進(jìn)行分析,并對(duì)言語信號(hào)、靜音和噪音進(jìn)行分析,從而實(shí)現(xiàn)頻道中多個(gè)頻譜能夠同時(shí)使用語音識(shí)別技術(shù)進(jìn)行充分研究。同時(shí),廣播電視監(jiān)測(cè)中引入了電視內(nèi)容監(jiān)測(cè)與語音識(shí)別,這就大大降低了人力資源方面的投入,極大地提升了廣播電視監(jiān)測(cè)監(jiān)管效率[7]。具體表現(xiàn)在以下幾個(gè)方面:(1)電視監(jiān)測(cè)方面。通過該技術(shù)的靈活應(yīng)用,可以有效構(gòu)建語音模板、文字模板,進(jìn)而實(shí)現(xiàn)特定語音的識(shí)別以及特定文字的識(shí)別,并進(jìn)行實(shí)時(shí)錄像,從而準(zhǔn)確判斷廣播電視播出異態(tài);然后借助監(jiān)測(cè)監(jiān)管系統(tǒng)將異態(tài)上報(bào)給監(jiān)測(cè)席位,且發(fā)出預(yù)警信號(hào),以便工作人員進(jìn)行及時(shí)有效的處理,確保廣播電視安全播出;在廣播電視監(jiān)測(cè)中運(yùn)用語音識(shí)別技術(shù),可將系統(tǒng)判斷率提升至99%,實(shí)現(xiàn)廣播電視監(jiān)測(cè)智能化;(2)廣播監(jiān)測(cè)方面。在廣播電視監(jiān)測(cè)中語種識(shí)別技術(shù)具有十分關(guān)鍵的意義,由于國(guó)外電臺(tái)在我國(guó)的播音時(shí)間和語種很多,需要花費(fèi)大量的人力和時(shí)間來利用人工對(duì)這些語種和播音時(shí)間進(jìn)行實(shí)時(shí)判斷;針對(duì)上述問題,我們可以通過衛(wèi)星實(shí)現(xiàn)語音識(shí)別庫的搜集和接收,然后通過錄制音頻和語音庫中數(shù)據(jù)的對(duì)比,判斷出所述語言種類。不過由于語音物理數(shù)據(jù)差異較大,因此,語言判斷應(yīng)用在實(shí)際的使用過程中仍然存在一定的問題。同時(shí),將音頻指紋相近度法引入語音識(shí)別中來,可以通過大量的學(xué)習(xí)而適應(yīng)濾波器,具有信道模型的功能[8]。
主要內(nèi)容有:(1)信號(hào)解調(diào)設(shè)備。待系統(tǒng)完成監(jiān)測(cè)信號(hào)源解調(diào)工作之后,將會(huì)根據(jù)實(shí)際情況調(diào)用調(diào)幅廣播解調(diào)器、有線電視解調(diào)器以及調(diào)頻廣播解調(diào)器,從而將所搜集到的廣播電視信號(hào)解調(diào)為普通音頻信號(hào),然后通過搜集站對(duì)這些音頻信號(hào)進(jìn)行錄音。具體的解調(diào)器和調(diào)頻廣播的數(shù)量,可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行針對(duì)性的選擇;(2)信號(hào)預(yù)處理設(shè)備。為最大限度地提升信號(hào)的判斷效果,可以引入AQC4信號(hào)預(yù)處理設(shè)備,這樣就可以通過該設(shè)備對(duì)音頻信號(hào)進(jìn)行預(yù)處理,然后通過控制信號(hào)處理器對(duì)語音信號(hào)加以進(jìn)一步的處理,修正信號(hào)失真,為后續(xù)操作提供必要的信號(hào)源文件,進(jìn)而完成對(duì)頻道內(nèi)容的監(jiān)測(cè)和監(jiān)管;(3)多路信號(hào)搜集站。如上文所述,通過有線電視解調(diào)器可解調(diào)影像和伴音,從而形成能夠?yàn)橄到y(tǒng)所識(shí)別的視頻信號(hào)和模擬音頻信號(hào),然后通過信號(hào)搜集站對(duì)其進(jìn)行記錄,具體的有線電視解調(diào)器數(shù)量可按照監(jiān)測(cè)頻道數(shù)量進(jìn)行恰當(dāng)安排;除此之外,多路監(jiān)測(cè)信號(hào)搜集站可以對(duì)廣播音頻信號(hào)和電視信號(hào)進(jìn)行接收,對(duì)信號(hào)進(jìn)行搜集和壓縮,然后存儲(chǔ)到服區(qū)前陣列柜中,其中搜集站可分為廣播信號(hào)和電視信號(hào)兩種搜集站,前者能夠同時(shí)進(jìn)行所有廣播信號(hào)的采集和記錄,并實(shí)時(shí)呈現(xiàn)音量,配合軟調(diào)音臺(tái)不僅能夠?qū)崿F(xiàn)對(duì)信號(hào)增益水平的有效控制,而且可以實(shí)現(xiàn)對(duì)所有輸入信號(hào)的完整監(jiān)控,定時(shí)設(shè)計(jì)了采集和記錄時(shí)間表,以確保采集和記錄的及時(shí)性、合理性,極大提升了系統(tǒng)的整體運(yùn)行效率水平,并且能夠提供全方位的監(jiān)聽服務(wù)支持,系統(tǒng)會(huì)在信號(hào)異常的情況下自動(dòng)發(fā)出警報(bào),避免由于信號(hào)故障等問題所導(dǎo)致的音頻丟失,還可以根據(jù)具體播出時(shí)間來調(diào)整錄音時(shí)間;(4)視頻信號(hào)采集站。在實(shí)際的應(yīng)用過程中能夠?qū)崿F(xiàn)8路電視信號(hào)的采集和記錄。操作中,利用視頻信號(hào)采集站完整復(fù)合電視信號(hào)的音頻信號(hào)碼。一般來說,可以任意選擇壓縮碼,并結(jié)合頻道播出時(shí)間獨(dú)立設(shè)計(jì)每個(gè)頻道的采錄時(shí)間。在具體的采錄過程中,通常以 MPEG壓縮格式進(jìn)行。頁面可以呈現(xiàn)出所有視頻圖像且監(jiān)聽視頻信號(hào);同時(shí),對(duì)各路信號(hào)的飽和度、色度及對(duì)比度進(jìn)行整體調(diào)節(jié),以確保采錄質(zhì)量[9]。
總而言之,對(duì)于廣播電視監(jiān)測(cè)監(jiān)管人員而言,無線電頻率管理和監(jiān)測(cè)監(jiān)管工作至關(guān)重要,隨著無線電技術(shù)得到普及,無線電頻率資源日趨緊張,廣播電視監(jiān)測(cè)監(jiān)管工作也同樣開始朝著全自動(dòng)化方向發(fā)展,這就需要有效運(yùn)用語音識(shí)別技術(shù),提升廣播電視監(jiān)測(cè)的工作質(zhì)量及效率。因此,為能夠確保廣播電視監(jiān)測(cè)監(jiān)管事業(yè)的蓬勃發(fā)展,必須注重并加強(qiáng)語音識(shí)別技術(shù)在廣播電視監(jiān)測(cè)中有效、合理及大范圍的應(yīng)用。