□趙 琰
音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)網(wǎng)的測(cè)試
□趙 琰
( 國(guó)家新聞出版廣電總局 監(jiān)管中心,北京 100866)摘要:目前開展的電視廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù)主要由人工完成,隨著監(jiān)測(cè)業(yè)務(wù)的不斷擴(kuò)展,面對(duì)海量的數(shù)據(jù),實(shí)現(xiàn)對(duì)電視廣播信號(hào)內(nèi)容自動(dòng)監(jiān)測(cè)的迫切性日益增加,需要全面提高現(xiàn)有監(jiān)測(cè)系統(tǒng)的智能化水平。本文主要就音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)中的測(cè)試展開敘述。
廣播電視;語(yǔ)音監(jiān)測(cè);海外廣播網(wǎng);測(cè)試
近年來(lái),我國(guó)的廣播電視監(jiān)測(cè)事業(yè)發(fā)展迅猛,廣播電視監(jiān)測(cè)工作已經(jīng)進(jìn)入到了一個(gè)新的時(shí)代。廣播電視監(jiān)測(cè)工作已由過去被動(dòng)的事后服務(wù)轉(zhuǎn)變?yōu)榉e極主動(dòng)的過程服務(wù),由過去靠人工的、傳統(tǒng)落后的手段變?yōu)閿?shù)字化、網(wǎng)絡(luò)化、自動(dòng)化的方式,由過去單一的無(wú)線廣播監(jiān)測(cè)向廣播電視全面、全方位監(jiān)測(cè)發(fā)展。
2002年,廣電總局實(shí)施“走出去”工程,以加強(qiáng)我國(guó)對(duì)外廣播電視宣傳,同時(shí),在海外建立了環(huán)球廣播監(jiān)測(cè)網(wǎng),加強(qiáng)對(duì)中國(guó)國(guó)際廣播電臺(tái)對(duì)外廣播效果和租機(jī)/互轉(zhuǎn)的電臺(tái)播出的監(jiān)督、檢查,提高對(duì)外廣播效果。我國(guó)在各國(guó)的駐外大使館都有相應(yīng)的信號(hào)采集設(shè)備,收集當(dāng)?shù)氐膶?duì)華廣播落地信號(hào),然后對(duì)信號(hào)進(jìn)行壓縮,通過互聯(lián)網(wǎng)傳回到國(guó)內(nèi)的監(jiān)測(cè)中心,進(jìn)行內(nèi)容監(jiān)測(cè),從而發(fā)現(xiàn)對(duì)我國(guó)社會(huì)、經(jīng)濟(jì)、外交等有用的重要信息。截至目前,海外監(jiān)測(cè)網(wǎng)已經(jīng)在50個(gè)國(guó)家相繼建立了54個(gè)無(wú)人值守遙控監(jiān)測(cè)站點(diǎn),每日可監(jiān)測(cè)中國(guó)國(guó)際廣播電臺(tái)對(duì)外播出的32種語(yǔ)言、383個(gè)頻率的廣播效果。
將音頻識(shí)別、文本檢索、圖像處理等新技術(shù)實(shí)際應(yīng)用于目前主要靠人工完成廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù),充分利用計(jì)算機(jī)對(duì)于海量節(jié)目?jī)?nèi)容自動(dòng)處理具有的速度快、效率高、可以控制漏檢率等特點(diǎn),將眾多的先進(jìn)技術(shù)服務(wù)與廣電監(jiān)測(cè)行業(yè)相結(jié)合。
(一)廣播音頻信號(hào)介紹
改革開放以來(lái),中國(guó)國(guó)務(wù)院僑辦每年都會(huì)同地方僑辦,通過駐外使領(lǐng)館、海外僑團(tuán)、華教組織邀請(qǐng)一定數(shù)量的華裔青少年來(lái)華參加夏(冬)令營(yíng)活動(dòng)。活動(dòng)過程以“游教結(jié)合、寓教于游、加強(qiáng)協(xié)調(diào)、熱情服務(wù)”的工作方針為指導(dǎo),讓廣大華裔青少年親眼目睹、親身感受中華文化的博大精深和改革開放的成就。1999年,國(guó)務(wù)院僑辦正式推出了以“中國(guó)尋根之旅”為品牌的系列夏(冬)令營(yíng)活動(dòng),受到海外僑胞尤其是華裔青少年的熱烈歡迎。
英國(guó)英語(yǔ)方言與規(guī)范英語(yǔ)有很大的差別,但英語(yǔ)方言與英語(yǔ)語(yǔ)言之間存在著緊密的聯(lián)系。英語(yǔ)方言的研究對(duì)英語(yǔ)語(yǔ)言體系研究具有積極的補(bǔ)充作用與正面反撥效應(yīng)。但本次研究具有一定的局限性,一是研究對(duì)象只限于英國(guó)英語(yǔ);二是對(duì)研究?jī)?nèi)容只是進(jìn)行了“粗線條”的討論與分析。因此,建議有更多的同行專家對(duì)“英國(guó)英語(yǔ)方言”進(jìn)行更為深入、系統(tǒng)、全面的研究。
圖1海外監(jiān)測(cè)機(jī)房典型語(yǔ)音
廣播音頻信號(hào)具有以下特點(diǎn):
1.信號(hào)在傳送過程中,由于干擾使得包含的噪聲很不穩(wěn)定,主要表現(xiàn)在兩方面:一是同一個(gè)音頻片段里的噪聲變化不均勻,時(shí)大時(shí)小;二是不同的音頻片段的信噪比差別較大。這就使得有的音頻片斷的信號(hào)質(zhì)量好一些,而有的音頻片斷的信號(hào)質(zhì)量卻很差。
2.由于是電臺(tái)節(jié)目信號(hào),所以包含了各種各樣的音頻類型,既有純凈的語(yǔ)音,也有帶音樂或噪聲背景的語(yǔ)音,既有音樂歌曲,也有強(qiáng)噪聲或者如鼓聲之類的環(huán)境音,可以說是一種語(yǔ)音、音樂和噪聲的混合音頻信號(hào)。
3.信號(hào)中含有大量的片頭曲,這些片頭曲多是一些具有音樂背景的報(bào)臺(tái)信號(hào),或者是不同節(jié)目的報(bào)幕信號(hào)。由于片頭曲中含有一定的語(yǔ)言信息,所以即使是同一個(gè)電臺(tái)或同一個(gè)節(jié)目,不同語(yǔ)言的片頭曲也是不同的。此外,由于廣播電臺(tái)的節(jié)目時(shí)刻表比較固定,同一語(yǔ)言播出的節(jié)目中的片頭曲相對(duì)也是固定的,這是一種固定音頻信號(hào)。
4.廣播節(jié)目都是以一定的頻率被播出的,在信號(hào)傳送過程中,某一頻率的節(jié)目信號(hào)有可能被其他節(jié)目的同一頻率信號(hào)完全干擾或臨界干擾,如果兩個(gè)節(jié)目的語(yǔ)言不同,那么將出現(xiàn)兩種或多種語(yǔ)言重疊或交疊出現(xiàn)在同一個(gè)音頻片段中的現(xiàn)象。此外,一個(gè)節(jié)目中也有可能出現(xiàn)多種語(yǔ)言,比如一些語(yǔ)言教學(xué)節(jié)目。
教師職業(yè)光榮,教師是人類靈魂的工程師。作為塑造人的事業(yè),教師對(duì)學(xué)生的成長(zhǎng)起到關(guān)鍵作用。教師不僅僅是文化科學(xué)知識(shí)的傳頌者,還是理想、信念、世界觀的傳播者,使受教育者學(xué)會(huì)做人,成為心理健康、品德高尚的一代新人。教師自己也要志存高遠(yuǎn),樹立正確的價(jià)值觀和高尚的人生觀。教師的產(chǎn)品是人,當(dāng)經(jīng)過自己付出心血澆灌的幼苗成為參天大樹時(shí),自己的成就感就會(huì)取代教學(xué)過程中的痛苦和辛勞,就會(huì)覺得教育的偉大,即使自己的收益低微些,即使自己在社會(huì)交際中不能游刃有余,但一樣能品味到自己的人生價(jià)值。
5.信號(hào)中的說話人不僅有主持人,也有大眾百姓,大家說的話不僅有母語(yǔ),也有方言,甚至還有非母語(yǔ)的外國(guó)人在說話,而且說話的內(nèi)容和說話人的性別也是隨機(jī)的。此外語(yǔ)音不僅僅是廣播語(yǔ)音,在一些人物采訪節(jié)目中常常出現(xiàn)電話或麥克風(fēng)語(yǔ)音。
6.由于廣播節(jié)目是每天24小時(shí)不間斷地播出的,所以采集的數(shù)據(jù)將是海量的,此外,雖然每段音頻的采集時(shí)長(zhǎng)約57秒鐘,但是如果去除其中的非語(yǔ)音成分,剩下的語(yǔ)音時(shí)長(zhǎng)卻是不定的。
從這些特點(diǎn)中不難看出,實(shí)際真實(shí)的音頻信號(hào)是非常復(fù)雜的,這給語(yǔ)種識(shí)別系統(tǒng)的實(shí)際應(yīng)用帶來(lái)了很大的困難和挑戰(zhàn)。
語(yǔ)音識(shí)別技術(shù)可自動(dòng)識(shí)別出語(yǔ)音段所屬的語(yǔ)言。
從表中可以看出,隨著訓(xùn)練數(shù)據(jù)量的增大,語(yǔ)種識(shí)別的性能也會(huì)相應(yīng)地提高。
當(dāng)前主流語(yǔ)音處理技術(shù)主要基于統(tǒng)計(jì)框架,一般包括以下流程和處理步驟,如圖2所示。
圖2 基于統(tǒng)計(jì)音頻內(nèi)容計(jì)算技術(shù)框架
1.建模數(shù)據(jù)庫(kù)的建立:主流音頻內(nèi)容計(jì)算技術(shù)建立于統(tǒng)計(jì)理論之上。系統(tǒng)性能對(duì)建模數(shù)據(jù)的依賴很大,因此要求建模數(shù)據(jù)與測(cè)試數(shù)據(jù)在應(yīng)用環(huán)境、說話方式等方面有一定的相關(guān)性,否則無(wú)法保證系統(tǒng)在應(yīng)用環(huán)境下的性能。
2.特征的選擇與提?。禾卣魇菂^(qū)分不同類事物最根本的屬性,選用不同的特征將帶來(lái)不同的區(qū)分能力使得類內(nèi)高偶合、類間低聚合。因此對(duì)不同的識(shí)別任務(wù),必須精細(xì)選擇所使用的特征。
3.建模技術(shù):模型用于刻畫不同類別之間的本質(zhì)差異,一個(gè)好的建模方法會(huì)顯著提高系統(tǒng)性能。目前主流的建模技術(shù)分為兩類,一類基于最大似然估計(jì)方法,其本質(zhì)是通過描述特征在空間中的分布參數(shù)來(lái)刻畫類別統(tǒng)計(jì)特性,最常見的模型是高斯混合模型GMM;另一類是基于區(qū)分度的估計(jì)方法,其本質(zhì)是通過描述不同類別的分界面信息來(lái)刻畫類別間的特性,最常見的模型是支持向量機(jī)模型SVM。
(三)面向真實(shí)應(yīng)用環(huán)境的音頻內(nèi)容處理框架
2001-2012年海南省國(guó)際旅游外匯收入除2003年和2009年下降外,總體呈波動(dòng)上升趨勢(shì)。期間,2003年受亞洲“非典”公共危機(jī)事件影響,2008-2009年受全球金融危機(jī)影響出現(xiàn)下滑。其國(guó)際旅游外匯收入從2001年的1.06億美元上升到2012年的3.48億美元。12年間的平均國(guó)際旅游外匯收入為2.21億美元,約占全國(guó)的0.65%,排名在二十一位名上下波動(dòng)。2001-2012年海南省國(guó)際旅游外匯收入一直低于全國(guó)平均值,差距越來(lái)越大。
對(duì)真實(shí)應(yīng)用環(huán)境語(yǔ)音的處理,需要包括以下流程和處理步驟,如圖3所示。
圖3 音頻內(nèi)容綜合處理系統(tǒng)框架
針對(duì)不同格式的輸入語(yǔ)音進(jìn)行格式轉(zhuǎn)換,統(tǒng)一為wav格式。
對(duì)于廣告或含有片頭曲檢出的任務(wù),可以采用固定音頻檢索技術(shù),把片頭曲或廣告作為模板,從音頻信號(hào)中檢索,根據(jù)片頭曲所對(duì)應(yīng)的語(yǔ)種來(lái)確定整個(gè)音頻片段的語(yǔ)種。
由于信號(hào)中含有多種音頻類型,而諸如音樂和噪聲之類的音頻幾乎不含所需信息,所以需要把音頻信號(hào)分成語(yǔ)音、音樂和噪聲,以去掉這些不含語(yǔ)種差別信息的非語(yǔ)音信號(hào)。
針對(duì)特定應(yīng)用環(huán)境,需要對(duì)音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估,對(duì)信號(hào)質(zhì)量較差的語(yǔ)音降低識(shí)別的置信度。
應(yīng)用型本科院校要想打造優(yōu)質(zhì)網(wǎng)絡(luò)教育資源,必須要做好建設(shè)規(guī)劃,針對(duì)特殊的“應(yīng)用型”設(shè)計(jì)完善的教育教學(xué)方案,確保網(wǎng)絡(luò)教育資源的完整性,這樣才能做有所用,使學(xué)生認(rèn)可,真正利用網(wǎng)絡(luò)學(xué)習(xí),從而打造出優(yōu)質(zhì)的網(wǎng)絡(luò)教育資源。
由于音頻信號(hào)含有噪聲較大且不均勻,提取特征時(shí)需要采取一定的噪聲消除技術(shù)。
系統(tǒng)特點(diǎn):反映語(yǔ)種間差異的是音素間的連接關(guān)系,因此必須增加特征的時(shí)間跨度已反映時(shí)序信息,系統(tǒng)中特征經(jīng)過區(qū)分性變換后,做長(zhǎng)時(shí)平均并增加SDC特征。
第四,加強(qiáng)高校教師學(xué)術(shù)道德建設(shè)重在實(shí)施,必須制定中長(zhǎng)期學(xué)術(shù)道德教育規(guī)劃。韓國(guó)高校教師學(xué)術(shù)道德教育實(shí)施體系的經(jīng)驗(yàn)表明,韓國(guó)十分重視規(guī)劃與實(shí)施,政府、高校、民間與教師都積極參與教育規(guī)劃與實(shí)施,每年定期不定期為高校教師提供各種學(xué)術(shù)道德教育課程,不斷強(qiáng)化高校教師學(xué)術(shù)道德教育。因此,我國(guó)政府與高校等作為高校教師學(xué)術(shù)道德教育的主管單位,要制定全面中長(zhǎng)期學(xué)術(shù)道德教育計(jì)劃,建立終身學(xué)術(shù)道德培訓(xùn)方案,定期不定期反復(fù)對(duì)高校教師進(jìn)行學(xué)術(shù)道德培訓(xùn)。當(dāng)然,還要吸取韓國(guó)的教訓(xùn),不能只注重教育,不注重效果,不能流于形式,要將學(xué)術(shù)道德教育做到實(shí)處。
(一)場(chǎng)景分析
音頻場(chǎng)景分析的目的是把輸入音頻文件分成語(yǔ)音和非語(yǔ)音,并把其中的非語(yǔ)音成分去掉,僅把語(yǔ)音提出來(lái)用于后續(xù)內(nèi)容計(jì)算。
建模數(shù)據(jù)庫(kù):從海外機(jī)房2月15號(hào)至28號(hào)不同語(yǔ)言播出的節(jié)目中人工整理用于音頻分類的訓(xùn)練數(shù)據(jù),考慮到訓(xùn)練樣本的平衡,其中語(yǔ)音60M,非語(yǔ)音60M,非語(yǔ)音包括音樂和噪聲各30M。整理時(shí)把帶強(qiáng)音樂背景的語(yǔ)音歸為音樂,帶強(qiáng)噪聲背景的語(yǔ)音歸為噪聲,而帶弱音樂或弱噪聲背景的語(yǔ)音歸為語(yǔ)音。然后使用語(yǔ)音和非語(yǔ)音共120M數(shù)據(jù)訓(xùn)練第一個(gè)分類器,用來(lái)區(qū)分語(yǔ)音和非語(yǔ)音,使用音樂和噪聲共60M數(shù)據(jù)訓(xùn)練第二個(gè)分類器,用來(lái)區(qū)分音樂和噪聲。
特征選擇:常用的音頻分類特征有16種,其中時(shí)域特征包括7種,即過零率(Zero-Crossing Rate,ZCR)、高過零率幀的比率(High Zero-Crossing Rate Ratio,HZCRR)、短時(shí)能量(Short-Time Energy,STE)、低能量幀的比率(Low Short-Time Energy Ratio,LSTER)、短時(shí)能量的均方值(Root-Mean-Square,RMS)、靜音幀的比率(Silence Frame Ratio,SFR)、子頻帶能量分布(Sub-band Energy Distribution,SED);頻域特征包括9種,即頻譜差分幅度(Spectrum Flux,SF)、頻譜質(zhì)心(Spectrum Centroid,SC)、頻譜散度(Spectrum Spread,SS)、頻譜截止頻率(Spectral Rolloff Frequency,SRF)、子頻帶周期(Sub-band Periodicity,BP)、噪聲幀的比率(Noise Frame Ratio,NFR)、線譜對(duì)(Linear Spectrum Pairs,LSP)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)和梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)。而一些非常用的音頻特征包括短時(shí)基頻(Short-Time Fundamental Frequency,STFF)和譜峰軌跡(Spectral Peak Track,SPT)等。
首先,合同文本的詞匯具有如下特點(diǎn):第一,常使用專業(yè)術(shù)語(yǔ)、正式詞匯和情態(tài)動(dòng)詞shall,多使用正式、嚴(yán)謹(jǐn)?shù)臅嬲Z(yǔ),以確保合同的莊重性和準(zhǔn)確性。第二,多使用同義詞和成對(duì)詞語(yǔ)進(jìn)行表達(dá),這樣可以盡量避免合同語(yǔ)言中可能存在的歧義與誤解。例如 “terms and conditions” (條款和條件)、“by and between”(由)等。第三,英文商務(wù)合同多使用古體詞。常以there、here和where 分別加上after、by、from、in、of、to、under等介詞中的一個(gè)或幾個(gè)共同構(gòu)成復(fù)合副詞,常見的有“herein”、“hereafter”等。
我們以高過零率幀的比率HZCRR和噪聲幀的比率NFR為例,說明其對(duì)語(yǔ)音/非語(yǔ)音和音樂/噪聲具有區(qū)分能力。
圖4 HZCRR和NFR對(duì)語(yǔ)音/非語(yǔ)音和音樂/噪聲具有區(qū)分能力
如圖4所示,對(duì)輸入音頻分別提取高過零率幀的比率HZCRR和噪聲幀的比率NFR特征,可發(fā)現(xiàn)語(yǔ)音/非語(yǔ)音HZCRR特征、音樂/噪聲NFR特征的數(shù)值范圍具有明顯差別,可作為特征區(qū)分兩者。
為此,根據(jù)不同特征間的區(qū)分能力及其互補(bǔ)性,系統(tǒng)采用了如下特征:
表1 音頻分類特征集
建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。支持向量機(jī)(SVM)是一種基于現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,在解決有限樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM是一種兩類樣本分類器,其目標(biāo)是在超高維(一般幾十萬(wàn)維)空間找到一個(gè)分類超平面,使得它能夠盡可能多的將兩類樣本數(shù)據(jù)正確分開,同時(shí)使分開的兩類數(shù)據(jù)點(diǎn)距離分類面最遠(yuǎn)。一般包括兩個(gè)部分,即特征從原空間到超高維空間的映射和分類面學(xué)習(xí)。
圖5支持向量機(jī)(SVM)原理
(二)音頻信號(hào)質(zhì)量評(píng)估
音頻場(chǎng)景分析的目的是按照我國(guó)《廣播節(jié)目聲音質(zhì)量主觀評(píng)價(jià)方法和技術(shù)指標(biāo)要求》的規(guī)定,對(duì)廣播節(jié)目語(yǔ)音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。
表2 廣播節(jié)目語(yǔ)音質(zhì)量的主觀評(píng)價(jià)等級(jí)
特征選擇和提取:通過比較和分析,系統(tǒng)選擇語(yǔ)音能量、噪聲能量、信噪比、音樂/噪聲/語(yǔ)音比例、基于譜熵的可聽度估計(jì)幾種特征。建模技術(shù):采用多特征的線性加權(quán)分類技術(shù),各特征的加權(quán)系數(shù)經(jīng)驗(yàn)確定。測(cè)試原理如下圖所示:
圖6 測(cè)試原理
性能分析:對(duì)于機(jī)器自動(dòng)評(píng)分和人工評(píng)分不一致的結(jié)果,請(qǐng)值班員幫助判斷。值班員的判斷結(jié)果分為三類,即人工和自動(dòng)評(píng)分均可、自動(dòng)評(píng)分偏差和人工主觀性因素偏差。對(duì)于自動(dòng)評(píng)分偏差,其主要影響因素是算法參數(shù),為此根據(jù)人工判斷結(jié)果對(duì)算法參數(shù)做適當(dāng)調(diào)整,再次迭代,直至過程收斂。
首先對(duì)3月1日、5日、10日和14日的這4天采集的約6000個(gè)音頻片段人工進(jìn)行主觀打分,然后由系統(tǒng)對(duì)這些音頻片段自動(dòng)評(píng)分,比較人工主觀評(píng)分和系統(tǒng)自動(dòng)評(píng)分的一致性,實(shí)驗(yàn)結(jié)果如下表所示。
表3 系統(tǒng)自動(dòng)評(píng)分與人工主觀評(píng)分的一致性
從總體實(shí)驗(yàn)結(jié)果來(lái)看,整體上人工和系統(tǒng)打分完全一致的比率為66.5%,對(duì)評(píng)分不一致的音頻片段進(jìn)行分析,我們發(fā)現(xiàn):a) 經(jīng)人工確認(rèn),兩種打分均可的約占16.2%;b) 由于人工疲勞等主觀因素使得人工評(píng)分不正確的約占9.7%;c) 由于算法不夠精致使得系統(tǒng)打分偏離人工打分1級(jí)的約占5.6%,2級(jí)及其以上的約占2.0%。為此,我們以系統(tǒng)評(píng)分與人工評(píng)分差半級(jí)為正確,差兩級(jí)以上錯(cuò)誤,重新統(tǒng)計(jì)評(píng)分的一致性時(shí),上述4天打分一致性的整體平均正確率可達(dá)到98%。
(三)語(yǔ)音增強(qiáng)/去噪
語(yǔ)音增強(qiáng)/去噪的目的是增加帶噪語(yǔ)音的信噪比,從而提高后續(xù)內(nèi)容計(jì)算模塊的識(shí)別準(zhǔn)確性。
方法:針對(duì)背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,提出了在系統(tǒng)前端采用自適應(yīng)濾波器來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行降噪處理的方法,有效地提高了信號(hào)層的區(qū)分度。同時(shí),我們?cè)谀P投藢?duì)傳統(tǒng)的基于匹配的聲學(xué)模型訓(xùn)練算法(MULTI-TRAIN)進(jìn)行了改進(jìn),吸納了MULTI-TRAIN訓(xùn)練方法中在訓(xùn)練數(shù)據(jù)中加入應(yīng)用環(huán)境背景噪聲的做法,采集了大量不同種類和不同信噪比下的背景噪聲,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行“污染”,并用“污染”后的數(shù)據(jù)訓(xùn)練聲學(xué)模型,增加了訓(xùn)練和測(cè)試環(huán)境下模型的匹配程度。進(jìn)一步,我們?cè)陬l譜域提出了一種基于功率譜密度最小均方誤差估計(jì)(PSD-MMSE)的語(yǔ)音增強(qiáng)算法。該算法在功率譜域用指數(shù)分布來(lái)建模平穩(wěn)隨機(jī)噪聲,并用混合指數(shù)分布來(lái)建模語(yǔ)音的能量譜,構(gòu)建了純凈語(yǔ)音功率譜密度的最小均方誤差估計(jì)器,顯著地改善了語(yǔ)音質(zhì)量。此外,我們還在對(duì)數(shù)譜域提出了一種采用高階泰勒級(jí)數(shù)展開來(lái)近似對(duì)數(shù)譜域非線性環(huán)境函數(shù)從而尋求最合適的補(bǔ)償形式以補(bǔ)償對(duì)數(shù)譜域特征的方法。該方法還同時(shí)考慮了對(duì)數(shù)譜高斯混合模型的建模精度問題,并且引入了能量補(bǔ)償?shù)乃枷?,提出了采用類似譜減的方式來(lái)補(bǔ)償語(yǔ)音能量的方法,并研究了把對(duì)數(shù)能量和對(duì)數(shù)譜結(jié)合在一起補(bǔ)償?shù)目赡苄浴?/p>
特點(diǎn):由于背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,噪聲的估計(jì)與補(bǔ)償必須自適應(yīng)地進(jìn)行;另外,構(gòu)造補(bǔ)償濾波器時(shí)要盡可能精確。
真實(shí)應(yīng)用環(huán)境下的語(yǔ)音現(xiàn)象非常豐富,以海外監(jiān)測(cè)機(jī)房短波音質(zhì)廣播語(yǔ)音為例(如圖1)。
(四)音頻模板檢索
音頻模板檢索的目的是根據(jù)對(duì)固定出現(xiàn)的音頻片斷,入廣告、片頭曲等,對(duì)廣播節(jié)目進(jìn)行定位。
特征選擇和提?。憾鄠€(gè)子頻帶的能量比率。
無(wú)線移動(dòng)通訊系統(tǒng)共同組成的數(shù)據(jù)終端設(shè)備。非常創(chuàng)新地更改了以往用網(wǎng)絡(luò)、電話語(yǔ)音作為通訊的途徑,開啟了GSM網(wǎng)絡(luò)數(shù)據(jù)和應(yīng)用的大門。該模塊功能非常強(qiáng)大,它不僅可以收發(fā)短信,以達(dá)到信息的傳遞、語(yǔ)音通訊、無(wú)線上網(wǎng)等,這次主要是采用其短信方面的功能。
建模數(shù)據(jù)庫(kù):17個(gè)語(yǔ)種,如表4。每個(gè)語(yǔ)種經(jīng)過自動(dòng)去除片頭曲、噪聲和音樂處理,每個(gè)語(yǔ)種的訓(xùn)練數(shù)據(jù)約2-3小時(shí)。
系統(tǒng)特點(diǎn):1.抗畸變:首先采用頻譜的掩蔽和增強(qiáng)技術(shù)對(duì)音頻進(jìn)行畸變消除和歸一化處理,從而降低音頻中的噪聲、扭曲等畸變,提高了方法的魯棒性,然后采用臨界頻帶劃分策略,提取多個(gè)子頻帶的能量比率作為基本特征,并建立每個(gè)片頭曲的直方圖模型;
2.搜索速度快:基于直方圖重疊相似度最小的快速搜索策略,并在搜索過程中選擇多尺度步長(zhǎng)預(yù)測(cè)技術(shù)提高搜索速度。
性能分析:從2月15號(hào)至28號(hào)的部分音頻片段中截取90個(gè)不同語(yǔ)種的片頭曲模板,然后從3月1號(hào)至5號(hào)的部分音頻片段中再截取77個(gè)與前90個(gè)沒有重復(fù)的片頭曲模板,每個(gè)片頭曲模板的時(shí)長(zhǎng)從2秒到20秒不等?;谏鲜銎^曲模板,對(duì)3月6號(hào)至14號(hào)的13512個(gè)音頻片段進(jìn)行檢索。檢出2950個(gè)文件含有片頭曲,檢出率為21.83%,其中錯(cuò)誤的有15個(gè),誤報(bào)率為0.51%。
經(jīng)濟(jì)全球化的發(fā)展,使得網(wǎng)絡(luò)技術(shù)不斷發(fā)展,傳統(tǒng)的企業(yè)財(cái)務(wù)管理制度已無(wú)法在適應(yīng)當(dāng)前的發(fā)展形勢(shì),因此新的企業(yè)財(cái)務(wù)管理模式的出現(xiàn)已迫在眉睫。然傳統(tǒng)的管理模式在理論、制度等方面出現(xiàn)的問題較多,以致于新型的管理模式還不能將“互聯(lián)網(wǎng)+”技術(shù)與財(cái)務(wù)管理互相協(xié)調(diào)。同時(shí),當(dāng)前的市場(chǎng)波動(dòng)較大,也對(duì)企業(yè)的發(fā)展造成了一定的阻礙。使得企業(yè)在管理層面還出現(xiàn)較大的漏洞,缺乏專業(yè)化、科學(xué)化的理論知識(shí)支撐體系的發(fā)展。
(五)語(yǔ)種識(shí)別
音頻內(nèi)容綜合自動(dòng)處理系統(tǒng)的主要處理對(duì)象是語(yǔ)音,對(duì)其內(nèi)容的分析和監(jiān)測(cè)對(duì)象包括內(nèi)容、關(guān)鍵信息、語(yǔ)種等。
特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)和移動(dòng)差分倒譜特征(SDC),高維空間映射后增加長(zhǎng)時(shí)平均,從而包含了更多的時(shí)序信息。
建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。
模型:直方圖重迭匹配。
表4 海外機(jī)房17個(gè)語(yǔ)種
對(duì)于經(jīng)過增強(qiáng)后的語(yǔ)音,進(jìn)行內(nèi)容識(shí)別、語(yǔ)種識(shí)別及敏感信息監(jiān)測(cè)等內(nèi)容計(jì)算任務(wù)。
性能分析
實(shí)驗(yàn)1:識(shí)別性能隨不同建模數(shù)據(jù)庫(kù)規(guī)模的變化
每個(gè)語(yǔ)種訓(xùn)練模型的數(shù)據(jù)量從1.5小時(shí)、2.5小時(shí)到3小時(shí)逐漸增大,,得到每個(gè)語(yǔ)種的模型之后,經(jīng)過識(shí)別,實(shí)驗(yàn)結(jié)果如表5.5所示。
表5 識(shí)別性能隨不同訓(xùn)練數(shù)據(jù)量的變化
(二)音頻內(nèi)容處理技術(shù)基礎(chǔ)框架
實(shí)驗(yàn)2:識(shí)別性能隨不同語(yǔ)種數(shù)的變化
按照語(yǔ)種名字的漢語(yǔ)拼音字母的順序,我們從6個(gè)語(yǔ)種開始,每次增加2個(gè)逐漸增加到16個(gè)直至17個(gè)語(yǔ)種,并且基于每個(gè)語(yǔ)種3小時(shí)的數(shù)據(jù)量訓(xùn)練模型,對(duì)相應(yīng)的測(cè)試數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別性能如圖所示。
保證率z計(jì)算:z=(Rn-R標(biāo))/Sn=(28.5-25)/0.97=3.61式中:Rn——n組試件強(qiáng)度的平均值,MPa;
圖7 識(shí)別性能隨不同語(yǔ)種數(shù)的變化
從圖中可以看出,隨著要識(shí)別的語(yǔ)種個(gè)數(shù)的增多,識(shí)別性能逐漸下降,這主要是因?yàn)樵黾拥恼Z(yǔ)種容易和其他語(yǔ)種相互混淆。
實(shí)驗(yàn)3:模型優(yōu)化
基于200M數(shù)據(jù)訓(xùn)練的17個(gè)語(yǔ)種的模型,對(duì)3月1日至14日的音頻文件進(jìn)行識(shí)別,識(shí)別過程中,每個(gè)語(yǔ)種都有部分語(yǔ)音,其信號(hào)質(zhì)量不差(不低于3分)且時(shí)長(zhǎng)也較長(zhǎng)(不低于30秒),但是該語(yǔ)種的模型得分有時(shí)候雖然是第一名卻比較低,甚至有時(shí)候不是第一名,使用這部分語(yǔ)音更新訓(xùn)練相應(yīng)的語(yǔ)種模型,上述思想稱之為從錯(cuò)誤中學(xué)習(xí)。
下面我們使用3月6日至31日的語(yǔ)音句子,基于17個(gè)語(yǔ)種測(cè)試比較從錯(cuò)誤中學(xué)習(xí)前后的識(shí)別正確率,實(shí)驗(yàn)結(jié)果為:原模型的識(shí)別正確率為90.85%,更新后模型識(shí)別正確率為93.58%,提高了2.73%,這說明從錯(cuò)誤中學(xué)習(xí)是非常有效的。
(六)語(yǔ)音識(shí)別技術(shù)
教師的心理健康具有十分重要的意義,責(zé)任和義務(wù)要求全社會(huì)關(guān)注教師的心理健康。在當(dāng)今世界上,經(jīng)濟(jì)的實(shí)力取決于勞動(dòng)者的素質(zhì),而勞動(dòng)者的素質(zhì)又取決于教育水平[5]。未來(lái)的世界競(jìng)爭(zhēng)實(shí)際是教育水平的競(jìng)爭(zhēng),就是人才的競(jìng)爭(zhēng),教育要靠教師去成就,人才要靠教師去培養(yǎng),教師的心理健康問題是一個(gè)全社會(huì)都要重視的問題。
語(yǔ)音識(shí)別技術(shù)可將連續(xù)輸入的音頻流中的語(yǔ)音部分,翻譯成對(duì)應(yīng)的文本信息。
特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)。
好,你去吧。我明天中午回,記得給我留一盤,別給你媽都送去。好久沒吃你包的餃子了……哎,來(lái)了來(lái)了……老婆,大家催我了,就這樣,我掛了。
建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。
建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音,新唐人電視臺(tái)120小
③ 王燕晶.“中國(guó)風(fēng)”歌曲流行現(xiàn)狀及其在對(duì)外漢語(yǔ)教學(xué)中的應(yīng)用[J].四川:四川理工學(xué)院學(xué)報(bào)社會(huì)科學(xué)版第26卷第5期,2011.
時(shí),美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。
系統(tǒng)特點(diǎn):系統(tǒng)采用的關(guān)鍵詞檢出框架如圖8所示。
圖8 連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架
系統(tǒng)模型包括聲學(xué)和語(yǔ)言模型兩套,聲學(xué)模型的作用為將語(yǔ)音特征轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)音素序列,語(yǔ)言模型在此基礎(chǔ)上完成音到字的轉(zhuǎn)換。系統(tǒng)基于國(guó)際主流LVCSR技術(shù),針對(duì)漢語(yǔ)語(yǔ)音做了具有創(chuàng)新性的貢獻(xiàn),突破了在漢語(yǔ)LVCSR總體框架、聲調(diào)和聲韻母聯(lián)合建模、大規(guī)模語(yǔ)音語(yǔ)料庫(kù)處理、系統(tǒng)搜索、網(wǎng)絡(luò)語(yǔ)言增強(qiáng)的語(yǔ)言建模和無(wú)監(jiān)督聲學(xué)模型訓(xùn)練等方面的關(guān)鍵技術(shù)。
(七)敏感信息/時(shí)段監(jiān)測(cè)
敏感信息監(jiān)測(cè)技術(shù)可從連續(xù)輸入的音頻流中,發(fā)現(xiàn)預(yù)定的敏感信息。
特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)。
建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。
建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音,新唐人電視臺(tái)120小時(shí),美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。
敏感時(shí)段監(jiān)測(cè):在敏感詞匯檢出基礎(chǔ)上,根據(jù)單位時(shí)間加權(quán)置信度信息分析某個(gè)時(shí)段的敏感程度。
系統(tǒng)采用的關(guān)鍵詞檢出框架如圖5.9所示。系統(tǒng)中采用了一種改進(jìn)的兩階段處理架構(gòu)的關(guān)鍵詞檢出方法。在第一階段,系統(tǒng)不僅為詞表中的詞、靜音和可能出現(xiàn)的噪聲建立模型,同時(shí)還要為非關(guān)鍵詞建立若干填充模型。在第二階段,系統(tǒng)對(duì)檢出結(jié)果的置信度進(jìn)行計(jì)算,從而判斷該結(jié)果是否可信。
為實(shí)現(xiàn)在真實(shí)環(huán)境條件下的應(yīng)用,我們?cè)谫Y源允許的條件下采用了盡可能精細(xì)的填充模型來(lái)解決填充模型選擇困難的難題。同時(shí),通過在一般情況下采取全局回溯技術(shù),及在口語(yǔ)發(fā)音變異比較嚴(yán)重的場(chǎng)合采用局部回溯技術(shù),有效的解決了關(guān)鍵詞檢出率不高這一問題。此外,我們還通過采用關(guān)鍵詞網(wǎng)絡(luò)和填充網(wǎng)絡(luò)進(jìn)行獨(dú)立擴(kuò)展裁剪,大大降低了系統(tǒng)性能對(duì)于進(jìn)入填充模型的懲罰系數(shù)的敏感度,從而解決了調(diào)節(jié)進(jìn)入填充模型的懲罰系數(shù)困難這一問題。
圖9 關(guān)鍵詞檢出系統(tǒng)框架
目前,國(guó)際上廣泛采取的置信度估計(jì)手段主要有三類,即基于正確/誤識(shí)兩類分類器、基于對(duì)數(shù)似然比和基于后驗(yàn)概率的方法。考慮到對(duì)數(shù)似然比的方法和基于后驗(yàn)概率的方法在實(shí)際應(yīng)用條件下具有很強(qiáng)的互補(bǔ)性,而基于正確/誤識(shí)兩類分類器可以作為上述兩類方法有益的補(bǔ)充。我們?cè)趯?shí)際應(yīng)用中,提出了綜合利用上述三類方法。
(八)綜合性能測(cè)試
在綜合使用了音頻信號(hào)質(zhì)量評(píng)估、語(yǔ)音增強(qiáng)/去噪、音頻模板檢索、語(yǔ)種識(shí)別、音識(shí)別技術(shù)、敏感信息/時(shí)段監(jiān)測(cè)。
測(cè)試數(shù)據(jù)與環(huán)境:
√2月1號(hào)-28號(hào)全部數(shù)據(jù),共47960個(gè)文件,去掉臨時(shí)測(cè)試文件,剩下46275個(gè)測(cè)試文件
√17個(gè)語(yǔ)種模型
√228個(gè)片頭曲模型,其中包括集外語(yǔ)種(蒙、孟、烏、越)的40個(gè)片頭曲模型
√測(cè)試語(yǔ)音時(shí)長(zhǎng)約72%為117秒,約28%為57秒
√不限定話長(zhǎng)和得分
按天統(tǒng)計(jì)結(jié)果如下表所示:
28天平均工作量減輕為46.84%,系統(tǒng)誤報(bào)率僅為1.61‰。進(jìn)一步分析可以發(fā)現(xiàn),日減輕工作量與當(dāng)日可進(jìn)行處理的文件有強(qiáng)相關(guān)性,如圖所示,說明系統(tǒng)運(yùn)行性能穩(wěn)定。
音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)網(wǎng)中的成功測(cè)試,是先進(jìn)的科學(xué)技術(shù)和實(shí)際應(yīng)用的良好結(jié)合點(diǎn)。先進(jìn)的技術(shù)結(jié)合了實(shí)際工作需求,反復(fù)測(cè)試和優(yōu)化,系統(tǒng)的性能得到顯著提升。將不能達(dá)到100%正確率的技術(shù)運(yùn)用到需要100%準(zhǔn)確的監(jiān)測(cè)工作中,真正減少人工監(jiān)測(cè)工作量50%。
基于語(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù),提出一套計(jì)算機(jī)自動(dòng)打分方法并結(jié)合人工評(píng)分反復(fù)修正。并從真正減輕值班員工作量角度出發(fā),綜合利用語(yǔ)種識(shí)別結(jié)果的置信度技術(shù),把識(shí)別結(jié)果分為確定而無(wú)需人工再次干預(yù)和需人工評(píng)判兩類。另外,結(jié)合短波廣播語(yǔ)音的噪聲強(qiáng)、音樂多、存在片頭曲等現(xiàn)象,不斷增加和完善系統(tǒng)流程,集成了包括片頭曲識(shí)別、音樂/噪聲/語(yǔ)音分類、語(yǔ)音增強(qiáng)在內(nèi)多項(xiàng)技術(shù)集成創(chuàng)新。基于語(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù)的研發(fā)進(jìn)程顯示,測(cè)試期間對(duì)數(shù)萬(wàn)個(gè)文件進(jìn)行測(cè)試和分析,對(duì)常用的片頭曲模型進(jìn)行了重新優(yōu)化和增減,對(duì)質(zhì)量好識(shí)別性能差的句子針對(duì)性地進(jìn)行了分析和試驗(yàn),從錯(cuò)誤中學(xué)習(xí),進(jìn)一步優(yōu)化了模型。基于語(yǔ)音抗噪聲技術(shù),對(duì)信噪比較低的短波信道音質(zhì)的廣播語(yǔ)音實(shí)現(xiàn)了高可靠度的語(yǔ)種識(shí)別,在15個(gè)語(yǔ)種條件下識(shí)別準(zhǔn)確率達(dá)到95%。同時(shí)應(yīng)用基于似然比檢驗(yàn)的識(shí)別結(jié)果置信度技術(shù),對(duì)語(yǔ)種識(shí)別結(jié)果的錯(cuò)誤部分進(jìn)行自動(dòng)剔除,使得置信度為100%的識(shí)別結(jié)果無(wú)需人工確認(rèn),將每天100小時(shí)的人工監(jiān)測(cè)工作量減半,大大提高了監(jiān)測(cè)工作的質(zhì)量和效率。
[1]杜利民. 自動(dòng)語(yǔ)言辨識(shí)研究[J].電子科技導(dǎo)報(bào), 1996(4).
[2]高升, 徐波, 黃泰翼. 基于決策樹的漢語(yǔ)三音子模型[J]. 聲學(xué)學(xué)報(bào), 2000(6).
[3]姜洪臣, 梁偉, 張樹武, 徐波. 音頻場(chǎng)景分類的音頻特征提取和分析[J].聲學(xué)技術(shù), 2005(6).
[4]杜樹新, 吳鐵軍. 模式識(shí)別中的支持向量機(jī)方法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2003(5).
The Technology of Audio Content Integrated Processing in the Test of Overseas Broadcast Monitoring Network
Zhao Yan
(Supervision Center, State Press and Publication Administration of Radio and Television, Beijing, 100866)
At present, the content monitoring service of TV broadcast signal is mainly completed artificially. With the continuous expansion of the monitoring business, facing the massive data, the urgency of realizing the automatic monitoring of TV broadcasting signal is increasing, which needs to improve the intelligent level of the existing monitoring system. This paper mainly narrates the technology of audio content integrated processing in the test of overseas broadcast monitoring.
radio and TV; voice monitoring; overseas broadcast network; test
2015—11—30
趙 琰(1981—),女,山西太原人,國(guó)家新聞出版廣電總局監(jiān)管中心,工程師,碩士。
TP
A
1008—8350(2016)01—0031—07