呂坤
摘 要:安全播出是廣電工技術(shù)作第一技術(shù)要?jiǎng)?wù)。本文通過(guò)應(yīng)用聲紋比對(duì)技術(shù),設(shè)計(jì)實(shí)現(xiàn)了一套實(shí)時(shí)監(jiān)播系統(tǒng)。該系統(tǒng)可對(duì)廣播播出過(guò)程中傳輸故障導(dǎo)致的靜音、發(fā)射設(shè)備故障導(dǎo)致的白噪聲和切換問(wèn)題導(dǎo)致的播出信號(hào)錯(cuò)誤進(jìn)行實(shí)時(shí)監(jiān)測(cè)報(bào)警。
關(guān)鍵詞:聲紋比對(duì) 廣播監(jiān)播 語(yǔ)譜圖 Acoustic Fingerprint
總局62號(hào)令提出的廣播電視安全播出工作的方針是:“不間斷、高質(zhì)量、既經(jīng)濟(jì)、又安全”。要保障安全播出,首要的是要及時(shí)發(fā)現(xiàn)播出信號(hào)出現(xiàn)的問(wèn)題。因此,筆者設(shè)計(jì)實(shí)現(xiàn)了一套可靠性高、功能完備又節(jié)約成本的廣播信號(hào)實(shí)時(shí)監(jiān)播系統(tǒng)。
本臺(tái)目前使用的信號(hào)檢測(cè)警報(bào)系統(tǒng),對(duì)音頻矩陣以及音分輸出信號(hào)的幅值進(jìn)行實(shí)時(shí)監(jiān)測(cè),其只能對(duì)發(fā)射前信號(hào)進(jìn)行監(jiān)控。因?yàn)椋l(fā)射后信號(hào)會(huì)因氣象條件,地理環(huán)境,發(fā)射、接受設(shè)備性能等因素的影響產(chǎn)生一定程度的信號(hào)噪聲。如果噪聲的幅值大于檢測(cè)系統(tǒng)的閾值則系統(tǒng)發(fā)生故障漏報(bào)。因此,本系統(tǒng)通過(guò)分析音頻信號(hào)的頻域特征而非響度進(jìn)行信號(hào)檢測(cè)。
一. 當(dāng)前音頻識(shí)別領(lǐng)域兩種主要技術(shù)的比較
數(shù)字音頻水印技術(shù)結(jié)合人類聽覺(jué)系統(tǒng)的遮蔽效應(yīng),對(duì)原音頻通過(guò)加水印算法在人耳聽閾之外或不敏感的時(shí)域、頻域嵌入用于音頻識(shí)別的水印信息,然后,在識(shí)別過(guò)程中通過(guò)水印提取算法驗(yàn)證音頻中包含的水印信息以獲取識(shí)別結(jié)果。
聲紋是指從一段音頻中根據(jù)其頻率、幅值等特性,經(jīng)過(guò)壓縮、提煉而成的數(shù)字特征碼,一般采用哈希碼的形式。即使比對(duì)的音頻在格式、壓縮比率、音量和信噪比等多種特性都不同,但只要其是來(lái)源于同一段音頻,具有相同的聽覺(jué)聲學(xué)特性,即可匹配成功。
在音頻數(shù)字水印技術(shù)的應(yīng)用中,大多數(shù)在頻域加水印的算法多將水印信息嵌入到人耳不敏感的18kHz以上的頻段,超出了廣播通路15kHz的頻段上限,而在時(shí)域加水印的算法則在實(shí)時(shí)性上效果欠佳。而且,如果轉(zhuǎn)播其他臺(tái)的節(jié)目信號(hào),音頻水印疊加對(duì)信號(hào)播出質(zhì)量、水印加取的影響也比較難于操控。而聲紋識(shí)別技術(shù),不污染匹配的音頻源,具有良好的配效率和魯棒性,并且算法復(fù)雜度較低,可運(yùn)行在較經(jīng)濟(jì)的硬件系統(tǒng)上。
因此,本系統(tǒng)采用了聲紋比對(duì)技術(shù)進(jìn)行信號(hào)識(shí)別。廣播系統(tǒng)中普遍使用延時(shí)設(shè)備和音頻處理設(shè)備保證節(jié)目播出質(zhì)量。因此,本檢測(cè)系統(tǒng)采用的特征提取及比對(duì)算法需有效對(duì)抗信號(hào)的延時(shí)、拉伸和增益調(diào)節(jié)。
二.音頻匹配算法介紹
本系統(tǒng)采用的聲紋提取算法借鑒了Wang在2003年論文中提出的Landmark指紋算法。筆者精煉了聲紋提取過(guò)程以降低系統(tǒng)的硬件需求,并設(shè)計(jì)了完全不同的比對(duì)算法以獲得檢測(cè)故障的高靈敏度。
1.將音頻統(tǒng)一轉(zhuǎn)換為22050Hz,16bit,單聲道的PCM裸流。
2.對(duì)音頻進(jìn)行非重疊加矩形窗,窗口長(zhǎng)度為2048.
3.對(duì)加窗后的音頻進(jìn)行FFT轉(zhuǎn)換,得到頻域信息。
4.基于語(yǔ)譜圖,將頻率劃為5個(gè)頻段,分別選取功率峰值點(diǎn)作為聲紋。
5.將兩段音頻聲紋逐一比對(duì),選取各個(gè)頻段功率值最相近并達(dá)到閾值的的配為一組,得到匹配點(diǎn)集合。
6)對(duì)匹配點(diǎn)集合(x,y)的坐標(biāo)求相關(guān)系數(shù)。x為匹配點(diǎn)在音頻1中的位序,y為匹配點(diǎn)在音頻2中的位序。
7)間隔固定時(shí)間步長(zhǎng)后(依據(jù)設(shè)定的故障報(bào)警時(shí)長(zhǎng)而定),重復(fù)步驟1至 6,直到關(guān)閉比對(duì)程序。
8)如果連續(xù)不匹配時(shí)長(zhǎng)超過(guò)報(bào)警閾值則觸發(fā)“不匹配警報(bào)”(信號(hào)錯(cuò)誤、靜音、白噪聲均視為不匹配)
不匹配時(shí)長(zhǎng) = 比對(duì)音頻時(shí)長(zhǎng) + (連續(xù)不匹配次數(shù) - 1)× 時(shí)間間隔步長(zhǎng)
9)如果音頻恢復(fù)匹配,則關(guān)閉“不匹配警報(bào)”。
三. 唐山廣播電臺(tái)實(shí)時(shí)監(jiān)播系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)。
1. 系統(tǒng)構(gòu)成
本系統(tǒng)采用的音頻處理比對(duì)算法簡(jiǎn)潔高效,可運(yùn)行在工作穩(wěn)定的PC機(jī)或筆記本電腦上。系統(tǒng)將直播間信號(hào)經(jīng)、本臺(tái)空中信號(hào)和需要轉(zhuǎn)播的中央臺(tái)、省臺(tái)及電視臺(tái)信號(hào)分別傳入音頻采集卡。系統(tǒng)中的音頻采集卡采用USB即插即用式聲卡,每塊聲卡帶有一條16比特、立體聲、22050Hz采樣率的輸入通道(Line In)用于音頻采集。采集的音頻輸入到一臺(tái)i3四核、8G內(nèi)存、100G固態(tài)盤、2TB SATA硬盤的筆記本電腦進(jìn)行聲紋提取、聲紋比對(duì)以及報(bào)警信息記錄。本系統(tǒng)的功能主要是在原有的硬件系統(tǒng)上進(jìn)行的軟件開發(fā),即提高了安全保障能力,又經(jīng)濟(jì)高效。
2. 音頻對(duì)比程序模塊
錄音模塊采用Core Audio 底層API實(shí)現(xiàn),具有低延時(shí)、高可靠性的特點(diǎn)。實(shí)時(shí)采集的音頻存儲(chǔ)到PCM隊(duì)列緩存中。
聲紋提取模塊從PCM隊(duì)列緩存中讀取準(zhǔn)備進(jìn)行比對(duì)的PCM碼流數(shù)據(jù),并根據(jù)前述算法分別進(jìn)行聲紋提取。
聲紋比對(duì)模塊對(duì)提取的聲紋進(jìn)行比對(duì),并對(duì)比對(duì)結(jié)果的位序求相關(guān)系數(shù),然后根據(jù)設(shè)定的相關(guān)系數(shù)閾值判斷比對(duì)是否匹配。
日志記錄模塊負(fù)責(zé)在聲紋比對(duì)不匹配時(shí),從PCM隊(duì)列緩存中讀取PCM數(shù)據(jù),連同報(bào)警日志信息一起保存在報(bào)警記錄中。
本系統(tǒng)的設(shè)計(jì)實(shí)施對(duì)本臺(tái)的安全播出工作做出了很大的改進(jìn)。利用此技術(shù)也可以檢測(cè)侵占廣播頻率和上星廣播電視節(jié)目的非法信號(hào)的攻擊。通過(guò)對(duì)日志收集的報(bào)警數(shù)據(jù)進(jìn)行分析,技術(shù)人員還可以找出播出報(bào)警的時(shí)間、時(shí)長(zhǎng)規(guī)律,對(duì)報(bào)警進(jìn)行分類,以更好的預(yù)防播出異常的發(fā)生,更快的處障。
參考文獻(xiàn)
[1] Avery Li-Chun Wang,An Industrial-Strength Audio Search Algorithm[C].Interna0tional Symposium on Music Information Retrieval(ISMIR),Maryland,2003,7-13
[2] 李懷暢. 電臺(tái)廣告智能監(jiān)播系統(tǒng)設(shè)計(jì)[J]. 電聲技術(shù),2016,40( 10) : 20-25,