糜增元
【摘要】 本文通過基于內(nèi)容的數(shù)字音頻快速檢索專利技術(shù)申請文獻的檢索、統(tǒng)計和分析,依據(jù)音頻檢索流程分析了該技術(shù)領(lǐng)域的發(fā)展分支,特別針對特征提取、音頻分割等技術(shù)進行闡述。
【關(guān)鍵字】 音頻檢索 特征提取 語音 音頻分割
一、引言
基于人工輸入標注和屬性進行音頻檢索的傳統(tǒng)檢索方式存在以下缺陷:
1)當數(shù)據(jù)量越多時,人力工作量隨之加大;
2)對音頻的感知有時難以用文字表達清楚;
3)不支持實時音頻檢索,因此基于內(nèi)容的音頻檢索技術(shù)應(yīng)運而生。
基于內(nèi)容的音頻檢索利用音頻信息的幅度、頻譜等物理特性,響度、音高、音色等聽覺特性和音頻類別、語義等特征進行檢索,能夠有效且快速獲得用戶所需的音頻資源。
二、主要技術(shù)發(fā)展路線以及專利申請情況分析
基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)使用數(shù)字音頻的聲學(xué)特征作為音頻指紋代替音頻內(nèi)容數(shù)據(jù)本身進行檢索,音頻指紋相比音頻內(nèi)容數(shù)據(jù)本身,數(shù)據(jù)量得到大幅的壓縮,有助于大量數(shù)字音頻內(nèi)容的管理,使得音頻資源的管理更加規(guī)范高效。
檢索處理流程如下所述:
1)接收音頻流;
2)對音頻進行特征提??;
3)對音頻進行分割;
4)針對不同音頻組分采用不同處理方式。
以下,針對流程每一環(huán)節(jié)的技術(shù)分支進行進一步的闡述:
1)依照對采樣點提取特征的不同,音頻特征提取可分為時域特征的提取、頻域特征的提取、時域特征的提取,其中可提取的音頻時域特征有平均能量,過零率和線性預(yù)測系數(shù)等,而頻域特征的提取是利用傅里葉變換可分解出音頻信號的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等,對于時變劇烈的音頻信號,小波變換能夠抓住信號局部的時頻特性,提高信號分析的能力。
2) 音頻分割是比較相鄰兩個或幾個短時音頻特征,尋找發(fā)生突變的地方,在音頻特征發(fā)生突變的地方對連續(xù)的音頻流進行切分,把連續(xù)的音頻流變成時間長短不一的音頻片段,其主要包括:靜音分割:檢測音頻流中的靜音段作為突變點以進行分割;非靜音分割:檢測音頻流中音頻持續(xù)段作為音頻片段。
3) 音頻組分,根據(jù)對音頻數(shù)據(jù)內(nèi)容的劃分可以知道,語音、音樂和其他聲響具有顯著不同的特性,因而目前的處理方法可以分為相應(yīng)的三種:處理包含語音的音頻和不包含語音的音頻,后者又把音樂單獨劃分出來。換而言之,第一種是利用自動語音識別技術(shù),后兩種是利用更一般性的音頻分析,以適合更廣泛的音頻媒體,如音樂和聲音效果,當然也包含數(shù)字化語音信號。
圖1表示基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)中針對不同音頻組分專利申請量情況.從圖1可以看出,針對語音檢索的專利申請量較多,這主要是由于其應(yīng)用領(lǐng)域較廣,例如聲音識別、語音控制等,市場前景廣闊,能帶來可觀經(jīng)濟效益,因此高校及企業(yè)均投入大量人力精力對其進行研究改進。
除此之外,對樂曲的快速檢索申請量也較多,主要涉及用戶利用示例音樂或是哼唱片段的檢索。
三、結(jié)語
通過對基于內(nèi)容的音頻檢索技術(shù)的處理流程以及不同音頻組分申請量比重了解分析后,可以看出,目前主流研究方向仍是針對語音語義的創(chuàng)新研究。
參 考 文 獻
[1]鐘寶榮, 吳春輝,音頻檢索方法的研究,《長江大學(xué)學(xué)報(自然科學(xué)版)》,2008年6月第5卷第2期.
[2]藺國梁,基于壓縮域特征的音頻識別算法,《甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版)》,2011年第25卷第6期.