亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)綜述

2016-03-24 08:12:54糜增元

中國新通信 2016年4期

糜增元

【摘要】本文通過基于內(nèi)容的數(shù)字音頻快速檢索專利技術(shù)申請文獻的檢索、統(tǒng)計和分析，依據(jù)音頻檢索流程分析了該技術(shù)領(lǐng)域的發(fā)展分支，特別針對特征提取、音頻分割等技術(shù)進行闡述。

【關(guān)鍵字】音頻檢索特征提取語音音頻分割

一、引言

基于人工輸入標注和屬性進行音頻檢索的傳統(tǒng)檢索方式存在以下缺陷：

1）當數(shù)據(jù)量越多時，人力工作量隨之加大；

2）對音頻的感知有時難以用文字表達清楚；

3）不支持實時音頻檢索，因此基于內(nèi)容的音頻檢索技術(shù)應(yīng)運而生。

基于內(nèi)容的音頻檢索利用音頻信息的幅度、頻譜等物理特性，響度、音高、音色等聽覺特性和音頻類別、語義等特征進行檢索，能夠有效且快速獲得用戶所需的音頻資源。

二、主要技術(shù)發(fā)展路線以及專利申請情況分析

基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)使用數(shù)字音頻的聲學(xué)特征作為音頻指紋代替音頻內(nèi)容數(shù)據(jù)本身進行檢索，音頻指紋相比音頻內(nèi)容數(shù)據(jù)本身，數(shù)據(jù)量得到大幅的壓縮，有助于大量數(shù)字音頻內(nèi)容的管理，使得音頻資源的管理更加規(guī)范高效。

檢索處理流程如下所述：

1）接收音頻流；

2）對音頻進行特征提??；

3）對音頻進行分割；

4）針對不同音頻組分采用不同處理方式。

以下，針對流程每一環(huán)節(jié)的技術(shù)分支進行進一步的闡述：

1）依照對采樣點提取特征的不同，音頻特征提取可分為時域特征的提取、頻域特征的提取、時域特征的提取，其中可提取的音頻時域特征有平均能量，過零率和線性預(yù)測系數(shù)等，而頻域特征的提取是利用傅里葉變換可分解出音頻信號的頻率成分，可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等，對于時變劇烈的音頻信號，小波變換能夠抓住信號局部的時頻特性，提高信號分析的能力。

2）音頻分割是比較相鄰兩個或幾個短時音頻特征，尋找發(fā)生突變的地方，在音頻特征發(fā)生突變的地方對連續(xù)的音頻流進行切分，把連續(xù)的音頻流變成時間長短不一的音頻片段，其主要包括：靜音分割：檢測音頻流中的靜音段作為突變點以進行分割；非靜音分割：檢測音頻流中音頻持續(xù)段作為音頻片段。

3）音頻組分，根據(jù)對音頻數(shù)據(jù)內(nèi)容的劃分可以知道，語音、音樂和其他聲響具有顯著不同的特性，因而目前的處理方法可以分為相應(yīng)的三種：處理包含語音的音頻和不包含語音的音頻，后者又把音樂單獨劃分出來。換而言之，第一種是利用自動語音識別技術(shù)，后兩種是利用更一般性的音頻分析，以適合更廣泛的音頻媒體，如音樂和聲音效果，當然也包含數(shù)字化語音信號。

圖1表示基于內(nèi)容的數(shù)字音頻快速檢索技術(shù)中針對不同音頻組分專利申請量情況.從圖1可以看出，針對語音檢索的專利申請量較多，這主要是由于其應(yīng)用領(lǐng)域較廣，例如聲音識別、語音控制等，市場前景廣闊，能帶來可觀經(jīng)濟效益，因此高校及企業(yè)均投入大量人力精力對其進行研究改進。

除此之外，對樂曲的快速檢索申請量也較多，主要涉及用戶利用示例音樂或是哼唱片段的檢索。

三、結(jié)語

通過對基于內(nèi)容的音頻檢索技術(shù)的處理流程以及不同音頻組分申請量比重了解分析后，可以看出，目前主流研究方向仍是針對語音語義的創(chuàng)新研究。

參考文獻

[1]鐘寶榮，吳春輝，音頻檢索方法的研究，《長江大學(xué)學(xué)報（自然科學(xué)版）》，2008年6月第5卷第2期.

[2]藺國梁，基于壓縮域特征的音頻識別算法，《甘肅聯(lián)合大學(xué)學(xué)報（自然科學(xué)版）》，2011年第25卷第6期.