摘 要:隨著計算機技術的快速發(fā)展,人與機器之間的交流也越來越廣泛,讓計算機聽懂語音,從海量的音頻信息中迅速、有效地檢索出所需要的音頻信息就變得越來越重要。文章通過檢索、統(tǒng)計、分析音頻數(shù)據(jù)檢索技術的國內外專利申請,從中獲得音頻數(shù)據(jù)檢索的申請量趨勢、申請人區(qū)域分布、重要申請人等信息,并從基于人工信息的音頻檢索和基于內容的音頻檢索兩個技術分支簡單梳理了音頻數(shù)據(jù)檢索中關鍵技術的發(fā)展脈絡,最后對音頻數(shù)據(jù)檢索的未來發(fā)展進行了展望。
關鍵詞:音頻數(shù)據(jù)檢索;基于內容;人工信息;專利
1 音頻數(shù)據(jù)檢索概述
音頻數(shù)據(jù)檢索最初使用的是基于人工產(chǎn)生的信息進行檢索,例如使用人工標注的標題,藝術家信息等信息用于查詢[1]。但隨著音頻數(shù)據(jù)的快速增長以及為滿足人們對實時音頻數(shù)據(jù)流檢索的要求,需要大量的人工勞動且其主觀性強的基于人工產(chǎn)生的信息進行檢索的技術越來越難以滿足用戶需求,人們希望能夠實時通過一小段未知來源的音頻快速地獲取其相關的完整信息,于是基于音頻內容特征的音頻檢索技術應運而生。基于內容的音頻檢索,是指利用音頻的頻譜、旋律等特征實現(xiàn)檢索[2],如通過“哼”某音樂的曲調在海量音頻庫中查找此音樂,現(xiàn)如今流行的“聽歌識曲”就是這一技術的體現(xiàn),其也代表了音頻數(shù)據(jù)檢索的重要發(fā)展趨勢。對音頻數(shù)據(jù)檢索領域相關專利進行分析和總結將有助于了解本領域的研究現(xiàn)狀,引導科研人員的研究方向。文章對音頻數(shù)據(jù)檢索技術領域的專利年申請量趨勢、專利申請區(qū)域分布和重要申請人分布分別進行統(tǒng)計分析,并簡單梳理了音頻數(shù)據(jù)檢索關鍵技術的發(fā)展脈絡。文章以截止到2016年6月3日SIPOABS數(shù)據(jù)庫已受理的公開專利數(shù)據(jù)為基礎。
2 專利的整體情況分析
2.1 申請量趨勢分析
圖1顯示SIPOABS數(shù)據(jù)庫中音頻數(shù)據(jù)檢索領域的專利申請年度分布圖??梢钥闯觯?000年前處于技術萌芽期,此時專利申請量相對較少。而2000年開始,音頻數(shù)據(jù)檢索技術開始進入快速發(fā)展期,該領域的技術專利申請量出現(xiàn)持續(xù)快速增長;并且在2006年全球申請量第一次達到高峰,而后可能受全球經(jīng)濟形勢的影響,專利申請量有所下滑,但是得力于語音識別技術的快速發(fā)展,到2012年該技術的申請量再次來到高峰,并且在2012至今每年申請量都保持在高水平。
2.2 申請人區(qū)域與重要申請人分析
圖2和圖3分別示出了國內外該領域專利申請人區(qū)域分布圖和重要專利申請人分布圖。由圖2可知,美國、中國、歐洲、日本、韓國是排名前五的國家。其中,美國申請量最大,占比54%。
從圖3可以看出,上述該領域的多個重要申請人均是源于這些國家。美國的微軟和IBM領先與其他申請人,飛利浦、谷歌、三星緊跟其后,中國的騰訊也有大量的申請。由此得出眾多國際知名企業(yè)在音頻數(shù)據(jù)檢索領域做出的大量研究,且做出了相應的專利布局。
3 音頻數(shù)據(jù)檢索技術演進路線分析
為了能夠更加全面地了解音頻數(shù)據(jù)檢索技術,下面將該技術的基于音頻內容特征的檢索和基于人工產(chǎn)生的信息檢索兩個技術分支進行演進路線分析,重點分析兩個分支在不同發(fā)展時期的關鍵專利。
3.1 基于人工產(chǎn)生的信息的音頻檢索
基于人工產(chǎn)生的信息的音頻檢索是指利用人工產(chǎn)生的信息如標題,藝術家信息,標簽,關鍵詞,時間,用戶評價等用于查詢[1]。1999年IBM申請的使用內容和揚聲器信息進行音頻信息檢索的方法和裝置(申請?zhí)朥S19990288724),首次結合了人工標注的信息進行音頻檢索,實現(xiàn)了根據(jù)音頻內容和演講人標識執(zhí)行查詢的音頻檢索系統(tǒng)。微軟及索尼都在該技術上做出進一步研究,分別申請了用于封裝媒體對象的代表性樣本的系統(tǒng)和方法(申請?zhí)朇N200480012356)和基于音頻搜索條件的搜索系統(tǒng)和搜索方法(申請?zhí)朇N200780031603)。隨后國內公司也在這方面做出大量研究,其中包括關鍵專利有騰訊申請的音頻標簽設置方法及裝置、存儲介質(申請?zhí)朇N201410025446)在檢索效率上做出改進。
3.2 基于內容的特征的音頻檢索
基于音頻內容的特征的音頻檢索是指如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實現(xiàn)與音頻內容信息相關的檢索[2]。索尼公司申請的專利對于機器人裝置的動作教學裝置和方法(申請?zhí)朖P2001091030A)為該技術奠定基礎,該申請通過語音識別結合關鍵詞檢索方便與機器人對話。此后,國內外對音頻指紋、旋律等特征的識別效率和檢索效率上不斷做出改進,不斷推動著音頻檢索技術的發(fā)展。2011年后國內該項技術迎來發(fā)展高峰,重大企業(yè)公司及重點院校都對該技術申請了關鍵專利。如騰訊在2011年申請的音頻指紋檢索方法及裝置(申請?zhí)朇N201110340094)和復旦大學在2013年申請的基于音頻指紋特征的音樂檢索系統(tǒng)(申請?zhí)朇N201310378000)都對音頻指紋的識別做出改進,提高了檢索效率。
4 結束語
音頻數(shù)據(jù)是最重要的多媒體數(shù)據(jù)之一,隨著網(wǎng)絡技術的普及,其重要性不言而喻,結合不同的音頻處理技術,其在不同領域里的應用也愈加廣泛。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關信息,享受自然、友好的數(shù)據(jù)庫檢索服務,也可廣泛的應用于遠程教學、衛(wèi)生醫(yī)療、數(shù)字圖書館、環(huán)境監(jiān)測等領域。
參考文獻
[1]李晨,等.音頻檢索技術研究[J].計算機技術與發(fā)展,2008,18(8):215-218.
[2]續(xù)鴻飛,等.音頻檢索綜述[J].晉圖學刊,2005(6):15-19.
作者簡介:鄧慧麗(1991,02-),女,漢族,研究生學歷,湖北省咸寧人,國家知識產(chǎn)權局專利局專利審查協(xié)作湖北中心,專利審查員,研究方向:信息檢索,主要從事信息檢索方面的專利審查工作。