亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于空間自適應(yīng)哈希算法的并行雙音頻指紋技術(shù)

2022-12-31 00:00:00黃一英鄧開發(fā)鄔春學(xué)

計算機應(yīng)用研究 2022年7期

摘要：針對非法音頻拷貝的檢索跟蹤性能問題進行研究，提出了一種基于新哈希的并行雙音頻指紋方法。為了提高檢測片段的完整性，應(yīng)用了并行的特性，通過沃爾什—哈達瑪轉(zhuǎn)換生成兩組實時并行的指紋；通過新哈希方法對兩組指紋進行相似性計算；最后檢索時讓并行的兩組指紋進行匹配，合并得到最終結(jié)果。實驗結(jié)果表明，該方法不僅對采用不同方法處理的音頻具有良好的魯棒性，能穩(wěn)定地表征音頻整體特性，與所考慮的其他方法相比，所提出的方法在匹配段完整性方面有所提高。

關(guān)鍵詞：音頻指紋；并行雙音頻；沃爾什—哈達瑪轉(zhuǎn)換；空間自適應(yīng)哈希算法；頻譜分割

中圖分類號：TP391.42 文獻標(biāo)志碼：A

文章編號：1001-3695（2022）07-024-2076-05

doi：10.19734/j.issn.1001-3695.2021.12.0672

基金項目：國家自然科學(xué)基金資助項目（2018YFC0810204）

作者簡介：黃一英（1997-），女（通信作者），廣西玉林人，碩士研究生，主要研究方向為數(shù)字多媒體等（1964393024@qq.com）；鄧開發(fā)（1965-），男，湖北荊州人，教授，博士，主要研究方向為光信息與計算機處理等；鄔春學(xué)（1964-），男，湖北人，教授，博士，主要研究方向為物聯(lián)網(wǎng)技術(shù)及應(yīng)用等.

Parallel dual audio fingerprinting based on spatially adaptive hashing algorithms

Huang Yiying¹^?，Deng Kaifa²，Wu Chunxue¹

（1.School of Optical-Electrical amp; Computer Engineering，University of Shanghai for Science amp; Technology，Shanghai 200093，China；2.School of Art amp; Design，Shanghai University of Engineering Science，Shanghai 201620，China）

Abstract：Aiming at the retrieval and tracking performance of illegal audio copies，this paper proposed a new hash-based parallel dual audio fingerprinting method.Firstly，to improve the integrity of the detected fragments，it applied the parallel feature and Walsh-Hadamard transformation to generate two sets of real-time parallel fingerprints.Then，it computed the similarity between the two sets of fingerprints by the new hashing method.Finally，during retrieval，it matched the parallel two sets of fingerprints and merged to obtain the final result.The experimental results show that the proposed method has good robustness for audio adopted different methods，and can stable characterize the overall characteristics of audio.Compared with the other methods，the proposed method has improved in terms of matching period of integrity.

Key words：audio fingerprint；parallel dual audio；Walsh-Hadamard transformation；spatial adaptive hash matching（SAH）；spectrum segmentation

0 引言

在數(shù)字媒體時代，人們都在尋求媒體資源的多效組合。例如，當(dāng)今全世界特別知名的TikTok，作為一個開放多媒體平臺，不僅深受人們喜歡，其資源傳播過程中還可以促進國際文化交流。在TikTok平臺上可以快速創(chuàng)造并發(fā)表或者搜尋各種藝術(shù)作品，尤其是音樂創(chuàng)意短視頻，但是也會引起很多問題。例如二次非法復(fù)制傳播^［1^］，歌曲版權(quán)侵權(quán)就是一個典型的例子。因此，為了應(yīng)對這一系列音頻數(shù)據(jù)的非法使用與惡意傳播，有關(guān)保護原創(chuàng)音頻和非法使用數(shù)據(jù)的音頻指紋技術(shù)應(yīng)運而生^［²^，3^］。保證音頻數(shù)據(jù)版權(quán)的典型技術(shù)有音頻指紋^［^4～8^］和音頻水印^［⁹^，10^］。其中，音頻指紋技術(shù)在數(shù)字媒體安全領(lǐng)域和版權(quán)管理方面得到了廣泛的應(yīng)用^［^11～17^］。

為了滿足音頻指紋技術(shù)的實際應(yīng)用^［18^］，提出了多種研究方法^［¹⁹^，20^］，其中，最主要的部分是音頻指紋提取。音頻指紋提取框架如圖1所示，圖中的步驟是提取流程，其每條線延伸出來的就是目前各自的研究方法，而研究最多的是特征提取這一部分。其中，標(biāo)記為紅色字體的即為本文的研究方法（參見電子版）。通常這些特征會使用分類器技術(shù)映射到一個更簡潔的表示（如隱含馬爾可夫模型（HMM）或量化技術(shù)等）。

Philips公司開發(fā)了一種經(jīng)典的魯棒性指紋識別系統(tǒng)，后繼有很多基于Phillips二值指紋的研究工作，對指紋提取方法進行了改進或者對其搜索算法進行了研究^［21^］。與Philips不同，Wang^［22^］提出了基于光譜峰信息的Shazam音頻指紋系統(tǒng)，該系統(tǒng)將光譜中一對相鄰的局部峰的相關(guān)信息存儲為指紋，它對于速度變化和整體音高變化等弱破壞性行為是健壯的。Baluja等人^［23^］提出通過小波變換提取音頻指紋。Ouali等人^［24^］提出劃分頻譜區(qū)域，通過計算閾值以上的能量點的絕對數(shù)量作為存儲信息的方法，由于其指紋數(shù)量超過48維，導(dǎo)致該方法對存儲空間有更高的要求，索引速度下降，對于一些大型數(shù)據(jù)集的影響更甚。文獻［1］中選擇合適的局部模態(tài)峰值作為特征點，對以特征點為中心的矩形塊進行處理，通過低頻DCT系數(shù)作為指紋特征。文獻［25］則將四邊形按照特定的規(guī)則進行分割，提出一種基于四邊形的指紋算法。文獻［26］提出音頻頻譜尺度不變特征變換（SIFT），通過局部哈希進行最近鄰匹配。文獻［1，25，26］在環(huán)境（速度、節(jié)奏、音高）變化中有很強的魯棒性，但在指紋存儲和索引速度方面表現(xiàn)不夠良好。Malekesmaeili等人^［1^］選擇固定模式的局部峰值作為特征點^［¹^］，對特征點上輸入的矩形塊進行處理，提取出 143 維低頻 DCT系數(shù)作為指紋信息。Zhang 等人^［26^］對音頻頻譜進行尺度不變特征變換（SIFT），生成 128 維 SIFT 特征，并通過局部敏感哈希進行最近鄰匹配。Sonnleitner等人^［25^］將峰四邊形按照特定的規(guī)則進行分割，提出基于aquad 的指紋算法。Liang等人^［27^］提出的并行雙音頻指紋在匹配段的完整性方面具有顯著優(yōu)勢，本文在該研究的基礎(chǔ)上加入魯棒性的哈希方法進行研究。

針對傳統(tǒng)音頻指紋匹配速度慢以及存儲空間高的問題，在文獻［27］的研究基礎(chǔ)上，提出了一種增強現(xiàn)有音頻指紋性能的指紋方法。首先，引用文獻［27］中提出的沃爾什—哈達瑪轉(zhuǎn)換原理將音頻信號進行分組，以達到并行的目的，其指紋提取過程如圖2所示，將提取的音頻指紋存儲在數(shù)據(jù)庫中，然后再對其進行相似性計算。在相似度計算過程中，本文采用了一種新的哈希方法——空間自適應(yīng)哈希（SAH）來比較音頻內(nèi)容之間的相似度^［28^］，通過漢明距離計算來驗證所生成哈希碼之間的相似性。為了證明該算法的優(yōu)越性，本文采用現(xiàn)有方法對匹配時間和性能進行了比較測試。實驗結(jié)果表明，與其他索引方法相比，該方法提高了檢索的準(zhǔn)確性、查全率等性能指標(biāo)；在魯棒性方面，并行雙指紋方法效果顯著。

1 方法概述

1.1 沃爾什—哈達瑪轉(zhuǎn)換原理

哈達瑪變換是一種廣義傅里葉變換（Fourier transforms），在近年來的視頻編碼標(biāo)準(zhǔn)中，哈達瑪變換多被用來計算SATD（一種視頻殘差信號大小的衡量）。沃爾什函數(shù)是一組矩形波，取值為1和-1，本文對其進行哈達瑪排列。沃爾什—哈達瑪變換的公式為

沃爾什—哈達瑪變換主要能針對頻譜做快速的分析，其具有能量集中的特點。利用其矩陣變換特點，若原始數(shù)據(jù)分布越均勻，則轉(zhuǎn)換后的數(shù)據(jù)越集中，并且不會丟失信息量。最低階的哈達瑪矩陣表示為

最高階（2n階）哈達瑪矩陣遞推公式為

哈達瑪矩陣的最大優(yōu)點在于它具有簡單的遞推關(guān)系，即高階矩陣可用兩個低階矩陣的克羅內(nèi)克積（Kronecker product）求得。本文利用八階哈達瑪矩陣H8，它是一個標(biāo)準(zhǔn)的對稱正交矩陣，通過其矩陣快速變換算法可以提高計算速度。H8如圖3所示。

1.2 譜圖生成

音頻頻譜圖生成整體流程如圖4所示。

音頻譜圖生成主要分為四部分。首先輸入音頻信號，然后對音頻信號進行加窗，接著采用短時傅里葉變換計算，最后生成頻譜圖。完整流程如圖5所示。

本文將音頻采樣至8 kHz，然后用漢明窗口（長度為24 ms）來計算短時傅里葉變換并生成頻譜，把不大于220 Hz的頻率信息擯棄，避免頻率能量過低對其他頻段造成干擾，每4 ms計算一次。

1.3 譜圖的區(qū)域劃分

為了更好地進行頻譜區(qū)域劃分，首先對采集到的音頻進行能量閾值檢測，然后過濾掉能量低于有效閾值的幀，并將其標(biāo)記為無用幀。將250幀的譜圖矩陣作為計算對象，持續(xù)時間為1 s（時間太短可能會導(dǎo)致矩陣中信息缺失，無法相互區(qū)分）。然后，將250幀的頻譜矩陣劃分成8×8個區(qū)域，時間分割為0.125每等分（總時長1 s），頻帶之比設(shè)為1：1：1：1：2：2：4：4。這樣劃分的依據(jù)是低頻會比高頻區(qū)域包含更多的信息，低頻區(qū)域的詳細劃分可以減少信息的偏差。對每個區(qū)域劃分后，得到8×8矩陣A，如圖6所示。

1.4 沃爾什變換和并行雙指紋生成

對矩陣A進行八階沃爾什—哈達瑪變換，獲得新的矩陣S8×8。

由哈達瑪變換的性質(zhì)可知，矩陣S8×8的第一個元素必須為最大值，即為原始矩陣的64個數(shù)字之和。將矩陣S8×8的每兩行相加以得到一個子矩陣Sr4×8，并將每相鄰兩列相加得到一個子矩陣Sr8×4。

將判別閾值t4×8、t8×4分別設(shè)置為除第一個元素外矩陣Sr4×8、Sr8×4中其余31個數(shù)的算術(shù)平均值。

將矩陣Sr4×8、Sr8×4中大于或等于判別閾值的值寫為1，其余為0。因為Sr4×8和Sr8×4的第一個元素是最大值，所以寫入的值總是等于1。分別重寫矩陣Sr4×8的第一個元素為0，矩陣Sr8×4的第一個元素為1，這樣就可以區(qū)分兩個矩陣，不同框架對應(yīng)的兩個矩陣之間的交集將始終為空集。

經(jīng)過重寫之后得到兩個長度為1 s的二進制子指紋，如式（9）（10）所示。這兩個子指紋矩陣以32位二進制值的形式存儲，以減少存儲空間占用，由于兩個指紋的第一個元素不同，因此存儲在同一個數(shù)據(jù)庫中不會發(fā)生交叉。對剩余的頻譜矩陣重復(fù)這個過程，獲得兩組在時間上并行且彼此沒有交集的32位二進制音頻指紋。

1.5 指紋的存儲和匹配

指紋存儲和匹配過程如圖7所示，主要步驟如下：a）指紋由并行的兩組32位二進制子指紋組成，存儲在哈希表中，將這些值作為哈希值；b）存儲的信息由音頻ID和指紋的第一幀（幀偏移）組成；c）設(shè)置列表以匹配音頻ID和音頻名稱。

算法1和2描述了文獻［28］構(gòu)建哈希表和通過SAH（spatial adaptive hash matching）計算相似度的實現(xiàn)。

算法1 創(chuàng)建空間自適應(yīng)哈希表格的算法

輸入：數(shù)據(jù)維度n，數(shù)據(jù)數(shù)量N，哈希碼長度l，哈希函數(shù)的數(shù)量M。

輸出：H=［h^（j）i1，h^（j）i2，…，h^（j）il］，i=1，…，n；j=1，…，M。

for j=1，…，M

從均勻空間R初始化一個隨機散列函數(shù)w^（j）n×l ；

for i=1，…，n

計算輸入向量x^（i）的平均值μ^（i）x；

for j=1，…，M

Zl×l =x^（i）l×n·w^（j）n×l -sum （w^（j）n×l ×μ^（i）x，axis=0）；

hl×l=T（Zl×l），將hl×l存入哈希表H中

算法2 SAH相似度計算算法

輸入：查詢指紋q。

輸出：指紋f，相似性最高q。

訪問哈希表格H；

for j=1，…，M

計算輸入向量q的平均值uq；

h^（q）j：=ql×nw^（j）n×l -sum（w^（j）n×l×uq，axis=0）；

for i=1，…，n

for j=1，…，m

計算h^（q）j和h^（j）i之間的漢明距離；

返回指紋f，最小漢明距離；

SAH算法可以提高檢索速度。文獻［28］驗證了SAH的性能，表1展示了三種檢索方法的性能比較。其中，空間自適應(yīng)哈希算法（SAH）的平均檢索時間為10 ms，是FFMAP的1/23，Quad-based的1/63，本文應(yīng)用SAH的性能，再加上并行的穩(wěn)健雙音頻指紋進行融合研究創(chuàng)新。

2 實驗結(jié)果與分析

2.1 魯棒性實驗分析

為了能夠穩(wěn)定地從數(shù)據(jù)庫中準(zhǔn)確識別出原始音頻，檢驗該算法的魯棒性，分別從兩個方面驗證該方法的魯棒性。獲取300首歌曲作為數(shù)據(jù)集進行實驗，并將其與文獻［15］提供的基于Landmark的指紋系統(tǒng)進行比較。

本實驗選取的數(shù)據(jù)集是一檔歌手節(jié)目（《我是歌手》第八季）的比賽歌曲，主要包括音樂、人聲，音樂庫由300個音頻片段構(gòu)成，總時長30 h，加上210個3 s長的短音頻集，即實驗數(shù)據(jù)由兩部分組成：a）300個音頻片段組成的音頻庫，時長達30 h；b）210個3 s長的短音頻集作為查詢集。其中，所有的音頻片段有四種形式的轉(zhuǎn)變（T1、T2、T3、T4代表四種不同的轉(zhuǎn)換形式），如表2所示。其中，實驗中使用的所有數(shù)據(jù)參數(shù)分別為音頻采樣率8 kHz，幀長度24 ms，幀移位4 ms。

本文用精度來評價算法性能，表示被分為正例的示例中實際為正例的比例。所用的指標(biāo)定義如下：

a）true positive（TP），即正類預(yù)測為正類數(shù)，在本文中表示為真正被檢測為重復(fù)的數(shù)據(jù)記錄。

b）true negative（TN），即正類預(yù)測為負類數(shù)，在本文中表示為檢測到非重復(fù)的數(shù)據(jù)記錄。

c）1 positive（FP），即負類預(yù)測為正類數(shù)，在本文中表示為數(shù)據(jù)不在索引片段中但被檢測為重復(fù)的記錄。

d）精確度，正確檢測的片段占所有檢測到的索引片段的比例，定義為

precision=TPTP+FP（11）

e）準(zhǔn)確率，正確檢測到的片段占索引片段總數(shù)的比例，定義為

accuracy=TPTP+TN+FP（12）

f）召回率，正確檢測到的片段與實際正確索引總數(shù)的比例，定義為

recall=TPTP+TN（13）

g）平均檢測時間（average hit），正確檢測到片段的平均長度。

假設(shè)兩個音頻指紋長度之和為N位，未匹配的比特數(shù)為n，h（n）代表原始音頻指紋的哈希值，ht（n）代表位置音頻指紋的哈希值，則誤碼率可表示為

實驗結(jié)果如表3所示，其中，Parallel+SAH表示新哈希方法的并行雙音頻指紋；LM表示基于Landmark的指紋；single表示只提取一組雙指紋的測試方式。索引的結(jié)果為音頻重復(fù)段的開始時間到結(jié)束時間。

實驗可視化結(jié)果如圖8所示?？梢钥闯觯琍arallel+SAH的檢索準(zhǔn)確率、召回率相比于LM指紋系統(tǒng)要高。其中，總體準(zhǔn)確率平均提高了3.1%，圖8（a）中兩種方式的精確度一直保持在100%；在音頻干擾較弱的情況下，single識別結(jié)果僅略優(yōu)于LM的指紋系統(tǒng)，隨著噪聲的增加，single的準(zhǔn)確度顯著降低且效果低于Parallel+SAH。在平均檢測時間方面，如圖8（d）所示，LM系統(tǒng)檢測到的重復(fù)段完整性較差，而Parallel+SAH能夠很好地匹配重復(fù)片段的完整性，檢測性能更加準(zhǔn)確。與single相比， Parallel+SAH在檢測速度下降的情況下，一定程度上提高了檢測結(jié)果的魯棒性；與LM系統(tǒng)相比，Parallel+SAH在索引精度性能方面表現(xiàn)良好，也更有效地匹配了整個音頻片段，匹配結(jié)果在完整性方面有明顯的優(yōu)勢。

為了解決準(zhǔn)確率、召回率的單點值局限性，得到一個全局性能的指標(biāo)，引入mAP值，即均值平均精度作為衡量檢測精度的指標(biāo)，其計算公式為

由圖8的準(zhǔn)確率和召回率得到的mAP值如圖9所示。其中，本文Parallel+SAH的mAP值為0.63，LM的mAP值為0.53，Single方法的mAP值為0.52。從實驗結(jié)果可以看出，雖然三種方法的性能曲線有交疊，但是Parallel+SAH方法的性能在絕大多數(shù)情況下比其他單一的方法要好。

選取50種不同的音頻數(shù)據(jù)作為實驗樣本，分別是流行音樂（10首）、雷鬼（10首）、新元素（10首）、鋼琴曲（10首）、爵士（10首），截取時長全都為12 s，過濾掉一些無用音頻片段，保存重要信息。它們的處理方式及實驗結(jié)果如表4所示。

從表4實驗數(shù)據(jù)可以看出，在應(yīng)用本文算法和文獻［29］算法對未進行音頻處理，所得到的音頻指紋誤碼率均為0，能相對良好地識別原始音頻。在經(jīng)過不同方法編碼處理后，與原信號相比，本文方法的誤碼率最高為0.056，最低為0.000 5，平均低于文獻［29］提出的誤碼率閾值（0.25）。因此，可以認(rèn)為本文算法能夠良好地從數(shù)據(jù)庫中檢索出原始音頻，魯棒性效果較好。

2.2 噪聲攻擊實驗結(jié)果分析

信噪比（signal noise ratio，SNR）是衡量原始音頻信號與噪聲比的指標(biāo)，定義為

圖10是原始音頻在噪聲攻擊環(huán)境下的實驗結(jié)果。如圖10（a）所示，在10～50 dB的信噪比范圍內(nèi)，精度最終都會達到100%，在信噪比為5 dB下，三種算法精度都沒達到100%，但三種方法的性能相似。針對原始音頻對速度進行操縱，操縱速度分別為95%和110%。在圖10（b）中，Parallel+SAH在所有情況下都顯示出近100%的精確度，性能較優(yōu)；圖10（c）中，在速度為110%的情況下，Parallel+SAH在所有情況下都近似實現(xiàn)了100%的檢測率。

2.3 可區(qū)分性實驗分析

為了證明該方法的可區(qū)分性，本節(jié)選取四首不同類型的音頻數(shù)據(jù)，該數(shù)據(jù)選取結(jié)構(gòu)為16 bit，單聲道，44.1 kHz。分別是流行音樂（“For forever，”）、雷鬼（“瘋?cè)嗽骸保⑿略兀ā靶率澜纭保撉偾ā疤炜罩恰保?。對音頻先進行初始化處理，再采用本文的音頻指紋算法提取音頻指紋。

表5是選取的四首樂曲對其音頻指紋和數(shù)據(jù)庫中進行搜索匹配的實驗數(shù)據(jù)結(jié)果。結(jié)果表明，音頻指紋之間的指紋距離越小，誤碼率越??；相反，若音頻指紋之間的誤碼率越大，則音頻指紋之間的區(qū)分性越大，即能夠明顯區(qū)分不同類型的音頻。表5數(shù)據(jù)顯示，最大的指紋距離達到了0.80，最小的也達到了0.42，高于文獻［29］中提出的最低值0.35。所以本文算法在不同音頻之間具有良好的可區(qū)分性，對不同音頻數(shù)據(jù)具有可靠的區(qū)分度。

3 結(jié)束語

本文提出了一種基于并行的穩(wěn)健雙音頻指紋識別和新哈希相結(jié)合的方法，該方法在通過沃爾什變換生成并行的兩組指紋（二進制編碼）的基礎(chǔ)上，在相似度計算過程中采用了一種新的哈希方法來比較音頻內(nèi)容，達到了降低存儲空間和提高檢索速度的目的。實驗結(jié)果表明，該算法不僅在匹配段完整性方面具有更良好的匹配精度，而且對采用不同噪聲攻擊的音頻具有良好的魯棒性。但其應(yīng)用具有局限性，眾所周知，有情感的演講是人類交流的特殊方式之一，而人工智能技術(shù)的情感識別是不可或缺的。未來的工作可以以反映音頻內(nèi)容特征的哈希方法為基礎(chǔ)，將這種方式應(yīng)用到人工智能下一步以及更具體實際應(yīng)用之中。

參考文獻：

［1］Malekesmaeili M，Ward R K.A local fingerprinting approach for audio copy detection［J］.Signal Processing，2014，98（5）：308-321.

［2］Jégou H，Delhumeau J，Yuan Jiangbo，et al.BABAZ：a large scale audio search system for video copy detection［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2012：2369-2372.

［3］Mehmood Z，Qazi K A，Tahir M，et al.Potential barriers to music fingerprinting algorithms in the presence of background noise［C］//Proc of the 6th Conference on Data Science and Machine Learning Applications.Piscataway，NJ：IEEE Press，2020：25-30.

［4］Cano P，Batle E，Kalker T，et al.A review of algorithms for audio fingerprinting［C］//Proc of IEEE Workshop on Multimedia Signal Processing.Piscataway，NJ：IEEE Press，2002：169-173.

［5］Seo J S.An asymmetric matching method for a robust binary audio fingerprinting［J］.IEEE Signal Processing Letters，2014，21（7）：844-847.

［6］Yang Guang，Chen Xiao’ou，Yang Deshun.Efficient music identification by utilizing space-saving audio fingerprinting system［C］//Proc of IEEE International Conference on Multimedia amp; Expo.Washington DC：IEEE Computer Society，2014：1-6.

［7］Sharma G，Umapathy K，Krishnan S.Trends in audio signal feature extraction methods［J］.Applied Acoustics，2020，158（1）：107020.

［8］Kelkoul，H，Zaz Y，Tribak H，et，al.A robust combined audio and video watermark algorithm against cinema piracy［C］//Proc of the 6th International Conference on Multimedia Computing and Systems.2018.

［9］Hu H T，Hsu L Y.Robust，transparent and high-capacity audio watermarking in DCT domain［J］.Signal Processing，2015，109（4）：226-235.

［10］Milas I，Radovic B，Jankovic D.A new audio watermarking method with optimal detection［C］//Proc of the 5th Mediterranean Conference on Embedded Computing.2016：116-119.

［11］Fan Yong，F(xiàn)eng Shuang.Notice of violation of IEEE publication principles：a music identification system based on audio fingerprint［C］//Proc of the 4th International Conference on Applied Computing and Information Technology/the 3rd International Conference on Computational Science/Intelligence and Applied Informatics.2016：363-367

［12］ Vadwala A Y，Suthar K A，Karmakar Y A，et al.Intelligent android voice assistant—a future requisite［J］.International Journal of Engineering Development and Research，2017，5（3）：337-339.

［13］Radha V ，Vimala C.A review on speech recognition challenges and approaches［J］.International Journal of Engineering Research amp; Technology，2012，2（1）：1-7.

［14］Desai N，Dhameliya K.Feature extraction and classification techniques for speech recognition：a review［J］.International Journal of Emerging Technology and Advanced Engineering，2013，3（12）：367-371.

［15］Ellis D.Robust landmark-based audio fingerprinting［EB/OL］.（2012-05-12）.http：//labrosa.ee.columbia.edu/～dpwe/resources/matlab/fingerprint/.

［16］Byrd D，Crawford T.Problems of music information retrieval in the real world［J］.Information Processing amp; Management，2002，38（2）：249-272.

［17］Delp E J，Wong P W.Security，steganography，and watermarking of multimedia contents［C］//Proc of International Society for Optical Engineering.2006.

［18］劉紅梅.基于音頻指紋技術(shù)的樂曲節(jié)拍識別系統(tǒng)［J］.微型電腦應(yīng)用，2021，37（7）：137-139，143.（Liu Hongmei.Music beat recognition system based on audio fingerprint technology［J］.Microcomputer Applications，2021，37（7）：137-139，143.）

［19］張秋余，許福久，趙振宇.基于DT-CWT和SVD的魯棒音頻水印算法［J］.華中科技大學(xué)學(xué)報：自然科學(xué)版，2021，49（9）：23-29.（Zhang Qiuyu，Xu Fujiu，Zhao Zhenyu.Robust audio watermarking algorithm based on DT-CWT and SVD［J］.Journal of Huazhong University of Science and Technology：Natural Science Edition，2021，49（9）：23-29.）

［20］劉嘉琪，劉貝麗，彭韜，等.基于區(qū)塊鏈的音頻版權(quán)存證模型［J］.計算機科學(xué)，2021，48（S1）：438-442.（Liu Jiaqi，Liu Beli，Peng Tao，et al.Blockchain based audio copyright deposit model［J］.Computer Science，2021，48（S1）：438-442.）

［21］Pogorilyi O，F(xiàn)ard M，Taylor D， et al.Landmark-based audio fingerprinting system applied to vehicle squeak and rattle noises［J］.Noise Control Engineering Journal，2020，68（2）：113-124.

［22］Wang A.An industrial-strength audio search algorithm［EB/OL］.（2003-10-27）.https：//www.ee.columbia.edu/～dpwe/papers/Wang03-shazam.pdf.

［23］Baluja S，Covell M.Audio fingerprinting：combining computer vision amp; data stream processing［C］//Proc of IEEE International Conference on Acoustics.Piscataway，NJ：IEEE Press，2007：213-216.

［24］Ouali C，Dumouchel P，Gupta V.A robust audio fingerprinting method for content-based copy detection［C］//Proc of the 12th International Workshop on Content-Based Multimedia Indexing.Piscataway，NJ：IEEE Press，2014：1-6

［25］Sonnleitner R，Widmer G.Robust quad-based audio fingerprinting［J］.IEEE/ACM Trans on Audio Speech amp; Language Proces-sing，2016，24（3）：409-421.

［26］Zhang Xiu，Zhu Bilei，Li Linwei，et al.SIFT-based local spectrogram image descriptor：a novel feature for robust music identification［J］.EURASIP Journal on Audio Speech amp; Music Processing，2015（1）：article No.6.

［27］Liang Tianyu，Chen Xianhong，Xu Can，et al.Parallel double audio fingerprinting［C］//Proc of the 11th International Symposium on Chinese Spoken Language Processing.Piscataway，NJ：IEEE Press，2018：344-348.

［28］Son H S，Byun S W，Lee S P.A robust audio fingerprinting using a new hashing method［J］.IEEE Access，2020，8：172343-172351.

［29］Jiang Yuantao，Wu Chunxue，Deng Kaifa，et al.An audio fingerprin-ting extraction algorithm based on lifting wavelet packet and improved optimal-basis selection［J］.Multimedia Tools and Applications，2019，78（21）：30011-30025.

［30］Cotton C V，Ellis D P W.Audio fingerprinting to identify multiple vi-deo of an event［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2010：2386-2389.

計算機應(yīng)用研究2022年7期

計算機應(yīng)用研究的其它文章: 下期要目; 基于損失自注意力機制的立體匹配算法研究; 基于視覺信息補償?shù)亩嗔饕粢曪@著性檢測; 基于無監(jiān)督深度圖像生成的盲降噪模型; 稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希用于高效圖像檢索; 基于偏振成像和顯著區(qū)域自補償?shù)乃嘛@著目標(biāo)檢測