亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于非負(fù)張量分解的音頻分類方法

        2015-06-05 15:30:53楊立東匡鏡明
        關(guān)鍵詞:張量特征參數(shù)正確率

        楊立東,謝 湘,王 晶,匡鏡明

        (1. 北京理工大學(xué)信息與電子學(xué)院,北京 100081;2. 內(nèi)蒙古科技大學(xué)信息工程學(xué)院,包頭 014010)

        基于非負(fù)張量分解的音頻分類方法

        楊立東1,2,謝 湘1,王 晶1,匡鏡明1

        (1. 北京理工大學(xué)信息與電子學(xué)院,北京 100081;2. 內(nèi)蒙古科技大學(xué)信息工程學(xué)院,包頭 014010)

        為了提高音頻數(shù)據(jù)分類正確率,提出一種通過(guò)非負(fù)張量分解(NTF)的分類方法. 音頻信號(hào)經(jīng)過(guò)預(yù)處理后,提取聲學(xué)特征和感知特征參數(shù),然后構(gòu)建非負(fù)的3階音頻張量,其各階分別對(duì)應(yīng)特征、幀、樣本;其次,通過(guò)NTF得到每一類音頻的核張量與因子矩陣,讓測(cè)試樣本構(gòu)建的張量與各類型音頻的因子矩陣的轉(zhuǎn)置進(jìn)行張量乘,得到對(duì)核張量的近似;最后,通過(guò)Frobenius范數(shù)進(jìn)行相似性度量,完成分類. 使用古典音樂(lè)、流行音樂(lè)、語(yǔ)音、噪聲4種類型的音頻數(shù)據(jù)測(cè)試分類效果. 結(jié)果表明,平均分類正確率在85%,以上,說(shuō)明該方法可以有效地完成音頻分類.

        音頻分類;非負(fù)張量分解;特征提??;因子矩陣

        隨著互聯(lián)網(wǎng)、人工智能等相關(guān)技術(shù)的不斷發(fā)展,我們進(jìn)入了大數(shù)據(jù)時(shí)代.大數(shù)據(jù)的典型特點(diǎn)之一就是數(shù)據(jù)類型眾多,其中音頻數(shù)據(jù)是重要組成部分,但是相比文本、圖片、視頻等類型數(shù)據(jù),音頻處理的技術(shù)手段還有很大提升空間.

        音頻分類是音頻檢索、識(shí)別、分割等音頻深度處理的前提,其實(shí)質(zhì)屬于模式識(shí)別[1],早期主要用于語(yǔ)音、音樂(lè)的分類,例如百度音樂(lè)就按照音樂(lè)的風(fēng)格、樂(lè)器、流派等進(jìn)行音樂(lè)種類的劃分.目前音頻分類還被應(yīng)用到環(huán)境噪聲/聲音檢測(cè)的聲學(xué)場(chǎng)景分析.音頻分類主要包括特征提取和分類兩個(gè)過(guò)程.常用的音頻特征主要包括聲學(xué)特征、感知特征和心理聲學(xué)特征3種.聲學(xué)特征主要由時(shí)域和頻域參數(shù)組成,包括短時(shí)平均幅度、短時(shí)自相關(guān)系數(shù)、信號(hào)帶寬、頻譜質(zhì)心、線譜對(duì)等.感知特征則是根據(jù)人耳聽(tīng)覺(jué)特性提取的特征參數(shù),其主要有美爾頻譜倒譜系數(shù)(melfrequency cepstrum coefficient,MFCC),以及對(duì)應(yīng)的1階、2階差分系數(shù)用于體現(xiàn)動(dòng)態(tài)特性,感知加權(quán)線性預(yù)測(cè)(perceptual linear prediction,PLP)系數(shù)等,這類特征參數(shù)具有較低的互相關(guān)特性,所以在語(yǔ)音識(shí)別中應(yīng)用比較廣泛.心理聲學(xué)特征參數(shù)主要包括響度、粗糙度、尖銳度等,用于客觀上描述不同聲音信號(hào)所造成的主觀感受的差別程度,它可以定量地反映聽(tīng)覺(jué)感受的差別,消除個(gè)體的影響[2].比較成熟的分類器主要包括高斯混合模型(Gaussian mixture model,GMM)、隱馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)等,Benetos等[3]提出了利用非負(fù)矩陣分解(nonnegative matrix factorization,NMF)的方法進(jìn)行分類,在分類過(guò)程中采用有監(jiān)督的訓(xùn)練,得到音頻類型對(duì)應(yīng)的基矩陣,測(cè)試音頻數(shù)據(jù)進(jìn)行映射后,根據(jù)余弦相似度量準(zhǔn)則進(jìn)行分類,取得了較好的分類結(jié)果.本文采用常規(guī)聲學(xué)特征和感知特征作為音頻數(shù)據(jù)特征參數(shù),利用非負(fù)矩陣分解的高維擴(kuò)展——非負(fù)張量分解(non-negative tensor factorization,NTF)方法完成音頻分類.

        1 特征提取

        在音頻分類過(guò)程中提取的特征參數(shù)應(yīng)該能很好地體現(xiàn)音頻數(shù)據(jù)的本質(zhì)屬性,并且具有一定的魯棒性.音頻數(shù)據(jù)首先經(jīng)過(guò)預(yù)濾波、A/D轉(zhuǎn)換、預(yù)加重、分幀、加窗等預(yù)處理后,被分為具有短時(shí)平穩(wěn)特性的幀結(jié)構(gòu),若干幀數(shù)據(jù)可以構(gòu)成一個(gè)音頻片段,體現(xiàn)音頻的長(zhǎng)時(shí)特性.提取特征時(shí)既可以直接從幀結(jié)構(gòu)中提取,也可以從片段中提?。覟榱耸棺罱K的特征具有較好的魯棒性,從音頻數(shù)據(jù)的開(kāi)始、中間、結(jié)尾3個(gè)不同區(qū)域各提取相同幀數(shù)的特征參數(shù),然后通過(guò)kmeans方法進(jìn)行聚類.

        把同類型的訓(xùn)練數(shù)據(jù)通過(guò)上述方法完成特征提取后,構(gòu)造一個(gè)該類型的張量.本文構(gòu)建的是一個(gè)3階非負(fù)張量,第1階為每幀的特征參數(shù)(未使用片段特征),第2階為每個(gè)樣本選擇的幀數(shù),第3階為每種類型音頻訓(xùn)練樣本的個(gè)數(shù).這樣,一個(gè)特征×幀×樣本的3階音頻張量就構(gòu)造完成了,其結(jié)構(gòu)見(jiàn)圖1.

        圖1 3階音頻張量Fig.1 3-order audio tensor

        在訓(xùn)練階段構(gòu)造的是一個(gè)3階張量,但是在測(cè)試(分類)階段,待分類的樣本構(gòu)造的其實(shí)是一個(gè)2階張量(矩陣),因?yàn)槠涞?階的樣本個(gè)數(shù)為1,是一個(gè)特殊的3階張量.

        2 分類方法

        音頻分類方法主要包括基于規(guī)則的方法、基于距離的方法、基于統(tǒng)計(jì)模型的方法,其中基于統(tǒng)計(jì)模型的方法是主流方法. 近期非負(fù)矩陣分解的方法也應(yīng)用到了音頻分類,并取得了良好的分類效果,非負(fù)張量分解方法是非負(fù)矩陣分解的擴(kuò)展.

        2.1 非負(fù)張量分解

        張量可以認(rèn)為是多階陣列或者多維矩陣.同奇異值分析(singular value decomposition,SVD)、主成分分析(principal component analysis,PCA)、獨(dú)立成分分析等采用矩陣分解的方法相比,張量分解可以保留多線性模型的有用信息,尤其是不同特征之間的關(guān)聯(lián)信息,而且可以挖掘信號(hào)內(nèi)在的隱含信息,從而保留綜合信息,所以張量分解能夠比矩陣分解更有效地反映信號(hào)的多維結(jié)構(gòu).21世紀(jì)之后,張量分解開(kāi)始在信號(hào)處理領(lǐng)域得到廣泛應(yīng)用,并且在圖像處理領(lǐng)域取得了很大的成果,近10年來(lái)張量分解也逐步應(yīng)用到了音頻處理領(lǐng)域.張量分解主要有Tucker分解、CANDECOMP/ PARAFAC(CP)分解、以及從非負(fù)矩陣分解發(fā)展而來(lái)的非負(fù)張量分解.

        非負(fù)張量分解后的模型具有明晰的物理意義,并且容易具有唯一性[4].設(shè)一個(gè)N階張量其非負(fù)張量分解為

        式中:為核張量(Jn<In),它保留了原張量的主要信息,并具有一定的穩(wěn)定性[5];為因子矩陣,其可以認(rèn)為是張量在每階上的主分量,且Un之間不要求彼此正交,但是核張量、因子矩陣中的元素都是非負(fù)的[6];×1為張量的第1階矩陣乘,其定義為:若N階張量

        張量的矩陣乘結(jié)果也是一個(gè)與原張量同階的張量,即式(2)中的X和G都是N階張量.

        2.2 NTF分類方法

        本文中采用有監(jiān)督的分類方法,也就是在訓(xùn)練階段,針對(duì)每種類型的音頻訓(xùn)練樣本進(jìn)行單獨(dú)訓(xùn)練,從而生成對(duì)應(yīng)該類的核張量

        式中:M為音頻的種類數(shù)目;Xi為第i類訓(xùn)練樣本構(gòu)造的數(shù)據(jù)張量;iG為對(duì)應(yīng)第i類的核張量.

        在分類時(shí),每一個(gè)測(cè)試的音頻數(shù)據(jù)構(gòu)造一個(gè)階數(shù)和訓(xùn)練樣本一樣的張量testY,讓其和每一類音頻對(duì)應(yīng)因子矩陣的轉(zhuǎn)置做張量的矩陣乘,生成一個(gè)投影張量

        然后把Zi與訓(xùn)練時(shí)候生成的G分別進(jìn)行比

        testi較,把該測(cè)試數(shù)據(jù)歸類為具有最大相似性的音頻種類.本文相似性采用公式(5)進(jìn)行判別,即

        式中||·||F為Frobenius范數(shù).最終根據(jù)argmin完成分

        i=1,2.··,M類.利用NTF完成測(cè)試樣本分類的框圖,如圖2所示.

        圖2 利用NTF分類的框圖Fig.2 Diagram of classification by using NTF

        進(jìn)行非負(fù)張量分解時(shí)本文采用文獻(xiàn)[7]中的交替最小二乘法(alternating least squares,ALS),該迭代算法具有收斂快的優(yōu)點(diǎn),可以提高分類效率.

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)及結(jié)果

        實(shí)驗(yàn)中采用的音頻數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)上下載的古典音樂(lè)、流行音樂(lè)(這兩種音樂(lè)是根據(jù)百度音樂(lè)里面的分類下載的)、自己錄制的語(yǔ)音及噪聲,共分為4種類型.音頻數(shù)據(jù)的采樣頻率是44.1,kHz,精度為16位,單聲道(如下載的不符合該格式,需要轉(zhuǎn)換),每種音頻數(shù)據(jù)都截取1,min的長(zhǎng)度作為樣本.古典音樂(lè)樣本共有80條,流行音樂(lè)樣本共有80條,語(yǔ)音樣本共有90條(漢語(yǔ)發(fā)音,包括男聲和女聲,內(nèi)容為演講和對(duì)話),噪聲樣本共有90條(包括自然噪聲、人為噪聲).隨機(jī)把每種類型80%,的樣本作為訓(xùn)練樣本集,剩下的作為測(cè)試樣本集.每個(gè)樣本通過(guò)預(yù)處理后可以得到幀結(jié)構(gòu),其中預(yù)加重系數(shù)為0.97,采用漢明窗進(jìn)行分幀,幀長(zhǎng)度為30,ms,幀移為15,ms.從樣本的開(kāi)始、中間、結(jié)尾各選取70幀數(shù)據(jù),分別提取每幀數(shù)據(jù)的特征參數(shù),包括短時(shí)能量(1個(gè))、頻譜質(zhì)心(1個(gè))、MFCC(13階)、△MFCC(13階),共28個(gè)特征參數(shù).然后對(duì)3個(gè)不同區(qū)間的70幀數(shù)據(jù)的特征參數(shù)利用k-means進(jìn)行聚類,生成4種類型音頻的非負(fù)張這4個(gè)張量中的元素要求都是非負(fù)的.分別用ALS對(duì)張量進(jìn)行非負(fù)分解,就可以得到每種音頻對(duì)應(yīng)的核張量和因子矩陣.在實(shí)驗(yàn)中,113J=,210J=,31J=(為了保證核張量的階數(shù)、每階的維數(shù)與測(cè)試樣本所構(gòu)成的張量一致,此處令31J=),得到核張量

        把每種類型音頻數(shù)據(jù)剩余的20%,作為測(cè)試樣本,包括古典音樂(lè)樣本16條、流行音樂(lè)樣本16條、語(yǔ)音樣本18條、噪聲樣本18條.這68條樣本通過(guò)同樣的處理,構(gòu)建一個(gè)3階非負(fù)張量(實(shí)際是一個(gè)2階張量)Y進(jìn)行張量的矩陣乘,可以得到各類型的映射張量

        利用Frobenius范數(shù)求解id,最終把測(cè)試音頻數(shù)據(jù)歸類為id最小的那一類.把該實(shí)驗(yàn)重復(fù)5次,也就是每次把訓(xùn)練樣本和測(cè)試樣本隨機(jī)進(jìn)行抽取,再進(jìn)行分類,最終的平均分類結(jié)果如表1所示.

        表1 利用NTF方法的音頻分類混淆矩陣Tab.1 Confusion matrix of audio classification by using NTF

        因?yàn)榉秦?fù)張量分解的分類方法是由矩陣分解發(fā)展而來(lái),所以本文參照NMF分類方法[8],對(duì)上述音頻數(shù)據(jù)進(jìn)行訓(xùn)練和分類,最后使用余弦相似測(cè)度(cosine similarity measure,CSM)完成分類,得到的正確分類率與使用NTF所得結(jié)果進(jìn)行比較.另外,GMM是音頻分類中最經(jīng)典方法之一,把使用GMM進(jìn)行分類的結(jié)果也同時(shí)和NTF進(jìn)行比較,結(jié)果見(jiàn)圖3.

        圖3 NTF與NMF、GMM平均分類正確率比較Fig.3Comparison of mean classification accuracy rate among NTF,NMF and GMM

        為進(jìn)一步驗(yàn)證NTF的音頻分類性能,本文調(diào)整實(shí)驗(yàn)過(guò)程中訓(xùn)練集和測(cè)試集所占數(shù)據(jù)集的比例,測(cè)試集中音頻的平均分類正確率,實(shí)驗(yàn)結(jié)果如表2所示.

        表2 不同測(cè)試集的平均分類正確率Tab.2 Mean classification accuracy rate for different test datasets

        3.2 性能評(píng)價(jià)

        由表1可以看出,NTF方法針對(duì)音樂(lè)的分類正確率要高于語(yǔ)音和噪聲,噪聲的分類正確率最低,主要是因?yàn)闃?gòu)建非負(fù)張量過(guò)程中,使用的特征參數(shù)大部分是MFCC,而MFCC并不能很好地體現(xiàn)各種噪聲的本質(zhì)屬性,說(shuō)明針對(duì)特定的音頻類型應(yīng)該選取不同的特征參數(shù)[9].例如,文獻(xiàn)[10]里采用高過(guò)零率比作為特征進(jìn)行語(yǔ)音和音樂(lè)的分類.語(yǔ)音的分類正確率低于音樂(lè),主要是因?yàn)橐纛l數(shù)據(jù)樣本建立非負(fù)張量時(shí),從樣本的開(kāi)始、中間、結(jié)尾各抽取70幀提取特征參數(shù)再進(jìn)行聚類,音樂(lè)在各個(gè)時(shí)間段特征變化不顯著,而語(yǔ)音樣本由于存在大量靜音幀,所以在不同時(shí)段抽取的幀結(jié)構(gòu)穩(wěn)定性比較低.

        由圖3可以看出,使用NTF的平均分類正確率高于NMF和GMM,說(shuō)明NTF更能反映音頻數(shù)據(jù)內(nèi)在的隱含信息,也就是經(jīng)過(guò)分解后保留了數(shù)據(jù)樣本的內(nèi)在關(guān)系和具有區(qū)別其他類型的本質(zhì)屬性.

        從表2中的數(shù)據(jù)比較可以得出,NTF在訓(xùn)練樣本變少的情況下,性能依然比NMF和GMM好,但是隨著訓(xùn)練樣本減少到總數(shù)據(jù)集的30%,時(shí)候,3種方法的分類正確率都大幅下降.主要是因?yàn)橛糜谟?xùn)練的數(shù)據(jù)少了,導(dǎo)致欠訓(xùn)練情況,生成的分類器模型魯棒性變差,造成最終的分類性能惡化.

        4 結(jié) 語(yǔ)

        本文提出了一種利用非負(fù)張量分解作為分類器的分類方法,在利用聲學(xué)特征和感知特征構(gòu)建非負(fù)張量之后進(jìn)行分解,使用Frobenius范數(shù)進(jìn)行相似性度量,最終獲得較高的分類正確率.

        本文側(cè)重考慮了分類方法對(duì)分類正確率的影響,而對(duì)于音頻分類的另一個(gè)關(guān)鍵環(huán)節(jié)——特征提取沒(méi)有進(jìn)行深入討論,提取什么樣的特征參數(shù),或者提取后如何進(jìn)行參數(shù)的選擇,從而對(duì)分類效果更加有利,是下一步需要關(guān)注的問(wèn)題.

        [1] Xing Ling,Ma Qiang,Zhu Min. Tensor semantic model for an audio classification system[J]. Science China Information Sciences,2013,56(6):1-9.

        [2] 王 娜,陳克安. 心理聲學(xué)參數(shù)提取及其在目標(biāo)識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)仿真,2008,25(11):21-24. Wang Na,Chen Ke’an. Psychoacoustic parameters extraction and its application in target recongnition[J]. Computer Simulation,2008,25(11):21-24(in Chinese).

        [3] Benetos E,Kotropoulos C,Lidy T,et al. Testing supervised classifiers based on non-negative matrix factorization to musical instrument classification[C] // Proceedings of 14th European Signal Processing Conference. Florence,Italy,2006:1-5.

        [4] Panagakis Y,Kotropoulos C. Music genre classification via topology preserving non-negative tensor factorization and sparse representations[C]// Proceedings of 2010 IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ,USA,2010:244-252.

        [5] 夏建平,周激流,何 坤,等. 基于小波變換和Tucker分解的彩色圖像數(shù)字水印[J]. 計(jì)算機(jī)應(yīng)用研究,2010,27(2):798-800.Xia Jianping,Zhou Jiliu,He Kun,et al. Color image watermark based on DWT and Tucker decomposition [J]. Application Research of Computers,2010,27(2):798-800(in Chinese).

        [6] Cichocki A,Zdunek R,Phan A,et al. Nonnegative Matrix and Tensor Factorizations[M]. Chichester,WS,UK:John Wiley & Sons,2009.

        [7] Acar E,Kolda T,Dunlavy D. An Optimization Approach for Fitting Canonical Tensor Decompositions[R]. New Mexico,USA:Sandia National Laboratories,2009.

        [8] Benetos E,Kotti M,Kotropoulos C. Applying supervised classifiers based on non-negative matrix factorization to musical instrument classification[C]//2006 IEEE International Conference on Multimedia and Expo. Toronto,Canada,2006:2105-2108.

        [9] 楊立東,王 晶,謝 湘,等. 基于Tucker分解的音頻分類研究[J]. 信號(hào)處理,2015,31(2):221-225. Yang Lidong,Wang Jing,Xie Xiang,et al. Based on Tucker decomposition to audio classification [J]. Signal Processing,2015,31(2):221-225(in Chinese).

        [10] Bengolea1 G,Acevedo1 D,Rais M,et al. Feature Analysis for Audio Classification[M]. Switzerland:Springer,2014.

        (責(zé)任編輯:樊素英)

        Audio Classification Method Based on Non-Negative Tensor Factorization

        Yang Lidong1,2,Xie Xiang1,Wang Jing1,Kuang Jingming1
        (1. School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China;2.School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,China)

        To improve the accuracy of audio classification,a classification method based on non-negative tensor factorization(NTF)was proposed.Firstly,acoustics features and perceptual features were extracted after preprocessing of audio signal.Then,a 3-order non-negative tensor was constructed,the orders being features,frames and samples,respectively.Secondly,core tensor and factor matrixes of each class of audio were obtained by using NTF.Next,test tensor was multiplied by transpose of factor matrixes of each class to obtain approximate tensor of core tensor.Finally,audio samples were classed by using Frobenius norm similarity measure.Experiments including classical music,popular music,speech and noise were provided to demonstrate the performance of audio classification.Results showed that the mean classification accuracy rate is above 85%,which proves that the proposed method can class audio effectively.

        audio classification;non-negative tensor factorization;feature extraction;factor matrix

        TN912.3

        A

        0493-2137(2015)09-0761-04

        10.11784/tdxbz201507041

        2015-03-12;

        2013-07-06.

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61473041);內(nèi)蒙古高??蒲谢鹳Y助項(xiàng)目(NJZY13139).

        楊立東(1978— ),男,博士研究生,副教授,yld_nkd@imust.cn.

        謝 湘,xiexiang@bit.edu.cn.

        猜你喜歡
        張量特征參數(shù)正確率
        故障診斷中信號(hào)特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
        四元數(shù)張量方程A*NX=B 的通解
        門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        生意
        擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        国产一毛片| 国产精品国产精品国产专区不卡| 国产真实乱对白精彩久久老熟妇女| 久久成人麻豆午夜电影| 第九色区Aⅴ天堂| 无人视频在线播放免费| 久久婷婷五月综合97色一本一本| 日本亚洲国产一区二区三区| 亚洲人成网站18男男| 丝袜美腿制服诱惑一区二区 | 国产av影片麻豆精品传媒| 亚洲无码啊啊啊免费体验| 少妇高潮久久蜜柚av| 中文字幕人妻熟在线影院| 成人在线激情网| 国产精品一区二区三区黄片视频| 亚洲久悠悠色悠在线播放| 曰韩无码二三区中文字幕 | 国产精品制服一区二区| 日韩女同在线免费观看| 欧美色欧美亚洲另类二区 | 国产成人cao在线| 伊人影院综合在线| 伊人影院在线观看不卡| 国产人妖网站在线视频| 亚洲精品乱码久久久久久金桔影视| 欧美亚洲国产日韩一区二区三区| 中文字幕一区二区三区在线看一区| 免费的日本一区二区三区视频| 欧美操逼视频| 亚洲日本在线va中文字幕| 亚洲一区二区在线观看av| 永久黄网站色视频免费看| 久久久男人天堂| 色哟哟精品中文字幕乱码| 男吃奶玩乳尖高潮视频| 成人综合网亚洲伊人| 麻豆国产VA免费精品高清在线 | 大香蕉久久精品一区二区字幕| 人妻少妇中文字幕在线观看| 午夜福利92国语|