亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的音頻分類方法

        2017-08-10 09:52:45張翔孫偉余璇
        現(xiàn)代計算機 2017年17期
        關鍵詞:分類模型

        張翔,孫偉,余璇

        (上海海事大學信息工程學院,上海 201306)

        基于LDA模型的音頻分類方法

        張翔,孫偉,余璇

        (上海海事大學信息工程學院,上海 201306)

        隨著網絡的發(fā)展海量音頻文件涌現(xiàn),音頻分類系統(tǒng)也越來越普及。音頻分類,尤其是語音和音樂的分類是提取音頻結構和內容語義的重要手段,是基于內容的音頻檢索和分析的基礎。介紹一種基于音頻內容根據(jù)音頻內容間的相似度對音頻進行分類的方法。用每個音頻的音高集代表該音頻文件,以LDA主題模型對音頻進行分類。

        相似度;音頻內容;音高;LDA主題模型

        0 引言

        隨著計算機技術與多媒體技術的發(fā)展大量的音頻文件進入我們的生活。在這種情況下的音頻檢索的范圍也越來越大檢索的準確率也越來越低,且原始音頻文件中所包含的數(shù)據(jù)缺乏語義與結構化的組織很難直到其真實意義這給音頻檢索帶來很大的困難。因此,縮小音頻檢索的范圍提高檢索效率變得尤為重要。音頻分類技術可以很大程度上縮小檢索的范圍提高檢索的效率。因此,有關音頻分類的研究越來越普及。

        有關音頻分類的研究早期主要有文獻[1,2]所示技術,文獻[1]介紹了一種將神經元網絡直接將聲音類別映射到所標注的文本。文獻[2]通過使用自組織映射聚類算法將具有相似特征的音頻劃歸為同一類。美國Music Fish公司的Erling Word等人通過分析響度、音高、亮度、諧度實現(xiàn)了真正意義上的基于內容的音頻分類,所用數(shù)據(jù)集包括鈴聲、音樂等16類樣本數(shù)據(jù)[3]。盧堅、陳毅松、孫正興、張福炎于2002年12月提出了基于隱馬爾可夫模型的音頻自動分類[4]。到2005年白亮、老松楊、陳劍贊、吳玲達提出了基于支持向量機的音頻分類[5]。語音和音樂是兩類比較重要的音頻文件是基于內容檢索技術的主要區(qū)分對象,文獻[6,7]采用基于簡單決策樹的語音/音樂多步層次分類方法,即每一步根據(jù)一種或者幾種音頻特征及其閾值判定音頻所屬的類別。

        1 概述

        音頻分類屬于模式識別領域,涉及到計算機技術、多媒體數(shù)據(jù)庫技術,主要包括兩個過程:音頻特征提取和音頻分類兩步。音頻特征提取指應用數(shù)字信號處理技術和信號系統(tǒng)理論來尋找原始音頻信號表達形式,抽取出能代表原始信號的數(shù)據(jù),抽取出音頻的物理特征。音頻分類是指通過音頻間的相似度將有相似特征的音頻歸為一類。音頻分類問題是基于內容的音頻檢索技術必須解決的關鍵問題。

        隱式狄利克雷(LDA)主題模型原本用于文本分類。LDA模型對文本進行分類時假設文本沒有任何的詞序和語法、句法,也就是說文本中的所有的詞都是無序的。LDA模型對文本分類的具體過程為:首先給每篇文本的每一個詞隨機的賦予一個主題編號;重新掃描語料庫對每篇文章的每個詞的主題編號進行吉布斯采樣;重復上一步直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計算出每篇文本對于主題類別的概率分布。

        2 基于LDA模型的音頻分類

        2.1 音頻特征提取

        音高指各種不同高低的聲音,即音的高度。音的高低由振動頻率決定的,兩種成正比關系??紤]到音樂的音高頻率趨向于音高頻率表中的振動頻率而平常語音的振動頻率有高有底數(shù)值分布比較廣。因此,這里提取音高頻率作為音頻的特征,并寫入文檔,作為LDA模型的輸入?;谟脩糨斎氲姆诸悅€數(shù)K,LDA模型通過該文檔將音頻分為指定K類。提取音高頻率的算法由python的vamp庫提供。運行程序可得每個文件的音高集,去除其中小于等于0的數(shù)值得到有效的音高集。音頻音高提取關鍵代碼如下所示這里使用Python語言實現(xiàn)。

        2.2 LDA模型分類

        LDA模型假設每個音頻的每個音高之間都是無序的,沒有任何的先后關系。因此,如圖1所示在LDA模型中每個音頻可以表示為三層生成式貝葉斯網絡結構,一個音頻由若干個隱含的主題構成,而這些主題由若干個音高構成?;谟脩糨斎氲姆诸悅€數(shù)K,LDA模型根據(jù)每個音頻的相對音高之間的相似度對音頻進行分類,最終可得到每個音頻對于文件的概率分布P(topick|audio)。

        圖1 三層生成式貝葉斯網絡結構

        在生成一個音高時,LDA模型假設每個音高的生成過程如下:首先從若干類別中選擇一個類別,再根據(jù)該類別生成一個音高。重復以上過程便可生成一個音頻?;谝陨霞僭O每個音高的生成原理如圖2所示。

        圖2 音高生成原理圖

        生成過程如下:

        Dirichlet先驗分布+多項分布數(shù)據(jù)→Dirichlet后驗分布

        已知生成所有相對音高的聯(lián)合分布是M+K個狄利克雷共軛分布,可以根據(jù)狄利克雷共軛來推導吉布斯采樣公式。這里是已知數(shù)據(jù),是隱含變量所以需要采樣的分布是,音高庫中第i個音高對應的topic記為zi,其中i=(m,n)是一個二維下標,對應第m個音頻中第n個音高,用表示去除下標為i的音高。按照Gibbs Samping算法的要求,求得任意坐標i所對應的條件分布為。假設已經觀測到的音高pi=t,根據(jù)貝葉斯法則可得:

        由于zi=k,pi=t只涉及到兩個共軛結構,而其他的共軛結構和zi=k,pi=t是獨立的所以的后驗分布依然是狄利克雷分布分別為:

        由此可得LDA主題模型的Gibbs Samping公式為:

        根據(jù)吉布斯采樣公式可以計算出每個音高的主題編號由當前的主題編號轉移至其他主題編號的轉移概率,轉移原理如圖3所示。

        圖3 吉布斯采樣主題編號轉移原理圖

        基于LDA模型音頻分類具體流程如圖4所示。

        圖4 基于LDA模型音頻分類流程

        LDA主題模型對音頻進行分類時首先給每個音頻的每個音高隨機賦予一個主題編號,并記錄主題編號與每個音頻以及每個音高的相關數(shù)量關系數(shù)據(jù)用于后期計算音頻所屬類別(這里的編號最大值為用戶輸入的K);根據(jù)吉布斯采樣公式計算出當前主題編號轉移至各主題編號的概率,并根據(jù)轉移概率完成主題編號的轉移更新相關記錄數(shù)據(jù);重復迭代上一步驟直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計算出每個音頻所屬于每一類的概率,以及每個音高所屬于每一類的概率。在整個過程中吉布斯采樣過程為整個分類關鍵部分其關鍵代碼如下。

        3 實驗結果分析

        本次實驗所使用的音頻為歌曲、有聲小說(語音)、以及歌曲和有聲小說的混合音。數(shù)量分別有500個。實驗PC機為Thinkpad A6-3400M,主頻為1.4GHz。音頻下載自酷我音樂,下載的文件為mp3文件,轉換成wav文件。通過python2.7 vamp庫配合melodia插件可取出音頻文件的基頻序列并寫入文本作為LDA模型的輸入。

        本次實驗主要以分類結果的準確性作為評價基于LDA模型的音頻分類方法的的指標。根據(jù)LDA模型對音頻數(shù)據(jù)分類的結果數(shù)據(jù),最終可計算出每個音頻屬于每個類別的概率以及每個音高頻率屬于每一類別的概率,選擇其中所屬概率最大值的類別作為該音頻的所屬類別。

        通過多次實驗,修改不同的迭代次數(shù)之后分類的結果也趨于穩(wěn)定。500首歌曲中有440首左右歌曲被歸為同一類,即準確率0.88,該類音頻中貢獻最高的是音高頻率表中幾個常用的頻率。500個有聲小說音頻中有445個左右的音頻被歸為同一類,即準確率為0.89,該類音頻中對分類貢獻比較高的是幾個不在音高頻率表中的音高頻率。有聲小說和歌曲混合部分有400個左右音頻被歸為同一類,即準確率為0.80該類音頻中對分類貢獻比較高的音高頻率有部分來自于音高頻率表。平均準確率為0.856左右。歌曲和有聲小說的準確率都很不錯,但混合音的準確率下降較多。造成這一現(xiàn)象的原因可能是本來音高頻率表中的音高頻率和無規(guī)則的音高頻率對于分類貢獻相近,但實際試驗中卻肯定有部分數(shù)據(jù)偏向于某一方從而導致該類音頻被劃歸到歌曲或者有聲小說。文獻[6]分類結果為語音準確率0.81、音樂準確率0.70,平均準確率為0.75。文獻[7]分類結果為語音準確率為0.75、語音準確率0.89,平均準確率為0.82?;贚DA模型的音頻分類方法效果明顯好于文獻[6]和文獻[7]所提方法。

        4 結語

        本文使用音高頻率為每個音頻的標志數(shù)據(jù),完成了一個基于LDA模型的分類方法。該方法根據(jù)音頻的音高之間的相似度對音頻進行分類。相信用音高標志音頻這一方法將會得到更多的應用,LDA模型的作用也將得到巨大的拓展。音頻的分類還可以進一步的劃分,例如歌曲按照一定的風格劃分。音高標志音頻是將來關于音頻分類的重要研究方向。

        [1]Feiten B,Frank R,Ungvary T.Organization of Sounds with Neural Nets.In:Proceedings of the 1991 International Computer Music Conference,International Computer Music Association.San Francisco,1991:441-444.

        [2]Feiten B,Gunzel S.Automatic Indexing of a Sound Database Using Self-organizing Neural Nets.Computer Music Journal,1994,18(3):53-65.

        [3]Wold E,Blum T,Keislar D,et al.Content-Based Classification,Search,and Retrieval of Audio.IEEE Multimedia Magazine,1996,3(3):27-36.

        [4]盧堅,陳毅松,孫正興,張福炎.基于隱馬爾科夫模型的音頻自動分類[J].軟件學報,2002,13(8):1594-1597.

        [5]白亮,老松楊,陳劍赟,吳玲達.基于支持向量機的音頻分類與分割[J].計算機科學,2005,4:87-90.

        [6]Srinivasan S,Petkovic D,Ponceleon D.Towards Robust Features for Classifying Audio in the Cudevideo System.In:Proceedings of the 7th ACM International Conference on Multimedia.Orlando:ACM Press,1999:393-400.

        [7]Lu Guo-jun,Templar H.A Technique Towards Automatic Audio Classification and Retrieval.In:Proceedings of the 4th International Conference on Signal Processing,ICSP,Vol 2,1998:1142-1145.

        [8]CHEN Qiu-xing,YAO Li-xiu,YANG Jie.Short Text Classification Based on Lda Topic Model.ICALIP,2016:749-752.

        Audio Classification Based on LDA Model

        ZHANG Xiang,SUN Wei,YU Xuan
        (College of Information Engineering of Shanghai Maritime University,Shanghai 201306)

        With the development of the network mass audio files come to the fore,audio classification system is becoming more and more popular.Au?dio classification,especially classification between pronunciation and music is an important means of extract audio structure and content se?mantics.It is the foundation of audio retrieval and analysis based on content.Introduces a method which classifies audio based on audio contents.And the method classifies audio according to degree of similarity between audio content.In this method,pitch set of every song be?halves the song and audio is classification by LDA model.

        張翔(1991-),男,江蘇淮安人,碩士,研究方向為機器學習

        2017-03-28

        2017-06-10

        1007-1423(2017)17-0016-05

        10.3969/j.issn.1007-1423.2017.17.003

        孫偉(1978-),男,山東萊州人,副教授,研究方向為機器學習

        余璇(1994-),女,河南鄭州人,碩士,研究方向為機器學習、自然語言處理

        Degree of Similarity;Audio Content;Pitch;LDA Model

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        国产精品午夜高潮呻吟久久av| 亚洲一区二区在线视频播放| 五月婷婷激情六月开心| 国产一区二区精品人妖系列在线 | 亚欧国产女人天堂Av在线播放 | 国产一区精品二区三区四区| 色翁荡息又大又硬又粗视频| 欧美日韩国产成人高清视频| 毛片无码高潮喷白浆视频| 国产精品老女人亚洲av无| aaa日本高清在线播放免费观看| 成人免费看www网址入口| 亚洲AV无码成人精品区网页| 黄色大片国产精品久久| 国产成人精品免费视频大全软件| 无码粉嫩虎白一线天在线观看| 日日爽日日操| 在线不卡av一区二区| 粗大的内捧猛烈进出少妇 | 疯狂添女人下部视频免费| 色两性网欧美| 97国产精品麻豆性色| 国产av一区二区三区在线播放| 欧美日韩国产码高清综合人成| 国产精品成人嫩妇| 亚洲av午夜福利一区二区国产 | av免费在线播放观看| 亚洲av成人片色在线观看高潮 | 一本大道在线一久道一区二区| 亚洲综合中文日韩字幕| 人人人妻人人澡人人爽欧美一区| 久久AV老司机精品网站导航| 好爽要高潮了在线观看| 老女老肥熟女一区二区| 久久婷婷成人综合色| 国产日韩久久久久69影院| 自拍成人免费在线视频| 粉嫩被粗大进进出出视频| 亚洲国产A∨无码影院| 亚洲av日韩精品一区二区| 日本真人做爰免费视频120秒|