亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感向量空間模型的歌詞情感分析

        2010-06-05 09:01:18夏云慶張鵬洲劉宇飛
        中文信息學報 2010年1期
        關(guān)鍵詞:分類特征情感

        夏云慶,楊 瑩,張鵬洲,劉宇飛

        (1. 清華大學 信息技術(shù)研究院,北京 100084; 2. 中國傳媒大學 計算機學院,北京 100024;3. 深圳大學 電子科學與技術(shù)學院,廣東 深圳 518000)

        1 引言

        當前社會對歌曲的需求與日俱增,聽歌已經(jīng)從個人電腦轉(zhuǎn)向互聯(lián)網(wǎng)在線視聽。3G通信網(wǎng)絡(luò)的逐漸普及,必然推動歌曲操作從互聯(lián)網(wǎng)向手機擴展。為應對上述需求,各種智能歌曲搜索和推薦系統(tǒng)逐漸涌現(xiàn)。歌曲情感分類是智能歌曲搜索和推薦的關(guān)鍵技術(shù),目標是賦予歌曲特定的情感標簽,以方便用戶搜索或者系統(tǒng)推薦。近年來,歌曲情感分類首先在音頻信號處理研究中涌現(xiàn),人們試圖借助Mel倒譜系數(shù)(MFCC)從音頻信號中提取可能會反映情感的音頻特征(例如強度、頻譜質(zhì)心、能量、節(jié)奏、速度等),再借助機器學習算法實現(xiàn)情感分類。基于音頻信號的研究已有近20年的歷史,然而至今無法獲得準確反映情感的音頻特征,所取得的成效非常有限,無法達到滿意的水平??紤]到目前音頻信號在歌曲情感分析上的局限性,我們提出以歌詞為分析對象,借助自然語言處理技術(shù)對歌曲進行情感分析。目前這方面的研究并不多見。

        歌曲以多種媒體表達情感,包括音樂、演唱和歌詞等。因此,僅以歌詞判定歌曲情感存在一定片面性。尤其是隨著歌曲形式的不斷推陳出新,歌詞所表達的情感有時依賴于歌手對歌曲的演繹風格,二者甚至會發(fā)生偏差。某些歌曲從歌詞看并無明顯情感傾向,但經(jīng)過歌手演繹后,能表達強烈的情感。為此我們對歌曲進行了調(diào)查,結(jié)果顯示:中文歌曲中只有不到5%的流行歌曲屬于這種類型。所以,我們提出以歌詞為歌曲情感的分析依據(jù),以自然語言處理技術(shù)判定歌曲情感。

        歌曲情感分析的依據(jù)是情感模型,即對情感類別的預設(shè)。我們采取流行的Thayer情感模型[1],即分別從能量和壓力兩個坐標軸將歌曲情感劃分為兩類,從而形成“滿足(contentment)”、“沮喪(depression)”、“焦慮/狂亂(anxious/frantic)”和“生氣勃勃(Exuberance)”四類情感。實驗證明,音頻信號在能量高低的判定上具有較高準確度,而在壓力大小的判定上難以奏效。因此本文只針對壓力大小的判定展開基于歌詞的研究,試圖從歌詞中分析歌曲所表達的情感壓力水平,將歌曲情感定義為“輕松(light-hearted)”和“壓抑(heavy-hearted)”兩類。這同文本觀點極性分析中的“積極”和“消極”有相似之處。為表述方便,本文將歌曲情感壓力分析簡稱為歌曲情感分析。

        本研究采取機器學習的分類方法實現(xiàn)歌曲情感分析,首先將歌詞表示為向量空間模型(Vector Space Model, VSM),然后以支持向量機(Support Vector Machines, SVM)算法實現(xiàn)歌曲情感分類?;谠~匯的向量空間模型(w-VSM)在歌詞文本表示上存在如下問題:(1)盡管有很多算法可用于特征選擇,但w-VSM無法消除某些與情感表達無關(guān)的詞匯特征。這些特征不會對情感分析起到作用。(2)歌詞中很多情感詞匯在實際使用時存在歧義。歧義在w-VSM中未經(jīng)適當消解而直接參與情感分析,必然對結(jié)果形成影響。(3)否定詞和修飾詞在歌詞中頻繁出現(xiàn),他們對情感的增強、削弱和置反作用在w-VSM中無法體現(xiàn)。(4)歌詞往往比較短,平均在50~80個詞左右,這導致w-VSM嚴重的數(shù)據(jù)稀疏問題。

        針對上述問題,本文提出情感向量空間模型(s-VSM),以情感單元作為特征提取對象,以情感單元的統(tǒng)計量作為情感特征。實驗結(jié)果顯示,s-VSM相對于w-VSM優(yōu)勢明顯,充分證明了情感向量空間模型的有效性。

        2 相關(guān)工作

        音頻信號處理研究領(lǐng)域在上世紀90年代開始歌曲情感分析研究,基本思路是以音頻信號作為分析依據(jù)、采取機器學習方法進行情感分類[2-3],情感模型大都基于Thayer情感模型[1]。Lu等提出層次分類方法,通過兩步分析實現(xiàn)四類情感分類[3]。第一步借助強度特征判定能力水平,第二步借助音色和節(jié)奏特征判定壓力水平。該工作也證明了音頻信號在壓力水平判定上的不足。

        Chen等于2006年開始進行基于歌詞的歌曲情感分析研究[4],他們采取了類似文獻[3]的層次分類方法。不同的是,在第二步壓力水平判定上采取了歌詞分析。他們采用基于詞匯的向量空間模型,效果提高并不明顯。Xia等[5]提出了情感向量空間模型的初步設(shè)想,在特征定義中以情感單元取代詞匯,以情感單元的統(tǒng)計量作為情感特征,歌曲情感分析取得顯著提高。本文工作是文獻[4]的擴展,將情感特征擴展到12維,覆蓋了雙重情感否定的情況。另外本文對情感類別的定義進行擴展,在原先“輕松”和“壓抑”兩類情感的基礎(chǔ)上增加“復雜”和“含蓄”兩類情感,以解決復雜情感和含蓄情感的識別。

        3 情感向量空間模型(s-VSM)

        3.1 設(shè)計原則

        我們提出情感向量空間模型(s-VSM)遵循如下設(shè)計原則:

        1) 只考慮情感相關(guān)詞匯對情感分析的影響。

        2) 情感詞匯需在語義上下文中進行必要消歧后才用于情感分析。

        3) 考慮否定詞和修飾詞對情感的置反、增強和削弱影響。

        基于上述原則,我們認為情感單元是情感特征定義的基本元素。下面我們提出情感單元的形式化定義,并逐步給出情感向量空間模型的形式化描述。

        3.2 形式化描述

        情感詞典(L)可描述為三元組:

        L={C,N,M};

        C={ci},i=1,…,I;N={nj},j=1,…,J;

        M={mt},t=1,…,T。

        其中C代表情感關(guān)鍵詞集,N代表否定詞集,M代表修飾詞集。這些詞匯可從詞典中自動獲取,每個情感詞都被賦予積極或消極的極性。那么,給定一篇歌詞W:

        W={wh},h=1,…,H,

        我們借助情感詞典將W轉(zhuǎn)換為情感單元集合:

        其中ci,v、nj,v和mt,v出現(xiàn)在約定大小(7個詞)的文本上下文窗口中。實際應用中,否定詞和修飾詞與情感關(guān)鍵詞的依賴關(guān)系可通過依存分析工具獲取。由于情感單元覆蓋了這一上下文關(guān)系,情感關(guān)鍵詞的情感大部分歧義可被消除。基于情感單元,我們定義如下情感向量空間模型:

        ,,…,,

        我們根據(jù)情感關(guān)鍵詞與否定詞、修飾詞的搭配關(guān)系建立12個情感特征,見表1。

        表1 本文定義的12個情感特征

        根據(jù)情感單元的定義,fPSW、fNSW、fNEG和fMOD滿足以下條件:

        3.3 情感特征提取

        我們首先利用情感詞典結(jié)合依存分析工具提取歌詞中的情感單元。具體過程如下:先利用情感詞典在歌詞中識別情感關(guān)鍵詞,然后利用依存分析工具在約定上下文窗口中識別與該詞發(fā)生依存關(guān)系的否定詞和修飾詞,最后實現(xiàn)情感單元的提取。

        接下來我們分析情感單元的情感極性。若情感單元中不出現(xiàn)否定詞,則我們簡單采取情感關(guān)鍵詞的極性作為情感單元極性。若出現(xiàn)了否定詞,則根據(jù)否定詞個數(shù)進行極性置反處理。例如雙重否定將不改變情感極性。

        最后我們根據(jù)表1所列12個情感特征的計算方法從歌詞中提取情感特征。

        3.4 情感向量空間模型的優(yōu)勢分析

        我們從以下四個方面分析情感向量空間模型(s-VSM)相對于詞匯向量空間模型(w-VSM)的優(yōu)越性:

        1) 特征表示效率:s-VSM模型僅考慮情感相關(guān)詞并以情感單元的統(tǒng)計量形成特征表示,特征空間維度僅為12維。w-VSM模型則以詞匯為特征,特征空間維度巨大。因此s-VSM的表示效率遠高于w-VSM。

        2) 特征歧義:情感單元能有效限定情感關(guān)鍵詞的上下文語義,并結(jié)合否定詞和修飾詞的啟發(fā),情感歧義可在s-VSM模型中被大部分消除。

        3) 表示能力:情感單元體現(xiàn)了否定詞的置反功能和修飾詞的情感增強與削弱功能,因此s-VSM的功能表示能力高于w-VSM。

        4) 稀疏性:s-VSM采用12個情感特征,其數(shù)目遠遠少于情感詞匯個數(shù),能較好解決數(shù)據(jù)稀疏問題。

        4 基于s-VSM的歌詞情感分類方法

        本文將基于歌詞的歌曲情感分析視為分類問題。在將歌曲表示為情感向量后,我們可利用訓練集生成分類器,再利用分類器對歌曲進行情感分類。本文采取了性能較好的支持向量機(SVM-light[6])分類方法。

        最初我們根據(jù)情感壓力將歌詞情感劃分為“輕松”和“壓抑”,但實際上還存在兩類之外的情感壓力類別,比如“復雜”和“含蓄”。觀察發(fā)現(xiàn),有相當數(shù)量的歌曲在情感表達上直抒胸臆,頻繁使用情感詞,且“輕松”情感和“壓抑”情感比例相當,表達了類似悲喜交加、又愛又恨等復雜情感。另外,少量歌曲在情感表達上文雅含蓄,很少使用情感詞。我們認為,上述兩類情感不能單純歸結(jié)為“輕松”或“壓抑”。因此在實際處理中,我們將Thayer情感模型壓力軸的“輕松”和“壓抑”兩類情感擴展為結(jié)合情感單元個數(shù)的四類情感分類模型,如圖1所示。

        圖1 基于情感壓力的四類情感分類模型。

        5 實驗與評測

        5.1 實驗設(shè)置

        我們采用5SONGS語料庫[5]進行本文方法的訓練和評測。5SONGS語料庫包含2 653首中文流行歌曲,兩類情感壓力類別“輕松”和“壓抑”均由兩位專家人工判定。最終1 632首歌曲被標注為“輕松”,1 021首被標注為“壓抑”。專家標注一致性為72%,這說明歌詞情感判定存在較大難度。本實驗中用到的情感詞典大部分來自HowNet[7]。由于情感詞典對本文工作意義重大,因此我們又融合了NTU情感詞典*http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html。本文采取哈爾濱工業(yè)大學依存分析工具LTP[8]進行詞法分析和依存分析。

        我們采取文本分類通用評測方法對本文工作進行評測,包括準確率(p)、召回率(r)和f-1分數(shù)(f)。為整體分析方法性能,我們采取微平均(micro-average)和宏平均(macro-average)[9]。我們將5SONGS語料庫隨機劃分為四等分,以四重交叉驗證技術(shù)評測本文方法。

        5.2 方法

        本實驗考慮如下基線系統(tǒng):

        1) 音頻分析方法

        采用文獻[3]匯報的音頻分析方法以音色和節(jié)奏等12維音頻特征進行歌曲情感壓力分析。

        2) 知識推理方法

        本文實現(xiàn)了一個簡單的基于情感詞典的情感推理方法。首先利用情感詞典從歌詞中識別情感詞,然后在其上下文識別否定詞和修飾詞以獲取情感單元,最后我們以情感單元計數(shù)來斷定歌詞的情感類別。

        3) 基于w-VSM的機器學習方法

        我們以情感詞為分類特征,通過CHI算法[10]進行特征選擇;以情感詞特征集產(chǎn)生歌詞向量空間;最后在訓練數(shù)據(jù)上產(chǎn)生分類器,并用于情感分類測試。

        本文方法是基于s-VSM的機器學習方法。我們選擇12維情感特征產(chǎn)生情感向量空間,在訓練數(shù)據(jù)上產(chǎn)生分類器,并用于情感分類測試。本實驗還將對比Thayer的二類情感壓力模型和我們的四類情感壓力模型。

        5.3 實驗1 基準方法和本文方法的對比

        基于Thayer模型的基準方法和本文方法的實驗結(jié)果如表2所示。

        表2 評測方法的實驗結(jié)果(f-1分數(shù))

        表2實驗結(jié)果顯示:1)基于歌詞的所有方法優(yōu)于基于音頻的方法,其中基于s-VSM的分類方法在微平均f-1分數(shù)上高于音頻分析方法0.155。這表明:在歌曲情感分析上,歌詞能提供比音頻更豐富的依據(jù)。2)基于機器學習的方法優(yōu)于基于知識推理的方法,其中基于s-VSM的機器學習方法在微平均f-1分數(shù)上高于知識推理方法0.107;3)基于s-VSM的機器學習方法優(yōu)于基于w-VSM的方法,在微平均f-1分數(shù)上提高了0.069。

        5.4 實驗2 兩個情感壓力模型的對比

        本文方法在Thayer的二類情感壓力模型和本文的四類情感壓力模型下實驗結(jié)果如表3所示。需要指出的是:由于5SONGS語料庫并未進行“復雜”和“含蓄”標注,因而無法對這兩類情感進行評測。我們只對經(jīng)“復雜”和“含蓄”過濾后的歌曲進行“輕松”和“壓抑”兩類評測。

        表3 本文方法在在兩中情感壓力模型下的實驗結(jié)果(f-1分數(shù))

        表3實驗結(jié)果顯示:在采用本文的四類情感壓力模型后,歌曲的“輕松”和“壓抑”分類性能有顯著提高(即在微平均f-1分數(shù)上提高了0.088)。這說明了新模型在歌曲情感分析上的有效性。需要特別指出的是,本文提出的四類情感壓力模型是一個面向應用的模型,而心理學家是否認同該四類情感壓力模型并非本文研究重點。但我們同心理學專家合作,以求提出反映該應用效果的新的情感壓力模型。

        6 結(jié)論

        本文提出了基于情感單元的情感向量空間模型(s-VSM)。同傳統(tǒng)基于詞匯的向量空間模型(w-VSM)相比,s-VSM模型在文本表示效率、歧義消解、情感功能和數(shù)據(jù)稀疏性等方面都有w-VSM模型無法比擬的優(yōu)越性。實驗結(jié)果證明,s-VSM模型在歌詞情感分類中獲得成功。另外本文對情感壓力模型進行了改進,將情感詞詞頻與Thayer二維情感壓力模型相結(jié)合,提出了“輕松”、“壓抑”之外的“復雜”、“含蓄”兩類新的情感壓力類別。實驗證明,情感壓力模型的改進對提高歌詞情感分析的性能很有幫助。

        本研究尚有未完成的工作,包括情感詞對情感單元的增強和削弱影響尚未在本文體現(xiàn),12維情感特征并不完整。另一方面歌詞情感分析可能還需要同音頻分析相結(jié)合,以實現(xiàn)更加準確的歌曲情感判定。我們將針對上述內(nèi)容進一步展開我們的研究。

        [1] R. E. Thayer. The Biopsychology of Mood and Arousal[M].New York, Oxford University Press. 1989.

        [2] T. Li and M. Ogihara. Content-based music similarity search and emotion detection[C]//Proc. IEEE Int. Conf. Acoustic, Speech, and Signal Processing, 2006: 17-21.

        [3] L. Lu, D. Liu and H. Zhang. Automatic mood detection and tracking of music audio signals[J].IEEE Transactions on Audio, Speech & Language Processing, 2006, 14(1): 5-18.

        [4] R.H. Chen, Z. L. Xu, Z. X. Zhang and F. Z. Luo. Content Based Music Emotion Analysis and Recognition[C]//Proc. of 2006 International Workshop on Computer Music and Audio Technology, 2006: 68-75.

        [5] Y. Xia, L. Wang, K.-F. Wong and M. Xu. Sentiment Vector Space Model for Lyric-based Song Sentiment Classification[C]//Proc. of ACL-08: HLT, Short Papers (Companion Volume): 133-136, Columbus, Ohio, USA, June, 2008.

        [6] T. Joachims. Learning to Classify Text Using Support Vector Machines Methods, Theory, and Algorithms[M]: Kluwer, 2002.

        [7] Z. Dong and Q. Dong. HowNet and the Computation of Meaning[M]. World Scientific Publishing, 2006.

        [8] J. Ma, Y. Zhang, T. Liu, S. Li. A Statistical Dependency Parser of Chinese under Small Training Data[C]//Proc. of IJCNLP-2004, 1999: 1-5.

        [9] Y. Yang and X. Liu. A Re-Examination of Text Categorization Methods[C]// Proc. of SIGIR'99, 1999: 42-49.

        [10] Y. Yang and J. O. Pedersen. A comparative study on feature selection in text categorization[C]//Proc. of ICML'97, 1997: 412-420.

        猜你喜歡
        分類特征情感
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達“特征”
        情感
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        久草手机视频在线观看| 夜夜被公侵犯的美人妻| 国产av一区二区精品久久凹凸| 伊人久久中文大香线蕉综合| 青青草免费高清视频在线观看| av影片手机在线观看免费网址| 亚洲国产精品无码久久久| 欧美日本国产va高清cabal| 欧美精品日韩一区二区三区| 色婷婷一区二区三区久久亚洲| 久久天堂av综合合色| 99精品国产综合久久久久五月天 | 中文字幕亚洲一区视频| 亚洲av色欲色欲www| 少妇无码一区二区三区| 国产精品久久婷婷婷婷| 台湾佬中文偷拍亚洲综合| 国产在线一区二区av| 国产日产综合| 不卡高清av手机在线观看| 狼人综合干伊人网在线观看| 国产一级内射视频在线观看| 亚洲欧美成人一区二区在线电影| 亚洲阿v天堂2018在线观看| 日本一区二区三区在线观看免费 | 亚洲无精品一区二区在线观看| 亚洲国产精品国自产拍av| 国产最新网站| 激情视频在线观看免费播放| 久久99热国产精品综合| 久久九九国产精品怡红院| 国内视频偷拍一区,二区,三区| 五月婷婷丁香视频在线观看| 又大又粗欧美黑人aaaaa片| 日本强好片久久久久久aaa| 妞干网中文字幕| 日韩一区二区中文天堂| 特级做a爰片毛片免费看| 久草热8精品视频在线观看| 蜜桃av噜噜一区二区三区香| 免费久久久一本精品久久区|