亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能識別主持人語音情感

        2021-01-20 10:24:58夏文心
        文化產(chǎn)業(yè) 2020年33期
        關鍵詞:特征提取定義情緒

        ◎夏文心

        (云南師范大學傳媒學院 云南 昆明 650500)

        就目前而言,人工智能技術成為我們日常生活中不可缺少的一項重要技術,可以通過運用互聯(lián)網(wǎng)計算機系統(tǒng)研究許多事物以及這些事物的方方面面,如識別人們的語音、情感、態(tài)度等,并從理論研究逐漸走向實質性研究[1]。人工智能通過辨別我們的語音,能獲取主持人在此時所要表達的情緒和情感;從原有的數(shù)據(jù)庫中篩選調取與個人情緒情感相匹配的音樂、視頻以及圖像,通過“情感標簽”篩選出適應個人情緒,然后實現(xiàn)自動配樂和配景[2]。

        一、研究的方法與步驟

        本研究首先進行情感定義,使輸出語音有相應的對應標簽。使用語譜圖作為主持人的語音的認識辨別功能,利用GAN(簡稱生成對抗網(wǎng)絡)對原始輸入特征進行提取。使用長短記憶網(wǎng)絡對GAN的輸出特征進行進一步提取[3],使其具有上下時刻關聯(lián)性,大大提高了最終的識別結果。將提取出的特征進行分類,輸出“情感標簽”。

        二、情感的定義

        本研究的主要基礎與核心部分,是探究情感是什么,如何進行情感的分析。當前學術界通常將情感表示為連續(xù)型情感和離散型情感。連續(xù)型情感主要是匹配一個比較單一的情感態(tài)勢和語音這個空間中的一小部分或者是連續(xù)的一個段落,然后通過連續(xù)的情感坐標表達人類的語音情感態(tài)勢[4]。

        三、提取語音特征的方法

        怎樣提煉篩選適合的匹配的特征用以顯示不同的情緒情感,最關鍵最主要的問題是在于,怎樣提取篩選比較合適的匹配的特點特征來表達不一樣的情緒情感,同時具有準確性與泛化性。聲學特征通常具體包括:頻譜的特征、連續(xù)的特征、Teager能量算子,質量的特征。本文我們使用生成對抗網(wǎng)絡來進行語音特征提取與生成,經(jīng)過GAN的判別網(wǎng)絡進行精確的語音識別,從而提升語音識別的精確度[4]。

        四、GAN模型的定義

        生成對抗網(wǎng)絡進行語音特征的提取增強了語音識別的準確性,我們在生成器階段使用GAN對其語音技術進行準確的特征提取[3]。判別器使用卷積神經(jīng)網(wǎng)絡進行精度判別。二者之間使用空間變換網(wǎng)絡進行連接。

        五、GAN+ LSTM + SVM情感識別模型設計

        本部分主要研究基于GAN+ LSTM + SVM的情感識別模型的設計。

        (一)GAN提取語音特征

        首先是進行基于GAN的語音情感的特征進行篩選與提取,在運用網(wǎng)絡進行特征的篩選與提取時,其深度在比較大程度上決定了最后識別出來的結果成效的好壞[4]。伴隨著卷積神經(jīng)網(wǎng)絡逐漸增加的層級數(shù)量、逐漸變深的深度,篩選出不同的維度特征越來越多樣化,比較高的維度特征更加具有抽象特點,可以更好地表現(xiàn)出最終展現(xiàn)結果的好壞。

        (二)LSTM進行進一步提取

        我們運用長段記憶網(wǎng)絡LSTM進一步篩選語音情緒情感的特征。在以往的神經(jīng)網(wǎng)絡中,上下時刻處理信息的關聯(lián),模型是不會關注的,通常一段話中每一個時刻要表述的情緒情感是不太一致的。所以,我們將前后兩個語句與他們各自所對應的情感特征相互聯(lián)系起來,這樣能非常好地識別出情緒情感的標簽。

        (三)使用SVM進行分類

        我們使用支持向量機,進行最后的精準分類。

        六、語音情感識別的整體流程

        本部分主要包括:情感定義、語音情感特征提取,生成對抗網(wǎng)絡,支持向量機和基于GAN+ LSTM + GAN的情感識別模型的設計五部分。

        (一)情感定義

        本次研究我們使用中科院CASIA漢語情感語料庫和太原理工大學張雪英老師團隊錄制的情感數(shù)據(jù)庫,對主持人情感定義語音情感數(shù)據(jù)庫。

        (二)語音情感特征提取

        本小結主要介紹兩種常用的語音特征:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和語譜圖。公式(1)表述了梅爾頻率與聲音頻率f的關系[4]:

        通過提取梅爾頻率倒譜系數(shù),語音里面所有包含的情緒情感特征都可以顯示一部分的向量,每一幀都可以代表一個向量。

        語譜圖自身本來就涵蓋了全部聲音信號的頻譜,是一種具有動態(tài)的頻譜,產(chǎn)生的快速傅里葉變換為如下:

        其中,Xn(m)為分幀語音的第n幀信號。0≤k≤N-1,則|X( n, k)|是X( n)的短時幅度譜估計,而m處的頻譜能量密度函數(shù)p( n, k)為:

        (三)生成對抗網(wǎng)絡

        2014年Ian Goodfellow提出了GAN以來,對GAN的研究可謂如火如荼[3]。GAN的主要結構包括一個生成器G(Generator)和一個判別器D(Discriminator)。他的訓練是處于一種對抗博弈。在此我們給出了GAN識別語音的原理圖:

        GAN識別語音的原理圖

        (四)支持向量機

        支持向量機通常是運用于如何進行分類和回歸的問題[3]。在這種情況下雖然樣本量比較少,但是其表現(xiàn)不錯。支持向量機主要運用二元分類當中。

        (五)GAN+ LSTM + GAN的情感識別模型的設計

        本部分給出了基于GAN+ LSTM + GAN的情感識別模型的設計,基于GAN+ LSTM + SVM模型是一種先利用語譜圖進行輸入,使用生成對抗網(wǎng)絡進行特征的提取;使用長短記憶網(wǎng)絡對生成對抗網(wǎng)絡進行進一步的提??;最后作為SVM支持向量機的輸入,得到分類結果,然后輸出感情標簽[4]。

        猜你喜歡
        特征提取定義情緒
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        小情緒
        小情緒
        小情緒
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        情緒認同
        基于MED和循環(huán)域解調的多故障特征提取
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        山的定義
        公務員文萃(2013年5期)2013-03-11 16:08:37
        久草午夜视频| 亚州国产av一区二区三区伊在| 天天做天天爱天天综合网2021| 猫咪www免费人成网最新网站| 久久久婷婷综合五月天| 亚洲男人免费视频网站| 久久国产加勒比精品无码| 色两性网欧美| 亚洲av噜噜狠狠蜜桃| 人妻久久一区二区三区| 青春草在线视频免费观看| 真正免费一级毛片在线播放| 杨幂二区三区免费视频| 久久久国产精品123| 色多多a级毛片免费看| 加勒比无码专区中文字幕| 久久青青草原亚洲av| 中文字幕无码中文字幕有码| 色伦专区97中文字幕| 国产乱子伦视频一区二区三区| 日韩亚洲在线观看视频| 特黄大片又粗又大又暴| 亚洲熟妇无码av不卡在线播放 | 久久人妻av无码中文专区| 青青草原综合久久大伊人精品| 成年女人黄小视频| av中文字幕综合在线| 日本一区二区三区精品不卡| 无套熟女av呻吟在线观看| 看曰本女人大战黑人视频| 亚洲欧美国产成人综合不卡| 日本亚洲中文字幕一区| 亚洲一区二区三区播放| 亚洲欧美在线观看一区二区| 国产精品女丝袜白丝袜美腿| 日本又色又爽又黄又免费网站| 国产免费久久精品国产传媒| 亚洲视频中文字幕更新| 久久无码高潮喷水抽搐| 亚洲av无码日韩精品影片| 精品国产你懂的在线观看|