亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語譜圖的老年人語音情感識別方法

        2018-12-10 09:13:16張若凡黃俊古來
        軟件導刊 2018年9期
        關鍵詞:維納濾波卷積神經網絡

        張若凡 黃俊 古來

        摘要:針對老年人的語音情感識別問題,提出一種基于語譜圖的老年人語音情感識別方法。首先采用一種改進的基于先驗信噪比的維納濾波算法,針對老人語音情感庫EESDB進行語音增強,選取合適的語音情感庫,對語音進行語譜圖特征提取與規(guī)范化,然后分析卷積神經網絡(CNN)的結構并選定Cifar10網絡對語譜圖進行分類,最后采用3種方案進行對比實驗。實驗結果取得了較高的情感識別率,表明了該方法的有效性和可行性。

        關鍵詞:老年人語音情感識別;語譜圖;維納濾波;卷積神經網絡

        DOIDOI:10.11907/rjdk.181094

        中圖分類號:TP301

        文獻標識碼:A文章編號文章編號:16727800(2018)009002804

        英文標題Speech Emotion Recognition for the Elderly Based on Spectrogram and CNNs

        --副標題

        英文作者ZHANG Ruofan,HUANG Jun,GU Lai,XU Ermin,GU Zhixing

        英文作者單位(School of Telecommunications and Information Engineering,Chongqing University of Posts and Telecommunication,Chongqing 400065,China)

        英文摘要Abstract:To solve the problem of speech emotion recognition for the old people,a method of speech emotion recognition based on spectrogram is proposed.Firstly,the method used an improved Wiener filtering speech enhancement algorithm based on the prior SNR to remove the background noise and enhance the EESDB emotional database,merging the old emotional database EESDB and the Chinese emotional voice database together and extracting the spectrogram feature and standardizing the spectrogram.Then the convolutional neutral network was analyzed and the cifar10 iss chosen for the classification of spectrogram.Finally,the performance of this method was accessed by computer simulations and a higher recognition rates was achieved.The results show that the proposed method in this paper is effective.

        英文關鍵詞Key Words:speech emotion recognition for the old people;spectrogram;Wiener filter ;convolutional neutral networks(CNNs)

        0引言

        情感識別一直是情感計算領域的關注熱點,主要通過計算機對用戶的生理信號進行分析與處理,得出用戶的情感狀態(tài)。語音作為人類交流最重要的方式之一,不僅能傳達豐富的信息,還攜帶了說話者大量情感因素。因此,如何讓計算機自動從語音中識別出說話者的情感狀態(tài)一直是情感識別領域的研究重點[13]。隨著我國人口老齡化的加劇,老年人的養(yǎng)老問題日益突出。語言表達是反映老人精神狀態(tài)好壞的一個重要方面,關注老人的精神生活狀態(tài),首先要關注老年人的語音情感狀態(tài)。

        尋找智能、高效的老年人語音情感識別方法(Speech Emotion Recognition System)是智慧養(yǎng)老的關鍵問題之一[4]。國內外針對語音情感識別的研究已有20多年歷史[5]。20世紀80年代后期,麻省理工大學情感計算研究人員借助采樣識別人類情感,并讓機器對不同情感作出響應[6]。2000年,美國Picard等[7]證明了聲學特征參數與情感的關聯;2004年,我國東南大學趙力[8]首先針對語音中包含的情感信息進行研究,采用GMM(高斯混合模型)識別方法對4種情感進行識別,識別率最高可達95%;2009年,慕尼黑工業(yè)大學Schuller等針對情感識別框架提出了許多構想。

        本文在已有方法的基礎上,針對老年人的語音進行情感識別。該方法流程主要包括語音樣本預處理、情感特征提取、情感識別3部分[9]。語音樣本預處理以選取的數據集作為基本輸入,通過語音增強、數據集融合獲得去噪后的純凈數據集;情感特征提取通過分幀、加窗、FFT獲得語譜圖圖像特征;情感識別則采用目前使用較廣的卷積神經網絡對情感信息進行分類識別。

        1語音情感識別方法整體流程

        本方法的整體思路是對選取的數據集進行預處理[10],在此基礎上通過變換得出語譜圖圖像特征,最后將規(guī)范化的語譜圖作為卷積神經網絡的輸入,配合分類器進行情感識別與分類,如圖1所示。

        2語音情感數據庫準備

        本文首先選取老人語音情感庫EESDB[11],EESDB是針對老年人建立的情感語料庫??紤]到捕捉自然情感的老人語音庫較少,該語料庫取自反映老人生活的電視劇《老人的故事》。首先從電視劇中截取包含情感的語音數據,志愿者再對其進行情感標定。共截取語音992條,采樣率為44kHz,并進行16bit量化,情感類型包括高興、傷心、中性、生氣、害怕和驚奇6種。

        本文同時選取中國科學院自動化所漢語情感語料庫CASIA[12]作為語音情感數據庫的補充。CASIA漢語情感語料庫由中科院自動化所制作,由4個專業(yè)發(fā)音人(2男2女)對500條語句進行錄制,情感類型也包括高興、傷心、中性、生氣、害怕和驚奇6種。CASIA語料庫以16kHz采樣,并進行16bit量化,經過篩選,最終保留9 600句。表1為不同語料庫對比。

        3語音樣本預處理

        語音樣本預處理是訓練識別前的準備工作,包括針對EESDB語料庫的語音增強和語料庫融合,如圖2所示。

        CASIA是由專業(yè)錄音人員在無背景噪聲的理想實驗室錄制,而EESDB則取自于電視劇,來源于真實環(huán)境,因此存在背景噪聲。不同的語音情感數據庫在錄制過程中,聲學條件會因為混響、背景噪音以及所使用錄制設備的聲學屬性而產生變化,進而導致在語音情感識別系統中提取的情感特征失準。目前的語音情感識別大多是在理想實驗室條件下進行,因此提取的特征和識別得到的結果都是在單個純凈的語料庫上得到的。針對EESDB存在背景噪聲的情況,采用一種改進的基于先驗信噪比的維納濾波算法對語音進行去噪。

        4情感特征提取

        情感特征提取算法步驟為:①對語料庫進行分幀、加窗、傅里葉變換(FFT,Fast Fourier Transform)生成語譜圖[13];②對語譜圖進行尺度一致化調整為256*256的RGB圖;③將語譜圖轉換為LMDB格式;④求語譜圖均值。情感特征提取算法流程如圖3所示。

        4.1分幀

        語音信號在一個很短的時間段內可看作穩(wěn)定狀態(tài)。通常將語音信號進行分幀[14],每一幀長度是20ms~30ms,在該時間段內,語音信號可視作穩(wěn)定狀態(tài)。

        4.2加窗

        分幀之后原本的語音信號變?yōu)榱擞邢扌盘枺谡{用傅里葉變換函數時將導致高頻部分泄露,因此可通過加窗處理降低泄露[15]。信號加窗使用最多的窗函數有矩形窗與漢明窗。

        矩形窗:

        w(n)=1,0≤n≤(N-1)0,其他(1)

        漢明窗:

        w(n,α)=1-α-αcos(2πnN-1)0,其他(2)

        其中α是系數,取值一般為0.46。

        4.3語譜圖特征提取

        語譜圖(Spectrogram)是可以反映語音頻譜隨時間變化的二維可視平面圖。語譜圖中包含了大量有用信息,如語音基頻、清音、爆破音等,因而被廣泛應用于語音研究中。語譜圖的橫坐標表示時間,縱坐標表示頻率。每個像素的灰度值表示某時刻對應頻率的信號能量密度,信號能量密度強弱用相應點灰度或顏色深淺表示[16]。通過對語音樣本進行分幀加窗、快速傅里葉變換(FFT,Fast Fourier Transform)得出語譜圖,樣本語譜圖如圖4所示。

        5CNN訓練識別

        卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋神經網絡,由于該網絡不需要對圖像進行復雜的前期預處理,近年來被廣泛應用于模式識別領域,尤其是人臉檢測、語音監(jiān)測、文字識別等領域[17]。不同于大多數采用全連接的深度神經網絡,卷積神經網絡采用部分連接的網絡模型,極大地提高了學習效率。

        典型的卷積神經網絡基本結構包括卷積層、降采樣層和全連接層,如圖5所示[18]。卷積層直接對輸入樣本(如語譜圖)進行卷積操作。卷積核大小可自主設置,通過不同卷積核進行卷積后,在每一層產生特征映射圖,特征映射圖中每組像素再進行求和、加權及加偏置操作。卷積核之間共享相同的權重矩陣和偏置項。

        非線性降采樣層也稱為池化層,在卷積層之后,對卷積層輸出進行空間和特征類型壓縮,減少參數與計算量。實踐證明,池化不僅可以降低輸入特征維數,還可以改善結果。其具體操作與卷積層操作基本相同,區(qū)別在于降采樣層的卷積核只取對應位置的最大值(最大池化,Max Pooling)或平均值(平均池化,Mean Pooling)等。全連接層是指輸入的每個神經元與本層的每個神經元相連,即連接所有特征,再將輸出值直接輸送給Softmax分類器。

        6實驗與分析

        實驗環(huán)境采用Ubuntu系統,8G內存,軟件為Matlab 2012b,并采用Caffe框架[19]。語音樣本選取中科院自動化所CASIA漢語情感數據庫與EESDB老人語音情感庫的數據。實驗隨機選取EESDB中相同發(fā)音的40句共800條語音,CASIA相同發(fā)音的50句共1 200條語音作為實驗數據,總共2 000條語音,其中1 200條為訓練數據,800條為驗證數據。

        目前語音情感識別算法中常用的分類器有隱馬爾科夫模型、K近鄰分類、Softmax分類器與支持向量機(SVM,Support Vector Machine)等[20] 。實驗選取Softmax分類器,核函數使用識別效果好且參數比較容易設置的多項式核函數。

        CNN在Caffe框架下搭建,采用的結構與圖5結構相同。第一組卷積核設置為5個,大小為8×6,降采樣層大小為1×4;第二組卷積核設置為10個,大小為6×4,降采樣層大小為1×3。兩層采用平均池化方法,全連接層節(jié)點數為500。

        采用跨庫訓練方案,更改CASIA和EESDB在訓練集和測試集中的比例[21]。選用的實驗方案包含以下3種:①選用EESDB全部語句共800條,CASIA中240條語句作為訓練集,剩余960條語句作為驗證集進行訓練;②選用CASIA全部語句1 200條作為訓練集,EESDB全部語句800條作為測試集進行訓練;③選用CASIA中600條語句、EESDB中600條語句,共1 200條作為訓練集,CASIA剩余600條語句作為測試集。表2是基于3種方案的識別率。

        7結語

        本文提出一種基于語譜圖的老年人語音情感識別方法。首先選取合適的語音情感庫,對其進行預處理,提取語譜圖情感特征對語譜圖進行尺度一致化調整,將語譜圖轉換為訓練學習要求的格式,然后輸入CNN進行訓練,將識別結果輸入分類器進行分類,最后得出情感識別結果。本文提出的利用語譜圖特征進行語音情感識別的方法為研究老年人語音情感提供了新思路,語譜圖圖像特征可作為一類新特征進一步增強語音情感識別系統的性能。

        參考文獻參考文獻:

        [1]NWE T L,FOO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

        [2]AYADI M E,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572587.

        [3]薛文韜.語音情感識別綜述[J].軟件導刊,2016,15(9):143145.

        [4]席恒,任行,翟紹果.智慧養(yǎng)老:以信息化技術創(chuàng)新養(yǎng)老服務[J].老齡科學研究,2014(7):1220.

        [5]NWE T L,FOO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

        [6]PICARD R W.Affective computing:challenges[J].International Journal of Human Computer Studies,2003,59(1):5564.

        [7]PICARD R.Computers that recognize and respond to user emotion[J].IBM Systems Journal,2000,39:705719.

        [8]趙力,錢向民,鄒采榮,等.語音信號中的情感特征分析和識別的研究[J].電子學報,2004,32(4):606609.

        [9]韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):3750.

        [10]徐濟仁,陳家松,徐屹.語音信號預處理技術綜述[J].信息化研究,2001,27(6):2627.

        [11]王坤俠.語音情感識別方法研究[D].合肥:合肥工業(yè)大學,2015.

        [12]劉志勇,楊關,馮國燦.基于 Gabor 小波和局部二值模式的步態(tài)識別[J].中山大學學報:自然科學版,2014,53(4):17.

        [13]李富強,萬紅,黃俊杰.基于MATLAB的語譜圖顯示與分析[J].微計算機信息,2005,21(10X):172174.

        [14]蘇偉博.一種語音端點檢測方法及裝置[P].CN102097095A,2011.

        [15]鐘林鵬.說話人識別系統中的語音信號處理技術研究[D].成都:電子科技大學,2013.

        [16]陶華偉,査誠,梁瑞宇,等.面向語音情感識別的語譜圖特征提取算法[J].東南大學學報:自然科學版,2015,45(5):817821.

        [17]李彥冬,郝宗波,雷航.卷積神經網絡研究綜述[J].計算機應用,2016,36(9):25082515.

        [18]蔡娟,蔡堅勇,廖曉東,等.基于卷積神經網絡的手勢識別初探[J].計算機系統應用,2015,24(4):113117.

        [19]JIA Y,SHELHAMER E, DONAHUA J,et al.Caffe:convolutional architecture for fast feature embedding[J].Computer Vision and Pattern Recognition,2014:675678.

        [20]朱永生,張優(yōu)云.支持向量機分類器中幾個問題的研究[J].計算機工程與應用,2003,39(13):3638.

        [21]金赟,宋鵬,鄭文明,等.半監(jiān)督判別分析的跨庫語音情感識別[J].聲學學報,2015(1):2027.

        責任編輯(責任編輯:黃?。?/p>

        猜你喜歡
        維納濾波卷積神經網絡
        多級維納濾波器的快速實現方法研究
        自適應迭代維納濾波算法
        基于維納濾波的超聲增強實現方法
        基于多窗譜估計的改進維納濾波語音增強
        基于維納濾波器的去噪研究
        基于卷積神經網絡溫室智能大棚監(jiān)控系統的研究
        基于深度卷積神經網絡的物體識別算法
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網絡的人臉年齡分析算法與實現
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于卷積神經網絡的樹葉識別的算法的研究
        在线a亚洲视频播放在线播放| 免费中文熟妇在线影片| 精品国产91久久综合| 最新亚洲av日韩av二区一区| 亚洲hd高清在线一区二区| 蜜桃视频网站在线观看一区| 无码人妻精品一区二区三| 午夜无码片在线观看影视 | 麻豆最新国产av原创| 久久亚洲色一区二区三区| 国产特级毛片aaaaaaa高清| 亚洲AⅤ永久无码精品AA| 中文字幕日本人妻一区| 亚洲韩日av中文字幕| 精品亚洲一区二区三区四区五区 | 国产目拍亚洲精品区一区| 国产精品高清视亚洲一区二区| 国产日本精品视频一区二区| 国产成人精品白浆久久69| 波多野吉衣av无码| 亚洲av福利天堂在线观看 | 亚洲二区三区四区太九| 九九精品国产亚洲av日韩| 4455永久免费视频| 中文无码久久精品| 中文字幕久久久久久精| 日本精品久久中文字幕| 国语对白在线观看免费| 欧美综合天天夜夜久久| 久久天天躁狠狠躁夜夜avapp| 久久免费的精品国产v∧| 999久久久免费精品国产牛牛| 亚洲天堂av在线一区| 亚洲天堂丰满人妻av| 一本一本久久aa综合精品| 暖暖免费 高清 日本社区在线观看 | 在线亚洲AV不卡一区二区 | 亚洲男人的天堂精品一区二区| 最新国产av网址大全| 国产自拍视频在线观看免费| 18禁成人黄网站免费观看|