亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        輔助聽障人士的一種手語轉(zhuǎn)情感語音工具的設(shè)計

        2022-07-02 12:23:13顧穎許琪毛貝思林巧民
        電腦知識與技術(shù) 2022年15期
        關(guān)鍵詞:機器視覺

        顧穎 許琪 毛貝思 林巧民

        摘要:手語是聽障人士與外界溝通交流的橋梁,如何幫助聽障人士帶有情感地與健聽人正常交流,是當下社會需要解決的問題。輔助聽障人士的一種手語轉(zhuǎn)情感語音的交流工具,涉及手語識別、表情情感計算、語音情感合成等技術(shù)領(lǐng)域,基于機器視覺、動態(tài)貝葉斯網(wǎng)絡(luò)、共振峰合成法等知識,能夠?qū)崿F(xiàn)手語同傳、雙向交互、情感表達等目的。文章研究能夠應(yīng)用在手機上的軟件,方便用戶隨身攜帶,實現(xiàn)由手語轉(zhuǎn)換成情感語音,改善聽障人士與正常人直接的溝通交流方式。

        關(guān)鍵詞:情感計算;機器視覺;表情情感識別;語音情感合成;聽障人士

        中圖分類號:TP391? ? ? 文獻標識碼:A

        文章編號:1009-3044(2022)15-0072-03

        1 引言

        隨著現(xiàn)代人機交互系統(tǒng)的迅速發(fā)展,關(guān)于“情感計算”的研究也日益引起了人們的興趣關(guān)注[1],并且已經(jīng)在面部表情、姿勢改變、語言理解等方面取得了相當?shù)倪M步[2]。聽障人士作為社會特殊群體在語言表達方面存在缺憾,不能夠準確地表達出其及時的想法和情感,而現(xiàn)在市面上的手語翻譯僅僅以中性的語調(diào),將手語翻譯成語言,不能夠充分地表達出聽障人士的情緒變化。

        項目旨在研究輔助聽障人士的一種手語轉(zhuǎn)情感語音交流工具的設(shè)計,將該模型集成在手機App上,方便用戶隨身攜帶。利用機器視覺、表情情感計算、語音情感合成等技術(shù),幫助其更加快捷、高效地與正常人搭建友好的溝通平臺。

        2 手語識別技術(shù)

        手語識別技術(shù)是把聽障人士的手語通過電腦裝置辨識,并翻譯成漢語,它涉及圖像識別、語言分析等多個領(lǐng)域。在視頻中,聽障人士揮手的速度、頻率和幅度、手形的變化和其他相關(guān)信息,這些信息的處理和識別對計算機硬件設(shè)備有著嚴苛的要求。因此電腦視覺[3]也是手語識別技術(shù)中相當主要而且重要的技術(shù)手段之一。伴隨近些年來人工智能和計算機科學的蓬勃興起,其也隨之蒸蒸日上。而與此同時,手語識別技術(shù)也獲得了來自國外更多的重視。手語圖像識別技術(shù),按照其對識別聽障人士手語的特點處理,可以分成兩種:其一是基于傳統(tǒng)方法的手語識別技術(shù);其二是基于深度學習的手語識別技術(shù)[4]。這里采用第一種方法。

        1)相機標定:空間中的對象由攝像設(shè)備所拍攝的圖片還原而成。假設(shè)線性關(guān)系存在于三維空間中的實體對象與圖像之間,存在著:[像]=M[物],矩陣M也可認為是攝像機成像的幾何模式,M中的基本參數(shù)也就是攝像機基本參數(shù)[5]。它利用攝像機標定原理,大大提高了計算機視覺的魯棒性。

        2)手勢圖像分割:在處理圖像的過程中,要將目標圖像分割開來,提取其中有價值的那一部分,提供給系統(tǒng),進行后面的操作。

        3)特征提?。涸谶@個階段,數(shù)據(jù)量通常很小,利用合適的算法對圖片進行二值化處理,從而得到一個僅突出手語信息的單一圖片。

        4)手勢估計:采用水平集算法及其改進的分割圖像,以合適的模型提取和跟蹤手部輪廓,采用mean-shift算法跟蹤輪廓內(nèi)外的圖像特征分布。

        5)手勢行為識別:在現(xiàn)有的手語數(shù)據(jù)庫中,運用適合的分類器對聽障人士的手勢進行識別,以提高識別程度[6]。

        3 動態(tài)表情計算技術(shù)

        世界名著《人與動物情感的表達》中有述,人類臉部表情可以使人形成不同于其他哺乳動物的更高等生物,也成為人們之間可以更有情感地交流溝通的最主要介質(zhì)[7],在情感計算中,表情識別是一個人機交互研究中重要的方法,是情感計算研究中的基礎(chǔ)。于是,大批研究者都投入到面部表情情感認知研究的隊伍當中。當對人們的情感加以研究時,表情始終是人類情感識別中最主要的特點之一。

        簡單的動作表情情感辨識過程,通常包括三部分:數(shù)據(jù)預(yù)處理、情感特征提取、動作表情信息辨識。

        1)表情數(shù)據(jù)預(yù)處理、情感提取及情感分類器

        對表情數(shù)據(jù)的預(yù)處理是進行情感識別的首要步驟,由于圖像中有太多不相關(guān)的背景或物體噪聲,這種干擾條件會直接影響情感識別的有效性。當提供情感特征時,并不能提供有用的情感信息,可能會產(chǎn)生負面影響。如果只想獲得人臉表情的特點或掩蓋背景信息,那么需要檢查每一幀圖片中的人臉信息,并在這些人臉信息中獲得特點。結(jié)合人臉對齊操作、高斯模糊、圖像紋理合成與高維隱空間向特征編碼等技術(shù)操作,對所采集的表情數(shù)據(jù),進行去噪、去除敏感信號等工作處理[8],去掉多余的信息從而關(guān)注于最關(guān)鍵的特征。

        特征提取的目的是獲得能夠表示圖像特征的屬性信息。人臉對表情有關(guān)的特征主要來源于人的五官肌肉變化。例如當一個人處于比較開心的時候,就會產(chǎn)生眉宇舒展、臥蠶突顯、嘴角上揚等一系列的動作;當一個人憤怒的時候,會產(chǎn)生眼睛瞪大、眉毛有豎紋等一系列特征。

        目前常見的表情特征提取方式主要有三類:基于圖像幾何特性的方法、基于整體統(tǒng)計特性的方法以及基于頻域特性的方式方法[9]。這里,選取了基于圖像或幾何特性的方式:通過定位并檢測人眼、眉毛、嘴巴等器官,比較它們的大小、距離、形狀等表情元素特征,從而識別人臉表情。

        人臉表情分類器的主要功用,是通過人臉特征把圖片分類到相應(yīng)的表情分類中去,利用適當?shù)姆诸愃惴ㄗR別表情,對其歸類。動態(tài)建模依賴于整體像素序列,人們能夠利用研究臉部肌肉的時間變化動態(tài),并運用動態(tài)貝葉斯網(wǎng)絡(luò)。

        2)貝葉斯網(wǎng)絡(luò)及結(jié)構(gòu)

        每個人表情情緒的表現(xiàn),都是由一段時間內(nèi)面部肌肉運動改變所形成的,也因為這種不同的變化運動會形成不同的表情。所以,在動態(tài)表情計算中,對面部肌肉之間的運動變化關(guān)系識別是很重要的。

        貝葉斯網(wǎng)絡(luò)也就是貝葉斯公式為基本的,貝葉斯公式還包括:

        [P(A|B)=P(B|A)P(A)P(B)]

        為了識別N種人的表情,在這里創(chuàng)建了N個區(qū)間的代數(shù)貝葉斯網(wǎng)絡(luò),使每一種情緒表情對應(yīng)一種貝葉斯網(wǎng)絡(luò),在這里,每一種實體節(jié)點都代表著一種最基本的情緒運動。關(guān)于一個采樣x,[My]就是指情緒表情y的貝葉斯網(wǎng)絡(luò)模型,這樣情緒表情可以由以下公式來運算得到[10]。因為不同的貝葉斯網(wǎng)絡(luò)可能會有不同的結(jié)構(gòu),因此需要除以模型的復(fù)雜度來加以平衡。因此,可以將模型的連線數(shù)量視為模型的復(fù)雜性,并最終選出了相似量最大的貝葉斯網(wǎng)絡(luò)模型[11]。

        [y*=arg maxMylog(P(x|My)+1)Co(My)]

        在這里,運用一種特殊的貝葉斯網(wǎng)(區(qū)間代數(shù)貝葉斯網(wǎng)絡(luò))可以進行人臉表情建模,這樣可以把貝葉斯網(wǎng)的概括語義與區(qū)間代數(shù)的時序性組合起來,能夠捕捉臉部的復(fù)雜多變運動變化關(guān)系,通過這個方式可以利用基于跟蹤的特性,可提高識別的速度[12]。

        4 語音情感合成技術(shù)

        如果機器的語言不再生硬晦澀難懂,毫無情感語調(diào),而是富有人的語調(diào)跟情感,這會是一個巨大的進步在語音交互的領(lǐng)域,這項非常重要的技術(shù)應(yīng)用在日常生活中,代表這項技術(shù)不斷發(fā)展與進步,人們對情感語音的合成的期待與要求也越來越嚴苛,App基于這些技術(shù)更好地將文字與語音相結(jié)合。

        1)情感語音合成

        情感語音合成這個技術(shù)在很多領(lǐng)域都是非常重要的,比如語音識別、語音合成等,語音合成顧名思義就是將現(xiàn)有的文字通過語音合成技術(shù)變成語音輸出即聲音的形式,通過語音合成技術(shù)把文字變成另一種載體:聲音。語音的合成的歷史是從1980年到現(xiàn)在這個階段,技術(shù)由簡到繁,更新數(shù)據(jù)也極快,但是在初期由于技術(shù)的限制,在技術(shù)合成的方面不會有太高的要求,大多以穩(wěn)定為標準,這也是語音合成偏向機器語調(diào)的原因,并且情感表達的功能也不太完善,所以希望出現(xiàn)一款A(yù)pp能與人類的交流可以自然流暢,它具有人類的情感可以與幫助聽障人士用開心的語調(diào)、生氣的語調(diào)、疑惑的語調(diào)等等,并且富有人類情感程度的復(fù)雜性。這樣就可以通過情感語音合成技術(shù)讓聽障人士能夠自由并富有感情地跟正常人交流。

        2)文字信息與語音信息的轉(zhuǎn)換

        語音合成顧名思義是人為制作的聲音,由手語識別技術(shù)得到聽障人士表達中的文字內(nèi)容,聲音的合成是人機交互中最重要的一個關(guān)鍵點,聲音合成技術(shù)就是對文本內(nèi)容的語音描述。

        信息轉(zhuǎn)換過程:

        ①通過手語識別技術(shù)來建模:語言模型,使手語視頻翻譯成文字,可以利用機器視覺將已識別的手勢庫與相符合的圖像,再跟語音庫中對應(yīng)的情感相結(jié)合。

        ②使用編碼器與譯碼器搭建交互的平臺,可利用FPGA等平臺進行搭建。

        ③在交互平臺完成手勢識別后,應(yīng)用遞歸與二分等算法(GRAM)將二維信號矩陣傳入語音系統(tǒng),并實現(xiàn)輸出的結(jié)果。

        ④語音識別輸出,利用交互平臺,由編碼器與譯碼器轉(zhuǎn)化的二進制的代碼,通過單片機等設(shè)備,對手語識別得到的文本內(nèi)容實現(xiàn)語音的輸出。

        3)情感語音合成的技術(shù)實現(xiàn)

        情感語音技術(shù)的實現(xiàn)其一是通過將情感信息編碼到語言中去,這樣App在合成機器語音時就可以同時識別出語言載體的信息與情感的信息;其二就是先合成一個中性的語調(diào),然后利用聲音的轉(zhuǎn)換技術(shù),得到情感表達的需求。這里采用共振峰合成法。

        共振峰合成法擁有另一個名稱亦基于規(guī)則的合成,這個方法主要是依據(jù)自然的語音及語調(diào)及聲學中與之相對應(yīng)的規(guī)則,在這兩個方面的基礎(chǔ)上合成的,在語音合成的過程中是完全沒有采用真人的語音,利用共振峰合成法可以讓語音輸出的結(jié)果更像真人的語音語調(diào),更加流暢與自然,而且共振峰合成法有一個特點就是其具備高度的可控性,它可以極為方便地調(diào)控,可以人為控制參數(shù)。利用這個方法合成了著名的語音情感合成器——Affect Editor情感語音合成器。

        聲源模式的選擇,濁擦聲源使用了經(jīng)時間脈沖機制處理后產(chǎn)生的噪音,但濁音聲源模式選擇使用了KLGOTT88。濁齒音聲源的波浪狀信號[Ugt]是由下面的函數(shù)得到(Te表示聲門處開相位時長,a決定聲援波峰,OQ是聲門信號開相位寬度)[13]。

        [Ugt=t2-t3OQ100×Te]

        考慮到輻射的特性,通過集成于聲源模型,使用了聲源門波譜的極微分形式,如下式所示:

        [U'g=2atFs-3bt2F2s? ? ?0≤t≤T0×OQ×FS0? ? ?   ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?T0×OQ×Fs≤T0×Fs]

        [a=27×AV4×OQ2×T0=27×Ugmax4XT2e]

        最大的過程為流Ugmax可由下式計算(Fs是采樣率,AV是幅度參數(shù),T0是基音周期)就是通過參數(shù)來判斷的源信號波形。

        [b=27×AV4×OQ3×T0=aTe]

        在聲道模型中,揚聲器模擬的聲道模擬,是用共振峰合成技術(shù)將揚聲器分解成諧振腔,諧振腔擁有無數(shù)個諧振頻率。不同頻率的共鳴峰的模式分別代表著兩種不同類型的音色音調(diào),可以分別利用其共鳴峰頻譜長度及頻譜寬度來作為判斷依據(jù)來建立共鳴峰過濾器。再用若干個這種濾波器串聯(lián)起來以改善模擬聲道信號的傳輸特性。對于每個共振峰可以用另一種二階濾波器來進行濾波,如下式所示[14] (Fi為共振峰中心頻率,Bi為共振峰帶寬,T為采樣周期,幅度L=Fi∕Bi L) 。

        [Ci=-exp-2πBiT]

        [bi=2×exp-πBiTcos2πF?T]

        [Gi=1-bi-Ci]

        [Viz=Gi1-biz-1-c1z-2]

        5 App設(shè)計模型構(gòu)建

        模型的構(gòu)建主要基于機器視覺而行。利用貝葉斯網(wǎng)絡(luò)捕捉臉部的復(fù)雜多變運動變化關(guān)系,進而提高識別的速度;再運用共振峰合成法,使得語音合成后輸出的結(jié)果更加接近真人的語音語調(diào),流暢自然。建立聽障人士不同情緒和合成語音的關(guān)系,通過一系列計算,完成信息輸出載體的轉(zhuǎn)換:由手語轉(zhuǎn)換成情感語音,實現(xiàn)語音輸出。

        用戶界面模塊主要用于個人信息的設(shè)置,包括消息區(qū)、視頻區(qū)、個人中心、資料編輯和一些簡單功能的介紹,方便用戶上手操作。

        6 總結(jié)與展望

        目前,我國有聽力殘疾人口大約為二千零五十四萬人,占全球人口總數(shù)的百分之一點四六[15]。近年來,國家不斷推進助老助殘項目的發(fā)展,在我國的政策支持和社會大規(guī)模投入資金的大背景下,中國國內(nèi)助老助殘創(chuàng)新服務(wù)項目大批出現(xiàn),但目前市面上真正針對聽障人士適用的App幾乎很少。

        輔助聽障人士的手語轉(zhuǎn)語音工具是基于iOS平臺,主要以服務(wù)聽障人士實現(xiàn)正常情感交流為基礎(chǔ),為他們提供即時攝像,手語轉(zhuǎn)情感語音的服務(wù)。隨著互聯(lián)網(wǎng)和信息技術(shù)向著更加寬帶化的目標的進展,移動終端設(shè)備普及很快,逐漸地深入到人們?nèi)粘I畹姆椒矫婷鎇16],人們對情感交流需求的日益增長,聽障人士對于手語翻譯的需求已經(jīng)不僅僅是簡單的中性語調(diào)輸出,還需要加以更多的情感表達。而本文的科研方向恰恰彌補了聽障人士手語識別的部分市場缺口,發(fā)展前景巨大,值得深入研究。

        參考文獻:

        [1] 潘玉春,徐明星,賈培發(fā).面向情感語音識別的建模方法研究[J].計算機科學,2007,34(1):163-165.

        [2] 楊瑞請.基于BPSO的生理信號的情感狀態(tài)識別[D].重慶:西南大學,2008.

        [3] 李杰,劉子龍.基于計算機視覺的無人機物體識別追蹤[J].軟件導(dǎo)刊,2020,19(1):21-24.

        [4] 李云偉.基于深度學習的手語識別關(guān)鍵技術(shù)研究[D].徐州:中國礦業(yè)大學,2019.

        [5] 楊文峰.光學定標算法抗噪性研究及改進[D].開封:河南大學,2017.

        [6] 秦夢現(xiàn).手語識別研究綜述[J].軟件導(dǎo)刊,2021,20(2):250-252.

        [7] 馬銀蓉.基于表情、文本和語音的多模態(tài)情感識別[D].南京:南京郵電大學,2021.

        [8] 王婧瑤,范飛,劉豪宇,等.基于機器視覺的聾啞人手語識別——語音交互系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2021,11(12):3-5.

        [9] 王志良,陳鋒軍,薛為民.人臉表情識別方法綜述[J].計算機應(yīng)用與軟件,2003,20(12):63-66.

        [10] 邱玉,趙杰煜,汪燕芳.結(jié)合運動時序性的人臉表情識別方法[J].電子學報,2016,44(6):1307-1313.

        [11] 邱玉.基于動態(tài)表情識別的情感計算技術(shù)[D].寧波:寧波大學,2015.

        [12] 王琳琳,劉敬浩,付曉梅.融合局部特征與深度置信網(wǎng)絡(luò)的人臉表情識別[J].激光與光電子學進展,2018,55(1):204-212.

        [13] 汪成亮,張玉維.基于共振峰合成和韻律調(diào)整的語音驗證碼方法研究[J].計算機應(yīng)用研究,2011,28(7):2458-2461.

        [14] 周自斌.基于互聯(lián)網(wǎng)的智能英語聽寫系統(tǒng)設(shè)計[J].安徽科技學院學報,2013,27(5):60-62.

        [15] 鄭璇.加快推進中國手語翻譯的職業(yè)化——基于新型冠狀病毒肺炎疫情的思考[J].殘疾人研究,2020(1):24-32.

        [16] 潘浩.基于微信小程序的智能配送系統(tǒng)的設(shè)計與實現(xiàn)[J].微型電腦應(yīng)用,2019,35(7):31-33.

        【通聯(lián)編輯:謝媛媛】

        猜你喜歡
        機器視覺
        基于芯片點膠系統(tǒng)的視覺檢測技術(shù)研究
        全自動模擬目標搜救系統(tǒng)的設(shè)計與實現(xiàn)
        基于機器視覺的自動澆注機控制系統(tǒng)的研究
        科技視界(2016年26期)2016-12-17 17:31:58
        機器視覺技術(shù)的發(fā)展及其應(yīng)用
        科技視界(2016年25期)2016-11-25 19:53:52
        視覺拉線檢測器的設(shè)計與實現(xiàn)
        科技視界(2016年25期)2016-11-25 09:27:34
        大場景三維激光掃描儀在研究生實踐教學培養(yǎng)中的應(yīng)用
        基于機器視覺的工件鋸片缺陷檢測系統(tǒng)設(shè)計
        軟件工程(2016年8期)2016-10-25 15:55:22
        基于機器視覺技術(shù)的動態(tài)“白帶”常規(guī)檢測系統(tǒng)的開發(fā)
        科技視界(2016年20期)2016-09-29 11:11:40
        對激光切割機的改進
        科技視界(2016年6期)2016-07-12 09:12:40
        人工智能在高校圖書館的預(yù)期
        科技視界(2016年15期)2016-06-30 19:03:30
        欧美日韩区1区2区3区| 午夜福利视频男同女同| 无码在线观看123| 亚洲国产剧情在线精品视| 性感人妻中文字幕在线| 日本黄色一区二区三区| 国产偷国产偷亚洲综合av| 自拍偷拍另类三级三色四色| 在线观看国产自拍视频| 国产激情视频在线观看大全 | 蜜桃av噜噜一区二区三区9| 男女18禁啪啪无遮挡激烈网站| 岳毛多又紧做起爽| 天天躁日日躁狠狠躁人妻| 久久精品国产丝袜| 亚洲av中文无码乱人伦在线咪咕| 亚洲一区视频中文字幕| 日韩高清不卡一区二区三区| 中文字幕在线观看| 亚洲精品国产av天美传媒| 一个人在线观看免费视频www| 99精品成人片免费毛片无码| 激情人妻网址| 少妇人妻精品一区二区三区视| 青青草手机在线免费观看视频| 亚洲午夜成人精品无码色欲 | 亚洲一区不卡在线导航| 国产丝袜爆操在线观看| 边添小泬边狠狠躁视频| 久久久久亚洲av无码专区首jn| 亚洲国产理论片在线播放| 久久国产影视免费精品| 日本一区二区高清视频在线播放| 久久热免费最新精品视频网站| 丰满少妇弄高潮了www| 男女性高爱潮免费网站| 综合网自拍| 99热这里只有精品久久6| 亚洲精品综合一区二区| 久久婷婷色香五月综合缴缴情 | 国产在视频线精品视频www666|