亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向智能家居設(shè)備控制的多模態(tài)人機智能交互方法

        2021-07-27 09:59:52邵幫麗朱寅朱潤潘晨曦王堅奚雪峰楊顥
        林業(yè)工程學(xué)報 2021年4期
        關(guān)鍵詞:手勢指令語音

        邵幫麗,朱寅,朱潤,潘晨曦,王堅,奚雪峰*,楊顥,2

        (1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009; 2. 蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215009; 3. 昆山市公安局,江蘇 昆山 215300)

        隨著物聯(lián)網(wǎng)的發(fā)展,嵌入式設(shè)備在人們的日常家居生活中得到了廣泛應(yīng)用,人機交互技術(shù)為用戶帶來高質(zhì)量的生活體驗?,F(xiàn)有智能家居人機交互主要借助遙控器或者手機進行紅外遙控,通過按鍵或者觸屏進行操作;還有依托語音助手[1]控制家居設(shè)備,實現(xiàn)非接觸式控制。然而,上述兩種主要控制方式都存在局限性。紅外遙控需要借助第三方移動設(shè)備,增加了故障載體;語音助手的控制方式,同樣依賴第三方移動設(shè)備,并且雖然融入了語音控制的便捷性,但仍存在輸入數(shù)據(jù)來源單一、準確率不高等問題??紤]到目前存在的人機交互方式都是間接控制且存在上述問題,本研究提出一種多模態(tài)融合[2]的方法應(yīng)用于家居設(shè)備中空調(diào)的日常控制。通過語音識別將語音指令轉(zhuǎn)換為文字指令加以理解,并輔于設(shè)定的手勢調(diào)節(jié),不借助其他設(shè)備,僅依賴于用戶語音及手勢特征。

        本研究基于多模態(tài)融合現(xiàn)有的方法以及相關(guān)基礎(chǔ)理論,分析并探討多模態(tài)人機交互方法,并將其應(yīng)用于家居生活中空調(diào)控制系統(tǒng)的構(gòu)建。

        1 相關(guān)理論基礎(chǔ)

        現(xiàn)有的多模態(tài)融合方法可分為模型無關(guān)的方法和基于模型的方法。模型無關(guān)的方法依據(jù)融合的階段可以分為早期融合,即基于特征的融合,在提取特征后立即集成特征[3];晚期融合,即決策級融合方法,在每種模式輸出結(jié)果后才執(zhí)行集成,主要采用如最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學(xué)習等規(guī)則來綜合不同模型輸出的結(jié)果[4];混合融合結(jié)合早期融合和單模態(tài)預(yù)測其輸出,綜合兩者的優(yōu)點,但也帶來了結(jié)構(gòu)復(fù)雜和訓(xùn)練的困難[5]。而利用模型解決融合的方法有核方法、圖模型方法、神經(jīng)網(wǎng)絡(luò)模型方法等[6-7]。結(jié)合視覺和語言的多模式智能應(yīng)用目前頗受關(guān)注的有生成圖片字幕、文字到圖片的生成[8-10]、視覺問答[11]、視覺推理等[12]。

        智能家居的發(fā)展創(chuàng)造出舒適便捷、高效節(jié)能的家居生活環(huán)境,在物聯(lián)網(wǎng)技術(shù)的支持下從窗簾、電視等家電設(shè)備的自動控制,到智能插座、智能門鎖等智能單品的出現(xiàn),再到場景化家居以及安全節(jié)能、家居安防,智能家居解決方案越發(fā)成熟、完善。近期工作有將視覺與語音的多模態(tài)應(yīng)用于智能機器人[13],語言模型選用的最大熵模型,手勢識別部分選用手勢追蹤控制器,但速度與精度還有提升的空間;有基于Android手機手勢和語音的系統(tǒng)[14],分別依賴方向傳感器通過角度來判別方向,以及訊飛語記語音識別器來進行語音識別,由于方向傳感器局限于方向,不能捕捉手勢的細節(jié)動作;此外有應(yīng)用于智能助老助殘系統(tǒng)[15],依賴于第三方語音識別芯片和體感控制器,以此來控制履帶車及機械手。

        手勢識別在人機交互方面的應(yīng)用主要是智能穿戴設(shè)備[16]以及車載場景[17],當駕駛員集中注意力于路面情況時,一些日常操作如接掛電話、調(diào)節(jié)音量、播放暫停音樂等可以通過手勢控制,從而避免視線被轉(zhuǎn)移造成的危險。手勢識別常規(guī)方法是通過手的膚色、形狀[18]、像素值、運動等視覺特征的組合來檢測手部動作,然后進行手勢跟蹤提供手或手指外觀位置的幀間坐標,從而產(chǎn)生手部運動的軌跡以便進行后續(xù)識別[19]。

        語音識別在智能家居中的應(yīng)用以智能音箱為主,在同一局域網(wǎng)內(nèi),智能音箱可以控制多個智能設(shè)備。語音識別本質(zhì)是統(tǒng)計模式識別,依賴于聲學(xué)模型和語言模型兩個模型,前者是文字和拼音的對應(yīng)轉(zhuǎn)換,而后者是字詞在整個句子中出現(xiàn)的概率[20]。

        2 多模態(tài)人機智能交互方法

        本研究所提及的交互方法主要包含3個部分:第1部分首先通過采集數(shù)據(jù)并進行預(yù)處理得到標準化輸入,然后分別使用CNN模型和ResNet模型進行手勢訓(xùn)練;第2部分依次使用LSTM+CTC聲學(xué)模型、N-gram語言模型對語料庫進行訓(xùn)練;第3部分,當鏡頭出現(xiàn)控制手勢時,手勢模型作出識別,提示語音輸入后,語音模型作出識別,此時通過余弦相似度的計算,將語音識別結(jié)果映射到手勢標簽,投票法按權(quán)重對3種結(jié)果計算,得到最終控制指令(圖1)。

        圖1 模塊分析圖

        2.1 方法和原理

        2.1.1 基于機器視覺的手勢識別分析

        實驗中采用羅技B525攝像頭進行圖像信息的采集。首先自定義手勢,在手勢識別中主要捕獲4種靜態(tài)手勢用于模擬家居場景——使用空調(diào)的不同操作,分別定義如下:單手做“OK”的姿勢,如圖2a所示,代表用戶想要打開空調(diào)的操作;單手做“V”的姿勢,如圖2b所示,代表用戶想要提高空調(diào)溫度的操作;單手握拳,如圖2c所示,代表用戶想要降低空調(diào)溫度的操作;五指并攏伸出,如圖2d所示,代表用戶想要關(guān)閉空調(diào)的操作;額外定義一種“nothing”,即不符合以上4種手勢的干擾圖片。

        圖2 采樣手勢

        數(shù)據(jù)預(yù)處理的流程見圖3,首先進行高斯濾波去噪,高斯濾波對噪聲可以起到很好的削弱功效,然后操作膚色分割[21],即對圖像中人體皮膚所在像素區(qū)域進行篩選檢測分離,之后對選中的圖像進行二值化處理,接著對膚色分割殘留的點進行形態(tài)學(xué)處理,先腐蝕后膨脹,最后采用膚色提取輪廓的方法得到標準化輸入。

        圖3 手勢圖片預(yù)處理流程

        膚色分割的方法是基于HSV顏色空間的膚色分割,用建立顏色空間的方式來把手勢完整地分割出來。HSV[22]顏色空間是依照顏色的直觀特性而創(chuàng)建的,用色調(diào)、飽和度、明度來描述顏色。該模式首先獲取手勢框圖,將其轉(zhuǎn)換到HSV空間(圖4);然后獲取圖片每個像素點的HSV值,即將1個二維矩陣拆成3個二維矩陣;最后根據(jù)膚色范圍定義H、S、V值的遮罩,設(shè)置判斷條件,不在膚色范圍內(nèi)把遮罩設(shè)為黑色即可。膚色分割后的效果在圖5處呈現(xiàn),將握拳手勢放置于捕捉窗口中間,ROI窗口顯示處理后得到的手勢。

        圖4 HSV模型

        圖5 Mask模式

        從圖4 HSV模型中可以看出,當不斷增加白色時,參數(shù)V會保持不變而參數(shù)S會不斷減小,因此當光線充足時,此模式非常有效。

        2.1.2 基于機器視覺的手勢識別建模

        本系統(tǒng)手勢識別部分使用的CNN模型見圖6,由輸入層、卷積層、池化層、dropout層、flatten層、全連接層、輸出層構(gòu)成。兩層dropout層用于緩解過擬合,一層flatten層用于連接卷積層和全連接層。

        圖6 CNN網(wǎng)絡(luò)模型示意圖

        數(shù)據(jù)集是手動錄制的,每種手勢,包括nothing,錄制了803張圖片,采用6種數(shù)據(jù)增強方式擴充數(shù)據(jù)集:添加椒鹽、高斯噪聲,降低、提高圖片亮度,以隨機角度旋轉(zhuǎn)以及翻轉(zhuǎn)。最終數(shù)據(jù)集包括28 105張手勢的圖片,每種手勢5 621張,按6∶2∶2的比例來劃分訓(xùn)練集、驗證集、測試集。用該CNN模型訓(xùn)練了15輪,模型訓(xùn)練結(jié)果從圖7可以看出,訓(xùn)練精度與測試精度趨勢相同,收斂時差距較小,其間通過dropout正則化來減少過擬合現(xiàn)象。

        圖7 模型實驗結(jié)果

        ResNet深度殘差網(wǎng)絡(luò),是為解決網(wǎng)絡(luò)層的增加導(dǎo)致訓(xùn)練集準確率下降的問題而被引入的。綜合考慮數(shù)據(jù)集規(guī)模以及訓(xùn)練時間,本研究選擇ResNet50進行手勢的訓(xùn)練,調(diào)用Keras內(nèi)部封裝好的模型,共50層,調(diào)整輸入大小為200×200。由于網(wǎng)絡(luò)層數(shù)較深,訓(xùn)練數(shù)據(jù)復(fù)雜度較小,因此訓(xùn)練輪數(shù)可以適當縮減,表1是訓(xùn)練10輪的情況。測試集上的精度最終達到94.51%。

        表1 ResNet50模型訓(xùn)練情況

        2.1.3 基于聲學(xué)與語言模型的語音識別分析

        語音識別采用清華大學(xué)THCHS30中文語音數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。THCHS30內(nèi)含了1萬余條中文語音文件,總時長超過30 h,采樣頻率為16 kHz,采樣大小為16 bits,是完全免費的。原創(chuàng)錄音于2000—2001年由朱曉燕教授的項目小組完成,起初設(shè)計目的是作為863數(shù)據(jù)庫的補充,盡量提高中文語音的覆蓋率。

        2.1.4 基于聲學(xué)與語言模型的語音識別建模

        聲學(xué)模型選用LSTM+CTC模型。LSTM(long short-term memory,長短期記憶網(wǎng)絡(luò))是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),其核心目的就是解決一般RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長期依賴問題,已被人們所熟知。CTC算法全稱是連接時序分類算法,是一種基于神經(jīng)網(wǎng)絡(luò)的時序分類算法[23]。它可以在輸入輸出序列長度比不定的情況下完成音頻文本的映射。

        語言模型選用了N-Gram模型,本質(zhì)上是一種概率圖模型。核心目標就是得出文本中某個具體句子存在的概率。語言模型的作用就是把字詞解碼成句子,把每一個拼音對應(yīng)到多個漢字,每個漢字一次只讀一個拼音,這樣把拼音和漢字彼此之間的對應(yīng)關(guān)系從左到右連在一起,就有了如圖8所示的有向圖。其中,y1,y2,…,yn是輸入的拼音;w11、w12、w13是y1的候選漢字;w21、w22是y2對應(yīng)的候選漢字。以此類推,計算每一步的概率。通過設(shè)置閾值將概率過低的路徑過濾掉,每走一步就對閾值進行一次冪運算。依次迭代,最終得到比較理想的映射。關(guān)于語音識別模型的訓(xùn)練,由于數(shù)據(jù)集太大,在云端用GPU訓(xùn)練,可選用平臺FloydHub(網(wǎng)址:https://www.floydhub.com/)。

        圖8 拼音轉(zhuǎn)漢字的網(wǎng)格圖

        當前模型在驗證集上的漢語拼音準確率為81.74%,錯誤率為18.26%。最終,對預(yù)設(shè)的4條指令,每條進行了100次的語音識別操作,結(jié)果見表2。其中基本識別是指將“關(guān)閉空調(diào)”指令識別為“關(guān)低空調(diào)”,雖然沒有達到準確識別,但對空調(diào)的操作關(guān)鍵詞比較敏感。本模型基本可以完成對這4條指令的識別,在提高溫度和降低溫度兩指令上的準確度有待提高?;咀R別情況中多數(shù)由“溫”字識別錯誤導(dǎo)致,其錯誤識別為“翁”的概率為74.23%,后續(xù)可以選取更契合的語料庫進行訓(xùn)練。

        表2 語音識別測試結(jié)果

        2.1.5 融合手勢與語音識別的多模態(tài)人機智能交互

        融合模塊中使用的預(yù)測類別方法是集成學(xué)習算法的一種,即投票法。使用投票法來創(chuàng)建強監(jiān)督模型的方法即整合每一種弱監(jiān)督模型的預(yù)測,然后通過投票去預(yù)測分類。這些弱監(jiān)督分類器訓(xùn)練的數(shù)據(jù)集并不相同,彼此之間互不相關(guān)。本次實驗基于該方法,完成預(yù)測手勢識別和語音識別多個分類器結(jié)果加權(quán)投票,得到最終結(jié)果。

        實驗過程中,除了上面所提及的基于HSV顏色空間的膚色分割模式,還增加了基于閾值自適應(yīng)的膚色分割模式。兩者呈現(xiàn)的效果較為不同。圖9中呈現(xiàn)的是握拳手勢在閾值自適應(yīng)模式下的預(yù)測結(jié)果可視化以及關(guān)閉指令在另一種模式下的識別結(jié)果。圖10是兩種模式下nothing指令識別效果,分別是閾值自適應(yīng)模式下3根手指對應(yīng)的預(yù)測標簽、基于HSV顏色空間的膚色分割模式下4根手指對應(yīng)的預(yù)測標簽。閾值自適應(yīng)計算公式為:

        圖10 兩種模式下nothing指令

        (1)

        式中:Gavg為整幅圖的平均灰度級;u[i]為零階矩;v[i]為一階矩,可根據(jù)直方圖計算得到;f[i]是最大類間方差,該方差的灰度值便是自適應(yīng)閾值。

        2.2 試驗結(jié)果與分析

        在得到語音識別所形成的文本結(jié)果后,將文本結(jié)果映射為標簽類型。具體而言,首先將文本結(jié)果轉(zhuǎn)化為詞向量,接著與手勢標簽所對應(yīng)的文本詞向量進行余弦相似度的計算,最終將計算結(jié)果作為語音識別結(jié)果到手勢標簽的映射,參與加權(quán)投票。由于本研究的多模態(tài)包含手勢和語音兩種單模態(tài),并且多模態(tài)兼容單模態(tài)方式,單模態(tài)工作時會有二次驗證,因此投票權(quán)重在多模態(tài)工作下發(fā)揮重要作用。設(shè)置權(quán)重如下:初始情況兩種模態(tài)權(quán)重各占一半;ResNet-50所得到的手勢識別結(jié)果設(shè)置權(quán)重為0.3,CNN所得到的手勢識別結(jié)果設(shè)置權(quán)重為0.2,而將語音識別的結(jié)果權(quán)重設(shè)置為0.5,系統(tǒng)實驗結(jié)果如表3所示。

        表3 融合模塊測試結(jié)果

        從表3中可以看出,對于語音識別結(jié)果來說,正確結(jié)果中有182次能做到完整識別出指令并準確識別,還有57次輸出能識別出指令的含義,但是個別字映射錯誤,并不影響整體結(jié)果,比如錄入指令為“降低溫度”,而識別出“降地溫度”等。對于最終結(jié)果來說,有225次能輸出正確的指令結(jié)果,64次識別出手勢結(jié)果與語音結(jié)果不一致,在投票法的使用下,模態(tài)融合指令結(jié)果都與實際情況相吻合。測試結(jié)果表明,整體系統(tǒng)的準確率高于單獨的手勢識別和語音識別的準確率。

        圖11中手勢識別預(yù)測的是指令“調(diào)高溫度”,語音識別結(jié)果不一致,結(jié)果顯示兩次預(yù)測不一致,在投票法原則下正確識別的結(jié)果對錯誤結(jié)果進行一定程度的糾正,融合兩模態(tài)的結(jié)果,最終結(jié)果為手勢識別的結(jié)果。圖12中手勢預(yù)測為“降低溫度”,是正確指令;語音識別結(jié)果是“占低”,盡管語音識別不能準確識別語音指令,但對指令中的詞有一定的敏感度。

        圖11 預(yù)測不一致的場景案例

        圖12 預(yù)測一致的場景案例

        圖13呈現(xiàn)出來的是手勢與語音互補工作。當環(huán)境比較嘈雜時會影響語音識別效果,此時可采取手勢識別調(diào)控;當光線比較昏暗時,手勢識別會受影響,此時可以采用語音識別調(diào)控。多模態(tài)的融合充分利用了人的肢體靈活性以及手勢等姿態(tài),也因此彌補了環(huán)境復(fù)雜的情況下識別準確率不高的情況,體現(xiàn)了人機交互的友好性。

        圖13 家居適用場景

        2.3 實驗分析

        實驗結(jié)果表明,當手勢識別結(jié)果無誤的時候,即便語音識別結(jié)果模糊,依舊可以通過系統(tǒng)的判斷,得出正確結(jié)果;反之類似。因此可以實現(xiàn)在一種模態(tài)失效的情況下,仍然保持家居設(shè)備能正常使用,體現(xiàn)出了多模態(tài)信息融合的宗旨,提高了整體系統(tǒng)的魯棒性。同時,多模態(tài)的交互方式可以兼容單模態(tài)的存在,若當前只能識別到一種模態(tài),為提高指令準確率,系統(tǒng)會提示二次操作,進行確認。當然,筆者所提出的方法還有很大改進空間,例如,當前手勢指令覆蓋的范圍較小,后期可適當增加設(shè)定的手勢。此外,目前的語料庫與當前使用情景貼合度不夠高;后續(xù)的實驗操作,可考慮自己錄制符合使用情景的語料庫。此外,模態(tài)融合的方法也可以調(diào)整為基于模型的神經(jīng)網(wǎng)絡(luò)模型等方法。

        3 結(jié) 論

        智能家居的發(fā)展得益于技術(shù)的成熟,從智能插座、智能門鎖等到自動開關(guān)衣柜,人機交互的自然程度越來越高。本研究提出并構(gòu)建了一個多模態(tài)的人機自然交互方法,并將其應(yīng)用于家居生活中空調(diào)控制系統(tǒng)構(gòu)建。用戶可以通過本系統(tǒng),采用手勢和語音兩種方式來對空調(diào)下達指令。利用深度學(xué)習技術(shù),把包括語音指令控制、語義理解等的自然語音信號和機器視覺組合到一起,極大提高了智能家居系統(tǒng)中人機交互的自然程度,并且一定程度上增強了用戶體驗度,縮小人機交互的局限性,提升交互的精確性、順暢性和自然性。

        猜你喜歡
        手勢指令語音
        聽我指令:大催眠術(shù)
        挑戰(zhàn)!神秘手勢
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        V字手勢的由來
        ARINC661顯控指令快速驗證方法
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        LED照明產(chǎn)品歐盟ErP指令要求解讀
        電子測試(2018年18期)2018-11-14 02:30:34
        勝利的手勢
        精品国产a∨无码一区二区三区| 亚洲av不卡免费在线| 国自产拍偷拍精品啪啪一区二区| 欧洲成人午夜精品无码区久久| 日韩av在线毛片| 一区二区三区在线观看视频免费 | 日本在线观看| 久久aⅴ无码av高潮AV喷| 成人久久精品人妻一区二区三区| 午夜免费电影| 欧美xxxx黑人又粗又长精品| 久久精品国产乱子伦多人| 视频区一区二在线观看| 免费欧洲毛片a级视频老妇女 | 精品少妇无码av无码专区| 东北无码熟妇人妻AV在线| 免费美女黄网站久久久| 免费视频无打码一区二区三区 | 久久久2019精品视频中文字幕| 91色区在线免费观看国产| 爱性久久久久久久久| 成人a在线观看| 国产精品亚洲av无人区二区| 成年美女黄网站色大免费视频| 久久久久久亚洲精品中文字幕 | 99久久精品费精品国产一区二区| 国产自产av一区二区三区性色| 中文字幕乱码人妻在线| 情人伊人久久综合亚洲| 国产精品二区在线观看| 日本黑人人妻一区二区水多多| 中文字幕亚洲精品一区二区三区| 国产成人av性色在线影院色戒| 色yeye在线观看| 国产精品一区二区三区播放| 亚洲国产精品va在线看黑人| 亚洲阿v天堂网2021| 亚洲一区在线二区三区| 亚洲国产成人精品无码区在线秒播| 亚洲AV无码一区二区三区人| 亚洲麻豆av一区二区|