亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于駕駛員視覺與語音的多模態(tài)情感特征識別系統(tǒng)應用研究

2024-12-31 00:00:00張瑞宏

中國新通信 2024年8期

摘要：導致交通事故的主要原因之一中疲勞駕駛占比非常高，為了能夠檢測駕駛員的疲勞駕駛狀態(tài)，以駕駛員的眼動行為模擬性和隨機性的特點，使用不確定性云模型實現(xiàn)數(shù)據(jù)處理，對駕駛員疲勞情況進行檢測，實現(xiàn)疲勞預警系統(tǒng)的創(chuàng)建。該系統(tǒng)通過手動攝像頭對駕駛員面部數(shù)據(jù)進行收集，利用人臉人眼的定位計算眨眼時間的均值。通過這個值，可以相對準確地判斷駕駛員的疲勞程度。疲勞檢測模塊將收集到的數(shù)據(jù)輸入系統(tǒng)，并根據(jù)預設的規(guī)則進行判斷。一旦發(fā)現(xiàn)駕駛員疲勞，系統(tǒng)將立即通過語音和文字提醒進行警示。

關鍵詞：駕駛員視覺；多模態(tài)；情感特征識別

本文針對道路交通事故中大部分是由于疲勞駕駛引發(fā)的問題，設計了一種基于駕駛員疲勞特征識別的系統(tǒng)，以更加全面地分析駕駛員的疲勞狀況。由于駕駛員很難自我察覺到疲勞駕駛的情況，并且這個問題容易被忽視，因此筆者通過識別駕駛員在駕駛過程中出現(xiàn)的直觀疲勞特征，例如打盹、犯困、打哈欠等，來設計這個系統(tǒng)。

該系統(tǒng)運用計算機視覺處理技術(shù)實時監(jiān)測和分析駕駛員的面部表情和動作。通過監(jiān)測顏面的變化、眼睛的狀態(tài)等指標，并結(jié)合人工智能算法對這些數(shù)據(jù)進行綜合判斷，能夠準確識別出駕駛員是否處于疲勞狀態(tài)。一旦系統(tǒng)檢測到疲勞駕駛的特征，將立即通過語音警告提醒駕駛員注意休息，以引起駕駛員的重視并促使其采取行動[1]。

一、多層Boosted HMM多模態(tài)情感識別算法

通過所三個模態(tài)特征數(shù)創(chuàng)建多層Bootted HMM分類器，設計三層總體分類器。利用線性組合設計各層總體分類器，從而使MBHMM分離器的識別率得到提高。利用單一特征訓練分類HMM分類器，三層總體分類器的分量分離器模型通過以下公式表示：

公式中的π為模型初始隱狀態(tài)概率分布，狀態(tài)轉(zhuǎn)移概率矩陣和模型隱狀態(tài)數(shù)分別通過A和N表示，。

概率密度函數(shù)的公式能夠利用混合高速密度函數(shù)表示：

公式中的指的是隱狀態(tài)i的第m個高斯概率密度函數(shù)。

Baum-Welch算法能夠?qū)崿F(xiàn)HMM算法的訓練，對模型參數(shù)最大似然估計進行計算。對算法修改后充分考慮訓練樣本權(quán)重，如果樣本無法進行識別，就要重點進行訓練，以下為修改之后的算法：

算法輸入包括R個訓練樣本xr （1≤r≤R）的樣本集和樣本觀察序列權(quán)重W（r）；

更新之后的等式為：

公式中的Pr為HMM模型中樣本觀察序列xr 的概率。

改進Baum-Welch訓練算法能夠?qū)Φ蠼釮MM分量分類器模型參數(shù)中對各個樣本權(quán)重進行考慮，比較收斂，使訓練對無法識別的樣本進行重視[2]。

二、駕駛員多模態(tài)疲勞特征識別系統(tǒng)的架構(gòu)

（一）駕駛員視覺圖像識別的信息編碼

駕駛員在開車過程中都是利用掃視的方式識別系統(tǒng)中的信息，所以需要對系統(tǒng)信息進行編碼。在信息量比較大的時候，還要分層顯示和邏輯分組，以便駕駛員能夠快速找到所需的信息。多通道顯控系統(tǒng)的生產(chǎn)廠家不同，所以要對不同信號燈含義進行識別。如果駕駛員在駕駛汽車時無法對系統(tǒng)信息進行識別，就會導致交通事故的出現(xiàn)。所以，在設計多通道線控系統(tǒng)的時候要對駕駛員視覺生理特性和信息可識別性進行考慮。其中背景顏色可選擇淡藍色，刻度顏色為黑色，指針和警示的顏色為紅色為宜。

（二）汽車多通道位置的設計

1.對駕駛員眼睛的位置進行判斷。實現(xiàn)駕駛員眼睛模型的創(chuàng)建，從而計算駕駛過程中的視線，在對駕駛視野范圍觀察的時候，可以通過駕駛員方向盤確定，設置汽車多通道顯控整體布局，對坐位進行調(diào)節(jié)后對基準點坐標計算；

2.以駕駛員所移動的視野范圍可以看出來，汽車在行駛中能夠快速的移動，并且能夠全方位的觀察。如果多通道顯控系統(tǒng)為順時針，可以根據(jù)水平方向?qū)π畔⑦M行觀察。

在系統(tǒng)中，駕駛員對于直線輪廓的觀察力比曲線輪廓更加精準。所以，在本文系統(tǒng)設計過程中為左右上方行，顯控系統(tǒng)的識別順序和顯示面板一樣。

在對駕駛員視覺圖像識別系統(tǒng)設計過程中設置儀表，儀表范圍為40° ～60°，視覺范圍為20°～40°。方向盤最高的切點設置為L1，駕駛員和方向盤的切點設置L2，駕駛員的可見范圍為駕駛員視覺圖像識別系統(tǒng)兩條切線的投切范圍。駕駛員視覺圖像識別系統(tǒng)目視距離能夠滿足Henrry DrefDns需求，最佳和最大距離分別設置為550mm、711mm[4]。

三、駕駛員多模態(tài)疲勞特征識別系統(tǒng)的硬件

（一）攝像頭信息采集

利用CMOS攝像頭設計攝像頭模塊，充分考慮主控板USB接口并且進行對比，此種接口在使用過程中更加方便。其次，在調(diào)試PC平臺系統(tǒng)開發(fā)程序時，能夠在PC平臺中設置USB攝像頭，降低了功耗和成本，結(jié)構(gòu)簡單

（二）樹莓派主控板

為了能夠?qū)崿F(xiàn)視覺處理，系統(tǒng)使用樹莓派4B作為主控制板。此主控制板為迷你電腦，包括IO引腳、微控制器、1.5GHz的64位四核處理器、雙顯示屏、雙頻Wifi。布置內(nèi)部環(huán)境，方便燒錄代碼的應用。

（三）語音警告提醒

通過檢測駕駛員的疲勞駕駛狀態(tài)，實現(xiàn)語音警告的發(fā)送。因為樹莓派的功能強大，并且不需要和其他語音模塊相互連接，只需要對汽車藍牙連接。要求錄制一段語音并且在樹莓派中保存，對駕駛員是否疲勞駕駛后播放語言。

（四）顯示屏模塊

通過顯示屏模塊的設計使系統(tǒng)開發(fā)調(diào)試更加的方便，還要觀察系統(tǒng)的檢測功能，使用7寸顯示屏連接micro-HDMI接口。

四、駕駛員多模態(tài)疲勞特征識別系統(tǒng)的軟件

（一）特征提取

此模塊能夠?qū)崿F(xiàn)人臉檢測、眼動參數(shù)計算和人眼定位。

1.人臉檢測

利用AdaBoost算法檢測人臉，基于弱分類器融合思想訓練不同的弱分類器。實現(xiàn)樣本的精準分類，使下次訓練權(quán)值得到降低。如果下次所選擇的分類樣本不精準，權(quán)重會加重。

2.人眼定位

在檢測人臉過程中要定位人眼，主要方式包括粗定位和精準定位兩種?？梢酝ㄟ^人臉“三庭五眼實現(xiàn)粗定位，時。其中和兩種方式以垂直方向分為上中下庭，以水平方向劃分五眼。但在設計系統(tǒng)時，只對左眼進行處理，因此需要更精確的方法來確定人眼的區(qū)域。由此，Adaboost算法自然引入。

3.計算眼動特征

在精準定位人眼時，要對眼動疲勞特征參數(shù)進行計算。per-clos與眨眼時間指的是人眼動的特征參數(shù)，是單位時間內(nèi)眼睛的閉合百分比可以通過per-closh表示，比如EM、P70、P80，其中眼瞼擋住50%瞳孔面積眼睛閉合表示W(wǎng)M，P80表示瞳孔遮擋面積為80%，P70為70%的瞳孔被遮擋。在以上標準中，疲勞狀態(tài)能夠通過p80標準所展現(xiàn)，此計算公式為研究表明：

公式中的f0是指樣本采樣的頻率，通過Tp80表示計算時窗的大小，np是指單位時窗內(nèi)眼睛的閉合程度在80%以上。

（二）疲勞檢測

通過疲勞分類模型和虛擬實驗環(huán)境收集駕駛員在疲勞或者清醒時候的眼動數(shù)據(jù)，并且計算眼睛的眨眼和閉合時間均值，實現(xiàn)二維多規(guī)則定性推理生成器的創(chuàng)建。根據(jù)生成器的輸入值進行輸入，如果輸出期望在1.5以上，說明疲勞狀態(tài)。在模擬駕駛員環(huán)境過程中，定性推理生成器的識別率一般設置為73.98%。

（三）疲勞預警

如果疲勞檢測模塊輸出疲勞狀態(tài)時，系統(tǒng)能夠調(diào)用疲勞報警模塊，從而對用戶開展文字或者語音提醒。

五、系統(tǒng)的實現(xiàn)

（一）實驗環(huán)境

將PC機作為實驗硬件環(huán)境，Win10作為操作系統(tǒng)。將多模態(tài)音頻情感數(shù)據(jù)庫作為基礎，數(shù)據(jù)庫中包括大量的音頻和視頻序列。對于語音信號來說，通過轉(zhuǎn)換得到梅爾倒譜圖，利用PCA實現(xiàn)降維。

（二）實驗方案

本文利用不同實驗方案評價設計有效性：其一，消融實驗。針對多模態(tài)或者單模態(tài)實現(xiàn)情感識別實驗，判斷驗證特征重構(gòu)方法的有效性；其二，情感識別率。能夠分析系統(tǒng)的性能；其三，對比實驗。有效驗證決策層的融合方法。

（三）實驗結(jié)果

1.消融實驗

針對單模態(tài)情感識別率，語音識別率比視覺圖像識別率要高，主要是因為語音特征提取的方法比視覺特征提取要優(yōu)。對于重構(gòu)模態(tài)決策層的融合識別率，與原始識別率的差別并不大，表示此種重構(gòu)的方法效果良好，具有較高的最小值規(guī)則決策層融合的情感識別率。

2.對比實驗

通過語音視覺情感識別結(jié)果對比此表示，基于決策層規(guī)則融合方法的識別效果良好，也驗證了決策層融合方法的有效性。

3.性能分析

融合后模型能夠提高不同的情感識別率，由于語音特征和視覺特征兩者互補，單模態(tài)時并沒有明顯的情感特征，降低了類別識別效果。所以和另外一個模態(tài)結(jié)合應用，如果新模態(tài)具有明顯的情感特征效果，使類別會兒率得到提高。

（1）單模態(tài)情感識別

其中hate和afraid會降低識別率，一般使用sad、angry、happy等提高識別率，主要是由于兩者并沒有明顯的情感特征；

（2）多模態(tài)情感識別

通過融合決策層使afraid情感識別率得到提高，如果出現(xiàn)悲傷、恐懼等情感的時候會提高情感識別的復雜度，從而降低多模態(tài)的識別方法效率。利用最小值規(guī)則決策層融合的方法，提高情感識別效果；

（3）重構(gòu)多模態(tài)

具有一樣的多模態(tài)情感識別結(jié)果，重構(gòu)模態(tài)識別效果比較大，主要是由于本文重構(gòu)模態(tài)特征無法完全代替原本模態(tài)特征。

六、結(jié)束語

本文所設計的系統(tǒng)是將樹莓派實現(xiàn)數(shù)據(jù)信息處理核心，在實時監(jiān)測駕駛員圖像信息的過程中，可以通過攝像頭實現(xiàn)，提取人像特征或者圖像預處理。在提取駕駛員頭部、嘴部、眼部等特征之后，對駕駛員的狀態(tài)進行判斷，包括是否出現(xiàn)打哈欠、犯困等情況，針對此種情況開展預警告。本文系統(tǒng)的設計比較簡單，并且操作方便，使預期目標得到滿足，實用價值比較高。

作者單位：張瑞宏西藏大學

參考文獻

[1]王傳昱，李為相，陳震環(huán).基于語音和視頻圖像的多模態(tài)情感識別研究[J].計算機工程與應用，2021，57（23）：163-170.

[2]李倩倩，王衛(wèi)星，楊勤，等.基于深度學習的視聽多模態(tài)情感識別研究[J].計算機與數(shù)字工程，2023，51（3）：695-699.

[3]龍英潮，丁美榮，林桂錦，等.基于視聽覺感知系統(tǒng)的多模態(tài)情感識別[J].計算機系統(tǒng)應用，2021，30（12）：218-225.

[4]鄔卓恒，趙嘉熙，時小芳.基于BP神經(jīng)網(wǎng)絡的語音情感識別系統(tǒng)分析與設計[J].電腦知識與技術(shù)，2022，18（10）：76-79.