亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度卷積網(wǎng)絡(luò)的司機(jī)嘴部異常檢測①

        2022-01-06 08:05:10博,
        關(guān)鍵詞:嘴部編碼器人臉

        壽 博, 朱 明

        (中國科學(xué)技術(shù)大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院, 合肥 230026)

        1 引言

        隨著我國經(jīng)濟(jì)的平穩(wěn)發(fā)展, 交通基礎(chǔ)設(shè)施的不斷完善, 人民的物質(zhì)生活水平的不斷提高, 自駕出行成了越來越多人選擇的交通方式.汽車行業(yè)得以迅猛發(fā)展的同時(shí)也帶來了交通事故頻發(fā)的安全問題.

        異常駕駛, 是指一切與正常駕駛行為不同的駕駛行為, 包括所有分散正常駕駛注意力的所有行為, 通常包括打電話, 喝水, 抽煙等行為.由于打電話, 喝水, 抽煙等行為導(dǎo)致駕駛員在駕駛時(shí)注意力難以集中, 此時(shí)遇到突發(fā)狀況, 駕駛員會(huì)出現(xiàn)反應(yīng)不及時(shí)甚至陷入呆滯與慌亂, 以至于出現(xiàn)判斷失誤以及操作失誤, 造成交通事故.然而駕駛員的異常駕駛行為是可控的, 因此準(zhǔn)確并且快速地檢測出駕駛員的異常駕駛行為, 可以有效地保障司機(jī)的出行安全, 長期還能讓司機(jī)養(yǎng)成規(guī)范駕駛的好習(xí)慣.

        目前的基于視頻監(jiān)控的異常駕駛檢測技術(shù)主要分為以下3類: 第1類是使用圖像特征分析的方法, 這類方法往往使用圖像處理技術(shù)直接分析圖片本身特征,比如膚色, 邊緣, 紋理等特征來判斷駕駛員是否存在異常行為[1-3].這類方法往往著眼于像素單位, 對采集到的圖片清晰度要求很高, 優(yōu)點(diǎn)在于計(jì)算簡單, 檢測速度快, 但是容易受到光線的干擾, 魯棒性不高, 適合作為異常檢測的輔助手段.第2類是基于有監(jiān)督學(xué)習(xí)的方法, 這類方法往往都有分類具體、標(biāo)簽明確的異常動(dòng)作圖片來做訓(xùn)練集, 研究的主要目標(biāo)也都局限在檢測訓(xùn)練過的異常動(dòng)作上[4-6].這種方法的缺點(diǎn)在于魯棒性較差, 不能檢測出訓(xùn)練集之外的異常駕駛行為, 往往只能檢測某種單一的異常駕駛行為, 而且缺乏足夠的訓(xùn)練集來訓(xùn)練.第3類是基于無監(jiān)督學(xué)習(xí)的方法, 這類方法一般只需要正常駕駛的圖片來訓(xùn)練, 模型的目標(biāo)是篩選出所有與正常樣本不同的數(shù)據(jù)樣本點(diǎn), 也可以看作是一種單分類算法[7].這類方法的優(yōu)點(diǎn)在于對未知的異常行為檢測魯棒性較高, 但是檢測效果沒有有監(jiān)督的分類檢測方法好.基于以上問題, 本文提出了一種基于深度多尺度卷積網(wǎng)絡(luò)的駕駛員嘴部異常檢測算法, 該算法先通過人臉關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)多任務(wù)級(jí)聯(lián)卷積網(wǎng)絡(luò)(Multi-Task cascaded Convolutiona Neural Network,MTCNN)[8]來提取駕駛員人臉附近的異常高發(fā)區(qū)域,然后針對這一區(qū)域設(shè)計(jì)了改進(jìn)后的卷積自編碼器(Convolutional Auto-Encoder, CAE)網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練并檢測嘴部區(qū)域發(fā)生的任何異常行為.

        本文貢獻(xiàn)如下: (1)在傳統(tǒng)的CAE算法上做出3點(diǎn)改進(jìn): 1)編碼器端加入多尺度卷積結(jié)構(gòu), 并且實(shí)驗(yàn)調(diào)優(yōu)了多尺度卷積分支通道比例, 使得模型能夠更好地?cái)M合輸入圖片特征; 2)加入skip connect結(jié)構(gòu), 使模型能夠更好地重構(gòu)圖片; 3)訓(xùn)練時(shí)加入噪聲, 使得模型檢測的魯棒性大大提高.(2)使用RGB攝像頭拍攝并建立了司機(jī)異常駕駛數(shù)據(jù)集.

        2 相關(guān)工作

        2.1 人臉關(guān)鍵點(diǎn)檢測

        因?yàn)樗鶛z測的異常發(fā)生區(qū)域都與人臉呈高度相關(guān),所以我們首先需要對駕駛員面部區(qū)域做實(shí)時(shí)定位, 再根據(jù)人臉關(guān)鍵點(diǎn)位置, 得到相對原圖較小的嘴部區(qū)域圖片(如圖1所示), 通過這種方式可以減少大部分背景的干擾, 有利于提高檢測異常準(zhǔn)確度.

        圖1 嘴部區(qū)域提取

        對于人臉關(guān)鍵點(diǎn)檢測, 我們使用了MTCNN模型進(jìn)行識(shí)別[8].MTCNN是2016年中國科學(xué)院深圳研究院提出的用于人臉檢測任務(wù)的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型,該模型主要采用了3個(gè)級(jí)聯(lián)的網(wǎng)絡(luò), 采用候選框加分類器的思想, 進(jìn)行快速高效的人臉檢測.對于給定的一張包含人臉的原始圖片, 經(jīng)過MTCNN網(wǎng)絡(luò)處理, 最終輸出人臉框和人臉的5個(gè)特征點(diǎn), 包括左眼、右眼、鼻子、嘴唇和左右嘴角的坐標(biāo)信息, 通過這些信息能得到待檢測的嘴部區(qū)域.

        2.2 Autoencoder

        Autoencoder, 自編碼器是傳統(tǒng)的無監(jiān)督學(xué)習(xí)算法,它嘗試學(xué)習(xí)一個(gè)重構(gòu)輸入的函數(shù).Autoencoder接收一個(gè)輸入向量x∈Rd然后先將這個(gè)輸入向量通過非線性函數(shù)式(1)映射到一個(gè)向量h∈Rd′, 通常d<d′,h也被稱為隱藏層表示.函數(shù)σ被稱為編碼器, 其參數(shù)θ包括權(quán)重W, 偏置b.

        解碼器將隱藏層表示h作為輸入, 通過反向映射函數(shù)式(3)得到重構(gòu)向量y, 其中y與x維度一致.

        編碼器與解碼器的參數(shù) θ ,θ′通過優(yōu)化目標(biāo)函數(shù)使得重構(gòu)誤差最小而得到, 訓(xùn)練集為Dn, 其中xn表示輸入信號(hào),yn表示重構(gòu)信號(hào), 如式(5)、式(6)所示.損失函數(shù)L可以選擇均方誤差函數(shù)、聯(lián)合熵等常見損失函數(shù).通過訓(xùn)練后的自編碼器能夠通過計(jì)算輸入與輸出的重構(gòu)誤差來檢測與訓(xùn)練數(shù)據(jù)不同的數(shù)據(jù), 即能檢測異常數(shù)據(jù).

        傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)自編碼器由全連接層組成, 忽略了二維圖像結(jié)構(gòu), 而CAE使用卷積神經(jīng)網(wǎng)絡(luò)代替全連接層, 使得網(wǎng)絡(luò)的權(quán)重在輸入的所有位置之間共享, 保留了空間信息.CAE的編碼器映射函數(shù)如式(7)所示,hk表示第k個(gè)特征圖的隱藏層輸出, *表示2D卷積操作, σ表示非線性激活函數(shù),wk表示卷積網(wǎng)絡(luò)的權(quán)重, 單一偏置bk被整個(gè)特征圖共同使用.

        傳統(tǒng)的Autoencder模型分類中有一類編碼器被稱為降噪自編碼器(Denoising Auto-Encoder, DAE)[10].和自編碼器不同的是, 降噪自編碼在訓(xùn)練過程中, 輸入數(shù)據(jù)是訓(xùn)練數(shù)據(jù)和噪聲的疊加, 即相當(dāng)于輸入數(shù)據(jù)被人為地“損壞”, 如式(9)所示降噪自編碼器的編碼器與式(1)不同, 輸入為x+x′, 解碼器與loss function均與式(3)、式(5)相同.x′即為噪聲, 通常使用服從標(biāo)準(zhǔn)正太分布的隨機(jī)噪聲, 其一維概率密度如式(10)所示.降噪編碼器的核心思路是一個(gè)能夠?qū)⒈弧皳p壞”的數(shù)據(jù)恢復(fù)正常的自編碼器比一個(gè)只能從正常數(shù)據(jù)恢復(fù)出正常數(shù)據(jù)的自編碼器優(yōu)秀, 即降噪自編碼器能夠找到訓(xùn)練數(shù)據(jù)更好地表示特征.從信息論的角度解釋即有噪聲的數(shù)據(jù)轉(zhuǎn)變成無噪聲數(shù)據(jù), 訓(xùn)練過程中信息量增大, 即降噪編碼器隱藏層中保留了更多信息.

        3 算法

        3.1 算法框架

        本算法由人臉關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)MTCNN和改進(jìn)后的CAE組成, 如圖2所示, 由MTCNN檢測人臉框和人臉關(guān)鍵點(diǎn)信息進(jìn)而得到嘴部區(qū)域圖片, 然后將嘴部區(qū)域圖片作為輸入, 改進(jìn)后的CAE模型重構(gòu)嘴部區(qū)域圖片, 通過計(jì)算重構(gòu)誤差, 最終輸出嘴部區(qū)域是否存在異常.改進(jìn)后的CAE框架結(jié)構(gòu)如圖3所示, 模型的輸入為1×128×128的灰度圖片X_input, 經(jīng)過7次多尺度卷積下采樣(灰色背景框內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)重復(fù)3次), 得到512×1×1的隱藏層特征表示, 再經(jīng)過7次反卷積上采樣得到1×128×128的重構(gòu)圖片, 模型的結(jié)構(gòu)細(xì)節(jié)如表1所示.

        表1 模型結(jié)構(gòu)細(xì)節(jié)

        圖2 算法整體框架

        圖3 Multi-Scale Skipconnect Denoising CAE

        3.2 多尺度卷積和池化層

        為了提高對不同尺度的異常物體(如圖4所示)的檢測成功率, 受到GoogLeNet網(wǎng)絡(luò)[11]的啟發(fā), 本文對編碼器的單層卷積網(wǎng)絡(luò)采用了與Inception相似的結(jié)構(gòu), 融合了4種不同尺度的卷積核, 能夠找到更優(yōu)化的局部特征與全局特征.

        圖4 嘴部區(qū)域異常示例

        單層卷積和池化結(jié)構(gòu)如圖5所示, 由4種卷積和池化層concat而成, 分別為2×2 MaxPooling層接1×1卷積層; 1×1卷積層接3×3卷積層; 1×1卷積層接兩個(gè)3×3卷積層; 1×1卷積層接3個(gè)3×3卷積層, 后面3個(gè)分支再接2×2 MaxPooling層.兩個(gè)3×3卷積的堆疊與一個(gè)5×5卷積的感受野相同, 3個(gè)3×3卷積的堆疊與一個(gè)7×7卷積的感受野相同, 利用這種方式既可以減少網(wǎng)絡(luò)的權(quán)重參數(shù), 又可以增加網(wǎng)絡(luò)的深度, 從而更好地提取特征[12,13].

        如圖3所示, 在編碼器的7次下采樣中, 每一層的Inception結(jié)構(gòu)都需要確定圖5中從左到右4種分支的通道比例.經(jīng)過筆者的不斷調(diào)參實(shí)驗(yàn), 最終確定的Inception分支通道比例如表2所示.前兩層分支通道比例為4:2:1:1, 后5層分支通道比例為1:1:1:1, 實(shí)驗(yàn)結(jié)果表明在較底層下采樣時(shí)適當(dāng)增加1×1分支和3×3分支的比例能夠更好提高的異常檢測效果, 原因在于這種通道比例能夠更細(xì)致的刻畫輸入圖片的局部特征.

        圖5 編碼器單層卷積池化結(jié)構(gòu)

        表2 Inception 分支通道比例

        3.3 Skip connect 結(jié)構(gòu)

        為了更好的重構(gòu)圖片X_rec, 受到U-net網(wǎng)絡(luò)[14]的啟發(fā), 我們在多尺度卷積自編碼器的基礎(chǔ)上, 加入skip connect結(jié)構(gòu).如圖3所示, 在編碼器網(wǎng)絡(luò)中, 每一次下采樣得到的Feature Map都傳遞到相對應(yīng)解碼器網(wǎng)絡(luò)層, 解碼器網(wǎng)絡(luò)每一次上采樣時(shí)都在原有的輸入中疊加由編碼器傳遞的Feature Map.例如, 第1層下采樣輸出Feature Map為64×64×64, 與之對應(yīng)的第7層上采樣的輸入Feature Map大小為64×64×64, 兩者疊加成大小為128×64×64的Feature Map進(jìn)行第7層上采樣操作.由于從低層到高層都加入了skip connect 結(jié)構(gòu),輸入圖片的全局特征和局部特征都得到了更好的保留.

        3.4 激活函數(shù)和目標(biāo)函數(shù)

        解碼器與編碼器每層卷積與反卷積之后都有激活函數(shù), 編碼器采用的激活函數(shù)為LeakyReLU, 解碼器的最后一層的激活函數(shù)為tanh, 其他層的激活函數(shù)為ReLU.

        ReLU數(shù)學(xué)表達(dá)式如式(11)所示, 當(dāng)輸入值為負(fù)時(shí)輸出0,LeakyReLU數(shù)學(xué)表達(dá)式如式(12)所示, 輸入值為負(fù)時(shí)輸出ax, 系數(shù)a選定為0.2, tanh數(shù)學(xué)表達(dá)式如式(13)所示, 將網(wǎng)絡(luò)的輸出映射到[-1,1].解碼器輸出與輸入圖像維度相同的單通道矩陣.如式(14)所示, 目標(biāo)函數(shù)L為L1 Loss, label值xi,j與輸入矩陣相同,xi,j′表示重構(gòu)矩陣的值,m和n表示圖像矩陣的行和列.

        4 實(shí)驗(yàn)分析

        4.1 數(shù)據(jù)集

        本文采用的數(shù)據(jù)集是筆者自己采集的數(shù)據(jù)集.采集裝置在車輛駕駛室正前方如圖6所示.筆者使用1280×720分辨率的RGB攝像頭拍攝了一個(gè)數(shù)據(jù)集,整個(gè)數(shù)據(jù)集采集了10個(gè)人的行車視頻錄像, 每人采集兩段視頻, 第一段正常駕駛視頻, 時(shí)長20 min, 從中分別抽取了4000幀圖片, 再使用MTCNN檢測人臉區(qū)域得到嘴部區(qū)域, 剔除成像質(zhì)量過差和人臉檢測失敗的圖片, 最終獲得3600幀嘴部區(qū)域圖片, 最后resize到128×128大小, 用于模型的訓(xùn)練.第二段視頻每隔30 s做出抽煙, 喝水, 打哈欠, 吃食物等任意異常行為, 時(shí)長10 min, 用同樣的方法得到了600幀正常駕駛的嘴部區(qū)域圖片和600幀嘴部區(qū)域異常圖片, 用于測試模型的檢測效果.最終從所有視頻中獲取了48 000張圖片, 其中75%用于訓(xùn)練, 25%用于測試.

        圖6 數(shù)據(jù)集采集裝置

        4.2 實(shí)驗(yàn)過程

        筆者在只含有正常駕駛圖片的訓(xùn)練集上訓(xùn)練模型,在既含有異常駕駛圖片又含有正常駕駛圖片的測試集上評價(jià)模型.評價(jià)的標(biāo)準(zhǔn)為AUC, AUC被定義為ROC(Receiver Operating characteristic Curve)曲線下與坐標(biāo)軸圍成的面積, 其值越大表示分類效果越好.其中ROC曲線是根據(jù)一系列不同的閾值, 以真陽性率(True Positive Ratio, TPR)為縱坐標(biāo), 假陽性率(False Positive Ratio, FPR)為橫坐標(biāo)繪制的曲線.本模型的閾值即為圖片的重構(gòu)誤差, 計(jì)算方式為L1 Loss (式(12)), 值越大代表異常的可能性越高.如圖3所示, 訓(xùn)練時(shí)輸入疊加了一個(gè)與輸入矩陣相同大小的服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)噪聲, 用以提高模型檢測的魯棒性.學(xué)習(xí)率設(shè)置為0.002, 訓(xùn)練的epoch為20, 為了防止過擬合的發(fā)生, 當(dāng)訓(xùn)練過程中Loss不再下降, 立刻停止訓(xùn)練, 記錄此前的best AUC作為實(shí)驗(yàn)結(jié)果.

        4.3 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證提出的改進(jìn)方法的效果, 筆者做了模型自身的縱向?qū)Ρ葘?shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如表3所示, 可以看到每處改進(jìn)對實(shí)驗(yàn)結(jié)果的提升.表中CAE為與模型結(jié)構(gòu)相似的卷積自編碼器, 其中解碼器完全一致, 編碼器用kernel_size=4, stride=2, padding=1卷積代替原模型的Inception操作.表中Inception(Mix raito)即為表2所示的最佳分支通道比例.

        表3 縱向?qū)Ρ葘?shí)驗(yàn)結(jié)果

        為了驗(yàn)證此模型的有效性, 筆者也與其他無監(jiān)督檢測方法做了橫向?qū)Ρ葘?shí)驗(yàn), 結(jié)果如表4所示, 可以看到模型的異常檢測結(jié)果優(yōu)秀.

        表4 橫向?qū)Ρ葘?shí)驗(yàn)結(jié)果

        以約登指數(shù)尋找最佳ROC曲線閾值, 既尋找ROC曲線上橫坐標(biāo)與縱坐標(biāo)差異最大的點(diǎn), 以這一點(diǎn)的閾值t作為分類標(biāo)準(zhǔn), 重構(gòu)誤差小于t視為正常駕駛, 重構(gòu)誤差大于t視為異常駕駛.以檢測異常駕駛作為True Positives, 在12 000張測試圖片上實(shí)驗(yàn)檢測效果, 給出實(shí)驗(yàn)結(jié)果的混淆矩陣如表5所示.

        表5 實(shí)驗(yàn)結(jié)果的混淆矩陣

        4.4 算法時(shí)間復(fù)雜度分析

        模型使用如表6所示的配置機(jī)器上訓(xùn)練, 為了證明該算法的實(shí)際應(yīng)用效果, 筆者將訓(xùn)練好的模型布置在嵌入式開發(fā)板NVIDIA Jetson TX2 (配置見表7)上測試檢測異常所需時(shí)間, 訓(xùn)練用時(shí)和測試用時(shí)見表8、表9所示, 在嵌入式系統(tǒng)上檢測異常的幀率達(dá)到了3.38 fps, 基本滿足檢測需求.

        表6 訓(xùn)練所用機(jī)器配置表

        表7 NVIDIA Jetson TX2配置

        表8 訓(xùn)練模型時(shí)間復(fù)雜度分析 (Frame=36 000)

        表9 模型檢測時(shí)間復(fù)雜度分析 (Frame=12 000)

        5 結(jié)束語

        本文提出了一種基于多尺度卷積自編碼器的駕駛員嘴部異常檢測方法, 在檢測之前先利用人臉關(guān)鍵點(diǎn)檢測方法MTCNN篩選嘴部區(qū)域, 然后使用改進(jìn)后的CAE進(jìn)行異常檢測, 實(shí)驗(yàn)表明加入多尺度卷積結(jié)構(gòu)并優(yōu)化分支通道比例、加入skip connect結(jié)構(gòu)、訓(xùn)練時(shí)加入隨機(jī)噪聲等改進(jìn)方法能夠顯著提高異常檢測效果;與其他無監(jiān)督檢測算法相比, 本文提出的算法表現(xiàn)優(yōu)異; 在嵌入式開發(fā)平臺(tái)NVIDIA Jetson TX2上的算法復(fù)雜度實(shí)驗(yàn)表明該算法具有實(shí)際應(yīng)用價(jià)值.

        猜你喜歡
        嘴部編碼器人臉
        有特點(diǎn)的人臉
        此人為何杠得如此囂張?
        圓號(hào)教學(xué)中嘴部教學(xué)的重要性及訓(xùn)練方法研究
        黃河之聲(2020年19期)2020-12-07 18:32:31
        高中素描頭像教學(xué)中提高嘴部刻畫能力的策略探究
        三國漫——人臉解鎖
        基于FPGA的同步機(jī)軸角編碼器
        基于Horn-Schunck光流法的多目標(biāo)反芻奶牛嘴部自動(dòng)監(jiān)測
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        馬面部與人臉相似度驚人
        爱情岛永久地址www成人| 久久综合九色综合97婷婷| av无码国产精品色午夜| 亚洲精品无码久久久久秋霞| 中文字幕经典一区| 亚洲综合天堂av网站在线观看| 国产精品一区二区av麻豆日韩| 美女张开腿让男人桶爽| 久久夜色撩人精品国产小说| 日韩精品极品免费观看| 免费人成视频欧美| 中文字幕有码久久高清| 青青草原亚洲| 亚洲综合一区无码精品| 久天啪天天久久99久孕妇| 99久久精品人妻少妇一| 欧美性猛交xxxx乱大交极品| 亚洲熟妇自偷自拍另欧美| 成年男女免费视频网站| 久久免费网站91色网站| 亚洲女同恋av中文一区二区| 一本色道无码道dvd在线观看| 国产亚洲精品bt天堂| 丰满人妻无套内射视频| 国产亚洲欧美精品永久| 日本熟妇人妻xxxxx视频| 精品一二区| 人妻少妇被粗大爽视频| 久久99精品久久久久麻豆| 色八a级在线观看| 国产桃色在线成免费视频| 日韩一区三区av在线| 日本少妇浓毛bbwbbwbbw| 国产av日韩a∨亚洲av电影| 日本一区二区三区中文字幕最新| 国产中文字幕一区二区视频| 草草地址线路①屁屁影院成人| 7878成人国产在线观看| 亚洲中文字幕高清视频| 亚洲国产精品18久久久久久| 一本之道高清无码视频|