玄玉波, 黃紅艷, 陳玫玫, 趙增君, 姜岳辰
(1.吉林大學(xué)a.通信工程學(xué)院;b.機械與航空航天工程學(xué)院,長春130022;2.石家莊郵電職業(yè)技術(shù)學(xué)院電信工程系,石家莊050031)
隨著5G 時代的來臨,人工智能和虛擬現(xiàn)實技術(shù)正在改變我們的世界。這些技術(shù)中的全景拼接以及圖像深度學(xué)習(xí)是較為先進的圖像處理技術(shù)[1-3]。然而,當前的數(shù)字圖像處理實踐教學(xué),大多還處于傳統(tǒng)的圖像處理階段,如圖像去噪、形態(tài)學(xué)處理、邊緣檢測等[4],學(xué)生對圖像處理的全景拼接和深度學(xué)習(xí)理解和復(fù)現(xiàn)缺少認知[5]。本文開發(fā)了一款圖像處理的嵌入式實驗平臺,并將虛擬現(xiàn)實技術(shù)中的全景拼接、圖像處理中的深度學(xué)習(xí)等應(yīng)用到該平臺中,在開放實驗等實踐課程中增加學(xué)生對這些技術(shù)的直觀認識,培養(yǎng)學(xué)生對當前圖像處理的熱點技術(shù)的興趣和理解。
實驗平臺的設(shè)計考慮到便攜性、高效和低功耗,選用了NVIDIA嵌入式開發(fā)板Jetson TX2 和e-CAM30 高清相機設(shè)計多相機采集系統(tǒng),如圖1 所示。Jetson TX2是一臺模塊化AI 超級計算機,采用新一代NVIDIA PascalTM架構(gòu)GPU。它性能強大,但外形小巧,運算能力相當于頂級的i7CPU,滿足實驗平臺速度需求。e-CAM30_HEXCU TX2 是由e-con Systems公司設(shè)計制作的一種新型MIPI 相機板,支持多種分辨率:640 ×480、1 280 ×720、1 920 ×1 080、2 304 ×1 906,最高達到了2 304 ×1 536。實驗平臺使用了6 個相機使兩兩相機有圖像重疊區(qū)域,滿足全景圖像拼接實驗需求。
圖1 實驗平臺實物圖
相機由SCI異步串行通信方式接入Jetson TX2 主板,傳輸速率為5 GB/s。同時,視場360°,無論目標出現(xiàn)在何處,都會被相機采集到,不必考慮目標的鏡頭切換,可進行被識別的目標推送的實驗設(shè)計。
基于特征的方法是目前全景圖像拼接領(lǐng)域的主要算法,包括特征提取和圖像融合2 個步驟。該算法對于在光照變化、旋轉(zhuǎn)變化、尺度縮放、幾何變形、圖像模糊等情況處理效果較好。其中特征提取的方法主要包括SIFT(Scale Invariant Feature Trans form)算法[6]、角點算法[7]、SURF(Speeded Up Robust Features)算法[8]等。而圖像融合算法主要有像素級、特征級和決策級?;谙袼丶壍亩喾直媛嗜诤鲜菆D像融合中最具潛力的方法,并且具有較高的精度。實驗設(shè)計中采用了SURF算法進行特征匹配和多分辨率融合算法進行全景拼接,拼接效果如圖2 所示。
圖2 不同光照條件下全景拼接結(jié)果
本實驗利用谷歌的開源Objection Detection TensorFlow 框架,使用了卷積網(wǎng)絡(luò)SSD(Single Shot Mulitbox Detector)模型[9]。SSD 是一種基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法,網(wǎng)絡(luò)模型如圖3 所示。在硬件平臺Jetson TX2 板上使用SSD 實現(xiàn)目標識別,得到良好的檢測效果。實驗設(shè)計完成3 個功能:動態(tài)概率打分、坐標標注和智能存儲。
圖3 SSD網(wǎng)絡(luò)模型圖
功能1對識別目標進行動態(tài)概率打分。如圖4所示,對照片目標的識別,對瓶子和人識別概率進行打分,并給出了相應(yīng)百分數(shù)。
功能2設(shè)計了行人坐標標注。圖5 示例了對于person的坐標實時標注,4 個坐標分別是檢測框左、右邊線坐標和上、下邊線坐標(278,431,302,428)。
功能3節(jié)省存儲空間。當視頻畫面中存在行人時,可自動記錄行人的運動視頻,不存在或者行人概率低于50%時不儲存視頻,如圖6 所示。
圖4 動態(tài)概率打分
圖5 坐標標注
多次測試后,對于近距離行人的檢測率超過了98%;遠距離行人也有超過85%的檢測率。而對于非常規(guī)姿態(tài)的行人檢測率保持在70%;50%遮擋的行人檢測率維持在60%左右,基本滿足日常需求。而坐標標注可以保證100%的行人標注率,對于智能存儲上,50%的行人判斷閾值基本可以保證是否出現(xiàn)行人,這兩點輔助功能很好地完成了任務(wù)。此外,在多個相機存在時,也可同時完成識別,如圖7 所示。
圖6 智能存儲
圖7 多相機同時識別
視頻遠程推送由推流端、服務(wù)器、拉流端構(gòu)成。推流端用ffmpeg 完成;服務(wù)器由NGINX +RTMP 模塊完成;拉流端使用網(wǎng)頁Flashplayer 或VLC 軟件完成,如圖8 所示[10]。Jetson TX2 為推流服務(wù)器,只需使終端處于同一局域網(wǎng)內(nèi),輸入rtmp 拉流地址,即可實現(xiàn)識別的視頻在不同終端的遠程觀看[11]。PC 端VLC 拉流播放如圖9 所示,手機端VLC 拉流播放如圖10 所示。在此基礎(chǔ)上,添加短信提醒功能,當監(jiān)控區(qū)域存在行人時,立即向手機發(fā)送短信提醒監(jiān)控者,如圖11所示。
圖8 網(wǎng)頁端播放
圖9 PC端VLC播放
圖10 手機端VLC播放
圖11 短信提醒
關(guān)鍵點檢測由單元模板定位關(guān)鍵點和模板關(guān)系連接關(guān)鍵點組成。通過定位人體關(guān)節(jié),姿態(tài)分析,對出現(xiàn)在視頻中的人進行實時監(jiān)測,如果有異?;蛘呶kU行為,可以及時告知后臺,立刻處理,對看護老人和孩子能起到重要作用。
模板定位由基于darknet 框架的yolov3 關(guān)鍵點檢測實現(xiàn)[12-13];檢測人體關(guān)節(jié)點的地方包括人體的頭、左肘和右肘、左腕和右腕、腰、左肩和右肩、左膝和右膝、左踝和右踝等。在Jetson TX2 上下載好各關(guān)節(jié)部位的FLIC數(shù)據(jù)集,訓(xùn)練出模型參數(shù)后,測試效果如圖12 所示。模板關(guān)系取各模板檢測框中心位置畫出人體骨架,如圖13 所示。
圖12 模板定位
圖13 模板連接
本實驗采用連線間夾角的方法判斷骨架姿態(tài)。計算左右肩關(guān)節(jié)點和左右肘關(guān)節(jié)點、左右肘關(guān)節(jié)點和左右腕關(guān)節(jié)點與水平x 軸的4 個角度,如果小于所設(shè)閾值角度10°,則被判定為T 姿勢,如圖14 所示。關(guān)鍵點識別后的連線效果如圖15 所示。
圖14 T姿勢
圖15 T姿勢識別
若定義一個測試者站馬步的姿勢,計算左右臀關(guān)節(jié)點和左右膝關(guān)節(jié)點、左右膝關(guān)節(jié)點和左右腳踝關(guān)節(jié)點與水平x軸的4 個角度,從而能夠算出膝蓋彎曲角度,如果在所設(shè)閾值角度范圍85° ~100°之間,則被判定為馬步姿勢。與此類似,可定義出其他姿勢的判別辦法。馬步姿勢識別與比心姿勢識別效果分別如圖16、17 所示。
圖16 馬步姿勢識別
圖17 比心姿勢識別
本文設(shè)計了一套新穎的數(shù)字圖像處理實驗平臺,該平臺能完成4 個實驗內(nèi)容,分別是全景拼接、行人檢測、目標推送和關(guān)鍵點檢測。全景拼接得到全景視頻圖像,使用VR眼鏡可以體驗虛擬現(xiàn)實技術(shù),具有較好的沉浸感。行人監(jiān)測和目標推送可以進行智能監(jiān)控,當該場所出現(xiàn)行人時,能及時識別。進而通過開發(fā)遠程推送使得監(jiān)控者能夠在遠程的終端隨時隨地觀看,不必限制于區(qū)域因素。最后一個實驗則是人體不同姿態(tài)的判別。該實驗平臺在我校的開放實驗課程中已經(jīng)投入使用了2 個學(xué)年,具有圖像分辨率高、畫質(zhì)優(yōu)良、功耗低等優(yōu)點。學(xué)生參與的熱情極高,利用這些功能設(shè)計了一些實際應(yīng)用的項目,例如:無人機搜救、無人區(qū)監(jiān)控等。通過這些實驗,學(xué)生們加深了對當前熱點的深度學(xué)習(xí)、全景拼接技術(shù)的理解,切實體會到了這些圖像處理技術(shù)在實際工程中的應(yīng)用。伴隨著以培養(yǎng)創(chuàng)新為導(dǎo)向教育理念,該開放實驗平臺的應(yīng)用體現(xiàn)了對學(xué)生創(chuàng)新思維的鍛煉,充實和開拓了數(shù)字圖像實驗的教學(xué)內(nèi)容。