亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡的嵌入式視覺感知交互系統(tǒng)設計與實現(xiàn)

        2024-01-23 04:00:28王智勇林鴻生周怡伶
        科技創(chuàng)新與應用 2024年3期
        關鍵詞:語音背景卷積

        陶 金,王智勇,林鴻生,周怡伶

        (1.海軍士官學校,安徽 蚌埠 233012;2.92682 部隊,廣東 湛江 524000)

        視覺感知交互系統(tǒng)在民用領域應用廣泛。早期的視覺感知一般是物體探知,如避障拐杖[1]、電子式行進輔具[2]、導盲機器人[3]等,其原理大多都是利用可見光、紅外、聲吶等傳感器進行探測,判斷障礙物的情況,然后通過報警的形式提醒用戶,但隨著AI 技術的進步,僅探測功能并不能滿足“感知”層次的需求,即對環(huán)境與物體的性質(zhì)判斷與屬性解釋。在這方面,語音智能助理發(fā)展較快、應用更廣,語音智能助理主要意義在于解放雙手,語義辨識功能就是感知的直接體現(xiàn)。因循這一思路,可以開發(fā)一種對環(huán)境與物體進行視覺感知,配合輔助語音交互的嵌入式系統(tǒng),具有較強的現(xiàn)實意義和應用前景。

        該系統(tǒng)的開發(fā)需要考慮以下幾個方面。

        1)采集圖像以后,需要判斷圖像中存在哪些目標以及獲取它們的坐標位置。

        2)采用卷積神經(jīng)網(wǎng)絡對不同的目標進行分類識別,并在嵌入3 式平臺上實現(xiàn)。

        3)語音識別如何實現(xiàn)。

        4)語音播放如何實現(xiàn)。

        1 系統(tǒng)硬件設計

        系統(tǒng)以ARM Cortex-A9 處理器為核心,頻率達到650 MHz,片內(nèi)集成了32 KB 指令Cache 和32 KB 數(shù)據(jù)Cache,NEON 媒體處理引擎,非常適合于圖像處理。

        系統(tǒng)構成主要包括語音識別、語音播放、圖形采集、中央處理控制等功能模塊。硬件組成框圖如圖1 所示。由圖1 可看出,語音識別模塊收集語音指令,引導圖像采集模塊完成圖形采集,中央處理控制模塊對采集的圖像數(shù)據(jù)進行計算處理,完成圖像中邏輯目標的分割并智能識別,識別結果通過語音播放模塊輸出給用戶。

        1.1 圖像采集模塊

        考慮到系統(tǒng)使用的是Ubuntu 操作系統(tǒng),圖像采集模塊采用支持UVC 協(xié)議的Rmoncam S907 USB 攝像頭為圖像采集設備。鏡頭焦距為6 mm;輸出分辨率為640×480;像素為130 萬。

        1.2 語音識別模塊

        語音識別目前主要有2 個方案:本地語音識別方案和云端語音識別方案??紤]到云端語音識別需要連接網(wǎng)絡,所以采用本地語音識別方案。識別框架如圖2所示。

        圖2 本地語音識別框架

        1.3 語音播放模塊

        語音播放模塊采用MP3 播放模式,選用型號為BY8301-16P 模塊。該模塊支持MP3、WAV 格式的解碼,內(nèi)部獨立存儲介質(zhì)使用SPI-FLASH,設計安裝功率為3 W 的語音播放驅(qū)動單元。

        2 系統(tǒng)軟件設計

        本系統(tǒng)底層硬件提供驅(qū)動支持、中斷管理、內(nèi)存管理等功能通過嵌入式操作系統(tǒng)實現(xiàn),當系統(tǒng)啟動后,引導程序?qū)硬僮飨到y(tǒng)并初始化各部分硬件,再進入目標分割與識別的主程序。本系統(tǒng)采用Ubuntu 操作系統(tǒng)。系統(tǒng)軟件流程如圖3 所示。

        圖3 系統(tǒng)軟件流程

        本文重點研究其中的目標分割算法[4-10]與目標識別算法[11-13]。

        2.1 目標分割算法

        該算法的主要程序步驟如下。

        1)選擇基于面截塊的圖像分割算法獲取初始化分割截塊R={r1,r2,…,rn}。

        2)將擬合度集合初始化S=?。

        3)計算相鄰分割截塊擬合程度量化值,并將該量化值以元素形式納入擬合度集合S中。

        4)查詢到擬合度集合S中擬合度最大的2 個分割截塊。在此標記為ri和rj,將ri和rj合并成為一個分割截塊,并標記為rt,查詢上一步中所涉及的ri和rj分別相鄰的分割截塊,再次計算獲取擬合度,并將此值從擬合度集合S中剔除;再次計算rt與相鄰分割截塊(即第一步中與ri或rj相鄰的分割截塊)的擬合度,重新將新獲得的計算結果納入擬合度集合S中;最后,將通過合并得到的新分割截塊rt添加到分割截塊集合R中。

        5)逐一提取各分割截塊的邊界矩形,聯(lián)合所有矩形,即可獲得目標物體的概略位置。

        此步的難點在于原始分割截塊的獲取和擬合度的計算。

        2.1.1 原始分割截塊的獲取

        將最小生成樹算法與分割截塊合并方法結合,采用基于自適應閾值的快速最小生成樹分割方法,分別取2 個相鄰分割截塊各自的最大邊權值與閾值求和數(shù),當該分割截塊之間的閾值小于上述數(shù)值使即將此兩分割截塊進行合并處理。

        式中:K為一個常數(shù),|C1|和|C2|為分割截塊C1和C2的二維平面大小,Int(C)為最小生成樹中分割截塊C的最大邊權值。為分割截塊C1和C2邊緣連接指數(shù)的最小權值。

        2.1.2 擬合度的計算

        1)顏色擬合度。為使用高維向量表示每個分割截塊的顏色特征,使用L1 范數(shù)歸一化逐一顏色通道計算獲得圖像的數(shù)值分布直方圖,由于每個顏色通道的直方圖有25 位,因此各分割截塊可得到唯一對應的75 維向量。分割截塊之間顏色擬合度通過下面的公式計算

        合并分割截塊時,新生成分割截塊的直方圖需要重新計算,如下式所示

        2)紋理擬合度。每個顏色通道含8 個不同方向,設方差σ=1,運行高斯微分,獲得10 bins 的分通道單色值直方圖。參照顏色擬合度計算方式運行紋理擬合度計算,新分割截塊紋理特征計算過程亦類似。

        3)二維平面大小擬合度。通過合度方法計算二維平面大小數(shù)值,數(shù)值小的分割截塊優(yōu)先合并

        4)吻合擬合度。取已合并分割截塊Bounding Box值,該值大小對應吻合擬合度低與高,即值越大,吻合擬合度越低,反之越高。

        最后,組合上述各類擬合指標的擬合度計算方式。

        2.2 圖像分類識別算法

        作為最常見的深度學習網(wǎng)絡架構,卷積神經(jīng)網(wǎng)絡在解決圖像目標識別方面具有非常實用和卓越的效果。

        綜合考慮運算速度和識別準確率,本文采用卷積網(wǎng)絡的典型架構。采用的分類網(wǎng)絡結構如圖4 所示。輸入彩色圖像尺寸為32×32×3,卷積層組合(3×3 卷積、3×3 卷積、池化層)重復3 次,2 個全連接層都含有1 024 個神經(jīng)元,輸出層為SVM。其中卷積核大小均為3×3,池化層尺寸為2×2。

        圖4 圖像分類識別網(wǎng)絡結構

        本文采用Cifar-10 和Cifar-100 作為物體識別的數(shù)據(jù)集。從2 個數(shù)據(jù)集中抽取10 個類別的數(shù)據(jù)組成一個新的數(shù)據(jù)集,用于網(wǎng)絡訓練。每個類別抽取600 張圖片,其中500 張為訓練集,100 張為測試集。

        3 實驗結果

        為了驗證本文方法的可行性,作者從網(wǎng)絡上收集了簡單背景的圖片12 張,圖片里共有物體21 個;收集了復雜背景的圖片16 張,圖片里共有物體21 個。

        按照上述方法進行實驗,重點對目標分割算法和圖像分類識別算法進行驗證。目標的分割結果在圖像上以方框來呈現(xiàn),如圖5 所示;目標的識別結果以分類識別的概率大小來呈現(xiàn)。本文對簡單背景和復雜背景下的場景進行實驗,部分實驗對象如圖6 和圖7 所示。簡單背景的實驗結果見表1,復雜背景的實驗結果見表2。

        表1 簡單背景的實驗結果

        表2 復雜背景的實驗結果

        圖5 目標的定位結果

        圖6 簡單背景的部分實驗對象

        圖7 復雜背景的部分實驗對象

        通過實驗,得到如下結論。

        1)簡單背景和復雜背景下,均識別了21 個物體,其中3 個識別錯誤,識別準確率均為85.7%。

        2)圖像分辨率越大,消耗時間越多。

        3)進行物體識別所消耗的時間比較小,適合于應用到嵌入式系統(tǒng)。

        4)復雜背景的圖片要比簡單背景的圖片耗時長。

        4 結論

        本文設計并實現(xiàn)了嵌入式視覺感知交互系統(tǒng),實現(xiàn)了目標圖像的采集、目標的分割、目標的識別以及語音識別、語音播放。針對設計的目標分割定位算法、目標識別算法,本文進行了大量實驗,驗證了系統(tǒng)設計的可行性。下一步研究方向是在嵌入式平臺上采用卷積神經(jīng)網(wǎng)絡實現(xiàn)目標分割,提高分割的準確率及縮短運行時間,達到可以實時處理的水平,并將其應用于一些智能化系統(tǒng)之中。

        猜你喜歡
        語音背景卷積
        “新四化”背景下汽車NVH的發(fā)展趨勢
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        《論持久戰(zhàn)》的寫作背景
        當代陜西(2020年14期)2021-01-08 09:30:42
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于傅里葉域卷積表示的目標跟蹤算法
        晚清外語翻譯人才培養(yǎng)的背景
        日本三级欧美三级人妇视频黑白配 | 亚洲av无码一区二区乱孑伦as| 成人免费毛片内射美女-百度| 亚洲欧美日韩精品久久亚洲区色播 | 天堂中文а√在线| 欧美精品中文字幕亚洲专区| 亚洲电影中文字幕| 国产一区二区三区影片| 护士人妻hd中文字幕| 欧美最猛黑人xxxx| 国产日韩精品中文字无码| 亚洲AV成人无码久久精品在| 亚洲一区二区三区综合网| 精品国产黄一区二区三区| 18岁日韩内射颜射午夜久久成人| 无码人妻精品一区二区三区不卡| 亚洲VA不卡一区| 一区二区三区在线观看视频免费| 一区二区在线观看视频高清| 亚洲中文字幕久久精品蜜桃| 欧美成人片一区二区三区| 在线国产视频精品视频| 青青草久久久亚洲一区| 人妻精品在线手机观看| 国产女厕偷窥系列在线视频| 人妻无码Aⅴ中文系列| 久久色悠悠亚洲综合网| 一本一道久久综合久久| 国产又爽又黄又刺激的视频| 熟妇与小伙子matur老熟妇e | 毛茸茸的中国女bbw| 天堂Av无码Av一区二区三区| 国产午夜精品久久精品| 暖暖 免费 高清 日本 在线| 人妻 日韩精品 中文字幕| 国产视频不卡在线| 亚洲一区二区在线观看av| 亚洲av无码乱码在线观看富二代| 日本精品人妻无码77777| 永久免费毛片在线播放| 精品亚洲av乱码一区二区三区|