亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)YOLOv5的盲人閱讀輔助系統(tǒng)*

        2023-10-23 02:58:34蔡玉樹毛林聰陶雨松
        計(jì)算機(jī)時(shí)代 2023年10期
        關(guān)鍵詞:書本盲人注意力

        蔡玉樹,盧 仕,毛林聰,陶雨松

        (湖北大學(xué)微電子學(xué)院,湖北 武漢 430061)

        0 引言

        作為世界上盲人數(shù)量最多的國(guó)家,我國(guó)盲人的閱讀問(wèn)題一直備受關(guān)注。盲用讀物出版受成本與價(jià)格的限制,每年僅有10種出版物,種類較為匱乏,且盲文圖書館數(shù)量稀少,館藏讀物十分有限,這些導(dǎo)致了盲人用戶的閱讀需求無(wú)法得到滿足[1]。

        近年來(lái),隨著計(jì)算機(jī)軟硬件技術(shù)快速發(fā)展,圖像識(shí)別與可攜帶式智能設(shè)備取得了較大進(jìn)步,繼而盲人閱讀輔助產(chǎn)品及相關(guān)技術(shù)不斷被提出。文獻(xiàn)[2]設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的盲人無(wú)障礙閱讀系統(tǒng),可通過(guò)手勢(shì)控制文本識(shí)別區(qū)域,將識(shí)別到的內(nèi)容進(jìn)行語(yǔ)音輸出,但圖像輸入的操作流程較為繁瑣,系統(tǒng)交互方式對(duì)盲人并不友好;文獻(xiàn)[3]運(yùn)用嵌入式平臺(tái)樹莓派4B,以YOLOv5 為目標(biāo)檢測(cè)算法設(shè)計(jì)了盲人語(yǔ)音助手,在文字識(shí)別前進(jìn)行灰度及縮放等操作,有效提高了印刷文本識(shí)別的準(zhǔn)確率,但是對(duì)于書本版面的捕獲存在不穩(wěn)定性,無(wú)法保障盲人用戶的閱讀體驗(yàn)。其目標(biāo)檢測(cè)采用了較為先進(jìn)的單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5,該網(wǎng)絡(luò)基于前四個(gè)版本的持續(xù)改進(jìn),已經(jīng)具備了良好的目標(biāo)檢測(cè)性能[4]。YOLOv5s作為YOLOv5 五種基礎(chǔ)模型中最輕量化的模型,在COCO2017 數(shù)據(jù)集上mAP@0.5 為56.8%。該模型部署靈活、檢測(cè)準(zhǔn)確,在實(shí)時(shí)對(duì)象檢測(cè)中得到了廣泛應(yīng)用,因此本文采用YOLOv5s作為目標(biāo)檢測(cè)基礎(chǔ)網(wǎng)絡(luò)。

        針對(duì)盲人用戶閱讀紙質(zhì)圖書時(shí)難以校準(zhǔn)書本位置的問(wèn)題,本文采用樹莓派3B搭建了具備書本校準(zhǔn)功能的智能閱讀輔助系統(tǒng),通過(guò)YOLOv5s實(shí)現(xiàn)了書本定位與位置建議;考慮嵌入式平臺(tái)下檢測(cè)速度及可靠性等問(wèn)題,在YOLOv5s 主干網(wǎng)絡(luò)中嵌入ECA 注意力模塊增強(qiáng)檢測(cè)網(wǎng)絡(luò)的特征融合能力,在頸部網(wǎng)絡(luò)采用GSconv實(shí)現(xiàn)輕量化設(shè)計(jì),取得了檢測(cè)精度與速度顯著提升,保證了位置建議算法的可靠性,能夠幫助盲人用戶實(shí)現(xiàn)書本位置的有效校準(zhǔn)。

        1 系統(tǒng)總體設(shè)計(jì)

        本文所設(shè)計(jì)的閱讀輔助系統(tǒng)以視力障礙群體為服務(wù)對(duì)象,以桌面閱讀為應(yīng)用場(chǎng)景,具備書本校準(zhǔn)、文字識(shí)別及語(yǔ)音交互等功能。系統(tǒng)整體設(shè)計(jì)框圖如圖1所示,主控平臺(tái)的控制核心為樹莓派3B,借助攝像頭捕獲桌面圖像,通過(guò)改進(jìn)的YOLOv5s目標(biāo)檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)準(zhǔn)確快速的位置推理,有效反饋位置建議結(jié)果。語(yǔ)音模塊由麥克風(fēng)及揚(yáng)聲器組成,作為盲人用戶的人機(jī)交互終端;云平臺(tái)通過(guò)百度智能云的語(yǔ)音與視覺API構(gòu)建[5],用于實(shí)現(xiàn)語(yǔ)音識(shí)別、語(yǔ)音合成及文字識(shí)別三種基礎(chǔ)功能。

        圖1 系統(tǒng)設(shè)計(jì)框圖

        2 書本校準(zhǔn)原理

        2.1 物體定位系統(tǒng)

        在物體定位系統(tǒng)中,深度學(xué)習(xí)方法采用大量數(shù)據(jù)訓(xùn)練模型,能提取更具魯棒性的特征,克服了傳統(tǒng)的計(jì)算機(jī)視覺易受視點(diǎn)變化及外界環(huán)境影響的缺點(diǎn),在復(fù)雜環(huán)境下依舊表現(xiàn)出色,成為物體定位領(lǐng)域的熱門方法之一[6]。本文選用的YOLOv5s 網(wǎng)絡(luò)模型基于深度學(xué)習(xí)算法,對(duì)于輸入圖像該模型會(huì)框選出感興趣目標(biāo),給出物品類別及選框邊角的圖像坐標(biāo)。為實(shí)現(xiàn)桌面物體的精確定位,需要建立圖像坐標(biāo)與世界坐標(biāo)間的映射關(guān)系矩陣,即完成相機(jī)參數(shù)的標(biāo)定。本文采用DLT 算法[7]完成相機(jī)標(biāo)定,其坐標(biāo)變換圖如圖2 所示,OXYZ 為世界坐標(biāo)系,Ocxyz 為相機(jī)坐標(biāo)系,ouv 為圖像坐標(biāo)系,R為旋轉(zhuǎn)矩陣,T為平移向量。

        圖2 坐標(biāo)變換關(guān)系圖

        圖像坐標(biāo)系與世界坐標(biāo)系存在不同尺度,需要考慮兩者間的尺度變換,兩坐標(biāo)系的尺度系數(shù)λ 通過(guò)去質(zhì)心點(diǎn)集確定,其定義式如下:

        其中,、分別為圖像坐標(biāo)與世界坐標(biāo)下已知的N個(gè)對(duì)應(yīng)點(diǎn)的集合,Pcp、Pcw為對(duì)應(yīng)點(diǎn)集的質(zhì)心。通過(guò)去質(zhì)心坐標(biāo)可構(gòu)造Hankle 矩陣H,對(duì)H 進(jìn)行奇異值分解[8]得到矩陣U、S、V,結(jié)合尺度系數(shù)λ可得旋轉(zhuǎn)矩陣R、平移向量T分別為:

        2.2 位置建議算法

        物體定位結(jié)果顯然無(wú)法通過(guò)定量的方式反饋給盲人用戶,區(qū)域劃分法針對(duì)該問(wèn)題提供了定性的解決方案[9]。本文位置建議算法以選區(qū)劃分法為基礎(chǔ),根據(jù)書本的形貌特征進(jìn)行了特定的區(qū)域劃分,通過(guò)目標(biāo)檢測(cè)網(wǎng)絡(luò)確定書本質(zhì)心位置,計(jì)算其到達(dá)畫面中心的位移量(Δx,Δy),根據(jù)位移量的正負(fù)與大小生成書本校準(zhǔn)的定性建議,指導(dǎo)盲人用戶校準(zhǔn)書本位置,選區(qū)劃分與檢測(cè)示例如圖3所示。書本校準(zhǔn)的目標(biāo)區(qū)域定義為有效區(qū),如圖3(a)中部的深色區(qū)域,當(dāng)書本質(zhì)心移入有效區(qū)后,校準(zhǔn)任務(wù)即為完成,有效區(qū)其寬與高分別為:

        圖3 選區(qū)劃分與檢測(cè)示例

        其中,W為桌面可視區(qū)域的實(shí)際寬度,Wp與Hp分別為書頁(yè)的實(shí)際寬度與高度;S為有效因子,描述了文字區(qū)域?qū)?yè)的占有情況,其定義式如下:

        其中,Hs為版心高度,Hp為書頁(yè)高度。對(duì)于待閱讀書籍,其單張版面由版心與空白兩部分組成,通過(guò)測(cè)量版心高度與書頁(yè)高度可得到有效因子S。

        3 YOLOv5s算法的改進(jìn)

        3.1 GSconv卷積

        在通過(guò)增加模型參數(shù)提升網(wǎng)絡(luò)非線性表達(dá)能力的同時(shí)[10],計(jì)算能耗會(huì)顯著增加。在網(wǎng)絡(luò)模型性能優(yōu)化中有必要采取輕量化設(shè)計(jì)以降低計(jì)算成本,這一點(diǎn)對(duì)于計(jì)算資源有限的嵌入式平臺(tái)尤為重要。深度可分離卷積(DSC)[11]通過(guò)減少模型參數(shù)與浮點(diǎn)運(yùn)算降低計(jì)算成本,但較標(biāo)準(zhǔn)卷積(SC)存在丟失大量通道信息的缺點(diǎn),精度較低。GSConv[12]較DSC 提升了精度,同時(shí)降低了網(wǎng)絡(luò)計(jì)算量,其結(jié)構(gòu)如圖4 所示。該結(jié)構(gòu)將SC 與DSC 結(jié)合,利用concat 將SC 的輸出信息與DSC 的輸出信息進(jìn)行順序拼接,再借助均勻混合策略Shuffle 將拼接特征圖中順序拼接的兩種信息完全均勻地混合,實(shí)現(xiàn)不同通道上特征信息的均勻交換。

        圖4 GSconv結(jié)構(gòu)

        3.2 注意力機(jī)制

        引入通道注意力機(jī)制常用于增強(qiáng)網(wǎng)絡(luò)模型的非線性表達(dá)能力[13],其即插即用的特點(diǎn)使得注意力機(jī)制在深度學(xué)習(xí)任務(wù)中得到了廣泛應(yīng)用。ECA 模塊是目前最先進(jìn)的注意力模塊之一,其結(jié)構(gòu)如圖5所示,該模塊首先對(duì)各個(gè)通道進(jìn)行全局平均池化,再通過(guò)一維卷積實(shí)現(xiàn)相鄰?fù)ǖ澜换バ畔⒌木植坎东@,最后用Sigmond 函數(shù)對(duì)各組特征通道生成不同的權(quán)重,實(shí)現(xiàn)注意力的按組分配,在增加少量模型復(fù)雜度的同時(shí)帶來(lái)顯著的性能提升。

        圖5 ECA模塊

        依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)確定模塊插入位置對(duì)于注意力機(jī)制的有效性極為重要[14]。改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,ECA 模塊被嵌入在了主干網(wǎng)絡(luò)向頸部傳遞特征圖的部位,即三個(gè)連接分支P1、P2、P3 的起點(diǎn)處,網(wǎng)絡(luò)頸部的標(biāo)準(zhǔn)卷積通過(guò)輕量化的GSConv 替換,以期降低模型復(fù)雜度。

        圖6 改進(jìn)YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)圖

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

        根據(jù)盲人桌面閱讀場(chǎng)景中的常用物品構(gòu)建訓(xùn)練數(shù)據(jù)集,以書本為主要檢測(cè)對(duì)象,同時(shí)加入手機(jī)、杯子、水瓶、墨鏡、蘋果等五類盲人生活場(chǎng)景中的常見物品;采集設(shè)備為USB攝像頭羅技c270i,固定于桌面正上方,圖像采集分辨率為1280×720,采集光線包括順光、逆光、背光等情況,六類物品每類200 張,一共1200 張圖像,按照8:2 隨機(jī)劃分為訓(xùn)練集與驗(yàn)證集,如圖7 為不同光照條件下的訓(xùn)練圖樣。

        圖7 盲人閱讀場(chǎng)景圖

        網(wǎng)絡(luò)訓(xùn)練所用主機(jī)平臺(tái)處理器為32GB內(nèi)存AMD Ryzen 9 5950X,顯卡為NVIDIA GeForce RTX 4090,操作系統(tǒng)為Windows 11,采用Python 平臺(tái)的深度學(xué)習(xí)框架Pytorch1.13 構(gòu)建網(wǎng)絡(luò)模型。以640×640RGB圖像作為模型輸入,訓(xùn)練輪數(shù)設(shè)置為600,批處理大小設(shè)置為32,初始學(xué)習(xí)率為0.01,初始權(quán)值為COCO數(shù)據(jù)集上訓(xùn)練好的原始權(quán)重。在訓(xùn)練結(jié)束后取最優(yōu)權(quán)重部署至樹莓派3B中,進(jìn)行書本定位與位置校準(zhǔn)的測(cè)試評(píng)估,完整實(shí)驗(yàn)流程如圖8所示。

        圖8 實(shí)驗(yàn)流程圖

        4.2 評(píng)價(jià)指標(biāo)

        通過(guò)平均精度均值(mean Average Precision,mAP),每秒檢測(cè)幀數(shù)(Frames Per Second,F(xiàn)PS)及平均建議精度(Presision suggestion,Ps)作為評(píng)價(jià)指標(biāo),PS用于評(píng)價(jià)書本位置校準(zhǔn)任務(wù),其定義如下:

        其中,C為世界坐標(biāo)下書本實(shí)例的有效位移矢量,通過(guò)手動(dòng)測(cè)量得到;Di(i=1,…,N)為N 種光照條件下校準(zhǔn)建議算法給出的校準(zhǔn)建議矢量。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        4.3.1 注意力對(duì)比實(shí)驗(yàn)

        本文通過(guò)引入ECA 注意力機(jī)制實(shí)現(xiàn)了跨通道信息的高效交互,取得了檢測(cè)精度的提升,為了體現(xiàn)本文模型所添加的注意力模塊較其他注意力模塊的優(yōu)勢(shì),設(shè)計(jì)了本次注意力機(jī)制對(duì)比實(shí)驗(yàn),在主干與頸部的連接處嵌入四種典型注意力模塊CA[15]、CBAM[16]、SE[17]及ECA,訓(xùn)練測(cè)試后得到的實(shí)驗(yàn)數(shù)據(jù)如表1所示。

        表1 注意力機(jī)制對(duì)比實(shí)驗(yàn)

        以YOLOv5s 為基線引入ECA 模塊后模型檢測(cè)精度及檢測(cè)速度為最優(yōu),mAP 提升了7.4%,幀率提升了8.47%;引入SE 模塊后mAP 提升了2.7%,而CA 與CBAM 注意力機(jī)制未能有效引入,表現(xiàn)為負(fù)面提升;4 種注意力機(jī)制的引入均會(huì)帶來(lái)參數(shù)量的提升,其中ECA模塊帶來(lái)的參數(shù)增量最少。

        4.3.2 消融實(shí)驗(yàn)

        深度學(xué)習(xí)領(lǐng)域常用消融實(shí)驗(yàn)來(lái)分析不同網(wǎng)絡(luò)分支對(duì)于網(wǎng)絡(luò)模型整體性能的影響。為了分析本文通過(guò)GSConv 替換標(biāo)準(zhǔn)卷積帶來(lái)的性能提升及引入ECA 注意力機(jī)制后對(duì)網(wǎng)絡(luò)整體性能的影響,設(shè)計(jì)了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

        表2 網(wǎng)絡(luò)結(jié)構(gòu)消融實(shí)驗(yàn)

        第一組為YOLOv5s 原始模型的檢測(cè)結(jié)果,第二、三、四組改變Gsconv 的作用部位,第五、六、七組在前三組基礎(chǔ)上加入ECA 模塊。由于當(dāng)前實(shí)驗(yàn)平臺(tái)性能優(yōu)越,六組實(shí)驗(yàn)組別的幀率提升并不顯著,但與原始模型相較,均取得了浮點(diǎn)操作數(shù)的減少、權(quán)值體量的降低及mAP 的提升,其中第五組的提升最為顯著,mAP提升至79.1%;對(duì)比ECA模塊嵌入前后mAP的變化,第七組較第四組降低了0.66%,ECA 模塊的引入表現(xiàn)為負(fù)面提升。可見,GSconv能初步提升檢測(cè)網(wǎng)絡(luò)的精度與速度;ECA 模塊可進(jìn)一步提升精度,但過(guò)度地使用GSconv會(huì)造成重要特征信息丟失,影響整體精度。

        4.3.3 位置建議實(shí)驗(yàn)

        在樹莓派3B中部署最優(yōu)模型,搭建試驗(yàn)平臺(tái)進(jìn)行測(cè)試,評(píng)估本文書本校準(zhǔn)方法中位置建議算法在實(shí)際應(yīng)用中的平均建議精度與光線魯棒性。相機(jī)到桌面的距離固定為538mm,通過(guò)DLT 算法完成相機(jī)標(biāo)定,得到的結(jié)果如表3。

        表3 DLT算法標(biāo)定結(jié)果

        以書本為主要對(duì)象設(shè)置了桌面場(chǎng)景的光線變化檢測(cè)試驗(yàn),每組試驗(yàn)圖像場(chǎng)景樣本10 個(gè),光線變化設(shè)置了順光與逆光二組,共計(jì)20 個(gè)樣本,不同場(chǎng)景的構(gòu)造主要通過(guò)改變書本的內(nèi)容與位置進(jìn)行,其他生活物品如杯子、水瓶、墨鏡等隨機(jī)置入,現(xiàn)場(chǎng)測(cè)試圖樣如圖9,位置建議結(jié)果如表4。

        表4 兩種光照條件下位置建議實(shí)驗(yàn)

        圖9 現(xiàn)場(chǎng)測(cè)試圖樣及檢測(cè)結(jié)果

        對(duì)于書本類別,所有實(shí)例在順光與逆光條件下均成功檢出。表4 中,書本校準(zhǔn)建議算法的平均誤差為3.28mm,平均建議精度為97.40%,算法精度較高,對(duì)于光線變化表現(xiàn)了較好的魯棒性。該模型在樹莓派3B 中的平均單幀處理時(shí)間為5.9s,在算力資源有限的情況下速度表現(xiàn)良好。

        5 結(jié)束語(yǔ)

        本文研究設(shè)計(jì)并搭建了具備物體定位與書本校準(zhǔn)功能的新型智能閱讀輔助系統(tǒng),以YOLOv5s 為基線,通過(guò)加入ECA 模塊增強(qiáng)主干網(wǎng)絡(luò)特征提取能力,在網(wǎng)絡(luò)頸部采用GSconv降低模型體量與浮點(diǎn)運(yùn)算量,保證在算力有限的嵌入式平臺(tái)中準(zhǔn)確快速的響應(yīng);在位置建議任務(wù)中通過(guò)DLT 算法結(jié)合區(qū)域劃分法,以較高的準(zhǔn)確率給出了書本實(shí)例的校準(zhǔn)建議。實(shí)驗(yàn)表明本文模型的平均精度均值達(dá)到79.1%,對(duì)于書本實(shí)例的平均建議精度達(dá)到了97.4%,能夠滿足桌面閱讀場(chǎng)景中盲人閱讀前對(duì)于書本校準(zhǔn)的需求。

        猜你喜歡
        書本盲人注意力
        盲人取襪
        玩轉(zhuǎn)書本
        幼兒100(2023年17期)2023-05-29 08:32:24
        讓注意力“飛”回來(lái)
        打開書本
        回歸書本:慢讀的樂(lè)趣
        隨聲附和的盲人
        自首的盲人
        盲人節(jié)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        国产亚洲无码1024| 久久久精品人妻久久影视| 人妻丰满熟妇AV无码区HD| 香蕉久久夜色精品国产| 亚洲一区二区三区熟妇| 色婷婷五月综合激情中文字幕| 精品亚洲欧美无人区乱码| 日本加勒比东京热日韩| 亚洲国语对白在线观看| 人妻丰满熟妇av无码区app| 一二三四视频社区在线| 一区二区三区放荡人妻| 老岳肥屁熟女四五十路| 艳妇臀荡乳欲伦交换h在线观看| 无码精品国产va在线观看| 97久久久久国产精品嫩草影院| 一区二区三区日本视频| 亚洲国产一二三精品无码| 3344永久在线观看视频| 欧美人与物videos另类 | 99久久99久久久精品蜜桃| 欧美乱妇高清无乱码在线观看 | 日本a级黄片免费观看| 国产伦精品一区二区三区妓女| 色吧综合网| 免费女同毛片在线不卡| 亚洲综合另类小说色区| 欧美天欧美天堂aⅴ在线| 91亚洲欧洲日产国码精品| 成人高清在线播放视频| 久久精品夜色国产亚洲av| 欧美专区在线| 91精品啪在线观看国产色| 天天躁日日躁狠狠躁av麻豆| 亚洲色大成网站www永久一区 | 超清无码AV丝袜片在线观看| 日韩精品一区二区免费 | 无码人妻一区二区三区免费n鬼沢| 激情人妻网址| 久久红精品一区二区三区| 情侣黄网站免费看|