亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOv5的室內(nèi)小物品識(shí)別定位關(guān)鍵算法研究

        2024-05-19 14:36:42王映暉邱文惠劉廣臣
        電腦知識(shí)與技術(shù) 2024年7期

        王映暉 邱文惠 劉廣臣

        摘要:對(duì)于盲人而言,室內(nèi)尋找水杯、毛巾、遙控器等物品是日常生活中必不可少的技能。由于他們無(wú)法依靠視覺(jué)來(lái)定位和識(shí)別物品,因此必須依賴其他感官或工具來(lái)進(jìn)行這項(xiàng)行動(dòng)。針對(duì)盲人尋物困難的痛點(diǎn), 因此主要研究YOLOv5與訓(xùn)練個(gè)性化數(shù)據(jù)集、目標(biāo)檢測(cè)技術(shù)對(duì)室內(nèi)目標(biāo)進(jìn)行檢測(cè)和定位的理論和實(shí)現(xiàn),輔以Kaldi技術(shù)進(jìn)行語(yǔ)音交互,實(shí)現(xiàn)輔助視障人士智能化搜尋和識(shí)別室內(nèi)物品?;赮OLOv5訓(xùn)練個(gè)性化數(shù)據(jù)與特征提取,用于后期物體識(shí)別與定位提供數(shù)據(jù)支持。最后,基于YOLOv5目標(biāo)檢測(cè)算法與單目測(cè)距進(jìn)行目標(biāo)物體的識(shí)別與定位。實(shí)驗(yàn)結(jié)果表明該算法可以準(zhǔn)確地識(shí)別和定位小物品,實(shí)現(xiàn)了室內(nèi)導(dǎo)航的基本功能。

        關(guān)鍵詞:YOLOv5;目標(biāo)檢測(cè);Kaldi;語(yǔ)音交互;單目測(cè)距

        中圖分類號(hào):TP312? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2024)07-0015-03

        開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)

        0 引言

        根據(jù)世界衛(wèi)生組織2014年的統(tǒng)計(jì)數(shù)據(jù),全球有2.17億人患有中度至重度視力障礙,3 600萬(wàn)人失明[1]。到2025年,這個(gè)數(shù)字可能會(huì)超過(guò)5.5億。我國(guó)是全世界盲人最多的國(guó)家之一,中國(guó)盲人群體數(shù)量龐大,占世界盲人總數(shù)的18%。隨著國(guó)家經(jīng)濟(jì)發(fā)展加快以及對(duì)殘障人士的關(guān)注支持力度加大,大多數(shù)盲人生活水平有大幅度提高。面對(duì)數(shù)量如此巨大的盲人群體,解決因視力障礙帶來(lái)的生活困難成了研究者共同關(guān)注的問(wèn)題,然而各異的致盲原因和盲人群體的經(jīng)濟(jì)水平,使得生物技術(shù)無(wú)法完全解決盲人問(wèn)題。而室內(nèi)小物品定位與識(shí)別導(dǎo)航技術(shù)大多需要在被定位物體上安裝標(biāo)簽或者終端設(shè)備,在一些特殊環(huán)境下存在著一定的局限性。

        針對(duì)盲人導(dǎo)盲輔助設(shè)備的外觀設(shè)計(jì),基本分為三大類[2],分別是手杖類、穿戴類、移動(dòng)類輔助工具,如斯坦福大學(xué)智能系統(tǒng)實(shí)驗(yàn)室的博士后帕特里克·斯萊德(Patrick Slade) 研發(fā)的基于超聲波傳感器的增強(qiáng)型手杖[3]、宛處好等人[4]研發(fā)的基于地圖定位與卷積神經(jīng)網(wǎng)絡(luò)的可穿戴智能導(dǎo)盲設(shè)備、李達(dá)等人[5]研制的導(dǎo)盲機(jī)器人。萬(wàn)子樸等人[6]研究了一種基于RFID射頻識(shí)別的盲人尋物器;林會(huì)祺等人[7]研究了一種基于YOLOv3算法和超聲波測(cè)距的AI智能導(dǎo)盲眼鏡設(shè)計(jì);洪毅[8]研究了一種基于紅外線傳感器、超聲波傳感器、激光雷達(dá)的電子導(dǎo)盲車(chē)和一種基于Unity3D的聽(tīng)覺(jué)空間感知導(dǎo)盲系統(tǒng);陳曉燕[9]研究了一種基于射頻識(shí)別技術(shù)來(lái)實(shí)現(xiàn)環(huán)境識(shí)別、局部導(dǎo)航以及通過(guò)SIM868模塊實(shí)現(xiàn)GPS定位且具有GPRS、GSM功能的導(dǎo)盲杖;吳濤[10]提出了一種基于邊緣的自動(dòng)種子點(diǎn)深度圖像分割算法以通過(guò)自適應(yīng)的邊緣檢測(cè)算法找到圖像中的物體輪廓邊緣的圖像處理技術(shù)和基于RGB-D的室內(nèi)電子導(dǎo)盲系統(tǒng)研究。

        本文提出YOLOv5及單目測(cè)距進(jìn)行目標(biāo)識(shí)別與定位,相比于以上幾種技術(shù),YOLOv5及單目測(cè)距進(jìn)行目標(biāo)識(shí)別與定位具有結(jié)構(gòu)簡(jiǎn)單、適應(yīng)能力強(qiáng)等優(yōu)點(diǎn),YOLOv5通過(guò)攝像頭來(lái)獲取視覺(jué)信息,可以獲取更為豐富的室內(nèi)環(huán)境信息,且隨著圖像處理技術(shù)的深入發(fā)展,使得該項(xiàng)目具有更廣闊的發(fā)展平臺(tái),該項(xiàng)目所提供的交互式信息輸入與輸出具有一定的創(chuàng)新性。

        1 室內(nèi)小物品定位與識(shí)別算法設(shè)計(jì)

        本課題圍繞在室內(nèi)生活相對(duì)靜止的環(huán)境中,對(duì)多目標(biāo)、小物品的識(shí)別及定位導(dǎo)航問(wèn)題。課題內(nèi)研究思路框架如圖1所示:

        1.1 語(yǔ)音信號(hào)輸入

        要想使用Kaldi對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行識(shí)別,通常需要將語(yǔ)音數(shù)據(jù)切割成較短的語(yǔ)音片段,以便于后續(xù)的特征提取和模型訓(xùn)練。在Kaldi中,語(yǔ)音建模是語(yǔ)音識(shí)別的核心部分,它將特征數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模,建立起音素、詞、句子等語(yǔ)音單位之間的映射關(guān)系。常用的建模方法包括隱馬爾可夫模型(HMM) 和深度神經(jīng)網(wǎng)絡(luò)(DNN) 等。

        1.2 YOLOv5模型建立

        要進(jìn)行模型訓(xùn)練首先要進(jìn)行圖像特征標(biāo)定,選擇利用labelimg進(jìn)行圖像特征標(biāo)定,對(duì)收集好的數(shù)據(jù)集進(jìn)行分類,分為訓(xùn)練集與驗(yàn)證集,以便進(jìn)一步利用YOLOv5訓(xùn)練圖像識(shí)別模型,通過(guò)對(duì)模型權(quán)重等參數(shù)的調(diào)整,進(jìn)行圖像識(shí)別模型的訓(xùn)練。

        1.3 圖像識(shí)別與測(cè)距

        用攝像頭采集圖片,將三維場(chǎng)景投影到攝像機(jī)二維像平面上,主要利用小孔成像模型求解,即任意點(diǎn)P1 在圖像中的投影位置P1'為光心O與 P1點(diǎn)的連線與圖像平面的交點(diǎn)。F為攝像頭的焦距,C為鏡頭光心。物體發(fā)出的光經(jīng)過(guò)相機(jī)的光心,然后成像于圖像傳感器或者也可以說(shuō)是像平面上。如果設(shè)物體所在平面與相機(jī)平面的距離為D,目標(biāo)框?qū)嶋H寬度P1和P2之間的寬度為W,且W是已知量,攝像頭采集到圖像內(nèi)目標(biāo)的P1'和P2'寬度為P,根據(jù)公式可以求得距離D。目標(biāo)識(shí)別算法標(biāo)出了圖像區(qū)域的范圍以及矩形框的長(zhǎng)寬,所以圖像中的距離P可以得到。W為實(shí)際圖片中的邊長(zhǎng),為已知量,攝像頭焦距F也已知,故可求出距離D。已知物體尺寸的單目視覺(jué)測(cè)距是指在已知物體信息的條件下,利用攝像頭獲得的目標(biāo)圖片得到深度信息[11]。

        在眾多測(cè)距方式中,筆者選擇利用攝像頭進(jìn)行視頻測(cè)距,與前面介紹的幾種算法相比較,視頻測(cè)距最大的不同是被動(dòng)式的測(cè)距。它不需要向被測(cè)物體發(fā)射任何信號(hào)或接收信號(hào),只需要拍攝下包含所需要目標(biāo)的視頻或者圖片就可以根據(jù)需要對(duì)目標(biāo)進(jìn)行距離的測(cè)量。另外,由于圖像中往往包含的信息量很大,利用圖像處理技術(shù)識(shí)別并提取這些信息,能夠獲得更多的數(shù)據(jù)信息,可以提高判斷的精度。隨著圖像處理速度的提高和技術(shù)的不斷完善,視頻測(cè)距技術(shù)的應(yīng)用前景也越來(lái)越廣闊[12]。

        要實(shí)現(xiàn)單目測(cè)距[13]需要定義兩個(gè)變量:分別是焦距、待測(cè)物品高度。然后再定義一個(gè)自定義函數(shù),用于進(jìn)行單目測(cè)距。這兩個(gè)函數(shù)都有一個(gè)參數(shù)h,表示檢測(cè)到的目標(biāo)高度,通過(guò)目標(biāo)高度、焦距和實(shí)際高度計(jì)算目標(biāo)與相機(jī)之間的距離。函數(shù)中使用英寸作為距離單位,最后將距離轉(zhuǎn)換為米作為距離單位并返回。

        在圖像識(shí)別的過(guò)程中,在計(jì)算待測(cè)物品與攝像頭的距離之前,應(yīng)當(dāng)針對(duì)物品的置信度進(jìn)行篩選,即為識(shí)別精度,如公式(1) :

        [D=F×WP]? ?(1)

        式中:D為目標(biāo)到攝像機(jī)的距離;F為攝像機(jī)焦距;W為目標(biāo)的寬度或者高度;P為目標(biāo)在圖像中所占據(jù)的x方向像素(寬)或者y方向像素(高)。

        確定好焦距與和待測(cè)物品高度(單位為英寸),經(jīng)過(guò)轉(zhuǎn)換,最終得到單位為米的距離。

        1.4 語(yǔ)音信號(hào)輸出

        在得到攝像頭距待測(cè)物品的距離之后,通過(guò)Python的pyttsx3庫(kù),將數(shù)據(jù)轉(zhuǎn)化為文字信息,傳遞給語(yǔ)音合成引擎,然后引擎將文本轉(zhuǎn)換為音頻文件,并通過(guò)操作系統(tǒng)的音頻設(shè)備進(jìn)行播放,以此進(jìn)行對(duì)距離的語(yǔ)音播報(bào),并通過(guò)setProperty函數(shù)進(jìn)行語(yǔ)速與音量的設(shè)置。

        1.5 模型評(píng)價(jià)標(biāo)準(zhǔn)與回測(cè)

        平均精確度(mAP) 是目標(biāo)檢測(cè)中常用的評(píng)價(jià)指標(biāo)之一,象征著模型的推理的準(zhǔn)確程度。

        精確度(Precision) 和召回率(Recall) 通常是一對(duì)矛盾的指標(biāo),精確度是指模型在檢測(cè)出的目標(biāo)中真正正確的比例,召回率是指模型在所有正確目標(biāo)中檢測(cè)到真正正確的比例。

        錯(cuò)誤率(Error Rate) 是指模型在目標(biāo)檢測(cè)過(guò)程中的錯(cuò)誤率,包括漏檢和誤檢。

        定位誤差(Localization Error) 是指模型檢測(cè)到的目標(biāo)位置與真實(shí)目標(biāo)位置之間的誤差。通常使用IoU(Intersection over Union) 作為定位誤差的度量,IoU是指檢測(cè)到的目標(biāo)框與真實(shí)目標(biāo)框的交集面積與并集面積之比。

        處理速度(Inference Speed) 是指模型在實(shí)際應(yīng)用中的推理速度,包括模型的前向推理和后處理時(shí)間。

        模型的回測(cè)(Retrospective Evaluation) 指的是在模型訓(xùn)練完畢后,使用之前保留的測(cè)試集或驗(yàn)證集數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估的過(guò)程。

        當(dāng)模型訓(xùn)練完畢后,可以使用測(cè)試集數(shù)據(jù)對(duì)模型進(jìn)行回測(cè)。通常,回測(cè)過(guò)程會(huì)使用之前保留的測(cè)試集數(shù)據(jù)輸入已經(jīng)訓(xùn)練好的模型中,獲取模型的檢測(cè)結(jié)果,并與真實(shí)標(biāo)簽進(jìn)行比較,計(jì)算模型在測(cè)試集上的性能指標(biāo),如平均精確度、精確度、召回率、錯(cuò)誤率、定位誤差等。通過(guò)回測(cè)評(píng)估模型在未見(jiàn)過(guò)數(shù)據(jù)上的性能,可以更全面地了解模型的性能表現(xiàn),并對(duì)模型進(jìn)行調(diào)整和改進(jìn)。

        2 算法實(shí)證研究

        2.1 數(shù)據(jù)集來(lái)源與預(yù)處理

        本文選用自主拍攝物品圖像,利用Labelimg自主標(biāo)注。

        首先,需要準(zhǔn)備包含目標(biāo)檢測(cè)樣本的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集應(yīng)該包括目標(biāo)物體(水杯、手機(jī)等)的圖像以及相應(yīng)的標(biāo)注信息。

        其次,將整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集對(duì)模型進(jìn)行訓(xùn)練。本文采用的文件夾劃分,將數(shù)據(jù)集中的樣本按照存儲(chǔ)文件夾進(jìn)行劃分。比例根據(jù)數(shù)據(jù)量不同有所不同,本文按96%:2%:2%進(jìn)行劃分。在進(jìn)行數(shù)據(jù)集劃分時(shí),保持訓(xùn)練集和測(cè)試集的數(shù)據(jù)分布一致性。

        2.2 實(shí)驗(yàn)結(jié)果

        對(duì)模擬結(jié)果進(jìn)行分析,可以計(jì)算模型的準(zhǔn)確率、召回率等性能指標(biāo),也可以可視化輸出結(jié)果以便觀察。如果結(jié)果不夠理想,可以通過(guò)調(diào)整模型參數(shù)或者增加數(shù)據(jù)集的大小來(lái)改進(jìn)模型性能,也可以對(duì)檢測(cè)結(jié)果進(jìn)行后處理,包括非極大值抑制(NMS) 等處理方式,以去除重疊的檢測(cè)框并選擇置信度較高的檢測(cè)結(jié)果。

        YOLOv5模型的推理速度相較于其訓(xùn)練速度較快,可以在實(shí)時(shí)或近實(shí)時(shí)的應(yīng)用場(chǎng)景中進(jìn)行目標(biāo)檢測(cè)和定位,在訓(xùn)練完成后,檢測(cè)物品的實(shí)例如圖4所示。

        3 結(jié)論

        本文提出一種基于YOLOv5模型識(shí)別生活中小物品與對(duì)其進(jìn)行單目測(cè)距的算法設(shè)計(jì)。由于YOLOv5深度學(xué)習(xí)模型高度的穩(wěn)定性和準(zhǔn)確性,較為適合用來(lái)進(jìn)行小目標(biāo)的檢測(cè)與識(shí)別。設(shè)備利用攝像頭采集圖像,YOLOv5模型配合攝像頭單目測(cè)距原理對(duì)用戶與物品之間的距離進(jìn)行判斷,設(shè)備同時(shí)將距離轉(zhuǎn)化為語(yǔ)音信號(hào)播報(bào)出來(lái),實(shí)現(xiàn)實(shí)時(shí)提醒用戶距離待尋物品的距離,從而達(dá)到在無(wú)他人協(xié)助的前提下,實(shí)時(shí)指導(dǎo)盲人用戶尋找室內(nèi)小物品的需求,解決了傳統(tǒng)方式準(zhǔn)確率低、信息滯后的問(wèn)題。

        參考文獻(xiàn):

        [1] 武曌晗,榮學(xué)文,范永.導(dǎo)盲機(jī)器人研究現(xiàn)狀綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(14):1-13.

        [2] BOURNE R R A,F(xiàn)LAXMAN S R,BRAITHWAITE T,et al.Magnitude,temporal trends,and projections of the global prevalence of blindness and distance and near vision impairment:a systematic review and meta-analysis[J].The Lancet Global Health,2017,5(9):e888-e897.

        [3] Patrick Slade et al.Science Robotics 6[J].Issue 59,2021.

        [4] 宛處好,陳雨濛,楊力川,等.一種可穿戴式智能導(dǎo)盲裝置:CN110623820A[P].2019-12-31.

        [5] 李達(dá),付開(kāi)磊,王兵雷,等.一種導(dǎo)盲機(jī)器人:[P].甘肅:CN206285242U, 2017- 06-30.

        [6] 萬(wàn)子樸,胡宸瑞哲,周煜然,等.一種基于RFID射頻識(shí)別的盲人尋物器:CN208000669U[P].2018-10-23.

        [7] 林會(huì)祺,周義濤,翁名鍵,等.AI智能導(dǎo)盲眼鏡的設(shè)計(jì)與實(shí)現(xiàn)[J].信息與電腦(理論版),2021,33(6):171-173.

        [8] 洪毅.電子導(dǎo)盲系統(tǒng)研究及應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2021.

        [9] 陳曉燕.基于RFID、GPS實(shí)現(xiàn)環(huán)境識(shí)別、路徑查看的導(dǎo)盲杖[D].保定:河北大學(xué),2019.

        [10] 吳濤.基于RGB-D的室內(nèi)電子導(dǎo)盲系統(tǒng)研究[D].西安:西安科技大學(xué),2018.

        [11] 王文勝,李繼旺,吳波,等.基于YOLOv5交通標(biāo)志識(shí)別的智能車(chē)設(shè)計(jì)[J].國(guó)外電子測(cè)量技術(shù),2021,40(10):158-164.

        [12] 黎曉珊.《中國(guó)視頻社會(huì)化趨勢(shì)報(bào)告》發(fā)布[N].人民日?qǐng)?bào), 2020-11-26.

        [13] 王士明.基于計(jì)算機(jī)視覺(jué)的車(chē)輛單目測(cè)距系統(tǒng)研究[D].天津:天津大學(xué),2012.

        【通聯(lián)編輯:唐一東】

        日本在线免费一区二区三区| 亚洲精品国产v片在线观看| 免费av在线国模| 日本在线播放不卡免费一区二区| 中文字幕亚洲视频一区| 无码视频在线观看| 亚洲人成网站免费播放| 丝袜 亚洲 另类 欧美| 少妇下面好紧好多水真爽| 免费无码精品黄av电影| 精品香蕉久久久爽爽| 国产丝袜免费精品一区二区 | 在线观看欧美精品| 日韩少妇人妻一区二区| 日本av亚洲中文字幕| 成人美女黄网站色大免费的| 久久久精品3d动漫一区二区三区 | 制服丝袜中文字幕在线| 欧美人与动人物牲交免费观看| 狠狠亚洲超碰狼人久久老人| 白白色发布免费手机在线视频观看| 国产二级一片内射视频播放| 丰满少妇人妻无码专区| 国产三级国产精品国产专区| 日本一级特黄aa大片| 天堂aⅴ无码一区二区三区 | 日本激情视频一区在线观看| 国产精品亚洲精品国产| 久久精品欧美日韩精品| 99成人精品| 97超碰国产一区二区三区| 人妻少妇-嫩草影院| 国产精品女主播福利在线| 无码一区二区三区在线| 日本不卡在线视频二区三区| 成年站免费网站看v片在线| 一本色综合亚洲精品蜜桃冫| 日韩有码中文字幕第一页| 国产在线观看自拍av| 亚洲人成电影在线观看天堂色| 日本视频一区二区三区免费观看|