亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜WordNet實現(xiàn)多數(shù)據(jù)集合并及其在YOLO9000中的應(yīng)用

        2023-03-24 14:35:38褚云飛陳業(yè)紅吳朝軍
        電腦知識與技術(shù) 2023年4期
        關(guān)鍵詞:目標(biāo)檢測深度學(xué)習(xí)

        褚云飛 陳業(yè)紅 吳朝軍

        關(guān)鍵詞:WordNet;WordTree;深度學(xué)習(xí);目標(biāo)檢測;YOLO9000;Softmax

        1 概述

        在如今的生活中,人臉識別、自動駕駛、車輛檢測、行人檢測等視覺技術(shù)早已得到了普遍應(yīng)用,為人們眾多工作生活帶來了便利。這些檢測識別技術(shù)背后依靠的是目標(biāo)檢測算法的產(chǎn)生和發(fā)展。社會生活要求目標(biāo)檢測系統(tǒng)足夠快速、足夠準(zhǔn)確、有足夠的能力檢測更多對象。從傳統(tǒng)到深度學(xué)習(xí),目標(biāo)檢測算法不斷地更新?lián)Q代,不斷改進先前的不足并提出更加強大和富有創(chuàng)意的方法。

        2014年,Ross Girshick極具創(chuàng)造性地提出Region-CNN算法,目標(biāo)檢測的實現(xiàn)從此擁有了卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的支持,繼之以Fast R-CNN、Faster R-CNN,目標(biāo)檢測算法在深度學(xué)習(xí)的強大動力下不斷改進[1-2]。由于R-CNN的網(wǎng)絡(luò)是two-stage雙階段結(jié)構(gòu),也就是將候選區(qū)域的檢測和分類識別分成兩個階段執(zhí)行,它的系列算法檢測精確度高,但缺點是檢測速度慢,無法滿足實時性。2016年,Joseph Redmon提出YOLO算法,將候選區(qū)域檢測和分類識別合為一個,成為Onestage單階段結(jié)構(gòu)的開山之作,大大提高了目標(biāo)檢測的速度。然而YOLO也有不足之處,與Fast R-CNN等基于Region proposal 的方法相比,YOLO存在更大的定位誤差和更低的召回率[3]。為了解決這些問題,一年后,Joseph Redmon 與導(dǎo)師Ali Farhadi 對YOLOv1 進行改進,發(fā)表了論文《YOLO9000: Better, Faster, Stron?ger》,也就是YOLOv2,提高了YOLO的召回率,并對目標(biāo)精確定位改進,同時保持了分類準(zhǔn)確性。YOLO9000使用了World Tree整合COCO和ImageNet 數(shù)據(jù)集,并在其上進行聯(lián)合訓(xùn)練,能夠檢測9000多個目標(biāo)類別,這是聯(lián)合檢測數(shù)據(jù)集和分類數(shù)據(jù)集實施共同訓(xùn)練突破數(shù)據(jù)集瓶頸的重要一步[4]。因此,筆者認為World Tree的構(gòu)建,在整合數(shù)據(jù)以識別更多對象的工作中起到了關(guān)鍵作用。眾所周知,深度學(xué)習(xí)的主要局限來自它對訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量的極高要求,而基于WordTree的數(shù)據(jù)集合并策略無疑是解決此類問題的一般性方法,所以明晰YOLO中構(gòu)建WordTree的基本原理和實現(xiàn)方法就具有非常重要的意義。

        2 相關(guān)工作

        2.1 知識圖譜工具:WordNet

        內(nèi)在的意義類似于一個最常見的依靠語言學(xué)整合而成的英語詞典,但更加具體的描述在于它還是一種知識譜圖應(yīng)用實例,即這本詞典中的所有單詞根據(jù)它們彼此間的意義聯(lián)系組成了一個龐大的網(wǎng)絡(luò),所以我們常常將WordNet稱作“單詞的網(wǎng)絡(luò)”。WordNet不僅提供了每個概念的含義,而且給出了單詞的近義詞或反義詞,同時闡釋出一義多詞、一詞多義、類別歸屬等問題,使用WordNet的基本功能可以參見文獻[5]。作為知識圖譜的應(yīng)用工具,在數(shù)據(jù)標(biāo)注上有重要語義作用[6]。圖1是WordNet的一個應(yīng)用網(wǎng)頁,在檢索欄中輸入一個預(yù)檢索的單詞,選擇檢索的選項(同義、反義,關(guān)聯(lián)等),可以輸出相對應(yīng)的所有單詞義集以及例句。

        2.2 大型視覺數(shù)據(jù)庫

        2.2.1 ImageNet

        ImageNet是根據(jù)WordNet中的語義關(guān)系構(gòu)建的圖像數(shù)據(jù)集,其不僅數(shù)據(jù)量大而且?guī)в袛?shù)據(jù)標(biāo)簽。Ima?geNet數(shù)據(jù)集擁有1500萬左右張圖片,涉及2.2萬類視覺對象。其中有超過103萬張圖像。ImageNet中雖然圖片量大,但是全部經(jīng)過了人工挑選、整理和標(biāo)記,帶有邊框批注,是龐大的基于圖像分類的數(shù)據(jù)集,類似于一個圖像引擎[7]。ImageNet依據(jù)WordNet具有層次結(jié)構(gòu)的英語詞典設(shè)計標(biāo)注名字空間,因而可以描述基于已有知識的不同概念間的語義關(guān)系[6]。

        2.2.2 VOC

        VOC數(shù)據(jù)集是著名的基于視覺目標(biāo)檢測任務(wù)的大型數(shù)據(jù)集,為目標(biāo)檢測模型監(jiān)督學(xué)習(xí)訓(xùn)練提供的標(biāo)注數(shù)據(jù),共涉及20個類別[8]。

        2.2.3 COCO

        Common Objects in Context數(shù)據(jù)集可以用來完成圖像物體檢測、語義分割和字幕生成,主要對目標(biāo)之間的上下文關(guān)系和目標(biāo)的2維精確定位問題提供數(shù)據(jù)支持,是最重要的物體檢測數(shù)據(jù)集之一[9]。MicrosoftCOCO是一個大型的數(shù)據(jù)集,包含有150萬個對象實例,80個object類別,91個Stuff類別,超過33萬張圖片,其中20萬張帶有標(biāo)注,分為訓(xùn)練、驗證和測試三種數(shù)據(jù)集。

        2.3 Softmax ()多分類輸出層

        使用跨越所有可能類別的Softmax層來輸出最終的目標(biāo)類別的概率分布,是構(gòu)造多分類器常使用的方法。Softmax() 函數(shù)輸出的是每個分類的概率值,而不是輸出一個整數(shù)的類別編碼。通過Softmax() 函數(shù)可以將多分類的輸出值轉(zhuǎn)換為范圍在[0, 1],和為1的概率分布,將多分類的結(jié)果以概率形式展示出來。使用Softmax() 要求同組輸入Softmax層運算的元素應(yīng)該是互斥的,結(jié)果輸出為每個元素的條件概率。在機器學(xué)習(xí)尤其是深度學(xué)習(xí)中,Softmax() 函數(shù)在多分類的場景中使用廣泛[10]。公式(1) 中, Softmax(zi) 表示輸出分類類別為i 的概率,其中n為類別總數(shù)。

        其中,輸入的分類特征變量z1,z2,z3經(jīng)Softmax() 映射為0~1之間的實數(shù)y1,y2,y3,y4并且能保證其歸一化和為1。

        3 為什么要構(gòu)建Word Tree

        圖像分類任務(wù)一般只要求確定圖像包含哪一種類別的目標(biāo),而目標(biāo)檢測不僅要確定圖像類別,還需要確定目標(biāo)的位置和大小,由此可見,檢測數(shù)據(jù)集同時包含了分類信息和定位信息。用于檢測任務(wù)的數(shù)據(jù)集標(biāo)注工作代價更大,所以帶標(biāo)注的檢測數(shù)據(jù)集的體量比起面向分類任務(wù)的數(shù)據(jù)集要小很多[11-12]。

        YOLO9000若想要檢測更多的對象,但缺少對象檢測訓(xùn)練的樣本,于是聯(lián)合ImageNet 大量的分類樣本和COCO的對象檢測數(shù)據(jù)集一起訓(xùn)練,用僅帶有分類標(biāo)注的數(shù)據(jù)集來擴展可檢測類別的數(shù)量,實現(xiàn)對更多種類的圖像目標(biāo)進行定位和分類。YOLO9000同樣使用跨所有可能類別的Softmax() 輸出層映射目標(biāo)類別的概率分布,這也是多分類常常使用的方法。最直接的方法可以把ImageNet 中的9000種類別的數(shù)據(jù)合并到COCO數(shù)據(jù)集中,并將Soft?max() 分類層改成9000維。然而,通過Softmax函數(shù)預(yù)測各個類別的概率分布的前提條件是:待檢測的類別之間應(yīng)該是互斥的,即不同輸出類別對應(yīng)的實例集合之間的交集應(yīng)該是空。然而,ImageNet的對象類別與COCO的對象類別存在大量重疊,并不滿足類別互斥的要求。COCO是檢測數(shù)據(jù)集,一般只標(biāo)注了常見目標(biāo)而圖像分類數(shù)據(jù)集ImageNet具有更廣泛的標(biāo)簽范圍。比如COCO數(shù)據(jù)集中有“貓”這個類別,ImageNet 中同樣有此類別,并且又細分多個不同品種的貓,顯然貓與不同品種的貓是包含關(guān)系,并不相互獨立,所以無法用單個Softmax來做對象分類。

        YOLO9000作者選擇將ImageNet和COCO數(shù)據(jù)集結(jié)合起來共同訓(xùn)練。如何整合數(shù)據(jù),需要解決哪些問題以及如何解決這些問題是成功的關(guān)鍵。首先,針對具體實施中遇到的COCO和ImageNet數(shù)據(jù)集中類別不完全互斥的問題,作者提出了將兩個數(shù)據(jù)集按照一定的框架整合到一起,形成一個具有多層分類結(jié)構(gòu)的方法,即層級分類(Hierarchical classi?fication) 的方法[4]。兩個數(shù)據(jù)集中類別依據(jù)的從屬關(guān)系框架來自Word?Net這個表示單詞內(nèi)部關(guān)系的知識圖譜工具。最后,解決完所有問題,YOLO9000 的作者根據(jù)設(shè)想建立出一種樹型結(jié)構(gòu)—WordTree,提供能解決標(biāo)簽互斥的多標(biāo)簽標(biāo)注機制。比如COCO 對象類別有“狗”,而Ima?geNet 細分成100 多個品種的狗,狗與100多個狗的品種是包含關(guān)系,而不是互斥關(guān)系。一個“Norfolk ter?rier”標(biāo)簽同時也是“dog”,就可以采用“dog”和“Norfolk terrier”兩個標(biāo)簽來標(biāo)注。

        YOLO9000沒有直接使用Word?Net對圖像分類而是重新建立樹的結(jié)構(gòu),原因在于WordNet是一個有向圖結(jié)構(gòu),一種對象可以同時從屬于多種屬性,比如:dog 既是一種canine (犬),也是一種domestic animal(家畜),它們都是WordNet中的同義詞。語言的復(fù)雜性限制了數(shù)據(jù)集訓(xùn)練的可行性,YOLO9000并不使用完整的圖結(jié)構(gòu),而是要通過ImageNet構(gòu)建分層樹來簡化問題,使對象間的從屬關(guān)系直接簡潔,方便對象分類。

        4 如何構(gòu)建WorldTree

        構(gòu)建好的WordTree有9418個節(jié)點(對象類型),包括ImageNet 的Top 9000個對象,COCO 對象,以及ImageNet對象檢測挑戰(zhàn)數(shù)據(jù)集中的對象,以及為了添加這些對象,從WordNet路徑中提取出的中間對象。結(jié)合COCO和ImageNet建立的WordTree如圖3所示。World Tree以physical object為根節(jié)點,各名詞依據(jù)相互間的關(guān)系構(gòu)建樹枝、樹葉,節(jié)點間的連接,表達對象概念之間蘊含的上下位關(guān)系。

        構(gòu)建World Tree的步驟是:

        1) 建立WordTree根節(jié)點(Physical object) ;2) 首先檢查ImagenNet和COCO中的所有欲加入的對象Oi;3) 然后在WordNet中找Oi到對應(yīng)的節(jié)點Ni;4) 如果該節(jié)點Ni 到WordTree 根節(jié)點R(Physicalobject) 的路徑只有一條,就將該路徑以及路徑上的所有節(jié)點添加到WrodTree,轉(zhuǎn)6(大部分對象都只有一條路徑);5) 否則,反復(fù)檢查路徑不唯一的對象所有的想要添加到已有的WordTree的路徑長度,從中選擇一條盡可能短的路徑添加到已有WordTree中,轉(zhuǎn)6;6) 如果所有節(jié)點已加入,結(jié)束,否則轉(zhuǎn)2。

        如圖4所示,金毛狗的路徑可以是金毛屬于狗,狗屬于動物,動物屬于根節(jié)點object;也可以是金毛屬于寵物,寵物又同時屬于狗和豢養(yǎng)動物,豢養(yǎng)動物和狗都屬于動物,最后找到根節(jié)點object。找到金毛在WordNet中的三條路徑,發(fā)現(xiàn)后述兩條路徑都有四條邊,而第一條所述路徑有三條邊,為最短路徑,于是舍棄其他路徑,將最短路徑加入到已有WordTree中。

        依此方法,YOLO2 根據(jù)WordNet,將ImageNet 和COCO中的名詞對象一起構(gòu)建了一個WordTree,并且Wordtree中每個對象只有唯一路徑連接到根目錄。以Physical object為根節(jié)點,各名詞依據(jù)相互間的關(guān)系構(gòu)建樹枝、樹葉,節(jié)點間的連接,表達了對象概念之間蘊含的上位/下位關(guān)系。至此,雖然整個WordTree中的對象之間不是互斥的關(guān)系,但對于單個節(jié)點,屬于它的所有子節(jié)點之間是互斥關(guān)系,這樣就可以針對從屬于同一層級對象的子節(jié)點使用Softmax操作來預(yù)測該層級下所有平行類別之間的概率分布。這樣使用有限多的softmax函數(shù),就可以實現(xiàn)無線擴展對象的檢測。為了評估此方法,還添加了ImageNet檢測挑戰(zhàn)中未包含的類。最終World Tree中的節(jié)點共對應(yīng)9418個類別。在樣本的選取上,由于ImageNet比COCO大得多,所以YOLO9000通過對COCO進行過度采樣來平衡數(shù)據(jù)集,使得ImageNet與COCO采樣的比例為4:1。

        5 如何利用WorldTree 確定識別對象

        在所有對象互斥的情況下,采用softmax() 預(yù)測n個類別的對象,輸出可以采用n維向量表達,對象被預(yù)測到的類別對應(yīng)的那一維數(shù)值接近1,其他維數(shù)值接近0。

        在World Tree中,采用softmax() 層對對象進行分類的方法是:首先將World Tree中的所屬于同一父類的葉子節(jié)點以及向上遍歷所有可繼續(xù)細分的屬于同一父類的中間節(jié)點分組進行線性排列,然后對每一行屬于同一父類的對象分別進行softmax() 計算。這樣計算得到的是每個節(jié)點對象的條件概率,也就是同義詞集合中它們的每個下義詞預(yù)測到的概率。例如:object根節(jié)點包含的子節(jié)點有動物、人工制品,……,動物包含的子節(jié)點有貓、狗,……,狗包含的子節(jié)點有金毛、哈士奇、泰迪,……,如圖5:

        對不同對象求得的各自Softmax 值即為條件概率,例如:對第一層對象求條件概率:Pr(object) =1;對第二層對象求條件概率:Pr(動物|object)=a1,Pr(人工制品|object)=a2,...對第三層對象求條件概率:Pr(貓|動物)=b1,Pr(狗|動物)=b2,...對第四層對象求條件概率:Pr(金毛|狗)=c1,Pr(哈士奇|狗)=c2,Pr(泰迪|狗)=c3,... 對以上計算有:a1+a2+...=1,b1+b2+...=1,c1+c2+c3+...=1,...以此類推,直到葉子結(jié)點層。

        注意,此處每一個softmax() 得到的分布表達只是邊緣分布,求得softmax() 值為在父節(jié)點條件下的相對概率。也就是說,每個對象輸出的概率值只與和它并列的屬于同一父類的所有節(jié)點有關(guān),與其父類的父類以及繼續(xù)向上層遍歷的祖先的概率值無關(guān)。若需要計算某一節(jié)點的絕對分布,只需要計算從該節(jié)點到根節(jié)點一系列條件概率的連乘積,即其par(node)表示節(jié)點node的父節(jié)點。

        p(nodei) =p(nodei|par(nodei)) ...p(par(nodei) |par(par(nodei))) ...p(object) (2) 當(dāng)然節(jié)點的條件概率并不能很好地對檢測的對象進行預(yù)測分類,例如:同屬于動物類別的狗和貓假定它們求得的softmax() 值分別為0.3和0.6,同屬于狗這個類別的金毛和哈士奇求得的softmax() 值分別為0.7和0.1,同屬于與狗并列的貓這個類別的波斯貓和波斯貓求得的softmax() 值分別為0.2和0.5,顯然所有葉子節(jié)點條件概率的最大值為金毛的0.7,但是無法說檢測的對象預(yù)測為金毛,因為金毛的父類狗比和它并列的貓的條件概率值小得多,也就是說檢測到的對象首先更有可能是貓而非狗,最終結(jié)果更大可能是從屬于貓的某一類別。

        通過例子可以看出,想要得到的是某一特定節(jié)點的絕對概率,也就是與這個節(jié)點相關(guān)的所有并列節(jié)點以及所有祖先都對該節(jié)點的概率起到影響,所以需要計算特定節(jié)點的絕對概率:沿著WordTree上根節(jié)點到達特定節(jié)點的路徑,將所有經(jīng)過的節(jié)點的條件概率相乘。例如想要知道一張圖片是否為金毛,應(yīng)該計算:Pr (金毛)=Pr(金毛|狗)*Pr(狗|動物)*Pr(動物|object)。通過WordTree求絕對概率的一個好處是:在新的或未知的目標(biāo)類別上YOLO9000模型的性能沒有下降太多。例如,如果檢測一張狗的圖片,但不確定它是什么類型的狗,YOLO9000仍然會高度自信地預(yù)測“狗”,只是擴展到狗的子節(jié)點可能會有更低的置信度[4]。

        理論上講,預(yù)測對象時,應(yīng)該對所有節(jié)點求絕對概率,最終比較大小。而在實際預(yù)測過程中,并不計算出所有節(jié)點的絕對概率,而是采用一種比較簡便的算法:從根節(jié)點開始向下遍歷,對每一個節(jié)點,在它的所有子節(jié)點中,選擇概率最大的那個繼續(xù)向下遍歷和計算概率值,其他非最大值的對象被舍棄,無須再計算它們的子節(jié)點的概率,到達每一層級都采取相同做法,一直遍歷到某個節(jié)點的子節(jié)點概率低于設(shè)定的閾值,也就是該節(jié)點的概率值過小導(dǎo)致較難再取到,分類器無法明顯分辨類別,或達到葉子節(jié)點時,取該節(jié)點在WordTree 中對應(yīng)的對象為輸出的預(yù)測結(jié)果。就好比想要分辨一張圖片為哈士奇還是波斯貓,首先要分辨這是狗還是貓,因為大多數(shù)狗和貓都有各自相同的特征,如果這張圖片首先被判定大概率是狗,那它是波斯貓的概率就很小,便可以忽略對貓的概率計算。

        6 結(jié)論與展望

        Word Tree是YOLO9000中為了解決Image Net和COCO數(shù)據(jù)集合并所遇到的標(biāo)注不互斥的問題而構(gòu)建的詞集之間的樹形結(jié)構(gòu)。根據(jù)WordNet中的層級關(guān)系,WordTree以層級分類的方式將ImageNet和COCO 數(shù)據(jù)集組合在一起,將數(shù)據(jù)集中的類別映射到樹中的同義詞集上,實現(xiàn)了在兩個數(shù)據(jù)集上分類和檢測的聯(lián)合訓(xùn)練。借助WordTree進行聯(lián)合訓(xùn)練后,YOLO9000 利用COCO數(shù)據(jù)集中的數(shù)據(jù)檢測圖像中目標(biāo)的位置和大小,利用ImageNet數(shù)據(jù)集中的數(shù)據(jù)對檢測的目標(biāo)進行分類[13]。

        WordTree為圖像識別提供了更豐富、更詳細的輸出空間,使用分層分類的數(shù)據(jù)集組合在分類、檢測和分割領(lǐng)域大有益處。此方法能根據(jù)知識圖譜WordNet 中的從屬關(guān)系結(jié)合不同來源的圖像數(shù)據(jù)及標(biāo)注詞匯,從而大大擴大了模型訓(xùn)練數(shù)據(jù)的規(guī)模,并實現(xiàn)對更多對象的預(yù)測。

        Word Tree的構(gòu)建為擴充檢測類別提供了新的思路,樹形結(jié)構(gòu)對復(fù)雜問題的簡化梳理提供了很好的工具。未來圖像視覺檢測任務(wù)可以運用WordTree整合更多不同來源的獨立數(shù)據(jù)集,建立更龐大的數(shù)據(jù)集,為深度學(xué)習(xí)目標(biāo)檢測系統(tǒng)提供強有力的支持,能夠檢測更多對象,在一些無監(jiān)督的檢測目標(biāo)學(xué)習(xí)場合有可能做得更好。

        猜你喜歡
        目標(biāo)檢測深度學(xué)習(xí)
        視頻中目標(biāo)檢測算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識別中的人體運動目標(biāo)檢測方法
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        移動機器人圖像目標(biāo)識別
        基于背景建模法的運動目標(biāo)檢測
        国产性色av一区二区| 亚洲人交乣女bbw| 伊人久久精品久久亚洲一区| 国产中出视频| 国产亚洲精品成人无码精品网站| 国产午夜亚洲精品一级在线| 中文字幕精品亚洲无线码二区| av成人资源在线播放| 日本精品人妻一区二区| 麻豆视频在线播放观看| 日本污ww视频网站| 久久精品人人做人人综合| 亚洲精品国产一二三无码AV| 久久蜜桃一区二区三区| 国产精品综合一区久久| 国产成人综合亚洲看片| 激情综合一区二区三区| 亚洲色AV性色在线观看| 日本熟妇精品一区二区三区| 日韩精品中文字幕一区二区| 国产精品免费观看调教网| 国产在线观看无码免费视频| 国产手机在线αⅴ片无码观看| 国产乱子伦视频一区二区三区| 国产精品一区一区三区| 国产无套内射又大又猛又粗又爽| 国产麻豆md传媒视频| 欧美日韩国产成人高清视| 亚洲无AV码一区二区三区| 国产色第一区不卡高清| 亚洲国产精品久久精品| 人妻少妇精品中文字幕av| 亚洲美女啪啪| 极品新娘高清在线观看| 亚洲精品第一页在线观看 | 妺妺窝人体色www看美女| 亚洲人成无码www久久久| 8av国产精品爽爽ⅴa在线观看| 亚洲二区精品婷婷久久精品| 成人精品一区二区三区电影 | 精品人妻伦九区久久AAA片69|