亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于知識圖譜WordNet實現(xiàn)多數(shù)據(jù)集合并及其在YOLO9000中的應(yīng)用

2023-03-24 14:35:38褚云飛陳業(yè)紅吳朝軍

電腦知識與技術(shù) 2023年4期

褚云飛陳業(yè)紅吳朝軍

關(guān)鍵詞：WordNet;WordTree;深度學(xué)習(xí);目標(biāo)檢測;YOLO9000;Softmax

1 概述

在如今的生活中，人臉識別、自動駕駛、車輛檢測、行人檢測等視覺技術(shù)早已得到了普遍應(yīng)用，為人們眾多工作生活帶來了便利。這些檢測識別技術(shù)背后依靠的是目標(biāo)檢測算法的產(chǎn)生和發(fā)展。社會生活要求目標(biāo)檢測系統(tǒng)足夠快速、足夠準(zhǔn)確、有足夠的能力檢測更多對象。從傳統(tǒng)到深度學(xué)習(xí)，目標(biāo)檢測算法不斷地更新?lián)Q代，不斷改進先前的不足并提出更加強大和富有創(chuàng)意的方法。

2014年，Ross Girshick極具創(chuàng)造性地提出Region-CNN算法，目標(biāo)檢測的實現(xiàn)從此擁有了卷積神經(jīng)網(wǎng)絡(luò)（CNN）的支持，繼之以Fast R-CNN、Faster R-CNN，目標(biāo)檢測算法在深度學(xué)習(xí)的強大動力下不斷改進[1-2]。由于R-CNN的網(wǎng)絡(luò)是two-stage雙階段結(jié)構(gòu)，也就是將候選區(qū)域的檢測和分類識別分成兩個階段執(zhí)行，它的系列算法檢測精確度高，但缺點是檢測速度慢，無法滿足實時性。2016年，Joseph Redmon提出YOLO算法，將候選區(qū)域檢測和分類識別合為一個，成為Onestage單階段結(jié)構(gòu)的開山之作，大大提高了目標(biāo)檢測的速度。然而YOLO也有不足之處，與Fast R-CNN等基于Region proposal 的方法相比，YOLO存在更大的定位誤差和更低的召回率[3]。為了解決這些問題，一年后，Joseph Redmon 與導(dǎo)師Ali Farhadi 對YOLOv1 進行改進，發(fā)表了論文《YOLO9000： Better， Faster， Stron?ger》，也就是YOLOv2，提高了YOLO的召回率，并對目標(biāo)精確定位改進，同時保持了分類準(zhǔn)確性。YOLO9000使用了World Tree整合COCO和ImageNet 數(shù)據(jù)集，并在其上進行聯(lián)合訓(xùn)練，能夠檢測9000多個目標(biāo)類別，這是聯(lián)合檢測數(shù)據(jù)集和分類數(shù)據(jù)集實施共同訓(xùn)練突破數(shù)據(jù)集瓶頸的重要一步[4]。因此，筆者認為World Tree的構(gòu)建，在整合數(shù)據(jù)以識別更多對象的工作中起到了關(guān)鍵作用。眾所周知，深度學(xué)習(xí)的主要局限來自它對訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量的極高要求，而基于WordTree的數(shù)據(jù)集合并策略無疑是解決此類問題的一般性方法，所以明晰YOLO中構(gòu)建WordTree的基本原理和實現(xiàn)方法就具有非常重要的意義。

2 相關(guān)工作

2.1 知識圖譜工具：WordNet

內(nèi)在的意義類似于一個最常見的依靠語言學(xué)整合而成的英語詞典，但更加具體的描述在于它還是一種知識譜圖應(yīng)用實例，即這本詞典中的所有單詞根據(jù)它們彼此間的意義聯(lián)系組成了一個龐大的網(wǎng)絡(luò)，所以我們常常將WordNet稱作“單詞的網(wǎng)絡(luò)”。WordNet不僅提供了每個概念的含義，而且給出了單詞的近義詞或反義詞，同時闡釋出一義多詞、一詞多義、類別歸屬等問題，使用WordNet的基本功能可以參見文獻[5]。作為知識圖譜的應(yīng)用工具，在數(shù)據(jù)標(biāo)注上有重要語義作用[6]。圖1是WordNet的一個應(yīng)用網(wǎng)頁，在檢索欄中輸入一個預(yù)檢索的單詞，選擇檢索的選項（同義、反義，關(guān)聯(lián)等），可以輸出相對應(yīng)的所有單詞義集以及例句。

2.2 大型視覺數(shù)據(jù)庫

2.2.1 ImageNet

ImageNet是根據(jù)WordNet中的語義關(guān)系構(gòu)建的圖像數(shù)據(jù)集，其不僅數(shù)據(jù)量大而且?guī)в袛?shù)據(jù)標(biāo)簽。Ima?geNet數(shù)據(jù)集擁有1500萬左右張圖片，涉及2.2萬類視覺對象。其中有超過103萬張圖像。ImageNet中雖然圖片量大，但是全部經(jīng)過了人工挑選、整理和標(biāo)記，帶有邊框批注，是龐大的基于圖像分類的數(shù)據(jù)集，類似于一個圖像引擎[7]。ImageNet依據(jù)WordNet具有層次結(jié)構(gòu)的英語詞典設(shè)計標(biāo)注名字空間，因而可以描述基于已有知識的不同概念間的語義關(guān)系[6]。

2.2.2 VOC

VOC數(shù)據(jù)集是著名的基于視覺目標(biāo)檢測任務(wù)的大型數(shù)據(jù)集，為目標(biāo)檢測模型監(jiān)督學(xué)習(xí)訓(xùn)練提供的標(biāo)注數(shù)據(jù)，共涉及20個類別[8]。

2.2.3 COCO

Common Objects in Context數(shù)據(jù)集可以用來完成圖像物體檢測、語義分割和字幕生成，主要對目標(biāo)之間的上下文關(guān)系和目標(biāo)的2維精確定位問題提供數(shù)據(jù)支持，是最重要的物體檢測數(shù)據(jù)集之一[9]。MicrosoftCOCO是一個大型的數(shù)據(jù)集，包含有150萬個對象實例，80個object類別，91個Stuff類別，超過33萬張圖片，其中20萬張帶有標(biāo)注，分為訓(xùn)練、驗證和測試三種數(shù)據(jù)集。

2.3 Softmax （）多分類輸出層

使用跨越所有可能類別的Softmax層來輸出最終的目標(biāo)類別的概率分布，是構(gòu)造多分類器常使用的方法。Softmax（）函數(shù)輸出的是每個分類的概率值，而不是輸出一個整數(shù)的類別編碼。通過Softmax（）函數(shù)可以將多分類的輸出值轉(zhuǎn)換為范圍在[0， 1]，和為1的概率分布，將多分類的結(jié)果以概率形式展示出來。使用Softmax（）要求同組輸入Softmax層運算的元素應(yīng)該是互斥的，結(jié)果輸出為每個元素的條件概率。在機器學(xué)習(xí)尤其是深度學(xué)習(xí)中，Softmax（）函數(shù)在多分類的場景中使用廣泛[10]。公式（1）中， Softmax（zi）表示輸出分類類別為i 的概率，其中n為類別總數(shù)。

其中，輸入的分類特征變量z1，z2，z3經(jīng)Softmax（）映射為0～1之間的實數(shù)y1，y2，y3，y4并且能保證其歸一化和為1。

3 為什么要構(gòu)建Word Tree

圖像分類任務(wù)一般只要求確定圖像包含哪一種類別的目標(biāo)，而目標(biāo)檢測不僅要確定圖像類別，還需要確定目標(biāo)的位置和大小，由此可見，檢測數(shù)據(jù)集同時包含了分類信息和定位信息。用于檢測任務(wù)的數(shù)據(jù)集標(biāo)注工作代價更大，所以帶標(biāo)注的檢測數(shù)據(jù)集的體量比起面向分類任務(wù)的數(shù)據(jù)集要小很多[11-12]。

YOLO9000若想要檢測更多的對象，但缺少對象檢測訓(xùn)練的樣本，于是聯(lián)合ImageNet 大量的分類樣本和COCO的對象檢測數(shù)據(jù)集一起訓(xùn)練，用僅帶有分類標(biāo)注的數(shù)據(jù)集來擴展可檢測類別的數(shù)量，實現(xiàn)對更多種類的圖像目標(biāo)進行定位和分類。YOLO9000同樣使用跨所有可能類別的Softmax（）輸出層映射目標(biāo)類別的概率分布，這也是多分類常常使用的方法。最直接的方法可以把ImageNet 中的9000種類別的數(shù)據(jù)合并到COCO數(shù)據(jù)集中，并將Soft?max（）分類層改成9000維。然而，通過Softmax函數(shù)預(yù)測各個類別的概率分布的前提條件是：待檢測的類別之間應(yīng)該是互斥的，即不同輸出類別對應(yīng)的實例集合之間的交集應(yīng)該是空。然而，ImageNet的對象類別與COCO的對象類別存在大量重疊，并不滿足類別互斥的要求。COCO是檢測數(shù)據(jù)集，一般只標(biāo)注了常見目標(biāo)而圖像分類數(shù)據(jù)集ImageNet具有更廣泛的標(biāo)簽范圍。比如COCO數(shù)據(jù)集中有“貓”這個類別，ImageNet 中同樣有此類別，并且又細分多個不同品種的貓，顯然貓與不同品種的貓是包含關(guān)系，并不相互獨立，所以無法用單個Softmax來做對象分類。

YOLO9000作者選擇將ImageNet和COCO數(shù)據(jù)集結(jié)合起來共同訓(xùn)練。如何整合數(shù)據(jù)，需要解決哪些問題以及如何解決這些問題是成功的關(guān)鍵。首先，針對具體實施中遇到的COCO和ImageNet數(shù)據(jù)集中類別不完全互斥的問題，作者提出了將兩個數(shù)據(jù)集按照一定的框架整合到一起，形成一個具有多層分類結(jié)構(gòu)的方法，即層級分類（Hierarchical classi?fication）的方法[4]。兩個數(shù)據(jù)集中類別依據(jù)的從屬關(guān)系框架來自Word?Net這個表示單詞內(nèi)部關(guān)系的知識圖譜工具。最后，解決完所有問題，YOLO9000 的作者根據(jù)設(shè)想建立出一種樹型結(jié)構(gòu)—WordTree，提供能解決標(biāo)簽互斥的多標(biāo)簽標(biāo)注機制。比如COCO 對象類別有“狗”，而Ima?geNet 細分成100 多個品種的狗，狗與100多個狗的品種是包含關(guān)系，而不是互斥關(guān)系。一個“Norfolk ter?rier”標(biāo)簽同時也是“dog”，就可以采用“dog”和“Norfolk terrier”兩個標(biāo)簽來標(biāo)注。

YOLO9000沒有直接使用Word?Net對圖像分類而是重新建立樹的結(jié)構(gòu)，原因在于WordNet是一個有向圖結(jié)構(gòu)，一種對象可以同時從屬于多種屬性，比如：dog 既是一種canine （犬），也是一種domestic animal（家畜），它們都是WordNet中的同義詞。語言的復(fù)雜性限制了數(shù)據(jù)集訓(xùn)練的可行性，YOLO9000并不使用完整的圖結(jié)構(gòu)，而是要通過ImageNet構(gòu)建分層樹來簡化問題，使對象間的從屬關(guān)系直接簡潔，方便對象分類。

4 如何構(gòu)建WorldTree

構(gòu)建好的WordTree有9418個節(jié)點（對象類型），包括ImageNet 的Top 9000個對象，COCO 對象，以及ImageNet對象檢測挑戰(zhàn)數(shù)據(jù)集中的對象，以及為了添加這些對象，從WordNet路徑中提取出的中間對象。結(jié)合COCO和ImageNet建立的WordTree如圖3所示。World Tree以physical object為根節(jié)點，各名詞依據(jù)相互間的關(guān)系構(gòu)建樹枝、樹葉，節(jié)點間的連接，表達對象概念之間蘊含的上下位關(guān)系。

構(gòu)建World Tree的步驟是：

1）建立WordTree根節(jié)點（Physical object）；2）首先檢查ImagenNet和COCO中的所有欲加入的對象Oi；3）然后在WordNet中找Oi到對應(yīng)的節(jié)點Ni；4）如果該節(jié)點Ni 到WordTree 根節(jié)點R（Physicalobject）的路徑只有一條，就將該路徑以及路徑上的所有節(jié)點添加到WrodTree，轉(zhuǎn)6（大部分對象都只有一條路徑）；5）否則，反復(fù)檢查路徑不唯一的對象所有的想要添加到已有的WordTree的路徑長度，從中選擇一條盡可能短的路徑添加到已有WordTree中，轉(zhuǎn)6；6）如果所有節(jié)點已加入，結(jié)束，否則轉(zhuǎn)2。

如圖4所示，金毛狗的路徑可以是金毛屬于狗，狗屬于動物，動物屬于根節(jié)點object；也可以是金毛屬于寵物，寵物又同時屬于狗和豢養(yǎng)動物，豢養(yǎng)動物和狗都屬于動物，最后找到根節(jié)點object。找到金毛在WordNet中的三條路徑，發(fā)現(xiàn)后述兩條路徑都有四條邊，而第一條所述路徑有三條邊，為最短路徑，于是舍棄其他路徑，將最短路徑加入到已有WordTree中。

依此方法，YOLO2 根據(jù)WordNet，將ImageNet 和COCO中的名詞對象一起構(gòu)建了一個WordTree，并且Wordtree中每個對象只有唯一路徑連接到根目錄。以Physical object為根節(jié)點，各名詞依據(jù)相互間的關(guān)系構(gòu)建樹枝、樹葉，節(jié)點間的連接，表達了對象概念之間蘊含的上位/下位關(guān)系。至此，雖然整個WordTree中的對象之間不是互斥的關(guān)系，但對于單個節(jié)點，屬于它的所有子節(jié)點之間是互斥關(guān)系，這樣就可以針對從屬于同一層級對象的子節(jié)點使用Softmax操作來預(yù)測該層級下所有平行類別之間的概率分布。這樣使用有限多的softmax函數(shù)，就可以實現(xiàn)無線擴展對象的檢測。為了評估此方法，還添加了ImageNet檢測挑戰(zhàn)中未包含的類。最終World Tree中的節(jié)點共對應(yīng)9418個類別。在樣本的選取上，由于ImageNet比COCO大得多，所以YOLO9000通過對COCO進行過度采樣來平衡數(shù)據(jù)集，使得ImageNet與COCO采樣的比例為4：1。

5 如何利用WorldTree 確定識別對象

在所有對象互斥的情況下，采用softmax（）預(yù)測n個類別的對象，輸出可以采用n維向量表達，對象被預(yù)測到的類別對應(yīng)的那一維數(shù)值接近1，其他維數(shù)值接近0。

在World Tree中，采用softmax（）層對對象進行分類的方法是：首先將World Tree中的所屬于同一父類的葉子節(jié)點以及向上遍歷所有可繼續(xù)細分的屬于同一父類的中間節(jié)點分組進行線性排列，然后對每一行屬于同一父類的對象分別進行softmax（）計算。這樣計算得到的是每個節(jié)點對象的條件概率，也就是同義詞集合中它們的每個下義詞預(yù)測到的概率。例如：object根節(jié)點包含的子節(jié)點有動物、人工制品，……，動物包含的子節(jié)點有貓、狗，……，狗包含的子節(jié)點有金毛、哈士奇、泰迪，……，如圖5：

注意，此處每一個softmax（）得到的分布表達只是邊緣分布，求得softmax（）值為在父節(jié)點條件下的相對概率。也就是說，每個對象輸出的概率值只與和它并列的屬于同一父類的所有節(jié)點有關(guān)，與其父類的父類以及繼續(xù)向上層遍歷的祖先的概率值無關(guān)。若需要計算某一節(jié)點的絕對分布，只需要計算從該節(jié)點到根節(jié)點一系列條件概率的連乘積，即其par（node）表示節(jié)點node的父節(jié)點。

p（nodei） =p（nodei|par（nodei）） ...p（par（nodei） |par（par（nodei））） ...p（object）（2）當(dāng)然節(jié)點的條件概率并不能很好地對檢測的對象進行預(yù)測分類，例如：同屬于動物類別的狗和貓假定它們求得的softmax（）值分別為0.3和0.6，同屬于狗這個類別的金毛和哈士奇求得的softmax（）值分別為0.7和0.1，同屬于與狗并列的貓這個類別的波斯貓和波斯貓求得的softmax（）值分別為0.2和0.5，顯然所有葉子節(jié)點條件概率的最大值為金毛的0.7，但是無法說檢測的對象預(yù)測為金毛，因為金毛的父類狗比和它并列的貓的條件概率值小得多，也就是說檢測到的對象首先更有可能是貓而非狗，最終結(jié)果更大可能是從屬于貓的某一類別。

通過例子可以看出，想要得到的是某一特定節(jié)點的絕對概率，也就是與這個節(jié)點相關(guān)的所有并列節(jié)點以及所有祖先都對該節(jié)點的概率起到影響，所以需要計算特定節(jié)點的絕對概率：沿著WordTree上根節(jié)點到達特定節(jié)點的路徑，將所有經(jīng)過的節(jié)點的條件概率相乘。例如想要知道一張圖片是否為金毛，應(yīng)該計算：Pr （金毛）=Pr（金毛|狗）*Pr（狗|動物）*Pr（動物|object）。通過WordTree求絕對概率的一個好處是：在新的或未知的目標(biāo)類別上YOLO9000模型的性能沒有下降太多。例如，如果檢測一張狗的圖片，但不確定它是什么類型的狗，YOLO9000仍然會高度自信地預(yù)測“狗”，只是擴展到狗的子節(jié)點可能會有更低的置信度[4]。

理論上講，預(yù)測對象時，應(yīng)該對所有節(jié)點求絕對概率，最終比較大小。而在實際預(yù)測過程中，并不計算出所有節(jié)點的絕對概率，而是采用一種比較簡便的算法：從根節(jié)點開始向下遍歷，對每一個節(jié)點，在它的所有子節(jié)點中，選擇概率最大的那個繼續(xù)向下遍歷和計算概率值，其他非最大值的對象被舍棄，無須再計算它們的子節(jié)點的概率，到達每一層級都采取相同做法，一直遍歷到某個節(jié)點的子節(jié)點概率低于設(shè)定的閾值，也就是該節(jié)點的概率值過小導(dǎo)致較難再取到，分類器無法明顯分辨類別，或達到葉子節(jié)點時，取該節(jié)點在WordTree 中對應(yīng)的對象為輸出的預(yù)測結(jié)果。就好比想要分辨一張圖片為哈士奇還是波斯貓，首先要分辨這是狗還是貓，因為大多數(shù)狗和貓都有各自相同的特征，如果這張圖片首先被判定大概率是狗，那它是波斯貓的概率就很小，便可以忽略對貓的概率計算。

6 結(jié)論與展望

Word Tree是YOLO9000中為了解決Image Net和COCO數(shù)據(jù)集合并所遇到的標(biāo)注不互斥的問題而構(gòu)建的詞集之間的樹形結(jié)構(gòu)。根據(jù)WordNet中的層級關(guān)系，WordTree以層級分類的方式將ImageNet和COCO 數(shù)據(jù)集組合在一起，將數(shù)據(jù)集中的類別映射到樹中的同義詞集上，實現(xiàn)了在兩個數(shù)據(jù)集上分類和檢測的聯(lián)合訓(xùn)練。借助WordTree進行聯(lián)合訓(xùn)練后，YOLO9000 利用COCO數(shù)據(jù)集中的數(shù)據(jù)檢測圖像中目標(biāo)的位置和大小，利用ImageNet數(shù)據(jù)集中的數(shù)據(jù)對檢測的目標(biāo)進行分類[13]。

WordTree為圖像識別提供了更豐富、更詳細的輸出空間，使用分層分類的數(shù)據(jù)集組合在分類、檢測和分割領(lǐng)域大有益處。此方法能根據(jù)知識圖譜WordNet 中的從屬關(guān)系結(jié)合不同來源的圖像數(shù)據(jù)及標(biāo)注詞匯，從而大大擴大了模型訓(xùn)練數(shù)據(jù)的規(guī)模，并實現(xiàn)對更多對象的預(yù)測。

Word Tree的構(gòu)建為擴充檢測類別提供了新的思路，樹形結(jié)構(gòu)對復(fù)雜問題的簡化梳理提供了很好的工具。未來圖像視覺檢測任務(wù)可以運用WordTree整合更多不同來源的獨立數(shù)據(jù)集，建立更龐大的數(shù)據(jù)集，為深度學(xué)習(xí)目標(biāo)檢測系統(tǒng)提供強有力的支持，能夠檢測更多對象，在一些無監(jiān)督的檢測目標(biāo)學(xué)習(xí)場合有可能做得更好。