亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        X光安檢數(shù)據(jù)集類別相互影響可視化分析方法

        2022-09-09 03:16:22李小東焦天雨劉暢祁海濤
        電子技術(shù)與軟件工程 2022年13期
        關(guān)鍵詞:高維降維類別

        李小東 焦天雨 劉暢 祁海濤

        (北京市地鐵運(yùn)營一分公司 北京市 102209)

        1 序言

        X 光安檢是地鐵、飛機(jī)等運(yùn)輸工具中最常使用的安全檢測(cè)方法,其中人工檢查扮演著最重要的角色。由于檢測(cè)人員難以時(shí)刻保持高度的集中性和前后判斷的一致性,因此基于深度學(xué)習(xí)的X 光圖片目標(biāo)檢測(cè)成為一種理想的輔助檢測(cè)方法,因?yàn)橛?jì)算機(jī)可以時(shí)刻不斷地工作,從而可提高檢測(cè)的可信度。

        X 光圖片的目標(biāo)檢測(cè)中,數(shù)據(jù)集的大小、所含類別、標(biāo)記質(zhì)量等都會(huì)影響模型的識(shí)別結(jié)果,有一些X 光安檢圖片目標(biāo)檢測(cè)的研究者們對(duì)數(shù)據(jù)集進(jìn)行了研究,并發(fā)布了一些的數(shù)據(jù)集:最早的Grima X-ray Dataset數(shù)據(jù)集有 19,407 張圖片,但僅有五個(gè)類別,并且圖片太簡單;SIXray 數(shù)據(jù)集包含 1,059,231 張圖片,其中有違禁品有 8,929 張,并且包括不同尺度、角度和遮擋等情況;PIDray 數(shù)據(jù)包含了47,677 張圖片,并將測(cè)試數(shù)據(jù)集中的物品檢測(cè)難度分為了easy、hard、hidden 三個(gè)等級(jí);OPIXray 數(shù)據(jù)集包含 8,885張圖片,也在測(cè)試集上對(duì)檢測(cè)難度進(jìn)行了劃分。這些數(shù)據(jù)集存在的普遍缺陷為包含非違禁品的圖片占比很大,而違禁品圖片較少,并且只對(duì)含違禁品的圖片進(jìn)行了標(biāo)記,因此,這些數(shù)據(jù)集可做研究用途,實(shí)用性尚不夠。

        本文 的X 光安檢數(shù)據(jù)集是聲迅股份公司在地鐵安檢實(shí)際環(huán)境中采集的彩色圖片,每張圖片包含多個(gè)目標(biāo)物品,經(jīng)過人工標(biāo)記制作成了 PascalVOC 格式的數(shù)據(jù)集,包括 JPEG格式的圖像和 XML 格式的標(biāo)記文件。整個(gè)數(shù)據(jù)集共有 9,211張圖片,包含 32 個(gè)類別,包括違禁品和非違禁品中的各個(gè)種類,圖像大小不一致,但大都在1000*1000 像素左右,每個(gè)種類的數(shù)量如圖1 所示。

        圖1 :實(shí)驗(yàn)數(shù)據(jù)集類別數(shù)量分布柱狀圖

        數(shù)據(jù)集經(jīng)過觀察,發(fā)現(xiàn)32 個(gè)類別有如下特點(diǎn):

        (1)baggedliquid 類與plastic 類和can 類之間在形狀和顏色方面很相似;

        (2)fixture 類與oil 類和spray 類別之間形狀和顏色方面很相似;

        (3)foldknife 類中,在折疊刀沒有折疊的時(shí)候,形狀與顏色與knife 類非常一致;

        (4)wrench 類中,有一類扳手的形狀與scissors 類很相似。

        造成上述特點(diǎn)的原因是這些物品圖像差異太小,在進(jìn)行類間劃分時(shí),雖然人類認(rèn)知概念上屬于不同的類別,但實(shí)際上在組成材質(zhì)(展示在X 光安檢圖片上即為顏色)、外型(展示在X 光安檢圖片上極為輪廓)上都極為相似,這讓標(biāo)記人員在標(biāo)記的過程中需要耗費(fèi)更大的精力來進(jìn)行區(qū)分。

        同時(shí),我們發(fā)現(xiàn)物品圖像差異太小會(huì)造成標(biāo)記不一致性的問題。在目標(biāo)檢測(cè)中包括目標(biāo)類別標(biāo)記和目標(biāo)物品的框標(biāo)記,標(biāo)記人員首先需要識(shí)別出目標(biāo)物品的位置,然后使用矩形框?qū)⑵淇蜃。倥袛嗫騼?nèi)物品的類別,對(duì)于相同和相似物品的判斷,不同標(biāo)記人員之間具有不一致性,首先是框的大小、對(duì)物品的包裹情況存在不一致性,其次是對(duì)類似的物品每個(gè)標(biāo)記員的判斷具有不一致性,這就導(dǎo)致了在標(biāo)記問題中會(huì)存在較大的標(biāo)記不一致問題。

        由于數(shù)據(jù)分類問題對(duì)模型的訓(xùn)練結(jié)果有著很大的影響,曠世在公布Objects365 數(shù)據(jù)集時(shí),同時(shí)公布了構(gòu)建該數(shù)據(jù)集時(shí)重點(diǎn)關(guān)注的問題及解決方法,其中特別強(qiáng)調(diào)了數(shù)據(jù)分類一致性問題,指出由于數(shù)據(jù)集的規(guī)模很大,這個(gè)項(xiàng)目將會(huì)涉及到很多標(biāo)記人員,如果沒有一致的識(shí)別和注釋規(guī)則,對(duì)同一圖像將會(huì)得到不同的標(biāo)記結(jié)果,導(dǎo)致數(shù)據(jù)集標(biāo)記產(chǎn)生歧義。數(shù)據(jù)分類不一致屬于數(shù)據(jù)標(biāo)記錯(cuò)誤中的一個(gè)種類,當(dāng)對(duì)幾個(gè)類別的數(shù)據(jù)邊界模糊不清,則會(huì)導(dǎo)致這些類別的標(biāo)記發(fā)生混亂,從而降低整個(gè)數(shù)據(jù)集的質(zhì)量,最終降低模型的表現(xiàn)性能。

        為了改進(jìn)數(shù)據(jù)集的質(zhì)量,需要研究數(shù)據(jù)集中存在的分類問題,因此有必要研究一個(gè)有效的數(shù)據(jù)集分類合理性的分析方法。

        2 研究方法

        以R-CNN 進(jìn)行目標(biāo)檢測(cè)為例,找到可能存在物體的候選區(qū)域region proposal 大小resize 到227×227,通過CNN 對(duì)候選區(qū)域提取特征向量,2000 個(gè)建議框的CNN 特征組成2000×4096 為矩陣,將2000×4096 的特征矩陣和20 個(gè)SVM組成的權(quán)重矩陣4096×20 相乘,獲得2000×20 的矩陣;得到2000 個(gè)類別得分矩陣,得分最高的即為候選框中物體的類別??梢?,算法實(shí)質(zhì)是對(duì)特征向量進(jìn)行判斷類來分類。因此對(duì)特征向量量化和可視化分析能夠評(píng)估數(shù)據(jù)集的分類質(zhì)量。

        在計(jì)算機(jī)視覺領(lǐng)域面對(duì)的是高維的數(shù)據(jù),常用的計(jì)算機(jī)視覺網(wǎng)絡(luò)會(huì)將維度上升至256、512 甚至更高的維度。高維的數(shù)據(jù)具有難以直觀分析的弊病,因此,為了更好的分析高維數(shù)據(jù),便提出了降維的方法。降維包含以下基本作用:可以緩解維數(shù)災(zāi)難,即提高樣本密度,以及使基于歐氏距離的算法重新生效;可以對(duì)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)去冗余、降低信噪比;方便可視化等。針對(duì)圖像高維數(shù)據(jù),使用降維算法進(jìn)行降維,將難以可視化的高維數(shù)據(jù)盡量保持其高緯度的一定特性至低維,是一種讓研究者可以直觀分析數(shù)據(jù)集情況并且進(jìn)行數(shù)據(jù)分析的優(yōu)秀方法。

        t-SNE(t-distributed stochastic neighbor embedding)是用于降維的一種機(jī)器學(xué)習(xí)算法,是由 Laurens van der Maaten 和Geoあrey Hinton 在2008年提出來。t-SNE 是一種非線性降維算法,非常適用于將高維數(shù)據(jù)降維到2 維或者3 維,進(jìn)行可視化。相對(duì)于PCA 來說,t-SNE 可以說是一種更高級(jí)有效的方法。t-SNE 基于隨機(jī)近鄰嵌入(SNE),屬于非線性降維技術(shù)(廣義上“非線性降維技術(shù)”≈“流形學(xué)習(xí)”,狹義上后者是前者子集)。這類技術(shù)假設(shè)高維數(shù)據(jù)實(shí)際上處于一個(gè)比所處空間維度低的非線性流形上,因此側(cè)重讓相似的近鄰點(diǎn)在低維表示中靠近。使用梯度下降的方法來進(jìn)行學(xué)習(xí),將低維分布擬合高維分布。SNE 方法的兩個(gè)主要的降維思路為:將歐式距離轉(zhuǎn)化為條件概率來表征數(shù)據(jù)點(diǎn)之間的相似度,使用梯度下降算法來使低維分布擬合高維分布。

        將其作為降維工具可視化MINIST 數(shù)據(jù)集6000 張圖片的效果如圖2 所示,各個(gè)數(shù)字間有較明顯的界限,且各類別較為聚集,可以看出t-SNE 具有優(yōu)秀的擬合效果。

        圖2 :MINIST 數(shù)據(jù)集t-SNE 可視化結(jié)果

        本文采用t-SNE 簡單版本算法,其降維可視化的流程為:

        Data:準(zhǔn)備數(shù)據(jù)集X={x,x,...,x},

        計(jì)算損失函數(shù)(cost function)參數(shù):困惑度 Perp,

        優(yōu)化參數(shù)(optimization parameters):設(shè)置迭代次數(shù)T,學(xué)習(xí)率η,動(dòng)量α(t)。

        目標(biāo)結(jié)果:低維數(shù)據(jù)表示γ={y,y,...,y}。

        3 可視化分析與實(shí)驗(yàn)結(jié)果

        3.1 可視化分析

        降維可視化能夠與數(shù)據(jù)集高維特征的相對(duì)距離保持一致,通過在X 光安檢數(shù)據(jù)集中挑選了兩組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),一組數(shù)據(jù)都含有類別刀,另一組組數(shù)據(jù)分別包含類別手機(jī)和類別塑料瓶,每組分別只選取兩個(gè)類別進(jìn)行實(shí)驗(yàn)是為了讓實(shí)驗(yàn)的結(jié)果更清晰、更易于分析。

        根據(jù)人們對(duì)于分類的先驗(yàn)知識(shí),刀和塑料瓶、刀和手機(jī)都是完全不同的兩類物品,在高維數(shù)據(jù)中的分布應(yīng)該都有比較大的距離,相應(yīng)地映射到低維也會(huì)相互分離。因此根據(jù)標(biāo)記框信息剝離數(shù)據(jù)集中的這三類目標(biāo)物品,并分別對(duì)其中的兩類物品進(jìn)行t-SNE 可視化,對(duì)t-SNE 降維后的數(shù)據(jù)坐標(biāo)進(jìn)行了歸一化處理,以方便在二維平面進(jìn)行展示和分析,其可視化結(jié)果及目標(biāo)物品數(shù)量如表1 所示。

        表1 :物品t-SNE 可視化展示表

        對(duì)數(shù)據(jù)集分類合理情況的分析,如上所做的實(shí)驗(yàn)分析,類別間的數(shù)據(jù)重合程度對(duì)最終的模型表現(xiàn)結(jié)果會(huì)產(chǎn)生比較大的影響。當(dāng)對(duì)一個(gè)數(shù)據(jù)集進(jìn)行分析時(shí),其類別間的重合程度是需要觀察的一個(gè)重要方面,在進(jìn)行t-SNE 降維可視化后,類別間重合度高的數(shù)據(jù)集相較于類別間重合度低的數(shù)據(jù)集訓(xùn)練出來的模型精度表現(xiàn)較差。在劃分類別時(shí),僅根據(jù)人類主觀認(rèn)知中的物品類別來進(jìn)行分類對(duì)于模型來說是片面的。

        t-SNE 可視化的結(jié)果說明,不同類別的兩種物品,在特征分布上可能會(huì)具有較大的相似性:刀和塑料瓶兩個(gè)類別的二維空間分布分離較好,只有邊緣的部分?jǐn)?shù)據(jù)相互交錯(cuò),說明這兩個(gè)類別的數(shù)據(jù)對(duì)于機(jī)器來說比較容易分辨,但是刀和手機(jī)兩個(gè)類別特征分布在二維空間大幅度重疊,在二維空間的模擬分布幾乎相同,說明這兩個(gè)類別的數(shù)據(jù)對(duì)機(jī)器來說則比較難以分辨,與人工分類產(chǎn)生了比較大的差距。

        3.2 實(shí)驗(yàn)結(jié)果

        為了進(jìn)一步驗(yàn)證t-SNE 在二維空間的分布擬合情況與實(shí)際模型訓(xùn)練精度的關(guān)系,進(jìn)行了實(shí)驗(yàn)證明,在本實(shí)驗(yàn)中,以及后續(xù)的未說明實(shí)驗(yàn)網(wǎng)絡(luò)的實(shí)驗(yàn)中,我們所使用來進(jìn)行訓(xùn)練的網(wǎng)絡(luò)都為YOLOv4 網(wǎng)絡(luò)。

        AP 值與總的mAP 值來進(jìn)行分析。使用YOLOv4 網(wǎng)絡(luò),且兩個(gè)實(shí)驗(yàn)采用同樣的超參和迭代次數(shù),得出的結(jié)果如表2所示。

        表2 :實(shí)驗(yàn)結(jié)果

        導(dǎo)致整體AP 值低和Precision(召回率)低的原因:因?yàn)槭嵌嗄繕?biāo)檢測(cè),沒有對(duì)其他相似類的監(jiān)督信息,則很容易將其他類別判為當(dāng)前類,造成比較大的誤判率,在數(shù)據(jù)集中還有其他多個(gè)類別與以上三種類別特征相似,因此會(huì)對(duì)類別的判斷準(zhǔn)確度有影響,導(dǎo)致誤判提高。除此之外通過比較兩組類別的實(shí)驗(yàn)相對(duì)值,容易得出:

        (1)刀和塑料瓶的t-SNE 降維可視化特征分布重合較低,兩個(gè)類別的準(zhǔn)確度都較高;

        (2)刀和電話的t-SNE 降維可視化特征分布重合度較高,刀的準(zhǔn)確度被拉低約2%,并且手機(jī)的準(zhǔn)確度也較低。

        4 結(jié)論

        實(shí)驗(yàn)表明,僅憑人類對(duì)物品的認(rèn)知來進(jìn)行的分類在模型看來可能會(huì)具有很大的相似性,導(dǎo)致模型對(duì)這些類別難以分辨,從而拉低整個(gè)模型的表現(xiàn);t-SNE 降維可視化方法是一個(gè)有效的數(shù)據(jù)集分類問題的可視化分析方法,可視化后展示的數(shù)據(jù)分布情況與模型訓(xùn)練的結(jié)果符合,因此,數(shù)據(jù)集類別劃分的合理性可以通過t-SNE 可視化方法來進(jìn)行分析。

        猜你喜歡
        高維降維類別
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
        高維Kramers系統(tǒng)離出點(diǎn)的分布問題
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        拋物化Navier-Stokes方程的降維仿真模型
        基于特征聯(lián)合和偏最小二乘降維的手勢(shì)識(shí)別
        亚洲视频在线视频在线视频| 最新高清无码专区| 亚洲一区二区观看播放| 亚洲熟女av中文字幕网站| 国产三级c片在线观看| 国产黄污网站在线观看| 色综合久久88色综合天天| 麻豆AⅤ无码不卡| 最新国产精品精品视频| 四季极品偷拍一区二区三区视频| 伊人精品久久久久中文字幕| 精品一区二区久久久久久久网站| 日本特黄a级高清免费大片| 亚洲情久久久精品黄色| 神马影院午夜dy888| 午夜三级a三级三点| 一区二区久久不射av| 蓝蓝的天空,白白的云| 色综合久久久无码中文字幕 | 免费观看又色又爽又黄的韩国| 亚洲中文欧美日韩在线| 国家一级内射高清视频| 无码a级毛片免费视频内谢| 老少交欧美另类| 女人被躁到高潮嗷嗷叫免费软| 国产性生大片免费观看性| 日日人人爽人人爽人人片av| 国产美女久久久亚洲综合| 91精品人妻一区二区三区久久久 | 成人精品国产亚洲欧洲| 亚洲综合在不卡在线国产另类 | 亚洲精品国产av成人网| 欧美肥妇毛多水多bbxx水蜜桃 | 黑人大群体交免费视频| 国产精品福利自产拍久久 | 国产激情对白一区二区三区四 | 不卡视频在线观看网站| 久久久久国产综合av天堂| 国产免费资源| 国产精品日本一区二区三区在线| 999国产精品999久久久久久|