亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CLIP 模型的軍事領(lǐng)域圖片資源多模態(tài)搜索工具研究

        2022-03-13 08:03:00趙晉巍劉曉鵬
        關(guān)鍵詞:模態(tài)分類特征

        趙晉巍,劉曉鵬,羅 威,程 瑾,毛 彬,宋 宇

        大數(shù)據(jù)時(shí)代數(shù)據(jù)分析工作通常需要處理不同來(lái)源、不同領(lǐng)域的數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)出不同的模態(tài)[1],如視頻、圖片、語(yǔ)音,以及工業(yè)場(chǎng)景下的傳感數(shù)據(jù)和紅外、聲譜等。多模態(tài)數(shù)據(jù)是指對(duì)同一個(gè)描述對(duì)象通過(guò)不同領(lǐng)域或視角獲取到的數(shù)據(jù),而把描述這些數(shù)據(jù)的每一個(gè)領(lǐng)域或視角叫做一個(gè)模態(tài)[2]。顧名思義,多模態(tài)數(shù)據(jù)融合的研究?jī)?nèi)容就是這些不同類型的數(shù)據(jù)的融合問(wèn)題,即利用計(jì)算機(jī)進(jìn)行多模態(tài)數(shù)據(jù)的綜合處理。

        Contrastive Language-image Pre-training(CLIP)模型是一個(gè)在各種“圖像-文本”對(duì)上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[3]。它是一種基于對(duì)比學(xué)習(xí)的多模態(tài)模型,通過(guò)圖像和它對(duì)應(yīng)描述文本的對(duì)比訓(xùn)練,達(dá)到學(xué)習(xí)兩者匹配關(guān)系的目的。作為多模態(tài)訓(xùn)練的結(jié)果,CLIP 模型可用于查找最能代表圖像的文本片段,或根據(jù)給定文本查詢最合適的圖像,甚至可以基于文本對(duì)圖像進(jìn)行分類[4]。CLIP 模型打破了自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)兩大門派“涇渭分明”的界限,實(shí)現(xiàn)了多模態(tài)的AI 系統(tǒng),融合了不同模態(tài)進(jìn)行檢索,這使CLIP 模型在圖像和文本搜索中非常有用。筆者開展了多年的開源軍事相關(guān)圖片資源的本地化建設(shè),內(nèi)容涵蓋裝備使用、軍事行動(dòng)、保障維修等方面,共搜集到圖片30 余萬(wàn)張,這些圖片資源大多帶有原生的描述文本,而且某些重要的圖片已進(jìn)行了人工分類和標(biāo)注,因此具備開展圖片深度挖掘處理的資源基礎(chǔ)。在圖片資源發(fā)現(xiàn)上,傳統(tǒng)的圖片檢索技術(shù)采用文本匹配模式,即通過(guò)搜索關(guān)鍵詞與圖片標(biāo)題、描述信息進(jìn)行精確或模糊匹配。而對(duì)于描述信息缺失的圖片或標(biāo)引錯(cuò)誤的圖片來(lái)說(shuō),文本匹配模式無(wú)能為力,并且也無(wú)法進(jìn)行以圖搜圖,如通過(guò)模糊圖片找到更高清圖片,或通過(guò)圖片找到相似前景目標(biāo)物的圖片。基于此,本文通過(guò)CLIP 模型的再訓(xùn)練,開展多模態(tài)搜索的相關(guān)應(yīng)用研究,包括軍事領(lǐng)域內(nèi)圖片資源的以文搜圖和以圖搜圖。

        1 CLIP 模型研究背景和現(xiàn)狀

        1.1 CLIP 模型概述

        以往的計(jì)算機(jī)視覺(jué)(Computational Vision,CV)模型通常被訓(xùn)練用于預(yù)測(cè)有限的物體類別(如ImageNet 數(shù)據(jù)集中有1 000 個(gè)分類標(biāo)簽)。這種嚴(yán)格的監(jiān)督訓(xùn)練方式限制了模型的泛化性和實(shí)用性,因?yàn)檫@樣的模型通常還需要額外的標(biāo)注數(shù)據(jù)來(lái)完成訓(xùn)練時(shí)未曾見過(guò)的圖像(視覺(jué))“概念”[5]。2021 年初,OpenAI 推出了AI 視覺(jué)模型CLIP(圖1),該模型以4 億對(duì)網(wǎng)絡(luò)圖文數(shù)據(jù)集(Web ImageText,WIT)作為訓(xùn)練集,將文本作為圖像標(biāo)簽進(jìn)行訓(xùn)練。當(dāng)進(jìn)行下游推理任務(wù)時(shí),只需要提供和圖像語(yǔ)義對(duì)應(yīng)的文本描述,就可以進(jìn)行零樣本(Zero-Shot)推理遷移。經(jīng)過(guò)龐大的數(shù)據(jù)集訓(xùn)練,CLIP 模型在圖文識(shí)別和融合上展現(xiàn)了很高的表現(xiàn)力。

        圖1 CLIP 模型的框架結(jié)構(gòu)

        1.1.1 預(yù)訓(xùn)練

        CLIP 模型聯(lián)合訓(xùn)練圖像編碼器(如ResNet50)和文本編碼器(如BERT),以預(yù)測(cè)一批圖像和文本的正確配對(duì)。假設(shè)給定一個(gè)包括N個(gè)“圖像-文本”對(duì)的數(shù)據(jù)集,就能得到n個(gè)圖片的特征和n個(gè)文本的特征,CLIP 模型的訓(xùn)練目標(biāo)是判斷在一個(gè)數(shù)據(jù)集中N×N個(gè)“圖像-文本”對(duì)中的哪一對(duì)是匹配的。為此,CLIP 模型通過(guò)線性投影將每個(gè)編碼器的表示映射到多模式嵌入空間,通過(guò)聯(lián)合訓(xùn)練圖像編碼器和文本編碼器來(lái)最大化數(shù)據(jù)集中的n對(duì)匹配的圖文特征余弦相似度,同時(shí)最小化N2-N個(gè)錯(cuò)誤對(duì)的余弦相似度,從而達(dá)到對(duì)比學(xué)習(xí)的目的。此外,CLIP 模型在這些相似度上用對(duì)稱的交叉熵?fù)p失進(jìn)行優(yōu)化。

        圖1 中的預(yù)訓(xùn)練對(duì)比學(xué)習(xí)(Contrastive Pre-training)部分,N×N矩陣對(duì)角線上配對(duì)的n個(gè)“圖像-文本”對(duì)都是正樣本,矩陣中非對(duì)角線上的N2-N個(gè)元素都是負(fù)樣本,有了正負(fù)樣本,模型就可以通過(guò)對(duì)比學(xué)習(xí)的方式去訓(xùn)練,因此不需要任何手工標(biāo)注。

        1.1.2 Zero-Shot 的推理

        在計(jì)算機(jī)視覺(jué)中,Zero-Shot 學(xué)習(xí)通常指在圖像分類中對(duì)沒(méi)見過(guò)的對(duì)象類別進(jìn)行泛化的研究[6]。CLIP 模型的預(yù)訓(xùn)練方式是預(yù)測(cè)一張圖片和一段文本在其數(shù)據(jù)集中是否匹配。為了實(shí)現(xiàn)Zero-Shot 推理,將每個(gè)數(shù)據(jù)集中所有類的名稱作為潛在文本配對(duì)的集合,并用CLIP 模型預(yù)測(cè)最可能的“圖像-文本”配對(duì),即把分類轉(zhuǎn)換為檢索問(wèn)題。

        具體到圖 1 中的提取預(yù)測(cè)類別文本特征(Create dataset classifier from label text)和Zero-Shot推理預(yù)測(cè)(Use for zero-shot prediction)部分,首先計(jì)算圖像的特征嵌入和可能分類集合的特征嵌入,然后計(jì)算這些嵌入的余弦相似度,然后用一個(gè)溫度參數(shù)進(jìn)行縮放,并通過(guò)Softmax 函數(shù)將其歸一化為概率分布。預(yù)測(cè)層是具有L2 歸一化輸入、L2 歸一化權(quán)重、無(wú)偏差和溫度縮放的多項(xiàng)式邏輯回歸分類器。圖像編碼器計(jì)算圖像的特征表示,而文本編碼器基于視覺(jué)類別的文本來(lái)生成線性分類器的權(quán)重。如對(duì)ImageNet[7]數(shù)據(jù)集上的Zero-Shot 遷移,文本編碼器需要生成1 000 個(gè)類別的表示,而且用每張圖片的特征表示和這1 000 個(gè)文本表示進(jìn)行匹配,最接近的文本特征對(duì)應(yīng)的類別就是圖像屬于的類別。

        另一方面,預(yù)訓(xùn)練之后得到的文本和圖片的特征是沒(méi)有分類標(biāo)簽的,CLIP 模型使用類似“A photo of a {label}.”模板生成分類文本。該方法比只使用標(biāo)簽文本的Baseline 性能有所提高,在ImageNet數(shù)據(jù)集上的準(zhǔn)確率提高了1.3%[5]。

        1.1.3 CLIP 模型的實(shí)驗(yàn)性能

        圖2 顯示了CLIP Zero-Shot 推理與ResNet101模型在不同的數(shù)據(jù)集(如ImgeNet 原生數(shù)據(jù)集及其篩選出的素描、動(dòng)漫等數(shù)據(jù)集和構(gòu)造的包含很多對(duì)抗樣本的數(shù)據(jù)集)測(cè)試結(jié)果的對(duì)比,隨著數(shù)據(jù)集難度的增加,ResNet101 的分類精度在一直下降,而CLIP 模型卻并沒(méi)有隨著數(shù)據(jù)集難度的加大而出現(xiàn)性能下降等情況。因此與標(biāo)準(zhǔn)ImageNet 模型相比,CLIP Zero-Shot 推理對(duì)分布偏移更具魯棒性,比基于ImageNet 數(shù)據(jù)集的標(biāo)準(zhǔn)有監(jiān)督訓(xùn)練模型要好得多。

        圖2 CLIP 模型的魯棒性實(shí)驗(yàn)結(jié)果

        1.2 CLIP 模型應(yīng)用研究現(xiàn)狀

        有學(xué)者提出了利用文字表述來(lái)對(duì)圖像進(jìn)行編輯的模型,即StyleCLIP 模型[8]。該模型借助CLIP 模型的“文本-圖像”相關(guān)性能力和StyleGAN 的圖像生成能力,通過(guò)文本驅(qū)動(dòng)生成圖像。StyleCLIP 模型提出了隱空間優(yōu)化(Latent Optimization)、隱空間映射(Latent Mapper)和全局方向(Global Directions)3 種實(shí)現(xiàn)方式,每種方式都可以實(shí)現(xiàn)編輯圖像的目的,只是在實(shí)現(xiàn)細(xì)節(jié)上有所區(qū)別。

        Google 的研究人員提出了ViLD 模型[9],這是一種通過(guò)視覺(jué)和語(yǔ)言知識(shí)蒸餾的訓(xùn)練方法。ViLD 模型由文本嵌入(ViLD-text)和圖像嵌入(ViLD-image)學(xué)習(xí)器兩部分組成。它將CLIP 圖像分類模型應(yīng)用到了目標(biāo)檢測(cè)任務(wù)上,在新增類別推理上Zero-Shot超過(guò)了有監(jiān)督訓(xùn)練的方法。

        騰訊的研究人員提出了CLIP2Video 模型[10],以端到端的方式將圖像語(yǔ)言預(yù)訓(xùn)練模型轉(zhuǎn)換為視頻文本檢索模型,即將CLIP 模型的“文本-圖像”對(duì)擴(kuò)展到“文本-視頻”對(duì),以解決視頻文本檢索問(wèn)題。該模型基于CLIP 捕獲的空間語(yǔ)義,主要通過(guò)時(shí)間差分塊(temporal difference block,TDB)和時(shí)間對(duì)齊塊(temporal alignment block,TAB)兩個(gè)模塊將圖片語(yǔ)言預(yù)訓(xùn)練模型轉(zhuǎn)換為視頻文本檢索。這兩個(gè)模塊是為了捕獲視頻幀的時(shí)間關(guān)系和視頻語(yǔ)言關(guān)系而設(shè)計(jì)的。對(duì)時(shí)間差分塊,本文在序列中加入圖像幀的差分來(lái)模擬運(yùn)動(dòng)變化;對(duì)時(shí)間對(duì)齊塊,本文將視頻序列和文本序列對(duì)齊到相同的空間,以增強(qiáng)視頻片段和短語(yǔ)之間的相關(guān)性。

        有學(xué)者提出了將跨模態(tài)注意力對(duì)比的“語(yǔ)言-圖像”預(yù)訓(xùn)練模型(CMA-CLIP)[11]用于圖文分類任務(wù),還提出了序列注意力(sequence-wise attention)和模式注意力(modality-wise attention)兩種跨模態(tài)注意力,以有效地融合來(lái)自圖像和文本對(duì)的信息。CMA-CLIP 模型在多任務(wù)分類的MRWPA 數(shù)據(jù)集上表現(xiàn)優(yōu)異。

        2 基于CLIP 模型的圖文融合搜索工具設(shè)計(jì)

        如前文所述,CLIP 模型可用于圖像分類、目標(biāo)檢測(cè)、視頻理解、圖像編輯等領(lǐng)域。由于CLIP是一種在巨量圖像和文本對(duì)上預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),我們可根據(jù)自身資源特點(diǎn)開展針對(duì)性的再訓(xùn)練,以提高自身資源檢索或分類的精度。作為這種多模態(tài)訓(xùn)練的結(jié)果,CLIP 模型可用于查找最能代表圖像的文本片段,或根據(jù)給定文本查詢最合適的圖像,圖文檢索(以文搜圖、以圖搜文、以圖搜圖等)是CLIP 模型最直接實(shí)現(xiàn)的應(yīng)用。

        2.1 構(gòu)建訓(xùn)練樣本和再訓(xùn)練

        CLIP 模型庫(kù)中有RN50、RN101、ViT-B/32、ViT-B/16 等9 個(gè)模型,本文主要針對(duì)ViT-B/32 模型進(jìn)行了再訓(xùn)練。ViT-B/32 模型用于編碼圖像特征,包括圖像分辨率、嵌入維度、Transformer 的層數(shù)、Transformer 模型頭數(shù)等輸入維度和輸出維度,參數(shù)配置表如表1 所示。

        表1 ViT-B/32 模型的參數(shù)配置

        訓(xùn)練樣本主要從自建的軍事相關(guān)圖片數(shù)據(jù)集中進(jìn)行構(gòu)建,樣本元數(shù)據(jù)字段包括圖片標(biāo)題、圖片描述、分類、圖片路徑等,數(shù)據(jù)格式保存為JSON格式。

        訓(xùn)練過(guò)程主要包括以下3 個(gè)步驟。

        第一步:通過(guò)DataLoader 函數(shù)加載一個(gè)批次(batch)的N個(gè)“文本-圖像”對(duì)。將N個(gè)文本通過(guò)文本編碼器(Text Encoder)進(jìn)行文本編碼,定義文本編碼器中每條文本編碼為長(zhǎng)度為dt的一維向量,那么這個(gè)批次的文本數(shù)據(jù)經(jīng)Text Encoder 輸出為[T1,T2,…TN],維度為(N,dt)。類似地,將N個(gè)圖像通過(guò)圖像編碼器(Image Encoder)進(jìn)行圖像編碼輸出為[I1,I2,…IN],維度為(I,di)。

        第二步:訓(xùn)練樣本T1,T2,…TN和I1,I2,…IN是一一對(duì)應(yīng)的,將這個(gè)對(duì)應(yīng)關(guān)系記為正樣本;將原本并不對(duì)應(yīng)的“文本-圖像”對(duì)標(biāo)記為負(fù)樣本,由此便產(chǎn)生N個(gè)正樣本,N2-N個(gè)負(fù)樣本,用以訓(xùn)練文本編碼器和圖像編碼器。

        第三步:計(jì)算Ii與Tj之間的余弦相似度Ii·Tj,用來(lái)度量文本與圖像之間的對(duì)應(yīng)關(guān)系。余弦相似度越大,說(shuō)明Ii與Tj的對(duì)應(yīng)關(guān)系越強(qiáng),反之越弱。即通過(guò)訓(xùn)練文本編碼器和圖像編碼器的參數(shù),最大化N個(gè)正樣本的余弦相似度,最小化N2-N個(gè)負(fù)樣本的余弦相似度。優(yōu)化目標(biāo)函數(shù)的公式為:

        2.2 多模態(tài)搜索系統(tǒng)核心流程的設(shè)計(jì)

        基于存有30 余萬(wàn)張圖片的開源軍事相關(guān)圖片數(shù)據(jù)集,設(shè)計(jì)開發(fā)了具有以文搜圖和以圖搜圖功能的服務(wù)原型系統(tǒng),核心流程如圖3 所示。

        圖3 多模態(tài)搜索服務(wù)原型系統(tǒng)流程

        多模態(tài)搜索服務(wù)原型系統(tǒng)主要包括以下3 種主體功能。一是圖片數(shù)據(jù)集預(yù)處理,將30 余萬(wàn)張圖片進(jìn)行向量化預(yù)處理,加載CLIP 模型并特征化圖片向量,形成圖片集特征化矩陣并緩存。二是通過(guò)文本編碼器進(jìn)行查詢文本的特征化,通過(guò)圖像編碼器(ViT)進(jìn)行查詢圖像的特征化。三是查詢匹配,通過(guò)線性映射層將文本和圖像特征進(jìn)行嵌入,映射到相同特征維度,同時(shí)進(jìn)行L2 標(biāo)準(zhǔn)化。將查詢文本或圖像與圖片集特征化矩陣進(jìn)行余弦相似度計(jì)算,并根據(jù)相似性對(duì)結(jié)果進(jìn)行排序。

        2.3 多模態(tài)搜索服務(wù)系統(tǒng)實(shí)現(xiàn)

        服務(wù)原型系統(tǒng)采用Django+Redis緩存框架開發(fā),系統(tǒng)分為以文搜圖和以圖搜圖兩個(gè)搜索功能區(qū)。

        圖4 是以“Aerial refueling”作為搜索文本進(jìn)行場(chǎng)景搜圖的效果展示。圖4 顯示,系統(tǒng)返回的前160個(gè)結(jié)果集合中僅有6 張圖片沒(méi)有明顯的空中加油動(dòng)作,證明系統(tǒng)以文搜圖的準(zhǔn)確率還是非常高的。圖5 為檢索“air force”文本的返回結(jié)果,檢出了噴涂有“air force”文字的美軍機(jī)和美空軍標(biāo)志,未來(lái)可在目標(biāo)文字光學(xué)字符識(shí)別(Optical Character Recognition,OCR)及目標(biāo)檢測(cè)上開展深入研究應(yīng)用。

        圖4 以文搜圖的場(chǎng)景搜圖效果展示

        圖5 以文搜圖的OCR 效果展示

        圖6 是以圖搜圖的效果展示。上傳圖片為一張無(wú)人機(jī)照片,通過(guò)以圖搜圖,不僅可以獲得相關(guān)類似甚至更高清的圖片,同時(shí)基于圖片庫(kù)還可以得到該圖片豐富的背景信息,從細(xì)覽頁(yè)得知該無(wú)人機(jī)是美海軍測(cè)試的MQ-25 無(wú)人加油機(jī)。

        圖6 以圖搜圖的效果展示

        3 結(jié)語(yǔ)

        目前,多模態(tài)檢索、預(yù)訓(xùn)練模型受到越來(lái)越多的關(guān)注,學(xué)界也興起了關(guān)于多模態(tài)檢索未來(lái)趨勢(shì)和發(fā)展的大討論,CLIP 模型在多模態(tài)搜索工具的研究上邁出了第一步,實(shí)現(xiàn)了在大規(guī)模數(shù)據(jù)的情況下模型對(duì)圖像和文本的學(xué)習(xí)能力的大幅提升。本文通過(guò)收集的大規(guī)模軍事相關(guān)圖片數(shù)據(jù)集,借助CLIP模型,設(shè)計(jì)開發(fā)了具有以文搜圖和以圖搜圖功能的多模態(tài)搜索服務(wù)原型網(wǎng)站。在實(shí)際測(cè)試中發(fā)現(xiàn),CLIP 模型對(duì)一些抽象文本也能夠檢索出不錯(cuò)的結(jié)果。下一步將圍繞針對(duì)軍事裝備相關(guān)圖片的模型微調(diào),以及在軍事裝備及事件分類、目標(biāo)檢測(cè)、人物軌跡跟蹤等方面開展分析和應(yīng)用研究。

        猜你喜歡
        模態(tài)分類特征
        分類算一算
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        国产精品综合色区在线观看| av免费在线手机观看| 男人天堂亚洲一区二区| 色又黄又爽18禁免费网站现观看| 男女爽爽无遮挡午夜视频| 天天狠狠综合精品视频一二三区| 激情文学人妻中文字幕| 国内嫩模自拍偷拍视频| 国产精品三级av及在线观看| 免费人成年小说在线观看| 99精品国产自产在线观看| 一本色道久久88加勒比综合| 成人试看120秒体验区| 国产肉丝袜在线观看| avtt一区| 亚洲精品一区二区三区四区久久| 欧美又粗又长又爽做受| 亚洲欧洲日产国码无码久久99| 色窝窝手在线视频| 中文字幕女同人妖熟女| 免费无码av一区二区三区| 精品国产三级a在线观看| 精品丝袜一区二区三区性色| 国产一区二区长腿丝袜高跟鞋| 97久久草草超级碰碰碰| 综合精品欧美日韩国产在线| 亚洲中文字幕第一第二页| 无套内射在线无码播放| 亚洲一区二区三区成人网站| 国产成人无精品久久久| 亚洲日本高清一区二区| 国产婷婷色一区二区三区在线| 国产精品原创巨作AV女教师| 亚洲天堂免费一二三四区| 亚洲成人免费av影院| 男女车车的车车网站w98免费| 中文字幕无码日韩欧毛| 水蜜桃网站视频在线观看| 欧美国产综合欧美视频| 日韩一级特黄毛片在线看| 18禁成人免费av大片一区|