亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于域特定特征的CLIP提示優(yōu)化算法

        2024-09-21 00:00:00張躍王九杭覃榮華
        現(xiàn)代電子技術 2024年18期
        關鍵詞:特征提取神經(jīng)網(wǎng)絡

        摘 "要: 當測試數(shù)據(jù)與訓練數(shù)據(jù)遵循不同的分布時,神經(jīng)網(wǎng)絡會經(jīng)歷領域轉移。領域泛化(DG)的目標是學習一個可處理未知域的通用模型,以此來解決這個問題。以往的方法通過數(shù)據(jù)增強或者特征空間對齊的方式來提取域不變特征,但在提取的過程中又會產(chǎn)生新的域特定特征,導致模型泛化的性能較差。針對這些問題,提出一個簡單而有效的框架——ERCLIP,通過ERCLIP來實現(xiàn)大規(guī)模預訓練模型CLIP在DG中的應用。ERCLIP通過主動提取域特定特征,并將其融入文本提示,實現(xiàn)圖像語義的精準描述。并且提出一個文本提示優(yōu)化器,動態(tài)地優(yōu)化提示向量。在公開數(shù)據(jù)集OfficeHome、VLCS與PACS上的實驗結果表明,ERCLIP在OfficeHome上的平均準確率為83.4%,在VLCS上為83.5%,在PACS上為96.5%,在所有算法里取得最優(yōu)結果。

        關鍵詞: 域不變特征; ERCLIP; 領域泛化; 神經(jīng)網(wǎng)絡; 特征提?。?文本提示

        中圖分類號: TN911.73?34 " " " " " " " " " " " " "文獻標識碼: A " " " " " " " " " " 文章編號: 1004?373X(2024)18?0041?06

        CLIP prompt optimization algorithm based on domain?specific feature

        ZHANG Yuewen1, 2, WANG Jiuhang1, 2, QIN Ronghua1

        (1. Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800;

        2. University of Chinese Academy of Sciences, Beijing 100049, China)

        Abstract: When the testing data and training data follow different distributions, the neural network can undergo domain shift. The goal of domain generalization (DG) is to solve this problem by learning a general model that can handle unknown domains. Previous methods can extract domain?invariant features by means of data enhancement or feature space alignment, but new domain?specific features can be generated in the process of extraction, resulting in poor model generalization performance. On this basis, a simple and effective framework ERCLIP (extracting and removing domain?specific features for CLIP) is proposed to realize the application of large?scale pre?training model CLIP in DG. ERCLIP can realize precise semantic description of images by actively extracting domain specific features and incorporating them into text prompts. The experimental results on the public datasets OfficeHome, VLCS, and PACS show that ERCLIP can realize the best results among all algorithms, with an average accuracy of 83.4% on OfficeHome, 83.5% on VLCS, and 96.5% on PACS.

        Keywords: domain?invariant feature; ERCLIP; domain generalization; neural network; feature extraction; text prompt

        0 "引 "言

        大型預訓練視覺模型的進步顯著提高了模型性能,為各種視覺任務開辟了新的發(fā)展方向。微調預先訓練好的模型是許多下游任務中常用的方法,如ResNet[1]和ViT[2]。然而,由于領域轉移(Domain Shift)[3?4],在源域上訓練的模型可能無法很好地推廣到不可見的域。在過去的10年中,領域泛化方面的大量研究都致力于尋求一種統(tǒng)一的方法,旨在最小化源域和目標域[5?6]之間的分布差異。領域泛化目標是增強模型對不同下游任務的能力。盡管學術界對領域轉移進行了廣泛的研究[7?8],但領域轉移仍然是一個持續(xù)的挑戰(zhàn),特別是在數(shù)據(jù)分布[9]存在顯著差異的情況下。值得注意的是,大型的預訓練模型可以在一定程度上緩解這個問題[10]。

        大型預訓練視覺模型,如CLIP(Contrastive Language?Image Pre?training)[11]和ALIGN[12],通過在數(shù)十億個圖像?文本對上進行訓練,不僅能夠捕捉豐富的圖像特征,還能夠理解相關的文本描述,使得它們在多模態(tài)任務中表現(xiàn)出色,并且可以提取高度泛化的圖像特征。其核心思想是用圖像的文本提示,通過比較來學習圖像表示,比如“一張{類別名稱}的照片”的提示描述。具體來說,可以將圖像和文本的表示嵌入到一個共同的向量空間中,然后通過比較這些嵌入向量的相似性,并且測量文本和圖像之間的對齊程度,從而對圖像進行分類。然而,當應用于特定任務時,手動設計的提示并不能取得令人滿意的性能。設計良好的提示對于利用預訓練模型進行下游任務至關重要。最近的研究集中在提示微調上,考慮到提示也是模型輸入的一部分,并且可以通過反向傳播進行優(yōu)化[13?15]。受到啟發(fā),本文直接在CLIP上對文本提示進行微調。

        1 "設計思路

        如圖1所示,有兩種方法可以利用CLIP進行領域泛化。第一種方法是微調CLIP的圖像編碼器[16]。本文發(fā)現(xiàn),使用CLIP訓練的骨干網(wǎng)絡在性能上優(yōu)于許多專門針對圖像訓練的其他網(wǎng)絡,如ViT和ResNet。然而,微調預訓練模型可能會扭曲其最初良好的特征表示。其中一個重要原因是數(shù)據(jù)集規(guī)模放大了特征表示中的差異,而在相對較小的數(shù)據(jù)集上更新整個CLIP不是一種有效的方法。

        另一種方法是提示學習,它專注于優(yōu)化文本提示以提高性能。這種方法的優(yōu)點在于,相較于更新整個網(wǎng)絡,只需要微調文本提示就能保留預訓練模型所學到的特征表示。這種方法的關鍵在于文本提示的質量,因為提示模板的好壞直接影響模型的性能。本文的核心思路是微調文本提示。與手動提示相比,這種方法使網(wǎng)絡能夠更好地發(fā)現(xiàn)提示,從而提高泛化性能。

        但是,領域轉移[3]帶來了新的挑戰(zhàn)。例如,卷積神經(jīng)網(wǎng)絡(CNN)往往從圖像中學習紋理特征以區(qū)分對象,而人們可以使用全局信息來識別對象。CNN在特定領域中學到的特征可能不適用于其他領域。例如,在素描風格數(shù)據(jù)中,圖像僅由線條組成,沒有紋理;而現(xiàn)實世界的圖像則通常充滿了紋理細節(jié)。在素描數(shù)據(jù)上訓練的模型在現(xiàn)實世界的圖像上可能表現(xiàn)不佳。

        基于前述觀察,本文提出了一個ERCLIP(Extracting and Removing Domain?specific features for CLIP)方法。該方法能動態(tài)調整測試示例的提示,并學習更強的跨領域通用特征表示中的語義信息。對于提示調整,一個簡單的方法是通過包含領域特定的文本描述來手動設計提示模板。然而,由于提示模板的固定性和僵化性,手動設計可能無法有效地適應任務需求。由于整個網(wǎng)絡被凍結,CLIP預訓練模型的核心特征得以最大程度的保留,使得性能穩(wěn)定提升。

        具體而言,在訓練集上訓練一個提示生成器,在給定每個分布的輸入圖像和固定長度的文本向量的情況下,保持其他網(wǎng)絡參數(shù)凍結的同時更新提示生成器。在整個訓練過程中,提示生成器從圖像中學習領域特定的特征,并將其整合到文本提示中。為實現(xiàn)這一目標,首先訓練一個只能識別特定領域圖像的領域分類器,特定分類器無法對其他領域的圖像進行分類;然后訓練一個文本提示器,該文本從原始圖像和圖像特定信息兩方面學習語義特征,從而生成更符合圖像的提示表述。

        ERCLIP框架包括文本優(yōu)化器和領域不變特征提取器兩個組件。整個框架的訓練分為兩個步驟。

        1) 訓練領域特定的分類器,每個領域都有自己的分類器,可以識別來自該特定領域的圖像,但無法識別來自其他領域的圖像。

        2) 文本優(yōu)化器利用先前分離的領域特定信息加上原始圖像特征進行訓練。在這個階段,由于加入領域特定特征,文本提示可以包含更好的語義信息。

        本文遵循Domainbed[9]的設置進行領域泛化實驗,并在3個公開可用的數(shù)據(jù)集上廣泛評估了ERCLIP的性能。

        2 "算法介紹

        2.1 "問題定義

        在領域泛化設置中,設[χ]表示輸入空間,[γ]表示輸出空間[6]。一個領域由來自特定分布的一組數(shù)據(jù)組成。對于每個數(shù)據(jù)集,[Di={xij,yij}nij=1~PiXY]。其中:[x∈χ],表示來自輸入分布的圖像;[y∈γ],代表[x]的類標簽;[PiXY]表示由來自領域[i]的數(shù)據(jù)樣本和相關標簽組成的分布。這些領域中的數(shù)據(jù)分布是不同的:[PiXY≠PjXY,1≤i≠j≤M]。其中,X和Y是來自分布的隨機變量。

        模型的目標是學習一個高效的預測器,能夠預測來自未知領域的數(shù)據(jù)。具體來說,通過利用來自多個給定領域[i∈{1,2,…,N}]的[N]個數(shù)據(jù)集[Si]來學習一個魯棒的模型[f]。

        [minf1Ni=1N1nij=1ni?fxi,j,yi,j] (1)

        式中[?](·)是損失函數(shù)。在領域泛化中,各種算法采用不同的正則化方法來防止領域之間的過擬合。例如,利用經(jīng)驗風險最小化(ERM)最小化公式(1),其目標是學習最佳的決策函數(shù)[f]。一般來說,源領域是可訪問和已標記的,而目標領域是不可訪問的。領域泛化的目標是利用來自源領域的數(shù)據(jù)提高模型在目標領域上的性能。

        2.2 "CLIP在DG中的設置

        CLIP的關鍵思想是預先訓練一個神經(jīng)網(wǎng)絡,學習圖像及其相關文本描述的聯(lián)合表示。它從文本中獲得監(jiān)督信號,并利用對比學習來創(chuàng)建具有強大性能和可擴展的預訓練語言?圖像模型。為了從自然語言中獲得感知,它使用超過4億對數(shù)據(jù)訓練了一個大型模型。

        具體來說,CLIP模型由圖像編碼器[fI]和文本編碼器[fT]兩部分組成。CLIP通過計算文本提示[p]和圖像特征之間的余弦相似度來對圖像進行分類。通常,文本提示[p]被轉換成句子,例如“一張貓的照片”。給定圖像[x]和相關的[k]個類別提示[pk],預測通過[fI]和[fT]計算:

        [yCLIP=argmaxkfI(x),fTpk] (2)

        式中:[k]是類別數(shù)量;[?,?]表示余弦相似度。

        本節(jié)采用了零樣本和微調的方法將CLIP應用于領域泛化。首先,在零樣本設置中評估了CLIP的性能。在這個設置中,凍結了CLIP模型的圖像編碼器和文本編碼器,并使用類標簽替換了原始的提示模板p。這一步的目的是測試CLIP在不進行額外訓練的情況下對不同領域的泛化性能。

        其次,將CLIP的圖像編碼器[fI]替換為常見的backbone模型,如ViT和ResNet,以便更好地適應領域泛化。在這之后,模型可以使用任何適合DG的算法來針對性地進行微調,如ERM和DANN。但是微調這樣一個龐大的模型需要大量的計算資源,并且在這個過程中CLIP原本良好的泛化性能會受到一定的扭曲,甚至表現(xiàn)得比zero?shot方法更差。zero?shot可以實現(xiàn)高效的計算,但犧牲了一定的精度。相比之下,微調可以提供更好的性能,但需要更多的計算成本,并且會導致過程中的特征被扭曲。本文針對這個問題提出了ERCLIP,以充分利用CLIP強大的泛化能力。ERCLIP算法框架圖如圖2所示。該方法包括兩個方面:一是提取領域特定特征,并將其融入文本向量;二是動態(tài)優(yōu)化文本提示p,以更好地提高DG的性能。

        2.3 "提取域特定特征

        為了提取域特定特征,使用N個領域中的[DiN]訓練N個對應領域的分類器[Fi],其中[i∈1,2,…,N],[Fi]僅使用來自[DiN]的域特定特征進行訓練,而不使用域不變特征進行更新。換句話說,[Fi]被訓練只能識別來自領域[DiN]的圖像,而不能識別來自其他領域[DkN]的圖像,[k≠i]。同時,[DkN]的數(shù)據(jù)被用來反向增加域分類器[Fi]的分類難度。換句話說,當[Fi]識別來自其他領域的圖像時,它的表現(xiàn)應該類似于隨機猜測。域分類器[Fi]通過最小化在領域[DiN]上的分類損失[?D]來實現(xiàn)訓練。

        [argminθiEDiN~DNExij,yij~DiN?DFixij;θi,yij](3)

        式中:[θi]表示域分類器F的參數(shù);損失函數(shù)[?D]為一個簡單的交叉熵損失。

        然后,域分類器[Fi]在其他領域[DkN]上最大化損失函數(shù)[?M],[i≠k]。

        [argmaxθiEDkN~DN,k≠iExij,yij~DiN?MFixkj;θi] (4)

        式中,[?M]要以zero?shot的方式進行預測,因此選用在實驗中表現(xiàn)最好的交叉熵損失。

        在整個域分類器F的訓練過程中,CLIP的文本提示保持不變,只有CLIP的圖像編碼器特征被更新。一旦訓練完成,[N]個域分類器[Fi]的參數(shù)將會被凍結,以便進行后續(xù)處理。這個設計確保了CLIP的語義理解和提示的穩(wěn)定性,同時在域特定信息的分離方面進行微調,以實現(xiàn)更好的領域泛化性能。

        2.4 "域提示優(yōu)化

        根據(jù)文獻[17]中的討論,優(yōu)化提示可以極大地提高Transformer模型的性能。由于提示向量具有有限的長度和維度,與[fI]的參數(shù)相比,它們要小得多,因此相對容易訓練。給定來自源域[DS]的數(shù)據(jù),可以使用交叉熵損失來優(yōu)化中綴向量[pin]:

        [minpinEx,y~DS?yCLIP*,y] (5)

        式中,[pin]由從原始特征[po]衍生的嵌入向量和從領域特定特征[ps]衍生的嵌入向量兩部分組成。[po]和[ps]遵循統(tǒng)一的類型:

        [p=[v]1[v]2…[v]M1[class name]k] (6)

        式中:[[v]M1]表示一個嵌入向量,其維度與單詞嵌入相同;[M1]是提示標記的數(shù)量。[yCLIP*]為:

        [yCLIP*=argmaxkfI(x),fTp*k] (7)

        式中[p*k]是通過連接[pk]和[pin]獲得的。值得注意的是,[pk]是一個超參數(shù),并且由[fTCLIP]轉換的單詞嵌入的長度是固定的。

        綜合來說,本文提出了一個提示變換器來優(yōu)化[pin]。具體來說,使用一個全連接網(wǎng)絡[F?]來從主干網(wǎng)絡生成提示[pi]:

        [pi=1Nj=1NFfIxij] (8)

        式中:[N]表示每個領域的批量大??;[xij]表示來自第[i]個領域的輸入圖像。交叉熵損失被用來優(yōu)化[F](·)。

        [minF1Mi=1M1nij=1ni?yi,yij] (9)

        [yi=argmaxkfI(x),fTp*k] (10)

        式中[p*k]是[pi]和[pk]的組合。

        2.5 "總 "結

        為了清晰起見,給出了ERCLIP的算法流程。

        輸入:N個數(shù)據(jù)集[{Di}Ni=1],一個預訓練的CLIP圖像編碼器[fI]和一個文本編碼器[fT]。

        輸出:N個域特定分類器和一個文本優(yōu)化器[F?]。

        步驟1:通過公式(3)和公式(4)來訓練域特定分類器[Fi];

        步驟2:根據(jù)公式(6)和公式(8),使用全連接網(wǎng)絡[F?]來從文本編碼器[I*]生成提示向量[pin];

        步驟3:根據(jù)公式(9)和公式(10)來更新[F?];

        步驟4:重復步驟1~步驟3直至網(wǎng)絡收斂。

        3 "實驗分析

        3.1 "數(shù)據(jù)集介紹

        Office?Home:該數(shù)據(jù)集包含來自4個不同領域的圖像,包括藝術(Art)、剪貼畫(Clipart)、產(chǎn)品(Product)和真實世界(Real World),共有65個圖像類別,包含15 588個樣本。

        VLCS:它是另一個廣泛使用的公共圖像分類基準,包含Caltech10、LabelMe、SUN09和VOC 20 074個子數(shù)據(jù)集,共有10 729個樣本,分為5類。

        PACS:它包括藝術繪畫、卡通、照片和素描4個領域,包含9 991張圖像,涵蓋狗、大象、長頸鹿、吉他、馬、房子和人7個類別。

        3.2 "超參數(shù)及實驗細節(jié)

        在實驗中,使用以ViT?B/16為骨干網(wǎng)絡的預訓練模型CLIP來提取文本和圖像特征。對于其他算法,如果沒有給出特殊的說明,使用ViT?B/16作為整體實驗的骨干網(wǎng)絡。

        根據(jù)Gulrajani的方法,基于Domainbed框架構建了整個實驗[9]。該框架提供了一種標準化的方法來評估不同領域泛化算法的性能,使得實驗可以在公平的條件下比較它們。對于每個算法,在測試域中進行了20次隨機實驗,以搜索最佳的超參數(shù)分布。實驗將每個數(shù)據(jù)集分成兩個子集,其中80%的數(shù)據(jù)用于模型訓練和評估,剩余的20%用于搜索最佳的超參數(shù)。對于所有數(shù)據(jù)集,實驗將一個領域保留用于測試,其余的領域用于訓練。然后,使用不同的隨機種子重復整個實驗3次。最終,對3次實驗的結果進行平均,并且報告了平均準確率以及相應的標準偏差,以全面評估各個算法的性能表現(xiàn)。

        完全連接的網(wǎng)絡[F](·)由一個線性層、Dropout層、tanh激活函數(shù)構成。此外,使用一個簡單的三層MLP作為編碼器?解碼器網(wǎng)絡M的結構,以及ViT?B/16作為域分類器[Fi]的骨干網(wǎng)絡。在模型訓練方面,使用標準的交叉熵損失和帶有動量的SGD作為優(yōu)化器。

        3.3 "實驗結果

        將ERCLIP在兩個方向上與現(xiàn)有的幾種經(jīng)典領域泛化算法進行了比較。首先,在DG任務中將ERCLIP算法與各種高性能算法進行了廣泛的比較,從而證明了ERCLIP的強大性能。同時,通過生成兩種獨特類型的文本提示進行了總體實驗比較,包括標準提示“一張{類別名稱}的照片”(a photo of a {class name})和“[v1v2…vm[class name]]”風格的提示。

        表1顯示了每個任務在三個主要的領域泛化基準上的泛化結果。表中“○”代表從Domainbed[9]獲取的結果;“☆”表示從T3A[14]獲取的結果;“△”表示從MIRO[18]獲取的結果。

        從這些結果中得到了以下發(fā)現(xiàn)。

        1) ERCLIP在平均泛化性能方面表現(xiàn)出色,與現(xiàn)有算法相比,在VLCS數(shù)據(jù)集上準確率平均提高了約5%,在PACS數(shù)據(jù)集上準確率平均提高了約9%,在Office?Home數(shù)據(jù)集上準確率平均提高了約15%。

        2) 與最先進的方法相比,ERCLIP在除PACS之外的所有基準測試中也都取得了最好的性能。在VLCS數(shù)據(jù)集上,ERCLIP相對于MIRO+SWAD準確率提升1.8%,在Office?Home數(shù)據(jù)集上準確率提升0.1%。

        3) 與以CLIP為骨干網(wǎng)絡的方法相比,ERCLIP也取得了顯著改進,這說明ERCLIP可以更好地利用先驗知識,并且有效地使CLIP適應未見過的領域。

        在PACS和Office?Home數(shù)據(jù)集中觀察到,對CLIP進行ERM微調會導出現(xiàn)能下降的現(xiàn)象。這是因為當預訓練數(shù)據(jù)集非常龐大并且能夠充分覆蓋測試領域的特征時,微調操作會過度調整模型的參數(shù),導致模型在源領域上過度擬合,從而影響了其在目標領域上的泛化能力。這種現(xiàn)象表明微調并不適用于所有情況,特別是在目標領域與源領域之間存在巨大差異的情況下。因此,在應用微調時,需要謹慎考慮預訓練數(shù)據(jù)集的覆蓋范圍以及目標領域與源領域之間的相似性。

        3.4 "消融實驗

        消融實驗在Office?Home上進行,采用“{class name}”作為CLIP文本提示,同時也將其作為消融實驗的baseline。加入域特定信息的統(tǒng)一提示提供帶有域提示信息的文本向量,但不優(yōu)化文本,將其作為比較標準之一。如公式(6)所示,文本提示優(yōu)化“[v1v2…vM1[class name]k]”,具有特定領域的上下文。實驗使用了域特定特征提取器和文本提示優(yōu)化器,并觀察了它們對整體性能的影響。通過消融實驗進一步驗證了ERCLIP框架的有效性。消融實驗如表2所示。結果顯示,這兩個組件都對ERCLIP框架的性能提升做出了貢獻。在CLIP中,手動提示是一個強勁的baseline,但ERCLIP仍然在準確率方面提升了3.5%。

        通過比較統(tǒng)一提示和優(yōu)化提示,實驗發(fā)現(xiàn)利用特定領域信息的優(yōu)化提示要強于不考慮特定領域上下文的統(tǒng)一提示。另外,通過將特定領域信息納入統(tǒng)一上下文,并使用文本優(yōu)化器,準確率提升了1.1%。這些結果進一步驗證了特定領域上下文的重要性,有助于模型獲取更深層次的語義信息。

        4 "結 "論

        本文提出了一種基于大規(guī)模預訓練模型CLIP的強泛化算法ERCLIP。該算法利用一個域特定特征提取器和文本提示優(yōu)化器替代更新整個模型,其增強了同一領域的分布差異的適應性,同時充分利用了CLIP的強大性能。實驗按照Domainbed關于領域泛化的設置,在三個公開可用的基準數(shù)據(jù)集上對ERCLIP進行了全面的性能評估。實驗結果證明,在Office?Home數(shù)據(jù)集上使用ERCLIP相較于baseline具有更好的性能,將準確率從79.9%提高到了83.4%。此外,ERCLIP與最先進的算法進行了比較,平均準確率為87.8%,在Office?Home上的平均準確率為83.4%,在VLCS上平均準確率為83.5%,超越現(xiàn)有算法;并在PACS上平均準確率為96.5%,接近SOTA方法。在所有公開數(shù)據(jù)集的比較中取得了最好的結果。這些結果驗證了ERCLIP的有效性,并為類似CLIP這樣的大型預訓練模型在未來領域泛化任務中的應用提供了有益見解。

        本文的主要貢獻如下。

        1) 通過引入提示學習,整合了一個文本優(yōu)化器,提升了CLIP在領域泛化上的性能。

        2) 提出了一種域特定特征提取器,能夠有效地分離域特定信息。將其融入到文本提示中可以更好地表征圖像的語義信息。

        3) 針對圖像分類任務進行了廣泛的實驗,涵蓋了公開數(shù)據(jù)集中的交叉數(shù)據(jù)。ERCLIP從文本的角度對CLIP進行了改進,并取得了巨大的性能提升。

        注:本文通訊作者為覃榮華。

        參考文獻

        [1] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2016: 770?778.

        [2] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. [2023?07?18]. https://www.xueshufan.com/publication/3119786062.

        [3] TORRALBA A, EFROS A A. Unbiased look at dataset bias [C]// CVPR '11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado, CO, USA: IEEE, 2011: 1521?1528.

        [4] BEN?DAVID S, BLITZER J, CRAMMER K, et al. A theory of learning from different domains [J]. Machine learning, 2010, 79: 151?175.

        [5] ZHOU K, LIU Z, QIAO Y, et al. Domain generalization in "vision: a survey [EB/OL]. [2023?08?07]. https://zhuanlan.zhihu.com/p/613062556.

        [6] WANG J D, LAN C L, LIU C, et al. Generalizing to unseen domains: a survey on domain generalization [J]. IEEE transactions on knowledge and data engineering, 2023, 35(8): 8052?8072.

        [7] HOU F, ZHANG Y, LIU Y, et al. Learning how to learn domain?invariant parameters for domain generalization [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2023: 1?5.

        [8] FAN Q, SEGU M, TAI Y W, et al. Normalization perturbation: a simple domain generalization method for real?world domain shifts [EB/OL]. [2023?11?07]. https://arxiv.org/pdf/2211.04393v1.

        [9] GULRAJANI I, LOPEZ?PAZ D. In search of lost domain generalization [EB/OL]. [2023?11?08]. https://www.xueshufan.com/publication/3121432811.

        [10] SHEN S, LI L H, TAN H, et al. How much can clip benefit vision?and?language tasks? [EB/OL]. [2023?07?09]. http://arxiv.org/abs/2107.06383.

        [11] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision [C]// International conference on machine learning. [S.l.]: PMLR, 2021: 8748?8763.

        [12] JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision?language representation learning with noisy text supervision [C]// International conference on machine learning. [S.l.]: "PMLR, 2021: 4904?4916.

        [13] LESTER B, AL?RFOU R, CONSTANT N. The power of scale for parameter?efficient prompt tuning [EB/OL]. [2023?06?04]. https://www.xueshufan.com/publication/3212487317.

        [14] SHU M, NIE W, HUANG D A, et al. Test?time prompt tuning for zero?shot generalization in vision?language models [J]. Advances in neural information processing systems, 2022, 35: 14274?14289.

        [15] GE C, HUANG R, XIE M, et al. Domain adaptation via prompt learning [J]. IEEE transactions on neural networks and learning systems, 2023(2): 1?11.

        [16] LU W, HU X, WANG J D, et al. FedCLIP: fast generalization and personalization for CLIP in federated learning [J]. IEEE data engineering bulletin, 2023, 46(1): 52?66.

        [17] ZHOU K, YANG J, LOY C C, et al. Learning to prompt for vision?language models [J]. International journal of computer vision, 2022, 130(9): 2337?2348.

        [18] CHA J, LEE K, PARK S, et al. Domain generalization by mutual?information regularization with pre?trained models [C]// European Conference on Computer Vision. [S.l.]: Springer, 2022: 440?457.

        猜你喜歡
        特征提取神經(jīng)網(wǎng)絡
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于DSP的直線特征提取算法
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內LBS應用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
        基于MED和循環(huán)域解調的多故障特征提取
        基于神經(jīng)網(wǎng)絡分數(shù)階控制的逆變電源
        日韩精品内射视频免费观看| 精品中文字幕精品中文字幕 | 国产在线一区二区三区av| 国产精品毛片av一区二区三区| 日本在线观看三级视频| 免费av片在线观看网址| 影音先锋色小姐| 国产精品美女久久久浪潮av| 国产自精品在线| 国产亚洲av综合人人澡精品| 精品精品国产自在97香蕉| 国产又色又爽无遮挡免费动态图| 在线a人片免费观看高清| 亚洲禁区一区二区三区天美| 亚洲欧美日韩中文字幕一区二区三区| 欧美白人最猛性xxxxx| 国产熟女av一区二区三区四季| 人妻少妇精品视中文字幕免费| 无码精品人妻一区二区三区av | 国产精品蝌蚪九色av综合网| 免费无码av一区二区| 国产精品一区二区久久精品| 日本一区二区不卡超清在线播放| 91国产精品自拍在线观看| 丰满大爆乳波霸奶| 日韩av精品国产av精品| 国产福利免费看| 久久综合激激的五月天| 在线观看国产成人av天堂野外| 国产av无码专区亚洲avjulia| 中国亚洲女人69内射少妇| 宅男久久精品国产亚洲av麻豆| 自拍偷区亚洲综合第一页| 在办公室被c到呻吟的动态图 | 国内精品一区二区2021在线| 日本精品av中文字幕| 丝袜美腿av在线观看| 国产精品无码成人午夜电影| 最新国产女主播福利在线观看| 色婷婷一区二区三区四| 日本少妇高潮喷水视频|