王 晶,莫緒軍,朱常玉
(品茗科技股份有限公司,浙江 杭州)
設(shè)計(jì)基于識(shí)別模型泛化能力提高的目標(biāo)識(shí)別算法要充分分析當(dāng)前跨域識(shí)別問(wèn)題和需求,將統(tǒng)計(jì)學(xué)習(xí)作為基礎(chǔ),設(shè)定概率分布適配方法,著力解決傳統(tǒng)目標(biāo)識(shí)別方法中只能借助目標(biāo)域數(shù)據(jù)的聚類結(jié)構(gòu)分布適配的問(wèn)題。運(yùn)用結(jié)構(gòu)化聯(lián)合分布適配方法,建立條件聯(lián)合分布模型,修正分布差異,以此保證算法具備高泛化能力。因此,下文將重點(diǎn)就目標(biāo)識(shí)別算法模型構(gòu)建與驗(yàn)證展開深入分析。
學(xué)習(xí)目標(biāo)可分成降低源域損失ls(Xs,Ys)以及縮小目標(biāo)域與源域數(shù)據(jù)分布距離d(Xs,Xt)兩部分,所設(shè)計(jì)的學(xué)習(xí)框架為:
其中,函數(shù)框架的關(guān)鍵在于如何縮小d(Xs,Xt)數(shù)值[1]。根據(jù)條件分布距離和邊緣分布距離,設(shè)定源域與目標(biāo)域分別為Ds與Dt,所對(duì)應(yīng)的概率分布分別為ps和同時(shí)分別為ps和pt采集樣本,其中M 為樣本維度[2]。設(shè)定特征變換函數(shù),設(shè)計(jì)目標(biāo)域數(shù)據(jù)與定義源域數(shù)據(jù)間的邊緣分布距離公式為:
式中:φ 和i 分別代表目標(biāo)域和源域樣本數(shù)量。計(jì)算是將參數(shù)改變,能夠得到最小值,此值即為邊緣分布適配[3]。同理可得當(dāng)存在目標(biāo)域與源域樣本標(biāo)簽是同時(shí)對(duì)應(yīng)的目標(biāo)域與定義源域條件分布距離公式為:
式中:λ為權(quán)重系數(shù),且djoin(Xs,Xt)=dmar(Xs,Xt)+dcnd(Xs,Xt)。
基于目標(biāo)識(shí)別泛化能力提高設(shè)計(jì)目標(biāo)識(shí)別算法要引入SJDA 模型,經(jīng)過(guò)優(yōu)化,所得到的總體目標(biāo)函數(shù)為:
第一、二項(xiàng)分別為源域識(shí)別損失函數(shù)和聯(lián)合分布差異djoin=dmar+dcnd,θφ, θW,θcls為參數(shù),λ 為權(quán)重系數(shù)。分別從訓(xùn)練預(yù)識(shí)別模型、預(yù)測(cè)結(jié)構(gòu)化偽標(biāo)簽和優(yōu)化整體目標(biāo)函數(shù)方向?qū)υ心P陀枰酝晟?,最終得到的第二項(xiàng)形式為:
式中:μ 為懲罰因子,ht,hs代表從目標(biāo)域和源域所提取的樣本特征,來(lái)源于特征提取模塊,且按照Lipschitz約束要求,Pgrad符合梯度懲罰項(xiàng)設(shè)置需要,滿足為滿足目標(biāo)域與源域聯(lián)合分布適配需求,應(yīng)當(dāng)保證聯(lián)合分布差異取最小值,運(yùn)用梯度下降法,調(diào)整參數(shù),并循環(huán)迭代步驟:(1)執(zhí)行迭代;(2)利用源域樣本集合(Xs,Y)s優(yōu)化式的第一項(xiàng),初步學(xué)習(xí)fφ和fcls;(3)用偽標(biāo)簽預(yù)測(cè)算法為目標(biāo)域樣本Xt預(yù)測(cè)偽標(biāo)簽,達(dá)到收斂整個(gè)過(guò)程的效果[5]。
運(yùn)用統(tǒng)計(jì)學(xué)習(xí)理論,估計(jì)并分析所設(shè)計(jì)目標(biāo)識(shí)別算法的誤差邊界。假定識(shí)別模型f=F,使得,將其作為假設(shè)函數(shù),其中為F 函數(shù)空間。設(shè)置識(shí)別模型的VC維為d,期望風(fēng)險(xiǎn)分別位于目標(biāo)域和源域上,用符號(hào)εs(f)和εt(f)分別代表。并且設(shè)定目標(biāo)域與源域的分布散度為dHΔH。由此,根據(jù)公式:
可以準(zhǔn)確分析識(shí)別算法模型目標(biāo)域與源域期望風(fēng)險(xiǎn),其中,式中Ω、e、n 分別代表理想聯(lián)合假設(shè)的期望風(fēng)險(xiǎn)、自然對(duì)數(shù)基底和訓(xùn)練樣本數(shù)量[6]。
通過(guò)估計(jì)目標(biāo)域與源域標(biāo)簽樣本可得到期望風(fēng)險(xiǎn),引入偽標(biāo)簽計(jì)算最終數(shù)值,以此近似等于真實(shí)情況下的聯(lián)合假設(shè)期望風(fēng)險(xiǎn)。令作為目標(biāo)域數(shù)據(jù)集合,nt表示樣本與偽標(biāo)簽共同組成,代表無(wú)標(biāo)簽?zāi)繕?biāo)域樣本數(shù)量。根據(jù)假設(shè)函數(shù),其所對(duì)應(yīng)的期望風(fēng)險(xiǎn)符合≤ρ關(guān)系,預(yù)測(cè)錯(cuò)誤率用ρ 表示。最終形成的誤差邊界計(jì)算公式為:
本研究所設(shè)計(jì)的目標(biāo)識(shí)別模型可從以下兩方面達(dá)到優(yōu)化效果:
(2)此種算法符合結(jié)構(gòu)化偽標(biāo)簽預(yù)測(cè)算法,整體能夠?qū)崿F(xiàn)錯(cuò)誤預(yù)測(cè)率降低的目標(biāo),可對(duì)不等式最后一項(xiàng)予以縮小。
總的來(lái)看,基于識(shí)別泛化能力所設(shè)計(jì)的目標(biāo)識(shí)別算法具備可行性和正確性,能夠展示出良好理論誤差邊界特性,滿足跨域識(shí)別基本要求。
上文闡釋了于識(shí)別泛化能力所設(shè)計(jì)的目標(biāo)識(shí)別算法基本模型,為切實(shí)從嚴(yán)謹(jǐn)角度衡量此算法是否可行,需采取性能驗(yàn)證辦法,在選定性能驗(yàn)證手段后,設(shè)置實(shí)驗(yàn)參數(shù)。經(jīng)過(guò)計(jì)算,生成與其他方法對(duì)比的結(jié)果,從數(shù)據(jù)角度判定目標(biāo)識(shí)別算法是否實(shí)用。性能評(píng)價(jià)與結(jié)果分析的具體過(guò)程如下:
運(yùn)用通用跨域識(shí)別算法評(píng)估協(xié)議基本方法優(yōu)化性能評(píng)價(jià)任務(wù),設(shè)計(jì)12 組任務(wù),分別為:C→I、I→C、C→P、P→C、C→B、B→C、I→P、P→I、I→B、B→I、P→B、B→P 和A→W、D→W、W→D、A→D、D→A、W→A、A→C、W→C、D→C、C→A、C→W、C→D。并使用平均準(zhǔn)確率評(píng)價(jià)算法識(shí)別性能,對(duì)應(yīng)的公式是:
式中:N、I 分別表示樣本總數(shù)和指標(biāo)函數(shù)。通過(guò)計(jì)算平均準(zhǔn)確率均值判定算法性能,對(duì)應(yīng)公式為:
式中:ntask表示跨域識(shí)別任務(wù)總數(shù)。
本研究設(shè)置10 次實(shí)驗(yàn),將基于CNN、JDA、LCS 設(shè)計(jì)的算法性能驗(yàn)證結(jié)果與本研究所提出基于提高識(shí)別泛化能力的算法性能驗(yàn)證對(duì)比,結(jié)果于表1 和2 出示。
通過(guò)讀表能夠發(fā)現(xiàn),基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)的算法模型性能優(yōu)越,相較于CNN 方法,此種算法可達(dá)到mAAc8.6%的提升,且準(zhǔn)確率高于其他算法,具備泛化能力高的特點(diǎn)。另外,相對(duì)于CNN 方法,基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)的算法在實(shí)際運(yùn)用中,平均識(shí)別準(zhǔn)確率降低了1.3%左右,該方式在具體運(yùn)用中性能影響程度較低,在使用時(shí)整體性能超出了CNN 方法,在本次研究中通過(guò)網(wǎng)絡(luò)學(xué)習(xí)特征關(guān)系,提升識(shí)別性能。除此之外,基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)的算法在運(yùn)用中超出了LSC 方式,主要是由于基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)的算法在運(yùn)用中具備域不變性的特征,模型的跨域識(shí)別性能得到了有效提高,可滿足識(shí)別泛化能力需求。根據(jù)表2 實(shí)驗(yàn)結(jié)果分析,基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)的算法中,SJAD、LSC、JDA 以及CNN 等目標(biāo)識(shí)別算法的使用,對(duì)于識(shí)別性能所產(chǎn)生的影響存在差異性,可以在不同條件下合理運(yùn)用以上方式,也表明了SJAD、LSC、JDA 以及CNN 技術(shù)的應(yīng)用具有合理性與重要性。
表2 借助物體分類實(shí)驗(yàn)Office-Caltech 數(shù)據(jù)集各算法的實(shí)驗(yàn)對(duì)比結(jié)果(%)
根據(jù)以上實(shí)驗(yàn)表明,在對(duì)基于泛化能力的目標(biāo)識(shí)別算法中,對(duì)各項(xiàng)技術(shù)提升泛化能力的貢獻(xiàn)進(jìn)行研究時(shí),通過(guò)屬性特征以及不同特征之間的關(guān)系,直觀地表明了基于識(shí)別目標(biāo)泛化能力提高所設(shè)計(jì)算法具備縮小數(shù)據(jù)域之間的分布差異,通過(guò)參數(shù)敏感性分析,對(duì)目標(biāo)泛化能力研究中,全面驗(yàn)證了該方式在不同條件下具備適用性與穩(wěn)定性,可在不同條件下加以運(yùn)用。
綜上所述,基于識(shí)別泛化能力提高要求,為達(dá)到跨域識(shí)別目標(biāo),引入SIDA 方法設(shè)計(jì)目標(biāo)識(shí)別算法,最終得出公式為:的結(jié)論。經(jīng)過(guò)誤差邊界估計(jì)與分析,確定此算法可行。同時(shí),與CNN、JDA、LCS 設(shè)計(jì)的算法進(jìn)行比較,得出此種算法具備泛化能力高特點(diǎn)的結(jié)論,證明此種算法可直接應(yīng)用于跨域目標(biāo)識(shí)別計(jì)算中,在目標(biāo)識(shí)別算法設(shè)計(jì)領(lǐng)域具有研究前景。