亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

管理域算法

2019-01-09 03:00:12曾遠(yuǎn)柔

實(shí)驗(yàn)技術(shù)與管理 2018年12期

佘鳳, 曾遠(yuǎn)柔

(1. 黃岡職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系, 湖北黃岡 438002； 2. 長江工程職業(yè)學(xué)院計(jì)算機(jī)科學(xué)系, 湖北武漢 430074)

分類器中的數(shù)據(jù)通常與要處理的數(shù)據(jù)不一樣,當(dāng)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)提出訓(xùn)練集和測試集來源于相同的數(shù)據(jù)分布時(shí),許多應(yīng)用并不贊同此說法,如機(jī)器視覺[1]和自然語言處理等。為處理此情況,可使用從源頭到目標(biāo)的轉(zhuǎn)換,提出兩種領(lǐng)域間的分布傳輸,而域自適應(yīng)法[2-4]中的兩種主要類別都是可行的。如文獻(xiàn)[5]中顯示域自適應(yīng)法夠接觸到目標(biāo)領(lǐng)域中的一些被標(biāo)記過的例子以及數(shù)據(jù)。文獻(xiàn)[6]通過集中提出統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)問題,并提出解決此類問題的新方法,針對雙語網(wǎng)站的識別和定位,提出一種基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識別方法,實(shí)驗(yàn)結(jié)果證實(shí),在相同測試集下,特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能獲得顯著提升,驗(yàn)證該方法的有效性。文獻(xiàn)[7]中提出一種中間子空間的順序,此子空間沿著測地線路徑連接源子空間和目標(biāo)子空間。如文獻(xiàn)[8]中源數(shù)據(jù)與目標(biāo)數(shù)據(jù)都被輸入中間線性子空間中,此空間分布在鏈接2個(gè)原始空間的最短的測地線路徑周圍。這些子空間的方法雖然有效,成本卻很大,且會受到干擾。文獻(xiàn)[9]圍繞中文分詞領(lǐng)域自適應(yīng)的課題,針對大規(guī)模人工分詞訓(xùn)練語料難以獲得的問題,提出基于主動學(xué)習(xí)的中文分詞方法。文獻(xiàn)[10]中通過優(yōu)化單一線性繪圖函數(shù)直接將源子集與目標(biāo)子集連接起來。此方法不僅被證明比最新的其他方法要好,而且在閉合形式下也是可計(jì)算的。

文獻(xiàn)[10]面臨著兩個(gè)主要的問題。首先,文獻(xiàn)[11]方法指出兩種分布間的傳輸能通過線性傳輸?shù)靡约m正,但這很容易被許多現(xiàn)實(shí)世界的應(yīng)用所推翻;其次,此方法指出在實(shí)行、適應(yīng)時(shí),需要所有的源案例及目標(biāo)案例,然而在大多數(shù)情況下,只有一個(gè)源數(shù)據(jù)的子集會與目標(biāo)域分布相似,反之亦然。為此,本文將用以下方式處理這2個(gè)問題：一是從兩種域中選取界標(biāo)來減少源分布與目標(biāo)分布的不一致性；二是使用關(guān)于界標(biāo)選取的高斯核函數(shù)將源數(shù)據(jù)與目標(biāo)數(shù)據(jù)輸入共享空間中,這使得從數(shù)據(jù)庫中捕捉到非線性變得容易；三是提出一個(gè)線性繪圖函數(shù)將源子空間與目標(biāo)子空間連接起來,這只需要簡單地計(jì)算出源維度數(shù)量與目標(biāo)維度數(shù)量之間的內(nèi)積。通過實(shí)驗(yàn)證明該方法優(yōu)于當(dāng)前的域自適應(yīng)法。

1 自適應(yīng)法擬定域

自適應(yīng)法擬定的域是針對域自適應(yīng)的以界標(biāo)為基礎(chǔ)的子空間對接法,是完全無人監(jiān)督的,因此在執(zhí)行域自適應(yīng)時(shí),不需要任何標(biāo)注。從源域中獲取的被標(biāo)注部分只用于隨后提出分類器。

源數(shù)據(jù)(S)和目標(biāo)數(shù)據(jù)(T)被認(rèn)為是分別從源分布DS和目標(biāo)分布DT中獲取而來。域自適應(yīng)指出,源分布與目標(biāo)分布是不一樣的,但它們也有一些相似之處,這使得將在源域中提出所得放入目標(biāo)域中成為可能。不一樣的是,若有一套LS的源案例,它們就能用于提出適合目標(biāo)域的分類器。

通過下述方法將兩種觀點(diǎn)結(jié)合起來。首先,將源案例與目標(biāo)案例輸入到有關(guān)選取好的界標(biāo)的普通子空間中。接著,在兩種域中運(yùn)行子空間對齊。在S和T中選取出界標(biāo)后,使用高斯核將其所有的點(diǎn)輸入到界標(biāo)中,用KS和KT重新展現(xiàn)源點(diǎn)與目標(biāo)點(diǎn),并通過子空間對齊法完成映射。

與文獻(xiàn)[11]相比,通過兩步法在捕捉非線性時(shí),既保持準(zhǔn)確性,操作又簡單快捷。接著通過仔細(xì)分析從多尺度界標(biāo)選取到子空間對齊和分類方法中的每一個(gè)步驟。

2 設(shè)定多尺度界標(biāo)及核投影

本文方法的第一步就是選取一些點(diǎn)作為界標(biāo)。直觀來看,一套好的界標(biāo)能將源數(shù)據(jù)與目標(biāo)數(shù)據(jù)輸入到共享空間中,使得它們的分布更加相似。該方法從S和T中選取界標(biāo)且未使用過任何其他標(biāo)記。界標(biāo)選取最終輸出：A={α1,α2,...},其中A?S∪T,為避免昂貴的重復(fù)優(yōu)化法,通過提出一種直接法,其能判斷是否該保留某個(gè)點(diǎn)作為界標(biāo)。

2.1 設(shè)定界標(biāo)

事實(shí)中,通過界標(biāo)選取法把從特征選取(S∪T)的每一個(gè)c點(diǎn)都當(dāng)作備選界標(biāo),并獨(dú)立提出每一個(gè)備選界標(biāo)。對備選界標(biāo)執(zhí)行質(zhì)量檢測,若檢測高于閾值,就將其設(shè)定為界標(biāo)。為評估備選c的質(zhì)量,首先要用高斯分布的標(biāo)準(zhǔn)誤差s,計(jì)算其與p∈S∪T所有點(diǎn)的相似性,界標(biāo)K(c,p)公式如下：

(1)

式中p為核基半徑。

計(jì)算備選界標(biāo)c的質(zhì)量來作為源點(diǎn)與目標(biāo)點(diǎn)中K值分布的重復(fù)。因此,在使用核基以后,若源點(diǎn)與目標(biāo)點(diǎn)的分布是相似的,那它就是一個(gè)好界標(biāo)。

2.2 分析多尺度捕捉數(shù)據(jù)屬性

式(1)中的核基半徑p值很重要,因其設(shè)定備選界標(biāo)中相鄰界標(biāo)的大小,為給定的界標(biāo)選取準(zhǔn)確的s值,且能在準(zhǔn)確范圍內(nèi)捕捉到本地現(xiàn)象,并更好地將源分布與目標(biāo)分布對齊。由于s的極端值會將源點(diǎn)分配的目標(biāo)點(diǎn)完美地匹配起來：K值會變成0(當(dāng)s接近0的時(shí)候)或1(當(dāng)s非常大時(shí)),故應(yīng)當(dāng)避免。

計(jì)算備選界標(biāo)的質(zhì)量事實(shí)中是做一個(gè)多尺度分析：通過選取最佳的s來捕捉數(shù)據(jù)的本地屬性,同時(shí)避免s的極端值。為達(dá)到這個(gè)目的,通過計(jì)算所有元素對中歐幾里得距離的分布,并嘗試分布的每一個(gè)百分位數(shù)。有這個(gè)以百分位數(shù)為基礎(chǔ)的方法,通過嘗試一串s值,其結(jié)果貌似都是可信的。通過計(jì)算s中源分布和目標(biāo)分布之間的重復(fù),保留備選界標(biāo)中質(zhì)量檢測最佳的一個(gè)。

2.3 重復(fù)標(biāo)準(zhǔn)分布

對于備選界標(biāo)c和標(biāo)尺(標(biāo)準(zhǔn)誤差)s,通過計(jì)算出2個(gè)K值集中的重復(fù)度：源點(diǎn)中的KVS和目標(biāo)點(diǎn)中的KVT。為降低計(jì)算成本,兩種分布都被近似為普通分布,并用標(biāo)準(zhǔn)誤差公式實(shí)施總結(jié)：μS,σS,μT,σT。為能使用固定閾值并對其賦予意義,通過采用一種標(biāo)準(zhǔn)重復(fù)計(jì)算法以下：

(2)

(3)

(2)中的分母與給定σsum(由μS=μT中獲得)中分子的最大值一致。分母作為一種歸一元素,當(dāng)分布完美匹配且給出更簡單的解釋時(shí),將重復(fù)設(shè)定為1,有助于閾值th的選取。

2.4 設(shè)定界標(biāo)投影

S∪T中的每一個(gè)核基半徑素p都通過使用有著標(biāo)準(zhǔn)誤差的高斯核基被投影到界標(biāo)αj∈A中,

(4)

整體來看,S和T中所有元素都被投影到普通空間內(nèi)。由于有界標(biāo),這些普通空間有許多維度。仿照其他非線性法,通過在隨機(jī)從S∪T中提取的要素對間將σ設(shè)定置成中間距離。也通過一些交叉驗(yàn)證選取σ的值。在投影以后,最終獲得源與目標(biāo)的新代表,分別是KS和KT。

2.5 對齊子空間

在采用非線性投影集KS和KT后,實(shí)施子空間對齊法。主成分分析(PCA)分別用于域中,提取擁有最大子空間維度數(shù)量的d子空間維度數(shù)量。根據(jù)文獻(xiàn)[11]中的理論,能設(shè)定d的最佳值,因文獻(xiàn)[11]中提出一個(gè)基于標(biāo)準(zhǔn)集中不平等的關(guān)于維度數(shù)量的一致性定理,其可以在2個(gè)連續(xù)維度數(shù)量的誤差中找到界限。通過利用此界限有效地調(diào)整主成分分析中的子空間維度數(shù)量d。源域和目標(biāo)域中的d子空間維度數(shù)量分別由XS和XT表示。域中的每個(gè)要素都能分別被投影到其子空間KSXS和KTXT中。

子空間對齊的目的是找到線性轉(zhuǎn)換M,M能將源子空間維度數(shù)量最好地投影到目標(biāo)子空間維度數(shù)量中。此外,通過找到M來減小源維度數(shù)量和目標(biāo)維度數(shù)量之間歐幾里得距離的數(shù)量。此減少等同于下列弗羅賓尼斯范數(shù)：

(5)

對齊轉(zhuǎn)化M將要素從源特征空間中映射到目標(biāo)特征空間,其能通過計(jì)算KSXSM,將投影好的源要素KSXS作為投影好的目標(biāo)要素KTXT帶到相同的特征空間中。此算法是以選取的界標(biāo)為基礎(chǔ)的子空間對齊(LSSA),其偽代碼見如下算法:

算法1：LSSA：以界標(biāo)選取為基礎(chǔ)的子空間對齊和分類

要求：S,T,源標(biāo)記Ls, th,子空間維度d。

保證：Lt是T中要素的預(yù)估標(biāo)記

A←choose_landmarks(S,T,th)

σ←median_distance(S∪T)

KS←project_using_kernel(S,A,σ)

KT←project_using_kernel(T,A,σ)

XS←PCA(KS,d)

XT←PCA(KT,d)

PS←KSXSM

PT←KTXT

classifier←learn_classifier(PS,LS)

LT←classifier(pT)

3 實(shí)驗(yàn)與結(jié)論

本文實(shí)驗(yàn)?zāi)康模旱谝?提出界標(biāo)選取法的表現(xiàn),即是處理與其他界標(biāo)選取法相比較而言的無人管理的圖像域自適應(yīng)；第二,希望證明在與子空間對齊法聯(lián)合使用時(shí),此法在自適應(yīng)領(lǐng)域有巨大的提升,包括文獻(xiàn)[10-11]中描述的最好、最新的方法。

3.1 實(shí)驗(yàn)與數(shù)據(jù)集設(shè)定

本文在圖像域自適應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)集中實(shí)施實(shí)驗(yàn)。通過所使用的辦公數(shù)據(jù)集[12]包括從攝像頭中獲取的圖像(用W表示),從數(shù)字SLR相機(jī)中取得的圖像(用D表示)和從百度中取得的圖像(用A表示)。此外,還運(yùn)用一些大學(xué)實(shí)驗(yàn)圖像[8](用C表示)。每一個(gè)數(shù)據(jù)集都為10種類別提供不一樣的圖像。因此,通過能從4個(gè)數(shù)據(jù)集(A,C,D,W)中獲取到12種域自適應(yīng)子問題。其中一個(gè)數(shù)據(jù)集扮演源S的角色,而另一個(gè)被看作是目標(biāo)T。本文通過符號S→T證實(shí)一個(gè)域自適應(yīng)問題。目的是從被標(biāo)注的源S中提出一個(gè)SVM分類器(使用SVM的線性核基),并將其配置到目標(biāo)T上。根據(jù)參考文獻(xiàn)[7-8,10, 12]中的標(biāo)準(zhǔn)協(xié)議得到源案例和目標(biāo)案例。

界標(biāo)選取法的比較：為完成這個(gè)實(shí)驗(yàn),通過將該方法(表1中的MLS)域下列3中基線實(shí)施比較。

隨機(jī)選?。和ㄟ^隨機(jī)選出500個(gè)界標(biāo)(每個(gè)域中250個(gè)),并重復(fù)5次,得到一個(gè)平均表現(xiàn)。

無界標(biāo)選?。和ㄟ^將所有源案例與目標(biāo)案例作為界標(biāo)。

所有的備選界標(biāo)都采用相同的標(biāo)準(zhǔn)誤差σ。σ被設(shè)定為最標(biāo)準(zhǔn)的誤差(對此條基線有利),這有助于獲取兩種分布之間最大重復(fù)的平均值[13]。對于MLS和σ-LS,本文將重復(fù)率固定為0.3來選取界標(biāo)。由于規(guī)范化,0.3的閾值等同于30%的重復(fù)率。本文還將MLS域其他界標(biāo)選取法實(shí)施比較,即用界標(biāo)連接點(diǎn)法(CDL)。測地線流內(nèi)核(GFK)[8]中中間子空間的順序分布在連接源域與目標(biāo)域的測地線路徑兩旁。一步子空間對齊法(SA)方法經(jīng)過提出2個(gè)子空間的線性轉(zhuǎn)化而提出。文獻(xiàn)[12]中提到的轉(zhuǎn)化聯(lián)結(jié)匹配法(TJM)，此方法是基于特征匹配和案例權(quán)重的最近提出的方法。

此外,本文在兩種基線下實(shí)施實(shí)驗(yàn)。第一種并沒有實(shí)施任何的自適應(yīng)(NA)；第二種在源域和目標(biāo)域中實(shí)行2個(gè)獨(dú)立的KPCA,并用SA算法(用KPCA+SA表示)提出線性轉(zhuǎn)化。

3.2 分析結(jié)果

表1中RD 、ALL、σ-LS 、CDL、 MLS分別表示無人管理自適應(yīng)法的5種界標(biāo)。做出如下結(jié)論：首先,平均來說,本文的方法(使用學(xué)生成對測試)大大優(yōu)于其他方法(平均精確度Avg為48.1%)，在12個(gè)域自適應(yīng)任務(wù)中,MLS在8個(gè)子問題中的精準(zhǔn)度都是最佳的；其次,對于兩種子問題(W→D和D→W),ALL更好些。這意味著將所有源案例和目標(biāo)案例保留在這兩種對稱情形中比試圖尋找界標(biāo)要好些。值得一提的是[14],這兩種子問題都是最簡單的問題,它們有著最高的精準(zhǔn)度,證明保留所有數(shù)據(jù)的好處。此外,通過的方法在12中問題中的10種中都比CDL有優(yōu)勢,而且CDL在半無人管理的域自適應(yīng)情境中是專門選取界標(biāo)的。最后,單一尺度法(采用固定σ)并不是很好。這證實(shí)在MLS中,為每一個(gè)界標(biāo)選取最好的活動半徑是多么重要。為MLS為每一個(gè)域自適應(yīng)子問題選取出界標(biāo)的分布。這證實(shí)即使沒有類別信息,本文的方法仍然能在各種類別中做出平衡選取。

表1 關(guān)于12個(gè)無人管理的域自適應(yīng)子問題的5種界標(biāo)選取法的比較

與當(dāng)前最新的無人管理自適應(yīng)法作比較。表2給出最新的無人管理子空間對齊域自適應(yīng)法的實(shí)驗(yàn)結(jié)果。值得注意的是,本文的LSSA法在12種中的7種子問題上都比其他方法表現(xiàn)好,同時(shí)TJM在剩下的5中方法中表現(xiàn)更好。然而,平均來看,LSSA大大優(yōu)于TJM(52.6%對50.5%)。此外,TJM的時(shí)間復(fù)雜性遠(yuǎn)遠(yuǎn)大于其他方法,因其需要解決一個(gè)不小的優(yōu)化問題,而本文的方法包含的針對界標(biāo)選取的貪心策略和針對子空間對齊封閉解更加有效。TJM和LSSA的精準(zhǔn)度的差別在于,前者采用權(quán)重機(jī)制,主要能將兩種域移動得更近一些,而后者通過高斯假設(shè)定,同時(shí)考慮到方式及界標(biāo)數(shù)據(jù)分布的標(biāo)準(zhǔn)誤差。從表2中可以看到,LSSA遠(yuǎn)遠(yuǎn)優(yōu)于SA,LSSA能捕捉到非線性,這是SA難以與其比較的。然而,考慮非線性的方式也是一個(gè)關(guān)鍵。的確,正如KPCA+SA所表示的那樣,在子空間對齊之前執(zhí)行2個(gè)獨(dú)立的KPCA會導(dǎo)致最壞的結(jié)果。

表2 無監(jiān)督方法的比較

4 結(jié)語

首先,從源S和目標(biāo)T中選取界標(biāo)將源分布與目標(biāo)分布間的映射最大化；然后,在選取好的界標(biāo)上應(yīng)用高斯核,以得到新的源點(diǎn)(KS)與新的目標(biāo)點(diǎn)(KT)；接著,在執(zhí)行有關(guān)維度數(shù)量的子空間對齊之前,實(shí)行2個(gè)獨(dú)立的PCA；最后,從被標(biāo)注的源數(shù)據(jù)中提出分類器,并將其執(zhí)行到目標(biāo)域中。在圖像域自適應(yīng)的大量實(shí)驗(yàn)證實(shí)：所提方法選取出的界標(biāo)能降低領(lǐng)域之間的不一致性,用于非線性項(xiàng)目,能呈現(xiàn)出有效子空間對齊的數(shù)據(jù),優(yōu)于其他無人管理域自適應(yīng)算法。