亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于壓縮編碼的遷移學習算法研究

        2018-02-07 01:47:37
        計算機工程與應用 2018年3期
        關(guān)鍵詞:實例分類器層面

        邵 浩

        上海對外經(jīng)貿(mào)大學,上海 200336

        1 引言

        現(xiàn)有機器學習算法在面臨實際應用中的新問題時,通常需要重新建模。這樣雖然能夠根據(jù)問題特性建立合適的模型,但將會導致三個問題,第一個問題是在新任務上構(gòu)建新模型的耗費很大,包括時間成本和人力成本;第二個問題是在實際情況下,對新任務的信息一般了解較少,無法保證模型的準確性和魯棒性,從而導致結(jié)果的偏差;第三個問題是已有模型和數(shù)據(jù)由于無法適應新任務需求而被大量丟棄,造成資源浪費。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的更新速度越來越快,數(shù)量越來越多,新的任務通常只具有極少數(shù)訓練樣本,也無法滿足訓練樣本和測試樣本具有相同數(shù)據(jù)分布的條件,而且傳統(tǒng)的建模方法沒有合適的機制挖掘利用舊數(shù)據(jù)庫中的有效信息,已經(jīng)不適合解決此類問題。一個典型的例子是醫(yī)療診斷,近年來,H7N9流感和埃博拉等新疾病的出現(xiàn),對社會造成了重大影響。然而,從發(fā)現(xiàn)病癥到確診,再到有效救治,需要經(jīng)過很長的時間,其中重要的原因就是,當新疾病出現(xiàn)時,往往只有極少數(shù)確診病例,而且針對病情的信息也所知甚少,由于沒有經(jīng)驗數(shù)據(jù),對于新病癥的確診也極為困難,大量的病人被當作普通流感治療,從而耽誤了救治的黃金時間。同時,由于病毒變體的出現(xiàn)(例如埃博拉的亞型病毒),也給醫(yī)療診斷帶來了巨大的挑戰(zhàn),如果依靠專家和醫(yī)生對每一個疑似病例進行詳細分析,將會浪費寶貴的醫(yī)療資源和時間,從而耽誤最亟待確診的患者。由于傳統(tǒng)方法已經(jīng)無法適應快速變化的實際需求,如何高效地利用已有資源,來提高目標任務的性能,也被越來越多的專家學者所關(guān)注。

        遷移學習(Transfer Learning)作為一種解決方案,利用大量冗余的相關(guān)數(shù)據(jù)來輔助新任務的處理,打破了傳統(tǒng)數(shù)據(jù)挖掘方法在此類問題上的限制。在上文的案例中,可以利用已有的疾病數(shù)據(jù)庫例如H1N1、纖維病病毒或者肺炎數(shù)據(jù)庫,輔助醫(yī)生快速準確地進行未知病癥的診斷。另一個典型案例是知識圖譜(Knowledge Graph)的構(gòu)建,在良好的英文語義知識庫的基礎(chǔ)上,可以利用已有信息,構(gòu)建中文或其他語言類別的知識庫,從而大大降低成本。下文中將已有數(shù)據(jù)稱為“源數(shù)據(jù)”(source data),而新任務新數(shù)據(jù)稱為“目標數(shù)據(jù)”(target data)。

        雖然目前國內(nèi)外關(guān)于遷移學習的相關(guān)研究已初具規(guī)模,但也有相當不足,主要體現(xiàn)在“負面遷移”(Negative Transfer)[1]問題依然沒有得到有效解決,由于源數(shù)據(jù)和目標數(shù)據(jù)的分布差異和維度差異,如果沒有良好的衡量機制,很有可能導致算法整體性能的降低。負面遷移主要出現(xiàn)在源數(shù)據(jù)和目標數(shù)據(jù)的分布差異較大的情況下,如果直接進行知識遷移,會導致性能的大幅下降。因此,如何衡量兩個數(shù)據(jù)集的差異就成為需要解決的關(guān)鍵問題。文獻[2]從數(shù)據(jù)結(jié)構(gòu)之間的距離來判斷是否存在負面遷移,但是在普遍情況下,目標數(shù)據(jù)的信息量較少,因此僅考慮數(shù)據(jù)結(jié)構(gòu)差異并不能得到比較可靠的結(jié)果。而文獻[3-5]通過衡量每個數(shù)據(jù)間的距離來判斷負面遷移,但存在的一個問題是,數(shù)據(jù)間的相似性并不能完全保證遷移過程中的數(shù)據(jù)分布不同帶來的負面影響。文獻[6-7]提出了通過衡量數(shù)據(jù)間差異性來解決負面遷移的方法,但對于高維異構(gòu)數(shù)據(jù)也沒有提出有效的應對方案。而且,已有算法中往往需要大規(guī)模參數(shù)調(diào)整,容易在實際應用中導致“過擬合”(Overfitting)問題。

        與傳統(tǒng)方法不同,本文提出了一個雙層遷移學習模型TLCC。包括數(shù)據(jù)層和實例層,不僅可以衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的數(shù)據(jù)分布差異,也可以從實例層面判斷實例之間的相關(guān)性。算法的基本思想是,通過基于最小描述長度原理(Minimum Description Length Principle,MDLP)的壓縮編碼來計算數(shù)據(jù)之間的相似程度。最小描述長度原理具有堅實的理論基礎(chǔ),在模型選擇的時候可以避免過擬合的發(fā)生。MDLP被成功應用于歸納遷移學習(Inductive transfer learning)中[8],但只考慮了一個源數(shù)據(jù)和一個目標數(shù)據(jù)的情況。而且,考慮到多個源數(shù)據(jù)的存在,可以將此類問題歸為在多個源數(shù)據(jù)上做模型選擇。本文提出的算法創(chuàng)新性地使用了編碼長度來表示數(shù)據(jù)之間的差異程度,體現(xiàn)在較短的編碼長度表示數(shù)據(jù)對模型更好的適應性。同時,在實例層面上,通過選擇源數(shù)據(jù)中和目標數(shù)據(jù)分布較接近的數(shù)據(jù),可以避免負面遷移的發(fā)生,提升算法性能。

        2 問題描述

        本文所處理的問題是歸納遷移學習,包含多個源數(shù)據(jù)和一個目標數(shù)據(jù)。數(shù)據(jù)集S包括K個源數(shù)據(jù)Si(i=1,2,…,K),目標數(shù)據(jù)的訓練數(shù)據(jù)T和測試數(shù)據(jù)E。Si和T中的數(shù)據(jù)含有類標。所有數(shù)據(jù)中的實例都具有相同的維度。對于每一個數(shù)據(jù)歸納出其超平面分類器wx=0,其中x=(x1,x2,…,xm,1)。在源數(shù)據(jù)中,超平面分類器的權(quán)重矩陣定義為w1,w2,…,wK,其中算法目標是獲取目標數(shù)據(jù)中的權(quán)重矩陣wt。在初始的目標數(shù)據(jù)中,只有極少數(shù)實例是具有類標的,從T中歸納出超平面分類器v0,雖然不能準確地反應數(shù)據(jù)的真實分布,但可以在一定程度上反映出其估值。在算法運行的迭代過程中,目標數(shù)據(jù)上的分類器定義為vt,其中t={0,1,2,3,...}。

        最小描述長度原理是一種信息壓縮準則,屬于歸納推理工具,能夠通用地解決模型選擇問題,普遍被應用到選擇最優(yōu)分類模型問題上。它的基本思想是,在數(shù)據(jù)D上最佳的分類器h可以表示為:

        從直觀上來看,P(h)和P(D|h)分別代表h發(fā)生的概率,以及給定h的情況下D發(fā)生的條件概率??紤]將h表示為二進制串的問題?;诰幋a理論[9],使用優(yōu)化編碼來計算h的編碼長度是-lbP(h),而通過h來編碼D所需要的編碼串長度為-lbP(D|h)。在MDLP進行數(shù)據(jù)分類過程中,可以直觀表示為信息發(fā)送的過程。假設(shè)存在一個信息發(fā)送者和一個信息接收者,發(fā)送者具有D的全部信息包括類標,而接收者具有D的不包括類標的其他信息。發(fā)送者需要將類標信息完整的傳送給接收者。而傳送方法是,首先將h編碼發(fā)送給接收者,然后,將D的類標信息以h表示的形式發(fā)送給接收者,從而使其能夠自動生成所有的類標。通過使用前綴代碼(prefix code),可以避免歧義的產(chǎn)生。

        因此,MDLP可以表示成貝葉斯系統(tǒng)中最大化后驗概率的形式:

        MDLP可以理解為通過壓縮編碼給分類器分配先驗值。在本文中,兩個基本的編碼方法定義如下。首先是在信息發(fā)送框架下,發(fā)送一個字符串a(chǎn)的編碼長度。a中包括b個“1”和(a-b)個“0”。第一步是傳送數(shù)字b,也就是“1”的數(shù)量,需要的編碼長度為lb(a+1),其次是傳送1在整個字符串中的位置,也就是計算公式如下:

        舉例來說,字符串“000100000100010010”可以通過傳送數(shù)字“4”來表示“1”的數(shù)量,編碼長度為lb19=4.25 bit,然后傳送“1”的位置,所需編碼長度為因此,相比直接傳送字符串所需的18 bit,本方法只需要就能傳送所有的信息。在數(shù)據(jù)量較大并且數(shù)據(jù)具有可壓縮性的時候,壓縮編碼方法的性能將大大提高。

        3 相關(guān)研究

        和本文的相關(guān)研究,主要從兩個方面進行闡述,首先是歸納遷移學習,其次是負面遷移的相關(guān)工作。本文中所提出的TLCC算法屬于有監(jiān)督的歸納遷移學習,其中源數(shù)據(jù)和目標數(shù)據(jù)都含有類標數(shù)據(jù)[10]?,F(xiàn)有的歸納遷移學習方法主要可以分為兩類,第一類是基于實例的方法[4-5],第二類是基于屬性的方法[11-14]。在基于實例的方法中,需要對源數(shù)據(jù)中的每一個實例進行衡量,判斷是否可以加入到目標數(shù)據(jù)中。代表性算法有文獻[4-5],這兩種方法都采用了權(quán)重方法來判斷源數(shù)據(jù)中的實例對目標數(shù)據(jù)的影響。而基于屬性的方法則嘗試在所有相關(guān)屬性中找到一個子集,并且將屬性信息從源數(shù)據(jù)遷移到目標數(shù)據(jù),從而提升目標數(shù)據(jù)中的分類效果。但是,大多數(shù)方法都包含大量的參數(shù)設(shè)置,并且對噪聲較為敏感。文獻[11]中提出了一個基于圖的學習方法GSL,并同時提出了基于技術(shù)的遷移學習模型STL,通過源數(shù)據(jù)來加速在目標數(shù)據(jù)上的模型學習,文獻[4]提出了一個基于KL距離的學習方法。在文獻[12]中,作者提出了一個自適應遷移學習模型AutoTL,通過自動訓練數(shù)據(jù)選擇來進行短文本分析,而且不需要任何數(shù)據(jù)的先驗知識。在文獻[14]中,作者提出了一個屬性標簽學習模型,通過屬性標簽的學習,避免了在不同數(shù)據(jù)集中對于標注范圍的衡量。本文中提出的方法可以避免大規(guī)模的參數(shù)調(diào)整。在屬性選擇方面,基于MDL的方法[15]可以對屬性的先驗值進行學習。

        而為了避免負面遷移問題的發(fā)生,現(xiàn)有的方法主要集中在衡量數(shù)據(jù)之間以及實例之間的相似性[4-5,16-17]。其中文獻[4]將AdaBoost算法擴展到遷移學習,提出了TrAdaBoost算法,通過改變源數(shù)據(jù)中每個實例的權(quán)重來提升分類器的準確性。算法中的核心是權(quán)重的設(shè)計和計算,通過每一個迭代過程中的權(quán)重改變,可以將更接近目標數(shù)據(jù)分布的數(shù)據(jù)挑選出來并進行遷移。文獻[5]提出了一個半監(jiān)督學習模型,通過計算實例的權(quán)重,將有價值的實例遷移到目標數(shù)據(jù)中。文獻[2]中提出的算法,嘗試在不同的數(shù)據(jù)中找出相同的部分,并作為遷移的信息。但是,這種方法僅限于線性函數(shù),而且目標數(shù)據(jù)中的數(shù)據(jù)含量必須遠小于源數(shù)據(jù)。在文獻[17]中,作者擴展了PLSA(Probabilistic Latent Semantic Analysis)方法,嘗試同時獲取源數(shù)據(jù)和目標數(shù)據(jù)之間的差異部分和相同部分。在文獻[16]中,作者提出了一個基于高斯過程的核函數(shù)方法,可以衡量兩個實例之間的相似度。但其只能處理單個的源數(shù)據(jù)。在文獻[13]中,作者結(jié)合了一個主動學習方法ERS(Error Reduction Sampling),并設(shè)計了一個啟發(fā)式相似性函數(shù),但在實驗中,作者設(shè)定問詢專家的概率不小于50%,而且,專家的可靠性也沒有體現(xiàn)。本文中所提出的算法,是基于屬性的方法,通過兩個層面的相似度衡量,可以將有價值的信息從源數(shù)據(jù)遷移到目標數(shù)據(jù),并且避免負面遷移的發(fā)生。

        4 TLCC算法框架

        本部分將詳細闡述TLCC算法的主要框架和編碼方法。一般來說,如果從源數(shù)據(jù)抽取一個數(shù)據(jù)子集并加入到目標數(shù)據(jù)中,而不去考慮其分布的差異性,很有可能會導致負面遷移的發(fā)生。負面遷移產(chǎn)生,有兩個基本情況,第一,源數(shù)據(jù)和目標數(shù)據(jù)具有較大的分布差異性,直接進行遷移會導致算法整體性能的降低。第二,即使源數(shù)據(jù)和目標數(shù)據(jù)的分布差異較小,也并非所有源數(shù)據(jù)中的數(shù)據(jù)都可以遷移到目標數(shù)據(jù)中,一些數(shù)據(jù)子集和目標數(shù)據(jù)分布接近,同時也會存在一部分數(shù)據(jù)子集和目標數(shù)據(jù)的差異較大。因此,為了解決這兩個問題,本文提出的算法將分為兩個層面:數(shù)據(jù)層面和實例層面。在數(shù)據(jù)層面中,算法將衡量目標數(shù)據(jù)和源數(shù)據(jù)的整體分布差異,而在實例層面中,算法將抽取源數(shù)據(jù)中的數(shù)據(jù)子集,補充到目標數(shù)據(jù)。從而通過選擇更為相似的實例,來避免負面遷移的發(fā)生,而在迭代過程中,將分布差異較大的實例排除出考慮范圍。

        具體來說,算法的兩個層面可以表示為:

        (1)數(shù)據(jù)層面:根據(jù)Si和T之間的相似性,將Si依降序排列。

        (2)實例層面:從和T相似的Si中選擇具有信息含量的實例,并傳送到T中。

        4.1 數(shù)據(jù)層面

        本目標是將源數(shù)據(jù)Si按照和T之間的相似程度,進行降序排列。但是,在目標數(shù)據(jù)僅有少量已標注數(shù)據(jù)的情況下,衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的相似程度比較困難。假設(shè)現(xiàn)有兩個源數(shù)據(jù)S1和S2,以及一個目標數(shù)據(jù)T,如表1所示。x1和x2分別代表兩種屬性名稱,而y代表類標。三個數(shù)據(jù)中的超平面權(quán)重矩陣分別是w1,w2和v0,其中w1={1,1,-3},w2={1,0,-1},以及v0={1,0,-2}。

        直觀上來說,如果將w1和w2應用到T中,都只得到一個錯誤的分類結(jié)果,因此,在沒有附加信息的情況下,無法判斷哪一個源數(shù)據(jù)和目標數(shù)據(jù)更為相似。為了解決這個問題,本文提出了一個基于壓縮編碼的衡量機制,用于判斷超平面分類器之間的距離。

        表1 三個人工數(shù)據(jù)集

        在傳統(tǒng)的MDL模型框架中,模型空間包含所有待選模型,而最好的模型是通過計算公式(1)中的編碼長度來得到的。更符合數(shù)據(jù)分布的模型獲取的編碼長度往往更短。考慮到模型空間中包含w1,w2,…,wK,由于每一個wi都是從源數(shù)據(jù)Si中獲取的,因此P(wi|Si)為源數(shù)據(jù)Si上的后驗概率,而對于壓縮數(shù)據(jù)更好的wi,P(wi|Si)更高。通過用T來代替Si,可以得到,如果P(wi|T)的值比較高,那么可以判斷wi更加貼合數(shù)據(jù)T。在這種情況下,可以說Si和T是相似的。因此,P(wi|T)可以用于衡量Si和T之間的相似程度。通過取負log值,在T中最佳的模型w*,可以使得模型編碼和數(shù)據(jù)編碼之和最小。因此,可以通過P(wi|T)來對w1,w2,…,wK進行降序排列

        或者可以表示為按照編碼長度之和的升序排列

        注意到,對超平面進行編碼等同于對高維向量進行編碼,其中維度等于數(shù)據(jù)的屬性數(shù)量。在本文提出的算法中,采用vt作為目標數(shù)據(jù)的一個估值,可以幫助衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的相似度,并且在迭代過程中不斷更新。wi可以通過以下后驗概率公式進行降序排列。

        在公式(3)中,假設(shè)vt和T是獨立的,可以變?yōu)椋?/p>

        通過取負log值,可以得到:

        和公式(1)不同的是,本文所需要計算的編碼長度包含三個部分。通過壓縮編碼,可以衡量待選模型中和目標數(shù)據(jù)最為符合的最佳模型w*。因此,對于一個源數(shù)據(jù)Si,其和T之間的相似度可以通過公式(5),使用wi進行表示。

        公式(5)中的前兩項代表的是模型復雜度,而最后一項代表的是使用模型進行編碼的數(shù)據(jù)的似然度。此公式在數(shù)據(jù)層面用于衡量不同模型之間距離,因此,在計算中,由于相似度是使用減法進行判斷,從而可以避免計算第二項-lbP(vt)(在減法過程中被消去)。需要計算的編碼長度為:

        以下詳細介紹編碼長度的計算過程。對于第一項來說,首先定義,在x=μ最有可能的情況下,對一個實數(shù)x進行編碼所需要的編碼長度,其中μ也是一個實數(shù)。假設(shè)f是一個連續(xù)概率函數(shù),在這里,本文假設(shè)其為高斯函數(shù),因此:

        下一步需要確定的是方差值σ。

        在精度ε下x的概率值可以表示為[18]:

        為了獲取方差σ,假設(shè)x=μ的概率是q(0<q<1),那么

        通過公式(8),可以計算出:

        在計算過程中,需要設(shè)定ε和q的值。其中q值應該較高,因為在本文的編碼理論中,x更有可能取μ附近的值。因此,設(shè)定ε=0.01,q=0.8。注意到,精度ε的取值計算過程中并不會對算法整體性能帶來大的變動,因為相同的ε情況下,所有的編碼長度都是統(tǒng)一的。

        設(shè)Λ(x,u)為在已知μ的情況下發(fā)送x的編碼長度,那么:

        接下來考慮在已知vt的情況下如何計算-lbP(wi)。vt的加入是為了盡可能多地將目標數(shù)據(jù)中存在的已標注數(shù)據(jù)的信息加以利用。注意到wi和vt都包含m個屬性值,因此同樣,在發(fā)送者和接收者的問題框架下,發(fā)送者和接收者都掌握vt的全部信息。因此,為了發(fā)送wi,假設(shè)wi的每一個屬性值都是對應vt上屬性值的概率估計,那么,基于vt的-lbP(wi)的編碼長度就可以寫為:

        對于公式(6)中第二個部分,可以將數(shù)據(jù)的類標看做是一個二進制字符串,因此,在計算過程中,僅需要將wi在字符串中分類錯誤的類標進行編碼即可。定義ω(wi,T)為T上分類錯誤的實例:

        將公式(10)和公式(11)結(jié)合,就得到了對應wi在T上的編碼長度Li

        通過公式(12),可以將源數(shù)據(jù)按照編碼長度的升序排列,并定義Lmin為最小的編碼長度。

        回到表1中的例子,計算每個超平面分類器的編碼長度:

        通過以上編碼長度可以看出,相比w1,w2和vt更為相似。因此,源數(shù)據(jù)S2在一定程度上更適合進行知識遷移。下一步就是針對不同的源數(shù)據(jù),進行實例層面上的知識遷移。

        4.2 實例層面

        在實例層面的知識遷移中,源數(shù)據(jù)已經(jīng)按照和目標數(shù)據(jù)的相似性進行了排序,序號從1到K。舉例來說,在對S1中的信息進行知識遷移的過程中,需要判斷其中哪些是有價值的,那些是對結(jié)果可能產(chǎn)生負面影響的。本節(jié)中所介紹的方法,主要是在實例層面來判斷哪些數(shù)據(jù)是可以遷移,哪些數(shù)據(jù)是不能遷移的。

        對于目標數(shù)據(jù)T和其超平面分類器vt來說,如果在T中加入一個實例x變成T',相應的超平面分類器變成vt+1,在MDLP的框架下,如果以下情況發(fā)生時就會產(chǎn)生負面遷移:

        在實際中,加入一個更為嚴格的限制條件,讓公式的計算更為合理:

        通過合并以上兩個式子,可以得到一個獲取有價值實例的規(guī)則。一個實例如果會產(chǎn)生負面遷移,那么其滿足如下公式:

        在算法中,通過以上公式,可以選擇最具有遷移價值的實例,從而在實例層面避免了負面遷移的發(fā)生。

        4.3 算法描述

        TLCC的偽代碼如下,其中TR表示分類任務中的訓練數(shù)據(jù):

        5 實驗結(jié)果與分析

        本文中的實驗數(shù)據(jù)采用UCI機器學習數(shù)據(jù)庫中的三個數(shù)據(jù)集,mushroom、splice和kr vs kp,通過預處理過程[4-5],可以將這些數(shù)據(jù)分成源數(shù)據(jù)和目標數(shù)據(jù)。同時,也在文本數(shù)據(jù)20 Newsgroup上做了算法測試和性能比較。

        UCI的mushroom數(shù)據(jù)包含8 124個實例,22個屬性值。splice數(shù)據(jù)包含3 190個數(shù)據(jù)和60個屬性值,kr vs kp數(shù)據(jù)包含3 196個實例和36個屬性值。在mushroom上,通過stalk-shape進行數(shù)據(jù)拆分,源數(shù)據(jù)包含所有stalk-shape屬性為tapering的數(shù)據(jù),而目標數(shù)據(jù)則包含所有stalk-shape屬性值為enlarging的數(shù)據(jù)。splice數(shù)據(jù)通過第一個屬性值進行拆分,源數(shù)據(jù)中包含所有屬性值為“A”和“G”的數(shù)據(jù),剩下的數(shù)據(jù)則歸為目標數(shù)據(jù)。同樣,kr vs kp數(shù)據(jù)按照第11個屬性值進行拆分。在文獻[4-5]中,闡述了這種預處理方法的合理性,可以保證源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異性。在實驗中,除了分析不同數(shù)量的源數(shù)據(jù)對算法的影響之外,還分析了不同噪聲環(huán)境下的算法性能。噪聲的添加方法,是以一定概率將目標數(shù)據(jù)中正確的類標反轉(zhuǎn)為錯誤類標。

        對文本數(shù)據(jù)20 Newsgroup的預處理方法也與文獻[4]相同,選擇的三種數(shù)據(jù)包括rec vs talk、rec vs sci,以及sci vs talk。舉例來說,在rec vs talk數(shù)據(jù)中,所有的正例都來自于rec類,所有的反例都來自于talk類。源數(shù)據(jù)和目標數(shù)據(jù)的選擇也是基于這些子類。在實驗中,三種數(shù)據(jù)分別作為目標數(shù)據(jù),而其他數(shù)據(jù)集作為源數(shù)據(jù)。

        作為對比,TLCC 將和COITL[5],TrAdaBoost[4]進行性能比較,兩種算法是遷移學習中的經(jīng)典算法。同時,TLCC也會和AT算法[13],以及SVM進行比較,基準算法采用的是k-NN,其中k=3。在實例層面上,本文采用了k-Means作為聚類方法。通過大量實驗,在mushroom,splice和kr vs kp數(shù)據(jù)集上,k設(shè)置為4,而在其他數(shù)據(jù)集上,k設(shè)置為2。所有的實驗都運行10次并取平均結(jié)果。超平面分類器通過基于多項式核函數(shù)的C-SVC來獲取[19]。

        對于UCI數(shù)據(jù),mushroom,splice和kr vs kp都只包含一個源數(shù)據(jù)和一個目標數(shù)據(jù),因此TLCC主要是進行實例層面的選擇。而對于文本數(shù)據(jù),數(shù)據(jù)層面和實例層面都會進行衡量。在實驗中主要測試兩種參數(shù),第一是目標數(shù)據(jù)中包含的已標注數(shù)據(jù)的數(shù)量,包括50和100兩種設(shè)置。另一個是噪聲的比率,從0%到15%。舉例說明,但|T|=50的時候,如果噪聲比率為15%,那么僅有極少數(shù)樣本是被正確標注的,因此,可以很好地衡量遷移學習在算法中所表現(xiàn)的性能。

        圖1和圖2給出mushroom數(shù)據(jù)上的運算結(jié)果。圖3和圖4為splice數(shù)據(jù)的運算結(jié)果,kr vs kp上的運算結(jié)果為圖5和圖6。整體趨勢上,錯誤率隨著噪聲的增加也在線性增加。并且,如果給定更多的已標注數(shù)據(jù),例如|T|=100,結(jié)果會顯然提升。通過圖可以看出,本文提出的算法在大多數(shù)情況下要優(yōu)于現(xiàn)有方法。對于圖1和圖2中的mushroom數(shù)據(jù)結(jié)果,在少數(shù)情況下,TLCC并非最優(yōu)結(jié)果,比如說在|T|=50,噪音比率為15%。一個可能的原因在于,mushroom數(shù)據(jù)具有良好結(jié)構(gòu)的數(shù)據(jù),即使已標注實例較少,也能夠很好地歸納出數(shù)據(jù)分布并構(gòu)建分類器。因此,遷移學習在此過程中所帶來的優(yōu)勢并不明顯。在圖3和圖4中的kr vs kp數(shù)據(jù)集中,TLCC在多數(shù)情況下都要優(yōu)于其他方法。在圖5和圖6中的splice數(shù)據(jù)集上,本文提出的方法是所有方法中最優(yōu)的方法,即使是在15%噪音的情況下仍然能取得良好結(jié)果,而且具有10%左右的性能提升。在實驗中可以發(fā)現(xiàn),vt的質(zhì)量在噪聲較高的時候變化較大,在splice數(shù)據(jù)集中,這種情況較為緩和,而TLCC可以通過知識遷移得到大量有價值的信息,從而提升目標數(shù)據(jù)集上超平面分類器的性能。

        圖1 |T|=50條件下mushroom數(shù)據(jù)測試結(jié)果

        圖2 |T|=100條件下mushroom數(shù)據(jù)測試結(jié)果

        圖3 |T|=50條件下splice數(shù)據(jù)測試結(jié)果

        圖4 |T|=100條件下splice數(shù)據(jù)測試結(jié)果

        圖5 |T|=50條件下kr vs kp數(shù)據(jù)測試結(jié)果

        圖6 |T|=100條件下kr vs kp數(shù)據(jù)測試結(jié)果

        實驗也測試了不同數(shù)量的源數(shù)據(jù)以及源數(shù)據(jù)中不同數(shù)量的子集對遷移學習帶來的影響。表2給出了在學習過程中,不同源數(shù)據(jù)中的子集數(shù)量。例如,在kr vs kp和splice數(shù)據(jù)集中,有更多的子集信息被遷移到目標數(shù)據(jù)中。原因在于,在這兩個數(shù)據(jù)集中,屬性的數(shù)量要高于mushroom的屬性數(shù)量,目標數(shù)據(jù)中的已標注數(shù)據(jù)不足以歸納出很好的超平面分類器。因此,本文提出的方法可以盡可能多地將有用信息從源數(shù)據(jù)遷移到目標數(shù)據(jù)中。

        圖7和圖8給出rec vs talk數(shù)據(jù)上的運算結(jié)果。

        表2 UCI數(shù)據(jù)中子集的遷移數(shù)量

        圖9和圖10為rec vs sci數(shù)據(jù)的運算結(jié)果,sci vs talk上的運算結(jié)果為圖11和圖12。|T|的取值分別為50和100??梢詮倪@三個表中看出,本文提出的方法,即使在噪音環(huán)境下,仍然能夠比其他方法取得更好的效果。在極少數(shù)情況下,COITL和TrAdaBoost的性能要優(yōu)于TLCC,原因在于,隨著已標注數(shù)據(jù)的數(shù)量的增加,其他方法也可以很容易地得到較好的超平面分類器。但是在|T|=50的情況下,本文提出的算法是所有方法中最優(yōu)的。這也證實了在目標數(shù)據(jù)僅有少量標注數(shù)據(jù)的情況下,TLCC的穩(wěn)健性。同時也要注意到,當sci vs talk數(shù)據(jù)作為目標數(shù)據(jù)時,錯誤率要稍高于其他兩種情況。原因在于,在這種情況下,源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異要更高。因此,遷移學習的效果就會降低。

        圖7 |T|=50條件下rec vs talk數(shù)據(jù)測試結(jié)果

        圖8 |T|=100條件下rec vs talk數(shù)據(jù)測試結(jié)果

        圖9 |T|=50條件下rec vs sci數(shù)據(jù)測試結(jié)果

        圖10 |T|=100條件下rec vs sci數(shù)據(jù)測試結(jié)果

        圖11 |T|=50條件下sci vs talk數(shù)據(jù)測試結(jié)果

        圖12 |T|=100條件下sci vs talk數(shù)據(jù)測試結(jié)果

        在表3中,本文進行了實例層面不同數(shù)量的源數(shù)據(jù)以及數(shù)據(jù)子集帶來的影響。其中S1,S2和S3分別代表rec vs talk、rec vs sci以及sci vs talk上的源數(shù)據(jù)。表中的整數(shù)值代表實例層面每個源數(shù)據(jù)中不同的子集數(shù)量。顯然,TLCC可以較好地選出更具有遷移價值的子集。舉例來說,在rec vs talk作為目標數(shù)據(jù)的情況下,通過分析算法的學習過程可以發(fā)現(xiàn),在數(shù)據(jù)層面,TLCC將源數(shù)據(jù)以S3、S2和S1的順序進行排序,因此TLCC更傾向于選擇S3和S2中的數(shù)據(jù)子集進行知識遷移。這也證明了本文提出的算法可以自適應地從源數(shù)據(jù)中挑選合適的子集進行遷移,從而避免負面遷移的發(fā)生。

        表3 20 Newsgroup數(shù)據(jù)中子集的遷移數(shù)量

        6 結(jié)束語

        本文提出了一個基于壓縮編碼的歸納遷移學習方法TLCC,通過兩個層面的相似度分析,不僅可以衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異,也可以通過編碼長度,從源數(shù)據(jù)中選擇有價值的實例進行知識遷移,從而避免負面遷移的問題。通過結(jié)合基本SVM方法,在目標數(shù)據(jù)僅含有極少已數(shù)標注數(shù)據(jù)的情況下,TLCC仍然可以取得良好的效果,并且通過大量的實驗,證明了TLCC算法的有效性。

        [1]Rosenstein M T,Marx Z,Kaelbling L P.To transfer or not to transfer[C]//Conference and Workshop on Neural Information Processing Systems 2005 Workshop on Transfer Learning,2005.

        [2]Argyriou A,Maurer A,Pontil M.An algorithm for transfer learning in a heterogeneous environment[C]//The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases,2008:71-85.

        [3]Cao B,Pan S J,Yang Q.Adaptive transfer learning[C]//AAAI Conference on Artificial Intelligence,2010.

        [4]Dai W Y,Yang Q,Xue G R,et al.Boosting for transfer learning[C]//International Conference on Machine Learning,2007:193-200.

        [5]Shi Y,Lan Z Z,Liu W,et al.Extended semi-supervised learning methods for inductive transfer learning[C]//IEEE International Conference on Data Mining Series,2009:483-492.

        [6]Shao H,Tong B,Suzuki E.Extended MDL principle for feature-based inductive transfer learning[J].Knowledge and Information Systems,2013,35(2):365-389.

        [7]Shao H,Tao F,Xu R.Transfer active learning by querying committee[J].Journal of Zhejiang University:Science C,2014,15(2):107-118.

        [8]Shao H,Suzuki E.Feature-based inductive transfer learning through minimum encoding[C]//SIAM Conference on Data Mining 2011,Phoenix/Mesa,Arizona,April 2011.

        [9]Shannon C.A mathematical theory of communication[J].Bell System Technical Journal,1948,27:379-423.

        [10]Pan S,Yang Q.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

        [11]Farzaneh S,Asadpour M.Graph based skill acquisition and transfer learning for continuous reinforcement learning domains[J].Pattern Recognition Letters,2016,87:104-116.

        [12]Yan C.Transfer learning in large-scale short text analysis[C]//International Conference on Knowledge Science,Engineering and Management.[S.l.]:Springer International Publishing,2015.

        [13]Shi X,F(xiàn)an W,Ren J.Actively transfer domain knowl-edge[C]//European Conference on Machine Learning,2008:342-357.

        [14]Jan W,Wang X,Yin Y,et al.Transfer learning in collaborative filtering for sparsity reduction via feature tags learning model[C]//Advanced Science and Technology Letters,2015,81:56-60.

        [15]Dhillon P S,Ungar L.Transfer learning,feature selection and word sense disambiguation[C]//ACL-IJCNLP Conference Short Papers,Singapore,Aug 2009.

        [16]Cao B,Pan S J,Yang Q.Adaptive transfer learning[C]//AAAI Conference on Artificial Intelligence,2010.

        [17]Zhuang F Z,Luo P,Shen Z Y,et al.Collaborative dual-PLSA:Mining distinction and commonality across multiple domains for text classification[C]//ACM International Conference on Information and Knowledge Management,Toronto,Canada,Octorber 2010.

        [18]Ke Y.Inferring informed clustering problems with minimum description length principle[D].State University of New York at Albany,2007.

        [19]Chang C C,Lin C J.LIBSVM:A library for support vector machines[EB/OL].[2001].http://www.csie.ntu.edu.tw/cjlin/libsvm.

        猜你喜歡
        實例分類器層面
        江陰市三個層面構(gòu)建一體化治理重大事故隱患機制
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        健康到底是什么層面的問題
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        高三化學復習的四個“層面”
        策略探討:有效音樂聆聽的三層面教學研究(二)
        完形填空Ⅱ
        完形填空Ⅰ
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        少妇人妻系列中文在线| 久久久调教亚洲| 免费一级欧美大片久久网| 国产经典免费视频在线观看| 中文字幕亚洲精品第一页| 免费人成网在线观看品观网| 国产人妖在线视频网站| 一本久久综合亚洲鲁鲁五月夫| 国产av一卡二卡日韩av| 免费a级毛片又大又粗又黑| 熟女人妇 成熟妇女系列视频| 性大毛片视频| 少妇的肉体k8经典| 一级做a爰片久久毛片| 深夜福利国产| 亚洲综合网中文字幕在线| 韩国三级在线观看久| 热综合一本伊人久久精品| 亚洲国产日韩一区二区三区四区| 国产精品久久久久久| 少妇久久久久久被弄到高潮| 国产午夜福利短视频| 亚洲AV秘 片一区二区三区| 国产av自拍在线观看| 无码精品国产一区二区三区免费| 久久av高潮av无码av喷吹| 国产喷水在线观看| 国产亚洲精品不卡在线| av是男人的天堂免费| 亚洲av高清天堂网站在线观看| 国产亚洲精品美女久久久m| 日本乱子人伦在线视频| 国产91 对白在线播放九色| 国产精品自在在线午夜出白浆| 日本在线观看三级视频| 风情韵味人妻hd| 乱中年女人伦av| 日韩激情网| 亚洲乱妇熟女爽到高潮视频高清| 久久影院午夜理论片无码| 双腿张开被9个男人调教|