基于壓縮編碼的遷移學習算法研究

2018-02-07 01:47:37邵浩

計算機工程與應用 2018年3期

邵浩

上海對外經(jīng)貿(mào)大學，上海 200336

1 引言

現(xiàn)有機器學習算法在面臨實際應用中的新問題時，通常需要重新建模。這樣雖然能夠根據(jù)問題特性建立合適的模型，但將會導致三個問題，第一個問題是在新任務上構(gòu)建新模型的耗費很大，包括時間成本和人力成本；第二個問題是在實際情況下，對新任務的信息一般了解較少，無法保證模型的準確性和魯棒性，從而導致結(jié)果的偏差；第三個問題是已有模型和數(shù)據(jù)由于無法適應新任務需求而被大量丟棄，造成資源浪費。隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)的更新速度越來越快，數(shù)量越來越多，新的任務通常只具有極少數(shù)訓練樣本，也無法滿足訓練樣本和測試樣本具有相同數(shù)據(jù)分布的條件，而且傳統(tǒng)的建模方法沒有合適的機制挖掘利用舊數(shù)據(jù)庫中的有效信息，已經(jīng)不適合解決此類問題。一個典型的例子是醫(yī)療診斷，近年來，H7N9流感和埃博拉等新疾病的出現(xiàn)，對社會造成了重大影響。然而，從發(fā)現(xiàn)病癥到確診，再到有效救治，需要經(jīng)過很長的時間，其中重要的原因就是，當新疾病出現(xiàn)時，往往只有極少數(shù)確診病例，而且針對病情的信息也所知甚少，由于沒有經(jīng)驗數(shù)據(jù)，對于新病癥的確診也極為困難，大量的病人被當作普通流感治療，從而耽誤了救治的黃金時間。同時，由于病毒變體的出現(xiàn)（例如埃博拉的亞型病毒），也給醫(yī)療診斷帶來了巨大的挑戰(zhàn)，如果依靠專家和醫(yī)生對每一個疑似病例進行詳細分析，將會浪費寶貴的醫(yī)療資源和時間，從而耽誤最亟待確診的患者。由于傳統(tǒng)方法已經(jīng)無法適應快速變化的實際需求，如何高效地利用已有資源，來提高目標任務的性能，也被越來越多的專家學者所關(guān)注。

遷移學習（Transfer Learning）作為一種解決方案，利用大量冗余的相關(guān)數(shù)據(jù)來輔助新任務的處理，打破了傳統(tǒng)數(shù)據(jù)挖掘方法在此類問題上的限制。在上文的案例中，可以利用已有的疾病數(shù)據(jù)庫例如H1N1、纖維病病毒或者肺炎數(shù)據(jù)庫，輔助醫(yī)生快速準確地進行未知病癥的診斷。另一個典型案例是知識圖譜（Knowledge Graph）的構(gòu)建，在良好的英文語義知識庫的基礎(chǔ)上，可以利用已有信息，構(gòu)建中文或其他語言類別的知識庫，從而大大降低成本。下文中將已有數(shù)據(jù)稱為“源數(shù)據(jù)”（source data），而新任務新數(shù)據(jù)稱為“目標數(shù)據(jù)”（target data）。

雖然目前國內(nèi)外關(guān)于遷移學習的相關(guān)研究已初具規(guī)模，但也有相當不足，主要體現(xiàn)在“負面遷移”（Negative Transfer）[1]問題依然沒有得到有效解決，由于源數(shù)據(jù)和目標數(shù)據(jù)的分布差異和維度差異，如果沒有良好的衡量機制，很有可能導致算法整體性能的降低。負面遷移主要出現(xiàn)在源數(shù)據(jù)和目標數(shù)據(jù)的分布差異較大的情況下，如果直接進行知識遷移，會導致性能的大幅下降。因此，如何衡量兩個數(shù)據(jù)集的差異就成為需要解決的關(guān)鍵問題。文獻[2]從數(shù)據(jù)結(jié)構(gòu)之間的距離來判斷是否存在負面遷移，但是在普遍情況下，目標數(shù)據(jù)的信息量較少，因此僅考慮數(shù)據(jù)結(jié)構(gòu)差異并不能得到比較可靠的結(jié)果。而文獻[3-5]通過衡量每個數(shù)據(jù)間的距離來判斷負面遷移，但存在的一個問題是，數(shù)據(jù)間的相似性并不能完全保證遷移過程中的數(shù)據(jù)分布不同帶來的負面影響。文獻[6-7]提出了通過衡量數(shù)據(jù)間差異性來解決負面遷移的方法，但對于高維異構(gòu)數(shù)據(jù)也沒有提出有效的應對方案。而且，已有算法中往往需要大規(guī)模參數(shù)調(diào)整，容易在實際應用中導致“過擬合”（Overfitting）問題。

與傳統(tǒng)方法不同，本文提出了一個雙層遷移學習模型TLCC。包括數(shù)據(jù)層和實例層，不僅可以衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的數(shù)據(jù)分布差異，也可以從實例層面判斷實例之間的相關(guān)性。算法的基本思想是，通過基于最小描述長度原理（Minimum Description Length Principle，MDLP）的壓縮編碼來計算數(shù)據(jù)之間的相似程度。最小描述長度原理具有堅實的理論基礎(chǔ)，在模型選擇的時候可以避免過擬合的發(fā)生。MDLP被成功應用于歸納遷移學習（Inductive transfer learning）中[8]，但只考慮了一個源數(shù)據(jù)和一個目標數(shù)據(jù)的情況。而且，考慮到多個源數(shù)據(jù)的存在，可以將此類問題歸為在多個源數(shù)據(jù)上做模型選擇。本文提出的算法創(chuàng)新性地使用了編碼長度來表示數(shù)據(jù)之間的差異程度，體現(xiàn)在較短的編碼長度表示數(shù)據(jù)對模型更好的適應性。同時，在實例層面上，通過選擇源數(shù)據(jù)中和目標數(shù)據(jù)分布較接近的數(shù)據(jù)，可以避免負面遷移的發(fā)生，提升算法性能。

2 問題描述

本文所處理的問題是歸納遷移學習，包含多個源數(shù)據(jù)和一個目標數(shù)據(jù)。數(shù)據(jù)集S包括K個源數(shù)據(jù)Si(i=1,2,…,K)，目標數(shù)據(jù)的訓練數(shù)據(jù)T和測試數(shù)據(jù)E。Si和T中的數(shù)據(jù)含有類標。所有數(shù)據(jù)中的實例都具有相同的維度。對于每一個數(shù)據(jù)歸納出其超平面分類器wx=0，其中x=(x1,x2,…,xm,1)。在源數(shù)據(jù)中，超平面分類器的權(quán)重矩陣定義為w1,w2,…,wK，其中算法目標是獲取目標數(shù)據(jù)中的權(quán)重矩陣wt。在初始的目標數(shù)據(jù)中，只有極少數(shù)實例是具有類標的，從T中歸納出超平面分類器v0，雖然不能準確地反應數(shù)據(jù)的真實分布，但可以在一定程度上反映出其估值。在算法運行的迭代過程中，目標數(shù)據(jù)上的分類器定義為vt，其中t={0,1,2,3,...}。

最小描述長度原理是一種信息壓縮準則，屬于歸納推理工具，能夠通用地解決模型選擇問題，普遍被應用到選擇最優(yōu)分類模型問題上。它的基本思想是，在數(shù)據(jù)D上最佳的分類器h可以表示為：

從直觀上來看，P(h)和P(D|h)分別代表h發(fā)生的概率，以及給定h的情況下D發(fā)生的條件概率?？紤]將h表示為二進制串的問題?；诰幋a理論[9]，使用優(yōu)化編碼來計算h的編碼長度是-lbP(h)，而通過h來編碼D所需要的編碼串長度為-lbP(D|h)。在MDLP進行數(shù)據(jù)分類過程中，可以直觀表示為信息發(fā)送的過程。假設(shè)存在一個信息發(fā)送者和一個信息接收者，發(fā)送者具有D的全部信息包括類標，而接收者具有D的不包括類標的其他信息。發(fā)送者需要將類標信息完整的傳送給接收者。而傳送方法是，首先將h編碼發(fā)送給接收者，然后，將D的類標信息以h表示的形式發(fā)送給接收者，從而使其能夠自動生成所有的類標。通過使用前綴代碼（prefix code），可以避免歧義的產(chǎn)生。

因此，MDLP可以表示成貝葉斯系統(tǒng)中最大化后驗概率的形式：

MDLP可以理解為通過壓縮編碼給分類器分配先驗值。在本文中，兩個基本的編碼方法定義如下。首先是在信息發(fā)送框架下，發(fā)送一個字符串a(chǎn)的編碼長度。a中包括b個“1”和(a-b)個“0”。第一步是傳送數(shù)字b，也就是“1”的數(shù)量，需要的編碼長度為lb(a+1)，其次是傳送1在整個字符串中的位置，也就是計算公式如下：

舉例來說，字符串“000100000100010010”可以通過傳送數(shù)字“4”來表示“1”的數(shù)量，編碼長度為lb19=4.25 bit，然后傳送“1”的位置，所需編碼長度為因此，相比直接傳送字符串所需的18 bit，本方法只需要就能傳送所有的信息。在數(shù)據(jù)量較大并且數(shù)據(jù)具有可壓縮性的時候，壓縮編碼方法的性能將大大提高。

3 相關(guān)研究

和本文的相關(guān)研究，主要從兩個方面進行闡述，首先是歸納遷移學習，其次是負面遷移的相關(guān)工作。本文中所提出的TLCC算法屬于有監(jiān)督的歸納遷移學習，其中源數(shù)據(jù)和目標數(shù)據(jù)都含有類標數(shù)據(jù)[10]?，F(xiàn)有的歸納遷移學習方法主要可以分為兩類，第一類是基于實例的方法[4-5]，第二類是基于屬性的方法[11-14]。在基于實例的方法中，需要對源數(shù)據(jù)中的每一個實例進行衡量，判斷是否可以加入到目標數(shù)據(jù)中。代表性算法有文獻[4-5]，這兩種方法都采用了權(quán)重方法來判斷源數(shù)據(jù)中的實例對目標數(shù)據(jù)的影響。而基于屬性的方法則嘗試在所有相關(guān)屬性中找到一個子集，并且將屬性信息從源數(shù)據(jù)遷移到目標數(shù)據(jù)，從而提升目標數(shù)據(jù)中的分類效果。但是，大多數(shù)方法都包含大量的參數(shù)設(shè)置，并且對噪聲較為敏感。文獻[11]中提出了一個基于圖的學習方法GSL，并同時提出了基于技術(shù)的遷移學習模型STL，通過源數(shù)據(jù)來加速在目標數(shù)據(jù)上的模型學習，文獻[4]提出了一個基于KL距離的學習方法。在文獻[12]中，作者提出了一個自適應遷移學習模型AutoTL，通過自動訓練數(shù)據(jù)選擇來進行短文本分析，而且不需要任何數(shù)據(jù)的先驗知識。在文獻[14]中，作者提出了一個屬性標簽學習模型，通過屬性標簽的學習，避免了在不同數(shù)據(jù)集中對于標注范圍的衡量。本文中提出的方法可以避免大規(guī)模的參數(shù)調(diào)整。在屬性選擇方面，基于MDL的方法[15]可以對屬性的先驗值進行學習。

而為了避免負面遷移問題的發(fā)生，現(xiàn)有的方法主要集中在衡量數(shù)據(jù)之間以及實例之間的相似性[4-5，16-17]。其中文獻[4]將AdaBoost算法擴展到遷移學習，提出了TrAdaBoost算法，通過改變源數(shù)據(jù)中每個實例的權(quán)重來提升分類器的準確性。算法中的核心是權(quán)重的設(shè)計和計算，通過每一個迭代過程中的權(quán)重改變，可以將更接近目標數(shù)據(jù)分布的數(shù)據(jù)挑選出來并進行遷移。文獻[5]提出了一個半監(jiān)督學習模型，通過計算實例的權(quán)重，將有價值的實例遷移到目標數(shù)據(jù)中。文獻[2]中提出的算法，嘗試在不同的數(shù)據(jù)中找出相同的部分，并作為遷移的信息。但是，這種方法僅限于線性函數(shù)，而且目標數(shù)據(jù)中的數(shù)據(jù)含量必須遠小于源數(shù)據(jù)。在文獻[17]中，作者擴展了PLSA（Probabilistic Latent Semantic Analysis）方法，嘗試同時獲取源數(shù)據(jù)和目標數(shù)據(jù)之間的差異部分和相同部分。在文獻[16]中，作者提出了一個基于高斯過程的核函數(shù)方法，可以衡量兩個實例之間的相似度。但其只能處理單個的源數(shù)據(jù)。在文獻[13]中，作者結(jié)合了一個主動學習方法ERS（Error Reduction Sampling），并設(shè)計了一個啟發(fā)式相似性函數(shù)，但在實驗中，作者設(shè)定問詢專家的概率不小于50%，而且，專家的可靠性也沒有體現(xiàn)。本文中所提出的算法，是基于屬性的方法，通過兩個層面的相似度衡量，可以將有價值的信息從源數(shù)據(jù)遷移到目標數(shù)據(jù)，并且避免負面遷移的發(fā)生。

4 TLCC算法框架

本部分將詳細闡述TLCC算法的主要框架和編碼方法。一般來說，如果從源數(shù)據(jù)抽取一個數(shù)據(jù)子集并加入到目標數(shù)據(jù)中，而不去考慮其分布的差異性，很有可能會導致負面遷移的發(fā)生。負面遷移產(chǎn)生，有兩個基本情況，第一，源數(shù)據(jù)和目標數(shù)據(jù)具有較大的分布差異性，直接進行遷移會導致算法整體性能的降低。第二，即使源數(shù)據(jù)和目標數(shù)據(jù)的分布差異較小，也并非所有源數(shù)據(jù)中的數(shù)據(jù)都可以遷移到目標數(shù)據(jù)中，一些數(shù)據(jù)子集和目標數(shù)據(jù)分布接近，同時也會存在一部分數(shù)據(jù)子集和目標數(shù)據(jù)的差異較大。因此，為了解決這兩個問題，本文提出的算法將分為兩個層面：數(shù)據(jù)層面和實例層面。在數(shù)據(jù)層面中，算法將衡量目標數(shù)據(jù)和源數(shù)據(jù)的整體分布差異，而在實例層面中，算法將抽取源數(shù)據(jù)中的數(shù)據(jù)子集，補充到目標數(shù)據(jù)。從而通過選擇更為相似的實例，來避免負面遷移的發(fā)生，而在迭代過程中，將分布差異較大的實例排除出考慮范圍。

具體來說，算法的兩個層面可以表示為：

（1）數(shù)據(jù)層面：根據(jù)Si和T之間的相似性，將Si依降序排列。

（2）實例層面：從和T相似的Si中選擇具有信息含量的實例，并傳送到T中。

4.1 數(shù)據(jù)層面

本目標是將源數(shù)據(jù)Si按照和T之間的相似程度，進行降序排列。但是，在目標數(shù)據(jù)僅有少量已標注數(shù)據(jù)的情況下，衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的相似程度比較困難。假設(shè)現(xiàn)有兩個源數(shù)據(jù)S1和S2，以及一個目標數(shù)據(jù)T，如表1所示。x1和x2分別代表兩種屬性名稱，而y代表類標。三個數(shù)據(jù)中的超平面權(quán)重矩陣分別是w1，w2和v0，其中w1={1,1,-3}，w2={1,0,-1}，以及v0={1,0,-2}。

直觀上來說，如果將w1和w2應用到T中，都只得到一個錯誤的分類結(jié)果，因此，在沒有附加信息的情況下，無法判斷哪一個源數(shù)據(jù)和目標數(shù)據(jù)更為相似。為了解決這個問題，本文提出了一個基于壓縮編碼的衡量機制，用于判斷超平面分類器之間的距離。

表1 三個人工數(shù)據(jù)集

在傳統(tǒng)的MDL模型框架中，模型空間包含所有待選模型，而最好的模型是通過計算公式（1）中的編碼長度來得到的。更符合數(shù)據(jù)分布的模型獲取的編碼長度往往更短。考慮到模型空間中包含w1,w2,…,wK，由于每一個wi都是從源數(shù)據(jù)Si中獲取的，因此P(wi|Si)為源數(shù)據(jù)Si上的后驗概率，而對于壓縮數(shù)據(jù)更好的wi，P(wi|Si)更高。通過用T來代替Si，可以得到，如果P(wi|T)的值比較高，那么可以判斷wi更加貼合數(shù)據(jù)T。在這種情況下，可以說Si和T是相似的。因此，P(wi|T)可以用于衡量Si和T之間的相似程度。通過取負log值，在T中最佳的模型w*，可以使得模型編碼和數(shù)據(jù)編碼之和最小。因此，可以通過P(wi|T)來對w1,w2,…,wK進行降序排列

或者可以表示為按照編碼長度之和的升序排列

注意到，對超平面進行編碼等同于對高維向量進行編碼，其中維度等于數(shù)據(jù)的屬性數(shù)量。在本文提出的算法中，采用vt作為目標數(shù)據(jù)的一個估值，可以幫助衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的相似度，并且在迭代過程中不斷更新。wi可以通過以下后驗概率公式進行降序排列。

在公式（3）中，假設(shè)vt和T是獨立的，可以變?yōu)椋?/p>

通過取負log值，可以得到：

和公式（1）不同的是，本文所需要計算的編碼長度包含三個部分。通過壓縮編碼，可以衡量待選模型中和目標數(shù)據(jù)最為符合的最佳模型w*。因此，對于一個源數(shù)據(jù)Si，其和T之間的相似度可以通過公式（5），使用wi進行表示。

公式（5）中的前兩項代表的是模型復雜度，而最后一項代表的是使用模型進行編碼的數(shù)據(jù)的似然度。此公式在數(shù)據(jù)層面用于衡量不同模型之間距離，因此，在計算中，由于相似度是使用減法進行判斷，從而可以避免計算第二項-lbP(vt)（在減法過程中被消去）。需要計算的編碼長度為：

以下詳細介紹編碼長度的計算過程。對于第一項來說，首先定義，在x=μ最有可能的情況下，對一個實數(shù)x進行編碼所需要的編碼長度，其中μ也是一個實數(shù)。假設(shè)f是一個連續(xù)概率函數(shù)，在這里，本文假設(shè)其為高斯函數(shù)，因此：

下一步需要確定的是方差值σ。

在精度ε下x的概率值可以表示為[18]：

為了獲取方差σ，假設(shè)x=μ的概率是q(0＜q＜1)，那么

通過公式（8），可以計算出：

在計算過程中，需要設(shè)定ε和q的值。其中q值應該較高，因為在本文的編碼理論中，x更有可能取μ附近的值。因此，設(shè)定ε=0.01，q=0.8。注意到，精度ε的取值計算過程中并不會對算法整體性能帶來大的變動，因為相同的ε情況下，所有的編碼長度都是統(tǒng)一的。

設(shè)Λ(x,u)為在已知μ的情況下發(fā)送x的編碼長度，那么：

接下來考慮在已知vt的情況下如何計算-lbP(wi)。vt的加入是為了盡可能多地將目標數(shù)據(jù)中存在的已標注數(shù)據(jù)的信息加以利用。注意到wi和vt都包含m個屬性值，因此同樣，在發(fā)送者和接收者的問題框架下，發(fā)送者和接收者都掌握vt的全部信息。因此，為了發(fā)送wi，假設(shè)wi的每一個屬性值都是對應vt上屬性值的概率估計，那么，基于vt的-lbP(wi)的編碼長度就可以寫為：

對于公式（6）中第二個部分，可以將數(shù)據(jù)的類標看做是一個二進制字符串，因此，在計算過程中，僅需要將wi在字符串中分類錯誤的類標進行編碼即可。定義ω(wi,T)為T上分類錯誤的實例：

將公式（10）和公式（11）結(jié)合，就得到了對應wi在T上的編碼長度Li

通過公式（12），可以將源數(shù)據(jù)按照編碼長度的升序排列，并定義Lmin為最小的編碼長度。

回到表1中的例子，計算每個超平面分類器的編碼長度：

通過以上編碼長度可以看出，相比w1，w2和vt更為相似。因此，源數(shù)據(jù)S2在一定程度上更適合進行知識遷移。下一步就是針對不同的源數(shù)據(jù)，進行實例層面上的知識遷移。

4.2 實例層面

在實例層面的知識遷移中，源數(shù)據(jù)已經(jīng)按照和目標數(shù)據(jù)的相似性進行了排序，序號從1到K。舉例來說，在對S1中的信息進行知識遷移的過程中，需要判斷其中哪些是有價值的，那些是對結(jié)果可能產(chǎn)生負面影響的。本節(jié)中所介紹的方法，主要是在實例層面來判斷哪些數(shù)據(jù)是可以遷移，哪些數(shù)據(jù)是不能遷移的。

對于目標數(shù)據(jù)T和其超平面分類器vt來說，如果在T中加入一個實例x變成T'，相應的超平面分類器變成vt+1，在MDLP的框架下，如果以下情況發(fā)生時就會產(chǎn)生負面遷移：

在實際中，加入一個更為嚴格的限制條件，讓公式的計算更為合理：

通過合并以上兩個式子，可以得到一個獲取有價值實例的規(guī)則。一個實例如果會產(chǎn)生負面遷移，那么其滿足如下公式：

在算法中，通過以上公式，可以選擇最具有遷移價值的實例，從而在實例層面避免了負面遷移的發(fā)生。

4.3 算法描述

TLCC的偽代碼如下，其中TR表示分類任務中的訓練數(shù)據(jù)：

5 實驗結(jié)果與分析

本文中的實驗數(shù)據(jù)采用UCI機器學習數(shù)據(jù)庫中的三個數(shù)據(jù)集，mushroom、splice和kr vs kp，通過預處理過程[4-5]，可以將這些數(shù)據(jù)分成源數(shù)據(jù)和目標數(shù)據(jù)。同時，也在文本數(shù)據(jù)20 Newsgroup上做了算法測試和性能比較。

UCI的mushroom數(shù)據(jù)包含8 124個實例，22個屬性值。splice數(shù)據(jù)包含3 190個數(shù)據(jù)和60個屬性值，kr vs kp數(shù)據(jù)包含3 196個實例和36個屬性值。在mushroom上，通過stalk-shape進行數(shù)據(jù)拆分，源數(shù)據(jù)包含所有stalk-shape屬性為tapering的數(shù)據(jù)，而目標數(shù)據(jù)則包含所有stalk-shape屬性值為enlarging的數(shù)據(jù)。splice數(shù)據(jù)通過第一個屬性值進行拆分，源數(shù)據(jù)中包含所有屬性值為“A”和“G”的數(shù)據(jù)，剩下的數(shù)據(jù)則歸為目標數(shù)據(jù)。同樣，kr vs kp數(shù)據(jù)按照第11個屬性值進行拆分。在文獻[4-5]中，闡述了這種預處理方法的合理性，可以保證源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異性。在實驗中，除了分析不同數(shù)量的源數(shù)據(jù)對算法的影響之外，還分析了不同噪聲環(huán)境下的算法性能。噪聲的添加方法，是以一定概率將目標數(shù)據(jù)中正確的類標反轉(zhuǎn)為錯誤類標。

對文本數(shù)據(jù)20 Newsgroup的預處理方法也與文獻[4]相同，選擇的三種數(shù)據(jù)包括rec vs talk、rec vs sci，以及sci vs talk。舉例來說，在rec vs talk數(shù)據(jù)中，所有的正例都來自于rec類，所有的反例都來自于talk類。源數(shù)據(jù)和目標數(shù)據(jù)的選擇也是基于這些子類。在實驗中，三種數(shù)據(jù)分別作為目標數(shù)據(jù)，而其他數(shù)據(jù)集作為源數(shù)據(jù)。

作為對比，TLCC 將和COITL[5]，TrAdaBoost[4]進行性能比較，兩種算法是遷移學習中的經(jīng)典算法。同時，TLCC也會和AT算法[13]，以及SVM進行比較，基準算法采用的是k-NN，其中k=3。在實例層面上，本文采用了k-Means作為聚類方法。通過大量實驗，在mushroom，splice和kr vs kp數(shù)據(jù)集上，k設(shè)置為4，而在其他數(shù)據(jù)集上，k設(shè)置為2。所有的實驗都運行10次并取平均結(jié)果。超平面分類器通過基于多項式核函數(shù)的C-SVC來獲取[19]。

對于UCI數(shù)據(jù)，mushroom，splice和kr vs kp都只包含一個源數(shù)據(jù)和一個目標數(shù)據(jù)，因此TLCC主要是進行實例層面的選擇。而對于文本數(shù)據(jù)，數(shù)據(jù)層面和實例層面都會進行衡量。在實驗中主要測試兩種參數(shù)，第一是目標數(shù)據(jù)中包含的已標注數(shù)據(jù)的數(shù)量，包括50和100兩種設(shè)置。另一個是噪聲的比率，從0%到15%。舉例說明，但|T|=50的時候，如果噪聲比率為15%，那么僅有極少數(shù)樣本是被正確標注的，因此，可以很好地衡量遷移學習在算法中所表現(xiàn)的性能。

圖1和圖2給出mushroom數(shù)據(jù)上的運算結(jié)果。圖3和圖4為splice數(shù)據(jù)的運算結(jié)果，kr vs kp上的運算結(jié)果為圖5和圖6。整體趨勢上，錯誤率隨著噪聲的增加也在線性增加。并且，如果給定更多的已標注數(shù)據(jù)，例如|T|=100，結(jié)果會顯然提升。通過圖可以看出，本文提出的算法在大多數(shù)情況下要優(yōu)于現(xiàn)有方法。對于圖1和圖2中的mushroom數(shù)據(jù)結(jié)果，在少數(shù)情況下，TLCC并非最優(yōu)結(jié)果，比如說在|T|=50，噪音比率為15%。一個可能的原因在于，mushroom數(shù)據(jù)具有良好結(jié)構(gòu)的數(shù)據(jù)，即使已標注實例較少，也能夠很好地歸納出數(shù)據(jù)分布并構(gòu)建分類器。因此，遷移學習在此過程中所帶來的優(yōu)勢并不明顯。在圖3和圖4中的kr vs kp數(shù)據(jù)集中，TLCC在多數(shù)情況下都要優(yōu)于其他方法。在圖5和圖6中的splice數(shù)據(jù)集上，本文提出的方法是所有方法中最優(yōu)的方法，即使是在15%噪音的情況下仍然能取得良好結(jié)果，而且具有10%左右的性能提升。在實驗中可以發(fā)現(xiàn)，vt的質(zhì)量在噪聲較高的時候變化較大，在splice數(shù)據(jù)集中，這種情況較為緩和，而TLCC可以通過知識遷移得到大量有價值的信息，從而提升目標數(shù)據(jù)集上超平面分類器的性能。

圖1 |T|=50條件下mushroom數(shù)據(jù)測試結(jié)果

圖2 |T|=100條件下mushroom數(shù)據(jù)測試結(jié)果

圖3 |T|=50條件下splice數(shù)據(jù)測試結(jié)果

圖4 |T|=100條件下splice數(shù)據(jù)測試結(jié)果

圖5 |T|=50條件下kr vs kp數(shù)據(jù)測試結(jié)果

圖6 |T|=100條件下kr vs kp數(shù)據(jù)測試結(jié)果

實驗也測試了不同數(shù)量的源數(shù)據(jù)以及源數(shù)據(jù)中不同數(shù)量的子集對遷移學習帶來的影響。表2給出了在學習過程中，不同源數(shù)據(jù)中的子集數(shù)量。例如，在kr vs kp和splice數(shù)據(jù)集中，有更多的子集信息被遷移到目標數(shù)據(jù)中。原因在于，在這兩個數(shù)據(jù)集中，屬性的數(shù)量要高于mushroom的屬性數(shù)量，目標數(shù)據(jù)中的已標注數(shù)據(jù)不足以歸納出很好的超平面分類器。因此，本文提出的方法可以盡可能多地將有用信息從源數(shù)據(jù)遷移到目標數(shù)據(jù)中。

圖7和圖8給出rec vs talk數(shù)據(jù)上的運算結(jié)果。

表2 UCI數(shù)據(jù)中子集的遷移數(shù)量

圖9和圖10為rec vs sci數(shù)據(jù)的運算結(jié)果，sci vs talk上的運算結(jié)果為圖11和圖12。|T|的取值分別為50和100?？梢詮倪@三個表中看出，本文提出的方法，即使在噪音環(huán)境下，仍然能夠比其他方法取得更好的效果。在極少數(shù)情況下，COITL和TrAdaBoost的性能要優(yōu)于TLCC，原因在于，隨著已標注數(shù)據(jù)的數(shù)量的增加，其他方法也可以很容易地得到較好的超平面分類器。但是在|T|=50的情況下，本文提出的算法是所有方法中最優(yōu)的。這也證實了在目標數(shù)據(jù)僅有少量標注數(shù)據(jù)的情況下，TLCC的穩(wěn)健性。同時也要注意到，當sci vs talk數(shù)據(jù)作為目標數(shù)據(jù)時，錯誤率要稍高于其他兩種情況。原因在于，在這種情況下，源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異要更高。因此，遷移學習的效果就會降低。

圖7 |T|=50條件下rec vs talk數(shù)據(jù)測試結(jié)果

圖8 |T|=100條件下rec vs talk數(shù)據(jù)測試結(jié)果

圖9 |T|=50條件下rec vs sci數(shù)據(jù)測試結(jié)果

圖10 |T|=100條件下rec vs sci數(shù)據(jù)測試結(jié)果

圖11 |T|=50條件下sci vs talk數(shù)據(jù)測試結(jié)果

圖12 |T|=100條件下sci vs talk數(shù)據(jù)測試結(jié)果

在表3中，本文進行了實例層面不同數(shù)量的源數(shù)據(jù)以及數(shù)據(jù)子集帶來的影響。其中S1，S2和S3分別代表rec vs talk、rec vs sci以及sci vs talk上的源數(shù)據(jù)。表中的整數(shù)值代表實例層面每個源數(shù)據(jù)中不同的子集數(shù)量。顯然，TLCC可以較好地選出更具有遷移價值的子集。舉例來說，在rec vs talk作為目標數(shù)據(jù)的情況下，通過分析算法的學習過程可以發(fā)現(xiàn)，在數(shù)據(jù)層面，TLCC將源數(shù)據(jù)以S3、S2和S1的順序進行排序，因此TLCC更傾向于選擇S3和S2中的數(shù)據(jù)子集進行知識遷移。這也證明了本文提出的算法可以自適應地從源數(shù)據(jù)中挑選合適的子集進行遷移，從而避免負面遷移的發(fā)生。

表3 20 Newsgroup數(shù)據(jù)中子集的遷移數(shù)量

6 結(jié)束語

本文提出了一個基于壓縮編碼的歸納遷移學習方法TLCC，通過兩個層面的相似度分析，不僅可以衡量源數(shù)據(jù)和目標數(shù)據(jù)之間的分布差異，也可以通過編碼長度，從源數(shù)據(jù)中選擇有價值的實例進行知識遷移，從而避免負面遷移的問題。通過結(jié)合基本SVM方法，在目標數(shù)據(jù)僅含有極少已數(shù)標注數(shù)據(jù)的情況下，TLCC仍然可以取得良好的效果，并且通過大量的實驗，證明了TLCC算法的有效性。

[1]Rosenstein M T，Marx Z，Kaelbling L P.To transfer or not to transfer[C]//Conference and Workshop on Neural Information Processing Systems 2005 Workshop on Transfer Learning，2005.

[2]Argyriou A，Maurer A，Pontil M.An algorithm for transfer learning in a heterogeneous environment[C]//The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases，2008：71-85.

[3]Cao B，Pan S J，Yang Q.Adaptive transfer learning[C]//AAAI Conference on Artificial Intelligence，2010.

[4]Dai W Y，Yang Q，Xue G R，et al.Boosting for transfer learning[C]//International Conference on Machine Learning，2007：193-200.

[5]Shi Y，Lan Z Z，Liu W，et al.Extended semi-supervised learning methods for inductive transfer learning[C]//IEEE International Conference on Data Mining Series，2009：483-492.

[6]Shao H，Tong B，Suzuki E.Extended MDL principle for feature-based inductive transfer learning[J].Knowledge and Information Systems，2013，35（2）：365-389.

[7]Shao H，Tao F，Xu R.Transfer active learning by querying committee[J].Journal of Zhejiang University：Science C，2014，15（2）：107-118.

[8]Shao H，Suzuki E.Feature-based inductive transfer learning through minimum encoding[C]//SIAM Conference on Data Mining 2011，Phoenix/Mesa，Arizona，April 2011.

[9]Shannon C.A mathematical theory of communication[J].Bell System Technical Journal，1948，27：379-423.

[10]Pan S，Yang Q.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering，2010，22（10）：1345-1359.

[11]Farzaneh S，Asadpour M.Graph based skill acquisition and transfer learning for continuous reinforcement learning domains[J].Pattern Recognition Letters，2016，87：104-116.

[12]Yan C.Transfer learning in large-scale short text analysis[C]//International Conference on Knowledge Science，Engineering and Management.[S.l.]：Springer International Publishing，2015.

[13]Shi X，F(xiàn)an W，Ren J.Actively transfer domain knowl-edge[C]//European Conference on Machine Learning，2008：342-357.

[14]Jan W，Wang X，Yin Y，et al.Transfer learning in collaborative filtering for sparsity reduction via feature tags learning model[C]//Advanced Science and Technology Letters，2015，81：56-60.

[15]Dhillon P S，Ungar L.Transfer learning，feature selection and word sense disambiguation[C]//ACL-IJCNLP Conference Short Papers，Singapore，Aug 2009.

[16]Cao B，Pan S J，Yang Q.Adaptive transfer learning[C]//AAAI Conference on Artificial Intelligence，2010.

[17]Zhuang F Z，Luo P，Shen Z Y，et al.Collaborative dual-PLSA：Mining distinction and commonality across multiple domains for text classification[C]//ACM International Conference on Information and Knowledge Management，Toronto，Canada，Octorber 2010.

[18]Ke Y.Inferring informed clustering problems with minimum description length principle[D].State University of New York at Albany，2007.

[19]Chang C C，Lin C J.LIBSVM：A library for support vector machines[EB/OL].[2001].http：//www.csie.ntu.edu.tw/cjlin/libsvm.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放