摘 要:遷移學(xué)習(xí)是研究如何利用大量的源領(lǐng)域標記數(shù)據(jù),幫助少量標記甚至無標記的相關(guān)領(lǐng)域來解決特征稀疏問題的一種方法。針對遷移學(xué)習(xí)的研究大多只是從特征項表層對數(shù)據(jù)進行分析并沒有考慮到源領(lǐng)域與目標領(lǐng)域之間的語義相關(guān)性問題,提出一種基于潛在語義分析的遷移學(xué)習(xí)方法。通過實驗表明,本文算法可以較大提高分類器的精確度。
關(guān)鍵詞:遷移學(xué)習(xí);機器學(xué)習(xí);潛在語義分析;語義相關(guān)
1 潛在語義分析方法(LSA)
潛在語義分析是一種將文本信息組織成空間語義結(jié)構(gòu)的新模型,其基本思想是假設(shè)文本中的特征項與特征項之間存在某種聯(lián)系,通過對大量的文本集進行統(tǒng)計分析,從中提取出特征項的上下文使用含義。
潛在語義分析的基本過程是:首先構(gòu)造典型特征項—文本矩陣M,然后應(yīng)用奇異值分解技術(shù),把特征項匯和文本從高維空間降到了低維潛在語義空間。最后得到一個新的矩陣M’。潛在語義分析只取前k個最大的奇異值,而將剩余的值設(shè)為零。
2 基于潛在語義分析方法的遷移學(xué)習(xí)
2.1 數(shù)據(jù)的矩陣表示
潛在語義分析出發(fā)點是文本中的特征項與特征項之間存在某種聯(lián)系,采用統(tǒng)計計算的方法,對大量的文本進行分析來尋找這種潛在的語義結(jié)構(gòu)。在遷移學(xué)習(xí)語義分析的實現(xiàn)方法中文本矩陣的元素值并不僅僅是詞頻信息以及對單個文本的貢獻度,它還體現(xiàn)著特征項在文本集中區(qū)別、分辨類標簽的能力。因此對特征項權(quán)重的計算方法包括文本貢獻權(quán)重和類標簽貢獻權(quán)重兩部分。最后將兩個權(quán)重相乘,得到最終特征項權(quán)重。
2.2 建立源領(lǐng)域與目標領(lǐng)域之間的橋梁
由于兩個領(lǐng)域間的相似性,可能存在一個低維的潛在語義空間,成為連接源領(lǐng)域和目標領(lǐng)域之間的橋梁,從而幫助完成源領(lǐng)域到目標領(lǐng)域的分類方法的遷移。
本文采用潛在語義分析方法挖掘源領(lǐng)域與目標領(lǐng)域中這一共同的低維潛在語義空間。使用奇異值分解技術(shù),將源領(lǐng)域與目標領(lǐng)域的高維數(shù)據(jù)特征表示,映射到低維潛在語義空間中。
2.3 源領(lǐng)域到目標領(lǐng)域特征項的遷移
通過建立的低維潛在語義空間可得到文本和特征項的k維特征表示。但是在這個潛在空間中,源領(lǐng)域數(shù)據(jù)與目標領(lǐng)域數(shù)據(jù)擁有共同的特征表示,這有利于計算、分析有用的特征項,進而實現(xiàn)源領(lǐng)域中有用特征項到目標領(lǐng)域的遷移。從源領(lǐng)域篩選有用特征項主要分兩步完成。首先要消除同義詞“噪音”影響,然后從源領(lǐng)域中查找有用特征項。通過兩步矩陣調(diào)整,即可得到目標領(lǐng)域數(shù)據(jù)的新的特征表示。
2.4 算法描述(Tr_LSA)
輸入:兩個訓(xùn)練數(shù)據(jù)集Ta和Tb,一個未標記的測試數(shù)據(jù)集S,一個傳統(tǒng)的分類器。
輸出:測試數(shù)據(jù)集S的標簽
(1)對訓(xùn)練數(shù)據(jù)做去停用詞、詞干化等處理,得到特征項-文本矩陣M。(2)對矩陣M進行奇異值分解,將M中特征項與文本映射到低維潛在語義空間,建立聯(lián)系Ta與Tb之間的橋梁。(3)去除“噪音”,從Ta中找出Tb中特征項的同義詞,調(diào)整矩陣M結(jié)構(gòu);根據(jù)調(diào)整后的矩陣M,從Ta中找出遷移詞,再對矩陣M進行調(diào)整。(4)分析調(diào)整后的矩陣M,得到目標領(lǐng)域數(shù)據(jù)新的特征表示,利用傳統(tǒng)分類器,在訓(xùn)練數(shù)據(jù)集中得到一個最終分類器,對測試數(shù)據(jù)集S進行分類。
由于Tr_LSA算法對特征項和文本的處理都是在低維空間中計算的,所以在一定程度上提高了算法的時間效率。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
本文使用20 newsgroups數(shù)據(jù)集,采用層次化的組織方式,包含7個頂級類別、20個子類別,并將其分成5組數(shù)據(jù)集。
3.2 對比算法
為了驗證基于潛在語義分析的遷移學(xué)習(xí)方法的有效性,選取了傳統(tǒng)文本分類器SVM和NB做對比,并使用TrAdaBoost算法與本文方法作對比。表1展示了傳統(tǒng)分類器和遷移學(xué)習(xí)算法在不同數(shù)據(jù)集上精確度對比,可遷移學(xué)習(xí)算法在處理不同分布數(shù)據(jù)集時,其分類性能明顯優(yōu)于傳統(tǒng)分類器。另外,與TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。
表1 各種算法下實驗精確度
數(shù)據(jù)集SVMNBTrAdaBoostTr_LSA
comp vs rec0.6330.6010.8140.865
rec vs sci0.7070.6230.7850.819
sci vs talk0.6280.5990.7920.820
comp vs sci0.6930.7040.8110.841
comp vs talk0.7140.7110.7950.840
4 結(jié)論
遷移學(xué)習(xí)方法放松了對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)同分布假設(shè)的要求,利用相似領(lǐng)域的數(shù)據(jù)幫助目標領(lǐng)域數(shù)據(jù)分類。本文提出一種基于潛在語義分析的遷移學(xué)習(xí)方法,首先通過對大量數(shù)據(jù)進行統(tǒng)計分析,通過奇異值分解技術(shù),對訓(xùn)練數(shù)據(jù)挖掘其深層的語義含義,得到源領(lǐng)域與目標領(lǐng)域的一個低維的潛在語義空間。然后以此為橋梁,挖掘特征項與文本之間的關(guān)聯(lián)關(guān)系,去除同義詞”噪音”影響,進而從源領(lǐng)域中篩選出與目標領(lǐng)域文本關(guān)聯(lián)度較大的特征項,作為遷移詞。在大量實驗數(shù)據(jù)中表明,本算法能較大提高分類的精確度。同時本算法的可擴展性強,算法可擴展性強,當資源不斷增多,算法的時間復(fù)雜度與空間復(fù)雜度不會明顯增加。
[參考文獻]
[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.
[2]董秀杰.基于LSA的文本分析[D].北京理工大學(xué).2008.
[3]劉昌鈺,唐常杰,于中華,杜永萍,郭穎.基于潛在語義分析的BBS文本Bayes鑒別器[J].計算機學(xué)報,2004,27(4):566-572.