亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于潛在語義分析的遷移學(xué)習(xí)方法

        2014-04-29 00:00:00李亞麗等
        無線互聯(lián)科技 2014年4期

        摘 要:遷移學(xué)習(xí)是研究如何利用大量的源領(lǐng)域標記數(shù)據(jù),幫助少量標記甚至無標記的相關(guān)領(lǐng)域來解決特征稀疏問題的一種方法。針對遷移學(xué)習(xí)的研究大多只是從特征項表層對數(shù)據(jù)進行分析并沒有考慮到源領(lǐng)域與目標領(lǐng)域之間的語義相關(guān)性問題,提出一種基于潛在語義分析的遷移學(xué)習(xí)方法。通過實驗表明,本文算法可以較大提高分類器的精確度。

        關(guān)鍵詞:遷移學(xué)習(xí);機器學(xué)習(xí);潛在語義分析;語義相關(guān)

        1 潛在語義分析方法(LSA)

        潛在語義分析是一種將文本信息組織成空間語義結(jié)構(gòu)的新模型,其基本思想是假設(shè)文本中的特征項與特征項之間存在某種聯(lián)系,通過對大量的文本集進行統(tǒng)計分析,從中提取出特征項的上下文使用含義。

        潛在語義分析的基本過程是:首先構(gòu)造典型特征項—文本矩陣M,然后應(yīng)用奇異值分解技術(shù),把特征項匯和文本從高維空間降到了低維潛在語義空間。最后得到一個新的矩陣M’。潛在語義分析只取前k個最大的奇異值,而將剩余的值設(shè)為零。

        2 基于潛在語義分析方法的遷移學(xué)習(xí)

        2.1 數(shù)據(jù)的矩陣表示

        潛在語義分析出發(fā)點是文本中的特征項與特征項之間存在某種聯(lián)系,采用統(tǒng)計計算的方法,對大量的文本進行分析來尋找這種潛在的語義結(jié)構(gòu)。在遷移學(xué)習(xí)語義分析的實現(xiàn)方法中文本矩陣的元素值并不僅僅是詞頻信息以及對單個文本的貢獻度,它還體現(xiàn)著特征項在文本集中區(qū)別、分辨類標簽的能力。因此對特征項權(quán)重的計算方法包括文本貢獻權(quán)重和類標簽貢獻權(quán)重兩部分。最后將兩個權(quán)重相乘,得到最終特征項權(quán)重。

        2.2 建立源領(lǐng)域與目標領(lǐng)域之間的橋梁

        由于兩個領(lǐng)域間的相似性,可能存在一個低維的潛在語義空間,成為連接源領(lǐng)域和目標領(lǐng)域之間的橋梁,從而幫助完成源領(lǐng)域到目標領(lǐng)域的分類方法的遷移。

        本文采用潛在語義分析方法挖掘源領(lǐng)域與目標領(lǐng)域中這一共同的低維潛在語義空間。使用奇異值分解技術(shù),將源領(lǐng)域與目標領(lǐng)域的高維數(shù)據(jù)特征表示,映射到低維潛在語義空間中。

        2.3 源領(lǐng)域到目標領(lǐng)域特征項的遷移

        通過建立的低維潛在語義空間可得到文本和特征項的k維特征表示。但是在這個潛在空間中,源領(lǐng)域數(shù)據(jù)與目標領(lǐng)域數(shù)據(jù)擁有共同的特征表示,這有利于計算、分析有用的特征項,進而實現(xiàn)源領(lǐng)域中有用特征項到目標領(lǐng)域的遷移。從源領(lǐng)域篩選有用特征項主要分兩步完成。首先要消除同義詞“噪音”影響,然后從源領(lǐng)域中查找有用特征項。通過兩步矩陣調(diào)整,即可得到目標領(lǐng)域數(shù)據(jù)的新的特征表示。

        2.4 算法描述(Tr_LSA)

        輸入:兩個訓(xùn)練數(shù)據(jù)集Ta和Tb,一個未標記的測試數(shù)據(jù)集S,一個傳統(tǒng)的分類器。

        輸出:測試數(shù)據(jù)集S的標簽

        (1)對訓(xùn)練數(shù)據(jù)做去停用詞、詞干化等處理,得到特征項-文本矩陣M。(2)對矩陣M進行奇異值分解,將M中特征項與文本映射到低維潛在語義空間,建立聯(lián)系Ta與Tb之間的橋梁。(3)去除“噪音”,從Ta中找出Tb中特征項的同義詞,調(diào)整矩陣M結(jié)構(gòu);根據(jù)調(diào)整后的矩陣M,從Ta中找出遷移詞,再對矩陣M進行調(diào)整。(4)分析調(diào)整后的矩陣M,得到目標領(lǐng)域數(shù)據(jù)新的特征表示,利用傳統(tǒng)分類器,在訓(xùn)練數(shù)據(jù)集中得到一個最終分類器,對測試數(shù)據(jù)集S進行分類。

        由于Tr_LSA算法對特征項和文本的處理都是在低維空間中計算的,所以在一定程度上提高了算法的時間效率。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集

        本文使用20 newsgroups數(shù)據(jù)集,采用層次化的組織方式,包含7個頂級類別、20個子類別,并將其分成5組數(shù)據(jù)集。

        3.2 對比算法

        為了驗證基于潛在語義分析的遷移學(xué)習(xí)方法的有效性,選取了傳統(tǒng)文本分類器SVM和NB做對比,并使用TrAdaBoost算法與本文方法作對比。表1展示了傳統(tǒng)分類器和遷移學(xué)習(xí)算法在不同數(shù)據(jù)集上精確度對比,可遷移學(xué)習(xí)算法在處理不同分布數(shù)據(jù)集時,其分類性能明顯優(yōu)于傳統(tǒng)分類器。另外,與TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。

        表1 各種算法下實驗精確度

        數(shù)據(jù)集SVMNBTrAdaBoostTr_LSA

        comp vs rec0.6330.6010.8140.865

        rec vs sci0.7070.6230.7850.819

        sci vs talk0.6280.5990.7920.820

        comp vs sci0.6930.7040.8110.841

        comp vs talk0.7140.7110.7950.840

        4 結(jié)論

        遷移學(xué)習(xí)方法放松了對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)同分布假設(shè)的要求,利用相似領(lǐng)域的數(shù)據(jù)幫助目標領(lǐng)域數(shù)據(jù)分類。本文提出一種基于潛在語義分析的遷移學(xué)習(xí)方法,首先通過對大量數(shù)據(jù)進行統(tǒng)計分析,通過奇異值分解技術(shù),對訓(xùn)練數(shù)據(jù)挖掘其深層的語義含義,得到源領(lǐng)域與目標領(lǐng)域的一個低維的潛在語義空間。然后以此為橋梁,挖掘特征項與文本之間的關(guān)聯(lián)關(guān)系,去除同義詞”噪音”影響,進而從源領(lǐng)域中篩選出與目標領(lǐng)域文本關(guān)聯(lián)度較大的特征項,作為遷移詞。在大量實驗數(shù)據(jù)中表明,本算法能較大提高分類的精確度。同時本算法的可擴展性強,算法可擴展性強,當資源不斷增多,算法的時間復(fù)雜度與空間復(fù)雜度不會明顯增加。

        [參考文獻]

        [1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.

        [2]董秀杰.基于LSA的文本分析[D].北京理工大學(xué).2008.

        [3]劉昌鈺,唐常杰,于中華,杜永萍,郭穎.基于潛在語義分析的BBS文本Bayes鑒別器[J].計算機學(xué)報,2004,27(4):566-572.

        少妇性俱乐部纵欲狂欢电影| 亚洲AV无码中文AV日韩A| 亚洲一区二区三区美女av| 亚洲综合偷自成人网第页色 | 国产精品6| 国产好片日本一区二区三区四区 | 欧美亚洲日本国产综合在线| 精品囯产成人国产在线观看| 日韩美女人妻一区二区三区| 91伦理片视频国产精品久久久| 色avav色av爱avav亚洲色拍| 久久AⅤ无码精品为人妻系列 | 亚洲综合精品一区二区三区| 日韩女同精品av在线观看| 国产精品毛片一区二区| 女优av性天堂网男人天堂| 日本护士xxxxhd少妇| 日日噜噜噜夜夜爽爽狠狠视频| 2021国内精品久久久久精免费| 少妇特殊按摩高潮对白| 中国娇小与黑人巨大交| 亚洲精品综合欧美一区二区三区| 国产桃色在线成免费视频| 漂亮的小少妇诱惑内射系列| 人妻经典中文字幕av| 精品一区二区三区免费视频| 国产亚洲日韩一区二区三区| 午夜视频免费观看一区二区| 91麻豆精品久久久影院| 全免费a级毛片免费看无码| 人人妻人人澡人人爽欧美二区| 女人的天堂av免费看| 亚洲中文字幕第一第二页 | 午夜大片又黄又爽大片app | 国产丝袜美腿嫩模视频诱惑| 少妇久久久久久被弄高潮| 一个人在线观看免费视频www| 无码一区二区丝袜| 24小时免费在线观看av| 美女无遮挡免费视频网站| 亚洲专区路线一路线二天美 |