亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合協(xié)同訓(xùn)練和兩層主動(dòng)學(xué)習(xí)策略的SVM分類(lèi)方法

        2014-03-13 16:22:33謝科
        關(guān)鍵詞:貝葉斯網(wǎng)絡(luò)支持向量機(jī)主動(dòng)學(xué)習(xí)

        摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類(lèi)器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.

        關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)

        中圖分類(lèi)號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05

        在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類(lèi)問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類(lèi)別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.

        1研究現(xiàn)狀

        文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類(lèi)器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類(lèi)器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢(xún)策略在某些情況下不如隨機(jī)查詢(xún)效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢(xún)訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢(xún)所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類(lèi)超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).

        基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類(lèi)超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類(lèi)超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢(xún)的中后期,查詢(xún)的點(diǎn)大部分位于SVM分類(lèi)超平面附近,使得算法的泛化能力不強(qiáng).

        2兩層主動(dòng)學(xué)習(xí)策略

        2.1直推支持向量機(jī)設(shè)計(jì)

        因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類(lèi)超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類(lèi)和3類(lèi)時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門(mén)SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類(lèi)和3類(lèi)的召回率有所下降,這是因?yàn)檫@兩類(lèi)維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類(lèi)器的決策.4類(lèi)的樣本分布不均勻?qū)е铝司扔兴陆?

        4結(jié)束語(yǔ)

        針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類(lèi)器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢(xún)樣本,進(jìn)而使SVM分類(lèi)器的超平面移動(dòng)到合理的位置.由于貝葉斯分類(lèi)器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.

        參考文獻(xiàn):

        [1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類(lèi)器的視頻分類(lèi)[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.

        [2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.

        [3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.

        [3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

        [4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類(lèi)的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.

        [5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類(lèi)[J].計(jì)算機(jī)工程, 2011,37(8):181183.

        [6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類(lèi)算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.

        [7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.

        [8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類(lèi)模型[J].控制與決策, 2012,27(9):13931397.

        [9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類(lèi)器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.

        [10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.

        [11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.

        [12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.

        [13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類(lèi)規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.

        [14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

        [15]謝科. 基于可分辨矩陣的屬性集依賴(lài)度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.

        (編輯沈小玲)

        摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類(lèi)器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.

        關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)

        中圖分類(lèi)號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05

        在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類(lèi)問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類(lèi)別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.

        1研究現(xiàn)狀

        文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類(lèi)器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類(lèi)器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢(xún)策略在某些情況下不如隨機(jī)查詢(xún)效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢(xún)訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢(xún)所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類(lèi)超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).

        基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類(lèi)超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類(lèi)超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢(xún)的中后期,查詢(xún)的點(diǎn)大部分位于SVM分類(lèi)超平面附近,使得算法的泛化能力不強(qiáng).

        2兩層主動(dòng)學(xué)習(xí)策略

        2.1直推支持向量機(jī)設(shè)計(jì)

        因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類(lèi)超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類(lèi)和3類(lèi)時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門(mén)SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類(lèi)和3類(lèi)的召回率有所下降,這是因?yàn)檫@兩類(lèi)維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類(lèi)器的決策.4類(lèi)的樣本分布不均勻?qū)е铝司扔兴陆?

        4結(jié)束語(yǔ)

        針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類(lèi)器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢(xún)樣本,進(jìn)而使SVM分類(lèi)器的超平面移動(dòng)到合理的位置.由于貝葉斯分類(lèi)器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.

        參考文獻(xiàn):

        [1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類(lèi)器的視頻分類(lèi)[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.

        [2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.

        [3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.

        [3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

        [4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類(lèi)的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.

        [5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類(lèi)[J].計(jì)算機(jī)工程, 2011,37(8):181183.

        [6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類(lèi)算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.

        [7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.

        [8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類(lèi)模型[J].控制與決策, 2012,27(9):13931397.

        [9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類(lèi)器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.

        [10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.

        [11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.

        [12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.

        [13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類(lèi)規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.

        [14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

        [15]謝科. 基于可分辨矩陣的屬性集依賴(lài)度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.

        (編輯沈小玲)

        摘要 針對(duì)當(dāng)前主動(dòng)學(xué)習(xí)策略直接用于SVM分類(lèi)器時(shí)存在的泛化能力不強(qiáng)的問(wèn)題,結(jié)合協(xié)同訓(xùn)練思想,提出了兩層主動(dòng)學(xué)習(xí)策略(TLAC),并用于SVM深層挖掘未標(biāo)記樣本數(shù)據(jù)的分布知識(shí).實(shí)驗(yàn)表明,該TLAC策略能夠合理的指定TSVM算法中的正樣本數(shù),在典型指標(biāo)測(cè)試中都表現(xiàn)出了一定的優(yōu)越性.

        關(guān)鍵詞 協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò);支持向量機(jī)

        中圖分類(lèi)號(hào) TP315 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)-1000-2537(2014)01-0090-05

        在傳統(tǒng)的學(xué)習(xí)機(jī)技術(shù)中,學(xué)習(xí)器的學(xué)習(xí)主要針對(duì)帶有標(biāo)記的樣本數(shù)據(jù),而且通過(guò)模擬建立的模型主要用于對(duì)有標(biāo)記的樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)的預(yù)測(cè)和推斷,并在分類(lèi)問(wèn)題中標(biāo)記出樣本數(shù)據(jù)的類(lèi)別.由于目前數(shù)據(jù)收集技術(shù)的快速發(fā)展和逐步提高,在收集數(shù)據(jù)時(shí)對(duì)未標(biāo)記樣本數(shù)據(jù)的收集十分容易,而在獲取大量有標(biāo)記的樣本數(shù)據(jù)時(shí)比較困難,這是因?yàn)樵讷@取有標(biāo)記樣本數(shù)據(jù)時(shí)需要耗費(fèi)大量的人力、財(cái)力、物力等資源.而利用少量有標(biāo)記樣本數(shù)據(jù)訓(xùn)練出的學(xué)習(xí)器往往泛化能力并不強(qiáng).那么如何在有標(biāo)記樣本數(shù)據(jù)較少的情況下,通過(guò)利用大量的不帶標(biāo)記樣本數(shù)據(jù)來(lái)改善學(xué)習(xí)器的性能已經(jīng)成為目前機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一.

        1研究現(xiàn)狀

        文獻(xiàn)[1]首次將主動(dòng)學(xué)習(xí)策略用于支持向量機(jī)(Support Vector Machine,SVM)算法中,文中利用主動(dòng)學(xué)習(xí)策略選取SVM分類(lèi)器最有可能預(yù)測(cè)的樣本,根據(jù)這些樣本盡可能地簡(jiǎn)約SVM分類(lèi)器超平面所在的版本空間,從而得到最有可能近似正確劃分所有樣本的超平面.實(shí)驗(yàn)分析也指出對(duì)直推支持向量機(jī)(Transducive Support Vector Machine, TSVM)采用文中所提的主動(dòng)查詢(xún)策略在某些情況下不如隨機(jī)查詢(xún)效果好.文獻(xiàn)[2]利用主動(dòng)學(xué)習(xí)策略并結(jié)合高斯隨機(jī)場(chǎng)和諧波函數(shù)對(duì)學(xué)習(xí)器進(jìn)行半監(jiān)督形式的學(xué)習(xí),該策略首先通過(guò)樣本數(shù)據(jù)訓(xùn)練建立一個(gè)圖,圖中建立的每個(gè)節(jié)點(diǎn)都代表一個(gè)(有標(biāo)記或未標(biāo)記)樣本數(shù)據(jù),然后通過(guò)求解對(duì)應(yīng)的函數(shù)最優(yōu)值,進(jìn)一步獲取未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記.該文在最后的實(shí)驗(yàn)分析中指出如果利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則去主動(dòng)查詢(xún)訓(xùn)練SVM,所得到的精度甚至不如直接在SVM上隨機(jī)查詢(xún)所得的訓(xùn)練精度.文獻(xiàn)[3]提出的基于SVM的主動(dòng)學(xué)習(xí)方法,采用版本空間和邊緣方法選取樣本的標(biāo)記,其主要思想是反復(fù)選擇離分類(lèi)超平面最近的未標(biāo)記樣本標(biāo)注直至達(dá)到設(shè)定閾值停止.文獻(xiàn)[4]則對(duì)文中提出的方法進(jìn)行改進(jìn),提出了一種基于不確定選樣和確定選擇相結(jié)合的主動(dòng)學(xué)習(xí)方法,并應(yīng)用于淺層語(yǔ)義分析的任務(wù).

        基于上述文獻(xiàn)分析,目前基于SVM的學(xué)習(xí)存在下面兩個(gè)問(wèn)題:(1)對(duì)于錯(cuò)誤樣本標(biāo)記敏感,如果初始的SVM分類(lèi)超平面位置不好,需要很長(zhǎng)時(shí)間才能移動(dòng)到合理的位置,甚至受錯(cuò)誤標(biāo)記影響較大時(shí),分類(lèi)超平面會(huì)一直停留在不合理的位置:(2)基于SVM的主動(dòng)學(xué)習(xí)在查詢(xún)的中后期,查詢(xún)的點(diǎn)大部分位于SVM分類(lèi)超平面附近,使得算法的泛化能力不強(qiáng).

        2兩層主動(dòng)學(xué)習(xí)策略

        2.1直推支持向量機(jī)設(shè)計(jì)

        因?yàn)閿?shù)據(jù)集中的標(biāo)記樣本是在數(shù)據(jù)集中隨機(jī)選取的,如果初始分類(lèi)超平面處在不合理的位置,利用TSVM訓(xùn)練得到的準(zhǔn)確率也可能不太好.從圖1可以看出,在處理1類(lèi)和3類(lèi)時(shí),我們的算法準(zhǔn)確率更高,這是因?yàn)門(mén)SVM在初始估計(jì)的正樣本數(shù)和真實(shí)值之間相差較大.但是1類(lèi)和3類(lèi)的召回率有所下降,這是因?yàn)檫@兩類(lèi)維數(shù)較高,由于高維特征空間映射時(shí)可能導(dǎo)致樣本相對(duì)位置改變,從而影響分類(lèi)器的決策.4類(lèi)的樣本分布不均勻?qū)е铝司扔兴陆?

        4結(jié)束語(yǔ)

        針對(duì)當(dāng)前TSVM算法存在的問(wèn)題和主動(dòng)學(xué)習(xí)策略用于SVM分類(lèi)器的缺陷,本文提出了一種基于貝葉斯的主動(dòng)學(xué)習(xí)選取樣本策略用于TSVM算法中,在一定程度上解決了TSVM算法指定正樣本的問(wèn)題,同時(shí)也使主動(dòng)學(xué)習(xí)策略能在全局分布上進(jìn)行查詢(xún)樣本,進(jìn)而使SVM分類(lèi)器的超平面移動(dòng)到合理的位置.由于貝葉斯分類(lèi)器也有其固有的假設(shè)性缺陷,本文的后續(xù)工作是進(jìn)一步改進(jìn)主動(dòng)學(xué)習(xí)策略,挖掘未標(biāo)記數(shù)據(jù)的潛在分布知識(shí),并用真實(shí)數(shù)據(jù)集加以測(cè)試.

        參考文獻(xiàn):

        [1]袁勛,吳秀清,洪日昌. 基于主動(dòng)學(xué)習(xí)SVM分類(lèi)器的視頻分類(lèi)[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2009,39(5):473478.

        [2]趙英剛,陳奇,何欽銘.一種基于支持向量機(jī)的直推式學(xué)習(xí)算法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版, 2006,26(8):441444.

        [3]陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層次語(yǔ)義分析[J].中文信息學(xué)報(bào), 2008,22(2):7075.

        [3]CHEN Y D, WANG T, CHEN H W. Combining semisupervised learning and active learning for shallow semantic parsing[J]. J Chin Infor Proc, 2008,22(2):7075.

        [4]劉端陽(yáng),邱衛(wèi)杰. 基于SVM期望間隔的多標(biāo)簽分類(lèi)的主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2011,38(4): 230233.

        [5]劉端陽(yáng),邱衛(wèi)杰. 基于加權(quán)SVM主動(dòng)學(xué)習(xí)的多標(biāo)簽分類(lèi)[J].計(jì)算機(jī)工程, 2011,37(8):181183.

        [6]趙衛(wèi)中,馬慧芳,李志清. 一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類(lèi)算法[J]. 軟件學(xué)報(bào), 2012,23(6):14861499.

        [7]白龍飛, 王文劍, 郭虎升. 一種新的支持向量機(jī)主動(dòng)學(xué)習(xí)策略[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,48(2):182189.

        [8]楊穎濤,王躍鋼,鄧衛(wèi)強(qiáng),等. 基于共軛先驗(yàn)分布的貝葉斯網(wǎng)絡(luò)分類(lèi)模型[J].控制與決策, 2012,27(9):13931397.

        [9]王中鋒,王志海. 基于條件對(duì)數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類(lèi)器優(yōu)化算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2012,35(2):364374.

        [10]曾杰鵬, 廖芹, 谷志元. 基于結(jié)構(gòu)繼承的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)優(yōu)化設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(7):27822786.

        [11]張曉宇. 基于動(dòng)態(tài)可行域劃分的SVM主動(dòng)學(xué)習(xí)[J].計(jì)算機(jī)科學(xué), 2012,39(7):175178.

        [12]吳偉寧,劉揚(yáng),郭茂祖. 基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2012,19(6):11621173.

        [13]戴上平,姬盈利,王華. 基于多群協(xié)同人工魚(yú)群算法的分類(lèi)規(guī)則提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(5):16661669.

        [14]MERZ C, MURPHY P, AHA W. UCI Repository of machine learning databases[D].Irvine: Department of Information and Computer Science, University of California, 1997.

        [15]謝科. 基于可分辨矩陣的屬性集依賴(lài)度計(jì)算方法[J]. 湖南師范大學(xué)自然科學(xué)學(xué)報(bào), 2012,35(6):1316.

        (編輯沈小玲)

        猜你喜歡
        貝葉斯網(wǎng)絡(luò)支持向量機(jī)主動(dòng)學(xué)習(xí)
        無(wú)人機(jī)數(shù)據(jù)鏈測(cè)試與評(píng)估研究
        科技資訊(2016年25期)2016-12-27 16:22:32
        基于貝葉斯網(wǎng)絡(luò)的流域內(nèi)水文事件豐枯遭遇研究
        動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
        論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
        基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
        高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)策略研究
        人間(2016年28期)2016-11-10 22:12:11
        數(shù)字電路課程的翻轉(zhuǎn)課堂教學(xué)及調(diào)研
        基于興趣預(yù)測(cè)和熱點(diǎn)分析的聯(lián)合推薦算法研究 
        試論高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)的措施
        《個(gè)人理財(cái)》教學(xué)中,發(fā)揮學(xué)生主體地位的路徑研究
        科技視界(2016年21期)2016-10-17 18:35:21
        国产女人精品一区二区三区| 国产v视频| 久久久久国产精品片区无码| 69久久精品亚洲一区二区| 国产av激情舒服刺激| 蜜桃视频无码区在线观看| 99re这里只有热视频| 精品熟妇av一区二区三区四区| 少妇高潮久久蜜柚av| 精品国产三级a∨在线| 亚洲av无码一区二区乱子伦| 亚洲AV无码日韩综合欧亚 | 久久精品无码一区二区三区蜜费| 国产一区二区三区影片| 国产日韩厂亚洲字幕中文| 亚洲va中文字幕无码毛片| 四虎影视亚洲精品| 中文在线最新版天堂av| 日本高清一级二级三级 | 亚洲国产精品一区二区成人片国内| 97久久人人超碰超碰窝窝| 日韩欧美国产自由二区| av在线资源一区二区| 综合偷自拍亚洲乱中文字幕| 日本欧美视频在线观看| 三级全黄的视频在线观看| 亚洲中文字幕一区二区在线| 不卡一卡二卡三乱码免费网站| 中文在线а√天堂官网| 亚洲精品中文字幕尤物综合 | 亚洲女同av一区二区在线观看| 国产精品久久久天天影视| 国产香蕉尹人在线观看视频| 国产成人亚洲合集青青草原精品 | 麻豆国产VA免费精品高清在线 | 欧美日韩综合在线视频免费看| 人妻经典中文字幕av| 三年片免费观看大全有| av一区无码不卡毛片| 亚洲蜜臀av一区二区三区漫画| 狠狠躁18三区二区一区|