亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于宏特征融合的文本分類

        2017-06-01 11:29:47王丹丹陳清財(cái)王曉龍湯步洲
        中文信息學(xué)報(bào) 2017年2期
        關(guān)鍵詞:分類監(jiān)督特征

        王丹丹,陳清財(cái),王曉龍,湯步洲

        (1. 深圳信息職業(yè)技術(shù)學(xué)院 數(shù)字媒體學(xué)院,廣東 深圳 518172;2. 哈爾濱工業(yè)大學(xué)深圳研究生院 網(wǎng)絡(luò)智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518055)

        基于宏特征融合的文本分類

        王丹丹1,陳清財(cái)2,王曉龍2,湯步洲2

        (1. 深圳信息職業(yè)技術(shù)學(xué)院 數(shù)字媒體學(xué)院,廣東 深圳 518172;2. 哈爾濱工業(yè)大學(xué)深圳研究生院 網(wǎng)絡(luò)智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518055)

        宏特征(即文檔級特征)抽取方法是文本分類中一類典型的特征抽取方法,可以分為有監(jiān)督宏特征抽取和無監(jiān)督宏特征抽取。這兩類宏特征抽取方法均能提高文本分類的性能。但是,同時(shí)使用兩類宏特征的情況還沒有被研究。該文研究了有監(jiān)督宏特征和無監(jiān)督宏特征融合對文本分類性能的影響。具體來講,研究了兩種有監(jiān)督宏特征抽取方法,與三種無監(jiān)督宏特征抽取方法,即K-means、LDA和DBN,相互融合的情況。在兩個(gè)公開語料庫Reuters-21578和20-Newsgroup以及一個(gè)自動(dòng)構(gòu)建的語料庫上的對比實(shí)驗(yàn)表明,有監(jiān)督和無監(jiān)督宏特征之間的融合比單獨(dú)使用有監(jiān)督或者無監(jiān)督宏特征的方式對文本分類更加有效。

        文本分類,有監(jiān)督宏特征抽取,無監(jiān)督宏特征抽取,特征融合;

        1 引言

        特征抽取是文本分類中的關(guān)鍵步驟,目的是通過提取出具有很強(qiáng)區(qū)分文檔類別的特征,來提高文本分類的精度并防止過擬合。特征抽取的好壞直接影響到文本分類的性能。現(xiàn)有的特征抽取方法主要分為兩類,一類是微特征抽取方法,考慮的是詞級別的特征,例如,文檔頻率(Document Frequency,DF)、信息增益(Information Gain, IG)、互信息(Mutual Information,MI)、期望交叉熵(Expected Cross Entropy,ECE)、χ2統(tǒng)計(jì)量(CHI)、分類術(shù)語(CTD)、加權(quán)似然比(WLLR)等[1];另一類是宏特征抽取方法,考慮的是文檔級別的特征,例如,基于傳統(tǒng)聚類的特征抽取方法[2-3],基于LDA的特征抽取方法[4-5],基于DBN的特征抽取方法[6]和有監(jiān)督宏特征抽取方法[7]等。每種方法都有各自的優(yōu)缺點(diǎn),適用于不同的語料。就宏特征抽取方法而言,可以分為兩大類: 有監(jiān)督宏特征抽取(如文獻(xiàn)[7])和無監(jiān)督宏特征抽取(如文獻(xiàn)[2-6])。

        有監(jiān)督宏特征抽取由王丹丹等人首次提出[7],其主要思想是利用標(biāo)注數(shù)據(jù)提取宏特征?,F(xiàn)有的方法有兩種: 基于聚類的有監(jiān)督宏特征抽取和基于質(zhì)心向量的宏特征抽取。前者首先通過聚類算法將標(biāo)注樣本聚成簇,然后利用標(biāo)注信息計(jì)算每個(gè)簇中的文檔類別概率分布,用距離最近的標(biāo)注樣本文檔類別概率分布表示每一個(gè)文檔的宏特征。后者通過標(biāo)注語料得到每個(gè)類別的質(zhì)心向量,用距離最近的質(zhì)心向量作為每一個(gè)文檔的宏特征。這兩種有監(jiān)督宏特征均能帶來文本分類性能的提高。

        常見的基于無監(jiān)督的宏特征抽取包括基于傳統(tǒng)聚類的宏特征抽取方法[2-3]、基于主題模型的宏特征抽取方法和基于深度學(xué)習(xí)的宏特征抽取方法等[4-5]。下面詳細(xì)介紹這幾種宏特征抽取方法:

        1) 基于傳統(tǒng)聚類的宏特征抽取,主要思想是通過傳統(tǒng)聚類方法如K-means等對文進(jìn)行聚類,聚類得到K個(gè)簇,每個(gè)簇都有一個(gè)中心向量。給定一個(gè)樣本,計(jì)算其與各個(gè)簇中心向量之間的距離,最近距離的簇中心向量作為該樣本的宏特征[8]。

        2) 基于主題模型的宏特征抽取,主要思想是通過主題模型構(gòu)建方法如LDA(Latent Dirichlet Allocation)等挖掘出文本的淺層語義[5]。假設(shè)有K個(gè)主題(topic),則每篇文檔都可以表示為K個(gè)主題(topic)的概率分布向量,這個(gè)主題概率分布向量即作為該文檔的宏特征。

        3) 基于深度學(xué)習(xí)的宏特征抽取,主要思想是通過深度學(xué)習(xí)方法如DBN(Deep Belief Network)等學(xué)習(xí)出文本的深層次特征[6],經(jīng)典的深度學(xué)習(xí)方法本身就是一個(gè)特征學(xué)習(xí)(Feature Learning)的過程。這些特征即作為文檔的宏特征。

        Baker和Slonim都已經(jīng)證明通過傳統(tǒng)聚類得到的宏特征比傳統(tǒng)的特征抽取方法得到的特征更加有效[2,9]。同時(shí)相比較傳統(tǒng)聚類得到的宏特征,基于主題模型和深度學(xué)習(xí)得到的宏特征對文本分類效果的提升更明顯。Wang等人提出了基于K-means聚類的有監(jiān)督宏特征抽取方法,證明了在標(biāo)注數(shù)據(jù)充分的情況下能夠得到較好的效果[10]。

        既然有監(jiān)督和無監(jiān)督宏特征均能提高文本分類性能,那么同時(shí)使用這兩類特征是否會(huì)取得更好的性能呢?本文研究了有監(jiān)督和無監(jiān)督宏特征融合對文本分類性能的影響。

        2 有監(jiān)督宏特征

        2.1 基于K-means聚類的有監(jiān)督宏特征

        基于K-means聚類的有監(jiān)督宏特征的方法是從詞聚類得到的啟發(fā)。首先通過聚類算法將訓(xùn)練樣本聚成簇,然后利用標(biāo)注信息計(jì)算每個(gè)簇中的文檔類別概率分布,測試文檔距離最近的簇的文檔類別概率分布則作為該文檔的宏特征。具體的算法步驟如下[10]。

        1) 利用K-means進(jìn)行聚類。設(shè)定K為分類類別數(shù)。

        2) 對于每個(gè)聚類后的簇,得到兩個(gè)向量,即聚類中心向量和類概率分布向量。聚類中心向量表示聚類后簇中的文檔特征向量的平均值。類概率分布表示向量簇屬于每一個(gè)類別的概率。

        3) 對于每篇文檔,計(jì)算其與每個(gè)聚類中心向量的歐積幾德距離。如果該距離達(dá)到預(yù)設(shè)定的閾值,則距離最近的簇的類概率分布向量為該文檔的宏特征向量,否則該文檔的宏特征向量設(shè)定一個(gè)默認(rèn)值。由于沒有文檔的額外的先驗(yàn)信息,因此可以假設(shè)屬于每個(gè)類的概率為均勻分布來設(shè)定默認(rèn)值。

        該方法利用了聚類特征抽取的優(yōu)點(diǎn),又避免了因傳統(tǒng)的聚類方法效果不好導(dǎo)致選擇的特征質(zhì)量不高,為文本分類提供一種新的半監(jiān)督學(xué)習(xí)思路。

        2.2 基于質(zhì)心向量的有監(jiān)督宏特征

        基于質(zhì)心向量的有監(jiān)督宏特征的方法是從基于質(zhì)心向量的文本分類的方法得到的啟發(fā)。通過標(biāo)注的訓(xùn)練語料得到每個(gè)類別的質(zhì)心向量,給定測試文檔與其距離最近的質(zhì)心向量作為該測試文檔的宏特征。具體的算法步驟如下[10]。

        1) 將訓(xùn)練語料分成兩部分P1和P2,P1用來做基于質(zhì)心向量的分類,P2用來做神經(jīng)網(wǎng)絡(luò)或 SVM 的分類。

        2) 運(yùn)用Rocchio算法進(jìn)行基于質(zhì)心向量的分類。P1中每個(gè)質(zhì)心對應(yīng)一個(gè)質(zhì)心向量。

        3) 對于P2中的每個(gè)文檔,計(jì)算其與每個(gè)質(zhì)心向量的歐幾里得距離,與之最近的質(zhì)心向量作為該文檔的宏特征。

        3 無監(jiān)督宏特征

        3.1 基于LDA的無監(jiān)督宏特征

        LDA(Latent Dirichlet Allocation)模型是由Blei, David M, Jordan等于2003年提出的一種能夠提取文本隱含主題的模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出,同時(shí)它是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要人工標(biāo)注的訓(xùn)練集,需要的僅僅是文檔集以及指定主題的數(shù)量即可[11]。此外LDA的另一個(gè)優(yōu)點(diǎn)則是,對于每一個(gè)主題均可找出一些詞語來描述它。目前LDA模型已經(jīng)在機(jī)器學(xué)習(xí)的諸多領(lǐng)域以及信息檢索等領(lǐng)域中得到應(yīng)用。LDA是一種典型的基于詞的生成式模型,即它認(rèn)為一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。關(guān)于LDA模型的生成過程,可以用數(shù)學(xué)語言描述如下:

        2) 對于每篇文檔

        根據(jù)Poission分布抽樣出文章長度,即Nm~Poiss(ε)

        3) 對于每個(gè)詞

        轉(zhuǎn)換成概率圖模型表示如圖1所示。該圖展示了LDA模型三層貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)圖。

        圖1 LDA貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖

        (1)

        那么一個(gè)詞初始化為一個(gè)詞t的概率如式(2)所示。

        (2)

        枚舉所有主題求和得到整個(gè)文檔集合的似然函數(shù)如式(3)所示。

        (3)

        根據(jù)最大似然估計(jì)函數(shù),我們可以通過Gibbs采樣、變分推理、期望擴(kuò)散等方法估計(jì)出模型中的參數(shù)。通常來說,Gibbs采樣相比其他方法要好。因此,本文采用Gibbs采樣用于 LDA模型的訓(xùn)練和測試。測試得到文檔中的主題分布,該分布即作為文檔的無監(jiān)督宏特征。

        3.2 基于DBN的無監(jiān)督宏特征

        DBN(Deep Belief Network)是2006年以Hinton為首的研究人員提出的一種監(jiān)督學(xué)習(xí)模型和有監(jiān)督學(xué)習(xí)相結(jié)合的深度學(xué)習(xí)模型[6]。它是一個(gè)由若干層限制玻爾茲曼機(jī)(RBM)和一層反向傳播網(wǎng)絡(luò)(BP)組成的神經(jīng)網(wǎng)絡(luò)模型。RBM將文本的特征組合向量映射到超平面空間進(jìn)行學(xué)習(xí)降維,同時(shí)保證在學(xué)習(xí)過程當(dāng)中盡可能的保留原始特征的信息。其結(jié)構(gòu)如圖2所示。

        圖2 DBN結(jié)構(gòu)圖

        DBN在訓(xùn)練模型的過程中主要分為兩步:

        1) 無監(jiān)督學(xué)習(xí)過程: 單獨(dú)訓(xùn)練每一層RBM網(wǎng)絡(luò),保證特征向量映射到不同特征空間時(shí),都盡可能的保留原始特征信息;

        2) 有監(jiān)督微調(diào)過程: 在最后一層設(shè)置BP神經(jīng)網(wǎng)絡(luò),接收RBM的輸出特征向量作為它的輸入特征向量,有監(jiān)督地訓(xùn)練分類器。BP神經(jīng)網(wǎng)絡(luò)將錯(cuò)誤信息自頂向下傳播至每一層RBM網(wǎng)絡(luò),對整個(gè)DBN網(wǎng)絡(luò)進(jìn)行微調(diào)。

        網(wǎng)絡(luò)訓(xùn)練模型的過程可以看成是對一個(gè)深層BP網(wǎng)絡(luò)權(quán)值參數(shù)的初始化,從而使得DBN克服了BP網(wǎng)絡(luò)容易陷入局部最優(yōu)和訓(xùn)練時(shí)間長的缺點(diǎn)。DBN模型訓(xùn)練的第一步在深度學(xué)習(xí)中的術(shù)語叫做預(yù)訓(xùn)練,其目的是為了通過層級的RBM網(wǎng)絡(luò)迭代得到更優(yōu)質(zhì)的特征。本章利用預(yù)訓(xùn)練的輸出結(jié)果作為基于DBN抽取出的無監(jiān)督宏特征。

        4 有監(jiān)督和無監(jiān)督宏特征融合

        4.1 融合方法

        有監(jiān)督和無監(jiān)督宏特征融合,即將兩者串接得到新的向量作為特征向量。串接方法如下: 假設(shè)有監(jiān)督宏特征為s維特征向量X(x1,x2,x3,…,xs),無監(jiān)督宏特征為t維特征向量Y(y1,y2,y3,…,yt)。則得到新的融合后的特征向量Z如式(2)所示。

        (2)

        4.2 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        本章實(shí)驗(yàn)用Reuters-21578,20-Newsgroup和ACC(Automatically Constructed Corpora)三個(gè)語料庫來評測宏特征融合對文本分類的性能影響。每個(gè)語料庫數(shù)據(jù)均被隨機(jī)的分成三份,其中兩份用于訓(xùn)練,一份用于測試。

        Reuters-21578: 該語料庫在除掉未標(biāo)注文檔和一個(gè)包含多標(biāo)簽的類別中的文檔后,總共有52類。由于該52類文檔分布很不均勻,因此本實(shí)驗(yàn)只使用目前最常用的十類,共包括7 289篇文檔。其中訓(xùn)練集包括5 230篇文檔,測試集包括2 059篇文檔。

        20-Newsgroup: 該語料庫總共包括19 997篇文檔,覆蓋了幾乎超過20個(gè)新聞?dòng)懻摻M,每個(gè)類別的文檔數(shù)分布很均勻。其中,13 296篇文檔用于訓(xùn)練,6 667篇文檔用于測試。

        ACC: 該語料庫是從互聯(lián)網(wǎng)自動(dòng)采集的不均勻分布語料[7],總共包括4 717篇可用文檔,3 145篇文檔用于訓(xùn)練,1 572篇文檔用于測試。

        特征選擇: 通過比較多種傳統(tǒng)的特征選擇方法,本章實(shí)驗(yàn)采用ECE作為微特征選擇的方法,選擇出3 000維特征向量。

        聚類: 聚類采用K-means算法,K的取值為文檔類別數(shù)目。其中Reuters-21578和ACC語料均包括十類,而20-Newsgroup共有20類。聚類時(shí),判斷文檔所屬的簇需要設(shè)置一個(gè)相似度閾值,根據(jù)需要設(shè)置在0~1之間。對于Reuters-21578,20-Newsgroup和ACC,通過四階交叉驗(yàn)證得到的最佳閾值分別為0.45、0.54和0.47。

        分類: 分類采用SVM和神經(jīng)網(wǎng)絡(luò),其中SVM分類采用的是使用線性核函數(shù)和默認(rèn)參數(shù)設(shè)置的LibSVM工具。對于神經(jīng)網(wǎng)絡(luò)算法,為了方便起見,本文用NN來表示。使用帶有50個(gè)隱藏層結(jié)點(diǎn)和一個(gè)輸出層結(jié)點(diǎn)的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),損失函數(shù)采用交叉熵。第二層和第三層激勵(lì)函數(shù)分別為sigmoid函數(shù)和線性函數(shù)。

        為了描述方便,本文采用SMFCl和SMFCe分別代表Wang等人提出的基于K-means聚類和基于質(zhì)心向量的有監(jiān)督宏特征抽取方法[10]。UMFCl、UMFLDA、UMFDBN分別表示基于K-means聚類、LDA和DBN的無監(jiān)督宏特征抽取方法。另外,本文采用SMFCl+SVM 代表文本分類的特征抽取采用傳統(tǒng)微特征結(jié)合SMFCl、分類方法采用SVM。UMFCl+SMFCl+SVM 代表文本分類的特征抽取采用傳統(tǒng)微特征結(jié)合UMFCl和SMFCl宏特征、分類方法采用SVM。以此類推,基于宏特征的基本方法有UMFCl+SVM、SMFCl+SVM、SMFCe+SVM等?;诤晏卣魅诤系姆椒ㄓ蠻MFLDA+SMFCl+SVM、UMFDBN+SMFCl+SVM等。

        5 實(shí)驗(yàn)結(jié)果

        為了觀察SMFCl和SMFCe這兩種有監(jiān)督宏特征在結(jié)合無監(jiān)督宏特征后的效果,以及標(biāo)注數(shù)據(jù)的多少對融合特征效果的影響,本文在SVM全監(jiān)督分類方法的基礎(chǔ)上,做了微特征加上單獨(dú)的有監(jiān)督或無監(jiān)督宏特征,和微特征加上有監(jiān)督無監(jiān)督宏特征的結(jié)合之間的對比實(shí)驗(yàn)。其中有監(jiān)督宏特征實(shí)驗(yàn)結(jié)果采用Wang等人的實(shí)驗(yàn)結(jié)果作為基線。

        5.1 宏特征融合方法性能實(shí)驗(yàn)

        表1給出了在Reuters-21578、20-Newsgroup和ACC語料庫上,采用SVM全監(jiān)督分類方法,SMFCl和SMFCe結(jié)合三種無監(jiān)督宏特征UMFCl、UMFLDA和UMFDBN后的總體分類效果。

        表1 SMFCl和SMFCe融合無監(jiān)督宏特征后的性能

        從表1中可以看到,在無監(jiān)督宏特征UMFCl、UMFLDA、UMFDBN的基礎(chǔ)上加入有監(jiān)督的宏特征SMFCl或SMFCe,在三個(gè)語料庫上,整體分類性能都會(huì)比不加入有監(jiān)督宏特征的要好,同時(shí)也會(huì)比單獨(dú)的有監(jiān)督宏特征都要好,這說明無監(jiān)督宏特征和有監(jiān)督宏特征之間存在一定的互補(bǔ)性。在UMFCl、UMFLDA、UMFDBN三種無監(jiān)督宏特征方法中,UMFDBN表現(xiàn)出較優(yōu)的性能。同時(shí),UMFDBN和SMFCe宏特征融合在三個(gè)語料庫上均表現(xiàn)出最優(yōu)的效果。相比較不加入有監(jiān)督宏特征的方法UMFDBN,在Reuters-21578、20-Newsgroup和ACC語料庫上,micro-F1值分別提升1.27%、0.97%和1.18%,macro-F1值分別提升1.82%、0.90%和2.51%;同時(shí),相比較SMFCe性能也更加優(yōu)異。

        5.2 標(biāo)注數(shù)據(jù)對宏特征融合的性能影響

        為了表達(dá)標(biāo)注數(shù)據(jù)多少對于有監(jiān)督和無監(jiān)督宏特征融合的性能影響,圖3、圖4、圖5分別給出了在Reuters-21578,20-Newsgroup和ACC三個(gè)語料庫中,使用不同的標(biāo)注數(shù)量比例,不同的無監(jiān)督宏特征與有監(jiān)督宏特征的融合,文本分類Micro-F1值的變化情況。從圖中可以看出,在標(biāo)注數(shù)據(jù)較少的情況下,單獨(dú)無監(jiān)督宏特征UMFCl、UMFDBN、UMFLDA相比較單獨(dú)有監(jiān)督宏特征SMFCl、SMFCe,表現(xiàn)出較優(yōu)的性能。隨著標(biāo)注數(shù)據(jù)的增加,單獨(dú)有監(jiān)督宏特征的性能會(huì)逐步超過單獨(dú)無監(jiān)督宏特征的性能。同時(shí),我們發(fā)現(xiàn)一個(gè)現(xiàn)象,對于SMFCl、SMFCe兩種有監(jiān)督宏特征,與其他無監(jiān)督宏特征之間融合,在標(biāo)注數(shù)據(jù)較少時(shí),SMFCl和UMFCl(或UMFLDA,或UMFDBN)的融合效果會(huì)優(yōu)于SMFCe和UMFCl(或UMFLDA,或UMFDBN)的效果,隨著標(biāo)注數(shù)據(jù)的增加,后者的效果會(huì)超過前者的效果。其原因是,SMFCl是在抽取宏特征時(shí)用到了聚類算法,因此抽取出的特征帶有半監(jiān)督的屬性,而SMFCe在抽取宏特征時(shí)只用到了標(biāo)注數(shù)據(jù),從而導(dǎo)致SMFCl方法在和其他無監(jiān)督宏特征抽取方法結(jié)合時(shí),在標(biāo)注數(shù)據(jù)少時(shí)性能更優(yōu)。

        圖3 SMFCl和SMFCe結(jié)合無監(jiān)督宏特征后使用不同標(biāo)注數(shù)據(jù)比例在Reuters-21578上的性能

        圖4 SMFCl和SMFCe結(jié)合無監(jiān)督宏特征后使用不同標(biāo)注數(shù)據(jù)比例在20-Newsgroup上的性能

        圖5 SMFCl和SMFCe結(jié)合無監(jiān)督宏特征后使用不同標(biāo)注數(shù)據(jù)比例在ACC上的性能

        6 結(jié)束語

        本文將有監(jiān)督宏特征和無監(jiān)督宏特征融合后,結(jié)合傳統(tǒng)微特征作為共有特征用于文本分類,在Reuters-21578、20-Newsgroup和ACC三個(gè)語料庫進(jìn)行對比實(shí)驗(yàn),證明融合后的方法比單獨(dú)使用有監(jiān)督或無監(jiān)督宏特征更加有效。下一步工作我們將研究宏特征融合對不同分類方法的影響。

        [1] Yang Y, J O Pedersen. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of International Conference on Machine Learning. 1997.

        [2] Baker L D, A K McCallum. Distributional clustering of words for text classification[C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval. ACM.1998.

        [3] Kyriakopoulou A, T Kalamboukis. Using clustering to enhance text classification[C]//Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval. 2007.

        [4] Wenbo L, S Le, Z Dakun. Text classification based on labeled-LDA model [J]. Chinese Journal of Computers, 2008,31(4): 620-627.

        [5] Hinton G E, S Osindero, and Y -W Teh. A fast learning algorithm fordeep belief nets [J]. Neural Computation, 2006,18(7): 1527-1554.

        [6] Xiong T V Cherkassky. A combined SVM and LDA appr-oach for classification[C]//Proceedings of the IJCNN. 2005.

        [7] Wang D, et al. Automatic Corpora Construction for Text Classification[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing,2013: 726-732.

        [8] Manjunath S, B S Harish, and D S Guru. Dissimilarity Based Feature Selection for Text Classification: A Cluster Based Approach[C]//Proceedings of the ICWET. 2011: 495-499.

        [9] Dhillon I S, S Mallela, and R Kumar. A divisive information theoretic feature clustering algorithm for text classification [J]. The Journal of Machine Learning Research, 2003,3: 1265-1287.

        [10] Wang D, et al. Macro Features Based Text Categorization[C]//Proceedings of the 18th International Conference on Neural Information Processing, 2011: 211-219.

        [11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

        Text Categorization Based on Macro Feature Fusion

        WANG Dandan1, CHEN Qingcai2, WANG Xiaolong2, TANG Buzhou2

        (1. School of Digital Media, Shenzhen Institude of Information Technology, Shenzhen, Guangdong 518172, China;2. Key Laboratory of Network Oriented Intelligent Computation, Harbin Institute ofTechnology Shenzhen Graduate School, Shenzhen, Guangdong 518055, China)

        Macro feature extraction methods are a typical feature extraction methods for text categorization. These methods fall into two categories: supervised macro feature extraction and unsupervised macro feature extraction. In this paper, we study the effect of the fusion of the two categories of macro features, which are both proved positive to text categorization. In particular, two types of supervised macro features and three types of unsupervised macro features are taken into account. Experiments conducted on three corpora, including two public corpora (i.e., Reuters-21578 and 20-Newsgroup) and one automatically constructed corpus, show that the fusion of supervised and unsupervised macro features is more effective than using any of them individually.

        text classification, supervised macro feature extraction, unsupervised macro feature extraction, feature fusion

        王丹丹(1983—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,機(jī)器學(xué)習(xí)。E?mail:wangdandanhit@gmail.com陳清財(cái)(1975—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,人工智能,機(jī)器學(xué)習(xí)。E?mail:qingcai.chen@gmail.com王曉龍(1955—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,人工智能,機(jī)器學(xué)習(xí)。E?mail:wangxl@insun.hit.edu.cn

        2015-03-07 定稿日期: 2015-06-11

        國家自然科學(xué)基金(61173075,61272383);深圳市基礎(chǔ)重點(diǎn)項(xiàng)目(JC201005260118A);深圳市戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展專項(xiàng)(ZDSY20120613125401420,JCYJ20120613151940045);深圳科技研發(fā)資金(JC201005260175A);貴州省科學(xué)技術(shù)基金資助項(xiàng)目(黔科合J字[2013]2335號)

        1003-0077(2017)02-0092-07

        TP391

        A

        猜你喜歡
        分類監(jiān)督特征
        分類算一算
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        伊人网在线视频观看| 69一区二三区好的精华| 国产三级不卡在线观看视频| 国产爽快片一区二区三区| 蜜臀av毛片一区二区三区| 国产免费三级av在线| 又色又爽又黄的视频软件app| 国产精品毛片一区二区三区 | 一本大道久久东京热无码av| 国产精彩刺激对白视频| 美女露屁股无内裤视频| 日本一曲二曲三曲在线| 大陆成人精品自拍视频在线观看| 中文字幕人妻少妇伦伦| 成人试看120秒体验区| 人人摸人人操| 日日躁夜夜躁狠狠久久av | 人妻无码在线免费| 国产目拍亚洲精品区一区| 亚洲国产高清一区av| 女同一区二区三区在线观看| 日韩 亚洲 制服 欧美 综合| 久久精品aⅴ无码中文字字幕| 亚洲精品无码av中文字幕| 亚洲精品你懂的在线观看| 国产人成亚洲第一网站在线播放| 国产99久久久国产精品免费| 午夜精品久久99蜜桃| 天天摸天天做天天爽水多 | 精品综合久久久久久97超人| 国产精品嫩草影院午夜| 国产在线看不卡一区二区| 中文字幕一二三四五六七区| 亚洲热线99精品视频| 国产欧美日韩精品a在线观看| 精品2021露脸国产偷人在视频| 天天中文字幕av天天爽| 日韩亚洲精选一区二区三区| 欧美人与善在线com| 色一情一区二| 国产人妖一区二区在线|