亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WLabeled-LDA模型的文本分類研究

        2017-04-24 05:09:39卜天然安徽商貿(mào)職業(yè)技術(shù)學(xué)院安徽蕪湖241002
        關(guān)鍵詞:卡方特征選擇類別

        卜天然(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241002)

        基于WLabeled-LDA模型的文本分類研究

        卜天然
        (安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽蕪湖 241002)

        Labeled-LDA模型引入了類別標(biāo)簽信息,較傳統(tǒng)的LDA主題模型改進(jìn)了強(qiáng)制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓(xùn)練主題模型之前沒有去除無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導(dǎo)致主題的表達(dá)能力降低等問題。本文提出WLabeled-LDA模型,在訓(xùn)練主題模型之前使用卡方特征來選出好的特征詞,訓(xùn)練主題模型時(shí)用獲得的詞對(duì)類別的卡方值進(jìn)行主題模型加權(quán),并使用高斯密度函數(shù)對(duì)特征詞加權(quán)來降低高頻詞對(duì)主題表達(dá)能力的影響。實(shí)驗(yàn)結(jié)果顯示,此方法能使分類的準(zhǔn)確率和召回率得到一定的提高,說明其具有更好的分類效果。

        文本分類;隱含狄利克雷分配(LDA);卡方統(tǒng)計(jì);特征選擇;加權(quán)主題模型

        近年來,互聯(lián)網(wǎng)上文本數(shù)據(jù)急劇增長,自動(dòng)文本分類成為有效分析并利用這些文本信息的有效方法,現(xiàn)已被應(yīng)用到搜索引擎﹑信息檢索﹑信息推送等領(lǐng)域。自動(dòng)文本分類是指對(duì)未知類別的文本通過某種分類方法,自動(dòng)將其判定為相應(yīng)的類別。

        文本表示是文本分類研究的重要內(nèi)容。向量空間模型[1](VSM-Vector Space Model)是一種經(jīng)典的文本表示模型,但VSM特征維度往往較大,且不能對(duì)語義問題進(jìn)行建模。一些新的模型引入統(tǒng)計(jì)思想來挖掘文本的主題信息,能較好地解決語義問題,且能降低文本的表示維度。Deerwester和Dumais等提出的隱含語義索引(LSI-Latent Semantic Indexing)[2]模型并不是真正的主題模型,只通過矩陣的奇異值分解來選擇部分特征,起到降維的作用。經(jīng)過一系列的研究,針對(duì)LSI模型的理論基礎(chǔ)不夠清晰,Thomas Hofmann發(fā)展了PLSI(Probability Latent Semantic Indexing)模型[3],PLSI的降維效果較顯著,但模型的參數(shù)空間隨著訓(xùn)練數(shù)據(jù)規(guī)模的增長而增大,導(dǎo)致過度擬合的現(xiàn)象,不適合對(duì)動(dòng)態(tài)增長或規(guī)模較大的數(shù)據(jù)集進(jìn)行主題建模。針對(duì)這些問題,Blei等在PLSI的基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation)模型[4-5],得到一個(gè)更為完整的概率生成主題模型,LDA模型參數(shù)簡(jiǎn)單且不會(huì)產(chǎn)生過度擬合的現(xiàn)象,但LDA存在強(qiáng)制分配問題。李文波提出LDA的變形Labeled-LDA模型[6],通過引入類別標(biāo)簽信息,在各類別上協(xié)同計(jì)算主題的分配量,從而克服傳統(tǒng)LDA模型強(qiáng)制分配主題的問題。

        但Labeled-LDA模型仍存在一些缺陷,例如在訓(xùn)練主題模型之前沒有去除分類價(jià)值較小的無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,不能區(qū)分不同的詞對(duì)主題的貢獻(xiàn)度的不同,且Labeled-LDA模型獲得的主題分布傾向于高頻詞導(dǎo)致主題的表達(dá)能力受高頻詞的影響而降低。本文在Labeled-LDA的基礎(chǔ)上提出WLabeled-LDA模型,在訓(xùn)練主題模型前使用卡方特征選擇[7-8]來選出好的特征詞,在訓(xùn)練主題模型的統(tǒng)計(jì)過程中將卡方特征選擇計(jì)算獲得的詞通過類別的卡方值對(duì)主題模型加權(quán),以區(qū)分不同詞貢獻(xiàn)度的大小,并使用高斯密度函數(shù)對(duì)特征詞加權(quán)來降低高頻詞對(duì)主題表達(dá)能力的影響,提高主題的表達(dá)能力,實(shí)驗(yàn)結(jié)果表明,上述改進(jìn)的模型能獲得較好的分類效果。

        1 相關(guān)理論

        1.1 卡方特征選擇方法

        卡方檢驗(yàn)是數(shù)理統(tǒng)計(jì)中一種檢驗(yàn)兩個(gè)變量獨(dú)立性的方法,假設(shè)兩個(gè)變量是相互獨(dú)立的,再比較實(shí)際值與理論值(兩個(gè)變量在獨(dú)立性條件下應(yīng)該有的值)的偏差,如果偏差足夠小,就認(rèn)為誤差是由樣本的偶然性造成的,則兩個(gè)變量相互獨(dú)立的假設(shè)成立;如果偏差大到一定程度,則認(rèn)為產(chǎn)生誤差的原因不是樣本偶然性,推翻原假設(shè),認(rèn)為兩個(gè)變量之間是相關(guān)的,并且卡方統(tǒng)計(jì)的值越大,兩者的相關(guān)性越大?,F(xiàn)考察詞t與類別c的卡方值CHI(t,c)。

        表1 關(guān)于詞t對(duì)類別c的文本數(shù)量統(tǒng)計(jì)

        其中,N是訓(xùn)練集中文檔的總數(shù),A是包含詞w且屬于類c的文檔數(shù)量,B是包含詞w但不屬于類c的文檔數(shù)量,C是不包含詞w且屬于類c的文檔數(shù)量,D是不包含詞w且屬于類c的文檔數(shù)量。根據(jù)詞t與類別c相獨(dú)立的原假設(shè),類別c中包含詞t的文檔比例應(yīng)與整個(gè)訓(xùn)練集中包含詞t的文檔比例相同。這樣得到A的理論值如式(1)所示[7-8]。

        (1)

        于是得到樣本觀察值與理論值的偏差如式(2)所示[7-8]。

        (2)

        同理可以得到DB,DC,DD。于是得到詞t對(duì)類別c的卡方值如式(3)所示[7-8]。

        (3)

        式(3)是針對(duì)一個(gè)類別的情況,如果對(duì)于多類別的問題,先按式(3)計(jì)算特征t與每個(gè)類別的卡方值,再計(jì)算特征t對(duì)整個(gè)系統(tǒng)的卡方值,有兩種計(jì)算方式分別如式(4)和式(5)所示[7-8]。

        (4)

        (5)

        1.2 LDA模型

        LDA[4-5]是對(duì)離散數(shù)據(jù)集建模的主題模型,具有清晰的三層貝葉斯結(jié)構(gòu)(圖1),即文檔-主題-特征詞三層結(jié)構(gòu),一篇文檔可以看成若干個(gè)主題構(gòu)成的,以不同的概率分布在各個(gè)主題上,主題是由若干個(gè)特定詞匯所構(gòu)成,每個(gè)詞以一定的概率出現(xiàn)在該主題下。LDA模型挖掘文本的主題信息能夠分析深層的語義知識(shí),常見的語義現(xiàn)象包括一詞多義和一義多詞,比如說文檔A中的“蘋果”與文檔B中的“香蕉”這兩個(gè)詞都與主題“水果”相關(guān),這可以理解為一義多詞;詞匯“蘋果”不僅與主題“水果”相關(guān),還與“電子產(chǎn)品”這個(gè)主題相關(guān),這是一詞多義。

        圖1 LDA文檔結(jié)構(gòu)圖

        圖2 LDA有向生成概率圖

        所謂生成過程,可以理解為一篇文檔的每個(gè)詞都是通過“以一定概率選擇某個(gè)主題,再從該主題中以一定概率選擇某個(gè)詞”這樣一個(gè)過程得到。LDA概率主題模型生成文本集的算法過程[4]如下:

        (6)

        (7)

        (8)

        1.3 Labeled-LDA模型

        傳統(tǒng)的LDA模型對(duì)文本集合建模時(shí),集合中的所有文本只討論一組隱含主題,這樣會(huì)導(dǎo)致文本在不屬于自己的類別上進(jìn)行生成,從而產(chǎn)生主題強(qiáng)制分配問題。為此Labeled-LDA[6]模型在LDA的基礎(chǔ)上引入了類別標(biāo)簽的信息,Labeled-LDA的文檔結(jié)構(gòu)如圖3所示,Labeled-LDA的有向概率生成模型如圖4所示。

        圖3 Labeled-LDA文檔結(jié)構(gòu)圖

        圖4 Labeled-LDA有向生成概率圖

        Labeled-LDA模型描述文本集合時(shí),將文本按照類別劃分,每一類別分別挖掘若干個(gè)主題,這樣就將類別標(biāo)簽附加到主題,嵌入了類別標(biāo)簽信息。傳統(tǒng)的LDA模型參數(shù)α與β只有一組,而Labeled-LDA模型參數(shù)α與β按照類別被分為C組,即α=(α1,…,αc,…,αC),β=(β1,…,βc,…,βC),參數(shù)(αC,βC)決定了類別c中的那組隱含主題,這就使用了類別標(biāo)簽對(duì)每個(gè)隱含主題進(jìn)行了標(biāo)記,αC和βC是類別c的先驗(yàn)分布參數(shù)。θ=(θ1,…,θc,…,θC),其中θC表示文本在類別c的那組隱含主題分布,φ=(φ1,…,φc,…,φC),φC表示類別c中主題的詞分布。

        Labeled-LDA針對(duì)LDA模型存在強(qiáng)制分配主題問題作出改進(jìn),但仍存在以下缺陷:第一,對(duì)Labeled-LDA模型訓(xùn)練前沒有進(jìn)行特征詞選擇,一些分類價(jià)值較小的詞或者噪聲詞會(huì)對(duì)模型的主題模型的訓(xùn)練產(chǎn)生干擾,從而影響模型的效果,并且在模型訓(xùn)練時(shí)會(huì)有較大的時(shí)間開銷。第二,Labeled-LDA在模型訓(xùn)練時(shí)沒有考慮詞與類別的關(guān)聯(lián)度,例如“跑步”與類別標(biāo)簽“體育”的關(guān)聯(lián)度比“礦泉水”更加緊密,這可以用卡方特征選擇計(jì)算的CHI(t,c)來區(qū)分不同詞與類別的關(guān)聯(lián)度的差異。第三,Labeled-LDA模型在訓(xùn)練過程中根據(jù)詞出現(xiàn)的頻次來統(tǒng)計(jì)主題的分布,這就導(dǎo)致主題模型的主題分布傾向于高頻詞,最終導(dǎo)致主題表達(dá)能力削弱。

        2 WLabeled-LDA模型

        對(duì)于傳統(tǒng)Labeled-LDA模型存在的缺點(diǎn),本文對(duì)其進(jìn)行了相應(yīng)的改進(jìn),提出一種新的主題模型WLabeled-LDA。

        首先,WLabeled-LDA在訓(xùn)練主題模型之前采用卡方特征選擇方法選擇分類價(jià)值較大的特征詞,同時(shí)起到降維的作用,卡方特征選擇方法見1.4節(jié)所述。

        其次,WLabeled-LDA在訓(xùn)練主題模型時(shí),將卡方特征選擇計(jì)算得到的卡方值CHI(t,c)對(duì)主題模型加權(quán),以區(qū)分不同的詞與類別的關(guān)聯(lián)度的差異,例如“跑步”與類別“體育”的卡方值為0.6,“礦泉水”與類別“體育”的卡方值為0.2,則表明“跑步”與“體育”的關(guān)聯(lián)度更大。Gibbs采樣過程中θ和φ新的計(jì)算公式如式(9)和式(10)所示。

        (9)

        (10)

        再次,由于WLabeled-LDA在對(duì)主題分布的統(tǒng)計(jì)過程中傾向于高頻詞,降低了低頻詞的表達(dá)作用,為此引入高斯密度函數(shù)來降低高頻詞的作用,高斯密度函數(shù)圖像如圖5所示,當(dāng)詞頻較高時(shí),它的函數(shù)值并沒有一直在增大,這就降低了詞頻過高所產(chǎn)生的影響。在Gibbs采樣過程中用高斯密度函數(shù)值對(duì)詞進(jìn)行加權(quán),權(quán)重計(jì)算方法如式(11)所示。

        (11)

        于是得到GIbbs采樣過程中θ和φ的計(jì)算如式(12)和(13)所示。

        (12)

        (13)

        圖5 高斯密度函數(shù)圖像

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        語料庫選用的是復(fù)旦大學(xué)中文語料庫,在藝術(shù)﹑歷史﹑空間﹑計(jì)算機(jī)﹑環(huán)境五個(gè)類別中分別選擇訓(xùn)練文本300篇﹑測(cè)試文本200篇構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。

        3.2 相似度計(jì)算

        文本被表示成主題之后成為一個(gè)主題向量,兩個(gè)文本的相似度采用向量余弦夾角[9]來度量,分類算法采用經(jīng)典的K最臨近算法(KNN-K-NearestNeighbor)[9]。余弦夾角的計(jì)算如式(14)所示。

        (14)

        3.3 評(píng)價(jià)指標(biāo)

        采用宏觀準(zhǔn)確率Macro_P[10]和宏觀召回率Macro_R[10]作為評(píng)價(jià)指標(biāo),Macro_P和Macro_R的計(jì)算分別如式(15)和式(16)所示。

        (15)

        (16)

        3.4 實(shí)驗(yàn)過程

        實(shí)驗(yàn)選用中科院分詞系統(tǒng)ICTCLAS2015,在myecl-ipse2014開發(fā)環(huán)境中編寫java程序,在同樣的數(shù)據(jù)集上分別針對(duì)LDA、Labeled-LDA、WLabeled-LDA三種模型進(jìn)行文本分類實(shí)驗(yàn),實(shí)驗(yàn)流程設(shè)計(jì)如圖6所示。

        圖6 文本分類流程圖

        3.5 實(shí)驗(yàn)結(jié)果對(duì)比

        采用LDA、Labeled-LDA、WLabeled-LDA三種模型并結(jié)合KNN[9]分類算法進(jìn)行文本分類的準(zhǔn)確率如圖7所示,可以看出主題數(shù)為115時(shí)WLabeled-LDA方法的準(zhǔn)確率達(dá)到最大值84.74%,主題數(shù)大于115時(shí)分類的準(zhǔn)確率略微下降并趨于穩(wěn)定,較LDA方法提高5.8%,較Labeled-LDA提高3.42%,從數(shù)據(jù)的比較可以看出WLabeled-LDA方法的分類準(zhǔn)確率高于LDA和Labeled-LDA,說明其具有更好的分類效果。

        圖7 準(zhǔn)確率

        采用三種模型進(jìn)行文本分類的召回率如圖8所示。在主題數(shù)為95時(shí)WLabeled-LDA方法達(dá)到最大值88.56%,主題數(shù)為115時(shí)LDA、Labeled-LDA方法的召回率分別達(dá)到最大值81.79%和84.33%。比較數(shù)據(jù)得知,WLabeled-LDA具有更好的分類效果,說明該改進(jìn)方法的有效性。

        圖8 召回率

        4 結(jié)語

        主題模型在對(duì)文本建模時(shí)引入了深層語義的知識(shí),降低了文本表示的緯度,這對(duì)文本分類結(jié)果起重要作用,但LDA及關(guān)于LDA改進(jìn)的主題模型在主題挖掘時(shí)對(duì)語義的理解仍然存在一些問題,它們只能分析一義多詞和一詞多義這兩種情形,并不能對(duì)詞的順序不同產(chǎn)生的語義進(jìn)行較好的分析,例如“父母愛你嗎”與“你愛父母嗎”這兩句話包含的詞完全相同,只是因?yàn)樵~的順序不同導(dǎo)致這兩句話的意思大不相同,主題模型并不能分析出這種語義,這需要結(jié)合詞法方面知識(shí)對(duì)語義進(jìn)行更深層次的分析,這是下一步工作的重點(diǎn)。

        [1]SaltonG,WongA,YangCS.Avectorspacemodelforautomaticindexing[J].CommunicationsoftheACM,1975(18): 613-620.

        [2]DeerwesterS,DumaisT.Indexingbylatentsemanticindexing[J].JournaloftheAmericanSocietyforInformationScience,1990(6):391-407.

        [3]ThomasHofmann.Probabilisticlatentsemanticindexing[C].ProceedingsoftheSIGIR.Berkeley,CA,USA,1999: 50-57.

        [4]BleiD,NgA,JordanM.Latentdirichletallocation[J].JournalofMachineLearningReasearch,2003(3): 993-1002.

        [5]GregorHeinrich.Parameterestimationfortextanalysis[R].VsonixvsonixGmbHandUniversityofLeipzig,2008.

        [6]李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計(jì)算機(jī)學(xué)報(bào),2008(4):620-627.

        [7]陳亮,龔儉.基于卡方統(tǒng)計(jì)的應(yīng)用協(xié)議流量行為特征分析方法[J].軟件學(xué)報(bào),2010(11):2852-2865.

        [8]劉健,張維明.基于互信息的文本特征選擇方法研究與改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2008(10):135-137.

        [9]YaoBin,LiFeifei,KumarP.KnearstneighborqueriesandkNN-Joinsinlargerelationaldabase(almost)forfree[C].IEEE,InternationalConferenceonDataEngineering,2010:4-15.

        [10]李艷嬌,蔣同海.基于改進(jìn)權(quán)重貝葉斯的維文文本分類模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2012(12):4726-4730.

        [11]GfiffithsTL.SteyversM.Findingscientifictopics[C].ProceedingoftheNationalAcademyofSciences,2004:5228-5235.

        Research on Categorization of Chinese Text Based on WLabeled-LDA Model

        BU Tian-ran

        (Anhui Business College, Wuhu Anhui 241002, China)

        Labeled-LDA model integrates the class label information,it improves the problem of compulsive allocation compared with the traditional LDA model.However,Labeled-LDA dosen’t remove the useless words before the training topic model,it dosen’t consider the relevance between the words and the categories in the process of training,and the distribution of topics is inclined to high frequency words so that it reduces the expressive ability of topics.An improved model of WLabeled-LDA is proposed in this paper.It uses CHI-square feature selection algorithm to select feature words before training.When topic model is trained,it’s weighted by CHI-square value and feature words are weighted by Gauss function to reduce the effects of high frequency words.The experimental results show that the method above is more effective in terms of precision and recall.

        text categorization;Latent Dirichlet Allocation(LDA);CHI-square statistic; feature selection;weighting topic model

        2017-01-07

        安徽省省級(jí)自然科研一般項(xiàng)目“基于Nutch的節(jié)能減排垂直搜索引擎設(shè)計(jì)與應(yīng)用研究”(KJSM201601);安徽商貿(mào)職業(yè)技術(shù)學(xué)院院級(jí)科研項(xiàng)目“基于Hadoop平臺(tái)的文本聚類算法研究”(2016KYZ05)。

        卜天然(1981- ),男,講師,碩士,H3C網(wǎng)絡(luò)高級(jí)工程師,從事虛擬網(wǎng)絡(luò)計(jì)算與數(shù)據(jù)挖掘研究。

        TP18

        A

        2095-7602(2017)04-0006-07

        猜你喜歡
        卡方特征選擇類別
        卡方檢驗(yàn)的應(yīng)用條件
        卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
        卡方檢驗(yàn)的應(yīng)用條件
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法
        av在线观看一区二区三区| 中日韩欧美高清在线播放| 91大神蜜桃视频在线观看| 国产丝袜爆操在线观看| 18禁裸男晨勃露j毛网站| 亚洲欧洲精品成人久久曰影片 | 亚洲av无码国产精品永久一区| 国产成人综合久久精品免费 | 青青草原综合久久大伊人精品| 久久久久香蕉国产线看观看伊| 在线精品国内视频秒播| 日本黑人人妻一区二区水多多| 亚洲国产精品一区二区毛片| 四虎影视免费永久在线观看| 国产在线精品一区二区在线看| 国产精品一级黄色大片| 国产亚洲一区二区在线观看| 亚洲一区二区三区中文字幂 | 日本一区二区在线资源| 亚洲精品一区二区高清| 成年女人色毛片| 五月婷婷激情小说| 内射中出后入内射极品女神视频 | 日韩中文网| 国产在线看不卡一区二区| 国产亚洲欧美精品永久| 亚洲美女又黄又爽在线观看| 亚洲VR永久无码一区| 美女露出奶头扒开内裤的视频| 婷婷色香五月综合激激情| 尤物视频一区二区| 久久精品亚洲乱码伦伦中文| 久久久久亚洲av成人人电影| 国产午夜三级一区二区三| 国产成人久久精品流白浆| av天堂最新在线播放| 中文字幕精品久久久久人妻红杏ⅰ | 2021国产精品国产精华| 美女污污网站| 日本一区二区三区清视频| 人禽交 欧美 网站|