亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合CRFs & SVM應(yīng)用于文本信息分類(lèi)

        2020-02-24 05:35:34胡改蝶馬建芬
        關(guān)鍵詞:分類(lèi)文本效果

        胡改蝶, 馬建芬

        (1.太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024)

        0 引言

        隨著網(wǎng)絡(luò)的日益發(fā)展,網(wǎng)絡(luò)信息的增長(zhǎng)也愈來(lái)愈快,其中文本信息是網(wǎng)絡(luò)信息中最重要的一部分。如何快速且有效地對(duì)文本信息進(jìn)行合理的組織、管理和使用,從而進(jìn)一步促進(jìn)文本信息分類(lèi)的發(fā)展已成為組織文本數(shù)據(jù)的關(guān)鍵技術(shù)[1-2]。

        分類(lèi)本質(zhì)上就是在特征向量x=(x1,x2,…,xk)給定的條件下,估計(jì)離散類(lèi)變量y?;跈C(jī)器學(xué)習(xí)的分類(lèi)方法有產(chǎn)生式模型(Generative Model,簡(jiǎn)稱GM)與判別式模型(Discriminative Model,簡(jiǎn)稱DM)。二者的主要區(qū)別在于:前者是將估計(jì)聯(lián)合分布概率作為輸入和輸出,它的局限在于維數(shù)特別大,特征也有很大的依賴性,后者是估計(jì)條件概率,然后進(jìn)行分類(lèi),以此來(lái)解決前面所述的問(wèn)題[3];前者的觀察序列可以是模型的一部分,后者的觀察序列只可以是條件;前者是針對(duì)無(wú)窮樣本,后者是針對(duì)有限樣本[4]。文本信息分類(lèi)就是用自動(dòng)化的技術(shù)將文本樣例分配到一組預(yù)定義的類(lèi)別中的一個(gè)或多個(gè)的過(guò)程[5-6]。在文本信息分類(lèi)中用到了很多技術(shù),常見(jiàn)的判別式模型有條件隨機(jī)場(chǎng)(Conditional Random Fields,簡(jiǎn)稱CRFs)、支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)和最大熵模型(Maximum Entropy Method,簡(jiǎn)稱MEM)等。

        基于條件隨機(jī)場(chǎng)和支持向量機(jī)2種方法,運(yùn)用循序漸進(jìn)的方法,先通過(guò)條件隨機(jī)場(chǎng)得到特征集,隨后通過(guò)支持向量機(jī)再進(jìn)行訓(xùn)練和分類(lèi),最終得出比傳統(tǒng)SVM分類(lèi)效果更好的混合方法。將混合CRFs & SVM方法運(yùn)用到文本信息分類(lèi)中,從而對(duì)文本信息獲取更好的分類(lèi)。最后利用文本集對(duì)此方法進(jìn)行實(shí)驗(yàn),并與傳統(tǒng)SVM方法作了相應(yīng)對(duì)比,驗(yàn)證了CRFs & SVM方法的有效性。

        1 CRFs & SVM

        1.1 條件隨機(jī)場(chǎng)(CRFs)

        條件隨機(jī)場(chǎng)是基于統(tǒng)計(jì)的判別式模型之一,是在給定一輸入序列的前提下,求出標(biāo)注序列的概率模型,本質(zhì)上是整合了分類(lèi)和圖像模型優(yōu)點(diǎn)的一種模型。經(jīng)常使用的是線性鏈?zhǔn)紺RFs。其定義是[4]:設(shè)x和y為隨機(jī)變量,θt為從訓(xùn)練集中訓(xùn)練所得到的參數(shù)變量,ft(yk,yk-1,xk)為一組真值特征函數(shù),k表示序列位置,此時(shí)CRFs的條件概率

        (1)

        式中,z(x)為歸一化因子

        (2)

        CRFs對(duì)獨(dú)立性假設(shè)和數(shù)據(jù)歸納偏注問(wèn)題解決有很大的見(jiàn)解,同時(shí)CRFs具有產(chǎn)生式模型的特點(diǎn),對(duì)上下文的文本信息描述有特別好的效果,并對(duì)所有特征進(jìn)行全局歸一化[7]。它主要用于分詞、詞性標(biāo)注、文本處理、圖像分類(lèi)、實(shí)體識(shí)別和生物信息學(xué)等范疇的研究。

        1.2 支持向量機(jī)(SVM)

        支持向量機(jī)是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化的統(tǒng)計(jì)學(xué)習(xí)方法,是基于分類(lèi)邊界的方法,主要應(yīng)用于小樣本分類(lèi)。SVM大致分為線性可分的、線性不可分和非線性3種情況。第一種情況是通過(guò)最大化邊緣的超平面來(lái)實(shí)現(xiàn)的;第二種情況是通過(guò)定義松弛變量,存放到邊緣的離差來(lái)實(shí)現(xiàn)的;第三種情況是將其低維空間中的點(diǎn)映射到新的高維空間,可以用適當(dāng)?shù)暮撕瘮?shù),將其轉(zhuǎn)換成線性可分,然后辨別分類(lèi)的邊界,從而大大避免維數(shù)災(zāi)難問(wèn)題[8]。即支持向量機(jī)的主要思想是通過(guò)非線性變換將輸入空間變換到高維特征空間,再求出最優(yōu)線性分類(lèi)面[9]。

        支持向量機(jī)是一種神經(jīng)網(wǎng)絡(luò),它對(duì)分類(lèi)做出了巨大貢獻(xiàn),得到國(guó)內(nèi)外諸多研究人員的高度重視,并將其理論在多個(gè)領(lǐng)域應(yīng)用,如在文本分類(lèi)、語(yǔ)音方面、數(shù)據(jù)挖掘、圖像分類(lèi)和字符識(shí)別范疇都有廣泛應(yīng)用。

        1.3 CRFs & SVM

        基于CRFs和SVM的特點(diǎn),從理論上講,將二者結(jié)合起來(lái)是可以應(yīng)用在多個(gè)研究領(lǐng)域的。CRFs和SVM的結(jié)合方法有:順序法,即第二個(gè)的分類(lèi)器的輸入是第一個(gè)分類(lèi)器的輸出;并列法,即同時(shí)用2種方法進(jìn)行分類(lèi)后,再將其進(jìn)行整合,以此得到最終的分類(lèi)結(jié)果[10]。本文采用順序法進(jìn)行研究。將文本信息的訓(xùn)練集通過(guò)CRFs得出特征集,然后將其送入SVM,再次進(jìn)行訓(xùn)練,最后得出分類(lèi)結(jié)果[11]。這種方法的優(yōu)點(diǎn)是CRFs 的上下文相關(guān)性可以解決文本信息的不確定分類(lèi)問(wèn)題。CRFs & SVM定義

        (3)

        式中,H(yk,xk)為第k個(gè)序列位置只考慮當(dāng)前觀測(cè)值的后驗(yàn)概率。

        CRFs訓(xùn)練是將文本信息數(shù)據(jù)集轉(zhuǎn)換成適合CRFs的文本信息訓(xùn)練集,然后用訓(xùn)練集生成一個(gè)模型文件,從而得到特征總數(shù)集及每一特征出現(xiàn)次數(shù),最后對(duì)參數(shù)進(jìn)行訓(xùn)練[11]。本文條件隨機(jī)場(chǎng)的訓(xùn)練是用CRF++0.53實(shí)現(xiàn)。

        SVM訓(xùn)練主要是解決后驗(yàn)概率問(wèn)題,此處可由對(duì)偶分類(lèi)耦合來(lái)得出多類(lèi)分類(lèi)的后驗(yàn)概率。假設(shè)觀察x和類(lèi)標(biāo)簽y,k,t為訓(xùn)練集中類(lèi)別的位置,用對(duì)偶分類(lèi)的條件概率μkt=p(y=k/y=kort,x)的耦合類(lèi)的估計(jì)值rkt來(lái)估計(jì)后驗(yàn)概率pk=P(y=k/x),k=1,2,…,K(其中K為類(lèi)別的數(shù)目)。通過(guò)優(yōu)化后的后驗(yàn)概率[12-13]

        (4)

        式中,rkt=P(y=k/y=kort,x)=1/(1+eAf+B),f為決策函數(shù)分類(lèi)值,A、B是訓(xùn)練所得的參數(shù)。

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)環(huán)境、文本集與測(cè)量標(biāo)準(zhǔn)

        為了對(duì)上述CRFs & SVM方法進(jìn)行驗(yàn)證,本實(shí)驗(yàn)將同一組文本集分別在傳統(tǒng)的SVM方法和混合CRFs & SVM方法上進(jìn)行了分類(lèi)實(shí)驗(yàn)。本文的實(shí)驗(yàn)環(huán)境是Microsoft Windows7操作系統(tǒng),Intel(R) Core(TM) I5-6200U CPU @2.30 GHz 處理器,4.00 G內(nèi)存,64位操作系統(tǒng)。用到的工具有Visual Studio 2010、CRF++0.53和Visual C++6.0。

        用到的實(shí)驗(yàn)文本集為復(fù)旦大學(xué)提供的分類(lèi)文本集,該文本集包括訓(xùn)練文本集和測(cè)試文本集,從中抽取了7個(gè)類(lèi)別,分別是經(jīng)濟(jì)、計(jì)算機(jī)、軍事、藝術(shù)、醫(yī)藥、教育和政治。訓(xùn)練文本集和測(cè)試文本集相互之間不重疊,從中抽取訓(xùn)練文本集1 052個(gè),測(cè)試文本集有577個(gè),共計(jì)1 719個(gè)文本集,其類(lèi)別及文本集統(tǒng)計(jì)數(shù)如表1所示。

        表1 類(lèi)別及文本集

        分類(lèi)實(shí)驗(yàn)用查全率(Recall,簡(jiǎn)稱R)、查準(zhǔn)率(Precision,簡(jiǎn)稱P)和F1-測(cè)量(F1-Measure,簡(jiǎn)稱F1)來(lái)衡量的[14-15],其中F1-測(cè)量是由查全率和查準(zhǔn)率2個(gè)值綜合而來(lái)的。同時(shí)求出了所有類(lèi)別的查全率、查準(zhǔn)率和F1-測(cè)量的平均值(Average,簡(jiǎn)稱A),用其對(duì)分類(lèi)效果進(jìn)行衡量。

        2.2 實(shí)驗(yàn)對(duì)比結(jié)果與分析

        一般情況下,SVM分類(lèi)算法優(yōu)于其他的分類(lèi)算法,因而實(shí)驗(yàn)中用傳統(tǒng)SVM和混合CRFs & SVM 2種方法對(duì)文本信息進(jìn)行分類(lèi),并進(jìn)行比較分析。實(shí)驗(yàn)中傳統(tǒng)SVM方法的特征選擇用的是卡方統(tǒng)計(jì)法,特征加權(quán)算法選擇TF·IDF算法,特征空間數(shù)目選擇800。

        為了與傳統(tǒng)SVM方法進(jìn)行比較,實(shí)驗(yàn)共使用了3種方式在相同實(shí)驗(yàn)環(huán)境下對(duì)同一組文本集進(jìn)行分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)分類(lèi)對(duì)比效果如表2所示。從表2中可以看到,采用CRFs & SVM方法后,除了在經(jīng)濟(jì)和政治類(lèi)別的查全率略小、經(jīng)濟(jì)類(lèi)別的F1-測(cè)量值略小外,其余類(lèi)別的查全率、查準(zhǔn)率和F1-測(cè)量結(jié)果均有明顯提升,都得到了較好的分類(lèi)效果,準(zhǔn)確率大大提升,尤其是對(duì)軍事、藝術(shù)和醫(yī)藥類(lèi)別的分類(lèi)效果非常好。同時(shí)也可看到,CRFs & SVM方法的查全率、查準(zhǔn)率和F1-測(cè)量的平均值分別達(dá)到了0.958、0.964和0.961,其平均值均比傳統(tǒng)SVM方法的分類(lèi)值高。通過(guò)對(duì)分類(lèi)后的查全率、查準(zhǔn)率和F1-測(cè)量進(jìn)行對(duì)比,盡管分類(lèi)后高出的值并不是很突出,但整體來(lái)看,CRFs & SVM方法的分類(lèi)效果要好。

        表2 分類(lèi)對(duì)比效果

        圖1 查全率對(duì)比圖

        各類(lèi)別運(yùn)用2種方法分類(lèi)后的對(duì)比效果如圖1、圖2和圖3所示。從圖1、圖2和圖3的對(duì)比效果可知,CRFs & SVM方法的查全率、查準(zhǔn)率和F1-測(cè)量的分類(lèi)值均高于傳統(tǒng)SVM方法。

        實(shí)驗(yàn)結(jié)果表明,CRFs & SVM方法不僅可以消除上下文的不相關(guān)性,達(dá)到降低特征維數(shù)的效果,解決文本信息的不確定分類(lèi)問(wèn)題,從而使分類(lèi)的效果具有一定的優(yōu)越性,而且CRFs & SVM方法可以對(duì)文本信息進(jìn)行分類(lèi),進(jìn)一步驗(yàn)證了CRFs & SVM方法適用于文本信息分類(lèi),使用此方法進(jìn)行文本信息分類(lèi)是有效的、可行的,在文本信息分類(lèi)中有一定的實(shí)用價(jià)值。

        圖2 查準(zhǔn)率對(duì)比圖

        圖3 F1對(duì)比圖

        3 結(jié)語(yǔ)

        以文本信息為研究對(duì)象,探討了條件隨機(jī)場(chǎng)方法和支持向量機(jī)方法。采用條件隨機(jī)場(chǎng)和支持向量機(jī)結(jié)合起來(lái)的方法—CRFs & SVM方法,并將CRFs & SVM方法運(yùn)用到文本信息分類(lèi)中。不僅可解決特征集出現(xiàn)次數(shù)問(wèn)題,同時(shí)還解決了分類(lèi)后驗(yàn)概率問(wèn)題。經(jīng)過(guò)實(shí)驗(yàn)將其分類(lèi)效果與傳統(tǒng)SVM方法效果進(jìn)行了對(duì)比,實(shí)驗(yàn)證明CRFs & SVM方法對(duì)文本信息分類(lèi)的優(yōu)越性,適用于文本信息分類(lèi)領(lǐng)域,具有分類(lèi)的實(shí)踐性和實(shí)用性,可以為分類(lèi)領(lǐng)域提供可靠的研究依據(jù)。但是部分文本信息分類(lèi)效果還有待提高,在今后的研究中,努力探索二者的結(jié)合性,達(dá)到更好的分類(lèi)優(yōu)化,并在更大的文本信息集上實(shí)現(xiàn)更好的分類(lèi)效果。

        猜你喜歡
        分類(lèi)文本效果
        按摩效果確有理論依據(jù)
        分類(lèi)算一算
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        迅速制造慢門(mén)虛化效果
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        抓住“瞬間性”效果
        教你一招:數(shù)的分類(lèi)
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        性视频毛茸茸女性一区二区| 67194熟妇在线永久免费观看| 成人无码午夜在线观看| 亚洲第一区二区快射影院| 亚洲一区二区三区免费的视频| 最新欧美精品一区二区三区| 亚洲av无码精品色午夜在线观看| 国产爆乳乱码女大生Av| 亚洲综合网中文字幕在线| 日本女优在线一区二区三区| 中文字幕人妻无码一夲道| 中文亚洲日韩欧美| 亚洲精品区二区三区蜜桃| 偷拍色图一区二区三区| 一本色道久久88精品综合| 国产成人v爽在线免播放观看| 国产精品一级av一区二区| 久久人妻一区二区三区免费 | 国产三级三级精品久久| 精品亚洲一区二区区别在线观看| 人人摸人人操| 亚洲av美女在线播放啊| 日韩av一区二区无卡| 欧美v国产v亚洲v日韩九九| 亚洲欧美日韩人成在线播放| 狠狠丁香激情久久综合| 久久老熟女一区二区三区| 一本久久综合亚洲鲁鲁五月天 | 国产精品久久无码不卡黑寡妇 | 国产精品国产三级在线高清观看| 我也色自拍俺也色自拍| 狠狠摸狠狠澡| 日日摸夜夜添无码无码av| 亚洲精品国产福利在线观看| 亚洲av香蕉一区二区三区av| 亚洲精品无码久久久影院相关影片| 91在线精品老司机免费播放| 久久久成人av毛片免费观看| 人人妻人人澡人人爽欧美一区 | 免费人成在线观看网站| 狠狠噜天天噜日日噜|