亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SA-SVM的中文文本分類研究

        2019-04-01 09:28:20郭超磊陳軍華
        關(guān)鍵詞:模擬退火準(zhǔn)確率設(shè)置

        郭超磊 陳軍華

        (上海師范大學(xué)信息與機(jī)電工程學(xué)院 上海 201400)

        0 引 言

        文本分類,就是利用計(jì)算機(jī)相關(guān)技術(shù)將具有相同特征的文本信息根據(jù)文本內(nèi)容自動(dòng)劃分到預(yù)先設(shè)定好的文本類別體系中的過(guò)程[1]。眾多學(xué)者在研究文本分類的過(guò)程中,提供了許多優(yōu)秀的分類算法,鐘將等[2]提出一種改進(jìn)的KNN文本分類算法,介紹KNN文本分類算法,并基于LSA降維和樣本密度對(duì)KNN進(jìn)行改進(jìn);Shathi等[3]將貝葉斯算法應(yīng)用于文本分類中;Bahassine等[4]使用決策樹(shù)算法對(duì)文本進(jìn)行分類;Goudjil等[5]采用SVM算法對(duì)文本分類進(jìn)行技術(shù)研究。經(jīng)過(guò)大量實(shí)驗(yàn)表明,在中文文本分類上,SVM具有較強(qiáng)的泛化能力?;赟VM的文本分類性能與其懲罰因子C和核函數(shù)參數(shù)σ等密切相關(guān),直接影響文本分類精度[6-7]。

        選擇SVM的參數(shù)是一個(gè)優(yōu)化問(wèn)題,近年來(lái),國(guó)內(nèi)外學(xué)者提出了很多優(yōu)化SVM參數(shù)的方法。莊嚴(yán)等[8]提出了基于蟻群優(yōu)化算法(ACO)的支持向量機(jī)選取參數(shù)算法;陳晉音等[9]提出了基于粒子群算法(PSO)的支持向量機(jī)的參數(shù)優(yōu)化;王克奇等[10]采用遺傳算法(GA)優(yōu)化支持向量機(jī)參數(shù)。ACO算法的收斂速度較慢易陷入局部最優(yōu),PSO算法易早熟收斂且局部尋優(yōu)能力較差,GA算法實(shí)現(xiàn)比較復(fù)雜,需先對(duì)問(wèn)題進(jìn)行編碼,然后再對(duì)最優(yōu)解進(jìn)行解碼,搜索速度較慢。模擬退火算法(SA)也是一種啟發(fā)式算法[11],能較強(qiáng)地跳出局部最優(yōu),提高全局尋優(yōu)能力。

        本文提出一種基于模擬退火算法優(yōu)化SVM參數(shù)的方法,并應(yīng)用于中文文本分類中。利用SA良好的尋優(yōu)性能構(gòu)建的SVM中文文本分類器,與樸素貝葉斯、KNN算法、決策樹(shù)算法、邏輯回歸算法構(gòu)建的分類器相比,該分類器能達(dá)到更好的分類效果,具有更強(qiáng)的魯棒性。

        1 相關(guān)理論

        1.1 模擬退火算法

        模擬退火算法[12]來(lái)源于材料統(tǒng)計(jì)力學(xué)的研究成果,它引入固體退火過(guò)程的自然機(jī)理并適當(dāng)引入隨機(jī)因素,在整個(gè)解鄰域范圍內(nèi)隨機(jī)性地取值,提高全局尋優(yōu)能力,有效地解決眾多組合優(yōu)化問(wèn)題。

        引入Metropolis準(zhǔn)則到優(yōu)化過(guò)程,以最大化目標(biāo)函數(shù)為例,對(duì)于某一溫度Ti和優(yōu)化問(wèn)題的一個(gè)解x(k),可以生成x′。接受x′作為下一個(gè)新解x(k+1)的概率為:

        (1)

        在溫度Ti下,經(jīng)過(guò)很多次的轉(zhuǎn)移之后,降低溫度Ti,得到Ti+1

        1.2 支持向量機(jī)

        對(duì)于數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,并表示輸入,yi表示對(duì)應(yīng)輸出,n為輸入樣本的維數(shù)。SVM分類目標(biāo)是找到一個(gè)超平面,這個(gè)超平面能將所有樣本分開(kāi),并使樣本之間的距離盡可能最大。即有:

        y=ωTΦ(x)+b

        (2)

        式中:Φ(x)為標(biāo)準(zhǔn)正態(tài)分布函數(shù),ω表示權(quán)值向量,b表示偏移向量。

        求解最優(yōu)超平面,就是針對(duì)所給定的數(shù)據(jù)集樣本,找到權(quán)值向量ω和偏移向量b的最優(yōu)值,使得權(quán)值代價(jià)函數(shù)最小化,且正例和反例之間的間隔最大。對(duì)于式(2)而言,難以對(duì)超平面參數(shù)ω和b直接求解,因此利用增加非負(fù)的松弛因子將式(2)轉(zhuǎn)變成二次優(yōu)化問(wèn)題:

        (3)

        s.t.yi(ωΦ(xi)+b)≥1-ξiξ≥0,i=1,2,…,n

        式中:C為懲罰因子,C>0;ξi表示松弛因子。將最少錯(cuò)分樣本和最大分類間隔折衷考慮,就能得到廣義上的最優(yōu)分類面。

        通過(guò)引入拉格朗日乘子將式(3)轉(zhuǎn)化為對(duì)偶問(wèn)題,以便于更好地求解,公式如下:

        (4)

        式中:αi為拉格朗日乘子。

        對(duì)式(4)進(jìn)行求解得到αi值,那么ω為:

        ω=∑αiyiΦ(xi)·Φ(x)

        (5)

        最終,SVM相應(yīng)的分類決策函數(shù)為:

        f(x)=sgn(αiyiΦ(xi)·Φ(x)+b)

        (6)

        RBF函數(shù)具有收斂域?qū)?、參?shù)少、通用性好等優(yōu)點(diǎn),是一個(gè)很理想的分類依據(jù)函數(shù),因此采用RBF函數(shù)建立SVM,公式如下:

        (7)

        式中:σ為RBF核函數(shù)參數(shù)。

        SVM進(jìn)行分類的基本流程可歸納為:首先將輸入的SVM向量映射到一個(gè)特征空間,緊接著在這個(gè)特征空間中尋找優(yōu)化的線性分界線,于是就構(gòu)建出了一個(gè)可分離類別的超平面,使不同的類別正確分開(kāi)。SVM的訓(xùn)練過(guò)程實(shí)質(zhì)上就是尋找全局最優(yōu)解。

        2 SA-SVM文本分類方法

        2.1 參數(shù)對(duì)SVM分類性能的影響

        為了驗(yàn)證懲罰因子C和核函數(shù)參數(shù)σ對(duì)SVM分類性能的影響,隨機(jī)選擇四類3 306個(gè)文本作為訓(xùn)練集。建立分類SVM模型,并選取適當(dāng)數(shù)目的文本作為測(cè)試集,分析不同C和σ對(duì)SVM分類精度的影響,具體結(jié)果如表1、表2所示。

        表1 C=1時(shí)的分類結(jié)果

        表2 σ=1時(shí)的分類結(jié)果

        從表1和表2的結(jié)果可知,在相同的訓(xùn)練集、測(cè)試集下,懲罰因子和核函數(shù)參數(shù)不同,SVM分類準(zhǔn)確率不同,這表明C和σ的取值影響基于SVM的文本分類結(jié)果,要獲得最優(yōu)的SVM文本分類模型,找到最優(yōu)的C和σ值是關(guān)鍵。

        2.2 基于SA的SVM參數(shù)選擇設(shè)計(jì)方案

        SA優(yōu)化SVM的懲罰因子C和核函數(shù)參數(shù)σ的主要判定是取得更高的文本分類準(zhǔn)確率,在最優(yōu)參數(shù)[C,σ]處能取得最高的分類準(zhǔn)確率,故最大化目標(biāo)函數(shù)為F=Vprecision(C,σ)。

        相關(guān)設(shè)置如下:

        (1) 設(shè)置溫度T的初始值:SA算法的全局搜索性能受溫度初始值的影響,若初始值高,則全局搜索能力強(qiáng),但需大量時(shí)間進(jìn)行計(jì)算;反之,雖可減少時(shí)間,但會(huì)影響全局搜索性能。在具體操作時(shí),T的初始值可根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行靈活調(diào)整。

        (2) 設(shè)置退火速度(內(nèi)循環(huán)每個(gè)溫度的迭代次數(shù)):SA算法的全局搜索性能同時(shí)也受退火速度的影響,若在某個(gè)溫度下充分搜索,需要時(shí)間代價(jià),在具體執(zhí)行時(shí),要根據(jù)實(shí)際問(wèn)題設(shè)置合理的退火速度。

        (3) 設(shè)置溫度管理:權(quán)衡計(jì)算復(fù)雜度,通常的降溫方式為T(k+1)=αT(k),k為降溫次數(shù),α一般取較接近1的正常數(shù)。

        (4) 設(shè)置初始解和解的搜索范圍:SA算法具有優(yōu)良的健壯性,求得的最優(yōu)解不受初始解的影響,可在解空間內(nèi)隨機(jī)設(shè)置初始解。不同的數(shù)據(jù)集的最優(yōu)參數(shù)[C,σ]范圍不同,實(shí)際應(yīng)用中可根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行靈活調(diào)整。

        (5) 設(shè)置記憶存儲(chǔ)器:在搜索過(guò)程中,SA算法由于執(zhí)行概率接受環(huán)節(jié),有可能遺漏當(dāng)前取得的最優(yōu)解,增加記憶存儲(chǔ)器,存儲(chǔ)搜索過(guò)程的中間最優(yōu)解,并及時(shí)更新。

        (6) 設(shè)置終止條件:

        ① 內(nèi)循環(huán)終止條件:當(dāng)前狀態(tài)下連續(xù)若干個(gè)新解都未被接受或達(dá)到迭代次數(shù)。

        ② 外循環(huán)終止條件:連續(xù)若干次降溫所獲得的最優(yōu)解均不變或T

        SA優(yōu)化SVM參數(shù)的過(guò)程具體操作描述如下:

        (1) 初始化溫度T,設(shè)置終止溫度Tmin,設(shè)置降溫系數(shù)α。

        (2) 產(chǎn)生隨機(jī)初始解[C0,σ0](是算法迭代起點(diǎn)),并以此作為當(dāng)前最優(yōu)解[Cbest,σbest]=[C0,σ0],計(jì)算目標(biāo)函數(shù)值F(Cbest,σbest)。

        (3) 設(shè)置每個(gè)T值的迭代次數(shù)L;對(duì)l=1,2,…,L做第4至第6步。

        (4) 在可行解空間內(nèi),對(duì)當(dāng)前最優(yōu)解作一次隨機(jī)擾動(dòng),利用狀態(tài)產(chǎn)生函數(shù)生成一個(gè)新解[Cnew,σnew],并計(jì)算其目標(biāo)函數(shù)值F(Cnew,σnew)以及目標(biāo)函數(shù)值增量Δf=F(Cnew,σnew)-F(Cbest,σbest),其中F(C,σ)為優(yōu)化目標(biāo)。

        (5) 采用狀態(tài)接受函數(shù),判斷是否接受新解:若Δf>0,則接受[Cnew,σnew]作為新的當(dāng)前解;否則按式(1)中Metropolis準(zhǔn)則判決,以概率p接受[Cnew,σnew]為當(dāng)前最優(yōu)解。若接受,設(shè)置當(dāng)前狀態(tài)為[Cnew,σnew],存入記憶存儲(chǔ)器;反之,當(dāng)前狀態(tài)為[Cbest,σbest]。

        (6) 判斷是否滿足內(nèi)循環(huán)終止條件,若是,輸出當(dāng)前解為最優(yōu)解并結(jié)束此次迭代,轉(zhuǎn)入(7);否則轉(zhuǎn)入(4)。

        (7) 降溫。根據(jù)設(shè)置的降溫系數(shù)α進(jìn)行降溫,取新的溫度T=αT(其中T為上一步迭代的溫度)。

        (8) 判斷滿足外循環(huán)終止條件,退火過(guò)程終止,轉(zhuǎn)入(9);否則轉(zhuǎn)入(3);

        (9) 輸出當(dāng)前最優(yōu)解與記憶存儲(chǔ)器的中間最優(yōu)解比較,找到最優(yōu)解[Cfinal,σfinal],算法結(jié)束。

        3 基于SA-SVM的中文文本分類

        基于SA-SVM的中文文本分類過(guò)程如圖1所示。

        圖1 基于SA-SVM的中文文本分類過(guò)程

        采用Python的第三方庫(kù)jieba分詞對(duì)數(shù)據(jù)集進(jìn)行分詞處理,然后去除停用詞。

        利用TFIDF進(jìn)行權(quán)重計(jì)算,TF指的是特征詞在文本中出現(xiàn)的絕對(duì)頻率,而IDF指的是特征詞在文本中的文本內(nèi)頻率。常用的TFIDF公式如下:

        (8)

        利用DF進(jìn)行特征選擇,文檔頻率計(jì)算訓(xùn)練集中包含特征項(xiàng)t的文本數(shù)目。設(shè)|D|為訓(xùn)練集中的文本總數(shù),di為其中的一個(gè)訓(xùn)練文本,于是有:

        (9)

        若t∈di,則p(t,di)=1;若t?di,則p(t,di)=0。

        DF值低于某個(gè)設(shè)定閾值的特征詞屬于低頻詞,它們可能不含或者含有很少的文本分類信息,可以在原始特征空間剔除這樣的特征項(xiàng),既能降低特征空間的維度,還有可能提高文本分類的準(zhǔn)確率。

        采用分類常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F1度量,具體表示如下:

        (10)

        (11)

        (12)

        4 實(shí)驗(yàn)例證

        為驗(yàn)證SA-SVM中文文本分類的有效性和可行性,采用SA-SVM對(duì)中文文本進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)的硬件平臺(tái):操作系統(tǒng)為Windows 10專業(yè)版,處理器為Inter(R) Core(TM) i5-3210M CPU @2.50 GHz,內(nèi)存為10 GB,硬盤為256 GB;軟件平臺(tái):Python 2.7。為保證實(shí)驗(yàn)具有全面性和代表性,使用復(fù)旦大學(xué)中文文本分類庫(kù)和搜狗文本語(yǔ)料庫(kù)進(jìn)行對(duì)比實(shí)驗(yàn)。

        復(fù)旦大學(xué)中文文本分類庫(kù)共有9 804篇訓(xùn)練文本,9 833篇測(cè)試文本,分為20個(gè)類別,每一個(gè)文本只屬于一個(gè)類別。去除重復(fù)和損壞的文本以及文本數(shù)小于100篇的稀有類別,共有9個(gè)類別,其中訓(xùn)練文本9 318篇,測(cè)試文本9 331篇。經(jīng)過(guò)SA優(yōu)化的SVM參數(shù)[Cfinal,σfinal]=[100,0.05],將其代入分類模型重新訓(xùn)練學(xué)習(xí),與常用的文本算法比較,實(shí)驗(yàn)結(jié)果如表3和圖2所示。

        表3 不同分類算法在復(fù)旦大學(xué)中文文本 分類庫(kù)的分類結(jié)果 %

        圖2 不同分類算法在復(fù)旦大學(xué)中文文本分類庫(kù) 各類別分類精度

        搜狗文本語(yǔ)料庫(kù)共有9個(gè)類別,每個(gè)類別1 990篇文本,隨機(jī)將每個(gè)類別的1 400篇文本分為訓(xùn)練文本,590篇文本分為測(cè)試文本。經(jīng)過(guò)SA優(yōu)化的SVM參數(shù)[Cfinal,σfinal]=[10,0.5],將其代入分類模型重新訓(xùn)練學(xué)習(xí),與常用的文本算法比較,實(shí)驗(yàn)結(jié)果如表4和圖3所示。

        表4 不同分類算法在搜狗文本語(yǔ)料庫(kù)的分類結(jié)果 %

        圖3 不同分類算法在搜狗文本語(yǔ)料庫(kù)的各類別分類準(zhǔn)確率

        實(shí)驗(yàn)表明,不同數(shù)據(jù)集的最優(yōu)參數(shù)[Cfinal,σfinal]不同,兩組數(shù)據(jù)集通過(guò)SA全局尋優(yōu)能力搜索到最優(yōu)的SVM參數(shù)。經(jīng)過(guò)SA優(yōu)化參數(shù)的SVM分類模型,相比其他中文文本分類算法,在準(zhǔn)確率、召回率和F1度量各個(gè)方面有明顯的優(yōu)勢(shì),具有較強(qiáng)的泛化能力,展現(xiàn)了較為顯著的分類性能。

        5 結(jié) 語(yǔ)

        基于SVM的文本分類模型的泛化能力與其參數(shù)選擇緊密相關(guān),為解決優(yōu)化SVM參數(shù)難題,本文提出了一個(gè)基于SA優(yōu)化SVM參數(shù)的方法,以最大化文本分類準(zhǔn)確率為目標(biāo)全局搜索SVM的最優(yōu)參數(shù)[Cfinal,σfinal]。在設(shè)計(jì)算法流程時(shí),合理靈活地設(shè)置模擬退火的關(guān)鍵參數(shù),并引入記憶存儲(chǔ)器以防止因執(zhí)行概率接受環(huán)節(jié)遺漏中間最優(yōu)解,使得模擬退火算法更為智能。在設(shè)置內(nèi)外循環(huán)終止條件時(shí)充分考慮實(shí)際情況,在保證最優(yōu)性的基礎(chǔ)上盡可能減少不必要的計(jì)算量。實(shí)驗(yàn)結(jié)果比較表明,基于SA-SVM中文文本分類模型具有良好的使用價(jià)值,展現(xiàn)出了非常顯著的分類性能,為今后的文本分類建模提供了一種可行的思路。由于在綜合考慮分類性能時(shí)未能做到充分的特征降維,使得分類過(guò)程時(shí)間較長(zhǎng),因此下一步的工作將在文本分類的特征降維方法上進(jìn)行改進(jìn),進(jìn)一步提高模型的計(jì)算效率。

        猜你喜歡
        模擬退火準(zhǔn)確率設(shè)置
        中隊(duì)崗位該如何設(shè)置
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        模擬退火遺傳算法在機(jī)械臂路徑規(guī)劃中的應(yīng)用
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于模糊自適應(yīng)模擬退火遺傳算法的配電網(wǎng)故障定位
        本刊欄目設(shè)置說(shuō)明
        中俄臨床醫(yī)學(xué)專業(yè)課程設(shè)置的比較與思考
        SOA結(jié)合模擬退火算法優(yōu)化電容器配置研究
        成人在线观看av毛片| 99久久99久久久精品久久| 一区二区丝袜美腿视频| 精品国产乱子伦一区二区三| 亚洲精品欧美精品日韩精品| 300部国产真实乱| 精品国产品欧美日产在线| 国产精品亚洲精品专区| 亚洲成人av一二三四区| 欧美极品jizzhd欧美| 国产女高清在线看免费观看 | 国产亚洲日韩一区二区三区| 亚洲国产一区二区三区在观看| 亚洲一品道一区二区三区| 久久久久久九九99精品| 无码中文字幕加勒比一本二本 | 国产亚洲成人av一区| 中文字幕一区二区三区人妻少妇| 日韩国产成人精品视频| 水蜜桃在线观看一区二区国产| 欧美丰满熟妇xxxx性ppx人交| 性久久久久久久| 国产亚洲精选美女久久久久| 亚洲成人精品在线一区二区| 亚洲人成无码区在线观看| 国产精品jizz观看| 中文字幕成人精品久久不卡| 一区二区三区国产在线视频| 亚洲国产精品久久久久婷婷老年| 国产哟交泬泬视频在线播放 | XXXXBBBB欧美| 国产一区二区三区精品成人爱| 极品美女扒开粉嫩小泬图片| 欧美成a人片在线观看久| 26uuu欧美日本在线播放| 精品久久综合日本久久综合网| 中文字幕久久久人妻无码| 精品人妻中文av一区二区三区 | 人妻无码一区二区三区免费| 欧美一级三级在线观看| 白白色青青草视频免费观看|