亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DE-ELM 的林業(yè)信息文本分類算法

        2015-12-20 06:58:58王明月許莉薇
        計算機(jī)工程與設(shè)計 2015年9期
        關(guān)鍵詞:分類文本信息

        陳 宇,王明月,許莉薇

        (東北林業(yè)大學(xué) 信息與計算機(jī)工程學(xué)院,黑龍江 哈爾濱150040)

        0 引 言

        國外對文本分類技術(shù)[1]的研究起步較早,并且現(xiàn)階段發(fā)展也比較完善。常用的文本分類算法包括K 鄰近算法、貝葉斯算法、決策樹、BP神經(jīng)網(wǎng)絡(luò)算法等。我國對文本分類算法的研究起步較晚,初期我國主要對國外技術(shù)總結(jié),隨后是對傳統(tǒng)算法的優(yōu)化改進(jìn),擴(kuò)大了文本特征的選擇的范圍,隨著文本分類技術(shù)的進(jìn)步,現(xiàn)階段我國文本分類技術(shù)發(fā)展的也較好,研究出許多適合文本分類的算法,但是仍存在一些缺陷,在實(shí)際應(yīng)用時因?yàn)橛?xùn)練樣本存在差異,所以使得分類算法對分類結(jié)果差異較大,因此本文研究的重點(diǎn)就是如何提高對不同類文本分類的準(zhǔn)確率和效率。

        現(xiàn)階段對于林業(yè)信息文本分類的研究甚少,因此如何提高林業(yè)信息文本分類的正確率,是一個重要的研究內(nèi)容。

        將差分演化算法與極端學(xué)習(xí)機(jī)算法結(jié)合,兩種算法取長補(bǔ)短,提出了一種基于差分演化優(yōu)化極端學(xué)習(xí)機(jī)的林業(yè)信息文本分類算法。首先,利用中科院分詞系統(tǒng)對不均衡林業(yè)信息文本進(jìn)行預(yù)處理;其次,使使用經(jīng)典的TF-IDF公式計算文本分詞的特征值,構(gòu)成特征矩陣[2];然后,對特征矩陣降維;最后,利用差分演化優(yōu)化極端學(xué)習(xí)機(jī)算法構(gòu)造分類器,以達(dá)到分類的目的。通過大量實(shí)驗(yàn)驗(yàn)證該算法已達(dá)到預(yù)期目的,有較高的分類正確率,并且準(zhǔn)確率明顯高于BP神經(jīng)網(wǎng)絡(luò)、極端學(xué)習(xí)機(jī)分類方法,為林業(yè)信息文本分類提供了參考。

        1 關(guān)鍵技術(shù)

        1.1 林業(yè)信息文本表示

        假設(shè)所有林業(yè)信息文本有n 個特征,形成n 維的向量空間,每個林業(yè)信息文本d 被表示成n 維的特征向量

        式中:Ti——n個分詞中的一個,Wi(d)——Ti在文本d 中的權(quán)值,文本分詞的權(quán)值通過TF-IDF公式計算[3]

        式中:wi(d)——計算出的特征詞Ti的權(quán)值,TF(ti)——特征詞Ti在d 中出現(xiàn)的次數(shù),N ——樣本總個數(shù),ni——出現(xiàn)了Ti的林業(yè)信息樣本的個數(shù)。

        1.2 林業(yè)信息文本特征選擇

        設(shè)n個樣本,樣本有p 項 指標(biāo)[4]:X1,X2,...XP,得到初始特征矩陣為

        其中

        綜合指標(biāo)向量X 是p 個向量X1,X2,...XP作線性組合

        可簡寫為

        系數(shù)ai=(a1i,a2i,…,api)的限制條件

        特征矩陣的協(xié)方差矩陣是S =(sij)p×p:

        其中

        計算S的特征值λ1≥λ2≥…≥λn>0與對應(yīng)單位向量

        X 的第i個主成分為Fi=a′ix,i=1,2,…,p。

        主成分的確定根據(jù)貢獻(xiàn)率αi和累積貢獻(xiàn)率G(r)

        實(shí)驗(yàn)中,選擇累積貢獻(xiàn)率達(dá)到99%的主成分,n個文本在所選r 個主成分的得分

        1.3 林業(yè)信息文本分類算法

        傳統(tǒng)的極端學(xué)習(xí)機(jī)算法和BP神經(jīng)網(wǎng)絡(luò)算法受林業(yè)信息樣本影響較大,因此不同樣本分類的正確率差異大,差分演化優(yōu)化極端學(xué)習(xí)機(jī)算法實(shí)驗(yàn)得到了較好的效果,分類結(jié)果精準(zhǔn)并且正確率分布均勻。

        1.3.1 極端學(xué)習(xí)機(jī)算法 (ELM)

        設(shè)ELM 算法 的代價函數(shù)E0,則

        式 中:N0——林 業(yè) 信 息 文 本 的 數(shù) 量;——隱 層 數(shù);βi=(βi1…βic)T,βi——輸出權(quán)值;ωi=(ωi1…ωin),ωi——輸入權(quán)值;xj0=(xj01…xj0n),xj0——林業(yè)信息文本的特征矩陣;bi——隱層偏差;tj0=(tj01…tojc),tj0——林業(yè)信息文本的種類;函數(shù)g(wi·x0j+bi)——隱層激活函數(shù);n——林業(yè)信息樣本的維數(shù),c——林業(yè)信息樣本的種類總數(shù),也就是輸出結(jié)果[5]。

        ELM 的思路為求E0,之后Min E0

        [6],所以問題轉(zhuǎn)化成當(dāng)下式成立的解(i=1,2,…珦N)、^β

        上式參數(shù)描述為

        H0表示隱層輸出

        由于ELM 算法的激活函數(shù)無窮可微,所以ELM 算法能夠描述為求解H0β=T0的范數(shù)最小。即

        H+0是矩陣H0的廣義逆。

        在rank(H0)=N 條件下,通過正交投影法求得H+0

        算法運(yùn)行步驟如下:

        (1)βi 和bi初始化;

        (2)計算H0;

        (3)計算輸出結(jié)果^β。

        1.3.2 差分演化算法 (DE)

        差分演化算法在求解最優(yōu)化問題時,是一種高效有潛力的算法[7],在只能計算領(lǐng)域已成為一個研究熱點(diǎn)。差分演化算法是演化算法的一種[8],但是其性能優(yōu)于普通的演化算法,在解決優(yōu)化問題時,收斂速度快[9]。DE 主要包括:變異、雜交、選擇[10]。

        首先,使用下式得到變異個體

        式中:Vi—— 新變異個體,Xi=(i=1,2,…,Np)表示群體 中 第i 個 個 體,i,i1,i2,i3選 取 不 同 值,i1,i2,i3∈{1,2,…,Np},Np是種群大小,且Np≥4,F(xiàn) ∈[02]是控制參數(shù),以對(Xi2-Xi3)進(jìn)行調(diào)整。

        然后,雜交程序是個體Xi與Vi的重新組合后生產(chǎn)新成員Ui

        式中:CR ——DE 算法中的主要參數(shù),表示雜交概率;k∈{1 ,2,…,D },D 表示問題搜索空間維數(shù)。

        最后,選擇過程就是在Xi和Ui中選擇適合種群發(fā)展的個體

        1.3.3 DE-ELM 算法

        極端學(xué)習(xí)機(jī)算法由于初始輸入值的選擇是隨機(jī)賦值,因此會對輸出權(quán)值矩陣造成影響,引入差分演化算法,對極端學(xué)習(xí)機(jī)算法進(jìn)行優(yōu)化,獲得最小隱含層輸出權(quán)值。

        DE-ELM 算法執(zhí)行如下:

        (1)初始化種群:參數(shù)NP、F、CR 初始化賦值。新種群:x(t)=(x1(t),x2(t),…xN(t)),每個個體表示林業(yè)信息文本的特征矩陣m×d 維,表示為m×d =D。

        (2)種群中的個體分別進(jìn)行DE 算法的 (3)步,先通過式 (20)變異后獲得 新個體Vi(t),新老個體雜交后形成個體Ui(t),之后選取有競爭力的個體,選取過程如下

        式中:E0(·)代表式 (13)中MinE0,即為種群中每個個體的目標(biāo)函數(shù)值。

        (3)設(shè)置迭代誤差,根據(jù)迭代次數(shù)判斷程序是否終止。若在迭代次數(shù)范圍內(nèi)繼續(xù) (2)步,否則進(jìn)入 (4)步。

        (4)輸出EO(best),和對應(yīng)的^β。

        (5)程序結(jié)束。

        2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)初步針對林業(yè)信息文本樣本進(jìn)行選擇,林業(yè)信息的5個類別:花、樹木、蟲、土壤、水,訓(xùn)練樣本和測試樣本是每個類別選取50個,測試樣本是對原訓(xùn)練樣本數(shù)據(jù)加高斯白噪聲產(chǎn)生,樣本總共500個。

        實(shí)驗(yàn)過程中,初始化種群,設(shè)置種群數(shù)NP =200,雜交概率CR =0.8,縮放因子F =0.02,在選取不同的隱含層節(jié)點(diǎn)數(shù)時,獲得的目標(biāo)函數(shù)的最小值也是不一樣的。訓(xùn)練和測試樣本初始特征矩陣維數(shù)均為250×1127維,降維后形成新的特征矩陣維數(shù)均為250×213維,文本類別總數(shù)K =5。

        圖1中,實(shí)驗(yàn)過程選取隱含層節(jié)點(diǎn)數(shù)為5,隨著差分演化優(yōu)化極端學(xué)習(xí)機(jī)算法的迭代次數(shù)的增加,目標(biāo)函數(shù)的值在不斷減小,逐漸接近最優(yōu)值,最后接近于0。

        圖1 DE-ELM 在林業(yè)信息文本數(shù)據(jù)集上的收斂

        從圖1可以看出,當(dāng)隱含層節(jié)點(diǎn)數(shù)一定時,隨著迭代次數(shù)的增加目標(biāo)函數(shù)逐漸接近最小值。在表1中則當(dāng)?shù)螖?shù)一定時,隨著隱含層數(shù)的增加,算法誤差逐漸降低。在隱層節(jié)點(diǎn)40,DE-ELM 的測試誤差率遠(yuǎn)小于ELM。所以,選擇隱含層數(shù)為40和迭代次數(shù)20的DE-ELM 分類器與BP神經(jīng)網(wǎng)絡(luò)、SVM 支持向量機(jī)算法進(jìn)行對比。

        表1 隱含層數(shù)對算法的影響 (迭代次數(shù)為20次)

        從表2中,BP神經(jīng)網(wǎng)絡(luò)與差分演化優(yōu)化極端學(xué)習(xí)機(jī)算法的誤差率較低,實(shí)驗(yàn)結(jié)果比較理想,但是DE-ELM 優(yōu)于BP。

        表2 4種算法性能對比

        使用BP、SVM、ELM、DE-ELM 這4 種方法分類,選取相同的樣本,測試結(jié)果如圖2所示,橫坐標(biāo)是測試樣本數(shù)目,縱坐標(biāo)是分類器分類的正確率。

        圖2 分類算法正確率分布

        在圖2中,能夠分別看出4種分類方法在處理不同類別文本時分類的正確率,算法對于不同的樣本的分類情況。BP神經(jīng)網(wǎng)絡(luò)和差分演化優(yōu)化極端學(xué)習(xí)機(jī)算法分類時性能較穩(wěn)定,每類的分類正確率都較高,但是DE-ELM 性能更佳。

        使用250個林業(yè)信息測試樣本,從圖3 中4 種分類方法正確率對比能看出每個分類器的分類效果。

        實(shí)驗(yàn)結(jié)果可知,本文提出的基于差分演化優(yōu)化極端學(xué)習(xí)機(jī)的林業(yè)信息文本分類算法能夠?qū)崿F(xiàn)對5類林業(yè)信息文本精準(zhǔn)與快速的分類,分類效果明顯優(yōu)于神經(jīng)網(wǎng)絡(luò)、SVM分類算法,提出極端學(xué)習(xí)機(jī)算法的同時,優(yōu)化初始算法,使得優(yōu)化后的極端學(xué)習(xí)機(jī)有較強(qiáng)的分類能力;分類正確率均勻分布,能力較強(qiáng)。

        圖3 分類器分類總結(jié)果對比

        3 結(jié)束語

        基于差分演化優(yōu)化極端學(xué)習(xí)機(jī)的林業(yè)信息文本分類算法,使用權(quán)值計算公式TF-IDF計算權(quán)值后對初始特征矩陣降維,構(gòu)造林業(yè)信息文本的特征矩陣,來反映文本的特征。使用ELM 算法,通過對其優(yōu)化,實(shí)現(xiàn)了林業(yè)信息文本的快速與準(zhǔn)確的分類。實(shí)驗(yàn)結(jié)果表明DE-ELM 算法適用于林業(yè)信息文本的分類,分類正確率高于分類算法神經(jīng)網(wǎng)絡(luò)、SVM,為林業(yè)信息文本分類開拓了新思路,有較高的實(shí)用價值。

        [1]HU Zewen,WANG Xiaoyue.Quantitative analysis and review of text classification research of home and abroad[J].Competitive Intelligence,2011,55 (6):78-82 (in Chinese). [胡 澤文,王效岳.國內(nèi)外文本分類研究計量分析與綜述 [J].競爭情報,2011,55 (6):78-82.]

        [2]QI Xiaoming.The research of text classification based on artificial bee colony algorithm and improved KNN algorithm [D].Shanghai:Shanghai Jiao Tong University,2013:1-20 (in Chinese).[戚孝銘.基于蜂群算法和改進(jìn)KNN 的文本分類研究 [D].上海:上海交通大學(xué),2013:1-20.]

        [3]ZHENG Junfei.Improvement on feature selection and classification algorithm for text classification [D].Xi’an:Xi’an Electronic and Science University,2012:3-20 (in Chinese).[鄭俊飛.文本分類特征選擇與分類算法的改進(jìn) [D].西安:西安電子科技大學(xué),2012:3-20.]

        [4]WANG Yafei.Research on feature dimension reduction in text classification[D].Changchun:Changchun University of Technology,2010:5-40(in Chinese).[王雅菲.文本分類中特征降維方法的研究[D].長春:長春工業(yè)大學(xué),2010:5-40.]

        [5]WANG Xinying,HAN Min.Multivariate chaotic time series prediction based on extreme learning machine [J].Journal of Physics,2012,61 (8):1-9 (in Chinese) [王新迎,韓敏.基于極端學(xué)習(xí)機(jī)的多變量混沌時間序列預(yù)測 [J].物理學(xué)報,2012,61 (8):1-9.]

        [6]TANG Xiaoliang, HAN Min.A semi-supervised learning method based on extreme learning machine [J].Journal of Dalian University of Technology,2010,50 (5):771-776 (in Chinese).[唐曉亮,韓敏.一種基于極端學(xué)習(xí)機(jī)的半監(jiān)督學(xué)習(xí)方法 [J].大連理工大學(xué)學(xué)報,2010,50 (5):771-776.]

        [7]YUAN Jingsui.Differential evolution algorithm research summary [J].Science Research in University,2013,29 (1):1-2(in Chinese).[袁菁穂.差分演化算法研究綜述 [J].高校理科研究,2013,29 (1):1-2.]

        [8]MENG Ying,LUO Ke,LIU Jianhua,et al.K-medoids clus-tering algorithm method based on differential evolution [J].Application Reaearch of Computers,2012,29 (5):1651-1653(in Chinese).[孟穎,羅可,劉建華,等.一種基于差分演化的K-medoids 聚 類 算 法 [J].計 算 機(jī) 應(yīng) 用 研 究,2012,29(5):1651-1653.]

        [9]AO Youyun,CHI Hongqin.A survey of multi-objective different evolution algorithm [J].Journal of Frontiers of Computer Science and Technology,2009,3 (3):235-246 (in Chinese).[敖友云,遲洪欽.多目標(biāo)差分演化算法研究綜述 [J].計算機(jī)科學(xué)與探索,2009,3 (3):235-246.]

        [10]JIA Liyuan,ZHANG Chi.Self-adaptive differential evolution[J].Journal of Central South University (Science and Technology),2013,44 (9):3759-3765 (in Chinese).[賈麗媛,張弛.自適應(yīng)差分演化進(jìn)化算法 [J].中南大學(xué)學(xué)報 (自然科學(xué)版),2013,44 (9):3759-3765.]

        猜你喜歡
        分類文本信息
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        人妻少妇一区二区三区| 国产精品久久久国产盗摄| 成在人线av无码免观看麻豆| 久久久99精品成人片中文字幕| 亚洲一区二区三区久久久| 久久精品av在线观看| 爆乳熟妇一区二区三区霸乳| 91日本精品国产免| 99精品国产成人一区二区在线| 国产精品一区av在线| 国产超碰人人做人人爽av大片| 亚洲日韩乱码中文无码蜜桃臀| 中文一区二区三区无码视频| 99久久婷婷亚洲综合国产| 中文字字幕人妻中文| 国产亚洲精品久久久久秋霞| 粉嫩国产白浆在线播放| 久久久熟女一区二区三区| 色视频线观看在线网站| 精品人妻伦九区久久AAA片69| 午夜理论片日本中文在线| 欧美日韩一区二区三区在线观看视频| 久久综合精品国产丝袜长腿| 男人天堂AV在线麻豆| 少妇人妻精品久久888| 人妻插b视频一区二区三区| 少妇太爽了在线观看免费视频| 午夜日本精品一区二区| 99久久婷婷国产亚洲终合精品| 粗壮挺进人妻水蜜桃成熟漫画| 人妻精品丝袜一区二区无码AV| 亚洲av区一区二区三区| 亚洲av高清在线观看一区二区| 久久久久久成人毛片免费看| 曰本亚洲欧洲色a在线| 日韩av一区二区观看| 女邻居的大乳中文字幕| 91福利国产在线观一区二区| 成人av资源在线观看| 尤物在线精品视频| 日韩国产一区|