亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稀疏編碼器與集成學(xué)習(xí)的文本分類

        2017-03-23 20:57:00楊洪余
        科技創(chuàng)新與應(yīng)用 2017年6期
        關(guān)鍵詞:極限學(xué)習(xí)機(jī)集成學(xué)習(xí)文本分類

        摘 要:文本分類在文本預(yù)處理中占據(jù)著重要的地位,針對(duì)文本分類過(guò)程中輸入數(shù)據(jù)維數(shù)高,導(dǎo)致特征提取,分類器選擇困難等問(wèn)題,提出一種基于稀疏自動(dòng)編碼器與集成學(xué)習(xí)的文本分類算法。該算法首先通過(guò)稀疏自動(dòng)編碼器進(jìn)行輸入數(shù)據(jù)的特征表示,然后利用極限學(xué)習(xí)機(jī)作為基分類器進(jìn)行文本分類,最后通過(guò)Adaboost集成學(xué)習(xí)方法將基分類器組合成為分類效果更好的集成分類器。實(shí)驗(yàn)結(jié)果表明,該方法可以有效提高文本分類的準(zhǔn)確度。

        關(guān)鍵詞:極限學(xué)習(xí)機(jī);稀疏自動(dòng)編碼器;集成學(xué)習(xí);文本分類

        1 概述

        隨著現(xiàn)代社會(huì)的發(fā)展,互聯(lián)網(wǎng)成為了人們獲取文本信息的重要手段。然而網(wǎng)上的信息雜亂無(wú)章,使得人們很難快速而準(zhǔn)確的獲得所需要的文本信息。因此如何有效的對(duì)文本進(jìn)行分類,幫助用戶找到所需的信息成為當(dāng)代信息技術(shù)領(lǐng)域的一個(gè)重要課題[1]。

        本文提出利用深度學(xué)習(xí)中的稀疏自動(dòng)編碼器自動(dòng)選取文本的特征,然后利用極限學(xué)習(xí)機(jī)作為基分類器進(jìn)行文本的分類,最后結(jié)合Adaboost集成學(xué)習(xí)方法將極限學(xué)習(xí)機(jī)作為基分類器組合成一個(gè)效果更好的分類器。實(shí)驗(yàn)結(jié)果表明,該算法在文本分類方面,可以有效地提高文本分類的準(zhǔn)確性。

        2 相關(guān)理論基礎(chǔ)

        2.1 稀疏自動(dòng)編碼器

        稀疏自動(dòng)編碼器(sparse auto encoder,SAE)是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)構(gòu)造而成的網(wǎng)絡(luò)。稀疏自動(dòng)編碼器的訓(xùn)練過(guò)程分為兩個(gè)步:第一步是預(yù)訓(xùn)練,即先利用無(wú)監(jiān)督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓(xùn)練算法確定網(wǎng)絡(luò)的參數(shù)。第二步是微調(diào),其思想是整個(gè)網(wǎng)絡(luò)視為一個(gè)整體,用有監(jiān)督學(xué)習(xí)的方法優(yōu)化整個(gè)網(wǎng)絡(luò)的參數(shù),由于SAE訓(xùn)練過(guò)程的復(fù)雜性,具體過(guò)程可參考文獻(xiàn)[2]。

        2.2 極限學(xué)習(xí)機(jī)

        針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程時(shí)間漫長(zhǎng),優(yōu)化困難等缺點(diǎn),新加坡南洋理工大學(xué)的黃廣斌教授提出了一種全新的單隱層前饋神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[3],該網(wǎng)絡(luò)能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制。該網(wǎng)絡(luò)主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經(jīng)元通過(guò)激活函數(shù)把輸入的數(shù)據(jù)進(jìn)行變換,然后把變換后的數(shù)據(jù)輸出到輸出層,在網(wǎng)絡(luò)中輸入層和隱藏層的權(quán)值是隨機(jī)設(shè)置的,只有隱藏層到輸出層的權(quán)值需要求解,因此加快了網(wǎng)絡(luò)的學(xué)習(xí)速度。

        2.3 Adaboost分類器

        由于單個(gè)分類器通常無(wú)法滿足分類任務(wù)的要求,因此需要通過(guò)集成學(xué)習(xí)來(lái)構(gòu)建并結(jié)合多個(gè)分類器來(lái)完成分類任務(wù),這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的變現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)收到更多關(guān)注,然后基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直到基學(xué)習(xí)器數(shù)目達(dá)到指定的值,最終將這幾個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。Adaboost是一種迭代算法,具體訓(xùn)練過(guò)程可參考南京大學(xué)周志華教授編寫的機(jī)器學(xué)習(xí)課本中關(guān)于Adaboost算法的章節(jié)。

        3 SEA文本分類算法

        在本文中,結(jié)合稀疏編碼器,極限學(xué)習(xí)機(jī)與Adaboost這三種機(jī)器學(xué)習(xí)方法提出SEA文本分類算法,該算法的工作流程如圖1所示。

        該分類算法的第一步為輸入,輸入的是經(jīng)過(guò)了向量化表示的文本,但沒(méi)有經(jīng)過(guò)任何的手工特征提取。第二步是利用SAE算法對(duì)數(shù)據(jù)的重建能力自動(dòng)選擇文本的特征,用SAE算法選擇的文本特征可以有效地復(fù)原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓(xùn)練,最后一步是輸出該文本屬于哪一類。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        本文選用的分類文本數(shù)據(jù)來(lái)源于新聞數(shù)據(jù)集[5],該數(shù)據(jù)集復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系李榮陸提供,數(shù)據(jù)集標(biāo)注比較規(guī)范,規(guī)模適中,適合于進(jìn)行文本分類的仿真實(shí)驗(yàn)。

        在文本分類中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率P(Precision)和召回率R(Recall),公式如下:

        P=M/(M+N),R=M/(M+T)

        其中,M為正確分類到該類的文本數(shù),N為錯(cuò)分到該類中的文本數(shù),T為屬于該類確誤分為別類的文本數(shù)。

        4.2 實(shí)驗(yàn)結(jié)果

        為驗(yàn)證本文提出的SEA文本分類模型,需要將文本數(shù)據(jù)集進(jìn)行預(yù)處理,對(duì)于SEA模型來(lái)說(shuō),就是進(jìn)行文本分詞。本實(shí)驗(yàn)文本分詞采用的是NLPIR漢語(yǔ)分詞系統(tǒng),其主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,用戶字典功能等,是國(guó)內(nèi)比較成熟,用戶較多的中文文本分詞系統(tǒng)。經(jīng)過(guò)文本預(yù)處理后,按照本文提出的SEA文本分類模型進(jìn)行實(shí)驗(yàn),并和幾種經(jīng)典的分類算法做對(duì)比。在本實(shí)驗(yàn)中Adaboost集成學(xué)習(xí)算法中基分類器的個(gè)數(shù)設(shè)置為10個(gè),基分類器ELM中隱藏層的個(gè)數(shù)設(shè)置為輸入層的0.75倍,稀疏自動(dòng)編碼器中隱藏層數(shù)設(shè)置為4,實(shí)驗(yàn)結(jié)果如表1和表2所示。

        從表1和表2可以看出隨著文本數(shù)量的增加,SEA模型的分類準(zhǔn)確率和召回率逐漸提高,這是由于在訓(xùn)練數(shù)據(jù)集較小時(shí),稀疏編碼器對(duì)自動(dòng)提取的文本特征變現(xiàn)地不是很理想,容易造成SEA分類模型產(chǎn)生過(guò)擬合現(xiàn)象,從而影響分類準(zhǔn)確率和召回率。SVM算法在訓(xùn)練數(shù)據(jù)集比較小時(shí),變現(xiàn)良好,這是由于在訓(xùn)練數(shù)據(jù)較少時(shí),可以較容易地找到分類超平面,在數(shù)據(jù)量變大時(shí),由于計(jì)算量的增大,使得計(jì)算量變大,導(dǎo)致計(jì)算得到的超平面效果不好,使得分類準(zhǔn)確率和召回率不斷下降。BP和ELM算法都隨著訓(xùn)練數(shù)據(jù)的增大,其分類準(zhǔn)確率和召回率在不斷變大,這是由于隨著訓(xùn)練數(shù)據(jù)的增大,BP和ELM可以更有效的提取輸入數(shù)據(jù)的特征,但ELM算法相比BP算法變現(xiàn)得更好,這是由于BP算法可能無(wú)法收斂到最優(yōu)值,導(dǎo)致分類算法的準(zhǔn)確率下降。

        綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準(zhǔn)確率和召回率,尤其是隨著訓(xùn)練數(shù)據(jù)集的不斷增大。

        5 結(jié)束語(yǔ)

        文本分類在文本處理中占據(jù)著重要的地位,其分類的好壞直接影響著后續(xù)的文本處理,如何有效地對(duì)文本分類是一個(gè)重要的研究課題。本文結(jié)合稀疏自動(dòng)編碼器,極限學(xué)習(xí)機(jī)與Adaboost集成學(xué)習(xí)方法提出SEA文本分類方法,實(shí)驗(yàn)結(jié)果表明該分類方法可以有效將文本分類過(guò)程中的特征提取和分類器結(jié)合在一起,從而提高了分類結(jié)果的準(zhǔn)確性。

        參考文獻(xiàn)

        [1]秦勝君,盧志平.稀疏自動(dòng)編碼器在文本分類中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(31):9422-9426.

        [2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.

        [3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.

        [4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.

        [5]http://www.nlpir.org/?action-viewnews-itemid-103.

        作者簡(jiǎn)介:楊洪余,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與文本處理。

        猜你喜歡
        極限學(xué)習(xí)機(jī)集成學(xué)習(xí)文本分類
        基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
        基于判別信息極限學(xué)習(xí)機(jī)的高光譜遙感圖像分類
        基于屬性權(quán)重的Bagging回歸算法研究
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        基于極限學(xué)習(xí)機(jī)的玻璃瓶口缺陷檢測(cè)方法研究
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究
        科技視界(2015年27期)2015-10-08 11:01:28
        国产亚洲超级97免费视频| 欧美jizzhd精品欧美| 男女一边摸一边做爽爽的免费阅读| 性高朝久久久久久久| 国产午夜精品福利久久| 中文字幕久久人妻av| 国产精品第一二三区久久| 岳好紧好湿夹太紧了好爽矜持| 国产乱子乱人伦电影在线观看| 亚洲电影中文字幕| 视频一区视频二区亚洲| 亚洲一区二区三区偷拍女| 免费观看成人欧美www色| 国产青榴视频在线观看| 91久久精品国产91久久| 精品亚洲一区二区视频| 天堂久久一区二区三区| 中文字幕日韩人妻在线视频| 无码免费一区二区三区| 98在线视频噜噜噜国产| 亚洲精品一区二区三区日韩| 精品国产午夜肉伦伦影院| 国产精品成人国产乱| 人妻人妻少妇在线系列| 亚洲在线视频一区二区 | 亚欧色一区w666天堂| 在线成人福利| 日本一区二区日韩在线| 日本三级片在线观看| 亚洲欧洲无码一区二区三区| 91精品啪在线观看国产18| 国产精品一区二区久久精品蜜臀| 亚洲色图三级在线观看| 国产无人区码一码二码三mba| 亚洲AV无码久久精品成人| 国产一区二区一级黄色片| 亚洲精品无码久久久久y| 嗯啊哦快使劲呻吟高潮视频| 四虎成人精品国产永久免费| 熟女肥臀白浆一区二区| 国产如狼似虎富婆找强壮黑人|