亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本挖掘分類算法的比較研究

        2017-06-09 13:06:28張?chǎng)?/span>
        科學(xué)與財(cái)富 2017年9期
        關(guān)鍵詞:隨機(jī)森林支持向量機(jī)

        張?chǎng)?/p>

        摘要:本文借助R軟件,采用來自某新聞媒體官方微信公眾號(hào)中16個(gè)類別的中文文本數(shù)據(jù),對(duì)所發(fā)布內(nèi)容進(jìn)行分類。首先對(duì)文本進(jìn)行預(yù)處理,主要是進(jìn)行分詞和去除停用詞,并加入自定義詞典,然后采用TF-IDF權(quán)重法提取文本特征,按照訓(xùn)練集與測(cè)試集10:3的比例,用支持向量機(jī)(SVM),隨機(jī)森林(RF),Boosting,最大似然的廣義線性回歸(GLMNET),最大熵(MAXENT)這5種分類算法,對(duì)選取的訓(xùn)練文本進(jìn)行訓(xùn)練得到不同的分類模型,進(jìn)而對(duì)測(cè)試文本進(jìn)行自動(dòng)分類,并采用5折交叉驗(yàn)證法比較不同算法的分類性能。結(jié)果顯示Boos~ng分類算法對(duì)于該文本的分類準(zhǔn)確率最高。

        關(guān)鍵詞:TF-IDF;支持向量機(jī);隨機(jī)森林;Boosting;分類模型

        一、引言

        文本分類是指依據(jù)文本的內(nèi)容,根據(jù)某種自動(dòng)分類算法按照一定分類體系或標(biāo)準(zhǔn),對(duì)大量文本進(jìn)行判斷并歸類為預(yù)先定義好的一個(gè)或者多個(gè)類別的過程。本文根據(jù)微信公眾號(hào)發(fā)布內(nèi)容,建立分類模型進(jìn)行文本自動(dòng)分類,主要采用支持向量機(jī)(SVM)、隨機(jī)森林、Boosting、最大似然的廣義線性回歸、最大熵這5種分類技術(shù)。

        二、描述性統(tǒng)計(jì)

        從該新聞媒體官方微信公眾號(hào)的發(fā)布內(nèi)容及其所屬類別來看,共發(fā)布了780條新聞,其中社會(huì)類新聞達(dá)到了352條,生活服務(wù)類新聞共有118條,健康類新聞?dòng)?5條。因此,該新聞媒體比較關(guān)注有關(guān)社會(huì)民生、身體健康等方面的內(nèi)容,較適合普通民眾閱讀。

        詞云圖是一種信息文本可視化技術(shù),可過濾掉大量的龐雜文本信息,容易看出哪些類型的關(guān)鍵詞出現(xiàn)頻率最高,從而更容易對(duì)其進(jìn)行分類。以下是對(duì)該新聞媒體的幾種具有代表性的新聞?lì)愋头謩e作出詞云圖,可以觀察到在某類型新聞中哪些詞出現(xiàn)的頻率較高,從而更容易對(duì)一則新的新聞進(jìn)行分類。

        圖1-圖5分別展示出的是社會(huì)類新聞、生活服務(wù)類新聞、房產(chǎn)類新聞、財(cái)經(jīng)類新聞、環(huán)保類新聞。但若僅僅通過觀察來判斷一條信息屬于哪一類型,不僅工作量大且正確率有待考究,因此需要通過文本分類算法來規(guī)范化新聞的分類。由于篇幅受限未給出詞云圖。

        三、實(shí)證分析

        3.1文本集整合

        在提取文本特征之前,要對(duì)文本做預(yù)處理,主要是對(duì)文本進(jìn)行分詞和去除停用詞處理。去除停用詞一般通過導(dǎo)入中文停用詞表來實(shí)現(xiàn),本文采用的中文停用詞表含有4545個(gè)停用詞。去除這些與主題無關(guān)的詞以后,按照實(shí)際需求選取權(quán)重最高的幾個(gè)詞匯來代表該文本的核心內(nèi)容。此外,在文本信息處理過程中,通過從搜狗細(xì)胞詞庫中選擇自定義詞典將文本中出現(xiàn)的特殊詞加進(jìn)去,有助于識(shí)別文本,提高分類的準(zhǔn)確率。

        3.2提取特征文本

        選取能夠反映文本類別的文本特征。各個(gè)詞匯對(duì)文本分類的影響是不同的,一些通用的或者各個(gè)類別中都普遍存在的詞匯對(duì)文本分類的影響很小,去除掉這些沒有影響力的詞匯,篩選出代表該類的特征項(xiàng)集合。特征提取是文本分類中的關(guān)鍵問題,它對(duì)分類精確率有很大影響。文本特征提取有很多方法,其中最常用的方法是通過詞頻選擇特征。通過詞頻計(jì)算出權(quán)重。采用TF-IDF(詞頻率-逆文檔頻率)法計(jì)算權(quán)重。

        3.3利用訓(xùn)練集訓(xùn)練模型

        本文選用某新聞媒體官方微信公眾號(hào)的發(fā)布內(nèi)容為研究文本,文本類別為時(shí)政、社會(huì)、頭條新聞、視頻、生活服務(wù)、財(cái)經(jīng)、科技、健康、房產(chǎn)、環(huán)保等16類。取600篇作為訓(xùn)練文本,其余180篇作為測(cè)試文本。在模型訓(xùn)練時(shí),對(duì)訓(xùn)練文本進(jìn)行詞頻統(tǒng)計(jì),得到詞頻統(tǒng)計(jì)矩陣,構(gòu)造不同算法對(duì)應(yīng)的分類器模型。分別是支持向量機(jī)(SVM),隨機(jī)森林(RF),Boosting,最大似然的廣義線性回歸(GLMNET),最大熵(MAXENT)這5種分類算法。

        3.4利用測(cè)試集對(duì)模型測(cè)試

        對(duì)于選取的180篇測(cè)試文本,根據(jù)不同的分類器模型,對(duì)測(cè)試文本進(jìn)行自動(dòng)分類,以支持向量機(jī)和最大熵算法為例,得到的分類結(jié)果見表1。(藍(lán)字標(biāo)注的表示分錯(cuò)的類別)

        進(jìn)一步,針對(duì)這兩種算法的180篇測(cè)試文本分類結(jié)果及各個(gè)類別正確分類和錯(cuò)誤分類的文本數(shù)。對(duì)應(yīng)計(jì)算出各類別的正確率。

        在支持向量機(jī)SVM算法下,社會(huì)和活動(dòng)這兩個(gè)類別分類的正確率相對(duì)較高,分別為81%,68%。在最大熵MAXENT算法下,社會(huì)、時(shí)政、活動(dòng)、生活服務(wù)這四個(gè)類別分類的正確率分別為63%,67%,78%,66%。

        3.5分類性能的比較

        針對(duì)五種分類算法,采用5折交叉驗(yàn)證,得到分類準(zhǔn)確率Accuracy。支持向量機(jī)(SVM)、隨機(jī)森林(RF)、Boosting、最大似然的廣義線性回歸(GLMNET)、最大熵(MAXENT)這五種算法的5折交叉驗(yàn)證準(zhǔn)確率分別為0.573、0.667、0.692、0.608、0.574。這五種分類算法的準(zhǔn)確率都基本上在60%以上,其中Boosting的準(zhǔn)確率最高,近70%。Boosting算法對(duì)于此文本分類是分類性能最好的算法。

        四、結(jié)論

        由實(shí)證部分交叉驗(yàn)證結(jié)果得到Boosting算法是此文本分類中性能最好的分類算法。Boosting算法具有速度快、簡單、編程容易、適應(yīng)性強(qiáng)和精度高的特點(diǎn),并在進(jìn)行分類的同時(shí)能夠進(jìn)行特征選取,可以提高弱分類算法的識(shí)別率。

        猜你喜歡
        隨機(jī)森林支持向量機(jī)
        隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
        基于SVM的煙草銷售量預(yù)測(cè)
        動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
        論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
        基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        日本不卡在线视频二区三区| 91短视频在线观看免费| a√无码在线观看| 水蜜桃视频在线观看入口| 奇米影视色777四色在线首页| 欧美国产精品久久久乱码| JIZZJIZZ国产| 中文字幕一区二区三区亚洲| 国产精品久久久天天影视| 全球中文成人在线| 亚洲免费av电影一区二区三区| 精品国产一区二区三广区| 国产白浆一区二区三区性色| 真人新婚之夜破苞第一次视频| 国产一级片毛片| 少妇一级内射精品免费| 不卡日韩av在线播放| 亚洲乱码中文字幕综合| 性做久久久久久久| 日本高清成人一区二区三区| 精品国产天堂综合一区在线| 性久久久久久久| 国产日韩久久久久69影院| 国产性色av一区二区| 午夜精品久久久久久久99热| 精品一品国产午夜福利视频| 国产高清黄色在线观看91| 放荡成熟人妻中文字幕| 欧美老熟妇喷水| 亚洲综合自拍| 手机在线观看成年人视频| 精品无人区无码乱码毛片国产 | √天堂中文官网在线| 国产一区二区三区美女| 亚洲福利av一区二区| 日本女优在线一区二区三区| 国产在线精品一区二区在线看| 亚洲一区二区欧美色妞影院| 天堂网av在线免费看| 无码人妻丰满熟妇区五十路| 日韩黑人欧美在线视频观看|