亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本分類技術(shù)分析與研究

        2020-06-30 10:07:21王丁
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        王丁

        摘? ?要:在大數(shù)據(jù)時(shí)代下,每天會產(chǎn)生海量的文本信息,為實(shí)現(xiàn)對海量文本信息的高效利用,就必須運(yùn)用文本分類技術(shù)剔除信息中的冗余信息,并對文本進(jìn)行自動分類,在分類文本中提取出具有使用價(jià)值的信息,為信息檢索與數(shù)據(jù)挖掘技術(shù)的應(yīng)用打下基礎(chǔ)。在信息數(shù)據(jù)爆發(fā)式增長的環(huán)境下,文本分類技術(shù)已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價(jià)值的重要技術(shù)。本文從概述文本分類技術(shù)入手,將隨機(jī)森林算法作為重點(diǎn),研究了基于機(jī)械學(xué)習(xí)的文本分類技術(shù),期望對提高文本分類性能有所幫助。

        關(guān)鍵詞:機(jī)器學(xué)習(xí)? 文本分類技術(shù)? 隨機(jī)森林算法

        中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)03(b)-0090-02

        本文提出一種基于機(jī)器學(xué)習(xí)的文本分類技術(shù),該技術(shù)可應(yīng)用于網(wǎng)頁新聞分類、垃圾郵件識別、網(wǎng)絡(luò)評論分類等領(lǐng)域,具有良好的應(yīng)用前景。

        1? 文本分類技術(shù)

        文本分類是基于自然語言處理技術(shù)框架下對單詞、句子、段落等文本類別標(biāo)簽作出判斷的一種技術(shù),屬于監(jiān)督學(xué)習(xí)方法。文本類別來自于自定義的類別,類別標(biāo)簽可為任意數(shù)量。根據(jù)類別的不同,文本分類包括單層分類與多層分類兩種形式,單層分類的類別標(biāo)簽數(shù)量為一個(gè),多層分類的類別標(biāo)簽數(shù)量為多個(gè)。基于機(jī)器學(xué)習(xí)的文本分類任務(wù)的完成,實(shí)質(zhì)上是函數(shù)映射的過程,具體包括以下五個(gè)方面。

        1.1 文本預(yù)處理

        在文本分類之前需對原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除原始數(shù)據(jù)中的噪聲,將其轉(zhuǎn)變?yōu)橐?guī)范的格式。在文本預(yù)處理中,可采用基于詞典匹配或基于統(tǒng)計(jì)的分詞算法進(jìn)行文本分析,如針對中文文本可采用漢語分詞系統(tǒng)ICTCLAS進(jìn)行分詞。文本預(yù)處理還要去掉連詞、介詞、語氣助詞等無實(shí)際意義的停用詞,以節(jié)省文本存儲空間。

        1.2 文本表示

        在基于機(jī)器學(xué)習(xí)的文本分析中,向量空間模型是常用的文本表示方法之一,該模型分為以下兩種版本:(1)詞袋模型。在文本表示中無需考慮文本結(jié)構(gòu)要素之間的關(guān)系,將各要素視為獨(dú)立項(xiàng),根據(jù)詞出現(xiàn)的頻率設(shè)置計(jì)算權(quán)重。(2)詞的分布表示。該表示方法可分為基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡(luò)三種類型的詞的分布模型,其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災(zāi)難問題。

        1.3 空間降維

        對高維特征矩陣需要進(jìn)行空間降維,以避免原始數(shù)據(jù)過于龐大而造成計(jì)算機(jī)計(jì)算能力超負(fù)荷運(yùn)行。在空間降維中,可采用特征選擇與特征提取兩種降維方式。其中,特征選擇可利用卡方統(tǒng)計(jì)、交叉熵、文檔頻率閾值等方法提取分類中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過空間降維提取特征,可以保證所提取的特征符合文本語義描述。

        1.4 分類模型訓(xùn)練

        分類模型訓(xùn)練是基于機(jī)器學(xué)習(xí)的文本分類關(guān)鍵技術(shù),包括單重分類器方法和多分類器方法。(1)單重分類器方法包括貝葉斯分類、支持向量機(jī)、K最近鄰、決策樹等方法。前三種方法均存在一定局限性,如分類精度不足、數(shù)據(jù)處理效率低以及對存儲資源和計(jì)算能力要求高。而決策樹能夠?qū)?shù)據(jù)型和異常樣本進(jìn)行同時(shí)處理,保證輸出結(jié)果的精確度,所以本文采用決策樹方法對基于隨機(jī)森林算法的文本分類技術(shù)進(jìn)行研究;(2)多分類器方法包括隨機(jī)森林、Bagging等,通過組合單分類器的決策結(jié)果得出樣本分類,適用于小規(guī)模數(shù)據(jù)和少類別文本分類。

        1.5 分類性能評價(jià)

        文本分類性能評價(jià)根據(jù)數(shù)據(jù)集、評價(jià)指標(biāo)、評價(jià)測試策略進(jìn)行評價(jià)。其中,數(shù)據(jù)集要求易于清理,適合分類實(shí)驗(yàn)任務(wù);評價(jià)指標(biāo)主要包括針對文本分類準(zhǔn)確性、錯(cuò)誤率、F均衡、召回率、ROC曲線等評價(jià)指標(biāo);K折交叉驗(yàn)證是評價(jià)測試的有效策略,通過隨機(jī)將數(shù)據(jù)集劃分為不同的k個(gè)子集,對各個(gè)子集進(jìn)行測試,重復(fù)k次,取平均正確率,即為測試結(jié)果。

        2? 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)

        本文選取機(jī)器學(xué)習(xí)中的隨機(jī)森林算法對文本分類技術(shù)進(jìn)行研究,對算法過程、算法評價(jià)指標(biāo)、算法特點(diǎn)以及算法優(yōu)化進(jìn)行分析,以提高文本分類的性能。隨機(jī)森林算法集合了CART決策樹算法和Bagging集成算法,涵蓋多個(gè)決策樹分類器集合,可解決回歸與分類問題,將最大票數(shù)的類別作為文本分類結(jié)果。

        2.1 算法過程

        隨機(jī)森林算法的具體過程如下:對每棵決策樹均生成訓(xùn)練集,樣本數(shù)量為N,從原始訓(xùn)練中抽取n個(gè)樣本,n≤N,形成訓(xùn)練子集;在每個(gè)訓(xùn)練子集中提取M數(shù)量的特征屬性,并從特征屬性中選取m個(gè)特征屬性組成特征子空間,m≤M,構(gòu)成隨機(jī)特征子空間。遵循基尼系數(shù)最小原則,在特征子空間中選擇最優(yōu)屬性,開始分類節(jié)點(diǎn),將所有訓(xùn)練樣本都進(jìn)行完全分裂,最終形成決策樹;重復(fù)上述步驟,構(gòu)建k棵決策樹,生成隨機(jī)森林,按照隨機(jī)森林決策模型進(jìn)行最終決策,最大投票數(shù)的類是最終分類結(jié)果。

        2.2 算法評價(jià)

        在隨機(jī)森林算法評價(jià)中,可選取分類效果與運(yùn)行效率兩大類評價(jià)指標(biāo):(1)分類效果評價(jià)指標(biāo)。該類評價(jià)指標(biāo)除了可選取上文提出的分類性能評價(jià)指標(biāo)之外,還可選用泛化能力指標(biāo)。泛化能力主要用于反映機(jī)器學(xué)習(xí)算法對新樣本的適應(yīng)性,可采用OOB(袋外數(shù)據(jù))估計(jì)方法進(jìn)行評價(jià)。OOB估計(jì)法對隨機(jī)森林中錯(cuò)誤分類樣本數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算該數(shù)量所占隨機(jī)森林樣本總數(shù)的比重,得出OOB誤分率,用以評價(jià)文本分類性能;(2)運(yùn)行效率評價(jià)。該評價(jià)指標(biāo)可從計(jì)算所需的時(shí)間與空間資源兩個(gè)方向進(jìn)行選取,其中時(shí)間資源包括算法編譯時(shí)間、執(zhí)行命令時(shí)間、重復(fù)執(zhí)行算法時(shí)間等評價(jià)指標(biāo),空間資源包括靜態(tài)存儲空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲空間等評價(jià)指標(biāo)。

        2.3 算法分析

        隨機(jī)森林算法通過組合決策樹,隨機(jī)選取樣本和樣本特征,可有效提高算法的降噪能力。避免決策樹在生成過程中出現(xiàn)過度擬合問題,以達(dá)到良好的高維度數(shù)據(jù)處理效果。同時(shí),基于Bagging集成算法的機(jī)械學(xué)習(xí)算法,能夠保證各個(gè)決策樹之間相互獨(dú)立,提高算法模型的運(yùn)行效率。但是,在復(fù)雜原始數(shù)據(jù)中基于隨機(jī)森林算法的文本分類存在著一定的應(yīng)用弊端。如,需要考慮強(qiáng)分類器與弱分類器,易降低分類結(jié)果的精確度;算法中擁有許多超參數(shù),使得算法受決策樹數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類的性能。所以,仍需要基于隨機(jī)森林算法對文本分類技術(shù)進(jìn)行優(yōu)化。

        2.4 算法優(yōu)化

        下面針對隨機(jī)森林算法的不足進(jìn)行優(yōu)化,優(yōu)化內(nèi)容包括以下方面:(1)投票機(jī)制優(yōu)化。采用決策樹分類效果評價(jià)指標(biāo),計(jì)算袋外數(shù)據(jù)的分類正確率,將原本輸出樣本的類標(biāo)簽轉(zhuǎn)變?yōu)檩敵鰳颖痉诸惖母怕?,分類正確率越高,則表明決策樹分類效果越好。同時(shí),還要結(jié)合采用類概率加權(quán)投票方法,計(jì)算測試樣本中每一個(gè)類的概率,將加權(quán)值最大的類作為分類結(jié)果;(2)超參數(shù)優(yōu)化。結(jié)合采用隨機(jī)搜索算法和網(wǎng)絡(luò)搜索算法對隨機(jī)森林超參數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)值組合,得出近似最優(yōu)解,即得到最后的分類結(jié)果。

        3? 結(jié)語

        總而言之,文本分類技術(shù)是大數(shù)據(jù)時(shí)代下信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù),可利用隨機(jī)森林算法作為文本分類方法,在優(yōu)化算法的基礎(chǔ)上,進(jìn)一步完善文本預(yù)處理、文本空間降維、文本分類性能評價(jià)的過程,用以彌補(bǔ)傳統(tǒng)文本分類方法的不足,進(jìn)而提高隨機(jī)森林算法的計(jì)算能力和文本分類性能。

        參考文獻(xiàn)

        [1] 韋靈,倪志平.基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界,2019(9):136-137.

        [2] 向志華,鄧怡辰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究[J].軟件,2019(9):140-142.

        [3] 王國薇.基于深度學(xué)習(xí)的文本分類方法研究[D].新疆大學(xué),2019.

        [4] 姜璐.基于深度學(xué)習(xí)的新聞文本分類模型研究[D].山東師范大學(xué),2019.

        [5] 周陽.基于機(jī)器學(xué)習(xí)的醫(yī)療文本分析挖掘技術(shù)研究[D].北京交通大學(xué),2019.

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        亚洲首页一区任你躁xxxxx| 久久成人免费电影| 亚洲av人妖一区二区三区| 亚洲AV手机专区久久精品| 亚洲高清美女久久av| 国产情侣亚洲自拍第一页| 国产三级精品视频2021| 18禁真人抽搐一进一出在线| 精品三级久久久久久久电影| 日韩精品一区二区三区中文9| 精品三级国产一区二区三| 山外人精品影院| 在线亚洲欧美日韩精品专区| 在线视频一区色| 一区二区三区蜜桃在线视频| 久久亚洲中文字幕精品熟| 北条麻妃国产九九九精品视频| 亚洲h视频| 国产内射XXXXX在线| 亚洲高清一区二区三区在线观看| 亚洲禁区一区二区三区天美| 麻豆av一区二区三区| 杨幂AV污网站在线一区二区| 国产日韩一区二区精品| 日产精品高潮一区二区三区5月| 全黄性性激高免费视频| 熟女人妇交换俱乐部| 亚洲av无码av在线播放| 在线观看国产精品自拍| 亚洲国产精品一区二区成人av| 亚洲精品乱码久久久久久金桔影视| 专区亚洲欧洲日产国码AV| 人妻露脸国语对白字幕| 天天做天天添av国产亚洲| 国产人澡人澡澡澡人碰视频| 黄色三级视频中文字幕| 亚洲伦理第一页中文字幕| 亚洲国产精品成人无码区| 久久久久综合一本久道| 日韩va高清免费视频| 肥老熟妇伦子伦456视频|