王丁
摘? ?要:在大數(shù)據(jù)時(shí)代下,每天會產(chǎn)生海量的文本信息,為實(shí)現(xiàn)對海量文本信息的高效利用,就必須運(yùn)用文本分類技術(shù)剔除信息中的冗余信息,并對文本進(jìn)行自動分類,在分類文本中提取出具有使用價(jià)值的信息,為信息檢索與數(shù)據(jù)挖掘技術(shù)的應(yīng)用打下基礎(chǔ)。在信息數(shù)據(jù)爆發(fā)式增長的環(huán)境下,文本分類技術(shù)已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價(jià)值的重要技術(shù)。本文從概述文本分類技術(shù)入手,將隨機(jī)森林算法作為重點(diǎn),研究了基于機(jī)械學(xué)習(xí)的文本分類技術(shù),期望對提高文本分類性能有所幫助。
關(guān)鍵詞:機(jī)器學(xué)習(xí)? 文本分類技術(shù)? 隨機(jī)森林算法
中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)03(b)-0090-02
本文提出一種基于機(jī)器學(xué)習(xí)的文本分類技術(shù),該技術(shù)可應(yīng)用于網(wǎng)頁新聞分類、垃圾郵件識別、網(wǎng)絡(luò)評論分類等領(lǐng)域,具有良好的應(yīng)用前景。
1? 文本分類技術(shù)
文本分類是基于自然語言處理技術(shù)框架下對單詞、句子、段落等文本類別標(biāo)簽作出判斷的一種技術(shù),屬于監(jiān)督學(xué)習(xí)方法。文本類別來自于自定義的類別,類別標(biāo)簽可為任意數(shù)量。根據(jù)類別的不同,文本分類包括單層分類與多層分類兩種形式,單層分類的類別標(biāo)簽數(shù)量為一個(gè),多層分類的類別標(biāo)簽數(shù)量為多個(gè)。基于機(jī)器學(xué)習(xí)的文本分類任務(wù)的完成,實(shí)質(zhì)上是函數(shù)映射的過程,具體包括以下五個(gè)方面。
1.1 文本預(yù)處理
在文本分類之前需對原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除原始數(shù)據(jù)中的噪聲,將其轉(zhuǎn)變?yōu)橐?guī)范的格式。在文本預(yù)處理中,可采用基于詞典匹配或基于統(tǒng)計(jì)的分詞算法進(jìn)行文本分析,如針對中文文本可采用漢語分詞系統(tǒng)ICTCLAS進(jìn)行分詞。文本預(yù)處理還要去掉連詞、介詞、語氣助詞等無實(shí)際意義的停用詞,以節(jié)省文本存儲空間。
1.2 文本表示
在基于機(jī)器學(xué)習(xí)的文本分析中,向量空間模型是常用的文本表示方法之一,該模型分為以下兩種版本:(1)詞袋模型。在文本表示中無需考慮文本結(jié)構(gòu)要素之間的關(guān)系,將各要素視為獨(dú)立項(xiàng),根據(jù)詞出現(xiàn)的頻率設(shè)置計(jì)算權(quán)重。(2)詞的分布表示。該表示方法可分為基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡(luò)三種類型的詞的分布模型,其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災(zāi)難問題。
1.3 空間降維
對高維特征矩陣需要進(jìn)行空間降維,以避免原始數(shù)據(jù)過于龐大而造成計(jì)算機(jī)計(jì)算能力超負(fù)荷運(yùn)行。在空間降維中,可采用特征選擇與特征提取兩種降維方式。其中,特征選擇可利用卡方統(tǒng)計(jì)、交叉熵、文檔頻率閾值等方法提取分類中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過空間降維提取特征,可以保證所提取的特征符合文本語義描述。
1.4 分類模型訓(xùn)練
分類模型訓(xùn)練是基于機(jī)器學(xué)習(xí)的文本分類關(guān)鍵技術(shù),包括單重分類器方法和多分類器方法。(1)單重分類器方法包括貝葉斯分類、支持向量機(jī)、K最近鄰、決策樹等方法。前三種方法均存在一定局限性,如分類精度不足、數(shù)據(jù)處理效率低以及對存儲資源和計(jì)算能力要求高。而決策樹能夠?qū)?shù)據(jù)型和異常樣本進(jìn)行同時(shí)處理,保證輸出結(jié)果的精確度,所以本文采用決策樹方法對基于隨機(jī)森林算法的文本分類技術(shù)進(jìn)行研究;(2)多分類器方法包括隨機(jī)森林、Bagging等,通過組合單分類器的決策結(jié)果得出樣本分類,適用于小規(guī)模數(shù)據(jù)和少類別文本分類。
1.5 分類性能評價(jià)
文本分類性能評價(jià)根據(jù)數(shù)據(jù)集、評價(jià)指標(biāo)、評價(jià)測試策略進(jìn)行評價(jià)。其中,數(shù)據(jù)集要求易于清理,適合分類實(shí)驗(yàn)任務(wù);評價(jià)指標(biāo)主要包括針對文本分類準(zhǔn)確性、錯(cuò)誤率、F均衡、召回率、ROC曲線等評價(jià)指標(biāo);K折交叉驗(yàn)證是評價(jià)測試的有效策略,通過隨機(jī)將數(shù)據(jù)集劃分為不同的k個(gè)子集,對各個(gè)子集進(jìn)行測試,重復(fù)k次,取平均正確率,即為測試結(jié)果。
2? 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)
本文選取機(jī)器學(xué)習(xí)中的隨機(jī)森林算法對文本分類技術(shù)進(jìn)行研究,對算法過程、算法評價(jià)指標(biāo)、算法特點(diǎn)以及算法優(yōu)化進(jìn)行分析,以提高文本分類的性能。隨機(jī)森林算法集合了CART決策樹算法和Bagging集成算法,涵蓋多個(gè)決策樹分類器集合,可解決回歸與分類問題,將最大票數(shù)的類別作為文本分類結(jié)果。
2.1 算法過程
隨機(jī)森林算法的具體過程如下:對每棵決策樹均生成訓(xùn)練集,樣本數(shù)量為N,從原始訓(xùn)練中抽取n個(gè)樣本,n≤N,形成訓(xùn)練子集;在每個(gè)訓(xùn)練子集中提取M數(shù)量的特征屬性,并從特征屬性中選取m個(gè)特征屬性組成特征子空間,m≤M,構(gòu)成隨機(jī)特征子空間。遵循基尼系數(shù)最小原則,在特征子空間中選擇最優(yōu)屬性,開始分類節(jié)點(diǎn),將所有訓(xùn)練樣本都進(jìn)行完全分裂,最終形成決策樹;重復(fù)上述步驟,構(gòu)建k棵決策樹,生成隨機(jī)森林,按照隨機(jī)森林決策模型進(jìn)行最終決策,最大投票數(shù)的類是最終分類結(jié)果。
2.2 算法評價(jià)
在隨機(jī)森林算法評價(jià)中,可選取分類效果與運(yùn)行效率兩大類評價(jià)指標(biāo):(1)分類效果評價(jià)指標(biāo)。該類評價(jià)指標(biāo)除了可選取上文提出的分類性能評價(jià)指標(biāo)之外,還可選用泛化能力指標(biāo)。泛化能力主要用于反映機(jī)器學(xué)習(xí)算法對新樣本的適應(yīng)性,可采用OOB(袋外數(shù)據(jù))估計(jì)方法進(jìn)行評價(jià)。OOB估計(jì)法對隨機(jī)森林中錯(cuò)誤分類樣本數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算該數(shù)量所占隨機(jī)森林樣本總數(shù)的比重,得出OOB誤分率,用以評價(jià)文本分類性能;(2)運(yùn)行效率評價(jià)。該評價(jià)指標(biāo)可從計(jì)算所需的時(shí)間與空間資源兩個(gè)方向進(jìn)行選取,其中時(shí)間資源包括算法編譯時(shí)間、執(zhí)行命令時(shí)間、重復(fù)執(zhí)行算法時(shí)間等評價(jià)指標(biāo),空間資源包括靜態(tài)存儲空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲空間等評價(jià)指標(biāo)。
2.3 算法分析
隨機(jī)森林算法通過組合決策樹,隨機(jī)選取樣本和樣本特征,可有效提高算法的降噪能力。避免決策樹在生成過程中出現(xiàn)過度擬合問題,以達(dá)到良好的高維度數(shù)據(jù)處理效果。同時(shí),基于Bagging集成算法的機(jī)械學(xué)習(xí)算法,能夠保證各個(gè)決策樹之間相互獨(dú)立,提高算法模型的運(yùn)行效率。但是,在復(fù)雜原始數(shù)據(jù)中基于隨機(jī)森林算法的文本分類存在著一定的應(yīng)用弊端。如,需要考慮強(qiáng)分類器與弱分類器,易降低分類結(jié)果的精確度;算法中擁有許多超參數(shù),使得算法受決策樹數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類的性能。所以,仍需要基于隨機(jī)森林算法對文本分類技術(shù)進(jìn)行優(yōu)化。
2.4 算法優(yōu)化
下面針對隨機(jī)森林算法的不足進(jìn)行優(yōu)化,優(yōu)化內(nèi)容包括以下方面:(1)投票機(jī)制優(yōu)化。采用決策樹分類效果評價(jià)指標(biāo),計(jì)算袋外數(shù)據(jù)的分類正確率,將原本輸出樣本的類標(biāo)簽轉(zhuǎn)變?yōu)檩敵鰳颖痉诸惖母怕?,分類正確率越高,則表明決策樹分類效果越好。同時(shí),還要結(jié)合采用類概率加權(quán)投票方法,計(jì)算測試樣本中每一個(gè)類的概率,將加權(quán)值最大的類作為分類結(jié)果;(2)超參數(shù)優(yōu)化。結(jié)合采用隨機(jī)搜索算法和網(wǎng)絡(luò)搜索算法對隨機(jī)森林超參數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)值組合,得出近似最優(yōu)解,即得到最后的分類結(jié)果。
3? 結(jié)語
總而言之,文本分類技術(shù)是大數(shù)據(jù)時(shí)代下信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一?;跈C(jī)器學(xué)習(xí)的文本分類技術(shù),可利用隨機(jī)森林算法作為文本分類方法,在優(yōu)化算法的基礎(chǔ)上,進(jìn)一步完善文本預(yù)處理、文本空間降維、文本分類性能評價(jià)的過程,用以彌補(bǔ)傳統(tǒng)文本分類方法的不足,進(jìn)而提高隨機(jī)森林算法的計(jì)算能力和文本分類性能。
參考文獻(xiàn)
[1] 韋靈,倪志平.基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界,2019(9):136-137.
[2] 向志華,鄧怡辰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究[J].軟件,2019(9):140-142.
[3] 王國薇.基于深度學(xué)習(xí)的文本分類方法研究[D].新疆大學(xué),2019.
[4] 姜璐.基于深度學(xué)習(xí)的新聞文本分類模型研究[D].山東師范大學(xué),2019.
[5] 周陽.基于機(jī)器學(xué)習(xí)的醫(yī)療文本分析挖掘技術(shù)研究[D].北京交通大學(xué),2019.