亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的文本分類技術(shù)分析與研究

2020-06-30 10:07:21王丁

科技創(chuàng)新導(dǎo)報(bào) 2020年8期

王丁

摘? ?要：在大數(shù)據(jù)時(shí)代下，每天會(huì)產(chǎn)生海量的文本信息，為實(shí)現(xiàn)對(duì)海量文本信息的高效利用，就必須運(yùn)用文本分類技術(shù)剔除信息中的冗余信息，并對(duì)文本進(jìn)行自動(dòng)分類，在分類文本中提取出具有使用價(jià)值的信息，為信息檢索與數(shù)據(jù)挖掘技術(shù)的應(yīng)用打下基礎(chǔ)。在信息數(shù)據(jù)爆發(fā)式增長(zhǎng)的環(huán)境下，文本分類技術(shù)已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價(jià)值的重要技術(shù)。本文從概述文本分類技術(shù)入手，將隨機(jī)森林算法作為重點(diǎn)，研究了基于機(jī)械學(xué)習(xí)的文本分類技術(shù)，期望對(duì)提高文本分類性能有所幫助。

關(guān)鍵詞：機(jī)器學(xué)習(xí)? 文本分類技術(shù)? 隨機(jī)森林算法

中圖分類號(hào)：TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào)：1674-098X（2020）03（b）-0090-02

本文提出一種基于機(jī)器學(xué)習(xí)的文本分類技術(shù)，該技術(shù)可應(yīng)用于網(wǎng)頁(yè)新聞分類、垃圾郵件識(shí)別、網(wǎng)絡(luò)評(píng)論分類等領(lǐng)域，具有良好的應(yīng)用前景。

1? 文本分類技術(shù)

文本分類是基于自然語(yǔ)言處理技術(shù)框架下對(duì)單詞、句子、段落等文本類別標(biāo)簽作出判斷的一種技術(shù)，屬于監(jiān)督學(xué)習(xí)方法。文本類別來(lái)自于自定義的類別，類別標(biāo)簽可為任意數(shù)量。根據(jù)類別的不同，文本分類包括單層分類與多層分類兩種形式，單層分類的類別標(biāo)簽數(shù)量為一個(gè)，多層分類的類別標(biāo)簽數(shù)量為多個(gè)?；跈C(jī)器學(xué)習(xí)的文本分類任務(wù)的完成，實(shí)質(zhì)上是函數(shù)映射的過(guò)程，具體包括以下五個(gè)方面。

1.1 文本預(yù)處理

在文本分類之前需對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，剔除原始數(shù)據(jù)中的噪聲，將其轉(zhuǎn)變?yōu)橐?guī)范的格式。在文本預(yù)處理中，可采用基于詞典匹配或基于統(tǒng)計(jì)的分詞算法進(jìn)行文本分析，如針對(duì)中文文本可采用漢語(yǔ)分詞系統(tǒng)ICTCLAS進(jìn)行分詞。文本預(yù)處理還要去掉連詞、介詞、語(yǔ)氣助詞等無(wú)實(shí)際意義的停用詞，以節(jié)省文本存儲(chǔ)空間。

1.2 文本表示

在基于機(jī)器學(xué)習(xí)的文本分析中，向量空間模型是常用的文本表示方法之一，該模型分為以下兩種版本：（1）詞袋模型。在文本表示中無(wú)需考慮文本結(jié)構(gòu)要素之間的關(guān)系，將各要素視為獨(dú)立項(xiàng)，根據(jù)詞出現(xiàn)的頻率設(shè)置計(jì)算權(quán)重。（2）詞的分布表示。該表示方法可分為基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡(luò)三種類型的詞的分布模型，其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災(zāi)難問(wèn)題。

1.3 空間降維

對(duì)高維特征矩陣需要進(jìn)行空間降維，以避免原始數(shù)據(jù)過(guò)于龐大而造成計(jì)算機(jī)計(jì)算能力超負(fù)荷運(yùn)行。在空間降維中，可采用特征選擇與特征提取兩種降維方式。其中，特征選擇可利用卡方統(tǒng)計(jì)、交叉熵、文檔頻率閾值等方法提取分類中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過(guò)空間降維提取特征，可以保證所提取的特征符合文本語(yǔ)義描述。

1.4 分類模型訓(xùn)練

分類模型訓(xùn)練是基于機(jī)器學(xué)習(xí)的文本分類關(guān)鍵技術(shù)，包括單重分類器方法和多分類器方法。（1）單重分類器方法包括貝葉斯分類、支持向量機(jī)、K最近鄰、決策樹(shù)等方法。前三種方法均存在一定局限性，如分類精度不足、數(shù)據(jù)處理效率低以及對(duì)存儲(chǔ)資源和計(jì)算能力要求高。而決策樹(shù)能夠?qū)?shù)據(jù)型和異常樣本進(jìn)行同時(shí)處理，保證輸出結(jié)果的精確度，所以本文采用決策樹(shù)方法對(duì)基于隨機(jī)森林算法的文本分類技術(shù)進(jìn)行研究;（2）多分類器方法包括隨機(jī)森林、Bagging等，通過(guò)組合單分類器的決策結(jié)果得出樣本分類，適用于小規(guī)模數(shù)據(jù)和少類別文本分類。

1.5 分類性能評(píng)價(jià)

文本分類性能評(píng)價(jià)根據(jù)數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、評(píng)價(jià)測(cè)試策略進(jìn)行評(píng)價(jià)。其中，數(shù)據(jù)集要求易于清理，適合分類實(shí)驗(yàn)任務(wù);評(píng)價(jià)指標(biāo)主要包括針對(duì)文本分類準(zhǔn)確性、錯(cuò)誤率、F均衡、召回率、ROC曲線等評(píng)價(jià)指標(biāo);K折交叉驗(yàn)證是評(píng)價(jià)測(cè)試的有效策略，通過(guò)隨機(jī)將數(shù)據(jù)集劃分為不同的k個(gè)子集，對(duì)各個(gè)子集進(jìn)行測(cè)試，重復(fù)k次，取平均正確率，即為測(cè)試結(jié)果。

2? 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)

本文選取機(jī)器學(xué)習(xí)中的隨機(jī)森林算法對(duì)文本分類技術(shù)進(jìn)行研究，對(duì)算法過(guò)程、算法評(píng)價(jià)指標(biāo)、算法特點(diǎn)以及算法優(yōu)化進(jìn)行分析，以提高文本分類的性能。隨機(jī)森林算法集合了CART決策樹(shù)算法和Bagging集成算法，涵蓋多個(gè)決策樹(shù)分類器集合，可解決回歸與分類問(wèn)題，將最大票數(shù)的類別作為文本分類結(jié)果。

2.1 算法過(guò)程

隨機(jī)森林算法的具體過(guò)程如下：對(duì)每棵決策樹(shù)均生成訓(xùn)練集，樣本數(shù)量為N，從原始訓(xùn)練中抽取n個(gè)樣本，n≤N，形成訓(xùn)練子集;在每個(gè)訓(xùn)練子集中提取M數(shù)量的特征屬性，并從特征屬性中選取m個(gè)特征屬性組成特征子空間，m≤M，構(gòu)成隨機(jī)特征子空間。遵循基尼系數(shù)最小原則，在特征子空間中選擇最優(yōu)屬性，開(kāi)始分類節(jié)點(diǎn)，將所有訓(xùn)練樣本都進(jìn)行完全分裂，最終形成決策樹(shù);重復(fù)上述步驟，構(gòu)建k棵決策樹(shù)，生成隨機(jī)森林，按照隨機(jī)森林決策模型進(jìn)行最終決策，最大投票數(shù)的類是最終分類結(jié)果。

2.2 算法評(píng)價(jià)

在隨機(jī)森林算法評(píng)價(jià)中，可選取分類效果與運(yùn)行效率兩大類評(píng)價(jià)指標(biāo)：（1）分類效果評(píng)價(jià)指標(biāo)。該類評(píng)價(jià)指標(biāo)除了可選取上文提出的分類性能評(píng)價(jià)指標(biāo)之外，還可選用泛化能力指標(biāo)。泛化能力主要用于反映機(jī)器學(xué)習(xí)算法對(duì)新樣本的適應(yīng)性，可采用OOB（袋外數(shù)據(jù)）估計(jì)方法進(jìn)行評(píng)價(jià)。OOB估計(jì)法對(duì)隨機(jī)森林中錯(cuò)誤分類樣本數(shù)量進(jìn)行統(tǒng)計(jì)，計(jì)算該數(shù)量所占隨機(jī)森林樣本總數(shù)的比重，得出OOB誤分率，用以評(píng)價(jià)文本分類性能;（2）運(yùn)行效率評(píng)價(jià)。該評(píng)價(jià)指標(biāo)可從計(jì)算所需的時(shí)間與空間資源兩個(gè)方向進(jìn)行選取，其中時(shí)間資源包括算法編譯時(shí)間、執(zhí)行命令時(shí)間、重復(fù)執(zhí)行算法時(shí)間等評(píng)價(jià)指標(biāo)，空間資源包括靜態(tài)存儲(chǔ)空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲(chǔ)空間等評(píng)價(jià)指標(biāo)。

2.3 算法分析

隨機(jī)森林算法通過(guò)組合決策樹(shù)，隨機(jī)選取樣本和樣本特征，可有效提高算法的降噪能力。避免決策樹(shù)在生成過(guò)程中出現(xiàn)過(guò)度擬合問(wèn)題，以達(dá)到良好的高維度數(shù)據(jù)處理效果。同時(shí)，基于Bagging集成算法的機(jī)械學(xué)習(xí)算法，能夠保證各個(gè)決策樹(shù)之間相互獨(dú)立，提高算法模型的運(yùn)行效率。但是，在復(fù)雜原始數(shù)據(jù)中基于隨機(jī)森林算法的文本分類存在著一定的應(yīng)用弊端。如，需要考慮強(qiáng)分類器與弱分類器，易降低分類結(jié)果的精確度;算法中擁有許多超參數(shù)，使得算法受決策樹(shù)數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類的性能。所以，仍需要基于隨機(jī)森林算法對(duì)文本分類技術(shù)進(jìn)行優(yōu)化。

2.4 算法優(yōu)化

下面針對(duì)隨機(jī)森林算法的不足進(jìn)行優(yōu)化，優(yōu)化內(nèi)容包括以下方面：（1）投票機(jī)制優(yōu)化。采用決策樹(shù)分類效果評(píng)價(jià)指標(biāo)，計(jì)算袋外數(shù)據(jù)的分類正確率，將原本輸出樣本的類標(biāo)簽轉(zhuǎn)變?yōu)檩敵鰳颖痉诸惖母怕剩诸愓_率越高，則表明決策樹(shù)分類效果越好。同時(shí)，還要結(jié)合采用類概率加權(quán)投票方法，計(jì)算測(cè)試樣本中每一個(gè)類的概率，將加權(quán)值最大的類作為分類結(jié)果;（2）超參數(shù)優(yōu)化。結(jié)合采用隨機(jī)搜索算法和網(wǎng)絡(luò)搜索算法對(duì)隨機(jī)森林超參數(shù)進(jìn)行優(yōu)化，獲取最優(yōu)值組合，得出近似最優(yōu)解，即得到最后的分類結(jié)果。

3? 結(jié)語(yǔ)

總而言之，文本分類技術(shù)是大數(shù)據(jù)時(shí)代下信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一?；跈C(jī)器學(xué)習(xí)的文本分類技術(shù)，可利用隨機(jī)森林算法作為文本分類方法，在優(yōu)化算法的基礎(chǔ)上，進(jìn)一步完善文本預(yù)處理、文本空間降維、文本分類性能評(píng)價(jià)的過(guò)程，用以彌補(bǔ)傳統(tǒng)文本分類方法的不足，進(jìn)而提高隨機(jī)森林算法的計(jì)算能力和文本分類性能。

參考文獻(xiàn)

[1] 韋靈，倪志平.基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用[J].科技視界，2019（9）：136-137.

[2] 向志華，鄧怡辰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究[J].軟件，2019（9）：140-142.

[3] 王國(guó)薇.基于深度學(xué)習(xí)的文本分類方法研究[D].新疆大學(xué)，2019.

[4] 姜璐.基于深度學(xué)習(xí)的新聞文本分類模型研究[D].山東師范大學(xué)，2019.

[5] 周陽(yáng).基于機(jī)器學(xué)習(xí)的醫(yī)療文本分析挖掘技術(shù)研究[D].北京交通大學(xué)，2019.