亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)分析與研究

        2020-06-30 10:07:21王丁
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        王丁

        摘? ?要:在大數(shù)據(jù)時(shí)代下,每天會(huì)產(chǎn)生海量的文本信息,為實(shí)現(xiàn)對(duì)海量文本信息的高效利用,就必須運(yùn)用文本分類(lèi)技術(shù)剔除信息中的冗余信息,并對(duì)文本進(jìn)行自動(dòng)分類(lèi),在分類(lèi)文本中提取出具有使用價(jià)值的信息,為信息檢索與數(shù)據(jù)挖掘技術(shù)的應(yīng)用打下基礎(chǔ)。在信息數(shù)據(jù)爆發(fā)式增長(zhǎng)的環(huán)境下,文本分類(lèi)技術(shù)已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價(jià)值的重要技術(shù)。本文從概述文本分類(lèi)技術(shù)入手,將隨機(jī)森林算法作為重點(diǎn),研究了基于機(jī)械學(xué)習(xí)的文本分類(lèi)技術(shù),期望對(duì)提高文本分類(lèi)性能有所幫助。

        關(guān)鍵詞:機(jī)器學(xué)習(xí)? 文本分類(lèi)技術(shù)? 隨機(jī)森林算法

        中圖分類(lèi)號(hào):TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2020)03(b)-0090-02

        本文提出一種基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù),該技術(shù)可應(yīng)用于網(wǎng)頁(yè)新聞分類(lèi)、垃圾郵件識(shí)別、網(wǎng)絡(luò)評(píng)論分類(lèi)等領(lǐng)域,具有良好的應(yīng)用前景。

        1? 文本分類(lèi)技術(shù)

        文本分類(lèi)是基于自然語(yǔ)言處理技術(shù)框架下對(duì)單詞、句子、段落等文本類(lèi)別標(biāo)簽作出判斷的一種技術(shù),屬于監(jiān)督學(xué)習(xí)方法。文本類(lèi)別來(lái)自于自定義的類(lèi)別,類(lèi)別標(biāo)簽可為任意數(shù)量。根據(jù)類(lèi)別的不同,文本分類(lèi)包括單層分類(lèi)與多層分類(lèi)兩種形式,單層分類(lèi)的類(lèi)別標(biāo)簽數(shù)量為一個(gè),多層分類(lèi)的類(lèi)別標(biāo)簽數(shù)量為多個(gè)?;跈C(jī)器學(xué)習(xí)的文本分類(lèi)任務(wù)的完成,實(shí)質(zhì)上是函數(shù)映射的過(guò)程,具體包括以下五個(gè)方面。

        1.1 文本預(yù)處理

        在文本分類(lèi)之前需對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除原始數(shù)據(jù)中的噪聲,將其轉(zhuǎn)變?yōu)橐?guī)范的格式。在文本預(yù)處理中,可采用基于詞典匹配或基于統(tǒng)計(jì)的分詞算法進(jìn)行文本分析,如針對(duì)中文文本可采用漢語(yǔ)分詞系統(tǒng)ICTCLAS進(jìn)行分詞。文本預(yù)處理還要去掉連詞、介詞、語(yǔ)氣助詞等無(wú)實(shí)際意義的停用詞,以節(jié)省文本存儲(chǔ)空間。

        1.2 文本表示

        在基于機(jī)器學(xué)習(xí)的文本分析中,向量空間模型是常用的文本表示方法之一,該模型分為以下兩種版本:(1)詞袋模型。在文本表示中無(wú)需考慮文本結(jié)構(gòu)要素之間的關(guān)系,將各要素視為獨(dú)立項(xiàng),根據(jù)詞出現(xiàn)的頻率設(shè)置計(jì)算權(quán)重。(2)詞的分布表示。該表示方法可分為基于矩陣、基于聚類(lèi)和基于神經(jīng)網(wǎng)絡(luò)三種類(lèi)型的詞的分布模型,其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災(zāi)難問(wèn)題。

        1.3 空間降維

        對(duì)高維特征矩陣需要進(jìn)行空間降維,以避免原始數(shù)據(jù)過(guò)于龐大而造成計(jì)算機(jī)計(jì)算能力超負(fù)荷運(yùn)行。在空間降維中,可采用特征選擇與特征提取兩種降維方式。其中,特征選擇可利用卡方統(tǒng)計(jì)、交叉熵、文檔頻率閾值等方法提取分類(lèi)中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過(guò)空間降維提取特征,可以保證所提取的特征符合文本語(yǔ)義描述。

        1.4 分類(lèi)模型訓(xùn)練

        分類(lèi)模型訓(xùn)練是基于機(jī)器學(xué)習(xí)的文本分類(lèi)關(guān)鍵技術(shù),包括單重分類(lèi)器方法和多分類(lèi)器方法。(1)單重分類(lèi)器方法包括貝葉斯分類(lèi)、支持向量機(jī)、K最近鄰、決策樹(shù)等方法。前三種方法均存在一定局限性,如分類(lèi)精度不足、數(shù)據(jù)處理效率低以及對(duì)存儲(chǔ)資源和計(jì)算能力要求高。而決策樹(shù)能夠?qū)?shù)據(jù)型和異常樣本進(jìn)行同時(shí)處理,保證輸出結(jié)果的精確度,所以本文采用決策樹(shù)方法對(duì)基于隨機(jī)森林算法的文本分類(lèi)技術(shù)進(jìn)行研究;(2)多分類(lèi)器方法包括隨機(jī)森林、Bagging等,通過(guò)組合單分類(lèi)器的決策結(jié)果得出樣本分類(lèi),適用于小規(guī)模數(shù)據(jù)和少類(lèi)別文本分類(lèi)。

        1.5 分類(lèi)性能評(píng)價(jià)

        文本分類(lèi)性能評(píng)價(jià)根據(jù)數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、評(píng)價(jià)測(cè)試策略進(jìn)行評(píng)價(jià)。其中,數(shù)據(jù)集要求易于清理,適合分類(lèi)實(shí)驗(yàn)任務(wù);評(píng)價(jià)指標(biāo)主要包括針對(duì)文本分類(lèi)準(zhǔn)確性、錯(cuò)誤率、F均衡、召回率、ROC曲線等評(píng)價(jià)指標(biāo);K折交叉驗(yàn)證是評(píng)價(jià)測(cè)試的有效策略,通過(guò)隨機(jī)將數(shù)據(jù)集劃分為不同的k個(gè)子集,對(duì)各個(gè)子集進(jìn)行測(cè)試,重復(fù)k次,取平均正確率,即為測(cè)試結(jié)果。

        2? 基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)

        本文選取機(jī)器學(xué)習(xí)中的隨機(jī)森林算法對(duì)文本分類(lèi)技術(shù)進(jìn)行研究,對(duì)算法過(guò)程、算法評(píng)價(jià)指標(biāo)、算法特點(diǎn)以及算法優(yōu)化進(jìn)行分析,以提高文本分類(lèi)的性能。隨機(jī)森林算法集合了CART決策樹(shù)算法和Bagging集成算法,涵蓋多個(gè)決策樹(shù)分類(lèi)器集合,可解決回歸與分類(lèi)問(wèn)題,將最大票數(shù)的類(lèi)別作為文本分類(lèi)結(jié)果。

        2.1 算法過(guò)程

        隨機(jī)森林算法的具體過(guò)程如下:對(duì)每棵決策樹(shù)均生成訓(xùn)練集,樣本數(shù)量為N,從原始訓(xùn)練中抽取n個(gè)樣本,n≤N,形成訓(xùn)練子集;在每個(gè)訓(xùn)練子集中提取M數(shù)量的特征屬性,并從特征屬性中選取m個(gè)特征屬性組成特征子空間,m≤M,構(gòu)成隨機(jī)特征子空間。遵循基尼系數(shù)最小原則,在特征子空間中選擇最優(yōu)屬性,開(kāi)始分類(lèi)節(jié)點(diǎn),將所有訓(xùn)練樣本都進(jìn)行完全分裂,最終形成決策樹(shù);重復(fù)上述步驟,構(gòu)建k棵決策樹(shù),生成隨機(jī)森林,按照隨機(jī)森林決策模型進(jìn)行最終決策,最大投票數(shù)的類(lèi)是最終分類(lèi)結(jié)果。

        2.2 算法評(píng)價(jià)

        在隨機(jī)森林算法評(píng)價(jià)中,可選取分類(lèi)效果與運(yùn)行效率兩大類(lèi)評(píng)價(jià)指標(biāo):(1)分類(lèi)效果評(píng)價(jià)指標(biāo)。該類(lèi)評(píng)價(jià)指標(biāo)除了可選取上文提出的分類(lèi)性能評(píng)價(jià)指標(biāo)之外,還可選用泛化能力指標(biāo)。泛化能力主要用于反映機(jī)器學(xué)習(xí)算法對(duì)新樣本的適應(yīng)性,可采用OOB(袋外數(shù)據(jù))估計(jì)方法進(jìn)行評(píng)價(jià)。OOB估計(jì)法對(duì)隨機(jī)森林中錯(cuò)誤分類(lèi)樣本數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算該數(shù)量所占隨機(jī)森林樣本總數(shù)的比重,得出OOB誤分率,用以評(píng)價(jià)文本分類(lèi)性能;(2)運(yùn)行效率評(píng)價(jià)。該評(píng)價(jià)指標(biāo)可從計(jì)算所需的時(shí)間與空間資源兩個(gè)方向進(jìn)行選取,其中時(shí)間資源包括算法編譯時(shí)間、執(zhí)行命令時(shí)間、重復(fù)執(zhí)行算法時(shí)間等評(píng)價(jià)指標(biāo),空間資源包括靜態(tài)存儲(chǔ)空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲(chǔ)空間等評(píng)價(jià)指標(biāo)。

        2.3 算法分析

        隨機(jī)森林算法通過(guò)組合決策樹(shù),隨機(jī)選取樣本和樣本特征,可有效提高算法的降噪能力。避免決策樹(shù)在生成過(guò)程中出現(xiàn)過(guò)度擬合問(wèn)題,以達(dá)到良好的高維度數(shù)據(jù)處理效果。同時(shí),基于Bagging集成算法的機(jī)械學(xué)習(xí)算法,能夠保證各個(gè)決策樹(shù)之間相互獨(dú)立,提高算法模型的運(yùn)行效率。但是,在復(fù)雜原始數(shù)據(jù)中基于隨機(jī)森林算法的文本分類(lèi)存在著一定的應(yīng)用弊端。如,需要考慮強(qiáng)分類(lèi)器與弱分類(lèi)器,易降低分類(lèi)結(jié)果的精確度;算法中擁有許多超參數(shù),使得算法受決策樹(shù)數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類(lèi)的性能。所以,仍需要基于隨機(jī)森林算法對(duì)文本分類(lèi)技術(shù)進(jìn)行優(yōu)化。

        2.4 算法優(yōu)化

        下面針對(duì)隨機(jī)森林算法的不足進(jìn)行優(yōu)化,優(yōu)化內(nèi)容包括以下方面:(1)投票機(jī)制優(yōu)化。采用決策樹(shù)分類(lèi)效果評(píng)價(jià)指標(biāo),計(jì)算袋外數(shù)據(jù)的分類(lèi)正確率,將原本輸出樣本的類(lèi)標(biāo)簽轉(zhuǎn)變?yōu)檩敵鰳颖痉诸?lèi)的概率,分類(lèi)正確率越高,則表明決策樹(shù)分類(lèi)效果越好。同時(shí),還要結(jié)合采用類(lèi)概率加權(quán)投票方法,計(jì)算測(cè)試樣本中每一個(gè)類(lèi)的概率,將加權(quán)值最大的類(lèi)作為分類(lèi)結(jié)果;(2)超參數(shù)優(yōu)化。結(jié)合采用隨機(jī)搜索算法和網(wǎng)絡(luò)搜索算法對(duì)隨機(jī)森林超參數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)值組合,得出近似最優(yōu)解,即得到最后的分類(lèi)結(jié)果。

        3? 結(jié)語(yǔ)

        總而言之,文本分類(lèi)技術(shù)是大數(shù)據(jù)時(shí)代下信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù),可利用隨機(jī)森林算法作為文本分類(lèi)方法,在優(yōu)化算法的基礎(chǔ)上,進(jìn)一步完善文本預(yù)處理、文本空間降維、文本分類(lèi)性能評(píng)價(jià)的過(guò)程,用以彌補(bǔ)傳統(tǒng)文本分類(lèi)方法的不足,進(jìn)而提高隨機(jī)森林算法的計(jì)算能力和文本分類(lèi)性能。

        參考文獻(xiàn)

        [1] 韋靈,倪志平.基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的文本分類(lèi)及其運(yùn)用[J].科技視界,2019(9):136-137.

        [2] 向志華,鄧怡辰.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究[J].軟件,2019(9):140-142.

        [3] 王國(guó)薇.基于深度學(xué)習(xí)的文本分類(lèi)方法研究[D].新疆大學(xué),2019.

        [4] 姜璐.基于深度學(xué)習(xí)的新聞文本分類(lèi)模型研究[D].山東師范大學(xué),2019.

        [5] 周陽(yáng).基于機(jī)器學(xué)習(xí)的醫(yī)療文本分析挖掘技術(shù)研究[D].北京交通大學(xué),2019.

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        av黄色大片久久免费| 午夜tv视频免费国产区4| 九九精品国产99精品| 男男做h嗯啊高潮涩涩| 小说区激情另类春色| 国产伦精品一区二区三区| 国内精品伊人久久久久av| 国产精品农村妇女一区二区三区| 亚洲精品一区二区三区52p| 国产av一区二区三区传媒| 牛牛本精品99久久精品88m| 日韩精品首页在线观看| 日本超级老熟女影音播放| 国产色xx群视频射精| 狠狠久久久久综合网| 一区二区在线视频大片| 国内嫩模自拍诱惑免费视频| www射我里面在线观看| 亚洲色在线视频| 有码中文字幕一区二区| 久久一本日韩精品中文字幕屁孩| 天天天天躁天天爱天天碰2018| 在线视频 亚洲精品| 亚洲天堂一区二区三区视频| 国语自产视频在线| 中文字幕人妻av一区二区| www.日本一区| 亚洲日本一区二区在线| 国产免费艾彩sm调教视频| 日韩精品中文字幕无码专区| 一本色道久久88综合亚洲精品| 白嫩人妻少妇偷人精品| 亚洲一本到无码av中文字幕| 日韩av二区三区一区| 男女互舔动态视频在线观看| 国产精品99无码一区二区| 狠狠色狠狠色综合久久第一次 | 成人综合网亚洲伊人| 最新国产美女一区二区三区| 国产剧情av麻豆香蕉精品| 国产xxxxx在线观看|