亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)LightGBM和異質(zhì)集成學(xué)習(xí)方法的新聞分類

        2019-03-15 01:29:58李安
        電子制作 2019年4期
        關(guān)鍵詞:分類模型

        李安

        (陜西省西安中學(xué),陜西西安,710000)

        1 概述

        在機(jī)器學(xué)習(xí)領(lǐng)域,對(duì)分類模型的研究具有重要的意義。集成學(xué)習(xí)作為一種能夠有效提高分類模型性能的方法也被廣泛使用。集成學(xué)習(xí)分為兩種類型,包括同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在實(shí)際應(yīng)用中,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括sklearn等主流的機(jī)器學(xué)習(xí)框架,都實(shí)現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對(duì)于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。

        娛樂文章按體裁能分成七類:資訊熱點(diǎn),電影電視劇報(bào)道評(píng)論,人物深扒,組圖盤點(diǎn),明星寫真,行業(yè)報(bào)道,機(jī)場圖。本文依據(jù)娛樂新聞分類這一具體問題,通過對(duì)不同模型的綜合分析,探究異質(zhì)集成學(xué)習(xí)的方法,將文章進(jìn)行多分類。

        1.1 數(shù)據(jù)集特征

        娛樂新聞的數(shù)據(jù)集特征由分詞和去停用詞以及TF-IDF處理后的4700維構(gòu)成。

        1.2 數(shù)據(jù)集預(yù)處理

        1.2.1 去停用詞

        由于并不是每一個(gè)詞都能表征這篇文章的內(nèi)容,如果保留,輸入特征會(huì)很大,影響訓(xùn)練效果,因此有一些形如“這樣”“1.2.3.4”的詞就應(yīng)該被刪除掉,可以從網(wǎng)絡(luò)上尋找一份中文的停用詞表作為參考。將文章中的詞與停用詞表中的詞作比較,如果在表中出現(xiàn)該詞,就將其刪除,如果沒有出現(xiàn),就跳過。

        1.2.2 分詞

        文本分詞是文檔處理中的一個(gè)不可或缺的操作,因?yàn)橹蟮牟僮餍枰梦恼轮械脑~語來代表這篇文章的主要內(nèi)容的概括。本文中對(duì)文章進(jìn)行分詞主要操作步驟如下:構(gòu)造語料庫詞典和進(jìn)行文章分詞操作。

        目前在nlp領(lǐng)域用來構(gòu)造詞典的主要方法是字典樹。對(duì)于分詞,主要采用的有正反雙向最大匹配以及nlp語言模型和最短路徑等相關(guān)的算法。

        對(duì)于我們的問題而言,我們使用的是jieba分詞庫。

        1.2.3 tf-IDF

        tf-IDF指標(biāo)是一種基于概率論的統(tǒng)計(jì)學(xué)方法,用于評(píng)估一篇文章中的某一字詞的對(duì)于一個(gè)語料庫中的文件集合中的其中一個(gè)文件的重要程度,詞語的重要程度和其在一篇文章中出現(xiàn)的次數(shù)是正比關(guān)系,但是和其在文件集合中出現(xiàn)的次數(shù)成反比關(guān)系。通俗地說,就是一個(gè)詞在某篇文章中出現(xiàn)的次數(shù)越高,而在這一堆文章中的其他文章中出現(xiàn)越少,它就更能表征這篇文章的內(nèi)容。

        詞頻(TF)指的是一個(gè)給定的詞語在某篇文章中出現(xiàn)的次數(shù),為了防止文章過長導(dǎo)致頻率偏向長文章,這個(gè)指標(biāo)一般會(huì)采用某種方式進(jìn)行歸一化操作(常常用出現(xiàn)的頻數(shù)/文檔總詞數(shù))。

        Tf-IDF指標(biāo)的計(jì)算方法是由語料庫中文檔的總數(shù)除上出現(xiàn)該詞語的文檔數(shù),將結(jié)果再取對(duì)數(shù),TF·IDF=TF*IDF。

        為了簡化計(jì)算,針對(duì)數(shù)據(jù)集,做出每4700詞劃分一次的調(diào)整,長度大于4700的進(jìn)行切分,小于4700的進(jìn)行填充。

        1.3 數(shù)據(jù)集劃分

        將9000篇文章中,30%劃分為訓(xùn)練集,70%劃分為測試集。

        2 構(gòu)建傳統(tǒng)機(jī)器學(xué)習(xí)模型

        2.1 構(gòu)建樸素貝葉斯模型

        2.1.1 基本原理

        樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,通過考慮特征概率來預(yù)測分類,是為數(shù)不多的基于概率統(tǒng)計(jì)學(xué)的分類算法。

        樸素貝葉斯的核心是貝葉斯定理,而貝葉斯定理的公式本質(zhì)上是條件概率。

        貝葉斯法則如下:

        這里的C表示類別,輸入待判斷數(shù)據(jù),式子給出要求解的某一類的概率。我們的最終目的是比較各類別的概率值大小,而上面式子的分母是不變的,因此只要計(jì)算分子即可。

        2.1.2 算法效果

        運(yùn)用樸素貝葉斯模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了71.59%的準(zhǔn)確率,在測試集上達(dá)到了69.89%的準(zhǔn)確率,如圖1所示。

        圖1

        2.2 logistic模型

        2.2.1 logistic原理

        Logistic模型是人工智能中的一種被廣泛使用的分類模型,對(duì)于一般的分類問題而言,具有良好的性能。Logistic模型使用S函數(shù)作為我們的預(yù)測函數(shù),去估計(jì)概率P(y | x)的大小。如果P大于0.5,我們則認(rèn)為屬于“1”類別,否則屬于“0”類別。在娛樂新聞分類問題中,S函數(shù)的輸出就是屬于每一類娛樂新聞的幾率值,大小取值在0到1之間。Logistic模型在訓(xùn)練階段,通過隨機(jī)梯度下降法SGD去不斷的最小化預(yù)測函數(shù)在訓(xùn)練集娛樂新聞上的誤差,來提高模型的泛化能力。為了避免模型陷入過擬合,在代價(jià)函數(shù)上采用相應(yīng)的正則化手段,可以緩解模型的過擬合程度。

        2.2.2 logistic的假設(shè)函數(shù)

        假設(shè)函數(shù)采用sigmoid函數(shù),函數(shù)形式為如2-1式,取值范圍為[0,1]。代表了測試樣本新聞屬于某一類的概率。其中z = θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對(duì)應(yīng)每篇文章的特征向量。即z是一篇新聞所有特征的線性組合。

        2.2.3 邏輯回歸的loss function

        Loss function又稱為代價(jià)函數(shù)、損失函數(shù),是我們將機(jī)器數(shù)學(xué)問題抽象成數(shù)學(xué)問題后所對(duì)應(yīng)的優(yōu)化目標(biāo),主要用來評(píng)價(jià)模型的好壞,在訓(xùn)練集上的預(yù)測誤差越小,loss function就越小,在訓(xùn)練集上的誤差越大,則loss funciton也就越大。機(jī)器學(xué)習(xí)的訓(xùn)練過程,本質(zhì)上就是通過SGD等優(yōu)化算法來不斷的更新模型權(quán)重,從而不斷的減小模型的預(yù)測誤差。

        機(jī)器學(xué)習(xí)中比較常見的loss funciton有均方誤差和cross entropy誤差。均方誤差一般用于regression問題中,cross entropy一般用在classi fi caton問題中。對(duì)于娛樂新聞分類問題而言,其是一個(gè)分類問題,因此我們采用了cross entropyloss function。cross entropyloss function的公式如2.2式。公式中的g(θ)代表了邏輯回歸函數(shù)的輸出,log代表以10為底的對(duì)數(shù),yi代表樣本的真實(shí)分布。

        2.2.4 logistic模型存在的問題

        從數(shù)學(xué)優(yōu)化上來講,模型每次更新權(quán)重時(shí),loss function都可以有一定的降低,在降低到很小的某一個(gè)值后,在其附近波動(dòng)。但是loss function過低的風(fēng)險(xiǎn)是模型會(huì)過擬合。模型過擬合后,雖然模型在訓(xùn)練集上的誤差很小,但是在測試集上的誤差將會(huì)非常大[2],無法得到良好的預(yù)測性能。

        2.2.5 邏輯回歸的正則化

        為了解決上述提到的模型可能陷入過擬合的問題,需要采取一定的措施。在機(jī)器學(xué)習(xí)中,我們可以通過增加訓(xùn)練集樣本的數(shù)目去緩解過擬合,但是通常增加訓(xùn)練集數(shù)目的成本過高,因此可以使用另外一種常見的手段-正則化。正則化一般有L1正則,L2正則。在我們的問題中采用L2正則化,加入正則化項(xiàng)的代價(jià)函數(shù)如2.3式,其中C為正則化參數(shù)。

        2.2.6 結(jié)果分析

        通過在訓(xùn)練的過程中加入的L2正則化項(xiàng),我們的模型基本沒有發(fā)生過擬合,在訓(xùn)練集上達(dá)到了80.32%的準(zhǔn)確率,在測試集上達(dá)到了74.31%的準(zhǔn)確率,如圖2所示。

        圖2

        邏輯回歸的優(yōu)點(diǎn)是在于簡單,訓(xùn)練速度較快。但是其一般更適合用于線性可分的問題當(dāng)中,而對(duì)于一些線性不可分的問題中,采用更復(fù)雜的非線性模型可能會(huì)取得更好的效果。

        3 Ensemble learning

        3.1 Ensemble learing基本原理

        機(jī)器學(xué)習(xí)中的分類模型在訓(xùn)練結(jié)束后,我們希望訓(xùn)練出一個(gè)在各種指標(biāo)下的表現(xiàn)都十分良好的模型,但是真實(shí)的情況往往不是如此,一個(gè)模型在某些評(píng)價(jià)指標(biāo)上表現(xiàn)良好,在另外的評(píng)價(jià)指標(biāo)上的表現(xiàn)可能就很差。通常我們只能得到在某幾個(gè)指標(biāo)下表現(xiàn)良好的多個(gè)單一的分類模型。Ensemble learing的主要思想就是將多個(gè)單一的分類模型的結(jié)果綜合起來考慮,來獲得最后的分類結(jié)果。在這種情況下,模型對(duì)某幾個(gè)模型產(chǎn)生的錯(cuò)誤就會(huì)具有一定的容錯(cuò)性。

        因此,從Ensemble learing的學(xué)習(xí)思想我們可以把集成學(xué)習(xí)分為兩個(gè)主要的步驟,第一步是獲得多個(gè)在某些指標(biāo)上表現(xiàn)良好的單一分類器,第二步是采用某種算法將這些單一分類器的預(yù)測結(jié)果綜合起來考慮,獲得最后的預(yù)測結(jié)果。

        Ensemble learing通常包含兩種方式,同質(zhì)集成學(xué)習(xí)和異質(zhì)集成學(xué)習(xí)。同質(zhì)集成學(xué)習(xí)是指只使用一個(gè)模型,但是在該模型下選取不同的超參數(shù),從而獲得不同的個(gè)體分類器。異質(zhì)集成學(xué)習(xí)是指使用不同的模型,把不同模型的結(jié)果綜合起來,得到最后的預(yù)測結(jié)果,比如就一個(gè)基本分類問題而言,我們可以采用決策樹模型、SVM模型、logistic模型獲得不同的預(yù)測結(jié)果,再將結(jié)果綜合起來,得到最終的預(yù)測模型。

        在現(xiàn)在的人工智能領(lǐng)域,通常使用基于決策樹的同質(zhì)集成學(xué)習(xí)。一般情況下,在無特殊說明時(shí),我們都是指的這種集成方式。在這種學(xué)習(xí)方式中,個(gè)體分類器通常使用決策樹模型。不同的決策樹模型即可以通過bagging的方式來并行得到,也可以通過boosting的方式來串行得到。bagging方式每種分類器之間相互獨(dú)立,boosting方式每種分類器之間相互依賴。

        在我們的娛樂新聞分類問題中,我們采用基于boosting的方式來實(shí)現(xiàn)我們的分類算法。

        3.2 LGB模型

        LightGBM是一個(gè)基于GBDT樹的機(jī)器學(xué)習(xí)框架,Boosting算法通過使用一個(gè)疊加型的函數(shù)模型,選取某種函數(shù)作為優(yōu)化目標(biāo),逐步優(yōu)化,得到最后結(jié)果。

        3.3 結(jié)果分析

        運(yùn)用lightGBM模型模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了78.50%的準(zhǔn)確率,在測試集上達(dá)到了73.34%的準(zhǔn)確率,如圖3所示。

        圖3

        4 應(yīng)用異質(zhì)集成學(xué)習(xí)方法綜合各模型的預(yù)測結(jié)果

        在上述三個(gè)模型的預(yù)測基礎(chǔ)上采用投票的方法進(jìn)行集成,在測試集上達(dá)到了75.19%的準(zhǔn)確率,如圖4所示。

        圖4

        5 結(jié)語

        本項(xiàng)目根據(jù)具體的娛樂新聞分類數(shù)據(jù),在該數(shù)據(jù)上分別采用了樸素貝葉斯算法,邏輯回歸算法,LightGBM算法。在測試集上分別取得了69.89%,74.31%,73.34%的準(zhǔn)確率。證明了在采用了基于boosting的集成后,提高了在測試集上的準(zhǔn)確率,相比單獨(dú)使用一個(gè)分類器而言,表現(xiàn)出了集成算法的優(yōu)點(diǎn)。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        水蜜桃在线视频在线观看| 美女又色又爽视频免费| 久久国产精品无码一区二区三区| 亚洲色婷婷综合开心网| 日本精品一区二区三区试看| 无码色av一二区在线播放| 一本之道高清无码视频| 97色综合| 日本国产一区二区在线| 国产夫妇肉麻对白| 少妇太爽了在线观看| 午夜av内射一区二区三区红桃视| 丰满少妇被爽的高潮喷水呻吟| 五月丁香六月综合缴清无码| 久久亚洲中文字幕无码| 大陆啪啪福利视频| 熟妇人妻精品一区二区视频免费的| 色婷婷亚洲一区二区三区| 日本55丰满熟妇厨房伦| 喷潮出白浆视频在线观看| 日本伊人精品一区二区三区| 日韩精品久久久肉伦网站| 中文毛片无遮挡高潮| 人妖与人妖免费黄色片| 成人艳情一二三区| 欧美日韩精品一区二区在线观看| 亚洲无码图| 青青草成人免费在线观看视频| 亚洲综合在线一区二区三区| 日本午夜精品理论片A级APP发布| 精品国产一区二区三广区| av亚洲在线一区二区| av男人的天堂亚洲综合网| 欧美日韩视频在线第一区| 亚洲中文字幕在线一区二区三区| 国产主播一区二区三区在线观看 | 门卫又粗又大又长好爽| 男女扒开双腿猛进入免费看污| 亚洲国产精品国自产拍av在线| 蜜桃精品人妻一区二区三区| 久久久久久好爽爽久久|