亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)LightGBM和異質(zhì)集成學(xué)習(xí)方法的新聞分類

        2019-03-15 01:29:58李安
        電子制作 2019年4期
        關(guān)鍵詞:集上正則貝葉斯

        李安

        (陜西省西安中學(xué),陜西西安,710000)

        1 概述

        在機(jī)器學(xué)習(xí)領(lǐng)域,對分類模型的研究具有重要的意義。集成學(xué)習(xí)作為一種能夠有效提高分類模型性能的方法也被廣泛使用。集成學(xué)習(xí)分為兩種類型,包括同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在實際應(yīng)用中,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括sklearn等主流的機(jī)器學(xué)習(xí)框架,都實現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。

        娛樂文章按體裁能分成七類:資訊熱點,電影電視劇報道評論,人物深扒,組圖盤點,明星寫真,行業(yè)報道,機(jī)場圖。本文依據(jù)娛樂新聞分類這一具體問題,通過對不同模型的綜合分析,探究異質(zhì)集成學(xué)習(xí)的方法,將文章進(jìn)行多分類。

        1.1 數(shù)據(jù)集特征

        娛樂新聞的數(shù)據(jù)集特征由分詞和去停用詞以及TF-IDF處理后的4700維構(gòu)成。

        1.2 數(shù)據(jù)集預(yù)處理

        1.2.1 去停用詞

        由于并不是每一個詞都能表征這篇文章的內(nèi)容,如果保留,輸入特征會很大,影響訓(xùn)練效果,因此有一些形如“這樣”“1.2.3.4”的詞就應(yīng)該被刪除掉,可以從網(wǎng)絡(luò)上尋找一份中文的停用詞表作為參考。將文章中的詞與停用詞表中的詞作比較,如果在表中出現(xiàn)該詞,就將其刪除,如果沒有出現(xiàn),就跳過。

        1.2.2 分詞

        文本分詞是文檔處理中的一個不可或缺的操作,因為之后的操作需要用文章中的詞語來代表這篇文章的主要內(nèi)容的概括。本文中對文章進(jìn)行分詞主要操作步驟如下:構(gòu)造語料庫詞典和進(jìn)行文章分詞操作。

        目前在nlp領(lǐng)域用來構(gòu)造詞典的主要方法是字典樹。對于分詞,主要采用的有正反雙向最大匹配以及nlp語言模型和最短路徑等相關(guān)的算法。

        對于我們的問題而言,我們使用的是jieba分詞庫。

        1.2.3 tf-IDF

        tf-IDF指標(biāo)是一種基于概率論的統(tǒng)計學(xué)方法,用于評估一篇文章中的某一字詞的對于一個語料庫中的文件集合中的其中一個文件的重要程度,詞語的重要程度和其在一篇文章中出現(xiàn)的次數(shù)是正比關(guān)系,但是和其在文件集合中出現(xiàn)的次數(shù)成反比關(guān)系。通俗地說,就是一個詞在某篇文章中出現(xiàn)的次數(shù)越高,而在這一堆文章中的其他文章中出現(xiàn)越少,它就更能表征這篇文章的內(nèi)容。

        詞頻(TF)指的是一個給定的詞語在某篇文章中出現(xiàn)的次數(shù),為了防止文章過長導(dǎo)致頻率偏向長文章,這個指標(biāo)一般會采用某種方式進(jìn)行歸一化操作(常常用出現(xiàn)的頻數(shù)/文檔總詞數(shù))。

        Tf-IDF指標(biāo)的計算方法是由語料庫中文檔的總數(shù)除上出現(xiàn)該詞語的文檔數(shù),將結(jié)果再取對數(shù),TF·IDF=TF*IDF。

        為了簡化計算,針對數(shù)據(jù)集,做出每4700詞劃分一次的調(diào)整,長度大于4700的進(jìn)行切分,小于4700的進(jìn)行填充。

        1.3 數(shù)據(jù)集劃分

        將9000篇文章中,30%劃分為訓(xùn)練集,70%劃分為測試集。

        2 構(gòu)建傳統(tǒng)機(jī)器學(xué)習(xí)模型

        2.1 構(gòu)建樸素貝葉斯模型

        2.1.1 基本原理

        樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,通過考慮特征概率來預(yù)測分類,是為數(shù)不多的基于概率統(tǒng)計學(xué)的分類算法。

        樸素貝葉斯的核心是貝葉斯定理,而貝葉斯定理的公式本質(zhì)上是條件概率。

        貝葉斯法則如下:

        這里的C表示類別,輸入待判斷數(shù)據(jù),式子給出要求解的某一類的概率。我們的最終目的是比較各類別的概率值大小,而上面式子的分母是不變的,因此只要計算分子即可。

        2.1.2 算法效果

        運(yùn)用樸素貝葉斯模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了71.59%的準(zhǔn)確率,在測試集上達(dá)到了69.89%的準(zhǔn)確率,如圖1所示。

        圖1

        2.2 logistic模型

        2.2.1 logistic原理

        Logistic模型是人工智能中的一種被廣泛使用的分類模型,對于一般的分類問題而言,具有良好的性能。Logistic模型使用S函數(shù)作為我們的預(yù)測函數(shù),去估計概率P(y | x)的大小。如果P大于0.5,我們則認(rèn)為屬于“1”類別,否則屬于“0”類別。在娛樂新聞分類問題中,S函數(shù)的輸出就是屬于每一類娛樂新聞的幾率值,大小取值在0到1之間。Logistic模型在訓(xùn)練階段,通過隨機(jī)梯度下降法SGD去不斷的最小化預(yù)測函數(shù)在訓(xùn)練集娛樂新聞上的誤差,來提高模型的泛化能力。為了避免模型陷入過擬合,在代價函數(shù)上采用相應(yīng)的正則化手段,可以緩解模型的過擬合程度。

        2.2.2 logistic的假設(shè)函數(shù)

        假設(shè)函數(shù)采用sigmoid函數(shù),函數(shù)形式為如2-1式,取值范圍為[0,1]。代表了測試樣本新聞屬于某一類的概率。其中z = θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對應(yīng)每篇文章的特征向量。即z是一篇新聞所有特征的線性組合。

        2.2.3 邏輯回歸的loss function

        Loss function又稱為代價函數(shù)、損失函數(shù),是我們將機(jī)器數(shù)學(xué)問題抽象成數(shù)學(xué)問題后所對應(yīng)的優(yōu)化目標(biāo),主要用來評價模型的好壞,在訓(xùn)練集上的預(yù)測誤差越小,loss function就越小,在訓(xùn)練集上的誤差越大,則loss funciton也就越大。機(jī)器學(xué)習(xí)的訓(xùn)練過程,本質(zhì)上就是通過SGD等優(yōu)化算法來不斷的更新模型權(quán)重,從而不斷的減小模型的預(yù)測誤差。

        機(jī)器學(xué)習(xí)中比較常見的loss funciton有均方誤差和cross entropy誤差。均方誤差一般用于regression問題中,cross entropy一般用在classi fi caton問題中。對于娛樂新聞分類問題而言,其是一個分類問題,因此我們采用了cross entropyloss function。cross entropyloss function的公式如2.2式。公式中的g(θ)代表了邏輯回歸函數(shù)的輸出,log代表以10為底的對數(shù),yi代表樣本的真實分布。

        2.2.4 logistic模型存在的問題

        從數(shù)學(xué)優(yōu)化上來講,模型每次更新權(quán)重時,loss function都可以有一定的降低,在降低到很小的某一個值后,在其附近波動。但是loss function過低的風(fēng)險是模型會過擬合。模型過擬合后,雖然模型在訓(xùn)練集上的誤差很小,但是在測試集上的誤差將會非常大[2],無法得到良好的預(yù)測性能。

        2.2.5 邏輯回歸的正則化

        為了解決上述提到的模型可能陷入過擬合的問題,需要采取一定的措施。在機(jī)器學(xué)習(xí)中,我們可以通過增加訓(xùn)練集樣本的數(shù)目去緩解過擬合,但是通常增加訓(xùn)練集數(shù)目的成本過高,因此可以使用另外一種常見的手段-正則化。正則化一般有L1正則,L2正則。在我們的問題中采用L2正則化,加入正則化項的代價函數(shù)如2.3式,其中C為正則化參數(shù)。

        2.2.6 結(jié)果分析

        通過在訓(xùn)練的過程中加入的L2正則化項,我們的模型基本沒有發(fā)生過擬合,在訓(xùn)練集上達(dá)到了80.32%的準(zhǔn)確率,在測試集上達(dá)到了74.31%的準(zhǔn)確率,如圖2所示。

        圖2

        邏輯回歸的優(yōu)點是在于簡單,訓(xùn)練速度較快。但是其一般更適合用于線性可分的問題當(dāng)中,而對于一些線性不可分的問題中,采用更復(fù)雜的非線性模型可能會取得更好的效果。

        3 Ensemble learning

        3.1 Ensemble learing基本原理

        機(jī)器學(xué)習(xí)中的分類模型在訓(xùn)練結(jié)束后,我們希望訓(xùn)練出一個在各種指標(biāo)下的表現(xiàn)都十分良好的模型,但是真實的情況往往不是如此,一個模型在某些評價指標(biāo)上表現(xiàn)良好,在另外的評價指標(biāo)上的表現(xiàn)可能就很差。通常我們只能得到在某幾個指標(biāo)下表現(xiàn)良好的多個單一的分類模型。Ensemble learing的主要思想就是將多個單一的分類模型的結(jié)果綜合起來考慮,來獲得最后的分類結(jié)果。在這種情況下,模型對某幾個模型產(chǎn)生的錯誤就會具有一定的容錯性。

        因此,從Ensemble learing的學(xué)習(xí)思想我們可以把集成學(xué)習(xí)分為兩個主要的步驟,第一步是獲得多個在某些指標(biāo)上表現(xiàn)良好的單一分類器,第二步是采用某種算法將這些單一分類器的預(yù)測結(jié)果綜合起來考慮,獲得最后的預(yù)測結(jié)果。

        Ensemble learing通常包含兩種方式,同質(zhì)集成學(xué)習(xí)和異質(zhì)集成學(xué)習(xí)。同質(zhì)集成學(xué)習(xí)是指只使用一個模型,但是在該模型下選取不同的超參數(shù),從而獲得不同的個體分類器。異質(zhì)集成學(xué)習(xí)是指使用不同的模型,把不同模型的結(jié)果綜合起來,得到最后的預(yù)測結(jié)果,比如就一個基本分類問題而言,我們可以采用決策樹模型、SVM模型、logistic模型獲得不同的預(yù)測結(jié)果,再將結(jié)果綜合起來,得到最終的預(yù)測模型。

        在現(xiàn)在的人工智能領(lǐng)域,通常使用基于決策樹的同質(zhì)集成學(xué)習(xí)。一般情況下,在無特殊說明時,我們都是指的這種集成方式。在這種學(xué)習(xí)方式中,個體分類器通常使用決策樹模型。不同的決策樹模型即可以通過bagging的方式來并行得到,也可以通過boosting的方式來串行得到。bagging方式每種分類器之間相互獨立,boosting方式每種分類器之間相互依賴。

        在我們的娛樂新聞分類問題中,我們采用基于boosting的方式來實現(xiàn)我們的分類算法。

        3.2 LGB模型

        LightGBM是一個基于GBDT樹的機(jī)器學(xué)習(xí)框架,Boosting算法通過使用一個疊加型的函數(shù)模型,選取某種函數(shù)作為優(yōu)化目標(biāo),逐步優(yōu)化,得到最后結(jié)果。

        3.3 結(jié)果分析

        運(yùn)用lightGBM模型模型進(jìn)行預(yù)測,在訓(xùn)練集上達(dá)到了78.50%的準(zhǔn)確率,在測試集上達(dá)到了73.34%的準(zhǔn)確率,如圖3所示。

        圖3

        4 應(yīng)用異質(zhì)集成學(xué)習(xí)方法綜合各模型的預(yù)測結(jié)果

        在上述三個模型的預(yù)測基礎(chǔ)上采用投票的方法進(jìn)行集成,在測試集上達(dá)到了75.19%的準(zhǔn)確率,如圖4所示。

        圖4

        5 結(jié)語

        本項目根據(jù)具體的娛樂新聞分類數(shù)據(jù),在該數(shù)據(jù)上分別采用了樸素貝葉斯算法,邏輯回歸算法,LightGBM算法。在測試集上分別取得了69.89%,74.31%,73.34%的準(zhǔn)確率。證明了在采用了基于boosting的集成后,提高了在測試集上的準(zhǔn)確率,相比單獨使用一個分類器而言,表現(xiàn)出了集成算法的優(yōu)點。

        猜你喜歡
        集上正則貝葉斯
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類似于VNL環(huán)的環(huán)
        復(fù)扇形指標(biāo)集上的分布混沌
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計的軌道占用識別方法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        有限秩的可解群的正則自同構(gòu)
        IIRCT下負(fù)二項分布參數(shù)多變點的貝葉斯估計
        亚洲免费在线视频播放| 国产欧美一区二区成人影院| 亚洲无码视频一区:| 午夜一区二区三区福利视频| 亚洲欧洲日产国码av系列天堂| 强行无套内谢大学生初次| 四虎成人在线| 久草视频在线视频手机在线观看| 国产av剧情一区二区三区| 久久不见久久见中文字幕免费| 国产手机在线αⅴ片无码| 在线视频一区二区在线观看 | 国产精品久久这里只有精品| av成人综合在线资源站| 欲香欲色天天综合和网| 日本午夜免费福利视频| 丰满人妻AV无码一区二区三区| 久久精品亚洲精品国产区| 亚洲色大成网站www永久网站| 少妇太爽了在线观看免费视频| 国产自产21区激情综合一区| 久久国产精品亚洲va麻豆| 国产深夜男女无套内射| 日韩av在线毛片| 视频在线亚洲视频在线| 中文字幕日韩人妻在线视频| 国产精品污www一区二区三区| 日本精品久久久久中文字幕1| 播放灌醉水嫩大学生国内精品| 国产国拍亚洲精品永久69| av免费在线国语对白| 亚洲av日韩av天堂久久| 91日本精品国产免| 亚洲精品国产精品系列| 无码人妻久久久一区二区三区| 日韩a无v码在线播放| 亚洲无码图| 黄色国产一区二区99| 中文字幕乱码熟女人妻水蜜桃| 国产美女一级做a爱视频| 国产一区二区三区四区在线视频|