亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合集成學(xué)習(xí)的序貫三支情感分類方法研究

        2021-12-12 02:51:48琴,劉
        關(guān)鍵詞:分類器粒度決策

        王 琴,劉 盾

        西南交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,成都 610031

        近年來隨著在線評論的爆炸性增長,情感分析[1-2]受到了學(xué)術(shù)界和業(yè)界越來越多的關(guān)注。文本情感分析(也稱為觀點(diǎn)挖掘)可以從文本中發(fā)掘人們的觀點(diǎn)和情感[1]。情感分類是情感分析領(lǐng)域的一項(xiàng)重要任務(wù),具有許多應(yīng)用價(jià)值。Pang和Lee對Twitter和Facebook等社交媒體平臺上文本內(nèi)容進(jìn)行觀點(diǎn)挖掘和情感分析,并進(jìn)一步對消費(fèi)者行為進(jìn)行了預(yù)測和評估[2]。Hu和Liu對電子商務(wù)中的評論進(jìn)行文本分類,以幫助消費(fèi)者做出更明智的購物決策[3]。另外,對用戶生成內(nèi)容(UGC)的情緒進(jìn)行分類也被廣泛應(yīng)用到個(gè)性化推薦之中[4]。由此可見,情感分類已成為自然語言處理和文本挖掘的重要研究方向之一。

        情感分類研究作為情感分析的重要組成部分,其研究方法主要可以分為兩類:基于詞典的方法和基于語料庫的方法?;谠~典的方法通常使用情感詞字典,并結(jié)合副詞和否定詞強(qiáng)化或否定來計(jì)算每個(gè)文本的情感。現(xiàn)有的基于語料庫的方法主要有兩類:機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法[5]。機(jī)器學(xué)習(xí)方法是通過對文本進(jìn)行向量化表示,然后結(jié)合分類算法來完成情感分類。深度學(xué)習(xí)方法專注于使用神經(jīng)語言模型和自然語言處理技術(shù),對學(xué)習(xí)到的詞向量進(jìn)行合成來指導(dǎo)分類[6]?,F(xiàn)有大多情感分析研究主要致力于提高模型分類精度,較少考慮錯(cuò)誤分類所產(chǎn)生的誤分類成本。此外在實(shí)際應(yīng)用中,將不同類別錯(cuò)誤分類所產(chǎn)生的誤分類成本可能是不一樣的。

        三支決策[7]是在二支決策的基礎(chǔ)上發(fā)展而來的一種理論,因其符合人類的決策思維而受到廣泛關(guān)注。其主要思想是“三分而治”,將只有接受、拒絕的二支決策變成接受、延遲決策、拒絕三種決策,對掌握信息不充分的對象延遲決策,等待更多信息到來后再做決策。周喆等將三支決策的決策規(guī)則應(yīng)用于情感詞典分類中[8];王磊等提出了一種將主題特征與三支決策理論相融合的多標(biāo)記情感分類方法[9];Zhang等在多個(gè)文本粒度中研究了上下文有關(guān)主題依賴和情緒分類的相關(guān)問題[10]。序貫三支決策是一種典型的動態(tài)三支決策方法,通過構(gòu)建多層次的粒結(jié)構(gòu)得到一系列的序列決策結(jié)果,從而更好地平衡決策結(jié)果代價(jià)與決策過程代價(jià)[11]。張剛強(qiáng)等[12]利用N-gram語言模型構(gòu)建多粒度的序貫三支情感分類模型,并獲得了較好的效果。

        為了提升序貫三支情感分類模型的整體效果并且降低分類成本,本文在已有序貫三支分類模型上引入集成三支思想,構(gòu)建結(jié)合集成學(xué)習(xí)的序貫三支情感分類模型。集成三支則是將多個(gè)分類器的三支劃分結(jié)果進(jìn)行最大投票,最終確定分類對象的域,即將每一個(gè)分類算法當(dāng)作一個(gè)決策者,分別獨(dú)立作出將實(shí)例對象劃為正域、邊界域和負(fù)域的決策,再進(jìn)行最大投票法對決策行為進(jìn)行集成以得到最終決策結(jié)果。

        基于上述分析,本文在序貫三支的基礎(chǔ)上融合集成學(xué)習(xí)和三支決策,主要研究結(jié)合集成學(xué)習(xí)的序貫三支情感分類模型。首先,通過N-gram語言模型構(gòu)建文本多粒度結(jié)構(gòu);其次,針對每一粒度,集成三個(gè)分類算法以提高在該粒度下的分類效果;最后,利用不同數(shù)據(jù)集來驗(yàn)證模型的有效性。實(shí)驗(yàn)結(jié)果表明:結(jié)合集成學(xué)習(xí)的多粒度序貫三支情感分類模型不僅能夠提高分類性能,而且可以降低分類成本。

        1 相關(guān)理論

        1.1 集成學(xué)習(xí)

        集成學(xué)習(xí)技術(shù)主要通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),用以提高分類準(zhǔn)確性[13]。由于集成方法的泛化能力通常比單個(gè)學(xué)習(xí)者更強(qiáng)大,這使得集成方法被廣泛應(yīng)用。但在實(shí)際問題中,良好的集成學(xué)習(xí)器需滿足兩個(gè)條件:準(zhǔn)確性和多樣性[14]。按照個(gè)體分類器之間的種類關(guān)系可以把集成學(xué)習(xí)方法分為異態(tài)集成學(xué)習(xí)和同態(tài)集成學(xué)習(xí)[15]。異態(tài)集成學(xué)習(xí)指的是使用各種不同的分類器進(jìn)行集成,異態(tài)集成學(xué)習(xí)的兩個(gè)主要代表是疊加(Stack Generalization)和元學(xué)習(xí)(Meta Learning)。同態(tài)集成學(xué)習(xí)是指集成的基本分類器都是同一種分類器,只是它們之間的參數(shù)設(shè)置有所不同。此外,從基分類器獲得方式來看,主要有Boosting和Bagging兩種方法;從異質(zhì)分類器整合的方式來看,主要有投票表決法和Stacking方法[13]。

        1.2 序貫三支決策

        三支決策是由粗糙集延伸而來的處理不確定性方法[16]。在傳統(tǒng)的二支決策模型中,只有接受或拒絕、是或非兩種選項(xiàng)。然而,在很多實(shí)際問題中,當(dāng)信息不充分或證據(jù)不足時(shí),強(qiáng)制作出接受或拒絕選擇,可能會付出不必要的代價(jià)或造成嚴(yán)重后果。相對于二支決策,三支決策引入延遲決策策略,對論域中部分對象暫時(shí)不作決策,以等待更多、更有力的信息或證據(jù)去判斷??梢钥吹?,三支決策引入了不承諾選項(xiàng),能夠規(guī)避和降低錯(cuò)誤接受或錯(cuò)誤拒絕造成的損失。

        序貫三支決策是粒度由粗到細(xì)的一種動態(tài)三支決策過程[17]。從粗粒度層到細(xì)粒度層,在每一粒層,當(dāng)現(xiàn)有信息充分時(shí),可以直接作出接受或拒絕的判斷;而對當(dāng)前信息不能支持其作出決策時(shí),可以將對象劃分到邊界域中,并在更細(xì)粒層下獲取更充分的信息后對其進(jìn)行劃分,依此類推,直到邊界域中的對象被逐漸地劃分到正域或負(fù)域中。

        1.3 粒計(jì)算

        粒計(jì)算是當(dāng)前人工智能研究領(lǐng)域中模擬人類決策思維和解決復(fù)雜問題的方法論[18]。通常,粒度結(jié)構(gòu)是由多個(gè)級別組成的層次結(jié)構(gòu),每一個(gè)粒層由一組具有相似信息粒度的粒子組成。顯然,多層粒度結(jié)構(gòu)自然會導(dǎo)致多層劃分和多步?jīng)Q策過程?;谌Q策和粒度計(jì)算的結(jié)合,序貫三支決策逐漸用于解決實(shí)際問題,例如增量學(xué)習(xí)[19]、特征選取[20]和人臉識別[21]。序貫三支決策方法正是應(yīng)用了粒計(jì)算中逐步計(jì)算的思想,實(shí)現(xiàn)了由粗粒層到細(xì)粒層之間的序貫決策。粒計(jì)算中結(jié)構(gòu)化問題求解的思想是一種典型的信息處理方法,對于復(fù)雜問題的求解是非常有效的。

        2 結(jié)合集成方法的序貫三支情感分類模型

        2.1 三支情感分類

        表1給出了三支決策下的情感分類準(zhǔn)則。Pr(P|x)表示待分類文本x屬于正類的條件概率。通過Pr(P|x)與閾值α和β比較,可以將待分類文本劃分到相應(yīng)的決策區(qū)域。P、B、N表示三種不同決策區(qū)域?qū)?yīng)的決策規(guī)則。顯然,待分類文本的分類結(jié)果取決于概率Pr(P|x)和閾值α和β的大小。

        表1 三支情感分類準(zhǔn)則Table 1 Criteria of three-way sentiment classification

        此外,為了衡量分類代價(jià),需要將待分類文本的真實(shí)類別與預(yù)測類別進(jìn)行比較。三支情感分類代價(jià)矩陣如表2所示。其中,λPP、λBP和λNP分別表示待分類文本x真實(shí)情感類別屬于正類時(shí)采取決策規(guī)則P、B和N產(chǎn)生的成本;λPN、λBN和λNN分別表示待分類x真實(shí)情感類別屬于負(fù)類采取決策規(guī)則P、B、N產(chǎn)生的成本。其中,λPP、λNN表示正確分類成本。λNP、λPN表示誤分類成本,λBP、λBN表示延遲決策成本。

        表2 三支情感分類代價(jià)矩陣Table 2 Cost matrix of three-way sentiment classification

        此外,在分類過程中,誤分類成本往往比延遲決策產(chǎn)生的成本高,延遲決策成本也比正確分類的成本高,因此有:λPP<λBP≤λNP,λNN<λBN≤λPN。根據(jù)表2的情感分類代價(jià)矩陣和決策規(guī)則,分類總成本可以根據(jù)式(1)計(jì)算:

        其中,cost(P|x)、cost(B|x)和cost(N|x)分別代表待分類文本x劃分到正類、延遲決策類和負(fù)類時(shí)產(chǎn)生的代價(jià)。根據(jù)貝葉斯決策準(zhǔn)則,選擇期望損失最小的行動集作為最佳行動方案,可以得到如下三條決策規(guī)則:

        (P):如果Pr(P|x)≥α,則將x劃分到正類;

        (B):如果β<Pr(P|x)<α,則將x劃分到延遲決策類;

        (N):如果Pr(P|x)≤β,則將x劃分到負(fù)類。

        2.2 序貫三支情感分類

        序貫三支決策是一種動態(tài)的三支決策方法?;诹S?jì)算理論的多層次結(jié)構(gòu),本文采用自上而下的策略,從最粗的粒度到最細(xì)的粒度進(jìn)行三支決策。粗粒度表示較少的信息,細(xì)粒度表示更詳細(xì)的信息,序貫三支的思想就是在每一粒度中,將落入邊界域的對象放入下一個(gè)粒度進(jìn)行再決策,直到邊界域中的對象被逐漸地劃分到正域或負(fù)域中。然而,隨著粒度的細(xì)化,獲取信息和作出決策的成本也會隨之增加,因此可以在合適的粒度獲得最終的情感分類結(jié)果。

        在序貫三支情感分類問題中,首先定義多粒度結(jié)構(gòu):G={g1,g2,…,gi,…,gh}(1≤i≤h),其中g(shù)i表示第i個(gè)粒層。在每一粒層中,根據(jù)條件概率Pr(P|x)與閾值對(αi,βi)的大小關(guān)系可以將待分類文本劃分到正類、負(fù)類和延遲決策類,其數(shù)學(xué)表達(dá)式為:

        這里,γh通常設(shè)為0.5。由式(3)可知,在每一粒層gi的分類結(jié)果受Pr(P|x)和閾值對(αi,βi)的影響。根據(jù)式(2)可以計(jì)算每一粒層的閾值αi和βi:

        2.3 多粒度文本表示

        本文參照文獻(xiàn)[12]的模型,將N-gram語言模型的一元模型和二元模型作為文本的多粒度表示方法。N-Gram是一種基于統(tǒng)計(jì)語言模型。該模型假設(shè)第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其他詞都不相關(guān),其計(jì)算表達(dá)式為:

        在式(6)中,出現(xiàn)整句概率P(wi|w1,w2,…,wi-1)為各個(gè)詞出現(xiàn)概率的乘積,這些概率可以通過直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常見的有一元(unigram)、二元(bigram)、三元(trigram)模型。

        與英文分詞方法不同的是,在中文文本分類、情感分類等應(yīng)用中,通常把語料進(jìn)行分詞之后的詞語作為文本特征。本文將文本內(nèi)容按照詞進(jìn)行大小為N的滑動窗口操作,形成長度為N的詞或詞組。將一元、二元和一元加二元作為多粒度的文本表示。假設(shè)一條文本內(nèi)容為“其他都很一般,叫出租不是太方便”,類別為負(fù),分詞之后得到“很不錯(cuò)出租不方便”。該文本的unigram表示為“很不錯(cuò)出租不方便”,其中“方便”隱含了積極語義,而“不”可能隱含消極語義,因此整體來說語義表達(dá)不夠清晰;bigram表示為“很一般一般出租出租不不方便”,其中“不方便”就準(zhǔn)確表達(dá)了消極語義。trigram表示為“很一般出租一般出租不出租不方便”,短語“很一般出租一般出租不”在語料中其他文本中出現(xiàn)的概率幾乎為0,而“出租不方便”雖然有很強(qiáng)的語義信息,但出現(xiàn)的概率很小,會造成文本特征非常稀疏。因此,本文不考慮將三元詞作為特征,將一元詞作為第1粒度的候選特征;二元詞作為第2粒度的候選特征,一元詞加二元詞作為第3粒度的候選特征。文本多粒度情感信息表示示例如表3。

        表3 文本多粒度情感信息表示示例Table 3 Example of text multi-granularity sentimental information representation

        2.4 結(jié)合集成方法的序貫三支情感分類模型

        為了進(jìn)一步提高分類效果和減少分類成本,本文在序貫三支情感分類基礎(chǔ)上融入集成學(xué)習(xí)的方法,將多個(gè)分類器當(dāng)作獨(dú)立的決策者,將它們的三支決策結(jié)果進(jìn)行投票集成,構(gòu)建結(jié)合集成學(xué)習(xí)方法的序貫三支情感分類模型(Ensemble Learning for Sequential Three-Way Sentiment Classification,ESTWSC)。圖1為模型的研究框架,其基本思路為:在每一粒度進(jìn)行三支決策時(shí),引入多個(gè)分類器先分開獨(dú)立進(jìn)行三支決策,將文本對象預(yù)劃分為正類、負(fù)類和延遲決策類,對多個(gè)分類器的決策結(jié)果進(jìn)行少數(shù)服從多數(shù)投票規(guī)則以確定最終的類別。

        3 實(shí)驗(yàn)結(jié)果與分析

        在本章中,本文以文獻(xiàn)[12]中基于N-gram語言模的多粒度序貫三支情感分類模型(NSTWSC)為基準(zhǔn)對比算法。NSTWSC采用多個(gè)LR作為分類器,本文所提出的ESTWSC方法采用SVM、LR和NB作為集成分類器。為了驗(yàn)證本文所提方法的有效性,在4個(gè)數(shù)據(jù)集上進(jìn)行分類質(zhì)量和分類成本比較。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文所使用的實(shí)驗(yàn)數(shù)據(jù)均來自網(wǎng)上公開的用于情感二分類的評論數(shù)據(jù)集,包含計(jì)算機(jī)、酒店、外賣和書籍多個(gè)領(lǐng)域的評論(數(shù)據(jù)來源https://github.com/SophonPlus/ChineseNlpCorpus)。首先對數(shù)據(jù)進(jìn)行刪非中文表達(dá)和分詞等預(yù)處理,經(jīng)過數(shù)據(jù)清洗和預(yù)處理得到表4所示的實(shí)驗(yàn)數(shù)據(jù)集。評論情感類別標(biāo)簽為1和0,分別表示正類評論和和負(fù)類評論。

        3.2 實(shí)驗(yàn)設(shè)置

        圖1 結(jié)合集成學(xué)習(xí)方法的序貫三支情感分類模型Fig.1 Sequential three-way sentiment classification model combined with ensemble learning

        根據(jù)第2.2節(jié)的閾值設(shè)置方法,并考慮信息獲取成本隨粒度細(xì)化而隨之增加。為簡便起見,這里設(shè)置第i粒層比第i-1粒層的成本依次增加2個(gè)單位??紤]到真實(shí)評論情感分類過程中,消費(fèi)者對負(fù)評論的感知更加敏感,假設(shè):將正類評論劃分為負(fù)類評論的成本小于將負(fù)類評論劃分為正類評論的成本,且兩類誤分類成本均大于延遲分類成本。通常,與錯(cuò)誤或延遲分類相比,正確決策成本可以被忽略,即λPP=λNN=0?;谏鲜龇治觯?給出了不同粒度下的代價(jià)損失矩陣。

        表4 數(shù)據(jù)集基本信息Table 4 Basic information of datasets

        表5 不同粒度下的代價(jià)損失矩陣Table 5 Cost matrix with different granularity

        3.3 評價(jià)指標(biāo)

        為了驗(yàn)證本文所提算法有效性,下面分別從分類質(zhì)量和分類成本兩個(gè)方面進(jìn)行實(shí)驗(yàn)分析。

        3.3.1 分類質(zhì)量指標(biāo)

        對于情感正負(fù)二分類問題,根據(jù)預(yù)測情感類別和真實(shí)情感類別構(gòu)建相應(yīng)混淆矩陣。其中,TP、FP、TN、FN分別表示真正例、假正例、真反例和假反例對應(yīng)的樣本數(shù)。利用查準(zhǔn)率Precision,召回率Recall、F1值以及準(zhǔn)確率Acc作為分類質(zhì)量的評價(jià)指標(biāo),其定義如下:

        3.3.2 總分類成本

        為了更好地評價(jià)本文所提方法的優(yōu)劣性,本文還從總分類成本和平均分析成本兩方面進(jìn)行比較分析??偡诸惓杀緸殄e(cuò)誤分類所產(chǎn)生的誤分類成本和延遲決策的成本,它是每一決策階段的分類成本總和:

        其中,i表示第i粒層,TP(αi,βi)、TB(αi,βi)、TN(αi,βi)分別表示在第i粒層閾值對為(αi,βi)時(shí),將文本對象劃入正類、延遲決策類和負(fù)類的成本。給定第i粒層的代價(jià)損失矩陣,TCi的計(jì)算公式如下:

        3.4 實(shí)驗(yàn)結(jié)果及分析

        為了進(jìn)一步驗(yàn)證文中所提出算法的有效性,本文以N-gram作為基準(zhǔn)算法,首先在第1粒度下驗(yàn)證結(jié)合集成方法后分類性能的提升效果;然后分別在4個(gè)數(shù)據(jù)集上對比整個(gè)模型的查準(zhǔn)率、召回率、F1值以及準(zhǔn)確率。

        3.4.1 驗(yàn)證結(jié)合集成學(xué)習(xí)方法的效果

        本文首先以酒店數(shù)據(jù)集為例,在第1粒層上驗(yàn)證結(jié)合集成方法的分類性能。表6和圖2為第1粒度下結(jié)合集成方法的對比結(jié)果,其中SVM、LR和NB是三個(gè)獨(dú)立的分類器,ETW為三者的集成分類器。

        表6 在第1粒度下結(jié)合集成方法的對比結(jié)果Table 6 Comparison results of ensemble learning in first granularity

        圖2 在第1粒度下結(jié)合集成方法的準(zhǔn)確率對比Fig.2 Accuracy comparison results of ensemble learning in first granularity

        從表6中可以得出:正類精度在SVM算法上最高,但其算法的未分類文本數(shù)也是最多的;負(fù)類精度在LR算法上最高,但其未分類文本較多。NB算法在三個(gè)分類指標(biāo)上都比較差,然而其未分類文本數(shù)卻最低。經(jīng)過ETW方法在正類精度和負(fù)類精度均為次高;正類召回率最高且負(fù)類召回率為次高。此外,ETW方法在F1值表現(xiàn)最好,且未分類文本數(shù)較少。結(jié)合圖2的準(zhǔn)確率對比結(jié)果發(fā)現(xiàn),集成三支方法的準(zhǔn)確率最高?;谏鲜龇治觯?jīng)過集成學(xué)習(xí)綜合了三個(gè)獨(dú)立分類器的優(yōu)勢,這能夠更好地平衡分類性能和未分類個(gè)數(shù)。

        表7 不同數(shù)據(jù)集上的分類效果比較Table 7 Comparisons of classification results on different datasets

        3.4.2 分類質(zhì)量對比分析

        下面,分別從分類的查準(zhǔn)率、召回率以及F1值三個(gè)指標(biāo)對分類質(zhì)量進(jìn)行實(shí)驗(yàn)分析。具體實(shí)驗(yàn)結(jié)果如表7所示。其中,LR-GS、SVM-GS、NB-GS分別為LR、SVM和NB在粒度GS下的靜態(tài)二支分類算法,將其作為基準(zhǔn)算法,并利用兩種序貫三支模型NSTWSC和ESTWSC與它們作實(shí)驗(yàn)比較分析。

        通過表7可以看到,相對于三個(gè)二支分類算法,兩個(gè)三支分類算法在查準(zhǔn)率、召回率和F1值上均有較好表現(xiàn)。對于二支分類算法,NB-GS在酒店數(shù)據(jù)、計(jì)算機(jī)和書籍?dāng)?shù)據(jù)集上表現(xiàn)最優(yōu);而在外賣數(shù)據(jù)上,三種二支模型表現(xiàn)相當(dāng)。對于三支分類算法,ESTWSC在計(jì)算機(jī)和書籍?dāng)?shù)據(jù)上3個(gè)指標(biāo)較NSTWSC均有明顯的提升。在酒店和外賣數(shù)據(jù)集上,ESTWSC在大多數(shù)指標(biāo)上表現(xiàn)比NSTWSC優(yōu)異。另外,考慮到高的分類質(zhì)量可能是由于對待分類文本拒絕分類而造成的。表8進(jìn)一步考查了兩個(gè)三支分類算法在未分類文本比率情況,相對于NSTWSC,ESTWSC在計(jì)算機(jī)、酒店、外賣和書籍4個(gè)數(shù)據(jù)集的未分類文本比率分別降低了4.39、1.75、2.16和0.78個(gè)百分點(diǎn)。綜合分析表7和表8的實(shí)驗(yàn)結(jié)果,可以得到:ESTWSC優(yōu)于NSTWSC和三種二支分類算法,ESTWSC比NSTWSC對更多的樣本進(jìn)行正確分類,且分類性能優(yōu)于NSTWSC。

        表8 未分類文本數(shù)比例Table 8 Ratio of unclassified text

        3.4.3 總分類成本、平均分類成本比較

        最后,通過式(11)和(13)計(jì)算NSTWSC算法與ESTWSC算法在各個(gè)數(shù)據(jù)集上的總分類成本和平均分類成本。一般而言,在追求分類高準(zhǔn)確率時(shí),可能會對很多待分類文本進(jìn)行拒絕分類。為了驗(yàn)證NSTWSC與ESTWSC在分類成本的表現(xiàn)情況,表9討論了兩種算法在每一粒度上的總分類成本和平均分類成本。在表9中,ESTWSC在4個(gè)數(shù)據(jù)集上每一粒度的分類成本都小于NSTWSC的分類成本,且最終總分類成本和平均分類成本均小于后者。究其原因是因?yàn)镋STWSC比NSTWSC能夠正確識別更多的待分類文本,這自然會降低分類成本。

        表9 總分類成本和平均分類成本比較Table 9 Comparisons of total classification cost and average classification cost

        圖3 NSTWSC與ESTWSC整體分類性能比較Fig.3 Overall classification performance comparisons on ESTWSC and NSTWSC

        進(jìn)一步地,為了綜合比較上述兩個(gè)模型的分類質(zhì)量和分類成本,本文采用準(zhǔn)確率和F1值衡量分類質(zhì)量,利用總分類成本和平均分類成本來衡量分類成本,實(shí)驗(yàn)結(jié)果如圖3所示。

        一方面,圖3(a)展示了兩個(gè)三支分類算法在總分類成本和平均分類成本的對比情況。從圖3(a)中可以看到:ESTWSC的總分類成本和平均分類成本比NSTWSC下降了26.3%、12.2%、12%和9.8%,這說明ESTWSC在降低成本方面更有優(yōu)勢。另一方面,從圖3(b)分類質(zhì)量來看,ESTWSC在分類準(zhǔn)確率和F1值相較NSTWSC均有所提升,其中在計(jì)算機(jī)數(shù)據(jù)集的準(zhǔn)確率上升了1.49個(gè)百分點(diǎn),外賣數(shù)據(jù)集的F1值上升了1.13個(gè)百分點(diǎn),且未分類文本比率有所下降。

        基于上述分析,本文將集成學(xué)習(xí)方法與序貫三支決策相結(jié)合的方法是合理可行的,它不僅可以提高分類質(zhì)量,降低未分類樣本數(shù)量;還能夠降低分類成本,提高整體分類性能。

        4 結(jié)論與展望

        本文利用集成學(xué)習(xí)的優(yōu)勢,將三支思想與集成學(xué)習(xí)思想融合,提出了一種結(jié)合集成學(xué)習(xí)的序貫三支情感分類方法,探討了N-gram語言模型構(gòu)建文本多粒度結(jié)構(gòu)過程,通過在每一粒層下采用集成方法,來提高模型的整體分類效果,并分別從分類質(zhì)量和分類成本兩個(gè)方面來評估算法有效性。實(shí)驗(yàn)結(jié)果表明:本文所提方法不僅能夠提高分類性能,而且可以降低分類成本,這說明將集成方法與三支有效結(jié)合能夠提高整體模型的分類性能。然而,本文在集成學(xué)習(xí)中僅采用了簡單投票法,其數(shù)學(xué)機(jī)理和集成策略還有待深入思考。此外,本文所提出的集成學(xué)習(xí)方法不僅可以運(yùn)用在情感序貫三支決策上,還可以運(yùn)用到其他實(shí)際決策和文本分析問題中。

        猜你喜歡
        分類器粒度決策
        為可持續(xù)決策提供依據(jù)
        粉末粒度對純Re坯顯微組織與力學(xué)性能的影響
        基于矩陣的多粒度粗糙集粒度約簡方法
        決策為什么失誤了
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于粒度矩陣的程度多粒度粗糙集粒度約簡
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        多粒度空間中的粗糙隸屬度與知識粒度
        青青青伊人色综合久久| 人妻体内射精一区二区三四| 黑人巨茎大战欧美白妇| 成人动漫久久| 免费人成黄页网站在线观看国产 | 最好看的亚洲中文字幕| 亚洲欧美乱综合图片区小说区| 久久精品日韩av无码| 亚洲av福利天堂在线观看| 中文字幕亚洲一二三区| 中文字幕日韩三级片| 亚洲欧美综合在线天堂| 综合图区亚洲另类偷窥| 日韩美女av一区二区三区四区| 专干老熟女视频在线观看| 四虎影视一区二区精品| av熟女一区二区久久| 日韩人妻中文字幕专区| 久久精品人妻无码一区二区三区| 四虎永久在线精品免费观看地址| 亚洲av色香蕉第一区二区三区| 文字幕精品一区二区三区老狼| 无码一区二区三区亚洲人妻| 精品国产亚洲一区二区在线3d| 国内偷拍视频一区二区| 亚洲国产精品无码成人片久久| 四川老熟妇乱子xx性bbw| 亚洲av日韩av一卡二卡| 日本av一级视频在线观看| 国产亚av手机在线观看| 人人妻人人澡人人爽人人精品电影| 亚洲av熟女天堂系列| 草逼短视频免费看m3u8| 无码中文字幕日韩专区视频| 日韩啪啪精品一区二区亚洲av| 女优av性天堂网男人天堂| 久久婷婷五月综合97色一本一本| 亚洲第一网站免费视频| 区三区久久精品水蜜桃av| 强开小婷嫩苞又嫩又紧视频韩国| 国产剧情麻豆女教师在线观看|