亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Borderline-Smote算法改進(jìn)的FastText中文情感極性分析

        2021-11-15 11:49:02潘正軍趙蓮芬袁麗娜王紅勤
        關(guān)鍵詞:分類文本情感

        潘正軍 趙蓮芬 袁麗娜 王紅勤

        (廣州大學(xué)華軟軟件學(xué)院 廣東 廣州 510990)

        0 引 言

        目前情感極性分析的常用方法有基于情感詞典和基于機(jī)器學(xué)習(xí)[1-2]?;谇楦性~典是通過將給定的文本(無論是單詞、短語還是句子)拆分成較小的標(biāo)記進(jìn)行標(biāo)記化過程,然后計(jì)算單詞出現(xiàn)的次數(shù),最終訓(xùn)練成BOW模型,再利用現(xiàn)有的詞典查看單詞主觀性,根據(jù)這些計(jì)算文本的整體主觀性作為情感極性的判斷參考依據(jù)。但是該方法尚有許多不足[3],如:不具備情感的停用詞會(huì)造成文本情感得分的影響、存在一詞多分?;跈C(jī)器學(xué)習(xí)的文本情感極性分析是一種更先進(jìn)的處理技術(shù),對(duì)數(shù)據(jù)集進(jìn)行特征提取和特征選擇后進(jìn)行分類模型訓(xùn)練,利用被標(biāo)記正負(fù)標(biāo)簽的語料庫,訓(xùn)練成一個(gè)分類器,當(dāng)輸入新的沒有標(biāo)記的語料,就能自動(dòng)分類成正面或者負(fù)面。比如,彭丹蕾[4]使用TextCNN做商品評(píng)論情感分析,馬夢(mèng)曦等[5]使用SVM來做彈幕文本情感極性分析,但是二者的執(zhí)行效率上都不如FastText高效。FastText可以看作Word2Vec中CBOW的優(yōu)化版,引入N-gram和考慮詞序特征,并引入subword來處理長詞,處理未登錄詞問題,比CBOW具有更快的效率。

        針對(duì)上述問題,本文提出一種基于Borderline-Smote算法改進(jìn)的FastText中文情感極性分析模型,在輸入層通過用中文分詞進(jìn)行關(guān)鍵詞提取和去掉停用詞,對(duì)帶零向量的無意義數(shù)據(jù)進(jìn)行隔離后,用Borderline-Smote算法對(duì)數(shù)據(jù)進(jìn)行樣本過采樣,最后通過FastText模型進(jìn)行交叉驗(yàn)證,得出文本的中文情感極性分析結(jié)果,驗(yàn)證其對(duì)中文文本情感極性方面的分析效果。

        1 相關(guān)工作

        現(xiàn)有的基于情感詞典的分類方式構(gòu)造分類器的局限性大且代價(jià)高;基于機(jī)器學(xué)習(xí)的分類模型表現(xiàn)雖好,但在準(zhǔn)確率上仍有待提高;基于深度學(xué)習(xí)方法需要在訓(xùn)練模型上消耗巨大計(jì)算資源與時(shí)間。盡管FastText在分類應(yīng)用中的表現(xiàn)比較好,但仍有許多可改進(jìn)的地方。馮勇等[6]針對(duì)FastText在短文本中的應(yīng)用,提出了融合TF-IDF和LDA的中文FastText短文本分類方法,在中文短文本分類方面具有更高的精確率。屈渤浩[7]提出基于TF-IDF算法和帶有可變時(shí)間窗口的LDA主題模型對(duì)FastText進(jìn)行改進(jìn),使其適用于中文短文本分類,提高了分類性能。陰愛英等[8]通過去除FastText模型中單詞前后綴標(biāo)記符,減少無用分解對(duì)模型預(yù)測(cè)產(chǎn)生干擾,提高了FastText在單詞關(guān)系評(píng)分、語義相似性、句法相似性等的準(zhǔn)確率。李澤龍[9]通過引入基于樸素貝葉斯的糾錯(cuò)器和關(guān)鍵語句塊加權(quán)模,建立了FastText長文本分類模型,保持高速訓(xùn)練和預(yù)測(cè)的同時(shí)還有著較好的分類效果。郭捷[10]提出FastText算法與分類器結(jié)合的方式進(jìn)行情感分類,建立情感分析系統(tǒng),在分類上有較好的表現(xiàn)。上述針對(duì)FastText的一些改進(jìn)點(diǎn)都做了相關(guān)工作并得到驗(yàn)證,目前來看還沒有相關(guān)人員在不平衡數(shù)據(jù)對(duì)FastText的產(chǎn)生影響這一塊進(jìn)行相關(guān)的研究,本文針對(duì)這一問題主要研究不平衡語料下FastText分類效果。

        不平衡數(shù)據(jù)集凸顯特征是其分布不平衡性,即多數(shù)類樣本的數(shù)量遠(yuǎn)多于少數(shù)類樣本,以致各類樣本比例出現(xiàn)極不平衡,即數(shù)據(jù)傾斜[11-12],會(huì)引起FastText在情感極性分析中的誤判。在大量數(shù)據(jù)下如果負(fù)樣本數(shù)在數(shù)量上是正樣本數(shù)的5倍以上,訓(xùn)練后的模型對(duì)負(fù)樣本的判斷比較準(zhǔn)確,對(duì)正樣本判別能力微弱。傳統(tǒng)的總體分類算法過分關(guān)注多類處理,卻忽略少數(shù)類樣本的分類的性能精準(zhǔn)度。面對(duì)不平衡的數(shù)據(jù)集,有兩種處理的策略,分別為過采樣和欠采樣。依據(jù)具體的業(yè)務(wù)場(chǎng)景與用例,在不影響原始數(shù)據(jù)的前提下,過采樣方式既能保證前提的存在,又能處理不平衡的情況。經(jīng)典的過采樣技術(shù)有簡(jiǎn)單的隨機(jī)采樣技術(shù)和解決簡(jiǎn)單復(fù)制少數(shù)樣本過擬合的基于線性直插方式的Smote[13]算法,通過在少數(shù)類樣本及其近鄰間線性插值合成新樣本。但實(shí)踐表明Smote在少數(shù)樣本合成新樣本時(shí),還是有樣本重疊的存在,主要是在過采樣過程中沒有考慮鄰近樣本的分布特點(diǎn)、使類間發(fā)生重疊的可能性增大,以至于過度泛化問題的出現(xiàn)。Borderline-Smote是Smote的改進(jìn)算法,只對(duì)少數(shù)類的邊界樣本進(jìn)行過采,通過進(jìn)一步對(duì)邊界樣本加以區(qū)分,對(duì)不同的邊界樣本生成不同數(shù)目的合成樣本,讓合成的樣本更具合理性,進(jìn)而改善訓(xùn)練模型的準(zhǔn)確率[14-15]。

        此外,中文文本的涉及領(lǐng)域廣會(huì)對(duì)文本分類的結(jié)果產(chǎn)生一定的影響[16],針對(duì)不平衡數(shù)據(jù)和涉及領(lǐng)域廣對(duì)FastText分析結(jié)果產(chǎn)生影響的問題,本文提出基于Borderline-Smote算法的改進(jìn)FastText中文情感極性分析模型,在由Kesci提供的25 000條極性電影評(píng)論訓(xùn)練集和25 000條測(cè)試數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證了該模型的有效性。

        2 模型構(gòu)建

        本文針對(duì)涉及領(lǐng)域廣且不平衡的中文文本情感極性分析,在FastText基礎(chǔ)上,在輸入層引入Borderline-Smote、 pkuseg中文分詞等預(yù)處理方式,實(shí)現(xiàn)中文文本情感極性分析?;贐orderline-Smote算法的改進(jìn)FastText中文情感分析模型架構(gòu)設(shè)計(jì)如圖1所示。

        圖1 改進(jìn)的FastText中文情感分析模型

        2.1 FastText

        FastText是Facebook在2016年提出的一種開源的基于Word2vec的一個(gè)文本分類器[16-17],引入了N-Gram特征和Hierarchical Softmax。相比SVM、RNN等模型,F(xiàn)astText既能保持好的分類效果的同時(shí),又能大幅度加快分類的訓(xùn)練速度,該模型在多核處理器下10分鐘內(nèi)處理超過10億個(gè)詞匯,此特性適用于大數(shù)據(jù)下需要高效訓(xùn)練速度的場(chǎng)景。此外還適配了多種語言的形態(tài)結(jié)構(gòu),包括英語、德語、西班牙語、法語以及捷克語等;專注于文本分類,比目前最流行的詞態(tài)詞匯表征要好,在許多標(biāo)準(zhǔn)問題上表現(xiàn)較好。

        FastText包含模型架構(gòu)、Softmax和N-gram三部分,通過將輸入序列轉(zhuǎn)化為特征向量,進(jìn)行特定的線性轉(zhuǎn)化后映射給隱藏層,隱藏層再進(jìn)行處理得到類別及其概率。該模型架構(gòu)是基于CBOW模型進(jìn)行優(yōu)化的,區(qū)別是CBOW是預(yù)測(cè)中間詞,F(xiàn)astText是預(yù)測(cè)標(biāo)簽,兩者都是基于Hierarchical Softmax。標(biāo)準(zhǔn)的Softmax計(jì)算類別的Softmax概率時(shí),需要進(jìn)行耗時(shí)的歸一化的處理,因此通過研究采用類別的頻率來構(gòu)造Huffman Tree的Hierarchical Softmax來代替標(biāo)準(zhǔn)Softmax。FastText在對(duì)文本進(jìn)行預(yù)測(cè)Label時(shí)在隱藏層沒采用非線性激活函數(shù)處理,因此更高效。FastText的模型如圖2所示。

        圖2 FastText模型

        2.2 Borderline-Smote

        原生FastText直接應(yīng)用到情感極性分析上,輸出結(jié)果不佳。通過在輸入層采用重采樣策略,解決樣本數(shù)據(jù)分布不平衡的問題,從而提高算法的分類準(zhǔn)確性。隨機(jī)過采樣方法是重采樣中比較簡(jiǎn)單實(shí)用的,但該方法不能給予樣本新的信息, 反而可能會(huì)導(dǎo)致過擬合。Chawla等提出了Smote,通過一定的策略進(jìn)行合成少數(shù)類樣本,從而達(dá)到平衡數(shù)據(jù)的目的。

        Smote算法仍屬于是建立在相距較近的少類樣本之間樣本的假設(shè)基礎(chǔ)之上,還沒有充分考慮鄰近樣本的分布特點(diǎn),會(huì)造成類間發(fā)生重復(fù)性的可能性較大,而采用識(shí)別少類種子樣本的Borderline-Somte算法可以避免這種重復(fù)性的發(fā)生?;谶吔缟蠘颖镜暮铣蓸颖驹砣鐖D3所示。

        圖3 基于邊界上樣本的數(shù)據(jù)合成

        假設(shè)S為樣本集,Smin為少類樣本集,Smaxj為鄰近的多數(shù)樣本集,m為鄰近樣本個(gè)數(shù),xi為該樣本的全部屬性,xij為鄰近樣本全部屬性,xn為鄰近樣本,Rij取0.5或1,合成算法步驟如下。

        步驟1假設(shè)每一個(gè)xi∈Smin, 確定與其最鄰近的樣本集,其數(shù)據(jù)集為SNN,且SNN∈S。

        步驟2對(duì)每一個(gè)樣本xi,判斷最鄰近屬于多數(shù)樣本集的個(gè)數(shù),即|SNN∩Smaxj|。

        2.3 數(shù)據(jù)處理

        在實(shí)際企業(yè)生產(chǎn)場(chǎng)景中數(shù)據(jù)傾斜是普遍存在的現(xiàn)象。構(gòu)建平衡數(shù)據(jù)分為三步。

        (1) 對(duì)樣本數(shù)據(jù)進(jìn)行清洗,去停用詞后進(jìn)行分詞等。

        (2) 將清洗后的數(shù)據(jù)樣本用KNN算法對(duì)少類樣本進(jìn)行分類。

        (3) 通過hij=xi+dij×rand(0,Rij)合成新樣本生成滿足需求的平衡數(shù)據(jù)集。

        2.4 模型訓(xùn)練

        基于Borderline-Somte算法改進(jìn)的FastText中文情感極性分析模型的可以分為四層:數(shù)據(jù)預(yù)處理層、輸入層、隱藏層和輸出層。在數(shù)據(jù)預(yù)處理層將數(shù)據(jù)構(gòu)建為平衡數(shù)據(jù)并打上標(biāo)簽,將單詞的字符級(jí)別的N-gram向量作為額外的特征傳遞給輸入層,在隱藏層處理后通過Softmax進(jìn)行輸出得到改進(jìn)后的模型。

        3 實(shí)驗(yàn)與結(jié)果分析

        對(duì)比分析SVM+TF-IDF、TextCNN、Smote+FastText和Borderline-Smote +FastText(本文)四種代表模型的準(zhǔn)確率、召回率、F1-measure和預(yù)測(cè)效率。

        3.1 實(shí)驗(yàn)環(huán)境

        本文數(shù)據(jù)處理的分詞等技術(shù)是基于Python實(shí)現(xiàn),其中FastText算法使用Facebook的0.8.3版,訓(xùn)練與測(cè)試階段的環(huán)境由VMware Workstation Pro虛擬機(jī)搭建的Ubuntu環(huán)境運(yùn)行,詳細(xì)環(huán)境配置,如表1所示。

        表1 實(shí)驗(yàn)環(huán)境配置

        3.2 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

        實(shí)驗(yàn)數(shù)據(jù)由Kesci提供的25 000條極性電影評(píng)論作為訓(xùn)練集,另外25 000條用于測(cè)試數(shù)據(jù)集,還有包含其他尚未標(biāo)記的數(shù)據(jù)集、原始的文本和已處理的單詞袋,其內(nèi)容涉及領(lǐng)域十分廣泛。數(shù)據(jù)預(yù)處理的分詞處理由pkuseg負(fù)責(zé),主要是其在第二屆國際漢語分詞比賽中擁有中文領(lǐng)域的廣泛性,All Average表現(xiàn)最好;預(yù)處理的去停用詞借助哈工大實(shí)驗(yàn)室1 213個(gè)停用詞,剔除沒明確感情傾向的語氣詞等,最后將潛藏的詞向量為零進(jìn)行隔離,具體的評(píng)論格式,如表2所示。

        表2 電影評(píng)論樣本格式

        3.3 評(píng)價(jià)指標(biāo)

        本文實(shí)驗(yàn)采用3種文本分類領(lǐng)域常用的指標(biāo),分別為準(zhǔn)確率、召回率和F1-measure,來對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行科學(xué)的評(píng)價(jià)。準(zhǔn)確率就是對(duì)于預(yù)測(cè)結(jié)果,預(yù)測(cè)中文文本情感樣本中有哪些是真正的正向評(píng)價(jià),則準(zhǔn)確率P的計(jì)算式表示為:

        (1)

        召回率R是相對(duì)原始樣本的,表示樣本中的正類多少能被預(yù)測(cè),存在兩種情況,第一種就是將的正類預(yù)測(cè)為正類,記該預(yù)測(cè)的樣本數(shù)為Tp,另外一種是將原始的正類預(yù)測(cè)為相反的,記該類的樣本數(shù)為Fn,因此召回率的計(jì)算式表示為:

        (2)

        F1-measure稱為F1值,用來評(píng)價(jià)分類效果的綜合指標(biāo),是綜合了準(zhǔn)確率和召回率,F(xiàn)1值的計(jì)算式表示為:

        (3)

        3.4 結(jié)果分析

        本文采用Python語言實(shí)現(xiàn)傳統(tǒng)SVM+TF-IDF、TextCNN、Smote+FastText和基于Borderline-Smote算法的改進(jìn)FastText情感分析四種模型進(jìn)行對(duì)比。為了充分發(fā)揮FastText的優(yōu)勢(shì),在本次實(shí)驗(yàn)前將原始的50 000條數(shù)據(jù)集拆分為 5 等份,其中訓(xùn)練數(shù)據(jù)集占4份,剩余1份歸測(cè)試數(shù)據(jù)集所有,利用交叉檢驗(yàn)的方式,經(jīng)過多次的單一變量控制法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明FastText在train_supervised模式下,詞向量維度為100,上下文窗口為 4,迭代次數(shù)為4,詞語的最小出現(xiàn)次數(shù)為 2,損失函數(shù)loss選用Softmax,此時(shí)準(zhǔn)確率達(dá)到94.767%,其模型調(diào)參結(jié)果為最優(yōu),該模型準(zhǔn)確率較高,因此,從輸入層優(yōu)化的方向顯然是正確的。在相同的不平衡的極性語料中進(jìn)行實(shí)驗(yàn),對(duì)比不同模型下分類的準(zhǔn)確率、召回率和F1值和訓(xùn)練與預(yù)測(cè)的效率,實(shí)驗(yàn)結(jié)果如表3和圖4所示, FastText簡(jiǎn)寫為FT,其中Borderline-Smote+FastText、SVM+TF-IDF、TextCNN和Smote+FastText分別用簡(jiǎn)寫為BS+FT、S+TI、TC和S+FT。

        表3 模型預(yù)測(cè)效果評(píng)價(jià)值(%)

        圖4 不同數(shù)據(jù)集規(guī)模下模型訓(xùn)練時(shí)間比較

        從表3以及圖4中可以看出,使用原始數(shù)據(jù)的SVM分類器+TF-IDF詞向量模型的訓(xùn)練與預(yù)測(cè)效果有偏差,深度學(xué)習(xí)的TextCNN模型的中文文本情感極性分析是較好的,均接近80%左右的F1-measure,但耗時(shí)最長,原因在于該模型雖然在池化層通過TOP-K保留了全局序列信息,因數(shù)據(jù)集不同最佳狀態(tài)不唯一,模型的可解釋性不強(qiáng),很難根據(jù)訓(xùn)練的結(jié)果去針對(duì)性地調(diào)整具體的特征來得到特征重要度,導(dǎo)致訓(xùn)練和學(xué)習(xí)過程耗時(shí)。基于線性直插的Smote+FastText因?yàn)轭A(yù)先通過Smote對(duì)傾斜數(shù)據(jù)進(jìn)行了預(yù)處理,通過引入N-grams思想,在中間層僅進(jìn)行簡(jiǎn)化運(yùn)算,在輸出層采用層次的Softmax方法,計(jì)算復(fù)雜度從O(V)降到O(logV),最后利用label頻次建立哈夫曼樹,進(jìn)行樹節(jié)點(diǎn)向量點(diǎn)乘,快速定位目標(biāo)label節(jié)點(diǎn),有效解決少類樣本簡(jiǎn)單復(fù)制造成的過擬合現(xiàn)象,因此相比前兩者表現(xiàn)較為優(yōu)秀。但是在數(shù)據(jù)傾斜明顯的情況下,Smote仍不能友好地應(yīng)對(duì)此類情況,與預(yù)估的期望會(huì)有些偏差,因此,引入更具適應(yīng)性的Borderline-Smote算法改進(jìn)輸入層的FastText模型,其所表現(xiàn)的準(zhǔn)確率、召回率和F1-measure值均達(dá)到88%左右,并且訓(xùn)練預(yù)測(cè)時(shí)間較短,因?yàn)樵谳斎雽由献隽顺渥愕念A(yù)處理方案,有效提升了準(zhǔn)確率、召回率和F1值,從實(shí)驗(yàn)數(shù)據(jù)中證明該模型的改進(jìn)在中文文本情感極性分析上有一定的優(yōu)越性。

        4 結(jié) 語

        本文針對(duì)現(xiàn)有情感分析模型對(duì)涉及領(lǐng)域廣泛、數(shù)據(jù)集極易傾斜場(chǎng)景的中文文本情感極性分析的適應(yīng)性表現(xiàn)差的問題,提出基于Borderline-smote算法的改進(jìn)FastText中文情感分析模型。該模型在輸入層做停用詞、pkuseg分詞隔離零向量和語料傾斜處理,通過實(shí)驗(yàn)驗(yàn)證了該模型對(duì)中文情感領(lǐng)域廣泛和數(shù)據(jù)傾斜問題上有著良好的適應(yīng)性,在中文情感極性分析的整體表現(xiàn)上有一定的提升,但也存在轉(zhuǎn)折語句情感分析的準(zhǔn)確率不高的問題。下一步計(jì)劃引入自注意力機(jī)制,獲取轉(zhuǎn)折詞背后情感的更多語義,讓模型獲取更多的中文情感特征信息,進(jìn)一步提升分類的準(zhǔn)確率。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲饱满人妻视频| 加勒比色老久久爱综合网| 毛片免费视频在线观看| 亚洲欧美精品伊人久久| 中出人妻中文字幕无码| 国产午夜亚洲精品午夜鲁丝片| 成人做爰69片免费看网站| av无码一区二区三| 国产爽快片一区二区三区| 日本一道综合久久aⅴ免费| 精品香蕉久久久爽爽| 久久噜噜噜| 国内专区一区二区三区| 在线观看 国产一区二区三区| 狠狠噜天天噜日日噜无码| 欧美成人专区| 久久夜色精品国产九色| 91超精品碰国产在线观看| 蜜桃日本免费观看mv| 婷婷丁香社区| 国产不卡一区二区三区视频| 亚洲国产熟女精品传媒| 毛片无码国产| 国产精品麻豆成人AV电影艾秋| 91麻豆精品激情在线观最新| 国产精品视频亚洲二区| 少妇装睡让我滑了进去| 亚洲av人妖一区二区三区| 精品成人av人一区二区三区| 少女韩国电视剧在线观看完整 | 日韩在线看片免费人成视频| 亚洲人成网站久久久综合| av国产自拍在线观看| 无码一区二区三区中文字幕| 男人添女人下部高潮全视频| 精品国产品欧美日产在线| 国产av在线观看91| 久久久久亚洲精品男人的天堂| 国产精品亚洲综合色区韩国| 69堂在线无码视频2020| 宅男亚洲伊人久久大香线蕉|