亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DT和SVM分類器的中文文本情感極性分析

        2021-07-30 13:37:16宋尚文閻紅燦
        新一代信息技術(shù) 2021年8期
        關(guān)鍵詞:分詞決策樹向量

        宋尚文,盧 超,閻紅燦

        (華北理工大學(xué)理學(xué)院,河北 唐山 063210)

        0 引言

        隨著深度學(xué)習(xí)領(lǐng)域的發(fā)展,自然語言處理問題的解決方式也逐漸向深度學(xué)習(xí)偏移[1]。情感分析是自然語言處理中常見的場景,比如說電商、餐飲、娛樂等等產(chǎn)品的使用用戶評價信息,對于指導(dǎo)產(chǎn)品更新迭代都具有關(guān)鍵性作用。

        由于中英文語系的差異較大,英文的情感分析主要問題在于詞性標(biāo)注、詞匯粒度、句法結(jié)構(gòu)、詞匯之間的關(guān)聯(lián)關(guān)系等;中文特點很明顯,在自然語言處理的過程中第一步是分詞,而英文天然情況下就是存在空格的,中文分詞就是一個很有挑戰(zhàn)性的任務(wù),除此之外,由于中華文化發(fā)展源遠(yuǎn)流長,漢字之間的關(guān)聯(lián)性、省略內(nèi)容填充和內(nèi)容補足等方面來說都是難以進(jìn)行處理的。

        因此國內(nèi)外在中文的情感極性分析相對于英文或者其它語言來說有更多對應(yīng)的深度學(xué)習(xí)方法。如今中文的自然語言處理領(lǐng)域已進(jìn)入了深度學(xué)習(xí)時代,大部分方法將詞作為底層特征,在此特征基礎(chǔ)上,完成了詞性標(biāo)注、命名實體識別和語義角色標(biāo)注等多個任務(wù),之后利用遞歸神經(jīng)網(wǎng)絡(luò)完成了句法分析、情感分析和句子表示等多個任務(wù),這也為語言表示提供了新的思路。

        從數(shù)據(jù)集角度分析,新聞類的數(shù)據(jù)客觀性極強,較為樸素的傳統(tǒng)機器學(xué)習(xí)方法有可能在處理其問題時保證一定的正確率的同時會具有更加突出的效率。本文選用DT(Decision Tree,決策樹)和SVM(support vector machine,支持向量機)兩大類分類器應(yīng)用于情感極性分析中進(jìn)行研究。

        1 模型選擇

        1.1 多分類的支持向量機

        SVM起初是針對二分類問題提出的,但是實際應(yīng)用中多分類問題更加普遍。它的核函數(shù)的利用使它成為實質(zhì)上的非線性分類器,SVM基本思路是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。非線性分類時相對應(yīng)的在高維空間使用 SVM 求解分類問題則需要更換核函數(shù),其意義是利用核函數(shù)計算目標(biāo)函數(shù)而去代替最原始的內(nèi)積計算。

        并且支持向量機[2]的優(yōu)點就是很適合小數(shù)量樣本數(shù)據(jù),解決高維的問題,由于求解的是幾何間隔最大的分離超平面因此可解釋較強。

        針對現(xiàn)有數(shù)據(jù)集,選擇SVM是一個合適的選擇。核函數(shù)不是 SVM 專屬的,但是它的優(yōu)化方向會涉及到各種場景,多分類,類別不平衡都可以通過改變核函數(shù)來適應(yīng)場景。為避免分類訓(xùn)練時間過長與過度擬合和較大程度適應(yīng)高維空間的分類,引入兩類核函數(shù):(1)linear核函數(shù)的特點是參數(shù)少速度快,對于一般的數(shù)據(jù)分類效果比較理想;(2)rbf核函數(shù)的特點就是將可數(shù)據(jù)映射至高維空間解決復(fù)雜且抽象的分類任務(wù)。本文采用rbf和linear兩種基礎(chǔ)核函數(shù)加入訓(xùn)練與對比分析。

        1.2 決策樹分類

        決策樹是一種邏輯簡單的機器學(xué)習(xí)算法,采用樹形結(jié)構(gòu),需要監(jiān)督學(xué)習(xí)。在樣本集合中針對每個樣本都有一組屬性和一個分類結(jié)果,通過樣本的學(xué)習(xí)的得到一個決策樹,再對測試集數(shù)據(jù)給出正確的分類。決策樹由圖1所示三種元素構(gòu)成,根節(jié)點:包含樣本的全集;內(nèi)部節(jié)點:對應(yīng)特征屬性測試;葉節(jié)點:代表決策的結(jié)果 DT中有幾種典型的方法ID3、C4.5和CART(Classfication And Regression Tree,分類與回歸樹)等。CART的分類效果一般優(yōu)于其他決策樹,其是一個二叉樹,也是一個回歸樹,同時也是分類樹。相對與ID3和C4.5,CART的優(yōu)勢[3]在于在分類過程中只能將父節(jié)點分為兩個子節(jié)點,采用基尼指數(shù)決定是否進(jìn)行節(jié)點的分裂。與熵的概念類似,數(shù)據(jù)內(nèi)部的類別越繁雜基尼指數(shù)就會越大。作為回歸樹,CART對葉子節(jié)點內(nèi)部的數(shù)據(jù)進(jìn)行均值方差計算,以此來換取計算成本,過程中存在細(xì)小分割,但是其支持剪枝,可以有效地避免過度擬合的問題。

        圖1 決策樹的樹形結(jié)構(gòu)Fig.1 The tree structure of the decision tree

        結(jié)合上述的分析,本文實驗中在選取 CART作為決策樹方法的分類器。

        2 數(shù)據(jù)處理

        2.1 數(shù)據(jù)文件處理及數(shù)據(jù)分析

        數(shù)據(jù)集提供三個文件(訓(xùn)練集、訓(xùn)練集標(biāo)簽、測試集)為常規(guī)的數(shù)據(jù)科學(xué)競賽提供的數(shù)據(jù)種類,本文則使用訓(xùn)練集與訓(xùn)練集標(biāo)簽來檢驗傳統(tǒng)機器學(xué)習(xí)方法的性能。首先需要對訓(xùn)練數(shù)據(jù)集的文本長度分布,文本標(biāo)簽分布簡要進(jìn)行統(tǒng)計。

        圖2所示發(fā)現(xiàn)新聞字段的長度分布趨勢相對穩(wěn)定的分布在1~6 000位字符的范圍,呈現(xiàn)出正偏態(tài)分布,其中位數(shù)在分布于 3 000左右;圖3新聞標(biāo)簽的分布沒有體現(xiàn)出平均化,特別是0值(情感極性類別為正面情緒)所占整體數(shù)據(jù)的比例只有10.47%,顯然這屬于非均衡的數(shù)據(jù)集,在構(gòu)建模型的時候需要考慮到數(shù)據(jù)不均等[4]的因素。

        圖2 新聞字?jǐn)?shù)統(tǒng)計圖Fig.2 News word count statistics

        圖3 新聞標(biāo)簽統(tǒng)計Fig.3 New s label statistics

        2.2 數(shù)據(jù)預(yù)處理及中文分詞

        數(shù)據(jù)集中新聞文本資料大多來自互聯(lián)網(wǎng),通過簡要觀察數(shù)據(jù)可以發(fā)現(xiàn)有以下三個問題:(1)訓(xùn)練集數(shù)據(jù)與標(biāo)簽的序號沒有正確的存在對等關(guān)系;(2)訓(xùn)練集文本數(shù)據(jù)分為標(biāo)題和內(nèi)容兩部分;(3)訓(xùn)練集數(shù)據(jù)中網(wǎng)絡(luò)新聞有少量網(wǎng)址信息、手機號碼、亂碼符號等干擾情感分析的噪聲信息。

        考慮到訓(xùn)練集數(shù)據(jù)的問題做如下處理:(1)對數(shù)訓(xùn)練集的兩個文件進(jìn)行序號的離散化處理,之后再建立一一映射關(guān)系,刪除無映射關(guān)系的信息,保證訓(xùn)練集數(shù)據(jù)和標(biāo)簽劃分的正確性;(2)新聞文本標(biāo)題囊括了內(nèi)容里的主要部分類似于論文的摘要,因此這部分在處理時需要額外保留標(biāo)題的信息,以后續(xù)調(diào)整兩者拼接比例方式實現(xiàn)(3)為了優(yōu)化分類效果需要刪除其中的所有非中文符號(包含上述第二個問題中的噪聲信息與標(biāo)點符號),之后對相關(guān)文本數(shù)據(jù)進(jìn)行拼合。利用正則表達(dá)式處理數(shù)據(jù)集的字符串得到完全由中文組成的訓(xùn)練集和測試集兩個列表數(shù)據(jù)。

        正則化處理過程主要利用的是 Python的 re庫進(jìn)行操作,其處理函數(shù)如下:

        英文的行文中單詞之間是以空格為分界符,不同于拉丁語系,中文只有字、句、段能通過明顯的分界符劃分界限,但是在詞的這一點沒有明顯意義上的分界符。中文分詞是中文文本處理的一個基本步驟,在中文自然語言處理時進(jìn)行的預(yù)處理通常是要先分詞[5],分詞將直接影響詞性,句法樹等模塊的效果。

        中文分詞技術(shù)已經(jīng)漸漸成熟,根據(jù)實現(xiàn)原理主要分為兩類,第一類為基于詞典的分詞算法,一般是按照一定的匹配算法依托一個建立好的充分大的詞典進(jìn)行詞語匹配;第二類是基于統(tǒng)計的機器學(xué)習(xí)算法,常見的分詞器都是使用機器學(xué)習(xí)算法和詞典相結(jié)合,一方面能夠提高分詞準(zhǔn)確率,另一方面能夠改善領(lǐng)域適應(yīng)性。具有代表性的方法是jieba分詞[6],內(nèi)部動態(tài)規(guī)劃實現(xiàn)查找最大概率路徑,未記錄的詞語會采用基于漢字成詞能力的HMM模型,國內(nèi)外的高校與公司也開源了分詞代碼或者分詞調(diào)用接口,結(jié)合分詞過程中的代碼復(fù)雜性、實現(xiàn)的分詞程度、調(diào)用便捷程度和運算時間復(fù)雜度最終選擇jieba分詞,分詞函數(shù)代碼:

        如圖4中是數(shù)據(jù)集使用jieba分詞的分詞效果。

        圖4 分詞效果Fig.4 Result of word segmenting

        2.3 詞向量化與句向量化

        自然語言處理的分析首先要解決詞向量的數(shù)字化表達(dá)問題,詞向量是通過一個高維向量去表達(dá)一個詞或字。在統(tǒng)計語言模型研究的背景下,Google公司在 2013年開放了一款用于訓(xùn)練詞向量的軟件(Word2vec)工具[7]。

        Word2vec依賴 skip-grams或連續(xù)詞袋(CBOW)使用一個淺層的神經(jīng)網(wǎng)絡(luò),用一個只具有一個隱藏層的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞嵌入,該模型在預(yù)測上下文的同時產(chǎn)生了一個副產(chǎn)品,即分詞在n維向量空間的表示。簡單的理解方法是兩個詞語的相似程度可以由計算兩個高維詞向量的余弦得出,余弦函數(shù)在實數(shù)數(shù)域內(nèi)有上下限,因此可以由余弦的數(shù)值來區(qū)分兩詞語的相似度。

        本文采用的句向量計算是無監(jiān)督學(xué)習(xí)的詞向量的詞袋模型。其中最樸素的方法是式(1)所示的預(yù)訓(xùn)練詞向量求平均的計算方法,其中SeqVec表示句向量,m表示為每個樣本中詞的個數(shù),分子表達(dá)的是詞的詞向量。 好處是計算速度快,但是缺點忽略了句子的次序,在語句順序較敏感的中文文本處理問題中效果不佳。針對于新聞的文本信息分析,從其客觀確切、簡練樸實的角度分析,最終認(rèn)為線性加權(quán)的方法計算句向量在本文數(shù)據(jù)集中是一種較為客觀的方式。

        2.4 數(shù)據(jù)增強

        數(shù)據(jù)增強(Data Aug mentation)是一種通過有限數(shù)據(jù)產(chǎn)生更多的等價數(shù)據(jù)來人工擴(kuò)展數(shù)據(jù)集的技術(shù)。計算機視覺領(lǐng)域中,數(shù)據(jù)增強的應(yīng)用更為廣泛,通過圖片的移動翻轉(zhuǎn)裁剪等手段都可以滿足;相反在自然語言處理過程中,數(shù)據(jù)增強應(yīng)用更少,其使用在原數(shù)據(jù)集中進(jìn)行同義詞的更換,隨機插入刪除等等方法,本文此處將對句向量進(jìn)行增強,有效避免了二次處理中文語句數(shù)據(jù)集,不能保證是有利的但是這也同時意味著更大的機遇。

        針對不均衡問題,一般有采樣和代價敏感學(xué)習(xí)兩種策略,采樣的話又分為 over-sampling和under-sampling。其中,smote算法算是 oversampling中比較常用的一種。由于訓(xùn)練集數(shù)據(jù)的標(biāo)簽不均衡,考慮到訓(xùn)練集與測試集的比例為1∶1。采用過采樣是一種比較合理的方法,通過增加分類中樣本較少的類別的采集數(shù)量來實現(xiàn)平衡。

        SMOTE[8-9]的思想是合成新的少數(shù)類樣本合成策略是對每一個樣本a,從它最近鄰選一個樣本b,然后在a、b之間的連線上隨機選取一點作為新合成的少數(shù)類樣本。算法流程如下:

        對于一個樣本xi使用K近鄰法[10],定義距離為樣本之間的n維特征空間的歐氏距離,以定義方法計算求出距離xi到少數(shù)類樣本集的所有樣本的距離,得到其K近鄰;

        根據(jù)樣本不平衡比例設(shè)置一個采樣比例以確定采樣倍率N,對于每一個少數(shù)類樣本x,從其k近鄰中隨機選擇若干個樣本,假設(shè)選擇的近鄰為xn;

        對于每一個隨機選出的近鄰xn,分別與原樣本按照上述的公式構(gòu)建新的樣本,其中δ? ( 0,1)。

        SMOTE 方法生成的樣本均分布在xi和x?i相連的直線上,經(jīng)過 SMOTE的數(shù)據(jù)過采樣補充形成了10 770×200的訓(xùn)練集句向量,上述描述代碼如下:

        屆時得到的句向量為數(shù)據(jù)集的常規(guī)句向量,為了提升標(biāo)題在內(nèi)容中的比重需要進(jìn)行式(3)的操作,其中λ? ( 0,1),生成句向量的過程比較耗時并且某些標(biāo)題的長度可能過短,所以不適合進(jìn)行標(biāo)題與內(nèi)容句向量的分別計算疊加。同等意義,本文將隨機變量設(shè)置使得為整數(shù),之后在進(jìn)行詞向量處理時將標(biāo)題詞向量疊加同等倍數(shù)最后合并計算新的句向量即為所要求出的向量結(jié)果。

        2.5 評價指標(biāo)的選擇

        準(zhǔn)確率(Accuracy),精確率(Precision)和召回率(Recall)是信息檢索,人工智能,和搜索引擎的設(shè)計中很重要的幾個概念和指標(biāo)。

        其中β是參數(shù),P是精確率,R是召回率,當(dāng)參數(shù)β=1時,理論上解釋為精準(zhǔn)率與召回率同等重要,這也是數(shù)據(jù)科學(xué)比賽中最常見的排名評價指標(biāo)??紤]到本文結(jié)果應(yīng)與網(wǎng)絡(luò)上結(jié)果作比較,所以選擇 F1-score作為模型的評價指標(biāo)。

        3 兩種分類器的應(yīng)用研究結(jié)論

        3.1 運行及驗證模型

        將原始詞向量訓(xùn)練集做如下處理:(1)詞向量以標(biāo)題和內(nèi)容做劃分疊加詞向量并將標(biāo)題的特征放大形成最終的句向量;(2)用 SMOTE方法處理句向量數(shù)據(jù)集使得訓(xùn)練集標(biāo)簽達(dá)到相對均衡;(3)將最終形成的訓(xùn)練集抽取20%作為測試集以評估本文使用的方法的性能;(4)使用最原始的詞向量生成方式和特征放大經(jīng)過過采樣的數(shù)據(jù)進(jìn)行三種方法的訓(xùn)練。

        本文訓(xùn)練所使用的計算機環(huán)境為:

        操作系統(tǒng):win10 x64

        處理器:Intel(R) Core(TM) i5-8250U CPU @1.60 GHz 1.80 GHz

        RAM:12 GB

        語言環(huán)境:gcc version 8.2.0;python 3.7.5

        采用F1值作為模型評價指標(biāo)。由于訓(xùn)練數(shù)據(jù)量較少得分評估不穩(wěn)定,結(jié)合程序時間復(fù)雜度接近O(n2),所以采取運行20次取均值的方法,得到的多組訓(xùn)練結(jié)果如圖5所示。

        圖5 不同訓(xùn)練集與模型的多組學(xué)習(xí)效果Fig.5 Learning effects of different training sets and models in multiple groups

        3.2 結(jié)果分析

        由運行結(jié)果的圖像初步分析得出原始 CART和原始 rbfSVM的效果普遍偏低,過采樣數(shù)據(jù)集的測試準(zhǔn)確度水平較為均衡,因此得出結(jié)論:使用 SMOTE和特征放大的方式可以有效的處理數(shù)據(jù)不均衡問題并且較不使用其方法的同等試驗下能得到較好的結(jié)果。

        運行20次之后縱向分析,刪除數(shù)據(jù)最大最小值后取均值得表1數(shù)據(jù)屬性,過采樣句向量數(shù)據(jù)的效果均好于同等狀態(tài)下原始不均衡數(shù)據(jù)的效果,再次說明數(shù)據(jù)增強的方法可能適用于在實驗中期處理具有一定數(shù)學(xué)關(guān)系的數(shù)據(jù);支持向量機方法的處理結(jié)果優(yōu)于決策樹方法,并且線性核函數(shù)的支持向量機效果相對明顯,結(jié)合數(shù)據(jù)量和數(shù)據(jù)復(fù)雜度分析,驗證了線性核函數(shù)適用于小型數(shù)據(jù)集、高維特征的多分類問題。

        表1 模型訓(xùn)練得分情況Tab.1 M odel training scores

        過采樣數(shù)據(jù)條件下采用線性核函數(shù)的支持向量機在數(shù)據(jù)分析中獲得評分的均值最高,評分達(dá)到 0.74577,且方差為 7 .84× 1 0-5,表示該方法的運行結(jié)果相對較平穩(wěn)。方差角度分析本次實驗:六類實驗的方差都比較低,實驗結(jié)果都比較穩(wěn)定,可信度較高。

        4 結(jié)論

        由實驗驗證結(jié)果與網(wǎng)絡(luò)數(shù)據(jù)比賽結(jié)果對比可知,利用上述挑選出的最優(yōu)方法針對互聯(lián)網(wǎng)新聞情緒極性分析效果較遜色于近幾年新產(chǎn)生的中文文本處理方法[11],尤其是深度學(xué)習(xí)領(lǐng)域發(fā)展的幾大類方法重新定義了這類問題。但是從時間效率講目前來說傳統(tǒng)的機器學(xué)習(xí)方法占用的計算時間損耗和精力要遠(yuǎn)遠(yuǎn)小于深度神經(jīng)網(wǎng)絡(luò)方法,從框架的使用難度、神經(jīng)網(wǎng)絡(luò)的原理角度來看,深度學(xué)習(xí)的復(fù)雜程度較高,在未來的機器學(xué)習(xí)中,深度學(xué)習(xí)會占據(jù)絕大部分領(lǐng)域。但是在小型且特征明顯的數(shù)據(jù)處理時,采取本文使用的線性核函數(shù)的支持向量機方法也會得到準(zhǔn)確率與深度學(xué)習(xí)方法相當(dāng)?shù)慕Y(jié)果。

        利用新穎的自然語言處理文字處理方法結(jié)合傳統(tǒng)的數(shù)據(jù)挖掘中常用的分類訓(xùn)練方法可以基本解決語義較清晰的中文文本情緒分類任務(wù),但是在很多方面還有進(jìn)步空間比方說:數(shù)據(jù)維度處理過大而采用了普通的計算方式,運算效率相對較低;詞向量到句向量的處理過于樸素在一定程度上可能丟失了有價值的信息從而影響了準(zhǔn)確率等等。

        猜你喜歡
        分詞決策樹向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        值得重視的分詞的特殊用法
        基于決策樹的出租車乘客出行目的識別
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        av无码久久久久不卡网站下载| 国产片在线一区二区三区| 国产精品亚洲专区无码不卡| 欧美最大胆的西西人体44| 精品欧美乱子伦一区二区三区| 一区二区三区在线视频免费观看| 五月婷婷开心五月激情| 在办公室被c到呻吟的动态图| 亚洲精品无码不卡av| 国产亚洲欧美日韩国产片| 精品久久精品久久精品| 日韩乱码人妻无码系列中文字幕| 精品人妻无码一区二区三区蜜桃一 | 无码av一区二区大桥久未| 日韩视频第二页| 美女叉开双腿让男人插| 精品露脸熟女区一粉嫩av| 久久久久久曰本av免费免费| 日韩在线看片免费人成视频| 日韩精品极品在线观看视频| 日韩一区av二区三区| 卡一卡二卡三无人区| 亚洲乱码一区二区三区成人小说| 性色av一区二区三区密臀av| 欧美疯狂性受xxxxx喷水| 成人无码免费一区二区三区| 日本精品免费一区二区三区 | 色吧噜噜一区二区三区| 国产亚洲精品bt天堂精选| 亚洲日韩精品久久久久久| 国产一区二区熟女精品免费| 久久久国产乱子伦精品| 欧美亚洲国产精品久久高清| 亚洲天堂中文字幕君一二三四| 亚洲av熟女一区二区三区站| 国产精品毛片一区二区| 亚洲国产成人手机在线观看| 亚洲一区二区三区18| 色一情一乱一伦麻豆| 最近高清中文在线字幕观看| 亚洲精品视频免费在线|