亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力機(jī)制改進(jìn)信息增益模型

        2022-11-10 05:04:36黃思佳鄭肇謙
        關(guān)鍵詞:機(jī)制文本信息

        黃思佳, 鄭 虹, 鄭肇謙

        (長春工業(yè)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 吉林 長春 130102)

        0 引 言

        自機(jī)器學(xué)習(xí)發(fā)展以來,文本分類一直是重要的研究領(lǐng)域。隨著互聯(lián)網(wǎng)行業(yè)技術(shù)的成熟,文本分類研究也越來越成熟。特征選擇是特征工程的重要組成部分,不僅在文本分類中得到廣泛應(yīng)用,而且在計算機(jī)視覺等領(lǐng)域也得到了廣泛應(yīng)用。特征選擇的主要工作過程一般是按照規(guī)定的準(zhǔn)則去除一些低相關(guān)性的特征后,選取合理有效的特征,以降低特征空間的維數(shù)過程。有效的特征選擇有助于減少噪聲數(shù)據(jù),提高工作效率。文本分類中的特征選擇是指選擇與類別相關(guān)度高、冗余度小的特征。目前,常見的特征選擇方法有:皮爾遜相關(guān)系數(shù)(PCCs)、信息增益(IG)、基尼系數(shù)(Gini index)等。大量的研究數(shù)據(jù)表明,信息增益算法在一般情況下的分類效率優(yōu)于其他特征選擇算法。

        近幾年,很多學(xué)者對信息增益算法進(jìn)行研究并對其改進(jìn)。張方釗[1]提出一種基于類信息的信息增益算法,并與LDA主題模型相結(jié)合,以解決信息增益在詞頻和語義信息上的缺陷。董露露等[2]在傳統(tǒng)信息增益中引入了最大詞頻比因子和離散度因子解決信息增益算法在不平衡數(shù)據(jù)集上分類性能下降的問題。郭頌等[3]提出一種基于特征分布加權(quán)的信息增益改進(jìn)算法,克服信息增益的缺陷問題。

        由上述已取得的成果可以看出,以往學(xué)者改進(jìn)信息增益算法主要是從算法忽略詞頻因素對特征的影響和算法在不平衡數(shù)據(jù)集上分類效果不好這兩方面著手。而針對信息增益算法忽略詞性因素和上下文相關(guān)語義的問題改進(jìn)較少。為了解決這一問題,文中提出一種基于注意力機(jī)制的改進(jìn)信息增益模型,實驗表明,改進(jìn)后的特征選擇模型在分類性能上有所提升。

        1 相關(guān)理論

        1.1 信息增益

        信息增益[4]在概率學(xué)上是指在一個條件下,信息復(fù)雜度也就是信息的不確定性減少的程度,就是信息熵與條件上的差值。熵是不確定性或隨機(jī)變量的一種度量,假設(shè)一個隨機(jī)變量

        X={x1,x2,…,xn},

        其概率分布為p(x),則該隨機(jī)變量的熵為

        H(x)=-Σx?Xp(x)logp(x)。

        (1)

        在文本分類[5]中,信息增益通過一個特征詞能給整個分類提供信息量來評價其重要性,是沒有特征的文本的熵與采用特征后的文本的熵之間的差值,IG的計算公式為

        IG(x)=H(C)-H(C|x)=

        (2)

        式中:P(Ci)----Ci類文檔在語料庫中出現(xiàn)的頻率;

        P(x)----含特征x的文檔的頻率;

        P(Ci|x)----含特征x的文檔屬于Ci類的概率;

        M----類別數(shù)。

        1.2 注意力機(jī)制

        簡單來說,注意力機(jī)制就是關(guān)注重點(diǎn),而忽略其他不重要的因素是否重要這一點(diǎn)取決于應(yīng)用程序場景的不同。在生活中也是如此,當(dāng)我們在讀一篇文章的時候,通常會潛意識里記住重要的關(guān)鍵詞或者是關(guān)鍵的句子,最快速地理解一句話或一段話的意思。而每個人的注意力又不同,也就“每個人看到的世界都是不一樣的”這個說法。在面對數(shù)據(jù)時,要表現(xiàn)出的關(guān)注程度是不一樣的,需要為重要性不一致的數(shù)據(jù)信息分配不同的關(guān)注度,這也是注意力機(jī)制應(yīng)用的意義所在。

        根據(jù)不同的應(yīng)用場景,Attention分為空間注意力(用于圖像處理)和時間注意力(用于自然語言處理),Attention的原理是計算當(dāng)前輸入序列和輸出向量之間的匹配程度,高度匹配是注意力集中點(diǎn),相對分?jǐn)?shù)也就越高。

        2 基于注意力機(jī)制的改進(jìn)特征選擇模型

        針對傳統(tǒng)信息增益算法的不足,文中對其進(jìn)行相關(guān)改進(jìn):針對忽略詞性題,為算法引入詞性標(biāo)注過濾;針對忽略上下文相關(guān)語義,引入注意力機(jī)制。提出一種基于注意力機(jī)制的改進(jìn)特征選擇模型,如圖1所示。

        該模型主要包括詞性過濾模塊、注意力機(jī)制模塊、全連接輸出模塊。模型的輸入部分是原始文本,經(jīng)過簡單的預(yù)處理后,首先進(jìn)行詞性標(biāo)注過濾,這一步主要根據(jù)詞性對特征詞篩選過濾,去除冗余詞。

        通過IG(信息增益)特征選擇[6]算法選出特征詞,生成詞向量。同時使用Bert預(yù)處理模型生成語義向量,將詞向量與語義向量融合,連接注意力模塊。最后連接全連接層,通過softmax得到最后的分類結(jié)果。

        引入注意力模塊的主要目的就是更好地聯(lián)系上下文語義特征,為與類別有較強(qiáng)關(guān)聯(lián)的特征詞可以分配更多的注意力。

        2.1 詞性標(biāo)注

        與大多數(shù)傳統(tǒng)特征選擇算法一樣,信息增益算法在特征選擇時沒有考慮特征詞詞性對分類的影響。

        通常文本經(jīng)過去停用詞后,剩下的文本大部分都為有價值的信息。傳統(tǒng)的特征選擇算法通常會直接將預(yù)處理后的詞送入算法中進(jìn)行篩選。但實際上,大部分有價值的特征詞是以名詞、形容詞和副詞等為主。雖然預(yù)處理步驟也會對英文文本進(jìn)行詞根還原,但是處理后的文本還是會存在大量的其他形式。

        圖1 基于注意力機(jī)制的改進(jìn)特征選擇模型結(jié)構(gòu)

        因此,文中在將文本送入信息增益算法之前,采用了雙重保險模式,根據(jù)詞性對特征詞又進(jìn)行了一次過濾。nltk[7]為我們提供了文本特征詞的詞性,文本對其進(jìn)行篩選,篩選后留下′JJ′,′JJR′,′JJS′,′NN′,′NNS′,′RB′,′RBR′,′RBS′,′RP′,′VB′,′VBD′,′VBG′,′WRB′幾種詞性的詞作為特征詞進(jìn)行選擇。

        2.2 Bert預(yù)訓(xùn)練模型

        引入Bert模型主要是為了將IG算法選擇出來的詞向量與Bert模型訓(xùn)練得到的語義向量相結(jié)合。Bert模型[7]是一種基于雙向Transformer[8]編譯器的實現(xiàn)自然語言處理的模型。主要有Embedding模塊、Transformer模塊和輸出的預(yù)微調(diào)模塊[9]。詞嵌入、段嵌入以及位置嵌入三個嵌入信息都是由Bert模型訓(xùn)練得到的,將這三部分的嵌入信息相加,即可得到最后的文本輸入表征。BERT中只使用了經(jīng)典Transformer架構(gòu)中的Encoder部分,完全舍棄了Decoder部分。經(jīng)過Transformer層的處理,Bert模型的最后一次會根據(jù)任務(wù)的不同需求進(jìn)行調(diào)整。

        2.3 注意力機(jī)制的引入

        引入多頭注意力機(jī)制[9]來更有效地提取特征,主要目的是為與類別相關(guān)性強(qiáng)的特征分配更多的權(quán)重,從而更有效地提升特征選擇的能力。

        將原始文本分別進(jìn)行文本分詞和輸入到Bert模型中,進(jìn)行文本分詞后,經(jīng)過特征詞性過濾后進(jìn)行文本表示,得到特征詞向量

        Cm=(c1,c2,…,cm),

        輸入到Bert模型后得到句子向量

        Sm=(s1,s2,…,sm)。

        將得到的特征向量與句子向量進(jìn)行矩陣拼接。通過隨機(jī)Embedding[10-11]生成融合向量

        Em=Con(Cm,Sm)。

        多頭注意力機(jī)制可以有效地捕捉上下文依賴關(guān)系,準(zhǔn)確捕捉詞法和句法語義特征。將融合向量Em送入Q,K,V一般框架下的標(biāo)準(zhǔn)Attention。其計算過程為

        Attention(Q,K,V)=softmax(fatt(Q,K))V,

        (3)

        式中:fatt----概率對齊函數(shù)。

        采用Scaled Dot Product,

        (4)

        式中:dk----矩陣的維度。

        在多頭注意力機(jī)制中,使用不同的權(quán)重矩陣將輸入特征線性化為不同的信息子空間,并在每個子空間中執(zhí)行相同的注意力計算,以充分提取文本上下文相關(guān)語義。 i-head注意力的計算過程為

        (5)

        最后,將各head合并,得到多頭自注意力機(jī)制的輸出,設(shè)多頭注意力的頭數(shù)為n。

        則Ek經(jīng)過多頭注意力計算得到A:

        MHS(Q,K,V)=concat(Q1,Q2,…,Qn),

        (6)

        A=MHS(Ek,Ek,Ek),

        (7)

        完成特征選擇過程。將經(jīng)過注意力機(jī)制得到的特征向量送入全連接層,再經(jīng)過最后softmax分類器得到文本所屬類別的概率,以驗證特征選擇過程的有效性。

        ρ=Linear(A),

        (8)

        ρ*=argmax(ρ),

        (9)

        式中:ρ----用來預(yù)測文本所屬類別;

        ρ*----經(jīng)過函數(shù)argmax計算,導(dǎo)致概率值最大的文本類別標(biāo)簽。

        3 實驗及結(jié)果分析

        3.1 實驗環(huán)境

        操作系統(tǒng):win11;

        GPUNVIDIA TITAN XP*4;

        編程語言python;

        深度學(xué)習(xí)框架為pytorch。

        3.2 數(shù)據(jù)集介紹

        文中使用的實驗數(shù)據(jù)集是國外來源的影評文本數(shù)據(jù)集,數(shù)據(jù)集包含20 000多條真實的電影影評,共分為兩個類別:好評和差評。

        數(shù)據(jù)集包含兩個標(biāo)簽內(nèi)容,分別是content和category。

        整體數(shù)據(jù)集按7∶3分為訓(xùn)練集和測試集。

        3.3 參數(shù)聲明

        模型中的參數(shù)設(shè)置見表1。

        表1 實驗中的參數(shù)設(shè)置

        3.4 評價指標(biāo)

        目前,在自然語言處理領(lǐng)域的評價指標(biāo)[12]多種多樣,但在文本分類領(lǐng)域一般使用準(zhǔn)確率P、召回率R和F1值作為評價指標(biāo),具體計算公式為:

        (10)

        (11)

        (12)

        表2 評價指標(biāo)中變量含義

        3.5 實驗結(jié)果與分析

        為了驗證文中提出的基于注意力機(jī)制的改進(jìn)信息增益模型的有效性,文本做了對比實驗,前人提出的其他模型[13]與文中改進(jìn)的特征選擇模型在相同條件下進(jìn)行,分別與Bert、CNN、Seq2Seq_Att和transformer進(jìn)行了對比,文中改進(jìn)模型在準(zhǔn)確率上略有提升,損失值上也略有進(jìn)步。不同模型與文中提出的模型在影評文本的驗證集上效果見表3。

        表3 不同模型的不同評價指標(biāo)

        通過表3中模型準(zhǔn)確率對比可以看出,引入Bert模型的句子向量,并加入Attention機(jī)制后的改進(jìn)特征選擇模型在準(zhǔn)確率上有了提升。從上述實驗數(shù)據(jù)結(jié)果可以得出,文中改進(jìn)模型在同等條件下與前人提出的模型在分類任務(wù)上有不錯的提升,傳統(tǒng)的IG算法在加入詞性過濾和Attention機(jī)制后,整個特征選擇結(jié)果更加準(zhǔn)確,改進(jìn)模型在特征選擇上有效果。

        在準(zhǔn)確率、召回率和F1值的表現(xiàn)上看,文中準(zhǔn)確率與只使用Bert模型時僅提升約2%,召回率有所增長,表明在傳統(tǒng)特征選擇算法與Bert模型結(jié)果是存在效果的,但Bert模型的預(yù)訓(xùn)練對語義信息的捕捉能力更強(qiáng)。總體來說,文中提出的改進(jìn)模型在特征選擇上效果良好,且在分類效果上表現(xiàn)也具有優(yōu)勢。

        4 總結(jié)與展望

        提出的基于注意力機(jī)制的改進(jìn)特征選擇模型,其主要創(chuàng)新點(diǎn)在于為IG算法引入了Bert模型和注意力機(jī)制,又改進(jìn)了傳統(tǒng)特征選擇算法不考慮詞性對分類效果的這一問題。這種詞性過濾的創(chuàng)新,大大降低了特征選擇算法的計算開銷,減少了冗余;Bert模型與傳統(tǒng)IG算法結(jié)合,提升特征選擇的能力,注意力機(jī)制的引入,為與類別相關(guān)性強(qiáng)的特征分配更大的特征權(quán)重。對比實驗結(jié)果表明,文中提出的改進(jìn)模型效果優(yōu)于其他模型。

        雖然本模型在準(zhǔn)確率上稍有提升,在文中重點(diǎn)數(shù)據(jù)集上也展現(xiàn)出較好的分類效果,但是,文本的工作仍有很多不足,例如,在結(jié)合IG算法與Bert模型時,仍存在一些特征詞向量丟失的情況,對于影評數(shù)據(jù)集中短文本特征空間稀疏的問題沒有得到良好的解決,對影評中一些口語、俚語詞判斷不準(zhǔn)確等。因此,要繼續(xù)對深度學(xué)習(xí)模型進(jìn)行研究,并對IG算法的公式進(jìn)行改進(jìn),爭取進(jìn)一步提升文中模型的效果。

        猜你喜歡
        機(jī)制文本信息
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        破除舊機(jī)制要分步推進(jìn)
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        午夜精品久久久久久久久| 99热这里只有精品久久6| 国产成人激情视频在线观看| 亚洲高清国产成人精品久久| 中文字幕人妻无码视频| 久久亚洲中文字幕伊人久久大| 久久人人爽av亚洲精品| 久久精品人人爽人人爽| 亚洲欧洲日产国码久在线观看| 黄 色 成 年 人 网 站免费| 亚洲乱熟妇一区二区三区蜜桃| 中文字幕一区二三区麻豆| 亚洲一区二区三区四区五区黄| 国产人妻精品一区二区三区不卡 | 综合五月激情二区视频| 人人爽人人爽人人爽| 丰满熟妇人妻无码区| 在线看不卡的国产视频| 产美女被爽到高潮免费a| 伊人久久大香线蕉亚洲五月天| 男女一级毛片免费视频看| 欧美日韩a级a| 亚洲av成熟国产精品一区二区| 精品久久久久久无码中文野结衣 | 女同性恋亚洲一区二区| 口爆吞精美臀国产在线| 久久国产成人精品av| 午夜不卡久久精品无码免费| 国产jk在线观看| 亚洲av性色精品国产| 日本不卡高字幕在线2019| 日韩成人大屁股内射喷水 | 国产99一区二区三区四区| 人人妻人人妻人人片av| 国产精品厕所| 国产黄色污一区二区三区| 日本人妻伦理在线播放| 九九久久精品无码专区| 国产一区二区三区精品久久呦| 国产福利不卡视频在线| 日韩精品无码一区二区三区|