亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        GCN-PU:基于圖卷積網(wǎng)絡的PU文本分類算法

        2021-06-11 10:16:34姚佳奇徐正國燕繼坤王科人
        計算機工程與應用 2021年11期
        關鍵詞:文本

        姚佳奇,徐正國,燕繼坤,王科人

        盲信號處理重點實驗室,成都610041

        目前處在一個信息快速增長的時代,如何根據(jù)用戶給出的感興趣文本,從海量的文本集中挑選出相關文本成為一個急需解決的問題。在實際應用中,用戶只保留了感興趣的文本集以及大量的未標注文本集,即只有正類樣本和未標注的樣本。傳統(tǒng)的有監(jiān)督學習和半監(jiān)督學習都需要正類樣本和負類樣本來訓練分類器[1]。與傳統(tǒng)的有監(jiān)督學習和半監(jiān)督學習不同,PU學習(Positive and Unlabeled)的分類器建立在正類樣本集P和未標注樣本集U的基礎上,其中未標注樣本集同時含有正類樣本和負類樣本[2]。

        PU學習算法可以分成兩類,一類是“兩步法”,即從未標注樣本集中不斷選擇可靠的負類樣本來構建分類器;另一類是“直接法”,即直接在正類樣本和未標注樣本上構建分類器[3]。

        “兩步法”包括S-EM[4]、Roc-SVM[5]和AdaSampling[6]等算法。S-EM算法的第一步采用了間諜技術(Spy Technique),即隨機選取少量已經(jīng)標注的正類樣本作為間諜集S放入未標注樣本集中,然后以P-S作為正類樣本集,以U∪S作為負類樣本集訓練基于EM算法的分類器,最后以間諜集S的類別概率確定選擇可靠負類樣本的閾值。Roc-SVM算法的第一步采用Rocchio算法篩選出可靠的負類樣本集后,利用SVM訓練文本分類器。AdaSampling是一種基于Bootstrap采樣的算法,U中被選擇作為可靠負類樣本的概率為上一輪分類器訓練得到的負類樣本概率。

        “直接法”典型的代表是偏置SVM算法(Biased-SVM)[3]。令X=P∪U,|X|表示集合X的元素個數(shù),則偏置SVM算法的優(yōu)化目標函數(shù)如下所示:

        其中,C+和C-分別為正類樣本損失權重和負類樣本損失權重。C+和C-的具體數(shù)值由驗證集上的近似F1的一種指標確定,f表示分類函數(shù),r為驗證集中正類的召回率,Pr(f(X)=1)為分類器上分為正類的概率。Liu Bing等人通過實驗驗證了偏置SVM算法的性能要優(yōu)于兩步法的S-EM和Roc-SVM算法。

        在偏置SVM算法的基礎上,Mordelet等人提出了BaggingSVM[7],它是一種以偏置SVM算法為基本分類器,每次從未標注樣本集中選取一定樣本作為負類樣本訓練偏置SVM,最后采用Bagging方式集成的算法。

        近年來,神經(jīng)網(wǎng)絡模型在自然語言處理任務上取得了較優(yōu)的性能[8],研究者研究了基于神經(jīng)網(wǎng)絡的“直接法”類的PU學習算法。du Plessis等人將PU學習建模成代價敏感的學習問題,并提出了一種無偏的PU損失函數(shù)(Unbiased PU,UPU)[9-10]。令πp=Pr(y=1),πn=Pr(y=-1)=1-πp,πp和πn分別表示正負類樣本的概率;令pp(x)=Pr(x|y=1),pn(x)=Pr(x|y=-1),pp(x)和pn(x)分別表示正負類樣本的概率分布;令l損失函數(shù)l:R×{±1}→R,R+p(f)=Ex~pp(l(f(x),+1)),R-n(f)=Ex~pn(l(f(x),-1))。UPU依據(jù)概率公式πn pn(x)=p(x)-πp pp(x),間接計算出負類樣本的損失函數(shù),具體計算如下所示:

        然而Kiryo等人指出當訓練模型復雜的時候,尤其是應用深度學習時,由UPU損失函數(shù)計算出的經(jīng)驗損失函數(shù)將會變成負值,從而導致了嚴重的過擬合問題[11]。因而Kiryo等人提出了一種非負的損失函數(shù)(Non-Negative PU,NNPU),即限制由未標注樣本集上的損失函數(shù)間接計算出負類樣本的損失函數(shù)非負:

        從上文的介紹中可以看出,“兩步法”本質上對未標注樣本集中的樣本賦予{0,1}損失權重,每次迭代給負類別概率較大的樣本賦予1,其余則為0。然而,在實際應用中,由于閾值選擇的困難,每次選擇都可能將U中的正類樣本標為負類樣本,或者將負類樣本標為正類樣本,從而影響分類器的性能。

        而“直接法”則是對不同類別的樣本賦予不同的損失權重,即屬于同一類別集合中的損失權重一樣,不屬于同一類別結合中的損失權重不一樣。因而,“直接法”不能夠依據(jù)具體的單個樣本給出相應的損失權重,當分類模型復雜的時候,尤其是基于神經(jīng)網(wǎng)絡的模型,“直接法”將U中的樣本全部視為負類樣本,從而因為U中含有正類樣本導致容易過擬合,進而影響分類器的性能。

        圖卷積網(wǎng)絡(Graph Convolutional Network,GCN)[12-15]在半監(jiān)督學習領域得到了越來越多的關注。本文提出了一種基于圖卷積網(wǎng)絡的PU文本分類算法(GCN-PU),算法的示意圖如圖1所示。GCN-PU由兩部分組成,分別是文本分類器和損失權重計算器。本文采用了基于卷積神經(jīng)網(wǎng)絡的文本分類器和基于圖卷積網(wǎng)絡的損失權重計算器。GCN-PU首先將未標注樣本集U中的樣本全部視為負類樣本,聯(lián)合已標注的正類樣本集訓練基于卷積神經(jīng)網(wǎng)絡的文本分類器;然后,取文本分類器的倒數(shù)第二層的輸入向量為文本的特征向量,并利用該向量構建圖卷積網(wǎng)絡中的鄰接矩陣以及特征輸入;同時,將卷積神經(jīng)網(wǎng)絡訓練得到的未標注文本集的類別概率作為圖卷積網(wǎng)絡的未標注樣本集的訓練目標,考慮到類別平衡問題,只選取與正類樣本同等個數(shù)的負類概率最大的樣本,其余的仍作為未標注樣本集;最后,依據(jù)圖卷積網(wǎng)絡的類別概率計算未標注樣本集U中的每個樣本的損失權重,重新訓練基于卷積神經(jīng)網(wǎng)絡的文本分類模型。不斷迭代上述過程,直到圖卷積網(wǎng)絡的類別概率穩(wěn)定為止。

        圖1 GCN-PU算法示意圖

        圖卷積網(wǎng)絡的基本思想是通過節(jié)點間的信息傳播更新節(jié)點的特征表示,從而使得臨近的樣本具有相似的特征表示。GCN-PU利用圖卷積網(wǎng)絡的這一特性,給未標注文本集U中的每個樣本賦予[0,1]之間的一個軟權重,從而避免了“兩步法”的硬權重判別帶來的樣本噪聲。同時,相對于“直接法”在類別上賦予權重,GCN-PU直接在樣本上賦予權重更為精細。在公開數(shù)據(jù)集20newsgroup上的實驗結果表明,本文提出的GCN-PU算法相對于現(xiàn)有的算法具有較優(yōu)的性能。

        1 圖卷積網(wǎng)絡

        圖卷積網(wǎng)絡將傳統(tǒng)的卷積操作擴展到了圖數(shù)據(jù)結構上。圖卷積網(wǎng)絡主要有兩種類型[15]:一種是空間圖卷積網(wǎng)絡(Spatial GCN),利用節(jié)點的鄰居節(jié)點更新節(jié)點的特征向量;另一種是譜圖卷積網(wǎng)絡(Spectral GCN),通過拉普拉斯變換將圖映射到譜空間。

        譜圖卷積網(wǎng)絡需要計算拉普拉斯特征向量,計算時間復雜度較高,Kipf和Welling等人提出了一種簡單的近似計算方法,如下所示[10]:

        H(i)∈Rn×d表示第i層的輸出矩陣,其中n為節(jié)點的個數(shù),d為節(jié)點的特征維數(shù);σ為激勵函數(shù);A?為規(guī)范化的鄰接矩陣,,其中A為節(jié)點間的鄰接矩陣,In為n階的單位矩陣;D?為對角矩陣,其中對角線元素。

        Kipf和Welling等人將圖卷積網(wǎng)絡應用到了半監(jiān)督學習領域,在一些測試集上取得了明顯的性能優(yōu)勢。圖卷積網(wǎng)絡的卷積操作將節(jié)點的特征向量和節(jié)點間的圖結構結合在一起。節(jié)點的特征向量每經(jīng)過一次圖卷積操作,就通過圖結構利用臨近節(jié)點更新自己的特征向量,從而使得相似的節(jié)點具有相似的特征向量。本文提出的GCN-PU算法利用圖卷積網(wǎng)絡的這一特性計算未標注樣本集U中的樣本與正類樣本的相似度。未標注樣本集U中與正類樣本越相似的樣本,在訓練分類模型時的損失權重越小。下一章具體介紹本文提出的GCN-PU算法。

        2 GCN-PU:基于圖卷積網(wǎng)絡的PU文本分類算法

        本文提出的GCN-PU算法由文本分類器和損失權重計算器兩部分構成,其中文本分類器基于卷積神經(jīng)網(wǎng)絡,損失權重計算器基于圖卷積網(wǎng)絡。文本分類器為損失權重計算器提供文本的特征向量以及類別概率,而損失權重計算器圖卷積網(wǎng)絡為文本分類器提供未標注樣本集的損失權重。下面分別介紹兩個模塊的具體構成以及聯(lián)合訓練的方法。

        2.1 文本分類器

        本文構建了基于卷積神經(jīng)網(wǎng)絡的文本分類器,如圖2所示。對于一個文本樣本xi,首先從預訓練好的詞嵌入矩陣(Word Embedding Matrix)中查詢對應的詞向量,并將這些詞向量按順序拼接成該文本的詞向量化矩陣表示xi=(wvi1,wvi2,…,wvil),其中每個詞向量的維度為dw,l為文本最大長度。然后應用不同尺寸的卷積核和最大池化操作獲取更加抽象和高層的文本特征向量表示Fi。最后將Fi經(jīng)過一個激活函數(shù)為sigmoid函數(shù)的全連接層,計算該文本的屬于正類概率pi=1/(1+exp(-(W Fi+b)))。

        圖2 文本分類器模型示意圖

        本文利用下文介紹的損失權重計算器得到的權重wi對不同樣本的損失加權,如下所示:

        其中,Θ表示文本分類器中所有可訓練的參數(shù)。

        2.2 損失權重計算器

        本文提出的GCN-PU算法利用圖卷積網(wǎng)絡計算未標注樣本集U中不同樣本的損失權重。首先,通過文本分類器獲取每個文本的特征向量Fi。令F為由Fi,1≤i≤|X|拼接成的矩陣,然后依據(jù)如下公式計算樣本之間的鄰接矩陣:

        Aij′度量了樣本i和樣本j之間的相關性,采用最大歸一化確保了鄰接矩陣中的元素Aij′∈[0,1]。同時,為了避免噪聲數(shù)據(jù)的干擾,設置了閾值τ,將Aij′小于閾值的設為0:

        令A為由Aij構成的鄰接矩陣,將A?=A+In帶入到公式(4)即為圖卷積網(wǎng)絡層的一次運算。本文采用了兩層圖卷積運算,然后應用sigmoid函數(shù)計算其屬于正類的概率,具體如下所示:

        GP∈R|X|,其中每一個分量表示對應樣本的正類別概率。從文本分類器中選取正類概率最小的|P|個樣本聯(lián)合已標注的正類樣本集構成標注的樣本集DL。令已標注的正類樣本集的y=1,而從未標注樣本集中選取的樣本的y為文本分類器計算得到的相應概率,則圖卷積網(wǎng)絡的損失函數(shù)為:

        其中,Φ為所有訓練的參數(shù)。

        本文采用了分段線性函數(shù)計算未標注樣本集中的損失權重:

        該函數(shù)具有兩個閾值θ1和θ2,并且θ1<θ2。GPi表示的是樣本i屬于正類的概率,其值越大,表明與正類樣本越相似,而越小,表明與負類樣本越相似。因而本文將未標注樣本集U中正類概率GPi>θ2的樣本權重設為0,而將GPi<θ1的樣本權重設為1,同時對GPi處于[θ1,θ2]之間的樣本應用線性遞減函數(shù)。該損失權重的計算方法減小了未標注樣本集中與正類樣本相似的損失權重,從而為下一輪分類模型的訓練減少了錯誤樣本的損失。

        2.3 聯(lián)合模型訓練算法

        GCN-PU由兩個部分構成,文本分類器和損失權重計算器,并且兩個部分互相影響,因而本文對這兩個部分進行聯(lián)合訓練。聯(lián)合模型訓練算法的整體框架如算法1所示。首先預訓練文本分類器和損失權重計算器,然后不斷迭代訓練文本分類器和損失權重計算器,直到未標注樣本集U中的樣本損失權重幾乎不變時,停止整個訓練過程。具體的停止規(guī)則如下所示:

        一般而言,標注的正類樣本集的樣本個數(shù)小于未標注樣本集的樣本個數(shù)。為了平衡樣本的損失,在預訓練文本分類器時,將所有已標注的正類樣本的損失權重為|U|/|P|,而未標注樣本集中的所有樣本損失權重為1。預訓練結束后,得到文本分類器f(0),損失權重計算器g(0),以及損失權重w(0),上角標表示迭代的輪數(shù)。

        算法1GCN-PU整體訓練算法

        輸入:標注的正類文本集P,未標注的文本集U

        輸出:文本分類器f

        1.初始化文本分類模型和損失權重計算模型。

        2.令正類樣本的損失權重為|U|/|P|,未標注樣本集U中樣本全部為負類,損失權重為1,預訓練文本分類器f(0)。

        3.按照2.2節(jié)的描述構建圖卷積網(wǎng)絡g(0),并訓練,按照公式(10)計算得到U中樣本的損失權重w(0)∈R|U|。

        4.按照算法2聯(lián)合訓練文本分類模型和損失權重計算模型,直到收斂,輸出最終的文本分類器f。

        算法2GCN-PU聯(lián)合訓練算法

        輸入:標注的正類文本集P,未標注的文本集U,文本分類器f(0),損失權重計算器g(0),以及損失權重w(0)

        輸出:文本分類器f

        令k=0

        do

        1.根據(jù)公式(5)以及w(k)計算文本分類器f(k)的損失函數(shù)L(f(k))

        2.依據(jù)優(yōu)化算法減小L(f(k)),訓練得到f(k+1)

        3.將P∪U中的樣本輸入到f(k+1),得到文本的特征向量F(k+1)以及對應的正類概率p(f)(k+1)

        4.從U中選取|P|個正類概率最小的樣本作為已知的負類樣本集,與已標注的正類樣本集構成圖卷積網(wǎng)絡的已知樣本集D(k+1)L

        5.依據(jù)公式(9)計算圖卷積網(wǎng)絡的損失函數(shù)L(g(k)),并利用優(yōu)化算法減小L(g(k)),訓練得到g(k+1)

        6.依據(jù)公式(10)計算得到損失權重w(k+1)

        7.k=k+1

        while公式(11)不成立

        算法2詳細展示了聯(lián)合訓練的方法。從中可以看出,文本分類器為損失權重計算器提供文本的特征向量,而損失權重計算器在此基礎上更新樣本的損失權重,為文本分類器提供更加精細的樣本損失。文本分類器和損失權重計算器兩者互相影響,互相促進,直到損失權重計算器計算得到的損失權重不再變化。

        3 實驗結果與分析法

        為了證明GCN-PU的有效性,本文選擇了PU文本分類常用的公開數(shù)據(jù)集20newsgroup(http://qwone.com/~jason/20Newsgroups/)作為驗證數(shù)據(jù)集。20newsgroup數(shù)據(jù)集共有20個類別,每個類別大約有1 000篇文檔。并與偏置SVM算法、BaggingSVM、AdaSampling、UPU和NNPU算法進行了對比。

        3.1 數(shù)據(jù)集的構造

        本文首先隨機選取30%的文檔作為測試集,70%的文檔作為訓練集,然后采用了兩種方式構造PU數(shù)據(jù)集:

        (1)正負樣本不平衡

        按照文獻[3]的方法,選取其中1個類別作為正類,其余19個類別作為負類,從而構造了20組正負樣本不平衡的樣本集。然后選取訓練集中一定比例γ的正類樣本作為標注的正類樣本,剩下的正類樣本和所有的負類樣本均作為未標注樣本。

        (2)正負樣本平衡

        按照文獻[9]的方法,選取以“alt”“comp”“misc”和“rec”開頭的類別作為正類,選取“sci”“soc”和“talk”開頭的類別作為負類,從而構造成正負樣本較為平衡的數(shù)據(jù)集。然后選取訓練集中一定數(shù)目N+的正類樣本作為標注的正類樣本,剩下的正類樣本和所有負類樣本均作為未標注樣本。

        3.2 實驗方法及參數(shù)配置

        偏置SVM算法、BaggingSVM和AdaSampling算法采用了TF-IDF特征,濾除了出現(xiàn)次數(shù)少于5次以及文檔頻率大于0.9的詞匯。偏置SVM算法、BaggingSVM和AdaSampling算法分別按照相應的原始論文設定和選取超參數(shù)。

        UPU、NNPU和本文提出的GCN-PU采用了利用谷歌新聞預訓練的詞嵌入矩陣[16-17]作為文本的特征輸入,基礎模型架構均為卷積神經(jīng)網(wǎng)絡,卷積核尺寸分別為3、4、5,每個尺寸的卷積核個數(shù)為128,卷積核的激勵函數(shù)為Relu,并應用最大池化,優(yōu)化算法為Adam算法[18]。

        3.3 結果與分析

        本文使用F1指標對不同算法的性能進行評估。下面分別介紹正負樣本不平衡和平衡下的實驗結果與分析。

        (1)正負樣本不平衡

        正負樣本不均衡的實驗結果如表1所示。本文設置了標注的正樣本的個數(shù)占總正樣本的個數(shù)的比例γ從0.1到0.9,然后取同一比例的20個數(shù)據(jù)集的平均性能。

        表1 正負樣本不平衡的實驗結果

        從表1中可以看出本文提出的GCN-PU算法在不同γ下均取得了最優(yōu)的性能,并且當γ較小時,取得的性能優(yōu)勢更為明顯,如當γ=0.1時,相對于次優(yōu)的AdaSampling算法,GCN-PU算法提升了17.2%的性能。這是因為GCN-PU算法中的圖卷積網(wǎng)絡在正類樣本較少的情況下,仍然能夠利用其臨近樣本具有相似特征的特性,將未標注的正類樣本識別出來,進而降低這些樣本在訓練文本分類器時的損失權重。

        為了驗證上述結論,表2列出了正類類別為alt.atheism,在不同γ下,GCN-PU算法終止時,未標注樣本集U中的正類樣本和負類樣本的損失權重的均值。實驗結果顯示在不同γ下,損失權重計算器計算得到的未標注正類樣本損失權重均值都遠遠小于未標注負類樣本的損失權重均值,有的甚至均值為0。

        表2 正類類別為alt.atheism,正負類樣本損失權重均值

        (2)正負樣本平衡

        在正負樣本不平衡的數(shù)據(jù)集上測試UPU和NNPU的性能時,實驗結果表明在不同γ下,UPU和NNPU的F1值均接近于0。通過分析公式(2)和公式(3),可以看出UPU和NNPU的本質上是優(yōu)化0-1損失,并假設了P∪U中的正類樣本和負類樣本是大致平衡的。當樣本不平衡時,即負類樣本遠遠多于正類樣本,UPU和NNPU仍然有較小的0-1損失,也即較高的準確率,但是由于將少數(shù)的正類樣本均分類為負類樣本,導致了F1值較低。

        為了比較GCN-PU算法與UPU和NNPU算法的性能,本文按照NNPU論文中的方法構造了正負樣本平衡的數(shù)據(jù)集,仍然采用F1性能指標,得到的實驗結果如表3所示。實驗結果表明在采用同樣的文本分類器模型的情況下,本文提出的GCN-PU算法的性能要優(yōu)于UPU和NNPU的算法性能。

        表3 正負樣本平衡的實驗結果

        4 結束語

        針對PU文本分類問題,本文提出了一種基于圖卷積網(wǎng)絡的PU文本分類算法GCN-PU。GCN-PU算法由基于卷積網(wǎng)絡的文本分類器和基于圖卷積網(wǎng)絡的損失權重計算器兩部分組成。文本分類器為損失權重計算器提供文本的特征向量,損失權重計算器為文本分類器提供未標注樣本集中的樣本損失權重,兩者交替訓練,互相促進。相對于“兩步法”中對未標注樣本集中的樣本0或者1的硬權重,GCN-PU利用基于圖卷積網(wǎng)絡的損失權重計算器賦予樣本[0,1]之間的軟權重,從而避免了硬權重有可能帶來的樣本噪聲。相對于“直接法”在類別上賦予不同的損失權重,GCN-PU基于樣本的損失權重則更為精細。實驗結果表明了GCN-PU算法在正負樣本平衡和正負樣本不平衡的數(shù)據(jù)集上,均取得了優(yōu)于現(xiàn)有算法的性能。

        GCN-PU算法的框架可以應用于樣本標簽有錯的分類任務中,即通過基于圖卷積網(wǎng)絡的損失權重計算器降低標簽錯誤的樣本損失權重,從而提升分類器的性能。未來,將進一步研究這一工作。

        猜你喜歡
        文本
        文本聯(lián)讀學概括 細致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        藝術評論(2020年3期)2020-02-06 06:29:22
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        精品手机在线视频| 久久久久久久亚洲av无码| 成人欧美一区二区三区| 久久精品日韩av无码| 海角国精产品一区一区三区糖心 | 国产91在线免费| 在线看片免费人成视久网不卡| 福利视频一区二区三区| 国产l精品国产亚洲区久久| 96免费精品视频在线观看| 久久精品无码一区二区三区不卡 | 精品厕所偷拍一区二区视频| 无码ol丝袜高跟秘书在线观看| 91网站在线看| 国产av大片久久中文字幕| 香蕉成人伊视频在线观看| 成人区人妻精品一熟女| 国产一区二区三区韩国| 手机av在线播放网站| 中文字幕亚洲乱码熟女1区| 挺进朋友人妻雪白的身体韩国电影 | 国产欧美一区二区精品性色| 国产精品一区二区午夜久久| 国产亚洲精品综合在线网站| 91精品国产一区国产二区久久| 精品丰满人妻无套内射| 后入内射欧美99二区视频| 亚洲在战AV极品无码| 中文字幕中文字幕在线中二区 | 亚洲人成网站在线播放小说| 久久av粉嫩一区二区| 国产一区二区女内射| 亚洲午夜成人片| 丰满少妇一区二区三区专区| 在线播放av不卡国产日韩| 日韩亚洲av无码一区二区三区| 人妖另类综合视频网站| 亚洲av在线观看播放| 曰韩亚洲av人人夜夜澡人人爽| 在线视频 亚洲精品| 青青草视频在线播放观看|