牙珊珊,陳定甲,鄭宏春,李 航,覃 曉
(1.南寧師范大學(xué),廣西人機交互與智能決策重點實驗室,廣西南寧 530100;2.廣西民族大學(xué)人工智能學(xué)院,廣西南寧 530006)
在文本分類[1]任務(wù)中,高精度的關(guān)系分類算法是信息分類以及智能問答等任務(wù)的關(guān)鍵?;谏疃葘W(xué)習(xí)的實體關(guān)系分類算法,如CNN[2]、RNN[3]、BILSTM[4]和ATT+BILSTM[5]在對文本數(shù)據(jù)的處理中展現(xiàn)了較好的分類效果,然而使用上述神經(jīng)網(wǎng)絡(luò)算法[6,7]解決關(guān)系分類問題需要大量的標(biāo)簽數(shù)據(jù)才能保證模型得到有效的訓(xùn)練。
關(guān)系抽取中常用的數(shù)據(jù)集包括SemEval、Wiki80、FewRel[8]、NYT10等,SemEval、Wiki80和FewRel都是由人工精細(xì)標(biāo)注的數(shù)據(jù)集,而NYT10數(shù)據(jù)集是通過遠(yuǎn)程監(jiān)督得到的。使用遠(yuǎn)程監(jiān)督(Distant Supervision,DS)算法[9,10]可以自動標(biāo)注數(shù)據(jù),極大地降低獲取大量標(biāo)簽數(shù)據(jù)的成本,因而利用DS算法來構(gòu)建關(guān)系分類訓(xùn)練數(shù)據(jù)集,是目前常用的標(biāo)注數(shù)據(jù)集構(gòu)建方法,而使用DS算法構(gòu)建的數(shù)據(jù)集,稱為DS數(shù)據(jù)集。
在DS算法中,對于一個給定的三元組(實體,關(guān)系,實體),若在外部文檔庫的句子中檢測出這對實體,則將句子定義為這種關(guān)系,否則將關(guān)系標(biāo)注為‘none’。這樣的標(biāo)注方法,使得獲取的標(biāo)注數(shù)據(jù)集存在大量的噪聲數(shù)據(jù)。如何去除DS數(shù)據(jù)集的噪聲,為文本關(guān)系分類模型的訓(xùn)練提供更科學(xué)有效的數(shù)據(jù)集,已經(jīng)成為文本關(guān)系分類領(lǐng)域普遍關(guān)注的問題。Zeng等[11]使用卷積DNN算法將神經(jīng)網(wǎng)絡(luò)應(yīng)用于關(guān)系分類中,取得了不錯的效果;此后,Zeng等[12]提出了利用PCNN+多示例學(xué)習(xí)(MIL)的方法用于遠(yuǎn)程監(jiān)督的實體抽取任務(wù),為遠(yuǎn)程監(jiān)督的噪聲問題提供了一個很好的解決方案;Ji等[13]對Zeng等[12]的方法進行了優(yōu)化并提出APCNNs模型,在訓(xùn)練數(shù)據(jù)中加入了實體的描述信息,從而使實體關(guān)系分類效果有了很大提升;Lin等[14]提出了一種基于句子級注意力的卷積神經(jīng)網(wǎng)絡(luò)(PCNN+ATT)用于遠(yuǎn)程監(jiān)督關(guān)系抽取,進一步提高了實體關(guān)系分類效果。盡管在許多情況下前述方法是簡單且有效的,但是當(dāng)一個實體對中的句子都是假陽性時,這些方法獲得的標(biāo)注數(shù)據(jù)仍是噪聲數(shù)據(jù)。因此,Qin等[15]提出將遠(yuǎn)程監(jiān)督數(shù)據(jù)集分成正樣例集和負(fù)樣例集,引入一種基于策略的強化學(xué)習(xí)方法來去除DS數(shù)據(jù)集中的噪聲。但上述方法并沒有考慮DS數(shù)據(jù)集中的正樣例數(shù)據(jù)(Positive Data,PD)和負(fù)樣例數(shù)據(jù)(Negative Data,ND)的均衡問題,也沒有充分利用DS數(shù)據(jù)集中負(fù)樣例集對訓(xùn)練去噪模型的貢獻,導(dǎo)致去噪效果仍達不到目標(biāo)。
針對上述問題,本研究構(gòu)建了一種新型的DS數(shù)據(jù)集去噪模型——Positive Reinforcement Learning Model (PRL模型)。首先,利用基于關(guān)系模式的正樣例抽取算法(Pattern_Based Data Extraction Agorithm,PDEA)剔除正樣例集中的假正例,獲得一個高質(zhì)量的正樣例數(shù)據(jù)集;然后,使用高質(zhì)量的正樣例數(shù)據(jù)集輔助抽取高質(zhì)量的負(fù)樣例數(shù)據(jù)集,并利用Focal Loss替代傳統(tǒng)交叉熵解決分類過程中正負(fù)樣例數(shù)據(jù)不平衡的問題,從而得到高質(zhì)量的負(fù)樣例數(shù)據(jù)集;最后,用深度強化學(xué)習(xí)的方法進一步去噪,得到更純凈的遠(yuǎn)程監(jiān)督數(shù)據(jù)集,同時通過實驗驗證模型的有效性。
使用遠(yuǎn)程監(jiān)督算法可以快速且輕松地獲取大量的帶標(biāo)簽數(shù)據(jù)。遠(yuǎn)程監(jiān)督算法可以基于一個標(biāo)注好的小型知識圖譜[16],給外部文檔庫中的句子標(biāo)注關(guān)系標(biāo)簽,相當(dāng)于做了樣本的自動標(biāo)注,因此是一種半監(jiān)督的算法。然而DS算法的自動標(biāo)注不能真實涵蓋實際句子的所有關(guān)系,因而在對實際文檔的句子進行關(guān)系標(biāo)注時,容易出現(xiàn)錯誤標(biāo)注的情況,導(dǎo)致數(shù)據(jù)集中存在著大量的噪聲。
如圖1所示,知識庫中已有三元組(中國,首都,北京),根據(jù)遠(yuǎn)程監(jiān)督自動標(biāo)注原則,外部文檔的句子中若出現(xiàn)“中國”“北京”兩個實體,則認(rèn)為該句子所表達的是首都的關(guān)系,表示這種句子的關(guān)系類型都為首都。然而,在這樣的弱假設(shè)下進行實體類型標(biāo)注會帶來大量的錯誤數(shù)據(jù),例如在某些句子中,“中國”“北京”兩個實體間不一定是首都的關(guān)系,可能是方位的關(guān)系,如句子“北京在中國的北方”。因此,對DS數(shù)據(jù)集進行去噪,提取純度更高的數(shù)據(jù)集,更有利于關(guān)系分類模型的訓(xùn)練。
圖1 三元組實例Fig.1 Example of triples
強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)的方法之一,其特征為在機器學(xué)習(xí)的過程中,通過交互的方式取得更好的學(xué)習(xí)效果。強化學(xué)習(xí)方法常常被用于解決遠(yuǎn)程監(jiān)督中的噪聲數(shù)據(jù)問題,F(xiàn)eng等[17]在示例選擇器中使用強化學(xué)習(xí)方法選擇高質(zhì)量的句子并將其輸入到關(guān)系分類器中,關(guān)系分類器則進行分類預(yù)測并將結(jié)果返回給示例選擇器,這兩個模塊聯(lián)合訓(xùn)練可以降低遠(yuǎn)程監(jiān)督關(guān)系抽取中的噪聲數(shù)據(jù)問題;Zeng等[18]應(yīng)用強化學(xué)習(xí)方法,把關(guān)系抽取器看作是強化學(xué)習(xí)智能體,目標(biāo)是獲得更高的長期獎勵,以此來解決遠(yuǎn)程監(jiān)督中的噪聲數(shù)據(jù)問題。Qin等[15]基于強化學(xué)習(xí)提出了一種新的去噪方法,即通過動態(tài)選擇策略(Dynamic selection strategy)來增強遠(yuǎn)程監(jiān)督關(guān)系抽取,通過預(yù)訓(xùn)練策略訓(xùn)練一小部分標(biāo)簽數(shù)據(jù),用于加速強化學(xué)習(xí)的訓(xùn)練;之后使用深度強化學(xué)習(xí)智能體用于學(xué)習(xí),使得每一個智能體都具有識別相應(yīng)關(guān)系類型中的錯誤標(biāo)注樣例的能力,利用這些智能體作為分類器來選擇是否刪除或保留遠(yuǎn)程監(jiān)督的候選實例,從而獲得較好的降噪效果。
上述強化學(xué)習(xí)方法(圖2)均使用交叉熵作為最終分類的損失函數(shù)。由于DS數(shù)據(jù)集天然帶有大量的噪聲數(shù)據(jù),正負(fù)樣例比例極度不均衡,而交叉熵函數(shù)采用類間競爭機制,只關(guān)心正確標(biāo)簽預(yù)測的準(zhǔn)確性,而忽略了其他非正確標(biāo)簽的差異。在使用交叉熵作為損失函數(shù)時無法擬合其數(shù)據(jù)分布,從而導(dǎo)致最終的分類錯誤。因而用帶有噪聲數(shù)據(jù)的樣本不平衡數(shù)據(jù)集訓(xùn)練的RL模型,性能并不可靠。
圖2 RL模型架構(gòu)圖Fig.2 RL model architecture diagram
關(guān)系模式(pattern) 最早由Hearst等[19]提出,表示兩個實體之間的文本。Jia等[20]提出關(guān)系模式是遠(yuǎn)程監(jiān)督中鑒別噪聲數(shù)據(jù)的關(guān)鍵。如圖3中句子“Bill Lockyer was born in California”和 “Bill Lockyer is an attorney general of California”都包含兩個實體“Bill Lockyer”和“California”,知識庫中所有的關(guān)系是 place_of_birth (出生地),兩個句子的關(guān)系模式分別是“Was born in (出生于,與關(guān)系標(biāo)簽語義相同)”和“Is an attorney general of (是司法部部長,與關(guān)系標(biāo)簽截然不同)”,可知第一個句子的實體關(guān)系能夠正確地打上標(biāo)簽,而第二個句子的實體關(guān)系則被打上錯誤的標(biāo)簽??梢娫谂袛嗑渥訕?biāo)簽是否正確時,其中的關(guān)系模式起到關(guān)鍵的作用。利用關(guān)系模式,可以更好地識別標(biāo)注正確的關(guān)系數(shù)據(jù)。在本研究的算法模型中,將利用關(guān)系模式提取DS數(shù)據(jù)集中的高質(zhì)量標(biāo)注數(shù)據(jù)。
圖3 兩個關(guān)系的實例Fig.3 Example of two relations
Qin等[15]簡單地將DS數(shù)據(jù)集中的有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù),分別當(dāng)作正樣例和負(fù)樣例來訓(xùn)練RL分類模型。如前所述,在DS數(shù)據(jù)集中,使用自動標(biāo)注方法不可避免地存在許多噪聲,而噪聲數(shù)據(jù)是導(dǎo)致深度強化學(xué)習(xí)方法不能很好地提取DS數(shù)據(jù)集中的正確標(biāo)注數(shù)據(jù)的關(guān)鍵。為此,本研究提出基于關(guān)系模式的DS數(shù)據(jù)集去噪模型(PRL模型),如圖4所示。
圖4 PRL模型Fig.4 PRL model
PRL模型分為兩個部分,前半部分是DS數(shù)據(jù)集預(yù)處理模型(Denoising Model for DS,DS-DM),后半部分是深度強化學(xué)習(xí)(RL)模型。
前半部分DS-DM的功能主要是使用本研究提出的基于關(guān)系模式的正樣例抽取算法PDEA對DS數(shù)據(jù)集進行篩選,找出其中的高質(zhì)量的正樣例數(shù)據(jù)集(Confident Positive Data,CPD),之后再使用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)Filter-net篩選出高質(zhì)量的負(fù)樣例數(shù)據(jù)集(Confident Negative Data,CND)。
后半部分是將前半部分處理后得到的高質(zhì)量的正樣例數(shù)據(jù)集和高質(zhì)量的負(fù)樣例數(shù)據(jù)集作為新的遠(yuǎn)程監(jiān)督數(shù)據(jù)集,再使用深度強化學(xué)習(xí)方法進一步去噪,最終得到一個更純凈的遠(yuǎn)程監(jiān)督數(shù)據(jù)集DS′。
關(guān)系模式是存在于句子實體間的一個詞或詞組。如果句子的關(guān)系模式多次重復(fù)出現(xiàn),那么該關(guān)系模式能夠更準(zhǔn)確地表現(xiàn)句子的關(guān)系。PDEA正是要借助高頻出現(xiàn)的關(guān)系模式,從DS正樣例中挑選出高質(zhì)量的正樣例。
定義1(正樣例數(shù)據(jù)集):DS數(shù)據(jù)集中標(biāo)簽不為‘none’的數(shù)據(jù)集合。記為
PD={si,tj|si∈DS,tj∈標(biāo)簽,ti≠′none′,
i∈(1,…,n),j∈(1,…,m)},
(1)
式(1)中,si表示DS數(shù)據(jù)集中的第i個句子,tj表示DS數(shù)據(jù)集中的第j種關(guān)系標(biāo)簽,n為DS數(shù)據(jù)集中的句子個數(shù),m為DS數(shù)據(jù)集中的標(biāo)簽數(shù)。
定義2(高質(zhì)量的正樣例集):由含有高頻關(guān)系模式的正樣例數(shù)據(jù)組成的集合,記為
CPD={(ci,pj)Ppatterni|i∈(1,…,pn),j∈(1,…,m),Ppatterni>r},
(2)
PDEA如算法1所示。對于DS數(shù)據(jù)集中的正樣例集的任意一個句子si,抽取其關(guān)系模式,記為mi,若mi首次出現(xiàn)(在模式集M中不存在),則將其存入模式集中,否則mi的計數(shù)加一。如果mi的頻數(shù)大于指定的閾值,則將mi記為一個高頻模式,而含有高頻關(guān)系模式的句子構(gòu)成高質(zhì)量的正樣例數(shù)據(jù)集CPD。
算法1:PDEA
Input:DS數(shù)據(jù)集D={PD,ND},閾值γ
Output:高質(zhì)量的正樣例數(shù)據(jù)集CPD
1. forsi∈PD do:
2. Extract words between two entities as a patternmi
3. ifminot inM:
4. Add tuple (mi:1) intoM
5. else:
6.M[mi]=+1
7. End for
8. formi∈Mdo
9. ifM[mi]>=γ:
10. AddmiintoMhigh
11. selectMhighfrom PD to CPD
12. return CPD
利用PDEA獲取到的高質(zhì)量的正樣例數(shù)據(jù)集,加上DS數(shù)據(jù)集中的負(fù)樣例,作為卷積神經(jīng)網(wǎng)絡(luò)Filter-net的訓(xùn)練數(shù)據(jù)集,訓(xùn)練Filter-net篩選出高質(zhì)量的負(fù)樣例數(shù)據(jù)集。圖5即是本研究提出的Filter-net模型,采用CNN為基礎(chǔ)網(wǎng)絡(luò)。
圖5 Filter-net的網(wǎng)絡(luò)架構(gòu)Fig.5 Network architecture of Filter-net
由于DS數(shù)據(jù)集本身所含有的負(fù)樣例數(shù)據(jù)量非常大,而經(jīng)過PDEA篩選得到的高質(zhì)量正樣例數(shù)據(jù)量比較少,這就導(dǎo)致如果在卷積神經(jīng)網(wǎng)絡(luò)中使用傳統(tǒng)交叉熵作為損失函數(shù)時很容易產(chǎn)生數(shù)據(jù)不均衡現(xiàn)象,進而導(dǎo)致分類錯誤。
為解決這一問題,本研究在卷積神經(jīng)網(wǎng)絡(luò)中使用Focal Loss作為損失函數(shù)。具體公式如下:
FL(Pt)=-(1-Pt)γlogPt,
(3)
式(3)中,Pt為數(shù)據(jù)x標(biāo)注為標(biāo)簽y的分類概率,γ為縮放因子。
Focal Loss在傳統(tǒng)交叉熵的基礎(chǔ)上加入了調(diào)節(jié)因子(1-Pt)。當(dāng)對負(fù)樣例分類時,因為負(fù)樣例數(shù)量大,Pt的值趨向于1,調(diào)節(jié)因子(1-Pt)趨近于0,則負(fù)樣例的損失就會增大,從而抑制對負(fù)樣例的分類操作。當(dāng)模型對正樣例分類時,由于正樣本數(shù)量較少,Pt的值趨向于0,(1-Pt)趨向于1,整體損失值不變,因而不影響正樣例分類效果。簡單地說,F(xiàn)ocal Loss調(diào)節(jié)因子(1-Pt)能有效解決訓(xùn)練數(shù)據(jù)不均衡問題。
Filter-net的整體算法如算法2所示,把DS數(shù)據(jù)集的正負(fù)樣例數(shù)據(jù)Dij輸入到網(wǎng)絡(luò)中,先經(jīng)過矢量表示法(Vector representations)將Dij集合轉(zhuǎn)化為更低維度的詞向量x′,這個步驟在算法中設(shè)為VP(x)。對詞向量同時進行三層卷積,網(wǎng)絡(luò)會把三層卷積的結(jié)果拼接成新的特征向量x″,特征向量x″代入損失函數(shù)Focal Loss計算,最終得到對應(yīng)的預(yù)測標(biāo)簽y(Dij)。
算法2:Filter-net算法
Input:CPD,ND
Output:預(yù)測標(biāo)簽y(Dij)
1.x′=VP(Dij)
2.x3=Conv_3×k(x′)
3.x4=Conv_4×k(x′)
4.x5=Conv_5×k(x′)
5.x″=cat(x3,x4,x5)
6.P(Dij)=soft maxfocalloss(x″)
Returny(Dij)
在預(yù)測標(biāo)簽y(Dij)中,標(biāo)簽為0的表示負(fù)樣例,標(biāo)簽為1的表示正樣例,標(biāo)簽為0的負(fù)樣例集合即為高質(zhì)量的負(fù)樣例數(shù)據(jù)集CND。
最后將由DS-DM模型獲得的新的遠(yuǎn)程監(jiān)督數(shù)據(jù)集(包括CND和CPD)作為深度強化學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù),并最終得到一個高質(zhì)量的遠(yuǎn)程監(jiān)督數(shù)據(jù)集DS′。
本研究采用的DS數(shù)據(jù)集是NYT10數(shù)據(jù)集,它是通過將來自freebase的實體對與紐約時報語料庫對齊而生成的,訓(xùn)練集是由2005年和2006年的文本數(shù)據(jù)對齊生成,測試集是2007年的。該數(shù)據(jù)集共包含52種事實關(guān)系和1種特殊關(guān)系NA(表示頭部實體和尾部實體間不存在任何關(guān)系),有694 491個句子實例,在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中通常用此數(shù)據(jù)集作為實驗數(shù)據(jù)。本研究將此數(shù)據(jù)集定義為原始數(shù)據(jù)集(origin_data),同時使用Qin等[15]通過深度強化學(xué)習(xí)方法獲得新的數(shù)據(jù)集,定義為強化學(xué)習(xí)數(shù)據(jù)集(RL_data)。
本研究對訓(xùn)練集和測試集做了處理。為使得模型更關(guān)注數(shù)據(jù)集的實體關(guān)系,本研究刪除了測試集和訓(xùn)練集中有相同實體對的句子,再經(jīng)過PRL模型處理得到了新的數(shù)據(jù)集PRL_data(即高質(zhì)量的遠(yuǎn)程監(jiān)督數(shù)據(jù)集DS′),其中訓(xùn)練集570 088個,測試集172 448個。表1表示其中10種關(guān)系類型在數(shù)據(jù)集中的統(tǒng)計數(shù)據(jù)。
表1 數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)Table 1 Statistics of datasets
表2表示這10種關(guān)系類型中抽取的高頻關(guān)系模式,含有這類高頻關(guān)系模式的句子構(gòu)成了高質(zhì)量的正樣例數(shù)據(jù)集。
表2 高頻關(guān)系模式Table 2 High frequency patterns
本研究采用了在遠(yuǎn)程監(jiān)督數(shù)據(jù)集中最常用且效果較好的3個模型對原始的NYT10數(shù)據(jù)集(origin_data)、使用強化學(xué)習(xí)方法處理后的NYT10數(shù)據(jù)集(RL_data)以及經(jīng)過本研究提出的PRL模型處理后的數(shù)據(jù)集(PRL_data)進行關(guān)系分類,以分類效果來驗證去噪情況。
PCNN+ONE:Zeng等[12]提出的,結(jié)合示例學(xué)習(xí)的方法,在CNN中將卷積結(jié)果分成三部分,并且分段返回每一次池化的最大值來提取更多的關(guān)系特征。
CNN+ATT:Lin等[14]提出的,使用CNN來嵌入句子語義獲得輸入實體對的相對位置,通過注意力機制對新的句子進行加權(quán)處理,可以降低噪聲數(shù)據(jù)的權(quán)重。
PCNN+ATT:Lin等[14]提出的,使用注意力機制來代替多實例學(xué)習(xí)。
為了更系統(tǒng)地評估模型的分類性能,本研究使用精確率(Precision)和召回率(Recall)作為評估指標(biāo)。計算公式如下:
(4)
(5)
式(4)和(5)中,TP表示模型中被正確分類的正樣例數(shù)量,F(xiàn)P表示模型中的假正例數(shù)量,F(xiàn)N表示模型中的假負(fù)例數(shù)量。
從圖6-8的結(jié)果可以看出,將經(jīng)過本研究所提出的PRL模型處理后的PRL_data數(shù)據(jù)集用于對遠(yuǎn)程監(jiān)督關(guān)系抽取的各類模型,模型的性能均有所提升,證明本研究提出的去噪模型對關(guān)系抽取是有益的。
圖6 3種數(shù)據(jù)集在PCNN+ONE模型中的PR曲線對比Fig.6 Comparison of PR curves of three datasets in PCNN+ONE model
圖7 3種數(shù)據(jù)集在CNN+ATT模型中的PR曲線對比Fig.7 Comparison of PR curves of three datasets in CNN+ATT model
圖8 3種數(shù)據(jù)集在PCNN+ATT模型中的PR曲線對比Fig.8 Comparison of PR curves of three datasets in PCNN+ATT model
為了給出更直觀的比較,本研究計算了每條PR曲線的AUC值,它表示這些曲線下的面積大小,模型的分類性能是否有提升主要看AUC值是否有增長。表3結(jié)果顯示,使用PRL模型去噪后的遠(yuǎn)程監(jiān)督數(shù)據(jù)集PRL-data作為關(guān)系抽取模型的訓(xùn)練數(shù)據(jù)集,與使用深度強化學(xué)習(xí)方法獲得的數(shù)據(jù)集RL_data和原始數(shù)據(jù)集origin_data相比,其能明顯提升關(guān)系抽取的各種模型性能,證明本研究方法是有效的。
表3 實驗結(jié)果Table 3 Experimental results
本研究中提出的PRL模型是一種DS數(shù)據(jù)集預(yù)處理模型,可以對遠(yuǎn)程監(jiān)督數(shù)據(jù)集進一步去噪。模型首先利用PDEA從遠(yuǎn)程監(jiān)督數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)中提取高質(zhì)量的正樣例數(shù)據(jù)集;然后利用DS數(shù)據(jù)集中正樣例特征對負(fù)樣例的指導(dǎo)作用來獲取高質(zhì)量的負(fù)樣例集,其中用Focal Loss代替?zhèn)鹘y(tǒng)交叉熵解決正負(fù)樣例數(shù)據(jù)不均衡問題;最后使用深度強化學(xué)習(xí)方法對DS數(shù)據(jù)集再一次進行去噪,并最終獲得一個高質(zhì)量的遠(yuǎn)程監(jiān)督數(shù)據(jù)集。此外,選用在遠(yuǎn)程監(jiān)督關(guān)系抽取研究中最具代表性的NYT10數(shù)據(jù)集,通過本文的PRL模型處理后,用于PCNN+ONE、CNN+ATT、PCNN+ATT 3種關(guān)系分類模型的訓(xùn)練來進行關(guān)系分類準(zhǔn)確度驗證,結(jié)果表明將經(jīng)PRL模型處理后的DS′數(shù)據(jù)集用于對遠(yuǎn)程監(jiān)督關(guān)系抽取的各類模型,各模型的性能均有所提升。PRL模型是一種輕量的數(shù)據(jù)去噪模型,對基于深度神經(jīng)網(wǎng)絡(luò)的模型如CNN+ATT、PCNN、PCNN+MIL、PCNN+ATT等都能帶來性能上的提升。
目前,研究只是單純地使用高頻的關(guān)系模式來獲取高質(zhì)量的關(guān)系模式集,這種方法雖然有效,但是也會遺漏部分高質(zhì)量的關(guān)系模式,有些關(guān)系模式雖然頻次低,但是和高頻關(guān)系模式有著極高的語義相似性,單純的計數(shù)會讓人忽略這些低頻關(guān)系模式,將來可研究更好的關(guān)系模式提取器,以獲取更高質(zhì)量的數(shù)據(jù)來訓(xùn)練模型。