摘要: 針對小樣本關系抽取問題, 提出一種基于注意力機制的歸納網(wǎng)絡. 首先, 利用歸納網(wǎng)絡中的動態(tài)路由算法學習類別表示; 其次, 提出實例級別的注意力機制, 用于調(diào)整支持集, 并獲取支持集與查詢集樣本之間的高級信息, 進而獲得與查詢實例更相關的支持集樣本. 該模型很好地解決了訓練數(shù)據(jù)不足時如何進行關系抽取的問題. 在小樣本關系抽取數(shù)據(jù)集FewRel上進行實驗, 得到的實驗結(jié)果為: 5-way 5-shot情形下準確率為(88.38±0.27)%,5-way 10-shot情形下準確率為(89.91±0.33)%, 10-way 5-shot情形下準確率為(77.92±0.44)%, 10-way 10-shot情形下準確率為(81.21±0.39)%. 實驗結(jié)果表明, 該模型能適應任務并且優(yōu)于其他對比模型, 在小樣本關系抽取中取得了優(yōu)于對比模型的結(jié)果.
關鍵詞: 關系抽?。?小樣本學習; 歸納網(wǎng)絡; 自然語言處理; 長短期記憶網(wǎng)絡
中圖分類號: TP39 文獻標志碼: A 文章編號: 1671-5489(2023)04-0845-08
Few-Shot Relation Extraction Model Based onAttention Mechanism Induction Network
JI Bonan, ZHANG Yonggang
(College of Computer Science and Technology, Jilin University, Changchun 130012, China)
Abstract: Aiming at" the problem of few-shot relation extraction," we proposed an induction network based on attention mechanism. Firstly, we used" dynamic routing algorithm in induction network to learn the class representation. Secondly, we proposed instance-level attention mechanism to" adjust support set and obtain high-level information between support set and query set samples, thereby obtaining" the support set samples that were more relevant to the query instances. The proposed" model effectively solved "the problem of how to extract relationships when the training data was insufficient. The experiment was conducted" on the few-shot relation extraction FewRel dataset, and the experimental results showed an" accuracy rate of (88.38±0.27)% in the 5-way 5-shot case," (89.91±0.33)% in the 5-way 10-shot case, (77.92±0.44)% in the" 10-way 5-shot case," (81.21±0.39)% in the" 10-way 10-shot case. The" experimental" results show that the model can adapt to tasks and outperforms other comparative" models, achieving better results than comparative" models in few-shot relation extraction.
Keywords: relation extraction; few-shot learning; induction network; natural language processing; long short term memory network
作為自然語言處理中的一項重要任務, 關系抽取的目的是對文本中給定實體對之間的關系進行分類. 例如, 給定一個句子“[James Funck]e1 obtained a 1st class honour at [Liverpoor University]e2”, 則該句子中的實體對James Funck與Liverpoor University之間的關系為educated-at.
傳統(tǒng)的關系分類方法采用監(jiān)督訓練[1-2], 需要高質(zhì)量的大規(guī)模標記數(shù)據(jù)才能很好地泛化. 但人工標注數(shù)據(jù)耗時長, 限制了模型對新類的泛化能力. 為解決數(shù)據(jù)缺乏的問題, Mintz等[3]提出了遠程監(jiān)督機制, 該方法通過大型語義數(shù)據(jù)庫自動獲取標記數(shù)據(jù). 遠程監(jiān)督將實例與知識庫(KB)對齊, 如果實例包含知識庫中存在的實體對, 則它們之間的關系將對應于知識庫中的實體表達關系. 雖然通過遠程監(jiān)督獲得了大規(guī)模的標注數(shù)據(jù), 但同時也導致了噪聲和長尾問題, 這些問題使得采用遠程監(jiān)督的關系抽取模型無法進行準確分類." 同時, 當訓練數(shù)據(jù)不足時, 這些模型也不能很好地泛化.
為解決上述問題, 研究者們提出了小樣本學習問題, 小樣本學習任務旨在利用每個類中很少的訓練樣本識別新的類別, 由于小樣本學習任務可解決訓練數(shù)據(jù)匱乏的問題, 所以已引起了廣泛關注. 早期關于小樣本學習的研究主要集中在計算機視覺領域. Santoro等[4]和Munkhdalai等[5]提出的方法旨在通過模型結(jié)構(gòu)快速更新少量樣本的參數(shù), 并構(gòu)建從輸入到預測值的映射函數(shù). 在多數(shù)情況下, 由于參數(shù)量大, 在小樣本學習任務中訓練普通的神經(jīng)網(wǎng)絡分類器幾乎都是過擬合的. 相反, 一些非參數(shù)方法(k-nearest neighbors, k-means)不需要優(yōu)化參數(shù), 因此可通過元學習構(gòu)建小樣本學習中的端到端分類器. 基于度量的方法通過測量支持集實例與查詢實例之間的距離, 并利用最近鄰算法對它們進行分類. 孿生網(wǎng)絡(siamese network)[6]先通過監(jiān)督學習訓練模型, 再利用網(wǎng)絡提取特征進行小樣本學習. 與孿生網(wǎng)絡相比, 匹配網(wǎng)絡(match network)[7]中的支持集與查詢集的編碼器不同, 它們將支持集樣本與查詢樣本之間帶有權(quán)重的預測值之和作為輸出. 原型網(wǎng)絡(prototype network)[8]認為每個類別都存在一個原型, 即每個類別的支持樣本的均值. 關系網(wǎng)絡(relation network)[9]將測量指標視為可學習的參數(shù). 因此, 該模型訓練網(wǎng)絡學習距離度量.
盡管小樣本學習在計算機視覺領域發(fā)展迅速, 但將小樣本學習任務應用到自然語言處理任務中報道較少. 由于文本的多樣性和語義的復雜性, 自然語言處理領域中小樣本學習模型的性能不如計算機視覺領域. 但因為原型網(wǎng)絡的簡單性和有效性, 使得它在自然語言處理任務中得到廣泛應用." Han等[10]提出了一個用于小樣本關系分類任務的數(shù)據(jù)集, 采用原型網(wǎng)絡作為其基準模型, 并將數(shù)據(jù)集命名為FewRel. Gao等[11]使用混合注意力機制改進原型網(wǎng)絡處理帶有噪聲的訓練實例. 考慮到支持集實例與查詢實例之間的匹配信息, Ye等[12]提出了MLMAN模型以交互方式對支持與查詢實例進行編碼. 由于每個類別少數(shù)樣本之間的多樣性和差異性, 普通原型網(wǎng)絡很難獲得合適的類別表示, 所以Geng等[13]提出了基于動態(tài)路由算法的歸納網(wǎng)絡, 該模型可根據(jù)支持集更靈活地生成類表示. 但歸納網(wǎng)絡的關系模塊使用了神經(jīng)張量層[14], 其中需要通過張量參數(shù)對實例進行分類, 導致當樣本的關系類型較大時, 模型無法獲得魯棒的泛化能力. 此外, 該模型未考慮支持實例與查詢實例之間的相關信息, 也忽略了它們之間的高級特征信息.
因此, 本文利用自注意力機制[15]改進歸納網(wǎng)絡. 與普通的歸納網(wǎng)絡類似, 首先, 本文模型也采用雙向長短期記憶(Bi-LSTM)對支持集實例和查詢實例進行編碼, 并通過自注意力機制生成所有實例的表示; 其次, 實例級別的注意力機制可選擇與查詢實例更相關的支持集實例, 從而可通過歸納模塊獲得具有查詢相關信息的類別表示. 最后, 通過計算類別表示與查詢集實例向量之間的余弦距離對查詢實例的實體對進行分類.
1 任務定義
本文將兩個數(shù)據(jù)集Dtrain和Dtest應用于小樣本關系抽取任務, 這兩個數(shù)據(jù)集彼此不相交且具有不同的標簽空間. 數(shù)據(jù)集中的數(shù)據(jù)都由一系列的實例{s,e1,e2,r}組成, 其中s是一個包含T個單詞的句子實例, e1,e2是句子s中的兩個實體, r是實體對在句子s中的關系.
數(shù)據(jù)集分為支撐集和查詢集兩部分. 小樣本學習中的N-way K-shot任務是指選擇N個關系類中的每個都包含K個支持實例. 一般地, N和K的值都很小, 本文設N=5, K=10.
用數(shù)據(jù)集Dtrain訓練本文模型并用Dtest進行測試. 在訓練迭代周期中, 從Dtrain數(shù)據(jù)集中隨機選擇N個類, 并從每個類中隨機選擇K個樣本形成支持集S={(sik,ei1k,ei2k,rik)i=1,2,…,N; k=1,2,…,K}. 類似地, 從選出N個類中的剩余數(shù)據(jù)中隨機選擇M個樣本構(gòu)成查詢集Q={(qi,e1i,e2i,li)i=1,2,…,M}, 其中l(wèi)i是實例qi的標簽.
2 基于注意力機制的歸納網(wǎng)絡
模型主要由實例編碼模塊(instance encoder module)、 實例級別注意力模塊(instance-level module)、 歸納模塊(induction module)和分類器(classifier)四部分組成, 如圖1所示.
3 實驗及結(jié)果分析
3.1 基準模型
選擇以下模型作為一種基準模型與本文模型進行比較.
1) Meta Network[5]: 其為一種具有跨任務快速泛化的架構(gòu)和訓練過程的模型, 基于SGD的傳統(tǒng)優(yōu)化參數(shù)稱為慢權(quán)重, 損失梯度信息用于元信息以生成快速權(quán)重, 在元網(wǎng)絡中, 將慢速權(quán)重和快速權(quán)重相結(jié)合進行預測.
2) 圖神經(jīng)網(wǎng)絡(GNN)[21]: 其為一種用于處理由節(jié)點和邊組成數(shù)據(jù)的網(wǎng)絡, 目標是學習每個節(jié)點的表示, 根據(jù)節(jié)點的特征、 連接到該節(jié)點的邊及其鄰居節(jié)點進行計算.
3) SNAIL[22]: 其為一種將元學習視為序列到序列問題的模型, 它結(jié)合了時間卷積和注意力機制, 對于元學習, 其可根據(jù)經(jīng)驗快速預測具有相似分布的新樣本, 與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(RNN)(如LSTM或門控循環(huán)單元(GRU))相比, SNAIL的結(jié)構(gòu)更容易訓練.
4) 原型網(wǎng)絡(prototypical network)[8]: 其利用卷積神經(jīng)網(wǎng)絡(CNN)作為編碼器生成輸入的表示, 每個類別的表示是該類別中所有支持實例表示的平均值, 然后用距離函數(shù)對查詢實例進行分類.
5) Proto-HATT[11]: 其利用混合注意力改進了的原型網(wǎng)絡, 以處理小樣本關系分類嘈雜的訓練實例.
3.2 數(shù)據(jù)集及實驗設置
下面在一個新的小樣本關系分類數(shù)據(jù)集 FewRel[10]上評估本文模型在小樣本關系抽取任務中的性能. 在該數(shù)據(jù)集中, 先使用遠程監(jiān)督將文本與知識庫對齊, 得到句子的關系類型, 然后通過人工標注過濾出標注正確的句子, 得到一個沒有噪聲的干凈數(shù)據(jù)集. 最終數(shù)據(jù)集有64個訓練關系、 16個驗證關系和20個測試關系, 每個關系包含700個實例. 數(shù)據(jù)集FewRel及其他關系抽取數(shù)據(jù)集的組成對比結(jié)果列于表1.
在實驗中, 使用N-way K-shot的4種小樣本學習設置, 進行兩組控制實驗評估本文模型: 將本文模型與其他對比模型進行比較, 并分析模型中模塊的影響.表2列出了本文模型的超參數(shù)設置. 利用GloVe得到的詞嵌入作為本文編碼器的輸入," 并將詞嵌入的維度設為50, 本文也利用了位置嵌入, 并且位置嵌入的維度設為5, 將句子的最大長度設為40. 最大相關距離是指每個單詞與實體的最大距離, 如果單詞在實體前面, 則相關距離為“-”, 如果單詞在實體后面則相關距離為“+”. 在編碼器中, 設置LSTM的隱藏層u大小為128, Dropout設為0.5, 動態(tài)路由算法中迭代次數(shù)的值為3. 本文使用SGD進行優(yōu)化, 并設置初始學習率為0.1.
3.3 對比實驗
將本文模型與其他小樣本學習關系分類模型進行比較, 不同模型的準確度比較結(jié)果列于表3. Meta Network等模型最初用于計算機視覺領域, 通過改變它們的編碼器處理文本. Gao等[11]提出了具有混合注意力機制的模型Proto-HATT解決噪聲問題. 在這些距離度量學習方法中, 都專注于學習實例的表示并在樣本級別計算距離. 與這些模型相比, 本文模型利用基于自注意力機制的歸納網(wǎng)絡, 可根據(jù)不同的支持實例在每次訓練迭代期間調(diào)整耦合系數(shù), 從而更自適應地關注類表示.
由表3可見, 通過在改進的歸納網(wǎng)絡上使用分層自注意力方案, 本文模型優(yōu)于其他模型," 可以關注具有查詢相關信息的實例, 并自適應地調(diào)整類向量和查詢實例. 因為沒有可用的測試集, 所以表3中所有模型的結(jié)果都是在FewRel的訓練集上進行訓練, 并在驗證集上進行測試.
3.4 消融實驗
為進一步評估本文模型, 本文分析了模型各部分對性能的貢獻, 結(jié)果列于表4. 實驗去除了實例級別注意力機制, 并分別改變動態(tài)路由算法中的迭代次數(shù)值. 在5-way 5-shot和5-way 10-shot設置下進行實驗. 由表4可見, 3次迭代達到了最佳性能. 無論減少還是增加迭代次數(shù), 精度都會降低. 這是因為當減少迭代次數(shù)時, 類向量不能很好地擬合支持實例. 如果迭代次數(shù)超過3次, 則類向量過擬合, 表明類向量無法擬合查詢實例. 其中, model-(ins_att)表示本文模型在去掉了實例級別注意力機制后所得結(jié)果. 表4中的結(jié)果還表明, 實例級別注意力機制可有效提高模型的性能. 實例級別注意力可以選擇與查詢實例更相關的支持集實例, 從而可以通過歸納模塊獲得具有查詢相關信息的類別表示.
圖2和圖3分別為在5-way 10-shot的設置下, 在添加實例級別注意力前后支持集實例的可視化圖像. 隨機選擇支持集和查詢集, 并獲得添加實例級別注意力前后的實例向量. 由圖2和圖3可見, 添加實例級別注意力后產(chǎn)生的類內(nèi)實例向量得到了更好的聚合, 證明了本文模型的有效性.
綜上所述, 本文提出了一種基于注意力機制的歸納網(wǎng)絡, 用于小樣本關系抽取. 首先, 采用Bi-LSTM[KG*4]對實例進行編碼, 并在自注意力機制后生成所有實例的表示; 其次, 設計實例級注意力以選擇與查詢實例更相關的支持實例; 最后, 通過測量類向量與查詢實例嵌入之間的余弦距離對查詢實例的實體對進行分類. 實驗結(jié)果表明了本文模型的有效性和魯棒性.
參考文獻
[1]MOONEY R J, BUNESCU R C. Subsequence Kernels for Relation Extraction [J]. Advances in Neural Information Processing Systems, 2005, 18: 171-178.
[2]BUNESCU R C, MOONEY R J. A Shortest Path Dependency Kernel for Relation Extraction [C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. New York: ACM, 2005: 724-731.
[3]MINTZ M, BILLS S, SNOW R, et al. Distant Supervision for Relation Extraction without Labeled Data [C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [S.l.]: The Association for Computational Linguistics, 2009: 1003-1011.
[4]SANTORO A, BARTUNOV S, BOTVINICK M, et al. Meta-Learning with Memory-Augmented Neural Networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2016: 1842-1850.
[5]MUNKHDALAI T, YU H. Meta Networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2017: 2554-2563.
[6]KOCH G, ZEMEL R, SALAKHUTDINOV R. Siamese Neural Networks for One-Shot Image Recognition [J]. ICML Deep Learning Workshop, 2015, 2: 1-8.
[7]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching Networks for One Shot Learning [J]. Advances in Neural Information Processing Systems, 2016, 29: 3637-3645.
[8]SNELL J, SWERSKY K, ZEMEL R. Prototypical Networks for Few-Shot Learning [J]. Advances in Neural Information Processing Systems, 2017, 30: 4080-4090.
[9]SUNG F, YANG Y X, ZHANG L, et al. Learning to Compare: Relation Network for Few-Shot Learning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Pisscataway, NJ: IEEE, 2018: 1199-1208.
[10]HAN X, ZHU H, YU P F, et al. Fewrel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation [EB/OL]. (2018-10-26)[2022-01-01]. https://arxiv.org/abs/1810.10147v2.
[11]GAO T Y, HAN X, LIU Z Y, et al. Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 6407-6414.
[12]YE Z X, LING Z H. Multi-level Matching and Aggregation Network for Few-Shot Relation Classification [EB/OL]. (2019-06-16)[2022-01-10]. https://arxiv.org/abs/1906.06678.
[13]GENG R Y, LI B H, LI Y B, et al. Induction Networks for Few-Shot Text Classification [EB/OL]. (2019-09-29)[2022-02-01]. https://arxiv.org/abs/1902.10482.
[14]SOCHER R, CHEN D, MANNING C D, et al. Reasoning with Neural Tensor Networks for Knowledge Base Completion [J]. Advances in Neural Information Processing Systems, 2013, 26: 926-934.
[15]VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [J]. Advances in Neural Information Processing Systems, 2017, 30: 6000-6010.
[16]PENNINGTON J, SOCHER R, MANNING C D. Glove: Global Vectors for Word Representation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.]: The Association for Computational Linguistics, 2014: 1532-1543.
[17]ZENG D J, LIU K, CHEN Y B, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. [S.l.]: The Association for Computational Linguistics, 2015: 1753-1762.
[18]SABOUR S, FROSST N, HINTON G E. Dynamic Routing between Capsules [J]. Advances in Neural Information Processing Systems, 2017, 30: 3859-3869.
[19]GENG R Y, JIAN P, ZHANG Y X, et al. Implicit Discourse Relation Identification Based on Tree Structure Neural Network [C]//2017 International Conference on Asian Language Processing (IALP). Piscataway, NJ: IEEE, 2017: 334-337.
[20]WAN S X, LAN Y Y, GUO J F, et al. A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2016: 2835-2841.
[21]GARCIA V, BRUNA J. Few-Shot Learning with Graph Neural Networks [EB/OL]. (2018-02-20)[2022-02-01]. https://arxiv.org/abs/1711.04043.
[22]MISHRA N, ROHANINEJAD M, CHEN X, et al. A Simple Neural Attentive Meta-Learner [EB/OL]. (2018-02-25)[2022-02-01]. https://arxiv.org/abs/1707.03141.
(責任編輯:" 韓 嘯)
收稿日期: 2022-03-03.
第一作者簡介: 季泊男(1997—), 女, 漢族, 碩士研究生, 從事自然語言處理的研究, E-mail: jibn19@ma
ils.jlu.edu.cn. 通信作者簡介: 張永剛(1975—), 男, 漢族, 博士, 教授, 博士生導師, 從事人工智能和約束求解與優(yōu)化的研究, E-mail: zhangyg@jlu.edu.cn.
基金項目: 國家自然科學基金(批準號: 61373052; 61170314; 60773097)和吉林省青年科研基金(批準號: 20080107).