張文慧 汪美玲 侯志榮
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.071
2022-05-13;
2022-08-04
融合語境語義差異特征的短文本匹配模型
張文慧 汪美玲 侯志榮?
工商銀行金融科技研究院, 北京 100029; ?通信作者, E-mail: houzr@tech.icbc.com.cn
在字面相同語義不同和字面不同語義相同的情況下, 短文本匹配往往不能準(zhǔn)確地得到語句間語義的相似程度。針對這一問題, 提出一種融合語境語義差異特征的短文本匹配模型。該模型以 BERT 系列的語言模型作為基礎(chǔ)匹配模型, 采用一種新的 Diff Transformer 結(jié)構(gòu)作為差異特征提取器, 并以門控方式融合基礎(chǔ)語義表示和差異特征表示來提升匹配效果。在中文測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 所提出的模型可以達(dá)到先進(jìn)模型的效果。
短文本匹配; 差異特征; 語境語義; Diff Transformer
短文本匹配(short text matching)是自然語言理解的一個基本問題, 其研究目標(biāo)是判定兩條文本語句是否語義相同, 常應(yīng)用于信息檢索以及智能問答等場景, 核心任務(wù)是語句的表征及其相似程度的度量。自然語言的歧義性和多樣性導(dǎo)致短文本匹配研究面臨字面不同而語義相同以及字面相同而語義不同兩大難點(diǎn)[1]。字面相同而語義不同指兩個語句中某些詞語字面一致, 但置于不同的語境, 導(dǎo)致詞義隨之變化以及語句的語義不同。例如在語句“買一斤蘋果”和“買一部蘋果”中, “蘋果”的詞義不同, 進(jìn)而兩個語句的語義不相似。字面不同而語義相同指兩個語句中某些詞語字面不一致, 但互為同義詞, 對應(yīng)語句的語義相似。例如在語句“您多大年紀(jì)了”和“您今年貴庚?”中, “年紀(jì)”和“貴庚”互為同義詞, 兩個語句的語義相似。
目前的研究主要從增強(qiáng)模型對短文本的語義表征能力入手, 從設(shè)計(jì)模型結(jié)構(gòu)、借助外部知識以及增加差異特征 3 個角度探索解決方案。
在模型結(jié)構(gòu)設(shè)計(jì)方面, 基于表示的結(jié)構(gòu)和基于交互的結(jié)構(gòu)是目前文本匹配模型的主流結(jié)構(gòu)。基于表示的模型結(jié)構(gòu)分別對文本語句進(jìn)行表征, 然后進(jìn)行語義相似度量。Huang 等[2]首次提出 DSSM 模型結(jié)構(gòu), 此后的研究大都以該結(jié)構(gòu)為主, 比如 CDSSM模型[3]?;诮换サ哪P徒Y(jié)構(gòu)先對兩個文本語句進(jìn)行交互匹配, 然后再獲取文本表征, 進(jìn)行語義相似判斷。Hu 等[4]首次提出 ARC-II 模型結(jié)構(gòu)。交互匹配的結(jié)構(gòu)設(shè)計(jì)極大地提升了文本語義表征能力, 是目前研究的主流模型結(jié)構(gòu)。注意力機(jī)制與交互匹配結(jié)構(gòu)相結(jié)合, 使得文本匹配效果再次得到提升, 比較經(jīng)典的模型有 ESIM[5]以及各類基于語言模型進(jìn)行編碼的文本匹配模型。
在借助外部知識方面, 通過構(gòu)建外部知識以豐富語義的方式來增強(qiáng)文本語義表征能力。外部知識通常為結(jié)構(gòu)化知識庫[6–7], 其構(gòu)建需要大量人工參與, 來增加匹配模型訓(xùn)練的成本。
在增加差異特征方面, 將字面、語法以及語義等層面的差異信息作為特征添加到匹配模型中, 達(dá)到增強(qiáng)匹配效果的目的。在基于語法的差異特征提取工作中, 針對句法關(guān)系和依存關(guān)系等語法類型提取差異特征并增強(qiáng)文本的表征。在句法關(guān)系方面, Qiu 等[8]和 Yadav 等[9]將未匹配的謂詞三元組作為句子匹配的差異特征, 通過標(biāo)記差異特征的重要程度來判斷語句是否相似。在依存關(guān)系方面, Lintean等[10]通過計(jì)算共同依賴項(xiàng)和非共同依賴項(xiàng)在分值上的比值進(jìn)行相似度判斷。Chi 等[11]將共同依賴項(xiàng)和非共同依賴項(xiàng)進(jìn)行編碼后輸入神經(jīng)網(wǎng)絡(luò), 進(jìn)行語義判斷。在基于語義的差異特征提取工作中, 提取語句中詞語的語義差異, 并增強(qiáng)文本的語義表征。Wang 等[12]通過靜態(tài)編碼方式提取詞義表示差異, 然后通過卷積網(wǎng)絡(luò)學(xué)習(xí)新的語義表征。Liu 等[13]提出將語句間的非公共詞匯輸入編碼器來獲得差異特征表示。
在以上三類方法中, 增加差異特征的方法可適配到匹配模型的任何結(jié)構(gòu)上, 也不需要借助外部知識。并且, 以特征增強(qiáng)的方式提升匹配效果, 對應(yīng)的模型復(fù)雜度和訓(xùn)練成本也會更小。然而, 在目前研究中, 基于語法的差異特征提取只能捕獲淺層差異信息, 且受限于語法分析器的分類上限。基于語義的差異特征提取只能捕獲到字面不同語義相同這一種情況下的差異信息, 并且大多使用靜態(tài)編碼, 未考慮詞匯在具體語境下的詞義[12–13]。
針對上述問題, 本文從語境語義角度提取差異特征, 捕獲深層差異信息, 構(gòu)建一種融合語境語義差異特征的短文本匹配模型。該模型在不借助于外部知識的前提下, 可以提取字面不同而語義相同和字面相同語義不同而兩種情況下短文本間語境語義的差異特征, 通過網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行差異特征表示, 與文本匹配的語義表示融合后進(jìn)行語義判斷。
如圖 1 所示, 本文提出的模型框架, 由以下 4部分組成: 句對語境編碼器、差異特征提取器、差異特征編碼器以及門控融合。句對語境編碼器選擇BERT[14]系列語言模型作為基礎(chǔ)短文本匹配模型, 輸出語義匹配的向量表示, 同時也輸出文本的動態(tài)編碼。差異特征提取器基于 Transformer[15]改造得到, 被稱為 Diff Transformer。Diff Transformer 包含差異分值計(jì)算、差異類型判別和差異特征提取 3 部分, 以判別的方式, 提取不同類型下的差異特征。差異特征編碼器利用卷積神經(jīng)網(wǎng)絡(luò), 從提取到的差異特征中學(xué)習(xí)到關(guān)鍵差異特征并輸出特征表示。最后用門控方式, 將文本匹配的語義表示和差異特征表示融合后, 輸出相似度判斷結(jié)果。
其中,–1表示BERT中第–1層Transformer的隱層輸出。
差異特征提取器從BERT的第層Transformer開始, 并行構(gòu)建層Diff Transformer。Diff Trans-former在Transformer結(jié)構(gòu)上進(jìn)行兩點(diǎn)改造: 1)將注意力分值計(jì)算改造為差異分值計(jì)算; 2)將 MASK 矩陣的掩碼功能改造為差異類型判別功能。最后, 基于差異類型的判別結(jié)果, 選擇對應(yīng)的差異分值, 提取得到差異特征, Diff Transformer的詳細(xì)結(jié)構(gòu)如圖2所示。
圖1 模型框架圖
1.3.1 差異分值計(jì)算
在 Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)中, 自注意力機(jī)制分值矩陣(self_attention_score)的計(jì)算過程以及點(diǎn)積相似度(dot_similarity_score)的計(jì)算過程都通過內(nèi)積實(shí)現(xiàn):
在自注意力分值的計(jì)算過程中, 矩陣與的轉(zhuǎn)置相乘, 得到中每個 token 向量以及中每個token 向量的點(diǎn)積相似度, 因此得到的自注意力分值同時也是相似度量的分值。通過式(3)得到語句S1 的 token 序列和 S2 的 token 序列之間的相似分值矩陣, 分值范圍為 0~1。本文定義 Sim_score∈Rí(=+)表示相似分值矩陣, Dissim_score∈Rí表示不相似分值矩陣:
Sim_score = self_attention_score, (4)
Dissim_score = (1 – Sim_score)。 (5)
Diff Transformer 結(jié)構(gòu)的示例如圖 3 所示,Sim_ score 矩陣中的分值表示語句 S1 與語句 S2 的 token序列之間的相似分值, Dissim_score 矩陣中的分值表示語句 S1 與語句 S2 的 token 序列之間的不相似分值。
1.3.2 差異類型判別
在差異分值計(jì)算模塊中, 我們得到語句 S1 的token 序列和語句 S2 的 token 序列之間的相似分值矩陣和不相似分值矩陣, 但是對于同一個 token, 最終只保留一個分值, 因此設(shè)計(jì)差異類型判別矩陣來判斷這些 token 對應(yīng)的差異類型, 根據(jù)判別結(jié)果, 選擇保留相似分值或不相似分值。判別規(guī)則如下。
1)判別的兩個 token 來自不同的語句。
2)當(dāng)兩個 token 所在的詞語字面一致時, 需考慮語義差異的程度, 用不相似度量分值表示。
3)當(dāng)兩個 token 所在的詞語字面不一致時, 需考慮語義相似的程度, 用相似度量分值表示。
圖2 Diff Transformer結(jié)構(gòu)圖
圖3 Diff Transformer示例圖
基于設(shè)定的判別規(guī)則, 輸入語句 S1 和 S2 的token 序列、詞序列和詞長序列分別表示如下: token序列 S1token=(11,12,13, …,1p), S2token=(21,22,23, …,2p); 詞序列 S1word=(11,12, …,1x), S2word=(21,22, …,2y); 詞長序列 S1word_length=(11,12, …,1x), S2word_length= (21,22, …,2y)。其中,1i表示 S1 中的詞,2j表示S2 中的詞。
例如, 語句 S1 為“買一斤蘋果”, 語句 S2 為“買一部蘋果”, 對應(yīng)的 token 序列、詞序列和詞長序列分別表示如下: S1token= (買, 一, 斤, 蘋, 果), S2token= (買, 一, 部, 蘋, 果); S1word= (買, 一斤, 蘋果), S2word= (買, 一部, 蘋果); S1word_length= (1, 2, 2), S2word_length= (1, 2, 2)。依次取出語句 S1 中的詞, 然后與 S2 中的所有詞進(jìn)行差異類型判別。根據(jù)判別規(guī)則 2, 語句 S1 的第 3 個詞“蘋果”與語句 S2 的第 3 個詞“蘋果”字面一致, 所以判別為字面相同而語義不同, 則提取兩個詞語中 token 間的不相似分值。
差異判別矩陣的實(shí)現(xiàn)需要構(gòu)建一個交互可見的標(biāo)識矩陣 Mask_interaction。在該矩陣中, 語句 S1和 S2 只對對方可見(賦值為 1), 對自身不可見(賦值為 0)。然后構(gòu)建兩個判別矩陣, 分別為針對字面相同語義不同的判別矩陣 Mask_dissim 和針對字面不同語義相同的判別矩陣 Mask_sim。將標(biāo)識矩陣和兩個判別矩陣分別對位相乘后, 對判別矩陣中的值進(jìn)行更新。具體步驟如下(⊕代表矩陣對位相加, ?代表矩陣對位相乘, ?代表矩陣相乘)。
1)在判別矩陣 Mask_dissim 中, 當(dāng)兩個詞語字面一致時, 矩陣中對應(yīng)位置的值為 1, 表示要保留不相似分值。在判別矩陣 Mask_sim 中, 當(dāng)兩個詞語字面不一致時, 對應(yīng)位置的值為 1, 表示要保留相似分值。
2)我們將 S1 和 S2 交互可見的判別矩陣 Mask_ interaction 分別與兩個判別矩陣相乘, 得到最終的差異判別矩陣 Mask_dissim 和 Mask_sim。
Mask_dissim=Mask_dissim?Mask_interaction, (8)
Mask_sim=Mask_sim?Mask_interaction。 (9)
因?yàn)?Mask_dissim 和 Mask_sim 是從詞粒度的判別得到, 而模型是以 token 粒度進(jìn)行拆分和編碼, 所以需要將詞粒度的判別矩陣和 token 級的編碼進(jìn)行統(tǒng)一: 借助于詞長序列, 將詞級判別矩陣中的值按照詞長復(fù)制后, 轉(zhuǎn)換為 token 級別的判別矩陣。
如圖 3 所示, 在 Mask_sim 判別矩陣中, 淺灰色圓點(diǎn)表示判別兩個 token 之間為字面不同而語義相同, 保留相似分值。在 Mask_dissim 判陣矩陣中, 深灰色圓點(diǎn)表示判別兩個 token 之間為字面相同而語義不同, 保留不相似分值。淺灰色和深灰色圓點(diǎn)在判別矩陣中的值設(shè)為 1, 白色圓點(diǎn)在判別矩陣中的值設(shè)為 0。
1.3.3 差異特征提取
通過差異分值計(jì)算, 可以得到用來衡量不同token 的相似分值和不相似分值; 通過差異類型判別, 可以得到用來判別不同 token 保留分值類型的判別矩陣?;谂袆e矩陣和分值矩陣, 得到差異分值矩陣 Diff_score。
1)分別將相似判別矩陣與相似分值對位相乘, 再與不相似判別矩陣和不相似分值對位相乘的結(jié)果相加, 得到差異分值矩陣 Diff_score, 圖 3 中, 灰色部分代表差異分值矩陣 Diff_score 計(jì)算的結(jié)果。
Diff_score=(Mask_dissim?Dissim_score)⊕
(Mask_sim?Sim_score)。 (10)
2)差異分值矩陣與 Value 相乘, 得到所有 token差異特征的隱層表示diff:
_diff = Diff_score·Value。 (11)
差異特征提取器中輸出的是 Diff Transformer中提取到的所有 token 的差異特征, 此時的差異特征是分散到各個 token 中, 并且不是所有差異特征都有用。將這些 token 的差異特征表示向量輸入卷積網(wǎng)絡(luò)中, 進(jìn)行關(guān)鍵差異特征的學(xué)習(xí), 最終輸出蘊(yùn)含所有關(guān)鍵差異特征的表示向量。
定義一個卷積核的列表{W},代表卷積核的個數(shù)。每一個卷積核的大小為××,是輸入 token向量的維度,是輸入的通道數(shù)(1≤≤,是 Diff Transformer 訓(xùn)練的最大層數(shù))。代表卷積的窗口, 通過 n-gram (=3, 4, 5)設(shè)置 3 種類型的卷積窗口。將第~層到第層 Diff Transformer 的差異特征向量拼接為卷積網(wǎng)絡(luò)的多通道輸入。
將多個卷積核經(jīng)過一層卷積后拼接到一起, 然后做最大值池化處理, 得到最終的差異特征表示Diffemb:
借鑒 GSD 模型[13]的融合方法, 用門控方式, 將句對語境編碼器輸出的語義表示 CLSemb與差異特征編碼器輸出的差異特征表示 Diffemb融合后, 再進(jìn)行語義相似判斷。
1)分別對初始的 CLSemb和 Diffemb進(jìn)行共享權(quán)重的非線性轉(zhuǎn)換, 轉(zhuǎn)換后得到cls和diff:
2)同時對 CLSemb和 Diffemb以非共享權(quán)重的方式進(jìn)行門轉(zhuǎn)換, 得到
3)通過加權(quán)變換的方式來控制語義表示和差異特征表示輸入的信息量:
從式(19)可以看出,可以對語義表示和差異表示進(jìn)行有選擇的融合。融合后的信息經(jīng)過一個全連接層后, 最終輸出語義是否相似的判別結(jié)果。
本文實(shí)驗(yàn)分別在公開域數(shù)據(jù)集和垂直域數(shù)據(jù)集上進(jìn)行。公開域數(shù)據(jù)集選擇中文問題匹配語料庫(LCQMC)[16], 是基于海量百度問題構(gòu)建的問題匹配數(shù)據(jù)集。LCQMC 數(shù)據(jù)集包含 28.3 萬條訓(xùn)練語料、1.25 萬條測試數(shù)據(jù)和 0.8 萬條驗(yàn)證數(shù)據(jù)。垂直域數(shù)據(jù)集選擇 BQ 數(shù)據(jù)集[17], 是金融領(lǐng)域下智能客服問句匹配數(shù)據(jù)集。BQ 數(shù)據(jù)集包含 10 萬條訓(xùn)練語料、1 萬條測試數(shù)據(jù)和 1 萬條驗(yàn)證數(shù)據(jù)。
2.3.1 對比實(shí)驗(yàn)
1)與基線模型的對比實(shí)驗(yàn): 在借助外部知識方面, 以 LET[6]和 KBERT[7]作為基線模型; 在增加差異特征方面以 GSD[13]作為基線模型。LET 和 KBERT均是借助外部 HowNet 知識[18]的文本匹配模型, 區(qū)別在于 KBERT 將外部知識直接嵌入文本中, 通過預(yù)訓(xùn)練任務(wù)學(xué)習(xí)語義表征; LET 用詞格圖的方式, 將外部知識輸入到圖注意力網(wǎng)絡(luò)中, 通過短文本匹配任務(wù)學(xué)習(xí)語義表征。GSD 是基于門控語義差異的文本匹配模型, 與本文提出的 Diff 模型在整體設(shè)計(jì)上類似, 不同之處在于 Diff 模型不是單獨(dú)對詞匯編碼, 而是保留詞語在具體語境下的語義, 同時還兼顧字面相同而語義不同以及字面不同而語義相同這兩種情況。
實(shí)驗(yàn)結(jié)果如表 1 所示, 可以看出, Diff 比 GSD在準(zhǔn)確率上更具優(yōu)勢, 說明提取詞語在具體語境下的語義差異特征, 比單獨(dú)提取詞語的差異特征效果好。Diff 的準(zhǔn)確率比 KBERT 高, 說明增加差異特征比直接嵌入外部知識更具有優(yōu)勢。Diff 比 LET的準(zhǔn)確率有所下降, 說明當(dāng)對嵌入的外部知識按照詞粒度進(jìn)行充分的學(xué)習(xí)時, 效果要優(yōu)于特征的加入。
表1 Diff模型和相關(guān)研究中基線模型的對比實(shí)驗(yàn)(%)
說明: 粗體數(shù)字表示最佳結(jié)果。
2)與不同語言模型融合后的對比實(shí)驗(yàn): 語言模型選擇 BERT[14], BERT-wwm[19]和Chinese-BERT[20]。BERT-wwm 在預(yù)訓(xùn)練任務(wù)中使用全詞 MASK 預(yù)測, 與 Diff 模型的粒度一致。Chinese-BERT 是目前最先進(jìn)的語言模型。表 2 中, 從 Diff (BERT-base)和Diff (BERT-wwm)的實(shí)驗(yàn)對比來看, 詞粒度的差異特征提取模型效果更具優(yōu)勢, 說明編碼粒度上的統(tǒng)一可以使模型達(dá)到更好的匹配效果。從 Diff (BERT- base)和 Chinese-BERT 的實(shí)驗(yàn)結(jié)果對比來看, 相比于 Chinese-BERT (base)版, Diff 模型的效果更具有優(yōu)勢; 相比 Chinese-BERT (large), Diff 模型可以達(dá)到同樣的匹配效果。但是, 在 BQ 數(shù)據(jù)集上, Diff 模型的效果低于 Chinese-BERT (large), 主要是由于預(yù)訓(xùn)練模型對文本編碼的限制, Chinese-BERT 從漢字本身特性出發(fā), 將漢字字形和拼音信息融入預(yù)訓(xùn)練過程中, 使模型更加綜合地建立漢字、字形、讀音與上下文間的聯(lián)系, 在語義的深度和豐富性方面實(shí)現(xiàn)進(jìn)一步提升, 因此在垂直域數(shù)據(jù)集上的正則化效果更加明顯。
表2 Diff模型和BERT系列語言模型的對比實(shí)驗(yàn)(%)
此外, 通過設(shè)計(jì)參數(shù)矩陣對 Diff Transformer訓(xùn)練的層數(shù)和輸入卷積網(wǎng)絡(luò)的層數(shù)進(jìn)行動態(tài)調(diào)參可以發(fā)現(xiàn), 當(dāng)為3,為 1 時, 在 LCQMC 數(shù)據(jù)集上達(dá)到最好的模型效果。當(dāng)為 4,為 2 時, 在 BQ數(shù)據(jù)集上達(dá)到最好的效果。這是因?yàn)榕cLCQMC 數(shù)據(jù)集相比, BQ 數(shù)據(jù)集語料量級更小且內(nèi)容更專業(yè),模型訓(xùn)練難度也相對更大, 因此在提取差異特征的訓(xùn)練過程中, 對訓(xùn)練深度的要求也更高。這也體現(xiàn) Diff 模型可以根據(jù)訓(xùn)練語料的難易程度靈活地調(diào)整訓(xùn)練的層數(shù)。
2.3.2 消融實(shí)驗(yàn)
我們在 LCQMC 數(shù)據(jù)集上, 設(shè)計(jì)以下 3 組消融實(shí)驗(yàn)。
1)是否有差異分值矩陣: 取消差異分值之后, Diff Transformer 的結(jié)構(gòu)只保留語句間相互可見的相似度量分值。該實(shí)驗(yàn)用于評估以相似度量分值來代表字面不同的語義相同以及以不相似度量分值來代表字面相同而語義不同的差異特征時對匹配效果的影響。
2)是否為詞級差異判別: 取消詞語級差異判別后, Diff Transformer 的結(jié)構(gòu)變?yōu)?token 級別的差異判別。該實(shí)驗(yàn)用于評估基于詞粒度的差異特征對匹配效果的影響。
3)是否為門控融合: 取消門控融合后, 在融合部分以最簡單的拼接方式進(jìn)行融合。該實(shí)驗(yàn)用于評估當(dāng)語義表示和差異特征表示以不同占比進(jìn)行融合時對匹配效果的影響。
從表 3 的消融實(shí)驗(yàn)結(jié)果來看, 差異分值、詞語級差異判別以及門控融合對模型效果均產(chǎn)生積極影響, 其中差異分值對模型效果的影響最大。這說明融合語義差異特征的短文本匹配模型中的改造點(diǎn)對匹配效果均有正向提升, 可以驗(yàn)證在編碼粒度和提取粒度均統(tǒng)一的前提下, 用相似度量值和不相似度量值來衡量差異特征, 并有選擇地控制差異特征和語義表示的輸入占比, 可以讓匹配模型得到性能最優(yōu)化。
表3 Diff模型的消融實(shí)驗(yàn)(%)
說明: 粗體字表示消融對比實(shí)驗(yàn)的變量。
表4 實(shí)驗(yàn)樣例
本文從語境語義角度提取差異特征, 捕獲深層差異信息, 構(gòu)建一種融合語境語義差異特征的短文本匹配模型。該模型可以提取字面不同而語義相同以及字面相同而語義不同兩種情況下, 短文本間語境語義的差異特征, 通過網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行差異特征表示, 與文本匹配的語義表示用門控方式融合后進(jìn)行語義判斷, 達(dá)到增強(qiáng)匹配效果的目的。實(shí)驗(yàn)結(jié)果表明, 本文提出的短文本匹配模型在不增加外部數(shù)據(jù)的前提下, 在基準(zhǔn)中文匹配數(shù)據(jù)集上均達(dá)到與已有先進(jìn)模型相同的效果。
未來工作中, 我們將圍繞字面與語義一致情況下的特征表示與融合展開相關(guān)工作, 進(jìn)一步提升短文本匹配模型的效果。
[1]Sujatha B, Raju S V. Ontology based natural language interface for relational databases. Procedia Computer Science, 2016, 100(92): 487–492
[2]Huang P S, He X, Gao J, et al. Learning deep struc-tured semantic models for web search using click-through data // Proceedings of the 22nd ACM inter-national conference on Information & Knowledge Management. San Francisco, 2013: 2333–2338
[3]Shen Y, He X, Gao J, et al. A latent semantic model with convolutional-pooling structure for information retrieval // Proceedings of the 23rd ACM international conference on conference on information and know-ledge management. Shanghai, 2014: 101–110
[4]Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences // Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. Kuching, 2014: 2042–2050
[5]Chen Q, Zhu X, Ling Z H, et al. Enhanced LSTM for Natural Language Inference // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Canada, 2017: 1657–1668
[6]Lyu B, Chen L, Zhu S, et al. LET: linguistic know-ledge enhanced graph transformer for Chinese short text matching [C/OL]. (2021–02–05) [2022–08–03]. https://doi.org/10.48550/arXiv.2102.12671
[7]Liu W, Zhou P, Zhao Z, et al. K-BERT: enabling language representation with knowledge graph // Pro-ceedings of the AAAI Conference on Artificial Intelli-gence. New York, 2020: 2901–2908
[8]Qiu L, Kan M Y, Chua T S. Paraphrase recognition via dissimilarity significance classification // Procee-dings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, 2006: 18–26
[9]Yadav R, Kumar A, Kumar A V, et al.Conceptuali-zation of sentence paraphrase recognition with se-mantic role labels // Proceedings of the International Conference on Data Science (ICDATA).The Steering Committee of The World Congress in Computer Sci-ence, Computer Engineering and Applied Computing (WorldComp), Las Vegas, 2012: 1
[10]Lintean M C, Rus V. Paraphrase identification using weighted dependencies and word semantics. Informa-tica, 2010, 34(1): 19–29
[11]Chi X, Xiang Y, Shen R. Paraphrase detection with dependency embedding // 2020 4th International Con-ference on Computer Science and Artificial Intelli-gence. Stockholm, 2020: 213–218
[12]Wang Z, Mi H, Ittycheriah A. Sentence similarity learning by lexical decomposition and composition // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, 2016: 1340–1349
[13]Liu X, Chen Q, Wu X, et al. Gated semantic diffe-rence based sentence semantic equivalence identifi-cation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2770–2780
[14]Devlin J, Chang M W, Lee K, et al. BERT: pre-trai-ning of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Tech-nologies. Minneapolis, 2019: 4171–4186
[15]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Advances in Neural Information Pro-cessing Systems. California, 2017: 5998–6008
[16]Liu X, Chen Q, Deng C, et al. LCQMC: a large-scale chinese question matching corpus // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, 2018: 1952–1962
[17]Chen J, Chen Q, Liu X, et al. The BQ corpus: a large-scale domain-specific chinese corpus for sentence semantic equivalence identification // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 4946–4951
[18]Dong Z, Dong Q. HowNet — a hybrid language and knowledge resource // International Conference on Natural Language Processing and Knowledge Engi-neering, Beijing, 2003: 820–824
[19]Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese BERT. IEEE/ACM Tran-sactions on Audio, Speech, and Language Processing, 2021, 29: 3504–3514
[20]Sun Z, Li X, Sun X, et al. ChineseBERT: Chinese pre-training enhanced by Glyph and Pinyin information // Proceedings of the 59th Annual Meeting of the Asso-ciation for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Bangkok, 2021: 2065–2075
A Short Text Matching Model Incorporating Contextual Semantic Differences
ZHANG Wenhui, WANG Meiling, HOU Zhirong?
ICBC Technology Co Ltd, Beijing 100029;?Corresponding author, E-mail: houzr@tech.icbc.com.cn
Short text matching is often unable to accurately obtain the degree of semantic similarity between sentences when the semantic difference of the same wording and the semantic equivalence of the different wording. To solve this problem, the paper proposes a short text matching model which integrates contextual semantic differences. In this model, language models from the BERT series are utilized as a basic matching model, a novel Diff Transformer structure is implemented for extracting difference feature, and a gate mechanism is applied to integrate basic semantic representations and difference feature for a better matching effect. The model achieves the effect of advanced models on Chinese test datasets.
short text matching; difference feature; context semantic; Diff Transformer