亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合語義特征與偏序關(guān)系的生物醫(yī)學(xué)文檔檢索

2023-06-05 09:14:30何偉東楊志豪王治政林鴻飛

山西大學(xué)學(xué)報(自然科學(xué)版) 2023年3期

何偉東，楊志豪，王治政，林鴻飛

（大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，遼寧大連 116024）

0 引言

精準(zhǔn)醫(yī)學(xué)（Precision Medicine，PM）是整合應(yīng)用現(xiàn)代科技手段與傳統(tǒng)醫(yī)學(xué)方法，系統(tǒng)優(yōu)化人類疾病防治和健康促進的原理和實踐，以高效、安全、經(jīng)濟的健康醫(yī)療服務(wù)獲取個體和社會最大化健康效益的新型健康醫(yī)療服務(wù)范式［1-2］。該范式側(cè)重于確定最適合個體患者獨特屬性的治療方法。

隨著精準(zhǔn)醫(yī)學(xué)的不斷深化，越來越多的科學(xué)研究旨在面向重大疾?。ㄈ绨┌Y）開展精準(zhǔn)知識挖掘與推送。例如，TREC（Text REtrieval Conference）于2017 年提出的TREC-PM 任務(wù)可以為患者病例提供最相關(guān)的生物醫(yī)學(xué)文章［3］。該任務(wù)通常被定義為ad-hoc 式的文檔檢索模式，即在相對穩(wěn)定的數(shù)據(jù)庫中為自由查詢檢索最相關(guān)的文檔。在精準(zhǔn)醫(yī)學(xué)領(lǐng)域，自由查詢通常由多個方面內(nèi)容構(gòu)成，其中蘊含了對被檢索文檔的醫(yī)學(xué)信息需求。

如表1 所示，每個查詢病例由疾病名稱，基因名稱和遺傳變異類型以及人口統(tǒng)計信息（性別和年齡）組成。

表1 示例查詢Table 1 Sample query

基于給定的輸入病例，我們需要從候選文檔集合中檢索出與該查詢最為相關(guān)的生物醫(yī)學(xué)文檔，這涉及文檔檢索的召回與重排序過程。候選生物醫(yī)學(xué)文檔的具體信息如表2 所示，它包含了文檔的多方面信息，例如：發(fā)布時間、藥物表、歸一化的MESH 詞、標(biāo)題、文檔唯一編號PMID、文檔摘要等。

為了有效地檢索目標(biāo)文檔，現(xiàn)有的工作大多采用兩階段的方式［4］，即先使用召回模型從整個語料庫中檢索出一部分文檔作為候選文檔，然后使用更為復(fù)雜的排序模型對這些文檔作進一步的重排。

第一階段，即候選生成階段，現(xiàn)有方法通常使用基于稀疏詞袋表示的BM25 等傳統(tǒng)檢索模式來生成用于重排序的候選集合［5］，模型具體可以使用Lucene、Solr、Elasticsearch 等工具實現(xiàn)。但是在生物醫(yī)學(xué)中，醫(yī)學(xué)概念和事件的表達(dá)方式千差萬別，詞匯不匹配是制約醫(yī)學(xué)信息檢索的主要問題之一。例如，查詢“Tymlos 的潛在副作用是什么？”Tymlos 這種藥物是以其品牌名稱命名的，相關(guān)科學(xué)文獻可能會更頻繁地使用其別名Abaloparatide。

近年來，許多研究者開展了大量的工作來克服這種詞匯差異，包括基于相關(guān)性反饋的查詢擴展、查詢詞重新加權(quán)［6］，但是它們都無法解決稀疏性表示對語義特征表征不充分的問題。因此，面向語義信息的密集表示受到了研究者們的關(guān)注，它們能夠通過捕捉查詢的深層語義特征來克服詞匯不匹配的問題。基于BERT［7］和RoBERTa 等［8］預(yù)訓(xùn)練語言模型高性能密集表示，研究者提出了稠密段落檢索器［9］，旨在通過微調(diào)語言模型對文檔進行編碼，利用其強大的語義表示能力緩解詞匯不匹配問題。

第二階段，即精排序階段，現(xiàn)有方法大多使用pointwise（單文檔學(xué)習(xí)）排序方式來學(xué)習(xí)全局信息，如Subset Ranking［10］、McRank［11］、Prank［12］等。但是這些方法只建模了給定查詢與單個文檔之間的相關(guān)度，只學(xué)習(xí)到了候選文檔和查詢的絕對相關(guān)性，忽略了候選文檔之間的相對關(guān)系，即“偏序”關(guān)系。因此，研究者引入pairwise（文檔對學(xué)習(xí)）方法以彌補單文檔學(xué)習(xí)方法的不足，如 Ranking SVM［13］、RankBoost［14］、RankNet［15］、GBRank［16］、IR SVM［17］等方法。通常，這些方法將排序問題轉(zhuǎn)為二分類問題，即使用二分類器對文檔對進行分類，以此判斷兩個文檔的前后排序，賦予模型學(xué)習(xí)文檔之間偏序關(guān)系的能力。但是，以上的方法在精準(zhǔn)醫(yī)學(xué)背景下的文檔檢索任務(wù)中面臨以下問題：

（1）患者病例的查詢文本長度與相關(guān)醫(yī)學(xué)文檔的長度差異通常很大。一般情況下，給定的患者病例查詢與其相關(guān)的候選文檔在文本長度上存在很大差異，因此在使用預(yù)訓(xùn)練語言模型表征“查詢”和“文檔”時，會出現(xiàn)查詢特征的過度平滑的現(xiàn)象，從而導(dǎo)致查詢失效。

（2）基于pointwise 或者基于pairwise 的方法僅僅探索了查詢與文檔之間的單一關(guān)系，即全局相關(guān)或者偏序相關(guān)。而在醫(yī)學(xué)文檔檢索中，病例查詢通常涉及多方面的專業(yè)醫(yī)學(xué)信息，因此需要對文檔相關(guān)性的概念作出更全面的約束，也需要挖掘相關(guān)文檔內(nèi)部的順序關(guān)系。

為了解決上述問題，本文提出了一種基于生物醫(yī)學(xué)預(yù)訓(xùn)練語言模型（BioBERT）的偏序文檔檢索方法，如圖1 所示。

圖1 偏序文檔檢索方法框架圖圖中分為四個部分，分別是基于BM25的召回模塊、基于pointwise的重排模塊、基于pairwise的精排模塊（pair-SBERT）以及基于RRF（倒數(shù)排序融合）的排序融合模塊Fig.1 Partial order document retrieval method framework diagramThe figure is divided into four parts, namely the recall module based on BM25, the rearrangement module based on pointwise method,the fine sorting module based on pairwise method (pair-SBERT) and the sorting fusion module based on RRF (reciprocal sorting fusion)

首先，該模型基于BM25 召回部分相關(guān)文檔，然后使用 BioBERT 對病例查詢和相關(guān)文檔進行編碼，采用pointwise 方法學(xué)習(xí)查詢與相關(guān)文檔的全局關(guān)系。其中，模型引入查詢和文檔的串聯(lián)拼接來避免查詢特征的丟失。隨后，該模型引入pairwise 在查詢與文檔的全局關(guān)系中增加相關(guān)文檔之間的偏序關(guān)系。其中，除了使用“查詢-文檔”對特征的幾何拼接外，模型再次引入查詢特征來指導(dǎo)文檔對內(nèi)部的偏序特征學(xué)習(xí)。最后，該模型將第一階段的BM25 得分，第二階段的pointwise 得分和pair-SBERT 得分進行融合，得到最終的文檔相關(guān)度排名。

綜上所述，本文的主要貢獻如下：

（1）本文探索了領(lǐng)域知識需求更為嚴(yán)格的醫(yī)學(xué)領(lǐng)域查詢及相關(guān)文檔檢索研究；

（2）提出了一種融合語義信息與偏序關(guān)系的檢索方法，除捕捉文檔與查詢的全局關(guān)系以外，該方法還能挖掘相關(guān)文檔之間的偏序關(guān)系；

（3）本文進行了大量經(jīng)驗性實驗，驗證了本模型在精準(zhǔn)醫(yī)學(xué)領(lǐng)域中相關(guān)文檔檢索的有效性。

1 相關(guān)工作

1.1 文檔檢索

現(xiàn)有工作基本上都是基于神經(jīng)模型進行檢索。為了獲得高效率，Tang 等［18］設(shè)計了一種方法，通過迭代聚類過程模擬每個文檔上的查詢，并用多個偽查詢（即聚類質(zhì)心）來表示文檔。Manotumruksa 等［19］發(fā)現(xiàn)查詢與文檔的拼接順序會影響排序結(jié)果，因此提出了CrossBERT的三元組網(wǎng)絡(luò)結(jié)構(gòu)，用以挖掘不同方式拼接帶來的深層信息。

針對于本文中使用的TREC 精準(zhǔn)醫(yī)療數(shù)據(jù)集，許多研究者也做了大量的研究。Akabe等［20］提出的方法基于釋義語料庫遞歸地查找釋義，擴展源文檔，生成釋義格（Recursive Paraphrase Lattice），將文檔進行擴充來提高檢索性能。Qu 等［21］針對于Trec 語料中不同信息類別構(gòu)建了不同的分類器，再將多個分類器分類結(jié)果提供給決策樹計算文檔相關(guān)性。Rybinski等［22］開發(fā)了Science 2Cure（S2C）系統(tǒng)，該系統(tǒng)是一個結(jié)合了傳統(tǒng)倒排索引和神經(jīng)檢索組件的檢索系統(tǒng)。

1.2 排序?qū)W習(xí)

根據(jù)樣本空間和損失函數(shù)的定義方法不同排序?qū)W習(xí)方法可分為 pointwise、pairwise 和listwise 三類方法，其中pointwise 方法和pairwise 方法最為常用。pointwise 方法將排序任務(wù)轉(zhuǎn)化為分類任務(wù)或回歸任務(wù)。徐博等［23］使用手工構(gòu)建的特征作為排序?qū)W習(xí)的輸入，隨著深度學(xué)習(xí)的發(fā)展，龐博等［24］結(jié)合深度學(xué)習(xí)的排序?qū)W習(xí)方法極大地提高了排序的性能，近年來預(yù)訓(xùn)練模型在自然語言處理領(lǐng)域展現(xiàn)出強大的能力，Karpukhin 等［25］結(jié)合預(yù)訓(xùn)練模型BERT 提出了基于預(yù)訓(xùn)練模型的檢索模型，通過深層語義信息對文檔進行打分。

Pairwise 方法不對文檔相關(guān)性得分進行學(xué)習(xí)，而是學(xué)習(xí)不同文檔之間的前后偏序關(guān)系。對于每一個文檔，pairwise 需要計算它與其他文檔的偏序關(guān)系，通過拓?fù)渑判驅(qū)⑺衅蜿P(guān)系對排列，將得到最終的排序結(jié)果。Pradeep 等［26］基于預(yù)訓(xùn)練模型T5［27］構(gòu)建了一個pairwise 排序模型，實現(xiàn)了一個序列到序列的檢索方法。

2 模型

2.1 基于BM25的召回階段

本文在相關(guān)文檔召回階段使用基于詞匯級別的BM25 方法，其相關(guān)度計算公式如下：

其中Q代表一個查詢，qi表示查詢中的一個單詞，d代表相關(guān)文檔，Wi表示單詞權(quán)重。這里使用IDF（inverse document frequency）作為權(quán)重，如公式（2）所示。

其中N表示索引中的文檔數(shù)，dfi表示包含qi的文檔個數(shù)。

公式（1）中的R(qi，d)表示qi與文檔d的相關(guān)性，其計算公式如（3）所示。

其中，tfid表示單詞qi在文檔d中的詞頻，Ld是文檔d的長度，Lave是所有文檔的平均長度，k1與b是可調(diào)節(jié)參數(shù)。這里k1=2，b=0.75［19］。

考慮到表2 中所示的文檔內(nèi)容包含了多個不同的字段信息，但這些字段并不都能促進相關(guān)文檔的檢索，因此在該階段的文檔召回時，我們只使用題目、摘要以及MESH 詞字段來表示文檔。

綜合公式（1）-（3），我們可以從海量的備選文檔中召回一個數(shù)據(jù)規(guī)模較小的候選文檔用于后續(xù)的重排步驟。

2.2 基于pointwise的排序模型

對于召回的候選相關(guān)文檔，我們使用pointwise 方式對其進行重排序?？紤]到詞匯級匹配難以解決詞匯鴻溝的問題，因此在本模塊中，我們使用生物醫(yī)學(xué)預(yù)訓(xùn)練語言模型（BioBERT）對查詢和候選文檔集進行編碼，從而獲得它們深層的語義特征，以克服查詢與候選文檔中術(shù)語不匹配的問題。

首先，本模塊將“查詢-文檔”對的串聯(lián)作為編碼器的輸入，如公式（4）所示

其中qi表示查詢中的單詞，sj表示文檔中的句子。

查詢與文檔通過公式（4）的方式拼接后送入BioBERT 模型中進行編碼，然后使用“CLS”標(biāo)識符的最后一層表示作為“查詢-文檔”對的表示，接著經(jīng)過dropout 層（dp）與分類層（σ）預(yù)測查詢與文檔的相關(guān)性，如公式（5）所示：

當(dāng)對候選文檔集進行重排序時，則使用每個“查詢-文檔”對的相關(guān)性得分作為文檔重排的依據(jù)。因此，使用該模型對召回的候選文檔集進行重排，可以得到一個基于深層語義相關(guān)性的排序結(jié)果。

2.3 pair-SBERT模型

pointwise 重排后的文檔集忽略了相關(guān)文檔之間的相對位置關(guān)系，即偏序關(guān)系。因此我們提出了一個基于pairwise 的排序模型，即pair-SBERT。受到SentenceBERT 的啟發(fā)，該模型通過使用查詢與文檔的幾何拼接來捕捉文檔間的偏序關(guān)系和學(xué)習(xí)相似文檔間的差異信息，從而實現(xiàn)對重排后的文檔集進行精排序。該模型的框架如圖2 所示。

圖2 Pair-SBERT 框架圖Fig.2 Pair-SBERT framework diagram

對于重排后文檔集中的任意文檔Di和Dj，模型的輸入內(nèi)容如下所示：

查詢：Q，文檔i：Di，文檔j：Dj。使用BioBERT 分別對Q、Di、Dj編碼，輸出上述三部分的Last_hidden_state 向量，記為Qlhs、、，如公式（7）-（9）所示：

接下來對三個Last_hidden_state 向量分別進行平均池化（mean_pooling）操作，得到向量i，i和j，以保證后續(xù)的向量拼接能夠在同一維度上進行。公式如下：

得到查詢和文檔的向量表示后，該模型使用公式（13）和公式（14）將其進行幾何交互，即

經(jīng)過上述拼接操作后，向量維度會擴大數(shù)倍，這給模型計算帶來了較大的資源開銷，因此我們通過一個線性層對R1和R2進行降維，得到與。

隨后，為了保證相關(guān)文檔間的偏序關(guān)系在查詢內(nèi)容的范圍之內(nèi)，模型再次引入查詢向量作為全局約束，并對R1和R2進行幾何相減，以此引入兩個文檔之間的相對位置關(guān)系，如

分類層的輸出包含兩個神經(jīng)元，其中，s0表示文檔i排在文檔j前邊的分?jǐn)?shù)，s1表示文檔i排在文檔j后邊的分?jǐn)?shù)。

訓(xùn)練時，根據(jù)s1與s0的差值得出最終的標(biāo)簽0 或者1，再與標(biāo)準(zhǔn)標(biāo)簽計算損失。

在預(yù)測時，文檔i的分?jǐn)?shù)應(yīng)該是該文檔與其他文檔j拼接后得到的兩個分?jǐn)?shù)之和，即正序輸入文檔i排在文檔j之前的分?jǐn)?shù)與反向輸入文檔j排在文檔i之后的分?jǐn)?shù)，如公式（18）所示：

其中，D表示全部的候選文檔集。

基于pair-SBERT，模型充分挖掘了相關(guān)文檔的位置信息，得到了基于偏序關(guān)系的精排序結(jié)果。

2.4 排序結(jié)果融合

為了充分利用查詢與相關(guān)文檔的全部序列信息，本文將各個模型的結(jié)果進行融合，作為基于查詢的最終結(jié)果排序。

候選集經(jīng)過三個模塊的打分之后，會得到三個排序序列：BM25 召回的排序S1、pointwise重排的全局排序S2，和使用pair-SBERT 模型精調(diào)的排序S3。但是不同模型計算的相關(guān)性得分難以直接相加，因為在排序集合S={S1，S2，S3}中，每個序列都是基于不同視角特征對候選集D 中的文檔計算相關(guān)性得分。因此本文使用reciprocal rank fusion［28］方法融合不同的文檔序列，得到最終的相關(guān)性文檔順序，如公式（19）所示：

其中s(d) 是排序si中文檔d的排名，k為超參數(shù)。

3 實驗設(shè)置

3.1 數(shù)據(jù)集構(gòu)建

本文中在TREC-PM 賽道2017-2019 年數(shù)據(jù)上進行實驗。

3.1.1 初始數(shù)據(jù)集

2017-2019 數(shù)據(jù)信息如表3 所示，共包含120 個查詢與63 387 個帶有標(biāo)簽的文檔。

表3 數(shù)據(jù)集統(tǒng)計信息Table 3 Dataset statistics

本文將2017 年與2018 年數(shù)據(jù)作為訓(xùn)練集，將2019 年作為測試集。

3.1.2 pointwise數(shù)據(jù)構(gòu)建

pointwise 模型的輸入是一個查詢與一個文檔，輸出是文檔的相關(guān)性分?jǐn)?shù)。在原始數(shù)據(jù)集中標(biāo)簽包含0，1，2 三類，為了適應(yīng)于本方法，將1 與2 歸類于relevant，將0 歸為irrelevant。除了初始數(shù)據(jù)集訓(xùn)練數(shù)據(jù)外，本文還使用了隨機采樣與難負(fù)例采樣技術(shù)對訓(xùn)練集進行了擴充。對于一個查詢，隨機采樣指從整個數(shù)據(jù)庫中隨機獲取若干個文檔，去掉在初始數(shù)據(jù)集中出現(xiàn)過的文檔，然后將這些文檔作為負(fù)例加入訓(xùn)練集中。而難負(fù)例采樣是指通過BM25 算法得到與查詢相似度更高的一些文檔，去掉在訓(xùn)練集中是正例的文檔，剩余的添加到數(shù)據(jù)集中做負(fù)例。正負(fù)比例約為1∶10。

3.1.3 pair-SBERT數(shù)據(jù)構(gòu)建

pair-SBERT 模型的輸入是查詢與兩個文檔，這兩個文檔具有不同等級的相關(guān)度標(biāo)簽。本文根據(jù)不同相關(guān)度標(biāo)簽的文檔分布，隨機組合查詢與相關(guān)文檔，并賦予其新的標(biāo)簽。例如，在同一個查詢中，標(biāo)簽為0 的文檔與標(biāo)簽為1 的文檔組合為一條pairwise 輸入，并標(biāo)注1。標(biāo)簽為2 的文檔與標(biāo)簽為1 的文檔組合為一條pairwise 輸入，并標(biāo)注為0。

3.2 實現(xiàn)細(xì)節(jié)

（1）在文檔召回階段，設(shè)置召回文檔數(shù)量為1000。

（2）在文檔的重排序和精排序階段，本文使用hunggingface 發(fā)布的預(yù)訓(xùn)練模型①https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext編碼源文本。實驗中，epochs 設(shè)置為5，max_length 設(shè)置為512，learning_rate 設(shè)置為1×10-5，loss_function 設(shè)置為BCEWithLogitsLoss，optimizer 設(shè)置為Adam。pointwise 方法設(shè)置batchsize 為8。pair-SBERT 方法的batchsize 設(shè)置為2。結(jié)果融合部分k設(shè)置為60。

3.3 對比方法

本小節(jié)選取了一些具有代表性的工作進行對比。

本文中設(shè)置了兩類對比實驗，一類是基于查詢與相關(guān)文檔語義的方法，包括BM25，BITEM PM［29］，Tree-soft［21］，和Science2Cure［22］。

另一類是基于外部知識的方法。Julie［30］使用了BANNER gene tagger 對文檔進行擴充，并使用Lexigram 對查詢進行擴展。Akabe 等［20］提出的一個使用Recursive Paraphrase Lattice（釋義格）的方法，該方法利用了釋義語料庫擴充了文檔。

3.4 評價指標(biāo)與結(jié)果分析

本文采用NDCG@10、Rprec 和p@10 三個指標(biāo)進行評估。

表4 中“-”表示原論文中并未提及該數(shù)據(jù)。從表4 中我們可以得出如下結(jié)論：首先，與基于查詢與相關(guān)文檔的語義特征的方法相比，本文提出的模型在三個評價指標(biāo)上取得了最好的結(jié)果。因此，在不引入外部知識的情況下，該模型在挖掘深度語義和利用相關(guān)文檔的偏序關(guān)系精調(diào)文檔方面具有優(yōu)勢。其次，與引入外部知識的方法相比，本文提出的方法優(yōu)于Julie，但在NDCG 與Rprec 指標(biāo)上略低于RPL。這主要是因為提出模型沒有使用外部資源進行擴展查詢，以保證模型的訓(xùn)練效率和較低的資源開銷。雖然丟失了全局召回和排序位置的精度，但是模型因不受外部資源的約束，具有更好的可擴展性。最后，本文提出的模型在p@10 指標(biāo)上比RPL 高了將近0.24，這再次說明了我們的模型取得了更好的相關(guān)文檔檢索精度，在挖掘深度語義和捕捉文檔偏序關(guān)系方面表現(xiàn)良好。

表4 實驗結(jié)果Table 4 Experimental results

3.5 消融實驗

為了證明本文提出的模型的有效性，針對提出的各個模塊進行了消融實驗，如表5所示。

表5 消融實驗結(jié)果Table 5 Results of ablation experiment

表5 中，Q→表示在pair-SBERT 模型中的拼接查詢向量Q→的操作。首先，去掉拼接Q→的操作后（Ours-Q→），我們發(fā)現(xiàn)模型結(jié)果下降了約0.8%，說明拼接Q→操作是有效的，因為查詢能更好的指導(dǎo)相關(guān)文檔的偏序預(yù)測。其次，通過去掉pointwise 模型與pairwise 模型（Ours-pairwise 和Ours-pointwise）的實驗結(jié)果可以看到，模型性能下降明顯，說明這兩個模塊都有不可替代的功能。最后，通過觀察只使用pointwise 或pairwise（Ours-pairwise-BM25 或Ours-pointwise-BM25）模型的結(jié)果可以看到，模型性能甚至低于基準(zhǔn)方法BM25。

以上結(jié)果表明本文提出的排序模型的每一部分都是至關(guān)重要的，任何一部分的缺失都會引起整體性能的下降。

3.6 擴展實驗

除了上述實驗之外，我們還通過復(fù)現(xiàn)其他類似任務(wù)上的方法并與本文提出的方法進行對比，結(jié)果如圖3 所示。

圖3 中BM25+ATT［18］表示通過查詢對文檔做Attention，然后加權(quán)求和縮減文檔的方法，BM25+CBERT［19］表示按照不同順序拼接查詢-文檔對的方法，Ptw+SBERT［31］表示使用SentenceBERT 相似度表示的pointwise 方法。

通過圖3 可以看出，我們的方法在TRECPM 2019 數(shù)據(jù)集上取得了最好的結(jié)果。這說明在精準(zhǔn)醫(yī)學(xué)背景的生物醫(yī)學(xué)文檔檢索任務(wù)中，本文方法更能解決實際問題，是不能簡單地通過遷移其他方法來替代的。此外，通過Ptw+SBERT 和BM25+Ptw+SBERT 這兩個實驗設(shè)置可以看出，本文使用的幾何拼接方式對于學(xué)習(xí)文檔偏序關(guān)系是更有效的。

4 結(jié)論與展望

本文提出了一種基于BioBERT 的偏序文檔檢索方法，解決了當(dāng)前常用的檢索方法因長度差異導(dǎo)致查詢特征失效的問題，而且融合pointwise 方法與pairwise 方法能夠挖掘出更多有用的文檔排序特征，彌補了pointwise 與pairwise 方法在單獨使用時不能完全挖掘特征的不足，BioBERT 的引入也在一定程度上改善了模型在醫(yī)學(xué)領(lǐng)域編碼的應(yīng)用。相比于傳統(tǒng)的pointwise方法與pairwise 方法，本文提出的方法獲得了更好的檢索性能。在TREC-PM 的數(shù)據(jù)集上的實驗結(jié)果驗證了該方法的有效性，它能夠?qū)W習(xí)到鄰近文檔對的偏序關(guān)系，指導(dǎo)模型對相關(guān)文檔的精排。未來的工作將嘗試在文本編碼過程中研發(fā)更有效的編碼方式，加速檢索效率，進一步優(yōu)化檢索過程。