亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于對抗式數(shù)據(jù)增強的深度文本檢索重排序①

        2021-08-02 11:08:56陳麗萍任俊超
        計算機系統(tǒng)應(yīng)用 2021年7期
        關(guān)鍵詞:信息檢索集上段落

        陳麗萍,任俊超

        (東北大學(xué) 理學(xué)院,沈陽 110819)

        1 引言

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,信息檢索領(lǐng)域的相關(guān)研究也取得了巨大突破.信息檢索是用戶獲取查詢信息的主要方式.信息檢索主要是解決從大量候選信息集中獲取與所需信息相關(guān)的信息資源,返回的相關(guān)信息通常根據(jù)某種相關(guān)性概念進行排名,排名的結(jié)果至關(guān)重要.因此,對于信息檢索領(lǐng)域中排序模型的研究成為一大熱點.

        在過去的幾十年中,研究人員提出了許多不同的排序模型,包括向量空間模型[1],概率模型[2]和LTR(Learning To Rank)模型[3].最高效的檢索方法是使用向量空間模型,其方法包括TF-IDF 關(guān)鍵詞權(quán)重匹配[4],這些方法是基于詞的匹配,更容易受到關(guān)鍵詞的限制.例如,候選段落集合為:“這個女明星如此漂亮”,“莉莉”.查詢問題為:“這個女明星叫什么名字? ”,如果采用TF-IDF 關(guān)鍵詞匹配方法,這個查詢的最相關(guān)答案是“這個女明星如此漂亮”.顯然,此方法只能獲得與查詢相似的段落,無法得到語義的匹配信息.隨著機器學(xué)習(xí)的發(fā)展,LTR模型已經(jīng)取得了巨大的成功,其主要取決于特征的選取,特征的質(zhì)量和數(shù)量決定了模型的質(zhì)量,一定程度上緩解了向量空間模型帶來的不足,但是依然無法獲取連續(xù)的語義信息.近年來,神經(jīng)網(wǎng)絡(luò)發(fā)展快速并且在自然語言處理領(lǐng)域取得了重大突破,神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用到信息檢索領(lǐng)域中,神經(jīng)網(wǎng)絡(luò)信息檢索模型[5]被證明可以有效地從原始輸入中學(xué)習(xí)文本的潛在語義信息,并能一定程度上解決了詞語不匹配問題.越來越多的研究者探索雙重編碼結(jié)構(gòu)[6],該結(jié)構(gòu)使用原始查詢和檢索到的段落作為輸入文本,通過one-hot 編碼,Word2Vec[7]和sub-word components[8]等詞嵌入方法來表示文本.神經(jīng)網(wǎng)絡(luò)模型在信息檢索應(yīng)用中得到了廣泛推廣,例如段落檢索、文檔檢索和段落排序.

        信息檢索領(lǐng)域中的段落排序任務(wù),其主要框架如圖1所示.段落排序任務(wù)通常分為兩個階段:第1 階段是使用簡單高效的檢索模型來快速檢索候選段落集合中的Top-k;第2 階段是使用相對復(fù)雜的排序模型對Top-k候選集進行重排序.本文主要針對第2 階段,研究查詢結(jié)果重排序問題.段落重排序不需要二次檢索,僅基于原始檢索結(jié)果進行重排序.當(dāng)前主流搜索引擎:Google,Baidu,Bing,在輸入查詢時將返回一系列查詢結(jié)果,但用戶提交的查詢詞太短或太長,查詢字詞無法準確表示用戶的意圖.查詢和查詢結(jié)果之間存在語義上的不匹配,并且無法獲得用戶所需的查詢結(jié)果.此外,用戶通常只關(guān)注排名最高的搜索結(jié)果,而排名較高的搜索結(jié)果可能包含不相關(guān)的文檔.該排序結(jié)果直接影響用戶體驗.因此,如何提高排名的準確性并提高用戶對查詢結(jié)果的滿意度一直是搜索引擎中的重點研究問題.

        圖1 段落排序

        利用神經(jīng)網(wǎng)絡(luò)排序模型對候選段落集合重新排序.神經(jīng)網(wǎng)絡(luò)排序模型對于數(shù)據(jù)質(zhì)量要求極高,而信息檢索數(shù)據(jù)集中含有較多噪音,并且缺少大量的標簽數(shù)據(jù),無法準確獲取與查詢不相關(guān)的文檔.訓(xùn)練一個能理解查詢意圖的深度學(xué)習(xí)模型是困難的.

        本文目標是通過不匹配的查詢文檔對以提高排序模型的性能.針對信息檢索數(shù)據(jù)集不平衡且缺乏高質(zhì)量的負樣本這一問題,我們提出一個深度的、端到端的生成模型,利用不匹配的查詢文檔對,生成與查詢相似、文檔不相關(guān)的對抗查詢.最后,利用新構(gòu)造的數(shù)據(jù)訓(xùn)練深度排序模型.

        實驗結(jié)果顯示,與基線模型BERT-base 相比,MSMARCO和TrecQA 數(shù)據(jù)集利用本文方法AQGM+BERT-base 在MRR 指標上分別提升了0.3%、3.2%.由此可見,AQGM (Adversarial Query Generation Model)算法通過生成的對抗查詢,增強了負樣本質(zhì)量,使BERTbase 分類模型更具魯棒性.

        2 相關(guān)工作

        文本檢索重排序任務(wù)早前的方法更多是利用簡單的方法衡量查詢和文檔相關(guān)性,最高效的衡量方法為BM25[9],其核心思想是對于查詢中的每個詞語,計算和當(dāng)前文檔的相關(guān)性得分,然后對查詢中所有詞語和文檔的相關(guān)得分進行加權(quán)求和,得到最終得分.這種方法簡單高效,但是查詢結(jié)果往往不那么準確.研究人員對于初步相關(guān)性得分進一步探索,其中一種思路是利用文檔和文檔之間的關(guān)系進行檢索結(jié)果重排序,Plansangket等[10]提出基于文檔分類實現(xiàn)檢索結(jié)果重排序,降低了一些分類分數(shù)較低的查詢結(jié)果的等級.Balinski 等[11]利用從文本、超鏈接獲得的文檔之間的距離關(guān)系來提高文檔得分.其次,借助外部語料信息進行文檔重排序,Qu 等[12]利用每個主題構(gòu)造單獨的詞庫來生成文檔向量和查詢向量.

        隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)模型已經(jīng)在各大領(lǐng)域展示了卓越的性能,更多研究者將端到端的模型應(yīng)用到排序任務(wù)中.例如DRMM[13],在查詢詞級別時使用聯(lián)合深層架構(gòu)進行相關(guān)性匹配;matchpyramid[14],基于word-leval 級別交互的矩陣匹配思想,用一個二維矩陣來代表query和doc中每個word的交互,能捕獲更精確的匹配信息,以及目前最流行的預(yù)訓(xùn)練模型BERT[15].

        盡管深度模型性能強大,但是對于數(shù)據(jù)的質(zhì)量要求極高.研究者主要從兩方面對數(shù)據(jù)進行一系列加強:一是查詢擴展,Voorhees[16]提出的詞匯查詢擴展,利用同義詞的信息,利用統(tǒng)計轉(zhuǎn)換建模詞語關(guān)系[17],以及Browm 大學(xué)提出的query2query[18]方法,將原始查詢利用生成查詢進行擴充,這些技術(shù)都是通過加強查詢理解來匹配更好的文檔;二是文檔擴充,doc2query[19],利用文檔生成其查詢,對文檔進行擴充.這些方法都是通過豐富文檔信息,來得到最好的匹配結(jié)果.

        近年來,對抗生成網(wǎng)絡(luò)[20]發(fā)展迅速,應(yīng)用到圖像、語音和文本等領(lǐng)域,從噪音數(shù)據(jù)中生成樣本,極大提高模型的魯棒性.Wang 等人提出IRGAN[21],將對抗生成網(wǎng)絡(luò)應(yīng)用到信息檢索排序任務(wù)中,基于極小極大化博弈理論,使得分類判別器將真正的樣本與生成的對抗性樣本盡可能準確區(qū)分.Bahuleyan 等人提出VED模型[22],增加生成句子的多樣性.Nguyen 等人提出QUARTS 模型[23],增強了模型的穩(wěn)健性和泛化能力.

        本文工作受到生成對抗性樣本方法的啟發(fā),通過生成對抗查詢的方式,增加了查詢多樣性,并構(gòu)造高質(zhì)量的負樣本對,利用當(dāng)前主流深度模型BERT,訓(xùn)練分類模型,得到查詢文檔對的相關(guān)性得分.

        3 方法

        3.1 AQGM 模型

        本文提出AQGM (Adversarial Query Generation Model)方法,通過生成對抗查詢,得到高質(zhì)量的負樣本對,對數(shù)據(jù)進行增強.該方法由3 部分組成:(1)基于詞的權(quán)重方法獲得不相關(guān)的查詢文檔對.(2)通過VED(Variational Encoder-Decoder)模型,生成與查詢相似、文檔不相關(guān)的對抗查詢,模型結(jié)構(gòu)如圖2.(3)得到最終增強的樣本{Q+(1?y)Q_gen,P,y}.其中,y代表查詢文檔對是否匹配.當(dāng)y=1,(Q,P)是真正的正例;y=0,(Q+Q_gen,P)是通過對抗查詢增強的負例.

        圖2 VED 模型結(jié)構(gòu)

        對于每一個query,Qi={qi},都存在一個對應(yīng)passage集合其中,p+i代表與query 相關(guān)的段落,代表與query 不相關(guān)的段落.基于詞的權(quán)重方法獲得不相關(guān)文檔集中與查詢得分最高的文檔,我們定義查詢文檔對的相關(guān)性得分:

        其中,wt代表單詞的權(quán)重,qit代表qi中的單詞,表示某個搜索文檔,R代表每個單詞和搜索文檔的相關(guān)性高低,此處我們采用傳統(tǒng)的IDF來定義wt:

        其中,N為索引中的全部文檔數(shù),我們用n(qit)指代包含qit的文檔數(shù).接下來是單詞qit與段落的相關(guān)性得分衡量:

        其中,k1,k2,b為調(diào)節(jié)因子,b對文檔長度因子進行調(diào)整,k2對查詢詞頻因子進行調(diào)整,k1對文檔詞頻因子進行調(diào)整.k1+1,k2+1 保證查詢詞頻及文檔詞頻大于1.從K的定義可得,b越大,K值越小,文檔長度對相關(guān)性得分的影響越大,反之越小;而文檔的相對長度越長,K值將越大,則相關(guān)性得分會越小.k1按經(jīng)驗設(shè)置為2,k2通常為0–1000,b設(shè)置為0.75[24].ft為qit在中出現(xiàn)的頻率,qft為qit在qi中出現(xiàn)的頻率,pl為段落的長度.avgpl為所有段落的平均長度.

        通過以上方法可以得到查詢和不相關(guān)文檔的得分,選擇其中得分最高的樣本對(q,p?),作為訓(xùn)練樣本,利用 VED 模型進行訓(xùn)練,模型結(jié)構(gòu)如圖2.其中編碼器encoder 輸入文檔P,并輸出平均向量m和偏差向量n,m和n作為z的后驗正態(tài)分布的參數(shù);解碼器根據(jù)從后驗分布提取的樣本z生成查詢Q_gen.本文通過模型生成的查詢,得到高質(zhì)量的負樣本,構(gòu)造了增強的數(shù)據(jù)集:{Q+(1?y)Q_gen,P,y},其中Q代表原始查詢.

        3.2 深度排序模型

        通過深度排序模型得到查詢文檔的相關(guān)性得分.本任務(wù)建立基于BERT的分類模型.訓(xùn)練樣本為三元組的格式:

        其中,Ri代表passage是否是query的正確回答,取值為0 或1,我們通過Pointwise的訓(xùn)練方式建立query和passage的關(guān)系.具體的,我們將queryqi和passagepi拼接成一個序列輸入,如式(6):

        其中,表示分隔符,的位置對應(yīng)的編碼表示query和passage的關(guān)系.

        利用BERT 對其進行編碼,訓(xùn)練一個二分類網(wǎng)絡(luò):

        經(jīng)過BERT 編碼后,我們?nèi)∽詈笠粚拥?CLS>位置的隱向量hθ(qi,pi)作為query和passage的關(guān)系表示.然后通過softmax計算最終得分yi.后續(xù)我們通過改進的交叉熵損失函數(shù)來優(yōu)化我們的模型:

        其中,β1為調(diào)節(jié)因子,取值大于1.通過調(diào)節(jié)因子的設(shè)置,使得模型對正樣本的錯誤預(yù)測給予更多的關(guān)注.

        4 實驗設(shè)置

        4.1 數(shù)據(jù)集

        實驗采用了兩個基準數(shù)據(jù)集,分別為MSMARCO[25]和TrecQA[26].數(shù)據(jù)集的統(tǒng)計信息如表1所示.

        表1 數(shù)據(jù)集統(tǒng)計信息

        MSMARCO是由微軟提出的基于大規(guī)模真實場景數(shù)據(jù)的數(shù)據(jù)集,該數(shù)據(jù)集基于Bing 搜索引擎和Cortana 智能助手中的真實搜索查詢產(chǎn)生.MSMARCO數(shù)據(jù)集包括約880 k的不重復(fù)passage,約101 k的query.Query 平均長度為5.97,passage 平均長度為56.58.我們采用的測試集為2019 trec 比賽釋放的人工標注好的9260 條數(shù)據(jù).

        TrecQA是由Wang 等人提供的基準數(shù)據(jù)集,是從TrecQA的第8–13 軌道收集,由真實的問題組成,主要回答“誰”、“什么”、“哪里”和“為什么”等類型的問題.

        4.2 評價指標

        信息檢索排序問題常用評價指標有MRR、MAP和NDCG.在MAP中,文檔和查詢要么相關(guān),要么不相關(guān),也就是相關(guān)度非0 即1.NDCG中做出改進,相關(guān)度分成從0 到r的r+1個等級(r可設(shè)定).根據(jù)實驗數(shù)據(jù)集的特性,MSMARCO 測試數(shù)據(jù)集的相關(guān)度分為0 到3,TrecQA 測試數(shù)據(jù)集的相關(guān)度非0 即1.因此,對于MSMARCO 數(shù)據(jù)集我們采用NDCG和MRR指標,對于TrecQA 數(shù)據(jù)集我們采用MAP和MRR指標.

        MRR(Mean Reciprocal Rank)平均倒數(shù)排序,公式如下:

        其中,Q是問題的個數(shù);pi為第i個問題中的第一個正確答案的排名位置.即把第一個正確答案在排序給出結(jié)果中的位置取倒數(shù)作為它的準確度,再對所有的問題求平均,這個評價指標只關(guān)心第一個正確答案.

        MAP(Mean Average Precision):單個查詢的平均準確率是每篇相關(guān)文檔檢索出后的準確率的平均值.MAP是每個主題平均準確率的平均值.MAP是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標.系統(tǒng)檢索出來的相關(guān)文檔越靠前(rank越高),MAP就可能越高.如果系統(tǒng)沒有返回相關(guān)文檔,則準確率默認為0.

        NDCG(Normalized Discounted Cumulative Gain)歸一化折損累計增益,計算公式如下:

        其中,k表示k個文檔組成的集合,rel表示第i個文檔的相關(guān)度.|REL|表示文檔按照相關(guān)度從大到小排序,取前k個文檔組成的集合.

        4.3 訓(xùn)練細節(jié)

        AQGM 模型的encoder和decoder 部分,采用LSTM 網(wǎng)絡(luò)[27]進行編碼解碼,隱單元設(shè)置為300.通過該模型獲得的訓(xùn)練數(shù)據(jù):{Q+(1?y)Q_gen,P,y}.后續(xù)采用BERT-base 得到查詢文檔對的相關(guān)性得分,使用谷歌預(yù)訓(xùn)練的BERT-base-uncased 作為BERT 模型的初始化參數(shù),在下游分類任務(wù)上進行微調(diào).通過對語料的分析,在模型中設(shè)置的參數(shù)如下:輸入模型的句子最大長度為max_sentence_length=384;batch_size=64;學(xué)習(xí)率為2e–5、3e–5和4e–5;優(yōu)化函數(shù)采用Adam[28];調(diào)節(jié)因子 β1設(shè)置為1.1;訓(xùn)練的epoch設(shè)置為5.

        本文采用MAP、MRR和NDCG@10 指標作為評測模型性能的度量.在測試集上評測AQGM+BERT-base模型和基線模型的得分,并進行對比.對于MSMARCO數(shù)據(jù)集,設(shè)置BM25,BERT-base,Doc2query+BERTbase 作為基準模型,進行實驗對比.為進一步證實模型的有效性,在TrecQA 數(shù)據(jù)集上設(shè)置對照試驗,分別為K-NRM 模型[29]與AQGM+K-NRM、BERT-base 模型與AQGM+BERT-base和AQGM+BERT-base 模型與Doc2query+BERT-base.

        5 實驗結(jié)果與分析

        為得到AQGM+BERT-base 模型的最優(yōu)性能,本文采用不同的初始學(xué)習(xí)率在MSMARCO和TrecQA 數(shù)據(jù)集上進行實驗,MRR指標如表2.結(jié)果顯示,當(dāng)學(xué)習(xí)率為3e–5,該模型在MSMARCO 數(shù)據(jù)集上性能最優(yōu);當(dāng)學(xué)習(xí)率為2e–5,該模型在TrecQA 數(shù)據(jù)集上性能最優(yōu).

        表2 不同學(xué)習(xí)率下的性能分析(%)

        表3和表4展示了不同數(shù)據(jù)集上,AQGM+BERTbase 模型和基線模型的MRR、MAP和NDCG@10 評價指標得分.

        表3 MSMARCO 評測結(jié)果(%)

        表4 TrecQA 評測結(jié)果(%)

        分析表3可得,在MSMARCO 數(shù)據(jù)集上,與BERT-base 模型對比,AQGM+BERT-base 模型融入生成的對抗查詢,使MRR@10 指標提升1.2%,證明對抗式數(shù)據(jù)增強方式能一定程度上提高神經(jīng)網(wǎng)絡(luò)排序模型的性能.與基于文檔擴充的Doc2query+BERT-base 模型對比,本文模型在MRR@10,NDCG@10 指標分別提升0.3%和1.5%,證明對抗式數(shù)據(jù)增強相比文檔擴充,具有一定的優(yōu)勢.

        為進一步證實算法的有效性,本文在TrecQA 數(shù)據(jù)集上設(shè)置實驗進行驗證,如表4.K-NRM 模型加入對抗式數(shù)據(jù)增強方法AQGM,使MRR和MAP指標上升2.5%、3.3%;AQGM+BERT-base 模型與BERTbase 模型相比,指標分別提升3.2%、1.3%;AQGM+BERT-base 模型與Doc2query+BERT-base 模型相比,指標分別提升3.0%、0.7%.以上分析可得,對抗式數(shù)據(jù)增強方式的有效性.

        綜上,本文模型相比基線模型,在MSMARCO和TrecQA 數(shù)據(jù)集上性能均有一定提升,在排序?qū)W習(xí)中融入對抗查詢,提高模型的穩(wěn)健性.在實際檢索文檔過程中,返回與查詢相關(guān)度高的文檔,能提高用戶的搜索興趣.

        6 結(jié)論與展望

        本文探索對比得到一種更適應(yīng)于文本檢索重排序的模型.AQGM+BERT-base 模型在MS MARCO和TrecQA 數(shù)據(jù)集上得到了有效驗證.該方法簡單且易理解,在數(shù)據(jù)增強方面,提供了一種新的思路,從更具有挑戰(zhàn)性的生成對抗查詢的角度出發(fā),獲得高質(zhì)量的負樣本.此次嘗試獲得了有效的驗證,這為之后在這一領(lǐng)域的探索打開了良好的開端.

        猜你喜歡
        信息檢索集上段落
        【短文篇】
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        心理小測試
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        復(fù)扇形指標集上的分布混沌
        醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        弄清段落關(guān)系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        久久亚洲精彩无码天堂| 成人免费一区二区三区| 国产人妖视频一区二区| 国产激情久久久久久熟女老人| 亚洲丝袜美腿精品视频| 久久精品中文字幕| 亚洲毛片在线观看免费| 蜜臀久久99精品久久久久久| 亚洲av美国av产亚洲av图片| 亚洲综合无码一区二区三区| 久久青青草原亚洲AV无码麻豆| 中文字幕人妻丝袜成熟乱| 亚洲精品在线一区二区| 久久久久夜夜夜精品国产| 无码熟熟妇丰满人妻啪啪| 妺妺窝人体色www在线直播| 亚洲一区二区三区免费av在线| 亚洲精品一区二区三区麻豆| 亚洲中国精品精华液| 天干天干啦夜天干天2017| 亚洲一区二区高清精品| 毛茸茸的女性外淫小视频| 亚洲综合av永久无码精品一区二区| 无码一区二区波多野结衣播放搜索| 一区二区三无码| 国产一区亚洲二区三区极品| 97高清国语自产拍| 亚洲午夜无码AV不卡| 亚洲狠狠久久五月婷婷| 四虎成人精品国产永久免费无码| 富婆如狼似虎找黑人老外| 国产亚洲三级在线视频| 国产精品久久免费中文字幕| 国产狂喷潮在线观看| 狠狠色狠狠色综合| 成人国产在线播放自拍| 国产自拍成人免费视频| 亚洲av麻豆aⅴ无码电影| 国内免费AV网站在线观看| 免费一区二区三区av| 亚洲午夜无码毛片av久久|