亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文檔檢索中文本片段化機(jī)制的研究*

        2020-04-15 09:45:18宇,劉
        計(jì)算機(jī)與生活 2020年4期
        關(guān)鍵詞:單詞文本實(shí)驗(yàn)

        李 宇,劉 波

        暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院 計(jì)算機(jī)系,廣州 510632

        1 引言

        信息檢索(information retrieval,IR)的直接目的是查找用戶所關(guān)注的信息。IR 既包括常見的搜索引擎、文章推薦等各種系統(tǒng),也包括一些嵌入在應(yīng)用里面的隱式查詢,如抖音、美團(tuán)等通過用戶歷史數(shù)據(jù)來查找用戶的興趣點(diǎn)。IR 技術(shù)中使用的文本間相似度算法[1-3]在釋義識(shí)別、語言研究、文本分類等領(lǐng)域也有著廣泛的應(yīng)用。本文研究的檢索對(duì)象是長(zhǎng)文本,即由句子構(gòu)成的段落或文章。長(zhǎng)文本具有信息量豐富且冗長(zhǎng)的特征,對(duì)于要查詢的信息,長(zhǎng)文本匹配往往不是全部語句與查詢語句都相關(guān),還可能出現(xiàn)某些高相似片段的強(qiáng)干擾。在最新的研究中,許多學(xué)者將文本特征表達(dá)與相似性匹配結(jié)合起來[4-5],致力于在特定領(lǐng)域中探索不同文本表達(dá)式對(duì)應(yīng)的相似度匹配方案,以提高檢索準(zhǔn)確率。

        目前,文本長(zhǎng)度較長(zhǎng)時(shí)可能帶來的負(fù)面影響:

        (1)當(dāng)文本較長(zhǎng)時(shí),一些體現(xiàn)查詢意圖的詞、短語分散在文檔中,整篇文檔直接比較會(huì)影響關(guān)聯(lián)匹配效果和整體檢索性能。

        (2)一些文本相關(guān)性計(jì)算方法或相似度匹配算法往往會(huì)受到長(zhǎng)度的影響[6-7],檢索出來的有效文本的質(zhì)量很不穩(wěn)定。

        Fig.1 Analysis of related medical reports圖1 關(guān)聯(lián)醫(yī)學(xué)報(bào)告的查詢分析

        如圖1 中,與查詢?cè)~hemophilia pseudotumor(血友病,腫瘤)關(guān)聯(lián)的醫(yī)學(xué)報(bào)告文檔中,全長(zhǎng)277 單詞,9個(gè)長(zhǎng)句,其中查詢有關(guān)的詞只出現(xiàn)6 次,但在5 個(gè)句子中有提及,頻度低但分散程度均勻,使得采用一般計(jì)算方法所得的相關(guān)性整體得分偏低。

        近年來,一些工作[8-9]在論壇、產(chǎn)品評(píng)論、微博、電影評(píng)論等短文本相似度計(jì)算及匹配研究方面取得了很好的成果。Chen 等人[10]提出了內(nèi)容感知的主題模型,將高度相關(guān)的片段應(yīng)用到主題模型的構(gòu)建中,提高了主題分類的效果。短文本匹配的優(yōu)點(diǎn)在于:相似性匹配方法比較直接,受到比較文本之間的長(zhǎng)度差異影響小,區(qū)分度很高。但其不足在于:數(shù)據(jù)量小,缺乏上下文信息,一出現(xiàn)相同詞眼便具有較高的相似度,又由于文本數(shù)據(jù)稀疏而難以對(duì)單詞權(quán)重進(jìn)行準(zhǔn)確評(píng)估。

        為了能提高長(zhǎng)文本有價(jià)值部分的利用率,本文提出文本片段化機(jī)制(text snippet mechanism,TSM),其通過提取重要的短文本句子片段來度量查詢與文檔之間的相關(guān)性,目的是利用關(guān)鍵有效的文本片段信息提升文檔整體相關(guān)性評(píng)分的參考價(jià)值,在一定程度上消除文檔長(zhǎng)度對(duì)相似度匹配的影響。本文的主要研究?jī)?nèi)容如下:

        (1)如何實(shí)現(xiàn)長(zhǎng)文本進(jìn)行切分、記錄、篩選、整合。

        根據(jù)標(biāo)點(diǎn)和一些特殊符號(hào)對(duì)文本進(jìn)行切分,查詢語句和候選文檔看作是一個(gè)或幾個(gè)文本片段組成,通過查詢片段來檢索相近內(nèi)容的文檔時(shí),能關(guān)聯(lián)出多個(gè)相似片段的文檔。候選文檔中提取的片段與查詢片段之間的相似性越高,那么被提取的概率和設(shè)置的權(quán)重就越高。片段之間的比較可以很好地削弱噪聲數(shù)據(jù)的影響,因?yàn)樵谀承┖蜻x文檔中只匹配極少與查詢相似度極高的片段,但高度的局部相似性并不意味著這些候選文檔與查詢內(nèi)容相關(guān)。

        (2)如何在片段化機(jī)制中對(duì)查詢文本和候選文檔的片段進(jìn)行整體相關(guān)性評(píng)分。

        本文在文本片段之間的相關(guān)性評(píng)估上,以統(tǒng)計(jì)模型BM25[11]和語義模型WMD(word mover's distance)[12]為基礎(chǔ),結(jié)合單詞權(quán)重的相似度匹配方案來檢索相關(guān)文檔。在整體相關(guān)性評(píng)分中,考慮了候選文檔篩選提取后的相關(guān)片段本身的相關(guān)性評(píng)分信息以及相關(guān)片段比率。

        2 文本檢索相關(guān)技術(shù)

        在文本檢索的研究中,主要涉及文本表達(dá)特征、相似度匹配、查詢拓展、碎片化方法等方面的研究,相關(guān)技術(shù)成果介紹如下。

        2.1 文本表達(dá)及相似度匹配

        2.1.1 TF-IDF 和BM25

        TF-IDF(term frequency-inverse document frequency)是一種基于語料庫(kù)的統(tǒng)計(jì)方法,它通過詞的頻率和詞在文檔集中的分布密度來反映詞的重要性,然后將所有詞的權(quán)重映射到一個(gè)固定的向量空間中,可應(yīng)用于文本表示?,F(xiàn)在已經(jīng)開發(fā)出許多改進(jìn)的TFIDF 形式的變體[13],研究人員利用這些變體計(jì)算向量空間之間的余弦,完成分類或相關(guān)匹配任務(wù)。然而,這種向量空間的表示是稀疏的,忽略了詞頻的增長(zhǎng)限制和詞匯間的相關(guān)信息。

        Robertson 等人[11]提出了一個(gè)相似度評(píng)分標(biāo)準(zhǔn)BM25,專門用于查詢語句和候選文檔之間的相關(guān)性匹配。為了估計(jì)查詢語句Q和候選文檔D的相關(guān)性,BM25 公式定義為如下:

        其中,q表示查詢語句Q的查詢項(xiàng)(單詞),|DSet|表示文本集中的文檔總數(shù),len(D)表示當(dāng)前文檔單詞總數(shù),nq表示在語料庫(kù)中有多少文本出現(xiàn)查詢項(xiàng)q,qf表示查詢項(xiàng)q在查詢文本Q中的詞頻,f表示查詢項(xiàng)q在候選文檔D中的詞頻,b、k1、k2是需設(shè)置的超參數(shù),avgl是文本語料庫(kù)中文檔的平均長(zhǎng)度。式(2)用于計(jì)算逆向文檔頻率(inverse document frequency,IDF)。

        BM25 分解查詢中的每個(gè)單詞項(xiàng)q,計(jì)算q與候選文檔D之間的相關(guān)得分,并對(duì)所有相關(guān)得分進(jìn)行加權(quán)求和。BM25 考慮了詞頻上限和文檔平均長(zhǎng)度對(duì)文本相關(guān)性得分的影響。但文獻(xiàn)[14]發(fā)現(xiàn),由于文章長(zhǎng)度平均值的設(shè)置,BM25 搜索功能在實(shí)踐中往往會(huì)過度懲罰有用的長(zhǎng)文檔。Na 等人[15-16]提出了文本冗余的概念,將BM25 改進(jìn)為vnBM25,修正后的公式可以有效地緩解文章長(zhǎng)度的冗余影響。

        2.1.2 詞嵌入模型和WMD

        考慮到詞語出現(xiàn)的順序是文本表達(dá)的重要因素,Bengio 等人[17]提出了神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM),產(chǎn)生了詞嵌入文本表達(dá)方式,如word2vec,以及統(tǒng)計(jì)概率模型的產(chǎn)物glove[18]。word2vec 的核心思想是從大量的上下文信息中學(xué)習(xí)單詞的語義信息[19],詞匯的語義表征值映射到k維實(shí)空間中的向量(k是一個(gè)可設(shè)置的超參數(shù)),即詞向量。

        Kusner 等人[12]在詞向量的基礎(chǔ)上提出了詞移距離(WMD),從文本轉(zhuǎn)換成本的角度計(jì)算兩文本對(duì)象的相似度,該思想來源于測(cè)地距離(earth mover's distance,EMD)[20]:一種線性規(guī)劃中求解多工廠多倉(cāng)庫(kù)運(yùn)輸問題最優(yōu)解的方法。Kusner 將查詢文本的每個(gè)詞向量視為工廠,并將候選文檔的每個(gè)詞向量視為倉(cāng)庫(kù)。相關(guān)性越強(qiáng),運(yùn)輸轉(zhuǎn)換成本越低。假設(shè)將查詢文本Q轉(zhuǎn)換為文檔D,WMD 公式如下:

        其中,單詞i和單詞j分別在文檔Q、文檔D中;文檔Q、D中出現(xiàn)的單詞總數(shù)分別為M、N;dij代表單詞i、j之間的距離,一般可以用向量之間的歐幾里德距離表示;fij表示單詞i轉(zhuǎn)換為單詞j的成本;Di、Qj為單詞i和單詞j用歸一化詞袋模型表示的值,即單詞在所在文本中的出現(xiàn)比率。

        2.2 查詢擴(kuò)展技術(shù)

        查詢擴(kuò)展(query expansion,QE)是目前文本檢索的常用手段。Hao[6]在問答研究中提出了基于wordnet的針對(duì)問題目標(biāo)詞擴(kuò)展方法,顯著提高了目標(biāo)詞與回答類型匹配的準(zhǔn)確性。Guo 等人[21]將實(shí)體的復(fù)雜關(guān)系一塊記錄在文本數(shù)據(jù)中,構(gòu)造語義關(guān)系網(wǎng)絡(luò),用于擴(kuò)展查詢和啟發(fā)式查詢。Blei 等人[22]提出的生成概率模型(latent Dirichlet allocation,LDA),采用文檔、主題和單詞的三層結(jié)構(gòu)來挖掘主題對(duì)應(yīng)的單詞分布,相關(guān)研究者[23]利用LDA 模型在檢索前挖掘查詢文本的主題,并根據(jù)所屬題目的詞類分布情況添加擴(kuò)展詞。

        除了直接從輸入文本擴(kuò)展單詞外,還有其他使用偽相關(guān)反饋技術(shù)的擴(kuò)展方法[4,24]。反饋信息包括一些訓(xùn)練模型的結(jié)果和一些實(shí)時(shí)數(shù)據(jù)或日志,記錄了在線用戶的點(diǎn)擊、閱讀停留時(shí)間、反饋意見等操作。通過分析反饋信息,補(bǔ)充一些有用的特性并用于重新查詢。但獲取高質(zhì)量的相關(guān)查詢?cè)~是一個(gè)挑戰(zhàn),因?yàn)橐粋€(gè)簡(jiǎn)短的查詢常常不能完全傳達(dá)用戶的搜索意圖,使得查詢擴(kuò)展的方向具有不穩(wěn)定性。查詢擴(kuò)展詞的不精確會(huì)導(dǎo)致檢索性能下降。許多實(shí)驗(yàn)表現(xiàn)出QE 方法的性能不如原始查詢。

        2.3 文本片段機(jī)制

        Rathod 等人[25-26]研究發(fā)現(xiàn),探索和利用包含多個(gè)相關(guān)且不同單詞的片段,往往比將這些單詞直接加入查詢進(jìn)行檢索更有效,因?yàn)閿U(kuò)展的內(nèi)容(特別是對(duì)于一般的、模糊的查詢)可能與查詢無關(guān)。許多相似性匹配方案往往受到長(zhǎng)文本長(zhǎng)度的影響[27]。Ceccarelli等人[28]證明了高質(zhì)量短文本片段對(duì)用戶查詢具有較高的價(jià)值,可以顯著提高查詢的檢索性能。Chen 提取了有效的上下文片段,增強(qiáng)了主題模型的主題預(yù)測(cè)能力,在訓(xùn)練過程中建立了一種新的分段提取判斷規(guī)則,將其從主題模型中分離出來,使實(shí)驗(yàn)更具可調(diào)整性。

        受上述思想的啟發(fā),本文利用標(biāo)點(diǎn)符號(hào)切割(句號(hào)、分號(hào)等)方法得到大量的文本片段,并利用相似度計(jì)算結(jié)果選擇出高質(zhì)量的文檔片段。該方法通過提取重要的短文本句子片段來度量查詢與文檔之間的相關(guān)性,更好地消除文檔長(zhǎng)度對(duì)相似度匹配的影響。

        3 信息檢索中的文本片段機(jī)制

        本文利用標(biāo)點(diǎn)符號(hào)切割(句號(hào)、分號(hào)等)方法得到大量的文本片段,并利用相似度計(jì)算結(jié)果選擇出高質(zhì)量的文檔片段。該方法通過提取重要的短文本句子片段來度量查詢與文檔之間的相關(guān)性,結(jié)合上下文并更好地消除文檔長(zhǎng)度對(duì)相似度匹配的影響。

        相對(duì)于已經(jīng)提出的許多片段化方式,提出的TSM 目的是提取與查詢有關(guān)的短文本并進(jìn)行相關(guān)度整合,包括片段篩選和相關(guān)性分?jǐn)?shù)的整合計(jì)算過程。發(fā)現(xiàn)篩選過程產(chǎn)生的相關(guān)片段比例在評(píng)估文檔相關(guān)性中是一個(gè)非常重要的因素,它可以大大減少部分短文本高度相似偏向的影響。

        3.1 基于文本片段機(jī)制檢索模型概述

        本節(jié)提出了一種用于信息檢索的文本片段機(jī)制TSM,圖2 顯示了TSM 檢索模型的框架。它分為三個(gè)模塊,即預(yù)處理模塊、相似度匹配模塊、片段管理模塊。如圖2 中所示,主模塊對(duì)文本進(jìn)行分詞、刪除停止詞與詞干等預(yù)處理,相關(guān)的候選文檔集通過倒排索引庫(kù)獲得,顯示最后的排序結(jié)果。片段機(jī)制管理模塊對(duì)相關(guān)候選文檔進(jìn)行的一系列文檔片段操作,包括文本切割、片段間相關(guān)性計(jì)算、記錄片段信息、篩選相關(guān)片段、集成計(jì)算和文檔排序。相關(guān)性計(jì)算所涉及到的相似度匹配算法等都封裝在相似度匹配模塊中。圖3 展示了基于TSM 的檢索處理流程示例,分為如下三個(gè)階段。

        Fig.2 Framework of retrieval model by TSM圖2 TSM 檢索模型運(yùn)行流程

        第一階段:文件切割。查詢文本和候選文檔將被標(biāo)點(diǎn)符號(hào)和一些特殊符號(hào)分割。

        第二階段:記錄片段信息。通過不同的相似度匹配對(duì)候選文檔中的每個(gè)片段進(jìn)行評(píng)分。查詢和被查詢片段的文本特征表示與使用的相關(guān)性度量有關(guān)。如果使用BM25,則將文本單詞的TF-IDF 值作為文本特征;如果使用WMD,則將語義詞向量作為文本特征。

        第三階段:提取、整合計(jì)算、排序。提取每個(gè)候選文檔的高度相關(guān)文本段,并記錄相關(guān)片段比率(相關(guān)片段比率是指高度相關(guān)片段占整個(gè)文檔片段的比例);對(duì)收集的相關(guān)片段記錄元組綜合排序分配權(quán)重,根據(jù)整合公式計(jì)算出查詢與候選文檔相關(guān)度總分,并根據(jù)總分排序。

        Fig.3 Processing flow of snippet model圖3 片段化管理模塊處理過程

        例如,在圖3 中,假設(shè)候選文檔由六個(gè)句子組成,而查詢由三個(gè)句子組成。在候選文檔中記錄句子片段,用元組(index,r-score)表示,其中index是在候選文檔中句子片段的位置,r-score是這個(gè)句子片段與查詢句子計(jì)算后的相關(guān)分?jǐn)?shù)。篩選后得到的相關(guān)片段以粗體顯示(本例是文檔中的第一個(gè)、第二個(gè)和第四個(gè)句子片段),它們的相關(guān)分?jǐn)?shù)參與整合運(yùn)算,結(jié)果為該文檔的最終相關(guān)性得分,并依據(jù)該得分參與檢索結(jié)果排序。

        本文方法可以嵌入現(xiàn)有典型搜索方法中,如在Lucence 全文檢索引擎框架中應(yīng)用本文方法是可行的。在第一階段,文檔片段來源于候選文本集,可以利用Lucence 本身的倒排索引與評(píng)分體系得到候選文本集,大大減少所需要片段化的文檔數(shù)量,接著候選集文本可以經(jīng)過TSM 的處理,進(jìn)一步篩選片段,并參與后續(xù)的相關(guān)度整合計(jì)算。將本文提出的片段化機(jī)制與現(xiàn)有搜索方法相結(jié)合,發(fā)揮了短文本匹配的優(yōu)勢(shì),同時(shí)考慮了上下文信息以及各片段的重要度,能夠提高檢索的準(zhǔn)確性。

        3.2 片段相關(guān)性評(píng)分及相關(guān)片段比率

        有些相似性匹配方案,雖然考慮了相同或相似詞對(duì)的存在可能性,但它們可能對(duì)于檢索結(jié)果參考意義不大,即使在文檔中重復(fù)出現(xiàn)多次,也不能反映出真實(shí)的查詢意圖。本文分別基于BM25 和WMD相似度匹配方法進(jìn)行片斷之間相關(guān)性計(jì)算。如果采用BM25,其已經(jīng)考慮了查詢項(xiàng)在候選文檔中的權(quán)重,因此它們片段之間的相關(guān)評(píng)分參照式(1)計(jì)算。

        如果采用WMD 相似度計(jì)算方法,補(bǔ)充考慮了片段中相似詞對(duì)權(quán)重的影響?;赪MD 的兩條句子的相關(guān)性評(píng)分計(jì)算式如下:

        其中,S為提取的相似詞集,|S|為詞集中元素的個(gè)數(shù),idfri代表詞語元素ri在語料庫(kù)中IDF 值,idfmax代表語料庫(kù)所有詞語中最大的IDF 值。

        在獲取相關(guān)文本片段的過程中,相關(guān)性評(píng)分閾值m將用于判斷目標(biāo)片段是否是相關(guān)片段,并影響相關(guān)片段比率(標(biāo)記為rs_ratio)的結(jié)果。rs_ratio定義如式(6)。

        其中,Q表示查詢,S表示最終在候選文檔D中包含的相關(guān)片段序列,Swhole是從文檔D中能提取到的所有片段,Saccept是經(jīng)過篩選過濾操作后被接受的相關(guān)片段集合,s為某一片段。如果rela_score(Q,s)>m,該片段為相關(guān)片段,rs_ratio(Q,S)表示在D中與Q相關(guān)的片段數(shù)與所有片段數(shù)的比值。

        相關(guān)性閾值m在短文本片段篩選分析中起到非常重要的控制作用,當(dāng)m值過高,會(huì)過濾掉過多的有參考價(jià)值片段,導(dǎo)致相關(guān)片段比例變小,整體分?jǐn)?shù)降低;當(dāng)m值過低(趨近于0),會(huì)保留過多沒有參考價(jià)值的片段,相關(guān)片段比例過大(趨近于1),這使得片段化失去了意義,無法提高大多數(shù)相關(guān)片段低頻均勻分布的關(guān)聯(lián)文檔。在實(shí)驗(yàn)中,經(jīng)敏感性分析取得了比較適當(dāng)?shù)闹?,即根?jù)語料庫(kù)中的詞匯平均idf值進(jìn)行調(diào)節(jié),見4.3 節(jié)。

        3.3 相關(guān)片段提取算法

        給定一個(gè)元組序列,每個(gè)元組為與查詢高度相似的相關(guān)文本片段的索引號(hào)和相關(guān)性分?jǐn)?shù),形如[(Indexs1,Scores1),(Indexs2,Scores2),…]。提取高質(zhì)量的片段直接影響到最終的方案選擇和整體評(píng)分。

        相關(guān)的片段獲取處理流程描述(related snippet acquisition processing,RSAP),如算法1 所示。

        變量說明如下:Q為查詢;processed_doc為預(yù)處理后候選文檔集;q-snippets、d-snippets為查詢文本片段、候選文本片段;片段總數(shù)分別為dlen、qlen;q-features、d-features分別為查詢文本片段和候選文本片段的文本表達(dá)特征;match_fun為計(jì)算片段相關(guān)性評(píng)分中使用到的相似性計(jì)算方法(BM25或WMD);相關(guān)性片段的閾值設(shè)置為m;accept_num記錄篩選過程中被保留下來的相關(guān)片段數(shù);最后返回輸出上述描述的記錄元組序列T和相關(guān)片段比率r。

        算法1 RSAP 算法

        在RSAP 算法中,步驟1 查詢文本和候選文本進(jìn)行切割操作,得到相應(yīng)片段集合;步驟2 根據(jù)匹配算法的需要提取相應(yīng)的文本特征;步驟3 根據(jù)相似性匹配方法match_fun計(jì)算得到的結(jié)果相關(guān)性矩陣,其中矩陣元素為各個(gè)文本片段與查詢片段之間的相關(guān)性評(píng)分;步驟5~步驟10 給出了相關(guān)片段的標(biāo)注和篩選過程。

        例如,一個(gè)相關(guān)矩陣如下,其中S0、S1、S2 為候選文檔的句子片段,它們?cè)诤蜻x文檔中的位置索引編號(hào)分別為0、1、2;Qa、Qb、Qc是組成查詢文本的疑問句子片段;S0-Qa表示S0 與Qa之間的相關(guān)性評(píng)分。

        在上面矩陣的每一行中,選擇候選文檔語句和查詢語句的最大相關(guān)性評(píng)分,得到元組序列:[(0,2.00),(1,8.80),(2,9.11)]。如果閾值m設(shè)置為5.80,則根據(jù)式(6),最終選擇的相關(guān)片段元組序列T為[(1,8.80),(2,9.11)],相關(guān)片段比率r為2/3=0.667。

        3.4 計(jì)算相關(guān)性整合分?jǐn)?shù)

        所選元組序列的整合分?jǐn)?shù)表示候選文檔的最終相關(guān)性評(píng)分,并由式(7)計(jì)算,如下:

        在式(7)中,候選文檔的最終相關(guān)性整合分?jǐn)?shù)可以分為兩部分:一個(gè)是針對(duì)記錄的相關(guān)片段元組中的相關(guān)性得分的價(jià)值函數(shù)v(S),它反映了相關(guān)片段元組序列S的整體參考值;另一個(gè)是相關(guān)片段比率rs_ratio(Q,S),它反映查詢與候選文本之間有多少相似成分。當(dāng)文檔中的一個(gè)片段得分較高時(shí),它能在一定程度上反映與查詢的相關(guān)性,將其作為關(guān)鍵文檔片段,可以增加得分高的相關(guān)片段的權(quán)重,同時(shí)考慮相關(guān)片段比例的影響。

        本文提出兩種計(jì)算v(S)的方案:第一種計(jì)算方式,強(qiáng)調(diào)最重要的片段,并計(jì)算元組序列中相關(guān)片段的平均值,如式(8)所示;第二種計(jì)算方式,假設(shè)相關(guān)的代碼片段是第一個(gè)非增量排序的,根據(jù)相關(guān)性分?jǐn)?shù)排序給出每個(gè)片段的權(quán)重,如式(9)所示。

        價(jià)值函數(shù)1:

        價(jià)值函數(shù)2:

        其中,max(S)為相關(guān)片段元組序列S中最大的相關(guān)性評(píng)分?jǐn)?shù)值,n為序列長(zhǎng)度,si是指在序列中(已按相關(guān)性分?jǐn)?shù)值由大到小排序)的第i個(gè)元組的相關(guān)性分?jǐn)?shù)值。

        例如,假設(shè)相關(guān)片段元組序列為[(0,9.00)(4,7.00)(5,6.00)],相關(guān)片段比率為0.20,采取第一種價(jià)值函數(shù)計(jì)算方式時(shí),整合得分為:

        采取第二種價(jià)值函數(shù)計(jì)算方式時(shí),整合得分為:

        將價(jià)值函數(shù)引入到整合相關(guān)度評(píng)分中,更有效地利用了短文本片段的分?jǐn)?shù)值。如果不采用價(jià)值函數(shù)判定短文本句子片段的重要性,單考慮相關(guān)片段比例,會(huì)導(dǎo)致許多文檔排名并列的情況,而缺乏大量的參考信息。所設(shè)計(jì)的價(jià)值函數(shù)能增加得分高的相關(guān)片段的權(quán)重。

        3.5 TSM 運(yùn)算復(fù)雜度分析

        設(shè)R為某一種片段之間相關(guān)性評(píng)分算法(如BM25),其復(fù)雜度記為O(R),p為查詢文本的片段數(shù),n為候選文本的片段數(shù),片段化機(jī)制的運(yùn)行時(shí)間主要開銷花費(fèi)在三部分:(1)片段之間相關(guān)度計(jì)算,復(fù)雜度為OPA=O(pnO(R));(2)片段提取運(yùn)算,為提取每個(gè)目標(biāo)文本片段的最大值,復(fù)雜度為OPB=O(n);(3)與價(jià)值函數(shù)有關(guān)片段整合運(yùn)算,復(fù)雜度為OPC,因?yàn)槠翁崛∵^濾操作的存在,所剩片段數(shù)少于pn,所以O(shè)PC<O(pn),TSM 整體運(yùn)行復(fù)雜度為O(TSM)=OPA+OPB+OPC<O(n)+O(pn)+O(pnO(R))=O(pnO(R))。

        當(dāng)相關(guān)性評(píng)分算法R為BM25 時(shí),運(yùn)算復(fù)雜度為O(wq),wq為查詢語句中的查詢?cè)~個(gè)數(shù),此時(shí)TSM運(yùn)算復(fù)雜度O(TSM)=O(pnwq);當(dāng)R為WMD 時(shí),運(yùn)算復(fù)雜度為,wd為文檔中非重復(fù)詞的個(gè)數(shù),因此采用WMD 的查詢效率明顯低于BM25。

        由于查詢語句一般較短,p大部分為1,則采用TSM 方法與原始方法相比,候選文本的片段數(shù)n的大小是運(yùn)算效率差別所在。當(dāng)語料庫(kù)中文本可提取的片段越多時(shí),TSM 單一查詢所消耗的時(shí)間越長(zhǎng)。

        與其他片段化方式比較,例如,固定窗口滑動(dòng)切分的形式[10],假設(shè)nk是以窗口長(zhǎng)度為k分割后得到的片段數(shù),Wd為構(gòu)成文本的單詞總數(shù),則復(fù)雜度為O(nkWdO(R)),高于TSM 的復(fù)雜度。

        4 實(shí)驗(yàn)結(jié)果分析對(duì)比

        本文使用的數(shù)據(jù)集來自Glasgow 大學(xué)收錄的信息檢索標(biāo)準(zhǔn)文本測(cè)試集,數(shù)據(jù)集的詳細(xì)情況展示如表1。這6 個(gè)數(shù)據(jù)集的原始文本保留了標(biāo)點(diǎn)符號(hào),能用于實(shí)驗(yàn)測(cè)試。

        Table 1 Information of datasets表1 數(shù)據(jù)集信息

        實(shí)驗(yàn)中使用的實(shí)驗(yàn)方法和代碼分享于https://github.com/malajuanxiao/tx_snippet。

        Glasgow 大學(xué)IR test collection 數(shù)據(jù)集公開網(wǎng)址http://ir.dcs.gla.ac.uk/resources/test_collections。

        4.1 評(píng)估標(biāo)準(zhǔn)

        實(shí)驗(yàn)使用準(zhǔn)確率、召回率、F1[29]、mAP(mean average precision)[30]這幾個(gè)信息檢索常用指標(biāo)作為實(shí)驗(yàn)?zāi)P偷脑u(píng)估標(biāo)準(zhǔn)。準(zhǔn)確率、召回率定義為:

        其中,TP為與查詢相關(guān)且被正確識(shí)別文檔的數(shù)目,F(xiàn)P為與查詢不相關(guān)且被錯(cuò)誤識(shí)別文本的數(shù)目,F(xiàn)N為與查詢相關(guān)卻未能被識(shí)別文本的數(shù)目。

        由于文本檢索中每組實(shí)驗(yàn)獲取的是Top-K的文檔數(shù),因此:

        根據(jù)P和R,F(xiàn)值定義如下:

        當(dāng)參數(shù)a>1,準(zhǔn)確率的參考值加重,a<1 則相反,一般情況下平等權(quán)衡取值為1,即F1=2PR/(P+R)。F1 綜合考慮準(zhǔn)確率、召回率的性能,F(xiàn)1 越高,反映檢索模型性能越好。

        mAP表示所有查詢?cè)诓煌倩芈氏碌钠骄鹊姆e分,反映了搜索排名的全局性能。定義如下:

        其中,R*指召回率指標(biāo);P(R*)是指在不同R*下的準(zhǔn)確率分布。

        4.2 實(shí)驗(yàn)對(duì)比分析

        本節(jié)使用兩種基準(zhǔn)匹配方案(baseline)BM25、WMD,與使用TSM 優(yōu)化機(jī)制的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,這里使用到的BM25 算法為vnBM25[15]。所有實(shí)驗(yàn)中相關(guān)片段的選擇閾值m為基于語料庫(kù)中所有單詞的平均IDF值。Med 數(shù)據(jù)集的平均IDF值為5.878,LISA 數(shù)據(jù)集的平均IDF值為7.381。

        采用的實(shí)驗(yàn)方案歸納如下:

        兩個(gè)baseline(BM25 和WMD):基于python nlp的gensim[31-32]庫(kù)實(shí)現(xiàn)。

        TSM_BM25(v1(S)):片段匹配方案使用BM25,相關(guān)性整合分?jǐn)?shù)使用v1(S)。

        TSM_BM25(v2(S)):片段匹配方案使用BM25,相關(guān)性整合分?jǐn)?shù)使用v2(S)。

        TSM_WMD(v1(S)):片段匹配方案使用WMD 的相關(guān)性整合分?jǐn)?shù)使用v1(S)。

        TSM_WMD(v2(S)):片段匹配方案使用WMD 的相關(guān)性整合分?jǐn)?shù)使用v2(S)。

        每個(gè)實(shí)驗(yàn)從測(cè)試集查詢的搜索結(jié)果中提取Top5、Top10、Top20(Q5、Q10、Q20)來計(jì)算平均查準(zhǔn)率、查全率和F1 得分。6 個(gè)數(shù)據(jù)集的評(píng)估結(jié)果如表2~表7 所示。下面以Med 和LISA 的實(shí)驗(yàn)結(jié)果為例進(jìn)行分析。

        從表2、表3 中的結(jié)果來看,Med 的實(shí)驗(yàn)結(jié)果比LISA 好。LISA 數(shù)據(jù)集涉及與信息技術(shù)相關(guān)的知識(shí),領(lǐng)域廣泛,存在大量的噪聲數(shù)據(jù),容易混淆;而Med數(shù)據(jù)集只涉及醫(yī)學(xué)領(lǐng)域,范圍和內(nèi)容更為具體,因此搜索結(jié)果的準(zhǔn)確性會(huì)更好。TSM 能取得較好的結(jié)果,特別是Top5 和Top10 的查詢結(jié)果,符合精細(xì)搜索結(jié)果的目的。

        為了更直觀地反映性能差距,選取了兩種方法的實(shí)驗(yàn)結(jié)果進(jìn)行了可視化對(duì)比,一個(gè)是BM25,另一個(gè)是TSM_BM25,片段整合計(jì)算使用v2(S)價(jià)值函數(shù),這兩種方法針對(duì)全文本庫(kù)在不同召回率下的平均精度的曲線直觀地反映出mAP值,如圖4 和圖5 所示。

        Table 2 Evaluation of Med dataset表2 Med 數(shù)據(jù)集測(cè)試評(píng)估

        Table 3 Evaluation of LISA dataset表3 LISA 數(shù)據(jù)集測(cè)試評(píng)估

        Table 4 Evaluation of ADI dataset表4 ADI數(shù)據(jù)集測(cè)試評(píng)估

        Table 5 Evaluation of CACM dataset表5 CACM 數(shù)據(jù)集測(cè)試評(píng)估

        另外,本文模型與多個(gè)其他文獻(xiàn)公開的檢索模型的實(shí)驗(yàn)結(jié)果進(jìn)行了比較,包括圖檢索模型(graph comparison,GC)、TF-IDF空間矢量的余弦方法Cosine(TF-IDF)[33]、改進(jìn)的LSI方法(latent semantic indexing),如kLSI、LSI-Q、LSI-U[34]。此外,根據(jù)文獻(xiàn)[6,22]的描述,結(jié)合wordnet、LDA 模擬查詢擴(kuò)展[35]的方法進(jìn)行了實(shí)驗(yàn),標(biāo)記為QE(WN)、QE(LDA)。表8 列出了針對(duì)Med 數(shù)據(jù)集每種方法的平均精度,實(shí)驗(yàn)結(jié)果表明TSM 具有最好的效果。

        Fig.4 mAP distribution comparison in Med圖4 Med 數(shù)據(jù)集mAP 曲線

        Fig.5 mAP distribution comparison in LISA圖5 LISA 數(shù)據(jù)集mAP 曲線

        Table 8 Average precision of several methods表8 各實(shí)驗(yàn)方法的平均精度比較

        4.3 參數(shù)敏感性分析

        實(shí)驗(yàn)發(fā)現(xiàn)average idf與相關(guān)片段的閾值m密切相關(guān)。以Med 數(shù)據(jù)集和LISA 數(shù)據(jù)集為例,Med 數(shù)據(jù)集的average idf為5.878,LISA 數(shù)據(jù)集的average idf為7.381。從圖6 和圖7 可以看出,理想取值范圍是average idf周邊。

        Fig.6 F1 with different thresholds for dataset Med圖6 Med 不同閾值下F1 柱形分布圖

        Fig.7 F1 with different thresholds for dataset LISA圖7 LISA 不同閾值下F1 柱形分布圖

        5 總結(jié)和展望

        本文針對(duì)長(zhǎng)文本在檢索中可能出現(xiàn)的問題提出了一種文本片段化機(jī)制TSM 來計(jì)算查詢與被查詢文本間的相關(guān)度,通過提取重要的短文本句子片段來度量查詢與文檔之間的相關(guān)性,目的是利用關(guān)鍵有效的文本片段信息提升文檔整體評(píng)分的參考價(jià)值,在一定程度上消除文檔長(zhǎng)度對(duì)相似度匹配的影響。TSM 針對(duì)檢索過程的優(yōu)化,結(jié)合了不同的相似度匹配算法,可以有效嵌入到許多搜索算法中。實(shí)驗(yàn)結(jié)果驗(yàn)證了TSM 提升了檢索模型的性能。

        盡管TSM 在信息檢索準(zhǔn)確性方面取得了一定的成果,但仍有一些方面需要改進(jìn),如候選文本集的質(zhì)量也會(huì)決定最終結(jié)果集的質(zhì)量,且一些匹配過程,如與詞向量有關(guān)的運(yùn)算,時(shí)間效率較低。下一步擬研究改進(jìn)的倒排索引方法,結(jié)合一些針對(duì)文本本身的語義挖掘和拓展技術(shù),減小候選文本的數(shù)量和檢索時(shí)間。

        猜你喜歡
        單詞文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        單詞連一連
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        免费a级毛片出奶水| 亚洲av午夜福利精品一区不卡| 亚洲av天堂免费在线观看| 被黑人猛烈30分钟视频| 国产最新网站| 一区二区三区婷婷中文字幕| 久久一区二区国产精品| 久久99国产综合精品| 久久久久国产精品免费免费搜索| 日韩av中出在线免费播放网站| 综合中文字幕亚洲一区二区三区| 麻豆91蜜桃传媒在线观看| 2021国产精品国产精华| 亚洲三级黄色| 亚洲精品国产福利在线观看| 国产精品综合女同人妖| 特黄aaaaaaaaa毛片免费视频 | 国产乱子伦精品免费女| 国产亚洲精品一区二区在线播放| 中文字幕一区二区精品视频| 日韩吃奶摸下aa片免费观看| 国产小毛片| 亚洲蜜桃视频在线观看| 国产视频自拍一区在线观看| 亚洲第一se情网站| 免费av在线国模| 视频在线播放观看免费| 黑人大群体交免费视频| 色婷婷久久综合中文久久蜜桃av | 欧美xxxx新一区二区三区| 在线女同免费观看网站| 天天做天天爱夜夜爽| 久久精品国内一区二区三区| 国产精品女丝袜白丝袜| 手机免费高清在线观看av| 国产乡下三级全黄三级| 国产国拍亚洲精品mv在线观看| 亚洲国产精品一区二区第一 | 日本又黄又爽gif动态图| 国产视频嗯啊啊啊| 日韩精品一区二区三区乱码|