亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義向量表示的查詢擴(kuò)展方法

        2016-11-01 17:57:12李巖張博文郝紅衛(wèi)
        計算機(jī)應(yīng)用 2016年9期
        關(guān)鍵詞:檢索系統(tǒng)生物醫(yī)學(xué)語句

        李巖 張博文 郝紅衛(wèi)

        摘要:

        針對傳統(tǒng)查詢擴(kuò)展方法在專業(yè)領(lǐng)域中擴(kuò)展詞與原始查詢之間缺乏語義關(guān)聯(lián)的問題,提出一種基于語義向量表示的查詢擴(kuò)展方法。首先,構(gòu)建了一個語義向量表示模型,通過對語料庫中詞的上下文語義進(jìn)行學(xué)習(xí),得到詞的語義向量表示;其次,根據(jù)詞語義向量表示,計算詞之間的語義相似度;然后,選取與查詢中詞匯的語義最相似的詞作為查詢的擴(kuò)展詞,擴(kuò)展原始查詢語句;最后,基于提出的查詢擴(kuò)展方法構(gòu)建了生物醫(yī)學(xué)文檔檢索系統(tǒng),針對基于維基百科或WordNet的傳統(tǒng)查詢擴(kuò)展方法和BioASQ 2014—2015參加競賽的系統(tǒng)進(jìn)行對比實驗和顯著性差異指標(biāo)分析。實驗結(jié)果表明,基于語義向量表示查詢擴(kuò)展的檢索方法所得到結(jié)果優(yōu)于傳統(tǒng)查詢擴(kuò)展方法的結(jié)果,平均準(zhǔn)確率至少提高了1個百分點,在與競賽系統(tǒng)的對比中,系統(tǒng)的效果均有顯著性提高。

        關(guān)鍵詞:

        查詢擴(kuò)展;語義表示學(xué)習(xí);生物醫(yī)學(xué)文檔;信息檢索;自然語言處理

        中圖分類號:

        TP391.3

        文獻(xiàn)標(biāo)志碼:A

        Abstract:

        To solve the problem that the traditional query expansion used in professional domains suffers from the lack of semantic relations between expansion terms and original queries, a query expansion approach based on semantic vector representation was proposed. First, a semantic vector representation model was designed to learn the semantic vector representations of words from their contexts in corpus. Then, the similarities between words were computed with their semantic representations. Afterwards, the most similar words were selected from the corpus as the expansion terms to enrich the queries. Finally, a search system of biomedical literatures was built based on this expansion approach and compared with the traditional query expansion approaches based on Wikipedia or WordNet and the BioASQ participants along with the significant difference analysis. The comparison experimental results indicate that the proposed query expansion approach based on semantic vector representations outperforms the baselines, and the mean average precision increases by at least one percentage point; furthermore, the search system performs better than the BioASQ participants significantly.

        英文關(guān)鍵詞Key words:

        query expansion; semantic representation learning; biomedical document; information retrieval; natural language processing

        0引言

        隨著信息時代的到來,源源不斷的信息從互聯(lián)網(wǎng)中涌現(xiàn),對信息的檢索已是用戶日常生活中不可缺少的一部分。由于信息種類之多,內(nèi)容涉及范圍之廣,這使得從海量信息中準(zhǔn)確定位到滿足用戶需求的信息成為一個亟待解決的問題。然而用戶的需求變得越來越模糊,用戶甚至可能不知道與需求相關(guān)的關(guān)鍵詞進(jìn)而給定一些簡短的查詢語句或幾個查詢詞。在這種情況下,僅使用用戶給出的少量查詢信息進(jìn)行關(guān)鍵詞匹配可能找不到相關(guān)的文檔或信息[1]。因此,根據(jù)用戶給定的查詢語句,對其進(jìn)行內(nèi)容擴(kuò)展方法的研究是勢在必行的。

        用戶提出的查詢語句是進(jìn)行信息檢索的主要依據(jù),但查詢語句中所提供的少量信息會導(dǎo)致檢索結(jié)果不夠準(zhǔn)確,導(dǎo)致信息量不足的原因主要體現(xiàn)在兩個方面:1)在復(fù)雜專業(yè)領(lǐng)域檢索時,用戶由于知識受限,使得提出的查詢內(nèi)容不能滿足檢索的需求;2)由于表達(dá)和敘述方式的不同,基于關(guān)鍵詞匹配的檢索方法不能檢索出相關(guān)的結(jié)果。查詢擴(kuò)展可從一定程度上彌補(bǔ)檢索過程中用戶提供信息量不足的問題[2],它在原有查詢語句基礎(chǔ)上,通過多種方式和策略對查詢語句中的詞進(jìn)行擴(kuò)展,用更為豐富的查詢詞進(jìn)行信息檢索。

        擴(kuò)展查詢詞的選擇是查詢擴(kuò)展最關(guān)鍵的步驟之一,當(dāng)前國內(nèi)外研究學(xué)者對此技術(shù)進(jìn)行了一些卓有成效的研究,提出了一些具有啟發(fā)性的方法與技術(shù)。總的來說,擴(kuò)展查詢詞的選擇通常有三種方式:第一種是根據(jù)語言學(xué)知識構(gòu)建大規(guī)模的手工詞典。如PalDipasree等[3]提出一種基于WordNet定義的方法,使用詞匯的定義擴(kuò)展查詢;Parapar等[4]使用WordNet中不同類型的語言信息擴(kuò)展查詢,但實驗結(jié)果表明,并不是每次都有明顯的效果,而且WordNet的使用在引入擴(kuò)展詞的過程中增加了大量與查詢內(nèi)容無關(guān)的查詢詞。第二種是基于大規(guī)模通用語料庫信息統(tǒng)計的方法來選擇擴(kuò)展查詢詞。如王水利等[5]提出了利用基于互信息的共現(xiàn)模型分析初檢文檔,結(jié)合語義詞典兩方面選取擴(kuò)展詞對原查詢進(jìn)行擴(kuò)展形成新的查詢。這類查詢擴(kuò)展方法帶來的噪聲信息小,但是由于互信息或者共現(xiàn)和同義詞的概念是不同的,因此達(dá)不到同義詞擴(kuò)展的目的,效果上一般沒有明顯的提高。第三種是基于Web的查詢擴(kuò)展。如Xu等[6]提出了一種基于維基百科的偽相關(guān)反饋方法,分別對查詢對象為實體、查詢對象具有歧義和其他類型的查詢對象設(shè)計了不同的選擇擴(kuò)展詞的方案。這類方法結(jié)合了前兩種方法的優(yōu)點,在開放領(lǐng)域的信息檢索中有很好的效果;但在特定領(lǐng)域中,由于對維基百科語料庫的依賴,上述方法不能全面地包含某些特定領(lǐng)域的詞匯,導(dǎo)致查詢擴(kuò)展的效果不佳。更重要的是,以上三種方法均忽略了語義在查詢擴(kuò)展中的重要性,即盡可能保留原始查詢的局部語義和全局語義,既要強(qiáng)調(diào)擴(kuò)展詞與查詢詞的同義性,又要強(qiáng)調(diào)擴(kuò)展后的查詢與原始查詢的同義性。

        文獻(xiàn)[7-8]提出結(jié)合上下文的內(nèi)容來學(xué)習(xí)詞的語義向量表示,得到的向量在語義空間中具有一定的語義關(guān)聯(lián),即在語義空間中,相似或相關(guān)語義的詞距離更近。針對專業(yè)領(lǐng)域來說,如生物醫(yī)學(xué)領(lǐng)域,其檢索過程涉及了大量專業(yè)詞匯以及特殊的含義,而對查詢詞的擴(kuò)展往往需要一個已有的詞典或者擴(kuò)展詞來源,但這些仍然不能滿足專業(yè)領(lǐng)域的知識需要,如“IL6,IL6”是白細(xì)胞介素6的意思,但詞典中可能不會含有這個詞的英文簡寫,進(jìn)而不能進(jìn)一步尋找其相關(guān)詞。又如“系統(tǒng)性紅斑狼瘡”一詞,在同一文獻(xiàn)中的形式是一致的,但在其他文獻(xiàn)中可能還會出現(xiàn)“狼瘡血管炎”“全身性紅斑狼瘡”等同義詞,這些詞可能不會全部出現(xiàn)在同義詞庫中,而且用戶在查詢時不會將同義詞也逐一列出,同時使用共現(xiàn)等方式得到的擴(kuò)展詞僅是與該詞有共現(xiàn)關(guān)系的詞,并不一定是相關(guān)的詞。因此,引入語義向量表示模型對專業(yè)詞匯進(jìn)行語義表示從而得到相似詞作為擴(kuò)展詞是很有必要的。

        綜上所述,本文提出了一種基于語義表示的查詢擴(kuò)展方法。本文第1節(jié)詳細(xì)地描述了語義向量表示模型;第2節(jié)中通過語義向量相似度的計算給出了查詢擴(kuò)展方法;第3節(jié)結(jié)合提出的查詢擴(kuò)展方法構(gòu)建了一個文檔檢索系統(tǒng)并通過在公開集數(shù)據(jù)BioASQ上的對比實驗給出對結(jié)果的分析;最后進(jìn)行總結(jié)。

        1基于上下文的語義向量表示

        近年來隨著深度學(xué)習(xí)的發(fā)展,語義表示學(xué)習(xí)可以采用低維度連續(xù)向量來刻畫詞的語義,使得具有相似或相關(guān)語義的詞向量在語義空間中距離比其他語義的詞近。由于用戶在進(jìn)行查詢時使用的詞,在其相關(guān)的結(jié)果中可能以相近詞的形式出現(xiàn),故而可以這種方式來選擇擴(kuò)展查詢詞。因此,可以通過引入語義向量表示模型,針對專業(yè)領(lǐng)域相關(guān)文檔(如生物醫(yī)學(xué)文檔)的詞進(jìn)行語義向量表示,通過相似度計算幫助選擇專業(yè)領(lǐng)域查詢詞的擴(kuò)展詞,從而改善查詢擴(kuò)展的結(jié)果。本章將對基于上下文的語義向量表示方法進(jìn)行介紹。

        對于一個詞來說,它所包含的語義應(yīng)該由該詞所在的語義環(huán)境,即該詞周圍的詞的語義來決定,那么就是將一個詞語義向量的訓(xùn)練過程轉(zhuǎn)化成一個判斷該詞語義在其上下文語義中是否成立的過程。語義向量表示方法的目標(biāo)是根據(jù)該語義單元的上下文語義,學(xué)習(xí)得到其語義表示,使得該語義單元在其上下文所形成的語言環(huán)境中具有最高的不可替代性。

        模型中的上下文包括局部上下文(s)和全局上下文(d)。其中局部上下文指詞在文檔中其周圍的詞,全局上下文指詞所在文檔。模型從文檔中逐一取出每個詞(中心詞)之前的n個詞作為其局部上下文,連同該中心詞,聯(lián)結(jié)其對應(yīng)的向量成為模型局部上下文的正樣本輸入。詞所在的段落作為全局上下文,使用平均加權(quán)的方式將段落中的所有詞向量求平均,所得到的向量連同中心詞向量一同作為模型全局樣本輸入。將中心詞隨機(jī)替換為其他詞,其局部上下文保持不變,所組成的向量作為模型局部上下文的負(fù)樣本輸入,而替換的詞與原有的全局上下文表示所組成的向量作為模型全局上下文的負(fù)樣本輸入。

        如圖1所示,模型由兩個神經(jīng)網(wǎng)絡(luò)構(gòu)成,其輸入為上下文正負(fù)樣本的向量表示,輸出均為一個數(shù)值。兩個神經(jīng)網(wǎng)絡(luò)分別用于將每個中心詞的局部上下文正負(fù)樣本和全局上下文正負(fù)樣本轉(zhuǎn)化為分?jǐn)?shù)。用于局部上下文計算的神經(jīng)網(wǎng)絡(luò)為四層,用于全局上下文計算的神經(jīng)網(wǎng)絡(luò)為三層。局部上下文計算過程為:

        2擴(kuò)展的新查詢語句形成

        對用戶提出的一條查詢來說,查詢中并不是所有的詞語都與其目標(biāo)文檔相關(guān),又由于每個用戶對查詢的表達(dá)方式各不相同,所以也并不是查詢中所有的詞語都可以直接匹配到相關(guān)文檔的關(guān)鍵詞語。因此,需要將一些內(nèi)容相關(guān)的替換詞,即查詢擴(kuò)展詞,引入到原始的查詢中。作為查詢擴(kuò)展的前提條件,本文首先基于上下文的語義單元向量表示模型,對專業(yè)領(lǐng)域語料庫中所涉及到的所有詞進(jìn)行訓(xùn)練,得到所有詞的語義向量表示F,然后文本通過計算兩個詞向量Fi={fi1, fi2,…, fim}和Fj={fj1, fj2,…, fjm}的相似度來衡量兩個詞的相似度,計算公式為:

        simij=cos〈Fi,F(xiàn)j〉=∑mk=1fik fjk∑mk=1f2ik∑mk=1f2jk(9)

        其中: fip表示向量Fi中第k個數(shù)值,m表示向量維數(shù)。通過計算一個查詢詞與其余所有詞的相似度,本文取出其中相似度最高的n個詞作為擴(kuò)展查詢詞。

        查詢語句擴(kuò)展示意圖如圖2所示,在給定一個查詢語句時,經(jīng)過停用詞處理后,得到一個包含關(guān)鍵原始查詢詞的序列,即:

        Q=(q1,q2,…,qi,…,qL)(10)

        其中:qi表示序列中依次出現(xiàn)的關(guān)鍵原始查詢詞,并且有一個語義向量與之對應(yīng)。通過式(9)計算每一個原始查詢詞與詞典中其余所有詞的相似度,取出相似度最高的n個語義向量對應(yīng)的詞。本文將這n個詞作為qi的查詢擴(kuò)展詞集合:

        P(i)={p(i)1,p(i)3,p(i)3,…,p(i)n}(11)

        其中:p(i)n表示根據(jù)原始查詢詞qi的語義所擴(kuò)展得到的與其語義相近的第n個查詢擴(kuò)展詞,集合P(i)中的每一個查詢擴(kuò)展詞都可以作為原始查詢詞qi的替換詞。那么原始查詢語句中的詞則可以由式(12)中的任意一項替換,即為原始查詢語句中第i個詞可被替換的所有可能,替換后的語句如式(13)所示為擴(kuò)展后的新語:

        Q(i)={qi}∪P(i)(12)

        Qnew=(Q(1),Q(2),Q(3),…,Q(L))(13)

        綜上所述,從原始查詢語句Q依次通過式(11)~(13)得到Qnew的過程即為基于語義向量表示的查詢語句擴(kuò)展過程。由此可知,新形成的查詢語句會有多種不同表達(dá)方式,從而擴(kuò)展了原始查詢語句的多樣性。

        理論上來說,相比其他查詢擴(kuò)展方法,本文提出的查詢擴(kuò)展方法具有兩個明顯的優(yōu)勢:一方面,基于語義向量的查詢擴(kuò)展方法利用了基于上下文的詞向量表示,在訓(xùn)練的過程中,體現(xiàn)了擴(kuò)展詞與查詢詞在語料庫中的可替代性,這種可替代性在查詢中可以同樣得到體現(xiàn);另一方面,在獲得語義向量后,查詢語句形成過程中,本文提出的方法保留了查詢的原始語序,在最大限度上保留了原始查詢的語義,降低查詢擴(kuò)展過程帶來的無關(guān)信息的影響。

        3生物醫(yī)學(xué)文檔檢索系統(tǒng)及實驗分析

        以生物醫(yī)學(xué)文檔檢索為例,將基于生物醫(yī)學(xué)詞匯的語義向量表示引入到查詢擴(kuò)展當(dāng)中,設(shè)計一個生物醫(yī)學(xué)文檔檢索系統(tǒng);然后,將結(jié)果分別與傳統(tǒng)查詢擴(kuò)展方法和BioASQ生物醫(yī)學(xué)競賽中其他信息檢索的方法對比,通過對比驗證本文提出的查詢擴(kuò)展方法既優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法,又具有足夠的實際應(yīng)用價值。

        3.1生物醫(yī)學(xué)文檔檢索系統(tǒng)

        如圖3所示,為本文設(shè)計的一個生物醫(yī)學(xué)文檔檢索系統(tǒng),該系統(tǒng)主要有以下四部分組成:

        1)原始查詢詞提取。給定一個查詢語句,使用一個通用的停用詞表對原始查詢中的詞進(jìn)行過濾,去掉常用詞以及不起作用的詞,僅保留有實體意義的查詢詞。

        2)擴(kuò)展查詢詞選擇。使用語義單元向量模型對生物醫(yī)學(xué)領(lǐng)域的詞匯進(jìn)行語義向量表示。針對每個原始查詢詞與其他詞計算相似度,從中找出與之相似度最接近的n個詞,作為擴(kuò)

        展查詢詞。

        3)查詢語句擴(kuò)展。使用原始查詢中對應(yīng)的擴(kuò)展查詢詞在原始查詢語句中進(jìn)行一定幾率的替換,將新生成的查詢詞序列作為擴(kuò)展查詢語句。

        4)使用檢索工具查詢。使用Galago作為檢索工具進(jìn)行生物醫(yī)學(xué)文檔檢索。在檢索時,使用順序依賴模型(Sequence Dependence Model, SDM)來強(qiáng)化檢索的方式,以便提高查詢結(jié)果的準(zhǔn)確率。最后,Galago返回一個文檔列表,該列表中的文檔按照與查詢語句的相關(guān)程度排序。

        3.2BioASQ數(shù)據(jù)集及實驗設(shè)置

        本實驗使用來自2014年和2015年BioASQ生物醫(yī)學(xué)競賽階段A生物醫(yī)學(xué)語義問答任務(wù)的官方真實數(shù)據(jù)以及從MEDLINE數(shù)據(jù)庫中獲取的生物醫(yī)學(xué)文檔集作為檢索庫。階段A的數(shù)據(jù)由專家提出的相關(guān)專業(yè)問題組成,數(shù)據(jù)集共發(fā)布了1個訓(xùn)練集和5個競賽的測試集,其中訓(xùn)練集包含300個問題,每個測試集包含100個問題。文檔集包含了從建庫之日起到2013年間的2200萬篇生物醫(yī)學(xué)相關(guān)文章的標(biāo)題和摘要。該階段任務(wù)是根據(jù)給定的問題,從檢索庫中找出與問題答案最相關(guān)的100篇文章,測評的指標(biāo)是平均準(zhǔn)確率(Mean Average Precision, MAP)。

        本文從MEDLINE數(shù)據(jù)庫中選擇120萬篇文章的標(biāo)題和摘要作為生物醫(yī)學(xué)領(lǐng)域詞向量的訓(xùn)練數(shù)據(jù),文章涵蓋了從1948年以來出現(xiàn)的生物醫(yī)學(xué)相關(guān)的詞,這些詞的語義最初由隨機(jī)初始的向量來表示。本文采用語義向量表示模型進(jìn)行語義表示訓(xùn)練,通過出現(xiàn)頻率篩選,得到了48361個主要詞的向量表示。

        3.3擴(kuò)展查詢詞數(shù)量選擇實驗

        本文將每一個原始查詢詞對應(yīng)的擴(kuò)展查詢詞數(shù)量縮小到從1到10的范圍。為了進(jìn)一步確定擴(kuò)展查詢詞選取的數(shù)量,依次使用不同數(shù)量的擴(kuò)展查詢詞在訓(xùn)練集和測試集進(jìn)行實驗,并對最終的MAP評價結(jié)果進(jìn)行了比較,如表1所示。從結(jié)果中可以看出,當(dāng)擴(kuò)展查詢詞的數(shù)量取3時,該方法在訓(xùn)練集和測試集上的表現(xiàn)最好。

        3.4與傳統(tǒng)查詢擴(kuò)展方法對比實驗

        在本實驗中,將本文查詢擴(kuò)展方法(OurM)與傳統(tǒng)方法進(jìn)行對比,對比實驗方法及設(shè)置如下:

        Wikipedia(Wiki):Wikipedia(維基百科)是一個免費的百科網(wǎng)站,如果原始查詢語句中的詞與網(wǎng)站中的實體頁關(guān)聯(lián),則將實體頁中的關(guān)鍵詞作為查詢擴(kuò)展詞。

        WordNet(WN):根據(jù)每個原始查詢詞在WordNet中進(jìn)行查詢,將該詞對應(yīng)的相關(guān)詞作為查詢擴(kuò)展詞。

        實驗中,本文將Galago的參數(shù)設(shè)置為2000,使用TRAC_EVAL作為評價工具來計算MAP值,結(jié)果如表2所示。

        從表2的結(jié)果可以看出,基于維基百科和WordNet的兩種查詢擴(kuò)展方法的檢索結(jié)果相當(dāng),而使用生物醫(yī)學(xué)語義詞向量得到的檢索結(jié)果優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法,MAP分別提高1%、2%、6%、1%、5%、5%MAP值分別最多提高了5.6%和6.0%。原因在于一些專業(yè)詞匯或者其特殊含義不能在維基百科知識庫和WordNet同義詞表中找到,因此使得擴(kuò)展詞的語義有所偏差。

        3.5BioASQ實際評測結(jié)果

        使用文本所提出的生物醫(yī)學(xué)文檔檢索系統(tǒng)(OurS)與BioASQ測評競賽的參賽隊伍成績進(jìn)行比較。表3為2014年BioASQ參賽隊伍的成績,表中包含參加了至少兩組測試的隊伍。其中,SNUMedinfo團(tuán)隊使用了UMLS生物醫(yī)學(xué)專有名詞集對查詢進(jìn)行了擴(kuò)展[9];UMass團(tuán)隊使用了文檔中的圖片,對圖片內(nèi)容進(jìn)行識別,并把識別出的文本作為關(guān)鍵信息擴(kuò)展到查詢中[10];BTM是由美國美國國家生物技術(shù)信息中心通過其擁有的大量的生物醫(yī)學(xué)資源進(jìn)行對于查詢和文檔同時擴(kuò)展,通過檢索得到的結(jié)果[11];main system是由BioASQ官方通過PubMed搜索引擎在文檔集上檢索的結(jié)果,作為評測的基準(zhǔn);Wishart則是采取了支持向量機(jī)(Support Vector Machine, SVM)等分類模型,判斷某一個文檔是否與查詢有關(guān);而AllFigdoc和HPI團(tuán)隊,在技術(shù)報告中缺乏對方法的描述,因此只有官方的比賽成績[12]。這些方法中,和擴(kuò)展相關(guān)的方法大都依賴于額外的生物醫(yī)學(xué)數(shù)據(jù)集或名詞集,而且擴(kuò)展的過程主要是基于詞頻或基于名詞在集合中的共現(xiàn)概率,而忽略了該名詞本身的語義。通過幾組實驗結(jié)果可以看出這些方法并不適合。

        相比其他方法,本文的方法重點關(guān)注了查詢詞本身的語義。通過語義向量表示的方法,確保查詢擴(kuò)展過程中添加到查詢中的擴(kuò)展詞與原查詢詞語義相同或者相近,從而保證了查詢擴(kuò)展的質(zhì)量。

        4結(jié)語

        本文針對查詢擴(kuò)展中擴(kuò)展詞與原始查詢之間缺乏語義關(guān)聯(lián)的問題,提出了一種基于語義向量表示的查詢擴(kuò)展方法,并設(shè)計了一個生物醫(yī)學(xué)文檔檢索系統(tǒng)。以生物醫(yī)學(xué)領(lǐng)域為例,訓(xùn)練了生物醫(yī)學(xué)詞匯的語義向量,通過計算相似度的方法

        選取語義相近的詞,并用于擴(kuò)展查詢語句。最后,在與基于維基百科或WordNet的傳統(tǒng)查詢擴(kuò)展方法和BioASQ 2014參加競賽的系統(tǒng)的實驗對比中,基于語義向量表示的查詢擴(kuò)展方法在檢索結(jié)果上優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法。生物醫(yī)學(xué)文檔檢索系統(tǒng)在BioASQ 2014年測試中,檢索結(jié)果均優(yōu)于參賽各隊伍成績,并且均有顯著性提高(p<0.5);在BioASQ 2015年的比賽中,生物醫(yī)學(xué)文檔檢索系統(tǒng)取得了競賽中第一名兩次和第二名兩次。實驗結(jié)果表明,基于語義向量表示的查詢擴(kuò)展方法是有效的。

        本文方法仍有可改進(jìn)和優(yōu)化的空間:1)可以將基于語義向量表示的查詢擴(kuò)展方法應(yīng)用更多的特殊領(lǐng)域信息檢索;2)可以將語義向量表示模型應(yīng)用與信息檢索的其他研究方向。

        參考文獻(xiàn):

        [1]

        XU J, CROFT W B. Query expansion using local and global document analysis [C]// SIGIR 96: Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 4-11.

        [2]

        VOORHEES E M. Query expansion using lexicalsemantic relations [C]// SIGIR 94: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berlin: Springer, 1994: 61-69.

        [3]

        DIPASREE P, MAR M, KALYANKUMAR D. Improving query expansion using WordNet [J]. Journal of the Association for Information Science and Technology, 2013, 65(12): 2469-2478.

        [4]

        PARAPAR D, BARREIRO A, LOSADA D E. Query expansion using WordNet with a logical model of information retrieval [C]// AC2005: Proceedings of the IADIS International Conference on Applied Computing. Algarve: IJCSIS, 2005: 487-494.

        PARAPAR D, BARREIRO A, LOSADA D E. Query expansion using WordNet with a logical model of information retrieval [EB/OL]. [20151123]. http://wwwgsi.dec.usc.es/~dlosada/iadis05.pdf.

        [5]

        王水利,黃廣君,霍亞格.基于語義分析的查詢擴(kuò)展方法[J].計算機(jī)工程,2011,37(16):77-79.(WANG S L, HUANG G J, HUO Y G. Query expansion method based on semantic analysis [J]. Computer Engineering, 2011, 37(16): 77-79.)

        [6]

        XU Y, JONES G J F, WANG B. Query dependent pseudorelevance feedback based on wikipedia [C]// SIGIR 09: Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009: 59-66.

        [7]

        HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes [C]// ACL 12: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2012, 1: 873-882.

        [8]

        LI Y, ZHANG Y, HUANG X, et al. Chinese word segmentation with local and global context representation learning [J]. High Technology Letters, 2015, 21(1): 71-77.

        [9]

        CHOI S, CHOI J. Classification and retrieval of biomedical literatures: SNUMedinfo at CLEF QA track BioASQ 2014 [C]// CLEF: Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1283-1295.

        CHOI S, CHOI J. Classification and retrieval of biomedical literatures: SNUMedinfo at CLEF QA track BioASQ 2014 [EB/OL]. [20160102]. http://ceurws.org/Vol1180/CLEF2014wnQAChoiEt2014.pdf.

        [10]

        JESSE L, LAURA D. UMass at BioASQ 2014: figureinspired text retrieval [C]// CLEF: Proceedings of the 2014 Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1296-1310.

        [11]

        MAO Y, WEI C H, LU Z. NCBI at the 2014 BioASQ challenge task: largescale biomedical semantic indexing and question answering [C]// CLEF: Proceedings of the 2014 Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1319-1327.

        猜你喜歡
        檢索系統(tǒng)生物醫(yī)學(xué)語句
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
        重點:語句銜接
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年1期)2018-09-03 07:53:04
        國外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評與啟示
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年5期)2018-06-28 02:16:02
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年4期)2018-06-27 03:34:16
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年3期)2018-06-27 03:30:18
        精彩語句
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        大奶白浆视频在线观看| 亚洲国产成a人v在线观看| 人妻熟女中文字幕在线视频| 日韩午夜免费视频精品一区| 又粗又黄又猛又爽大片app| 国产乱妇乱子视频在播放| 亚洲一区二区三区久久不卡| 国产成av人在线观看| 亚洲综合另类小说色区| 亚洲午夜精品久久久久久人妖| 国产亚洲精品日韩综合网| 日韩人妻大奶子生活片| 亚洲一区精品无码| 中文人妻无码一区二区三区在线 | 99国产精品久久久久久久成人热| 欧美操逼视频| 国产一区二区三区爆白浆| 精品国产a毛片久久久av| 中国妇女做爰视频| 永久免费观看的毛片手机视频 | 国产精品无圣光一区二区| 激情久久无码天堂| 国产精品久久三级精品| 久久无码人妻丰满熟妇区毛片| 熟妇人妻无码中文字幕| 狠狠色噜噜狠狠狠狠97俺也去| 亚洲av色av成人噜噜噜| 制服丝袜中文字幕在线| 波多野结衣一区| 国产噜噜亚洲av一二三区| 国产av无码专区亚洲av麻豆| 亚洲自偷自拍熟女另类| 国产亚洲欧美另类久久久| 亚洲av在线观看播放| 亚洲中字慕日产2020| 欧美视频第一页| 久久久亚洲一区二区三区| 摸丰满大乳奶水www免费| 亚洲的天堂av无码| 亚洲中文字幕有综合久久| 91成人自拍国语对白|