亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息檢索模型及其在跨語言信息檢索中的應用進展

        2009-04-29 00:00:00齊和慶
        現(xiàn)代情報 2009年7期

        〔摘 要〕信息檢索發(fā)展中的一個重要理論問題是如何對查詢與文檔進行匹配,由此形成了不同的信息檢索模型??缯Z言信息檢索是信息檢索研究的一個分支,也是近年來的熱點問題。本文主要對信息檢索模型的研究進展,及其在跨語言信息檢索中的應用進展進行分析與綜述。

        〔關(guān)鍵詞〕信息檢索;跨語言信息檢索;檢索模型

        〔中圖分類號〕G354 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)07-0215-07

        Development of Information Retrieval Model and its

        Application in Cross-Language Information RetrievalWu Dan1 Qi Heqing2

        (1.School of Information Management,Wuhan University,Wuhan 430072,China;

        2.Shandong Dezhou Dehua Mechanical Equipment Engineering Corporation Limited,Dezhou 253000,China)

        〔Abstract〕An important theoratical problem in informaton retrieval is how to match the query and the documents,therefore,different information retrieval models are formed.Cross-language information retrieval(CLIR)is a branch of information retrieval research fields and is one of the most active information retrieval areas in the past decades.This paper analyzes the reviews and the progresses of information retrieval models and its application in cross-language information retrieval.

        〔Key words〕information retrieval;cross-language information retrieval;retrieval model

        作為一個正式的學術(shù)概念,信息檢索(Information Retrieval)于1948年由美國學者Mooers[1]在其碩士學位論文中首次提出。經(jīng)過半個多世紀的研究,信息檢索的發(fā)展演變可以看作是不斷消除一道道信息存取障礙的過程。首先,從脫機批處理到計算機檢索系統(tǒng)的產(chǎn)生,是超越了信息存取的速度障礙;其次,從單機到網(wǎng)絡平臺,從集中式網(wǎng)絡到分布式、異構(gòu)性、動態(tài)Web環(huán)境的遷移,是打破了信息存取的空間障礙;再次,從分類法、主題詞表到本體(Ontology)的出現(xiàn)和應用,是跨越了信息存取的語義理解障礙。即便如此,在全球信息共享的迫切要求下,依然還有另一道障礙未被攻克,即信息存取的語言障礙。

        跨語言信息檢索(Cross-Language Information Retrieval,CLIR)是20世紀70年代從信息檢索領(lǐng)域發(fā)展出來的一個分支,旨在以一種語言的查詢?nèi)z索另一種語言的信息資源,這一技術(shù)已成為突破信息存取語言障礙的關(guān)鍵??缯Z言信息檢索在一定程度上繼承了傳統(tǒng)信息檢索技術(shù)的發(fā)展,其關(guān)鍵問題是要使查詢語言與文檔語言在檢索之前達成一致。

        信息檢索發(fā)展中的一個重要理論問題是如何對查詢與文檔進行匹配,由此形成了不同的信息檢索模型。經(jīng)過60年的發(fā)展,信息檢索模型已由原來的三大經(jīng)典模型——布爾模型、向量空間模型、概率模型,發(fā)展為時下非常流行的統(tǒng)計語言模型和語義處理模型。同時,這些傳統(tǒng)檢索模型和新興檢索模型都在跨語言信息檢索領(lǐng)域發(fā)揮著非常重要的作用。本文主要對信息檢索模型的研究進展,及其在跨語言信息檢索中的應用進展進行分析與綜述。

        1 信息檢索模型研究進展

        一般的信息檢索模型由以下四部分組成:(1)查詢表示;(2)文檔表示;(3)匹配機制;(4)反饋修正。用形式特征可以將信息檢索模型表示為一個四元組的模型框架:[D,Q,F(xiàn),R(qi,dj)]。其中,D是文檔表示;Q是查詢表示;F是一種機制,用于構(gòu)建文檔表示、查詢表示及它們之間關(guān)系的模型;R(qi,dj)是一個排序函數(shù),該函數(shù)輸出一個與查詢表示qi∈Q和文檔表示dj∈D有關(guān)的實數(shù),這樣就可以根據(jù)文檔dj與查詢qi之間的相似度進行排序[2]。

        圖1概括出了信息檢索模型的分類。信息檢索模型由最初的經(jīng)典布爾模型、向量空間模型、概率模型,發(fā)展到現(xiàn)在的多種模型綜合運用——其中的語言模型和語義模型等新興模型表現(xiàn)出了很強的生命力。

        圖1 信息檢索模型分類

        2009年7月第29卷第7期現(xiàn)?代?情?報Journal of Modern InformationJuly,2009Vol.29 No.72009年7月第29卷第7期信息檢索模型及其在跨語言信息檢索中的應用進展July,2009Vol.29 No.71.1 經(jīng)典模型

        經(jīng)典的信息檢索模型用稱為標引詞的關(guān)鍵詞來表示一篇文檔,令ki表示一個標引詞,dj表示一個文檔,wij>0為二元組(ki,dj)的權(quán)值,用來衡量描述文檔語義內(nèi)容中標引詞的重要性。在經(jīng)典模型中存在一個普遍假設,即標引詞是互相獨立、彼此無關(guān)的。

        1.1.1 布爾模型(Boolean Model)

        布爾檢索模型是基于集合論的一種最早、最簡單的檢索模型。在布爾模型中,標引詞在文檔中出現(xiàn)或不出現(xiàn),因此標引詞ki在文檔dj中的權(quán)值wij為二值數(shù)據(jù),即wij∈{0,1}。一個查詢表示qi由連接符NOT、AND、OR連接多個標引詞組成,本質(zhì)上是一個常規(guī)的布爾表達式qdnf(k1,k2,…,ki,…),可以表示為多個合取向量的析取qcc(qcc為qdnf的任意合取分量),則文檔dj與查詢qi的相似情況表示為:

        wi,j=1,qcc∈qdnf,表示文檔dj與查詢qi相似

        0,qccqdnf,表示文檔dj與查詢qi不相似

        布爾模型形式簡潔、結(jié)構(gòu)簡單、容易實現(xiàn),但只能判斷文檔相關(guān)或不相關(guān),無法描述與查詢條件部分匹配的情況。針對這些缺點,兩個改進集合論模型:模糊集合模型和擴展布爾模型應運而生。

        模糊集合模型(Fuzzy Set Model)[2]是將文檔看成與查詢在一定程度上相關(guān),而且每一標引詞都存在一個模糊的文獻集合與之相關(guān)。對于某一給定的標引詞,用隸屬函數(shù)表示每一文檔與該詞的相關(guān)程度,即隸屬度,其取值在[0,1]上,則標引詞ki在文檔dj中的權(quán)值可以定義為wij∈[0,1],文檔對標引詞的隸屬度可以通過詞——詞關(guān)聯(lián)矩陣來計算。模糊集合模型保留了傳統(tǒng)布爾模型的結(jié)構(gòu)化特點,同時還能對檢索結(jié)果按相似度排序,但不能對查詢中的檢索詞賦予權(quán)值。

        擴展布爾模型(Extended Boolean Model)[2]在保持傳統(tǒng)布爾模型結(jié)構(gòu)式查詢的同時,也吸取了模糊集合模型和向量空間模型的長處。假定文檔dj僅用兩個標引詞kx和ky標引,并且kx和ky允許被賦予一定的權(quán)值wxj和wyj,點d(x,y)表示文獻向量dj=(wxj,wyj),則文檔dj與查詢qi的相似度可以表示為:

        sim(dj,qi)=(x2+y2)/2,qi=kx∨ky

        1-[(1-x)2+(1-y)2]/2,qi=kx∧ky

        1.1.2 向量空間模型(Vector Space Model,VSM)

        在向量空間模型中,標引詞ki在文檔dj中的權(quán)值wij是一個非二值正數(shù),wij∈[0,1]。此外,標引詞ki在查詢qi中的標引詞也要加權(quán),用wiq表示,也是一個非二值正數(shù)。文檔dj可以表示為一個文獻向量dj=(w1j,w2j,…,wtj),查詢qi可以表示為一個查詢向量qi=(w1q,w2q,…,wtq),其中t是系統(tǒng)中的標引詞數(shù)目。這樣,文檔和查詢都被表示成了t維向量,最常用的一種計算它們之間相似度的方法是計算文檔向量與查詢向量夾角的余弦:

        sim(dj,qi)=∑ti=1wijwiq∑ti=1wij2∑ti=1wiq2

        標引詞的權(quán)重wij可以通過很多加權(quán)方法來計算,最常用的是tf-idf函數(shù),tf是標引詞在文檔中出現(xiàn)的頻率,用來衡量一個標引詞在多大程度上描述了一篇文檔;idf是倒文獻頻率,體現(xiàn)標引詞區(qū)分文檔的能力大小,計算方法也有很多,如下公式是比較常用的:

        f′ij=tfijmaxjtfijidfi=logNniwij=f′ijidfi

        其中,N為文檔集合,ni為包含標引詞ki的文檔篇數(shù),tfij為標引詞ki在文檔dj中出現(xiàn)的頻率,f′ij為文檔dj中標引詞ki的標準化頻率。

        向量空間模型對標引詞的權(quán)重進行了改進,并且能根據(jù)相似度對檢索結(jié)果進行排序,有效地提高了檢索效率。不過,該模型中依然存在的問題是:標引詞仍然被認為相互獨立,會丟掉大量的文本結(jié)構(gòu)信息,且相似度計算量大。考慮到這一點,人們由對向量空間模型的改進產(chǎn)生了廣義向量空間模型、神經(jīng)網(wǎng)絡模型等,目的均為獲得更高的檢索效率。

        廣義向量空間模型(Generalized Vector Space Model,GVSM)由Wong[3]等于1985年提出。該模型認為標引詞之間不是互相獨立的,即不是兩兩正交的,而是存在著一定的相互關(guān)系,即標引詞向量是線性獨立的——這就是廣義向量空間模型的基本思想。在廣義向量空間模型中,標引詞向量以一組更小的分量所組成的正交基向量來表示,詞與詞之間的關(guān)系可直接由基向量表示給出較為精確的計算。標引詞ki在文檔dj中的權(quán)值為wij,如果所有wij都是二值的,t個標引詞生產(chǎn)2t個互不相同的最小項mi。廣義向量空間模型將所有向量mi的集合作為目標子空間的基:其中m1=(1,0,…,0),m2=(0,1,…,0),…,m2t=(0,0,…,1)。標引詞ki的標引詞向量是通過把所有最小項mi的向量相加求和得出,然后利用余弦函數(shù)計算文獻向量和查詢向量之間的相似度。

        神經(jīng)網(wǎng)絡模型(Neural Network Model)[4]的主要思想是:首先從文本空間中抽取文檔及文檔相關(guān)的標引詞ki,并且對這些標引詞進行概念關(guān)聯(lián)分析;然后計算出任意兩個標引詞之間的關(guān)聯(lián)權(quán)值,建立概念的詞義關(guān)聯(lián)權(quán)矩陣,以概念為節(jié)點,關(guān)聯(lián)權(quán)值為節(jié)點的連接權(quán),這樣就構(gòu)成了神經(jīng)網(wǎng)絡。當用戶輸入檢索關(guān)鍵詞后,查詢語詞節(jié)點通過向文獻語詞節(jié)點發(fā)出信號來做聯(lián)想回憶進行推理,而且文獻與此節(jié)點自身也可以向文獻節(jié)點發(fā)出信號——如此不斷重復這一聯(lián)想回憶推理過程,直到信號衰減到無法激活聯(lián)想回憶。

        1.1.3 概率模型(Probabilistic Model)

        經(jīng)典概率模型也稱二元獨立概率模型(Binary Independence Relevance,BIR),其基本思想是:用戶提出了查詢,就有一個由相關(guān)文檔構(gòu)成的集合,通常把這個集合稱為理想的集合R。如果知道R的特征,就可以找到所有的相關(guān)文檔,排除所有的無關(guān)文檔。然而,第一次查詢時并不知道R的特征,只能去估計R的特征來進行查詢。第一次查詢完成后,可以讓用戶判斷檢索到的文檔哪些是相關(guān)文檔,根據(jù)用戶的判斷,可以更精確地估計R的特征。

        在經(jīng)典概率模型中,標引詞ki在文檔dj中的權(quán)值是二值的,wij∈{0,1};標引詞ki在查詢qi中的權(quán)值也是二值的,wiq∈{0,1};R為相關(guān)文獻集,為非相關(guān)文獻集;條件概率P(R|dj)表示文檔dj與查詢qi相關(guān)的概率,條件概率P(|dj)表示文檔dj與查詢qi不相關(guān)的概率;P(ki|R)為標引詞ki在集合R的某篇文獻中隨機出現(xiàn)的概率,P(ki|)為標引詞ki在集合的某篇文獻中隨機出現(xiàn)的概率。由于假設標引詞之間無相關(guān)關(guān)系,則文檔dj與查詢qi的相似度表示為:

        sim(dj,qi)=P(R|dj)P(|dj)=P(dj|R)×P(R)P(dj|)×P()≈P(dj|R)P(dj|)≈∑ti=1wiq×wij×logP(ki|R)1-P(ki|R)+log1-P(ki|)P(ki|)

        P(ki|R)和P(ki|)可以用如下方法來實現(xiàn):假定P(ki|R)對于所有標引詞ki是恒定不變的,通常假設等于0.5;假定非相關(guān)文獻中標引詞的分布可以通過集合的所有文獻中標引詞的分布來估計,則:

        P(ki|R)=0.5P(ki|)=niN

        其中,ni為包含標引詞ki的文獻數(shù)目,N為集合中的文獻總數(shù)。

        許多研究者對上述P(ki|R)和P(ki|)的估計方法進行了改進,但二元獨立概率模型始終沒有考慮詞頻tf和長度因素,因此,它還在不斷完善和發(fā)展中。目前比較流行的Okapi BM25公式加入了tf因素和長度調(diào)整,計算公式如下:

        ∑w∈q∩d(idftfdoctfq)=∑w∈q∩dlnN-df(w)+0.5df(w)+0.5(k1+1)c(w,d)k1(1-b)+bLdLave+c(w,d)(k3+1)c(w,q)k3+c(w,q)

        其中,k1、k3、b是經(jīng)驗參數(shù)。

        概率模型有嚴格的數(shù)學理論基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點。但其參數(shù)估計難度較大,最初沒有任何先驗知識。于是人們將統(tǒng)計學的認識論引入到概率模型中,形成了各種基于貝葉斯網(wǎng)絡的檢索模型。

        推理網(wǎng)絡模型(Inference Network Model)[5]模擬人腦的推理思維模式,將文檔與用戶查詢匹配的過程轉(zhuǎn)化為一個從文檔到查詢的推理過程?;镜奈臋n推理網(wǎng)絡包含文檔網(wǎng)絡和用戶查詢網(wǎng)絡兩部分,通過隨機變量將標引詞、文檔以及用戶查詢聯(lián)系在一起。與文檔dj相關(guān)的隨機變量表示對該文檔觀測的事件,對文檔dj的觀測可以為標引詞的隨機變量給出一個信任度,因而對文檔的觀測是標引詞變量不斷增加信任度的原因所在。標引詞變量和文檔變量用網(wǎng)絡中的節(jié)點來表示,節(jié)點之間的邊是從文獻節(jié)點指向它的語詞節(jié)點,以此來表示文獻觀測會不斷提高標引詞節(jié)點的信任度。

        信任度網(wǎng)絡模型(Belief Network Model)[6]采用明確化的概念空間,用戶查詢qi也被模型化為一個與二值隨機變量qi相關(guān)的網(wǎng)絡節(jié)點,只要qi完全包含概念空間k,這個隨機變量的值就為1。文檔dj也被模型化為一個與二值隨機變量dj相關(guān)的網(wǎng)絡節(jié)點,只要dj完全包含概念空間k,這個隨機變量的值就為1。通過這種形式,集合中的用戶查詢和文檔都被模型化為標引詞的子集,每個子集為概念空間k中的一個概念。與推理網(wǎng)絡模型相反,構(gòu)成文獻的標引詞節(jié)點指向文獻節(jié)點。

        1.2 統(tǒng)計語言模型

        統(tǒng)計語言模型(Statistical Language Model,SLM)[7]是關(guān)于某種語言所有語句或者其他語言單位的分布概率,也可以將統(tǒng)計語言模型看作是生成某種語言文本的統(tǒng)計模型。語言模型通常用以回答如下問題:已知文本序列中前面i-1個詞匯,第i個詞匯為單詞w的可能性有多大?

        語言模型根據(jù)馬爾可夫鏈的階數(shù)分為一元語言模型和多元語言模型。一元語言模型(unigram language model)假設詞與詞之間是相互獨立的,一個詞出現(xiàn)的概率與這個詞前面的詞沒有必然聯(lián)系。多元語言模型(n-gram language model)假設詞與詞之間是相互關(guān)聯(lián)的,一個詞出現(xiàn)的概率與這個詞前面的詞存在一定的關(guān)聯(lián)。根據(jù)目標詞前面其他詞個數(shù)的多少,多元語言模型可被劃分為二元語言模型、三元語言模型等幾種。

        對于一個句子S=w1,w2,…,wi(wi代表某個詞),在語言模型M中,S出現(xiàn)概率P用一元和多元模型可以分別表示為:

        P(S|M)=∏wi∈SP(wi|M)

        P(S|M)=∏wi∈SP(wi|wi-1,wi-2,…,wi-n+1,M)

        其中,n-1代表了馬爾可夫鏈的階數(shù)。

        統(tǒng)計語言模型于1998年由Ponte和Croft[8]應用到信息檢索中,之后不少學者在此基礎(chǔ)上提出了一系列模型。統(tǒng)計語言模型現(xiàn)已成為信息檢索領(lǐng)域里的主要研究方向,本文在此只選擇其中幾個主要的模型進行概括性介紹:

        1.2.1 查詢似然模型(Query Likelihood Model)

        Ponte和Croft最初提出的語言模型被稱為查詢似然模型。該模型將相似度看作是每篇文檔對應的語言下生成該查詢的可能性,即利用查詢的似然來度量文檔與查詢的相似度。在該模型中,首先為每篇文檔D建立一個語言模型MD,系統(tǒng)的目標是根據(jù)P(D|Q)對文檔進行排序。根據(jù)貝葉斯公式,我們得到:

        P(D|Q)=P(Q|D)P(D)/P(Q)

        其中,Q代表查詢條件,D代表文檔集合中某個文檔。先驗概率P(D)和P(Q)對于文檔集合中每篇文檔來說都是相同的。所以,關(guān)鍵是估計每篇文檔的語言模型P(Q|D)。

        估計P(Q|D)的一個最常用的方法是用多項一元語言模型(multinomial unigram language model),即首先估計每篇文檔的詞匯概率分布,然后計算從這個分布抽樣得到查詢條件的概率,并按照查詢條件的生成概率來對文檔進行排序。此方法基于二值假設及獨立性假設,前者假設如果一個詞匯出現(xiàn)在查詢條件中,代表該詞匯的屬性值被設置成1,否則設置為0;后者假設文檔中詞匯之間是相互獨立的。這樣,文檔D可以看成是多項隨機試驗的觀測結(jié)果,即:

        P(Q|D)=∏|Q|i=1P(qi|D)=∏w∈QP(w|D)c(w,Q)

        其中,qi是查詢Q中的檢索詞,w是文檔集中的詞項(term),c(w,Q)表示查詢Q中w出現(xiàn)的次數(shù)。這樣,要計算P(Q|D),必須先估計P(w|D),即估計文檔D的一元語言模型。

        P(w|D)可以通過一種非參數(shù)的方法計算,利用包含w的文檔D中w出現(xiàn)的平均概率,如下公式:

        P(w|D)=c(w,D)∑w′∈Dc(w′,D)

        其中,c(w,D)表示文檔D中w出現(xiàn)的次數(shù),∑w′∈Dc(w′,D)表示D中所有詞項的個數(shù)。

        與傳統(tǒng)檢索模型相比,語言模型檢索方法能夠利用統(tǒng)計語言模型來估計與檢索有關(guān)的參數(shù),在如何改善檢索系統(tǒng)性能方面有更加明確的指導方向。但該方法隱含著詞匯相互獨立關(guān)系,沒有考慮詞匯間的相互影響。傳統(tǒng)檢索模型中常用的相關(guān)反饋技術(shù)在概念層面融入語言模型框架比較困難。

        1.2.2 隱馬爾可夫模型(Hidden Markov Model,HMM)

        Miller[9]等將隱馬爾可夫模型引入統(tǒng)計語言模型。他們使用了兩狀態(tài)隱馬爾可夫模型:一個狀態(tài)表示直接從文檔中選出一個詞;另一個狀態(tài)表示從通常英語語言中選出一個詞,來估計文檔D的一元語言模型P(w|D)。第一個狀態(tài)的概率分布記為Pdocument(w|D),第二個狀態(tài)的概率分布用文檔集中詞項w的最大出現(xiàn)概率來近似估計,記為Pcollection(w)。兩個概率的計算方法均采用詞頻tf和文檔頻率df來計算,公式如下:

        Pdocument(w|D)=c(w,D)∑w′∈Dc(w′,D)

        Pcollection(w)=c(w,C)∑w′∈Vc(w′,C)

        其中,c(w,C)表示整個文檔集合C中w出現(xiàn)的次數(shù),文檔集合C={D1,D2,…},詞匯表V={w1,w2,…},∑w′∈Vc(w′,C)表示文檔集合中所有詞項的總數(shù)。

        最后,將二者通過概率加權(quán)合并得到P(w|D):

        P(w|D)=λPdocument(w|D)+(1-λ)Pcollection(w)

        1.2.3 翻譯模型(Translation Model)

        Berger[10]將機器翻譯領(lǐng)域中的統(tǒng)計翻譯模型引入到語言模型中,目的在于將詞匯間的同義詞因素考慮進來,將信息檢索過程看作是一個從文檔向查詢條件進行翻譯的過程:假設查詢Q通過一個有噪聲的信道變成文檔D,從文檔D去估計原始的查詢Q。

        P(Q|D)=∏iP(qi|D)=∏i∑jP(qi|wj)P(wj|MD)

        其中,qi是查詢Q中的檢索詞,wj是文檔集中的詞項,P(qi|wj)是翻譯概率,P(wj|MD)是生成概率。

        由于翻譯模型方法遵循的是統(tǒng)計機器翻譯的思路,這在本質(zhì)上決定了其主要考慮因素是將詞匯間的同義詞關(guān)系引入語言模型信息檢索中,其作用類似于傳統(tǒng)檢索模型中的查詢擴展技術(shù)。但是該方法有個很明顯的缺點,就是在訓練統(tǒng)計翻譯模型的參數(shù)的時候,需要大量的查詢條件和對應的相關(guān)文檔作為訓練集合。

        1.2.4 相關(guān)模型(Relevance Model)

        與試圖對查詢產(chǎn)生過程建模相反,Lavrenko和Croft[11]直接對“相關(guān)性”建模,并提出了一種無需訓練數(shù)據(jù)來估計相關(guān)模型的新方法。相關(guān)模型是對用戶信息需求的一種描述,假設如下:給定一個文檔集合與用戶查詢條件Q,存在一個未知的相關(guān)模型R,相關(guān)模型R為相關(guān)文檔中出現(xiàn)的詞匯賦予一個概率值P(w|R)。這樣,相關(guān)文檔被看作是從概率分布P(w|R)中隨機抽樣得到的樣本。同樣的,查詢條件也被看作是根據(jù)這個分布隨機抽樣得到的樣本。所以,相關(guān)模型的關(guān)鍵是如何估計分布P(w|R)。定義P(w|R)為從相關(guān)文檔中隨機采樣一個詞是詞w的概率,Lavrenko和Croft用w和查詢詞q1,q2,…,qm(Q={q1,q2,…,qm})同時出現(xiàn)的聯(lián)合概率分布來近似估計P(w|R):

        P(w|R)≈P(w|Q)=P(w,q1,…,qm)∑v∈vocabularyP(v,q1,…,qm)

        他們提出兩種估計上述聯(lián)合概率分布的方法。這兩種方法都假設存在一個概率分布集合U,相關(guān)詞匯就是從U中某個分布隨機抽樣得到的。不同之處在于它們的獨立假設。

        方法一:假設所有查詢條件詞匯和相關(guān)文檔中的詞匯是從同一個分布隨機抽樣獲得,這樣一旦我們從集合U中選定某個分布M后,這些詞匯是相互無關(guān)的、獨立的。如果我們假設U是一元語言模型分布的全集并且文檔集合中每個文檔都有一個分布,那么我們得到:

        P(w,q1,…,qm|M)=∑M∈UP(M)P(w,q1,…,qm|M)=∑M∈UP(M)P(w|M)∏mi=1P(qi|M)

        其中,P(M)代表集合U中的一些先驗概率分布,P(w|M)是我們從M中隨機抽取詞匯而觀察到詞匯w的概率。

        方法二:假設查詢條件詞匯q1,…,qm是相互獨立的,但與詞匯w是相關(guān)的。

        P(w,q1,…,qm)=P(w)∏mi=1P(qi|w)

        P(qi|w)=∑Mi∈UP(qi|Mi)P(Mi|w)

        這里又有一個假設:一旦選定一個分布Mi,查詢條件詞匯qi就和詞匯w是相互獨立的。

        相關(guān)模型是一種將查詢擴展技術(shù)融合進入語言模型檢索框架的方法。

        1.3 語義處理模型

        前面所提及的模型都是基于關(guān)鍵詞和標引詞的,由于字義本身與其概念的延伸不在同一級上,使得檢索結(jié)果僅僅是字面意義的匹配。為此,人們提出語義處理模型,即探究詞語背后所指代的本質(zhì)概念,明確詞語的主題范疇,識別同一概念的各種表示形式。為了分析詞語的含義、詞語和文檔之間的語義關(guān)聯(lián)、文檔的相似度,從目前的技術(shù)實現(xiàn)方法來看,主要采取從文檔結(jié)構(gòu)入手的潛在語義分析方法,以及從內(nèi)容入手的利用知識組織體系(詞典、知識庫和本體等)的方法。

        1.3.1 潛語義標引模型(Latent Semantic Indexing Model)

        潛語義標引模型由Furnas和Deerwester等[12]于1988年提出。首先,該模型將標引詞之間、文檔之間的相關(guān)關(guān)系以及標引詞與文檔之間的語義關(guān)聯(lián)都考慮在內(nèi),將文檔向量和查詢向量映射到與語義概念相關(guān)聯(lián)的較低維度空間中,從而將標引詞向量空間轉(zhuǎn)化為語義概念空間;其次,該模型在降維后的語義概念空間中,計算文檔向量和查詢向量的相似度??偠灾?,該模型的主要思想是:用數(shù)學方法把標引詞——文檔矩陣進行奇異值分解(奇異值分解是一種與特征值分解、因子分析緊密相關(guān)的矩陣方法)。由此可見,潛語義標引模型將文檔和查詢向量的t維標引詞向量空間轉(zhuǎn)化為x維語義概念空間,降低了空間維度,克服了同義詞和多義詞對檢索結(jié)果的影響。

        1.3.2 本體模型(Ontology-based Model)

        本體模型是自20世紀90年代隨著本體和本體工程應用到信息檢索領(lǐng)域出現(xiàn)的一種方法。圖2[13]描述了本體模型的一般原理。一方面,用戶的信息需求通過共享本體轉(zhuǎn)化為計算機可理解的查詢表達,為了提高查全率,再通過共享本體中概念與概念之間的關(guān)系擴展查詢表達。通過與一個或幾個本體的交互,查詢表達能被計算機理解,以此判斷用戶需求的信息所屬領(lǐng)域。另一方面,被檢信息資源需要通過同樣的本體進行標引,信息資源的表達包括邏輯判斷等。在基于本體的信息檢索過程中,查詢表達與信息資源之間的匹配過程仿佛一種“探索”過程,這一過程能依照查詢的表達形式和邏輯理解以不同的方式進行實現(xiàn)。本體在信息檢索中的作用主要體現(xiàn)在查詢擴展、信息抽取、自動分類、語義形式化表示,以及推理機制上。

        圖2 本體模型原理

        2 檢索模型在跨語言信息檢索中的應用

        布爾模型、向量空間模型、概率模型、語言模型、本體模型等應用于跨語言信息檢索,在查詢語言轉(zhuǎn)換以及查詢翻譯消歧中發(fā)揮著重要作用。

        2.1 布爾模型的應用

        布爾模型及其擴展模型在查詢翻譯消歧中有重要應用。Diekema[14]探討了擴展布爾模型在查詢翻譯消歧中的應用。Pirkola[15]通過結(jié)構(gòu)化查詢(structured query)來消除查詢詞語的歧義性和詞典覆蓋度不足的問題。結(jié)構(gòu)化查詢共有3種算符:“sum”、“syn”和“uw3”?!皊um”相當于邏輯與,屬于缺省值;“syn”是同義詞(同源詞)算符;近鄰算符“uw3”(unordered window n,這里n取3)用于短語的查詢翻譯,這里的結(jié)構(gòu)化查詢采用的就是布爾模型的思想。早期基于詞典的查詢翻譯傾向于包含每個檢索詞的所有譯項,在進行檢索的時候這些譯項的貢獻是一樣的,這就相當于賦予擁有較多譯項的檢索詞較高的權(quán)重,這顯然是不合理的,擁有較少譯項的檢索詞通常專指性更強(對檢索更有用),這種情況被稱為非平衡(unbalanced)查詢翻譯。為此,Levow和Oard[16]提出了平衡翻譯(balanced translation)的概念,即通過計算查詢詞的每個譯項的權(quán)重并通過某種方法(算數(shù)平均、加權(quán)平均等)來獲取該詞的權(quán)重。

        Oard和Wang[17]在NTCIR-2和MEI(Mandarin-English Information)項目的評價實驗中,證明了平衡翻譯能有效消除翻譯的歧義性。

        2.2 向量空間模型的應用

        在跨語言信息檢索的應用中,國外學者應用廣義向量空間模型實現(xiàn)了不需要翻譯的跨語言信息檢索??突仿〈髮W語言技術(shù)研究所的Carbonell等人[18]將廣義向量空間模型應用于跨語言信息檢索,其基本思想是:根據(jù)雙語訓練文檔集分別建立源語言與目標語言的檢索詞——文檔關(guān)聯(lián)矩陣,在計算查詢條件和文檔的相似度時,考慮將經(jīng)典的向量空間模型與兩個關(guān)聯(lián)矩陣相結(jié)合,在源語言與目標語言之間實現(xiàn)映射關(guān)系,在不需要翻譯的條件下實現(xiàn)跨語言信息檢索,為跨語言信息檢索的研究開辟了一條新路。

        2.3 概率模型的應用

        著名的InQuery就是基于Bayesian推理網(wǎng)絡模型的信息檢索系統(tǒng)。作為一種查詢網(wǎng)絡模型,InQuery允許使用查詢算符,這在跨語言信息檢索中被證明是非常有用的。另外,樸素貝葉斯算法(Nave Bayes,NB)也可以應用于自然語言處理的消歧工作,如詞性標注、詞義消歧、文本分類等。Xu Jinxi等人[19]評價了概率模型在跨語言信息檢索中的應用。

        2.4 統(tǒng)計語言模型的應用

        統(tǒng)計語言模型已經(jīng)被應用于不同的信息檢索領(lǐng)域,如信息過濾、跨語言信息檢索、跨語言語音檢索等。除此之外,語言模型還廣泛應用于詞性標注、詞義消歧、名詞短語的識別、詞法分析、機器翻譯等自然語言處理領(lǐng)域,這些都在解決查詢翻譯的語言歧義性中發(fā)揮重要作用。

        傳統(tǒng)的概率模型和統(tǒng)計語言模型可以看作在同一概率框架下不同的推導結(jié)果,然而統(tǒng)計語言模型卻克服了傳統(tǒng)概率模型在概率估計上的不足(傳統(tǒng)的概率模型在估計概率時需要有文檔相關(guān)性的先驗知識,往往需要人為地設定一個經(jīng)驗值作為初值)。對于這兩種概率方法,Larkey等[20]通過實驗進行了比較,結(jié)果表明,如果不進行查詢擴展,概率模型的效果要稍好于語言模型,如果進行查詢擴展,那么語言模型進行跨語言信息檢索的效率更高。在2000年舉行的TREC-9測評會議上,BBN公司將隱馬爾可夫模型從單語言信息檢索擴展到跨語言信息檢索,并取得了第一名的好成績[21]。另外,Liu Xiaoyong等人[22]還研究了語言模型在跨語言信息檢索及查詢翻譯消歧中的應用。

        2.5 語義模型的應用

        Dumais等人[23]將潛語義標引模型應用于跨語言信息檢索,其基本思想是:首先通過將有代表性的文檔與其對應的翻譯文檔聯(lián)系起來形成訓練文檔集,然后利用奇異值分解技術(shù)對雙語檢索詞——文檔關(guān)聯(lián)矩陣進行奇異值分解,獲得雙語文檔集的特征信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語種的潛在語義空間,最后根據(jù)平行文檔中語詞的用法特征可檢索出另一種語種的相關(guān)信息。

        本體應用于跨語言信息檢索的成果之一是Cindor系統(tǒng)[24],它圍繞WordNet組織概念資源的層次結(jié)構(gòu),將其他語言的詞匯鏈接到與它們所表達的概念對應的同義詞群(synsets)上。這樣,概念中間語言就能確保各種語言的文獻和查詢在概念層次進行匹配。此外,王進等[25]提出了一種基于語義的跨語言信息檢索模型Onto-CLIR,即利用本體在知識表示和知識描述方面的優(yōu)勢,解決查詢請求在從源語言到目標語言轉(zhuǎn)換過程中出現(xiàn)的語義損失和曲解等問題。實驗結(jié)果顯示,基于本體的跨語言信息檢索比常規(guī)的單一語言信息檢索在查全率和查準率方面都有明顯的優(yōu)勢。

        3 結(jié) 語

        盡管布爾模型、向量空間模型和統(tǒng)計模型是發(fā)展得較為成熟的三類經(jīng)典檢索模型,對信息檢索的發(fā)展起到了至關(guān)重要的作用,在跨語言信息檢索領(lǐng)域也得到了大量應用。然而,目前在信息檢索和跨語言信息檢索領(lǐng)域,數(shù)學被證明是解決信息檢索和自然語言處理的最好工具,這其中最好的例證就是Google。Google是全世界最好的搜索引擎,其2007年5月24日發(fā)布的跨語言搜索引擎Google Translated Search效果也十分不錯,Google的中英文跨語言搜索引擎用的最重要的就是統(tǒng)計語言模型。事實證明,統(tǒng)計語言模型比任何已知的借助某種規(guī)則的解決方法都有效,是目前在實用中效果最好的檢索模型,在跨語言信息檢索領(lǐng)域也是如此。但是,我們?nèi)匀幌嘈?,?shù)學不能解決信息檢索的一切問題,盡管語義模型目前仍停留在理論探討階段,離實用化還有一定距離,但隨著信息檢索模型研究的不斷深入,語義處理模型終將走向?qū)嵱?,并與其他檢索模型一起在信息檢索領(lǐng)域發(fā)揮作用,并幫助解決跨語言信息檢索的翻譯消歧、語言轉(zhuǎn)換等問題,真正實現(xiàn)信息檢索的語義理解。

        參考文獻

        [1]Mooers C.Application of random codes to the gathering of statistical information.M.S.Thesis.Massachusetts Institute of Technology,1948.

        [2]Baeza-Yates R,Ribeiro-Neto B.Modern information retrieval.Massachusetts:Addison Wesley,1999.

        [3]Wong S K M,Ziarko W,Wong P C N.Generalized vector space model in information retrieval.In:Proceedings of the 8th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’85).Montreal,Canada,1985:18-25.

        [4]Wilkinson R,Hingston P.Using the cosine measure in a neural network for document retrieval.In:Proceedings of 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’91).Chicago,USA,1991:202-210.

        [5]Turtle H,Croft W B.Evaluation of an inference network-based retrieval model.ACM Transactions on Information Systems,1991,9(3):187-222.

        [6]Berthier A,Ribeiro-Neto,Muntz R.A belief network model for IR.In:Proceedings of 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’96).Zurich,Switzerland,1996:253-260.

        [7]Croft W B,Lafferty J(Eds.).Language modeling for information retrieval.Netherlands:Kluwer Academic Publishers,2003:4-6.

        [8]Ponte J M,Croft W B.A language modeling approach to information retrieval.In:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’98).Melbourne,Australia,1998:275-281.

        [9]Miller D R H,Leek T,Schwartz R M.A hidden markov model information retrieval system.In:Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99).Berkeley,USA,1999:214-221.

        [10]Berger A,Lafferty J.Information retrieval as statistical translation.In:Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99).Berkeley,USA,1999:222-229.

        [11]Lavrenko V,Croft W B.Relevance based language models.In:Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’01).New Orleans,USA,2001:120-127.

        [12]Furnas G W.Deerwester S,Dumais S T,et al.Information retrieval using a singular value decomposition model of latent semantic structure.In:Proceedings of 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’88).Grenoble,F(xiàn)rance,1988:465-480.

        [13]吳丹.本體在信息檢索中的作用分析及實例研究[J].情報雜志,2006,(6):72-75.

        [14]Diekema A R.Translation events in cross-language information retrieval lexical ambiguity,lexical holes,vocabulary mismatch,and correct translations.Ph.D Dissertation.Syracuse University,2003.

        [15]Pirkola A.The effects of query structure and dictionary setups in dictionary-based cross-language information retrieval.In:Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’98).Melbourne,Australia,1998:55-63.

        [16]Levow G A.Oard D W.Translingual topic tracking with PRISE.In:Working Notes of the Topic Detection and Tracking Workshop(TDT’2000).Gaithersburg,USA,2000:1-6.

        [17]Oard D W,Wang J Q.NTCIR-2 ECIR experiments at Maryland:comparing structured queries and balanced translation.In:Proceedings of the 2nd National Institute of Informatics Test Collection Information Retrieval(NTCIR)Workshop.Tokyo,Japan,2001:1-7.

        [18]Carbonell J G,Yang Y,F(xiàn)rederking R E,et al.A realistic evaluation of translingual information retrieval methods.Personal communication.LTI,CMU,1997:1-8.

        [19]Xu J X,Weischedel R,Nguyen C.Evaluating a probabilistic model for cross-lingual information retrieval.In:Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’01).New Orleans,USA,2001:105-110.

        [20]Larkey L S,Connell M E.Structured queries,language modeling,and relevance modeling in cross-language information retrieval.Information Processing and Management,2005,41(3):457-473.

        [21]Xu J,Weischedel R.TREC-9 cross-lingual retrieval at BBN.In:Proceedings of the 9th Text Retrieval Conference(TREC-9).Gaithersburg,USA,2001:106-116.

        [22]Liu X,Croft W B.Statistical language modeling for information retrieval.The Annual Review of Information Science and Technology,2004,39:3-31.

        [23]Deerwester S,Dumais S T,F(xiàn)urnas G W,et al.Indexing by latent semantic analysis.Journal of the American Society for Information Science,1990,41(6):391-407.

        [24]http:∥www.cindorsearch.com[EB].2008-01-08.

        [25]王進,等.基于本體的跨語言信息檢索模型[J].中文信息學報,2004,18(3):1-8,60.

        国产精品成人有码在线观看| 国产欧美精品aaaaaa片| 久久国产精品亚洲va麻豆| 国产v片在线播放免费无码| 国产真实乱对白精彩久久老熟妇女 | 国产人妖av在线观看| 综合亚洲伊人午夜网| 尤物在线精品视频| 精品久久久久久无码国产| 日韩精品电影在线观看| 免费国产一级片内射老| 精品国产一区二区av麻豆不卡| 东北女人啪啪对白| 国产精品亚洲一区二区三区在线| 免费毛片在线视频| 日韩中文字幕网站| av天堂一区二区三区| 国产精品一区二区三区在线蜜桃| 琪琪的色原网站| 亚洲日韩∨a无码中文字幕| 在线a人片免费观看国产| 国家一级内射高清视频| 丰满少妇作爱视频免费观看| 亚洲精品久久久久久动漫| 人妻无码ΑV中文字幕久久琪琪布 尤物AV无码色AV无码麻豆 | 丰满少妇爆乳无码专区| 国产农村妇女毛片精品久久麻豆| 午夜精品久久久久久久| 精品人妻午夜一区二区三区四区 | 日韩精品一区二区三区中文9| 加勒比日韩视频在线观看 | 欧美最猛性xxxxx免费| 丰满少妇爆乳无码专区| 日本一区二区免费看片| 岛国av无码免费无禁网站| 亚洲国产av一区二区三区四区| 日韩欧美第一区二区三区| 在线观看高清视频一区二区三区| 中文人妻av久久人妻水蜜桃| 国产精品久久久久国产a级| 久久久久久人妻一区二区无码Av |