[摘 要]潛在語(yǔ)義分析是自然語(yǔ)言使用于情報(bào)檢索系統(tǒng)的理論基礎(chǔ),以此理論建構(gòu)的空間向量模型是評(píng)判檢索系統(tǒng)性能優(yōu)良與否的知識(shí)工具#65377;闡述了潛在語(yǔ)義標(biāo)引(LSI)的基本內(nèi)容#65380;LSI下影響自然語(yǔ)言檢索查準(zhǔn)率的因素及向量空間模型檢索軟件的運(yùn)行機(jī)制#65377;此評(píng)述對(duì)網(wǎng)絡(luò)化的情報(bào)檢索技術(shù)的發(fā)展起到了一定的參考作用#65377;
[關(guān)鍵詞]潛在語(yǔ)義分析;自然語(yǔ)言;查準(zhǔn)率
[中圖分類(lèi)號(hào)]G254.0 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2010)03-0026-03
Comment on Latent Semantic Analysis of Retrieval Precision
Rate Factors Based on the Impact of Natural LanguageChen Lihua
(Library,Dezhou College,Dezhou 253023,China)
[Abstract]Latent semantic analysis is the theoretical basis of natural language information retrieval system used in building the space vector model to judge the retrieval system performance.This paper discussed on latent semantic indexing(LSI)of the basic content,LSI under the impact of natural language search of precision factors and vector space model retrieval software operating mechanism.This commentary on the network of information retrieval technology has played a certain role in the reference.
[Key words]latent semantic analysis;natural language;precision
自然語(yǔ)言是隨著計(jì)算機(jī)技術(shù)的運(yùn)用而發(fā)展起來(lái)的一種信息檢索語(yǔ)言#65377;在互聯(lián)網(wǎng)世界里,各種搜索引擎和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)也在日益廣泛地應(yīng)用自然語(yǔ)言#65377;但是自然語(yǔ)言本身存在的缺點(diǎn)影響了整個(gè)檢索體系的檢索效果,自然語(yǔ)言存在著同義詞#65380;近義詞#65380;多義詞以及其他有著相互關(guān)系的語(yǔ)詞,這些語(yǔ)詞缺乏規(guī)范化處理,語(yǔ)詞之間缺乏概念顯示的語(yǔ)義關(guān)系,或者說(shuō)語(yǔ)詞之間語(yǔ)義關(guān)聯(lián)性差,當(dāng)用戶(hù)采用的提問(wèn)式具有多意義概念表達(dá)時(shí),使用一個(gè)自然語(yǔ)言檢索詞,必然會(huì)影響輸出結(jié)果的查準(zhǔn)率#65377;為此,學(xué)者們積極開(kāi)展研究,先后提出了詞干法(Stemming)#65380;控制詞表法(Controlled Vocabularies)等解決方法,但由于這些方法的實(shí)質(zhì)依然是關(guān)鍵詞匹配,改進(jìn)非常有限,從而無(wú)法根本上解決查準(zhǔn)率低的問(wèn)題[1]#65377;1988年,Dumais S T.等人提出了一種新的信息檢索代數(shù)模型:潛在語(yǔ)義標(biāo)引(Latent Semantic Indexing LSI)模型,實(shí)現(xiàn)了基于概念的語(yǔ)義檢索,較好地解決了自然語(yǔ)言檢索問(wèn)題,提高了檢索系統(tǒng)的準(zhǔn)確率[2]#65377;
1 潛在語(yǔ)義標(biāo)引(LSI)概述
在文獻(xiàn)中,由于大量的同義詞#65380;近義詞和多義詞的出現(xiàn),使得文獻(xiàn)出現(xiàn)了一些隱含的或潛在的語(yǔ)義結(jié)構(gòu)#65377;這些語(yǔ)義結(jié)構(gòu)的表現(xiàn)形式可以通過(guò)統(tǒng)計(jì)文獻(xiàn)中存在的標(biāo)引詞的詞頻來(lái)展示#65377;美國(guó)康奈爾大學(xué)的Salton等人建立了潛在語(yǔ)義標(biāo)引的向量空間模型,他們將文獻(xiàn)及用戶(hù)查詢(xún)語(yǔ)句表示成標(biāo)引詞權(quán)重的向量,形成了文獻(xiàn)——標(biāo)引詞矩陣[3]#65377;
在向量空間模型中,任意一篇文獻(xiàn)和任意一個(gè)用戶(hù)提問(wèn)的向量表達(dá)式為:
其中:ai為文獻(xiàn)集合中的第i篇文獻(xiàn),bi為任意一個(gè)用戶(hù)提問(wèn),xi為文獻(xiàn)向量或用戶(hù)提問(wèn)中的第i個(gè)標(biāo)引詞,m為系統(tǒng)中標(biāo)引詞的總數(shù)#65377;
向量空間模型的文獻(xiàn)——標(biāo)引詞結(jié)構(gòu)對(duì)應(yīng)著矩陣的表示形式,在LSI模型中,潛在語(yǔ)義結(jié)構(gòu)是可以用文獻(xiàn)——標(biāo)引詞矩陣來(lái)表示的:
其中:m為系統(tǒng)中標(biāo)引詞的總數(shù),n為文獻(xiàn)的總數(shù),Di,j為文獻(xiàn)——標(biāo)引詞(ai,xi)的權(quán)值#65377;
LSI模型的建立,使得語(yǔ)義關(guān)聯(lián)的非結(jié)構(gòu)化的文獻(xiàn)集合可以表示為空間向量,利用數(shù)學(xué)方法解決自然語(yǔ)言檢索問(wèn)題成為可能#65377;由于文獻(xiàn)中存在著許多同義#65380;近義#65380;多義等自然語(yǔ)言詞語(yǔ),因此,抽取的標(biāo)引詞之間就不可避免地存在著相互的聯(lián)系,從而,標(biāo)引詞向量之間存在著“斜交”的情景#65377;若全然忽略這樣的斜交可能,即忽略文獻(xiàn)之間的相互聯(lián)系,必然使得檢索效果產(chǎn)生很大的偏差[4]#65377;
2010年3月第30卷第3期現(xiàn)?代?情?報(bào)Journal of Modern InformationMar.,2010Vol.30 No.32010年3月第30卷第3期基于潛在語(yǔ)義分析的影響自然語(yǔ)言檢索查準(zhǔn)率指標(biāo)因素的評(píng)述Mar.,2010Vol.30 No.32 LSI下影響自然語(yǔ)言檢索查準(zhǔn)率指標(biāo)因素分析
2.1 奇異值分解(singular valucd decomposition,SVD)對(duì)查準(zhǔn)率的影響自然語(yǔ)言標(biāo)引詞存在于文獻(xiàn)之中,但并非一個(gè)標(biāo)引詞出現(xiàn)在每一個(gè)文獻(xiàn)之中,因此,文獻(xiàn)——標(biāo)引詞矩陣是一個(gè)高階稀疏矩陣#65377;為了準(zhǔn)確檢索出被標(biāo)引的文獻(xiàn),必須將文獻(xiàn)基于標(biāo)引詞權(quán)重的向量表述映射到一個(gè)低緯度的向量空間中去#65377;例如一個(gè)m*n階的文獻(xiàn)——標(biāo)引詞矩陣E,ETE具有非負(fù)的特征值#65377;ETE的特征值的非負(fù)平方根稱(chēng)為E的奇異值,非零奇異值的數(shù)目等于E的秩[rank(E)][5]#65377;根據(jù)奇異值定義可以將E分解為3個(gè)矩陣的乘積:
E=KLPT
其中:K#65380;P為正交矩陣,K的大小為m*m,P的大小為n*n,兩矩陣均是單位長(zhǎng)度的,即滿(mǎn)足KTK=1和PTP=1#65377;L為奇異對(duì)角矩陣,大小為m*n,是原矩陣的消減矩陣#65377;L上的對(duì)角線(xiàn)元素為分解得到的E的各奇異值,各奇異值按照由大到小的順序排列,即:Z1≥Z2≥…≥Zr#65377;
由于L上的對(duì)角線(xiàn)元素是按大小順序排列的,現(xiàn)保留最大的元素?cái)?shù)目S個(gè),其余較小的各個(gè)元素?cái)?shù)值定為零,同時(shí)保留矩陣K和P中最右邊的最大S個(gè)元素,其他較小值元素定為零,這樣產(chǎn)生了K#65380;L#65380;P三矩陣的相似矩陣KS#65380;LS#65380;PS,將三矩陣相乘得:ES=KSLSPST,且rank(ES)=S#65377;
ES矩陣是文獻(xiàn)——標(biāo)引詞矩陣E的近似矩陣,表示著將文獻(xiàn)向量從一個(gè)高維度空間降低到了一個(gè)低維度空間內(nèi),這樣減少了高維度E矩陣中的“噪聲”因素,增強(qiáng)了文獻(xiàn)與標(biāo)引詞之間的語(yǔ)義關(guān)聯(lián)度,大大提高了自然語(yǔ)言檢索的查準(zhǔn)率#65377;S值的大小是衡量文獻(xiàn)檢索質(zhì)量和文獻(xiàn)檢索效率的關(guān)鍵指標(biāo)#65377;設(shè)Zs+1+Zs+2+……+Zs+r<ε2,則:
‖E-ES‖*F=(Zs+1+Zs+2+……+Zs+r)1/2<ε
由上式可知:選取適當(dāng)?shù)腟值,對(duì)應(yīng)適當(dāng)?shù)摩?,可以使得E和ES近似度最大#65377;一方面,S值應(yīng)該足夠大,能夠適合所有的潛在語(yǔ)義結(jié)構(gòu),即可以包括所有現(xiàn)實(shí)的結(jié)構(gòu)信息#65377;但是又不能太大,因?yàn)槿绻?,則接近于標(biāo)準(zhǔn)的向量空間模型,失去它可以表示詞相依性的能力,同時(shí)存在“噪聲”,這就給檢索帶來(lái)新的問(wèn)題#65377;另一方面,S值應(yīng)該足夠小,小到可以忽略取消錯(cuò)誤和不重要的細(xì)節(jié);但是如果太小,則不能適應(yīng)樣本的誤差,保留下來(lái)的語(yǔ)義結(jié)構(gòu)太少,無(wú)法把握運(yùn)算的結(jié)果,分辨文獻(xiàn)或語(yǔ)詞的能力不足[6]#65377;S值的確定方法主要是參考因子分析中S值的選擇方法的貢獻(xiàn)率不等式法#65377;
2.2 文獻(xiàn)向量和用戶(hù)提問(wèn)向量的相似度對(duì)查準(zhǔn)率的影響在LSI空間模型內(nèi),用戶(hù)的提問(wèn)也可以用向量來(lái)表示,將提問(wèn)虛擬為文獻(xiàn)向量集合中的某一向量#65377;這樣,可以通過(guò)比較文獻(xiàn)向量和用戶(hù)提問(wèn)向量的內(nèi)積或余弦距離來(lái)判斷兩者的相似度#65377;計(jì)算相似度之前,要明確文獻(xiàn)和用戶(hù)提問(wèn)中標(biāo)引詞的權(quán)值:
文獻(xiàn)ai中詞xr的標(biāo)準(zhǔn)化頻率fr,i為:
fr,i=freqr,i/(maxl*freqr,i)
其中:freqr,i為文獻(xiàn)ai中標(biāo)引詞xr的初始頻率#65377;
文獻(xiàn)ai中詞xr的逆頻率idfr為:
idfr=log(N/nr)
其中:N為檢索系統(tǒng)中的文獻(xiàn)總數(shù)量,nr為含有標(biāo)引詞xr的文獻(xiàn)數(shù)量#65377;
文獻(xiàn)ai中標(biāo)引詞xr的權(quán)值為:
Qk,j=fr,i*idfr=fr,i*log(N/nr)
用戶(hù)提問(wèn)bi中標(biāo)引詞xr的權(quán)值為:
Qk,v=[0.5+0.5 freqr,i/(maxl*freqr,i)]*log(N/nr)
根據(jù)上述計(jì)算來(lái)判斷文獻(xiàn)向量和用戶(hù)提問(wèn)向量之間的相似度:
①點(diǎn)積函數(shù)法:
sim(ai,bi)=ΣQk,j*Qk,v(1≤k≤m)
即:文獻(xiàn)向量中的元素權(quán)值與用戶(hù)提問(wèn)向量中的對(duì)應(yīng)元素權(quán)值的乘積之和#65377;和值越大,說(shuō)明文獻(xiàn)向量和用戶(hù)提問(wèn)向量的相似度越大,文獻(xiàn)檢索的查準(zhǔn)率越高#65377;
②點(diǎn)加函數(shù)法:
sim(ai,bi)=Σmin(Qk,j,Qk,v)(1≤k≤m)
即:文獻(xiàn)向量中的元素權(quán)值與用戶(hù)提問(wèn)向量中的對(duì)應(yīng)權(quán)值的最小分量數(shù)值之和#65377;和值越大,說(shuō)明文獻(xiàn)向量和用戶(hù)提問(wèn)向量的相似度越大,文獻(xiàn)檢索的查準(zhǔn)率越高#65377;
③余弦函數(shù)法:
sim(ai,bi)=(ai*bi)/(|ai|*|bi|)=(ΣQk,j*Qk,v)/{[Σ(Qk,j)2]1/2*[Σ(Qk,V)2]1/2}(1≤k≤m)
即:文獻(xiàn)向量與用戶(hù)提問(wèn)向量之間夾角的余弦值#65377;如圖1所示:
圖1 余弦值
由圖1可以看出,文獻(xiàn)向量與用戶(hù)提問(wèn)向量的相似度和兩向量的夾角β有關(guān),當(dāng)β越大時(shí),余弦值越小,相似度越小;當(dāng)β越小時(shí),余弦值越大,相似度越大;當(dāng)兩向量完全重合時(shí),說(shuō)明相似度最大#65377;為了提高文獻(xiàn)檢索的查準(zhǔn)率,必須將相似度的閾值提高到一定的程度,這樣相似度高于閾值的文獻(xiàn)按照相似度由大到小的順序排列輸出,確保了被檢文獻(xiàn)的高準(zhǔn)確率[7]#65377;
2.3 潛在語(yǔ)義向量空間結(jié)構(gòu)的更新?tīng)顩r對(duì)查準(zhǔn)率的影響當(dāng)情報(bào)檢索系統(tǒng)中不斷增加新的文獻(xiàn)時(shí),使得文獻(xiàn)——標(biāo)引詞向量空間結(jié)構(gòu)發(fā)生了變化,我們可以利用逐層聚類(lèi)法更新來(lái)建立文獻(xiàn)——標(biāo)引詞向量矩陣的邏輯組合關(guān)系#65377;
更新后的矩陣邏輯組合關(guān)系是一種即時(shí)關(guān)系,是原關(guān)系的延續(xù)與積累#65377;設(shè)文獻(xiàn)積累狀態(tài)下的文獻(xiàn)——標(biāo)引詞矩陣為D=(a1,a2,…an),利用逐層聚類(lèi)法將D中文獻(xiàn)數(shù)目類(lèi)分為m個(gè)類(lèi)層,分別為第1類(lèi)#65380;第2類(lèi)#65380;第3類(lèi)……第m類(lèi)#65377;每一類(lèi)層的所有向量的平均值是本類(lèi)層的特征向量值,那么,所有類(lèi)層的向量平均值就是該文獻(xiàn)——標(biāo)引詞向量空間的特征向量值#65377;對(duì)于文獻(xiàn)——標(biāo)引詞矩陣D,逐層聚類(lèi)結(jié)果可以表示為D=(D1,D2……Dm)=D1∪D2∪……∪Dm,我們可以對(duì)以下結(jié)果進(jìn)行表述和判斷:
①計(jì)算類(lèi)層的平均類(lèi)內(nèi)馬氏距離αp:
αp=ΣR(p\\e)(xe-βp)NΣ-1P(x]e-βp)/SP(e∈1,|D|)
其中:p=1,2,3……m;βp為各類(lèi)層的向量平均值;Σp為協(xié)方差矩陣,SP為第p個(gè)類(lèi)層中標(biāo)準(zhǔn)訓(xùn)練樣本數(shù),R(p\\e)的取值為:
R(p\\e)=1 ai∈Dp或0 ai∈Dp
②計(jì)算類(lèi)層的類(lèi)間距離Jp,q:
Jp,q=(βp-βq)N/2*(Σ-1p+Σ-1q)*(βp-βq)
其中:p=1,2,3……m;q=1,2,3……m#65377;
③根據(jù)①和②公式,計(jì)算類(lèi)層的類(lèi)內(nèi)類(lèi)間距離比wp,q:
wp,q=(αp+αq)/Jp,q
其中:p=1,2,3……m;q=1,2,3……m[8]#65377;
從①#65380;②#65380;③可以看出,wp,q的最優(yōu)類(lèi)層值取決于αp#65380;αq及Jp,q的取值大小,進(jìn)一步說(shuō)明取決于m值的大小,使得wp,q為最大值的m值為最佳類(lèi)層數(shù),其相應(yīng)的文獻(xiàn)——標(biāo)引詞向量矩陣的邏輯組合關(guān)系為最佳關(guān)系#65377;在最佳向量空間邏輯組合關(guān)系中,文獻(xiàn)檢索的詞匯控制處在隨機(jī)的良性運(yùn)動(dòng)狀態(tài),所有檢索指標(biāo)為最佳,對(duì)文獻(xiàn)檢索系統(tǒng)的查準(zhǔn)率來(lái)說(shuō),也是最高的#65377;
3 LSI下向量空間模型檢索軟件的查準(zhǔn)率分析
目前,向量空間模型檢索軟件研究處在快速發(fā)展的階段,其中開(kāi)發(fā)最為成功的案例是美國(guó)Comell大學(xué)研制的smart概率模型inquery,該軟件實(shí)現(xiàn)了詞項(xiàng)統(tǒng)計(jì)加權(quán)策略,優(yōu)化了query的相關(guān)性反饋技術(shù)#65377;系統(tǒng)在unix上開(kāi)發(fā),可以依照建立索引庫(kù)之前準(zhǔn)備的一組需要裝庫(kù)的記錄文件和一個(gè)裝庫(kù)的描述文件(Spec),對(duì)格式化的文本文件建立索引庫(kù)#65377;然后可以進(jìn)行批處理查詢(xún)或交互式查詢(xún),也可作relevence feedback查詢(xún),還可以按照TREC給出的評(píng)測(cè)程序和標(biāo)準(zhǔn)答案集對(duì)照給出評(píng)分[9]#65377;inquery向量空間模型檢索的現(xiàn)實(shí)代碼如下所示:
∥對(duì)查詢(xún)條件數(shù)組賦值,生成查詢(xún)條件向量queryarray,其中,myarray[j]為項(xiàng)
100for(j=0;j ∥m為向量的維數(shù) 200 { 300 if(Txtdesct.Text.IndexOF(myarray[j])>-1) ∥Txtdesct.Text為輸入的查詢(xún)條件的文本描述 400 {queryarray[j]=1;} 500 else 600 {queryarray[j]=0;} 700 } ∥對(duì)構(gòu)件庫(kù)中每個(gè)構(gòu)件對(duì)應(yīng)的向量賦值 800 for(i=0;I ∥k為構(gòu)件庫(kù)中構(gòu)件的總數(shù)量 900 { 1000 for (j=0;j 1100 { 1200 if(componentdisc[i].IndexOf(myarray[j]>-1) ∥判斷構(gòu)件構(gòu)件描述是否存在某項(xiàng) 1300 {componentarray[i,j]=1;} 1400 else 1500 {componentarray[i,j]=0;} 1600 } 1700 } ∥計(jì)算構(gòu)件描述與查詢(xún)條件的向量夾角 1800 for(i=0;I 1900 { 2000 for(j=0;j 2100 { 2200 s=s+componentarray[i,j]*queryarray[j] 2300 s1=s1+componentarray[i,j]*componentarray[i,j] 2400 s2=s2+queryarray[j]*queryarray[j] 2500 } 2600 s3=Sqrt(s1) 2700 s4=Sqrt(s2) 2800 v=s/(s3*s4) ∥v為查詢(xún)向量與構(gòu)件描述向量夾角的余弦值 2900 }[10] 由以上代碼式可以看出:向量空間模型檢索軟件的現(xiàn)實(shí)代碼的邏輯計(jì)算是查準(zhǔn)率表達(dá)的數(shù)碼條件,是情報(bào)檢索系統(tǒng)計(jì)算機(jī)化的表現(xiàn)與基礎(chǔ)#65377; 參考文獻(xiàn) [1]Dumais S T.Latent Semantic Analysis[M].Annual Reviews of information Science and Technology,1989:190-230. [2]Dumais S T,F(xiàn)umas G W,Landauer T K.etal Using Latent Semantic Analysis to Improve Rnformation retrieval[C].Proceedings of CHI88 Conference on Human Factors in Computing Systems,1988:281-285. [3]句斌.潛在語(yǔ)義標(biāo)引在中文信息檢索中的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2007,(5):193-196. [4]Dumais S T.Using LSI for Information Retrieval,Information Filtering,and Other Things[C]∥Proc.of Talk at Cognitive Technology Worksop,1997:4-5. [5]戚涌,徐永紅,劉鳳玉.基于潛在語(yǔ)義標(biāo)引的WEB文檔自動(dòng)分類(lèi)[J].計(jì)算機(jī)工程與應(yīng)用,2004,(22):28-31. [6]楊梁彬.文本檢索的潛在語(yǔ)義索引法初探[J].大學(xué)圖書(shū)館學(xué)報(bào),2003,(6):68-72. [7]王知津,鄭紅軍.基于代數(shù)理論的信息檢索模型及其推廣[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005,(7):30-33. [8]戚涌,等.基于潛在語(yǔ)義標(biāo)引的WEB檔案自動(dòng)分類(lèi)[J].計(jì)算機(jī)工程與應(yīng)用,2004,(22):28-31. [9]王修力,馬利平.文本信息檢索的代數(shù)模型綜述[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2007,(5):569-576. [10]游慶祥,尤瑞玲.一種基于向量空間模型的構(gòu)件庫(kù)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2009,(3):623-625.