61683部隊(duì) 張相國(guó)
?
基于Web的圖像檢索技術(shù)研究
61683部隊(duì)張相國(guó)
如今,在Web圖像檢索過程中,有很多成熟的技術(shù),如基于Web的數(shù)據(jù)倉(cāng)庫,Web數(shù)據(jù)挖掘,Web數(shù)據(jù)源集成技術(shù)。因此,必須建立適當(dāng)?shù)臄?shù)據(jù)模型頁面,數(shù)據(jù)模型可有效地用來獲得從Web信息。為了應(yīng)對(duì)中國(guó)的數(shù)據(jù)網(wǎng)絡(luò),還必須使用一系列中國(guó)自然語言處理技術(shù)。根據(jù)對(duì)比技術(shù),自動(dòng)分割,其它如信息抽取,自動(dòng)摘要,自動(dòng)文檔分類,中國(guó)話和像自動(dòng)發(fā)現(xiàn)的概念來確定語義關(guān)系的詞與詞之間的技術(shù)概念是必不可少的。需要實(shí)現(xiàn)上述堅(jiān)實(shí)的技術(shù)積累和自然語言處理能力。
而如何利用現(xiàn)有成熟的傳統(tǒng)圖像檢索手段,并迅速開發(fā)出一種快速,便捷的方式,以提高檢索效率,本文會(huì)發(fā)現(xiàn)中國(guó)和頁面之間的圖像的固有特性是基于現(xiàn)有的搜索引擎的研究和檢索裝置和接觸,提高在原始文本搜索中使用的模型和方法,提出了新的文本相似性匹配算法,并引入檢索反饋技術(shù),這些技術(shù)的引進(jìn)到圖像檢索,使它更容易的搜索裝置落實(shí)和提高檢索效率。
在文本檢索,各大搜索引擎考慮的Web頁面相關(guān)聯(lián)的文本信息和其語義,這些文本反映了一個(gè)網(wǎng)頁的信息內(nèi)容,但與頁面中的圖片內(nèi)容不完全一致。HTML頁面,基于HTML語言的格式,圖像采集信息反映的短信,這些文本的語義分析具有十分重要的意義。作為一個(gè)HTML文檔標(biāo)簽的文本消息以及周邊,并在頁面圖文并茂的內(nèi)容是緊密相連的。
1.1顯示了文本標(biāo)記的圖像
為了識(shí)別嵌入到網(wǎng)頁中的圖像的內(nèi)容,這必須小心檢索和標(biāo)記文本反映圖像內(nèi)容的HTML文檔。大量的研究和HTML頁面格式的實(shí)際網(wǎng)頁的分析之后,可以看到標(biāo)有文字和圖像內(nèi)容有以下幾個(gè)方面的聯(lián)系最緊密的。
說明:
(1)的圖像,文本顯示在圖像的周圍,用句,句子過度內(nèi)容顯示圖像時(shí),圖像被放置在桌子上,在細(xì)胞中相同的元件或文本鄰近并通常表示圖像的含義。
(2)圖像的標(biāo)題,圖象信息通常是由一個(gè)關(guān)鍵詞來表示。當(dāng)一些文字用語的摘要信息
(3)利用圖像,并更換標(biāo)簽指示標(biāo)記圖像時(shí),圖像不顯示圖片,顯示的摘要信息。
(4)在頁面的標(biāo)題,該標(biāo)題反映了頁面的中心的內(nèi)容,如圖像內(nèi)容和標(biāo)題頁之間的網(wǎng)絡(luò)的性能也有一定的聯(lián)系。
1.2文本的權(quán)重的比較
在頁面圖像信息上述圖像檢索討論,首先是描述圖像內(nèi)容特征建立查詢,然后比較,獲得需要被檢索到的圖像描述信息并區(qū)分的相似和查詢之間的差異。然而,上述信息圖像聚焦在一個(gè)不同的角度,并在暴露于圖像信息的程度是不一樣的。標(biāo)題頁和一個(gè)簡(jiǎn)單的條目,取其相對(duì)接近的視頻標(biāo)題圖像主題的標(biāo)題圖像。的圖像和標(biāo)簽圖像的描述是圖像信息,它是該內(nèi)容的相對(duì)更詳細(xì)的文本描述。因此,各種類型的文本信息之間的比較來區(qū)分,以確定是否搜索請(qǐng)求,其重量份額應(yīng)有所不同。的根據(jù)在下面的尺寸中的份額加權(quán)序列的信息的重要性:
Image Caption>Image Title>Image Alternate>Page Title
什么檢索使用Web搜索引擎的模式,這將直接影響提供獲取搜索結(jié)果的質(zhì)量?,F(xiàn)在我們使用多個(gè)布爾檢索模型,概率檢索模型,概率推理網(wǎng)絡(luò)模型和向量空間模型。這是近年來使用更多更好的,信息檢索模型:向量空間模型。
2.1 相似性檢索模型
在使用向量空間模型搜索,首先描述在Web視為條目的有序序列短信圖像,因此上文概述的信息被稱為:ICW,ITW,IAW,PTW。在該模型的應(yīng)用,我首先要量化這種信息,文檔結(jié)構(gòu)圖作為特征矢量V(D)=(T1,ω1(D); ...; TN,ωN (D)),其中TI( I = 1,2,...,n)是相互相同的條目而言列表,ωi的(D)在D的Ti的重量,通常被定義為發(fā)生鈦TFI(四)D的函數(shù)中的頻率,亦即:
在信息檢索中常用的詞條權(quán)值計(jì)算方法為 TFIDF 函數(shù):
其中N為所有文檔的數(shù)目,ni為含有詞條ti的文檔數(shù)目。TF-IDF公式有很多變種,下面是一個(gè)常用的TF-IDF公式:
兩文檔之間的相似度可以用其對(duì)應(yīng)的向量之間的夾角余弦來表示,即文檔di,dj的相似度可以表示為:
處理查詢,先查詢狀態(tài)?量化,主要是基于布爾模型:
當(dāng)ti在查詢條件Q中時(shí),將對(duì)應(yīng)的第i坐標(biāo)置為1,否則置為0,即:
即當(dāng)兩個(gè)相同的條目,這一個(gè)是1,其余情況為零。由此可以看出,當(dāng)含有相同術(shù)語的文檔時(shí),相似性= 1;且其中不存在相同的術(shù)語,相似度=0。從而文檔d與查詢Q的相似度為:
根據(jù)一些機(jī)器學(xué)習(xí)算法,例如神經(jīng)網(wǎng)絡(luò)算法,K-最近鄰算法和貝葉斯算法文檔之間的相似性,以及組合可分為設(shè)置的文件的一些小的子集的文件。
在查詢過程中,可以計(jì)算每個(gè)文檔和查詢之間的相似性,然后將結(jié)果可以基于該查詢的大小的相似性進(jìn)行排序。
VSM可以自動(dòng)區(qū)分文檔和相似性排序結(jié)果,可以有效地提高檢索效率;它的缺點(diǎn)是大量的計(jì)算相似的,在添加新文檔時(shí),必須計(jì)算的字的權(quán)重。
圖3中的產(chǎn)品質(zhì)量信用理論模型是企業(yè)產(chǎn)品質(zhì)量信用關(guān)系模型的一種表達(dá)方式。產(chǎn)品質(zhì)量信用意愿、產(chǎn)品質(zhì)量提供能力是產(chǎn)品質(zhì)量信用水平的內(nèi)部決定因素,對(duì)應(yīng)的影響指標(biāo)為決定型指標(biāo)。產(chǎn)品質(zhì)量保障能力是產(chǎn)品質(zhì)量信用水平的外在表現(xiàn)因素,對(duì)應(yīng)的影響指標(biāo)為反映型指標(biāo)。即產(chǎn)品質(zhì)量信用意愿、產(chǎn)品質(zhì)量提供能力和產(chǎn)品質(zhì)量保障能力三個(gè)方面是該關(guān)系模型的輸入,輸出的是產(chǎn)品質(zhì)量信用水平。因此,企業(yè)產(chǎn)品質(zhì)量信用評(píng)價(jià)的關(guān)系表達(dá)式可以表示為:
2.2技術(shù)和詞語匹配
2.2.1常用詞切算法
統(tǒng)計(jì)似然方法通常不依賴于字典中,但任何原始和一個(gè)統(tǒng)計(jì)單詞頻率發(fā)生之前立即字,分別后,字出現(xiàn)的更高的數(shù)量變大。當(dāng)頻率超過預(yù)定閾值,這將被索引為一個(gè)字。這種方法可以有效地提取未知單詞。
2.2.2匹配方法
(1)字典存儲(chǔ)格式:
首先,建模,三層結(jié)構(gòu)的存儲(chǔ)的形式是一個(gè)樹結(jié)構(gòu),如下:
層存儲(chǔ)所有的話。第二層和多雙字字(因?yàn)橛锌赡苁茿BC字,而不是下一個(gè)字AB案)之前保存所有的字,并做不同的標(biāo)簽(T / F)。每個(gè)字對(duì)應(yīng)于一個(gè)系列詞語,所有字中的第二層的一個(gè)節(jié)點(diǎn),用于存儲(chǔ)第一個(gè)字的一個(gè)雙字(包括上述兩種情況)。和,這里,對(duì)于每個(gè)雙字,則需要記錄雙字的最大長(zhǎng)度是所有字的第一個(gè)字,在實(shí)踐中,可以保存移除的雙字的部分的最大長(zhǎng)度(表示為n),第三層存儲(chǔ)的所有單詞,雙頭特征。為了減少存儲(chǔ)空間,不是僅去除(如上所示)的雙字存儲(chǔ)部等。已經(jīng)有的每一層的每個(gè)節(jié)點(diǎn)的基礎(chǔ)上的,可以使用散列,二進(jìn)制搜索方法來查詢。有了這個(gè)分層存儲(chǔ)架構(gòu),可以快速縮小在一個(gè)小范圍內(nèi)的搜索詞,它有利于字工作效率。
(2)匹配
由于字的長(zhǎng)詞匯通常比切口的字長(zhǎng)的最大分離越大,為了提高分割的效率,而不是在連續(xù)的還原方法的詞,但使用正向單獨(dú)生長(zhǎng)方法。
假設(shè)一個(gè)句子C1C2 ......是文字處理算法描述如下:
1)個(gè)字(在C1C2的開頭),查詢是否有在辭典C1C2。
2)不存在,C1是一個(gè)字,一個(gè)字結(jié)束時(shí),返回1。
3)存在,判斷是否C1C2字,并獲得中國(guó)漢字的字典的術(shù)語低級(jí)節(jié)點(diǎn)的最大長(zhǎng)度,設(shè)定為n。
4)如果n = 0,所述第一子碼字的結(jié)束時(shí),保存的結(jié)果。
5)否則,I = 2,轉(zhuǎn)6)。
6)I = I + 1,若i = N + 3,開關(guān)8);否則,轉(zhuǎn)向7)。
7)然后取一個(gè)字(這里C),第三層決定是否一詞開始C3......字(精確匹配不是必需的,只要匹配的話,我就開始)。
8)如果有,這個(gè)詞的結(jié)尾,可以只返回C3 ...... CJ (J
9)否則,轉(zhuǎn)6)。
(3)統(tǒng)計(jì)方法
由于不完整的字典,字典中的很多話可能沒有注冊(cè)的句子來處理未知的話,我們嵌入統(tǒng)計(jì)方法的頻率在原來的算法,一些連續(xù)場(chǎng)作為一個(gè)分詞的頻率較高,我們先設(shè)定閾值頻率f。
已成立C1 ......道道由分割算法和模糊處理算法C1 ......慈用一個(gè)詞在一個(gè)分段的,是CJ之間的所有單個(gè)的詞......道道通字,詞和CJ,即C1 ......慈和CJ ...... Cn為相鄰兩個(gè)最近多字,然后CI + 1 ...... CJ-1作為多字詞頻統(tǒng)計(jì),完成制品的所有分割后,如果CI + 1時(shí)出現(xiàn)的次數(shù)...... CJ-1到達(dá)f,則它被認(rèn)為是一個(gè)字,否則,它被分成單個(gè)詞。
同時(shí),對(duì)于相同或類似的專業(yè)領(lǐng)域,建立動(dòng)態(tài)的詞匯,由這個(gè)詞不斷補(bǔ)充詞庫獲得的統(tǒng)計(jì)數(shù)據(jù),字典可以實(shí)現(xiàn)動(dòng)態(tài)維護(hù)。
通過上述處理方法,基于字典,結(jié)合匹配的次數(shù)依據(jù)不僅保證了分割速度快,精度高的優(yōu)點(diǎn)搜索操作的統(tǒng)計(jì)方法,并在這方面最大限度的標(biāo)識(shí)名稱,位置和其他技術(shù)術(shù)語不能登錄。
由于查詢圖像的開始,它往往是與我們想要的不一致,所以我們無法找到我們想要的,因此,許多系統(tǒng)已出臺(tái)相關(guān)意見,那就是,通過選擇一些正確/錯(cuò)誤反饋搜索結(jié)果的一個(gè)例子,以逐步改善。參考文本信息檢索的方法,我們也推出了相關(guān)的反饋來修改用戶提交的查詢,使得被修改的查詢更貼近用戶的實(shí)際需求,以提高該系統(tǒng)的性能。通過修改用戶提交的相關(guān)反饋,檢索性能比原來已經(jīng)一定程度的提高。然而,大多數(shù)不具備相關(guān)的反饋的內(nèi)存容量,每個(gè)結(jié)果,這不僅提高了查詢結(jié)果后的反饋。因此,我們引入了一個(gè)語義網(wǎng)絡(luò)中,每個(gè)記錄到語義Web反饋的結(jié)果,以便增加越來越多地使用該系統(tǒng)的頻率的效果。
本文介紹了反饋系統(tǒng),主要集中在查詢(Q1,W1,Q2,W2,...,Qm的,,WM)在WJ修整查詢來定義初始WJ已有些偏差反饋系統(tǒng)可以適當(dāng)?shù)卣{(diào)整WJ,使查詢(Q1,W1,Q2,W2,...,Qm的,,WM),但也反映了檢索的目的。當(dāng)查詢到的畫面,無論在哪里與目標(biāo)關(guān)聯(lián)?圖片n的圖像和目標(biāo)為m = R + N個(gè)。根據(jù)用戶反饋的結(jié)果反饋系統(tǒng),并重新生成查詢?nèi)缦拢?/p>
其中載體是一種圖象檢索結(jié)果網(wǎng)頁矢量表示,矢量,選擇相似度計(jì)算部件作為反饋信息。在公式5,一般選γ=1,0<β<1,0<α<1,α和β選擇的影響深度的反饋值,也直接影響了檢索的準(zhǔn)確度。
實(shí)踐表明,以比無反饋圖像檢索精度反饋系統(tǒng)中的圖像檢索系統(tǒng)由約10%,且m,較高的檢索的準(zhǔn)確度提高。
我們?cè)O(shè)計(jì)了一個(gè)檢索系統(tǒng),不提供反饋反饋選項(xiàng),并在選舉制度提供反饋超值的選擇。當(dāng)m值較小時(shí),直接顯示檢索到的圖像,并選擇是否為用戶目標(biāo)圖像之間的相關(guān)性。這些都是以提高應(yīng)用反饋系統(tǒng)的用戶界面。這里是合適的度量m = 1時(shí),檢索精度和反饋系數(shù)α,β的數(shù)字之間的曲線關(guān)系可以得出α= 0.1檢索最大值精度精密圖2可以在0.5被吸引到0.6檢索之間β精度時(shí)精度取最大值。從圖1和2,可以得到,當(dāng)α=β= 0時(shí),沒有反饋檢索精度精密= 48%,當(dāng)α= 0.1,β= 0.5或0.6檢索精度精密= 61%,引入了反饋系統(tǒng)的時(shí)允許檢索的準(zhǔn)確度是由13%的提高。
圖1 檢索精度Precision與系數(shù)α的關(guān)系
圖2 檢索精度Precision與系數(shù)β的關(guān)系
圖3 相似度臨界值與檢索精度的關(guān)系
圖4 相似度臨界值與 檢索完全度的關(guān)系
要測(cè)試的模型搜索,下載包含4000多個(gè)中國(guó)網(wǎng)頁圖像(從超過1000個(gè)網(wǎng)址),這些HTML文檔檢索。創(chuàng)建的查詢后,具有相同語義的擴(kuò)大網(wǎng)絡(luò)進(jìn)入的入口處,構(gòu)建多個(gè)IQW匹配查詢,然后計(jì)算它們的相似度,分別基于所述相似性閾值規(guī)定屈服查詢的結(jié)果。實(shí)驗(yàn)表明,一個(gè)合理的閾值可以被選擇以確保高度的相似性檢索精度和檢索的完整性。因?yàn)樗梢詮膱D3可以看出,當(dāng)該相似性閾值>0.6,以確保從圖4看出>80%的檢索精度,當(dāng)相似性閾值<0.6,以確保>60%完成檢索。當(dāng)相似度閾值是0.6,這種模式可以保證> 80%的搜索檢索精度和檢索全>60%。
為了確定ICW,ITW,I?AW,PTW右相似度計(jì)算值,測(cè)試所有的系數(shù)為0.1至1.0。最終拉伸重量ICW,ITW,I?AW,PTW為0.4,0.3,0.2,0.1時(shí),它可以合理地反映這些文本和圖片的相關(guān)性,以確保檢索的準(zhǔn)確性。
了解搜索公式和反饋的搜索引擎的原理,我們可以根據(jù)理論相應(yīng)的搜索引擎,并可以做一個(gè)對(duì)比的搜索結(jié)果。但為了更好地使用和要小心,以更好地歸類文檔,此引擎查詢反饋更多的培訓(xùn),使網(wǎng)絡(luò)搜索引擎有更好的情報(bào)和個(gè)性化功能。
參考文獻(xiàn)
[1]張量,詹國(guó)華,袁貞明.基于Web的圖像搜索[J].計(jì)算機(jī)工程,2002,5.
[2]朱學(xué)芳.多媒體信息處理與檢索技術(shù)[M].電子工業(yè)出版社,2003.
[3]陳瀅,徐宏炳,王能斌.協(xié)作式Web資源發(fā)現(xiàn)系統(tǒng)模型[J].計(jì)算機(jī)學(xué)報(bào),1998,4.
[4]陽小華,周龍?bào)J.World Wide Web 的索引與查詢技術(shù)[J].計(jì)算機(jī)科學(xué),1997.