楊仲迎 蘇曉龍
中國礦業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 221116
高校通過招生網(wǎng)站發(fā)布各類招考信息,突出自身的優(yōu)勢、特色??忌ㄟ^招生網(wǎng)站也可以更加深入的了解高校各方面的信息。一個優(yōu)秀的招生網(wǎng)站可以為考生提供與招生相關(guān)的全方位的信息服務(wù),并為高校招生工作提供信息化工作平臺,實現(xiàn)高效、安全、人性化招生服務(wù)與管理方式,提高高校招生工作效率。
信息檢索分為廣義和狹義兩種。廣義的信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出相關(guān)信息的過程。狹義的信息檢索則僅僅是從信息庫中找到所需要的信息,即信息查詢。在招生網(wǎng)站中,信息檢索是指狹義的信息檢索,研究的重點是如何讓考生快速、準(zhǔn)確的找到自己所需要的信息。
在傳統(tǒng)信息檢索中,基于關(guān)鍵詞的搜索占據(jù)了很重要的一部分,幾乎所有的檢索系統(tǒng)中都涉及到關(guān)鍵字檢索。它有著很多優(yōu)勢,其中最突出的一點就是快速。當(dāng)然,由于信息量的增加,檢索結(jié)果中有一部分并不是所期待的搜索結(jié)果,這就是關(guān)鍵字搜索的不足之處。
在單一關(guān)鍵字的基礎(chǔ)上,可以增加至多個關(guān)鍵字以縮小搜索范圍、提高搜索的準(zhǔn)確度。但同時要控制關(guān)鍵字個數(shù),多關(guān)鍵字的約束了力很強,過多的關(guān)鍵字會導(dǎo)致沒有搜索結(jié)果。
由此可見,基于關(guān)鍵字的檢索存在著很大的不足之處。
現(xiàn)在社會信息高度發(fā)展,傳統(tǒng)的搜索方式并不能滿足人們?nèi)粘9ぷ鞯男枨?,智能化搜索的出現(xiàn)使信息檢索更加人性化、智能化。
基于內(nèi)容的圖像檢索CBIR是指從圖像本身的內(nèi)容入手來檢索數(shù)據(jù)庫中與目標(biāo)圖像相近的圖像。它區(qū)別于傳統(tǒng)的檢索手段,融合了圖像理解技術(shù),從而可以提供一種從海量圖像庫中檢索出目標(biāo)圖像的有效方法。圖像檢索系統(tǒng)框架如圖1。
圖1 圖像檢索系統(tǒng)框架
查詢模塊:支持用戶根據(jù)不同的需求進(jìn)行各種類型的查詢。
特征提取模塊:系統(tǒng)需要將用戶的查詢要求轉(zhuǎn)化為對圖像內(nèi)容比較抽象的表達(dá)和描述,即以一定的計算機(jī)可以表達(dá)的數(shù)據(jù)結(jié)構(gòu)描述圖像給定的內(nèi)容。
特征匹配模塊:將目標(biāo)圖像和數(shù)據(jù)庫中的圖像進(jìn)行內(nèi)容匹配。
反饋模塊:根據(jù)用戶反饋信息,系統(tǒng)通過修改查詢條件進(jìn)行重新檢索。
紋理特征是一種不依賴于顏色和亮度的反應(yīng)圖像中同質(zhì)現(xiàn)象的視覺特征。它包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系,是物體表面特有的內(nèi)在特征。
基于灰度共生矩陣的紋理提取方法,提取圖像的八個紋理特征值。用城區(qū)距離進(jìn)行特征匹配,返回目標(biāo)圖像以及相似的圖像排序。
下面主要介紹基于灰度共生矩陣的紋理提取算法:
灰度共生矩陣法是對圖像所有像元進(jìn)行統(tǒng)計調(diào)查,以便描述其灰度分布的一種方法。它用兩個位置像素的聯(lián)合概率密度來定義,是有關(guān)圖像亮度變化的二階統(tǒng)計特征。
一幅圖像的灰度共生矩陣能反映出圖像灰度關(guān)于方向、相鄰間隔、變化幅度的綜合信息,它是分析圖像的局部模式和它們排列規(guī)則的基礎(chǔ)。
設(shè)f(x, y)為一幅二維數(shù)字圖像,其大小為M×N,灰度級別為G,則滿足一定空間關(guān)系的灰度共生矩陣為:
其中σ(x)表示集合x中的元素個數(shù),顯然P為G×G的矩陣,若(x1,y1)與(x2,y2)間距離為 d,兩者與坐標(biāo)橫軸的夾角為 θ,則可以得到各種間距及角度的灰度共生矩陣p(i,j|d,θ)。
其中,rij表示滿足條件像素點的個數(shù)。一般來說,d較小則反映圖像的整體紋理分布;而較大的d則反映圖像小區(qū)域的細(xì)微變化;對于同一幅圖像,不同d的取值對應(yīng)不同的共生矩陣。
由灰度共生矩陣可以計算出一組參數(shù),用來定量描述紋理特征,比較常用的參數(shù)有以下幾個:
是灰度共生矩陣元素值的平方和,所以也稱能量,反映了圖像灰度分布均勻程度和紋理粗細(xì)度。當(dāng) P(i, j)值的分布集中于主對角線附近時,說明局部領(lǐng)域內(nèi)圖像灰度分布是均勻的,圖像呈現(xiàn)較粗的紋理,能量值相應(yīng)較大;反之,圖像呈現(xiàn)較細(xì)的紋理,能量值相應(yīng)較小。
對比度的大小反映了整個圖像的灰度變化情況,如果對比度大,則該圖像像素間的灰度差異大。
相關(guān):它度量空間灰度共生矩陣元素在行或列方向上的相似程度,因此,相關(guān)值大小反映了圖像中局部灰度相關(guān)性。
是圖像所具有的信息量的度量,紋理信息也屬于圖像的信息,是一個隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、空間共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。它表示了圖像中紋理的非均勻程度或復(fù)雜程度。
反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少。其值大則說明圖像紋理的不同區(qū)域間缺少變化,局部非常均勻。圖像檢索結(jié)果相關(guān)度的比較如圖 2,圖像檢索結(jié)果查準(zhǔn)率的比較如圖3。
圖2 圖像檢索結(jié)果相關(guān)度的比較
圖3 圖像檢索結(jié)果查準(zhǔn)率的比較
概念空間方法是利用計算機(jī)自動構(gòu)造概念語義網(wǎng)絡(luò)并以此為基礎(chǔ)進(jìn)行概念檢索的一種方法。
標(biāo)引和檢索的不確定性是信息檢索中的一個重要問題。由于個體差異,標(biāo)引者和檢索者使用的詞匯很難相同。為了解決詞匯差異問題,“概念檢索”應(yīng)運而生,它用概念的聯(lián)系和匹配取代傳統(tǒng)的字面匹配。
垂直搜索是針對某一特定領(lǐng)域的專業(yè)搜索,是搜索的細(xì)分和延伸,是結(jié)構(gòu)化資源的深度整合,具有專、深、精的特點。
由于社會分工的細(xì)化,不同的用戶往往有自己的專業(yè)需求。垂直搜索可以滿足用戶專業(yè)需求,它只針對某一特定領(lǐng)域,可以保證該領(lǐng)域信息鈕的收錄齊全和及時更新該領(lǐng)域信息。
基于關(guān)鍵字的信息檢索是智能化檢索的基礎(chǔ),雖然現(xiàn)代檢索技術(shù)朝著智能化、個性化、專業(yè)化發(fā)展,由于基于關(guān)鍵字的信息檢索有著簡單、快捷的優(yōu)點,在一些檢索要求不是很精確的情況下,基于關(guān)鍵字檢索仍是一種很好的檢索方法。
信息檢索面臨著很多難題,比如說,如何在加大檢索速度的基礎(chǔ)上提高檢索的精確度。未來檢索的發(fā)展趨勢就是在傳統(tǒng)檢索的基礎(chǔ)上更加人性化、智能化、專業(yè)化,能夠更好的滿足不同用戶的個性需求。
傳統(tǒng)基于關(guān)鍵字的信息檢索方法,往往返回一些無關(guān)信息,檢索結(jié)果存在很大的誤差,檢索的精確度也不高。智能化檢索突破了關(guān)鍵詞檢索的固有缺陷,使信息檢索更加人性化,精確化?;趦?nèi)容的圖像檢索,可以實現(xiàn)在圖像庫中尋找與目標(biāo)圖像相關(guān)的圖像,在圖像檢索中有很大的優(yōu)勢。本文主要介紹了招生網(wǎng)站智能化搜索的一些方法,著重介紹了基于內(nèi)容的圖像檢索,促進(jìn)了招生網(wǎng)站智能化、人性化發(fā)展。
[1]徐菁,陳翼等.智能化服務(wù)型研究生招生網(wǎng)站的設(shè)計[J].中國教育信息化.2009.
[2]喬林.基于多關(guān)鍵詞檢索的企業(yè)競爭情報搜集方法研究[D].中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文.2006.
[3]灰度共生陣.http://home.babytree.com/u/u1235357043/j/3047677, 2010.
[4]朱曉華.基于概念空間方法的信息檢索技術(shù)研究[J].理論研究.2002.
[5]陳先.智能化搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)[D].哈爾濱工業(yè)大學(xué)工學(xué)碩士論文.2003.