河北農(nóng)業(yè)大學(xué)信息學(xué)院 徐 琳 尹 悅 趙曉卓
隨著當(dāng)今社會(huì)的發(fā)展,被計(jì)算機(jī)存儲(chǔ)設(shè)備攜帶的電子類(lèi)的信息越來(lái)越多。專(zhuān)利文獻(xiàn)特征:1.明顯的知識(shí)產(chǎn)權(quán)特性2.實(shí)用性非常強(qiáng)3.著錄格式規(guī)范4.將科技與法律融為一體。5.有很多重復(fù)信息,而且數(shù)量巨大。
從狹義上理解信息檢索,就是說(shuō)從信息集合中尋找所需信息的過(guò)程,即我們經(jīng)常說(shuō)的信息搜索。
檢索大致過(guò)程如下圖所示:
用戶(hù)任務(wù)——信息需求——問(wèn)題——問(wèn)題提煉——搜索引擎——結(jié)果——數(shù)據(jù)庫(kù)
1.2.1 原理示意圖
為了滿(mǎn)足檢索的需要,需要收集大量的數(shù)據(jù)并對(duì)其進(jìn)行處理,以滿(mǎn)足檢索者快速準(zhǔn)確檢索的需要。下面是信息檢索原理的示意圖:
1.2.2 檢索模型
(1)檢索模型引出:
所有索引基本上分為三個(gè)部分:文檔表示部分、查詢(xún)表示部分和匹配功能部分。文獻(xiàn)表示部分體現(xiàn)的是文獻(xiàn)的存儲(chǔ)形式,文獻(xiàn)表示部分可以是一些關(guān)鍵詞或者標(biāo)引詞,它也可以是一些數(shù)據(jù);查詢(xún)表示部分是指用戶(hù)表達(dá)信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢(xún)表示部分放入系統(tǒng)中進(jìn)行匹配,并通過(guò)使用不同的匹配函數(shù)獲得不同的輸出結(jié)果。
(2)標(biāo)引詞權(quán)重
標(biāo)引詞的權(quán)重,用于描述標(biāo)引詞和文獻(xiàn)內(nèi)容相關(guān)程度。
(3)三種模型及其簡(jiǎn)單函數(shù)
A.布爾模型
檢索X由邏輯運(yùn)算符和/或非邏輯運(yùn)算組成。檢索系統(tǒng)的索引系統(tǒng)中的每個(gè)索引在文檔中只有兩種狀態(tài):出現(xiàn)和不出現(xiàn)。索引字的權(quán)重是q_ij屬于{0,1}。
B.向量空間模型
對(duì)于向量空間模型,二元組(Di,Kj)的權(quán)值是正非二值數(shù)。文件Kj的向量可以表示為。其中,表示第i標(biāo)引詞Di在文檔Kj中權(quán)重。的取值范圍是[0,1],這樣某文檔就可轉(zhuǎn)為高維空間中一點(diǎn)。
標(biāo)引詞權(quán)值主要由于標(biāo)引詞的頻率統(tǒng)計(jì),即:局部權(quán)值和全局權(quán)值。
全局權(quán)值(IDFi):是指第i個(gè)標(biāo)引詞在整個(gè)系統(tǒng)中文檔集的權(quán)值,IDFi=log(N / ni)。
N——系統(tǒng)中文檔總數(shù);ni——系統(tǒng)含標(biāo)引詞Ki的文檔數(shù);FREqij為標(biāo)引詞Ki在文檔Dj中的出現(xiàn)的次數(shù); MAXTfj表示文檔Dj中所用標(biāo)引詞出現(xiàn)次數(shù)最大的值。
C模糊模型
用模糊數(shù)學(xué)語(yǔ)言描述標(biāo)引詞的權(quán)重和其他關(guān)系而建立的模型。
1.3.1 分詞意義
無(wú)論是文檔還是查詢(xún),都要變成標(biāo)引項(xiàng)的某種形式,文檔可以用多個(gè)標(biāo)引項(xiàng)的集合來(lái)表示,一般用詞來(lái)表示,還可以用其他形式的語(yǔ)言單位表示,還有一種特殊的標(biāo)引詞就是關(guān)鍵詞。這就需要我們將文檔進(jìn)行分詞來(lái)找到標(biāo)引詞及其數(shù)目來(lái)作為每篇文章的特性。
1.3.2 中文詞法分析
1.3.3 停用詞消除
1.3.4 中文重疊詞還原
檢索的使用方法分成單項(xiàng)檢索和組合檢索兩種
1.4.1 單項(xiàng)檢索
單項(xiàng)檢索將需要檢索的檢索詞輸入即可
如:想了解金銀花,檢索“金銀花”
1.4.2 多項(xiàng)檢索技術(shù)
多個(gè)檢索技術(shù)有兩種方式,第一種是單個(gè)檢索中的一些單詞或單詞的組合,第二種是一些檢索點(diǎn)的組合檢索,也就是說(shuō)在同一搜索點(diǎn)中設(shè)置多個(gè)檢索詞,或者同時(shí)設(shè)置多個(gè)不同的檢索點(diǎn)再加以不同的條件,在這之后再執(zhí)行檢索。
如:關(guān)鍵詞=(磁流體and(密閉or泄露))not(華東理工大學(xué)or華東化工學(xué)院)
搜索引擎。說(shuō)起搜索引擎,都清楚它需要具備內(nèi)容全面、查詢(xún)內(nèi)容準(zhǔn)確、查找速度快等作用。此外,搜索引擎需要對(duì)各種文本進(jìn)行分類(lèi)。
信息采集。
下載從因特網(wǎng)收集的信息通常被稱(chēng)為機(jī)器人、蜘蛛和爬蟲(chóng),它們被下載、預(yù)先組織和在線(xiàn)。
投入大規(guī)模硬件進(jìn)行采集和存儲(chǔ)
2.2.1 相似度計(jì)算
將查詢(xún)轉(zhuǎn)換為向量,將文檔轉(zhuǎn)換為向量,將其更改為向量,然后求向量的相似性。相似性的計(jì)算被認(rèn)為是三個(gè)因素:文檔中出現(xiàn)的單詞的數(shù)量,出現(xiàn)在單詞中的文檔的數(shù)量,以及接近度的比較。
2.2.2 鏈接分析
被越多網(wǎng)頁(yè)指向,而且被越重要的網(wǎng)頁(yè)指向,它就越重要。PageRank較大的網(wǎng)頁(yè)才會(huì)被檢索,保證了結(jié)果。
2.3.1 倒排索引
建立倒排文件、使用倒排表搜索,使檢索速度更快。
2.3.2 計(jì)算剪枝技術(shù)
由于很多用戶(hù)只會(huì)看前兩頁(yè),所以并不是所有網(wǎng)頁(yè)都會(huì)參與運(yùn)算,因此,根據(jù)某種規(guī)則預(yù)先刷掉很多網(wǎng)頁(yè)或者分級(jí)。通過(guò)減少數(shù)量來(lái)加快速度。
2.3.3 緩存技術(shù)
將常用的放在內(nèi)存,如檢索結(jié)果、索引等,加快檢索速度。
大量的按人力分類(lèi)的文件作為學(xué)習(xí)資料(稱(chēng)為訓(xùn)練集),由人力分類(lèi)的一批文件的成本遠(yuǎn)遠(yuǎn)低于從這些文件中總結(jié)準(zhǔn)確規(guī)則的成本。
計(jì)算機(jī)主動(dòng)從原來(lái)給出的大量人力分類(lèi)資料中(即訓(xùn)練集),提取有效的分類(lèi)規(guī)則。這個(gè)過(guò)程稱(chēng)為訓(xùn)練,而這個(gè)總結(jié)出來(lái)的規(guī)則集就叫做分類(lèi)器。
訓(xùn)練完成之后,用分類(lèi)器對(duì)未知文檔進(jìn)行分類(lèi)。