亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計(jì)算機(jī)檢索技術(shù)的研究與分析

2018-07-23 08:09:32河北農(nóng)業(yè)大學(xué)信息學(xué)院趙曉卓

電子世界 2018年13期

河北農(nóng)業(yè)大學(xué)信息學(xué)院徐琳尹悅趙曉卓

1.文獻(xiàn)檢索原理及技術(shù)

1.1 概述

隨著當(dāng)今社會(huì)的發(fā)展，被計(jì)算機(jī)存儲(chǔ)設(shè)備攜帶的電子類(lèi)的信息越來(lái)越多。專(zhuān)利文獻(xiàn)特征：1.明顯的知識(shí)產(chǎn)權(quán)特性2.實(shí)用性非常強(qiáng)3.著錄格式規(guī)范4.將科技與法律融為一體。5.有很多重復(fù)信息，而且數(shù)量巨大。

從狹義上理解信息檢索，就是說(shuō)從信息集合中尋找所需信息的過(guò)程，即我們經(jīng)常說(shuō)的信息搜索。

檢索大致過(guò)程如下圖所示：

用戶(hù)任務(wù)——信息需求——問(wèn)題——問(wèn)題提煉——搜索引擎——結(jié)果——數(shù)據(jù)庫(kù)

1.2 原理

1.2.1 原理示意圖

為了滿(mǎn)足檢索的需要，需要收集大量的數(shù)據(jù)并對(duì)其進(jìn)行處理，以滿(mǎn)足檢索者快速準(zhǔn)確檢索的需要。下面是信息檢索原理的示意圖：

1.2.2 檢索模型

（1）檢索模型引出：

所有索引基本上分為三個(gè)部分：文檔表示部分、查詢(xún)表示部分和匹配功能部分。文獻(xiàn)表示部分體現(xiàn)的是文獻(xiàn)的存儲(chǔ)形式，文獻(xiàn)表示部分可以是一些關(guān)鍵詞或者標(biāo)引詞，它也可以是一些數(shù)據(jù)；查詢(xún)表示部分是指用戶(hù)表達(dá)信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢(xún)表示部分放入系統(tǒng)中進(jìn)行匹配，并通過(guò)使用不同的匹配函數(shù)獲得不同的輸出結(jié)果。

（2）標(biāo)引詞權(quán)重

標(biāo)引詞的權(quán)重，用于描述標(biāo)引詞和文獻(xiàn)內(nèi)容相關(guān)程度。

（3）三種模型及其簡(jiǎn)單函數(shù)

A.布爾模型

檢索X由邏輯運(yùn)算符和/或非邏輯運(yùn)算組成。檢索系統(tǒng)的索引系統(tǒng)中的每個(gè)索引在文檔中只有兩種狀態(tài)：出現(xiàn)和不出現(xiàn)。索引字的權(quán)重是q_ij屬于{0,1}。

B.向量空間模型

對(duì)于向量空間模型，二元組（Di，Kj）的權(quán)值是正非二值數(shù)。文件Kj的向量可以表示為。其中，表示第i標(biāo)引詞Di在文檔Kj中權(quán)重。的取值范圍是[0,1]，這樣某文檔就可轉(zhuǎn)為高維空間中一點(diǎn)。

標(biāo)引詞權(quán)值主要由于標(biāo)引詞的頻率統(tǒng)計(jì)，即：局部權(quán)值和全局權(quán)值。

全局權(quán)值（IDFi）：是指第i個(gè)標(biāo)引詞在整個(gè)系統(tǒng)中文檔集的權(quán)值，IDFi=log(N / ni)。

N——系統(tǒng)中文檔總數(shù)；ni——系統(tǒng)含標(biāo)引詞Ki的文檔數(shù)；FREqij為標(biāo)引詞Ki在文檔Dj中的出現(xiàn)的次數(shù)； MAXTfj表示文檔Dj中所用標(biāo)引詞出現(xiàn)次數(shù)最大的值。

C模糊模型

用模糊數(shù)學(xué)語(yǔ)言描述標(biāo)引詞的權(quán)重和其他關(guān)系而建立的模型。

1.3 技術(shù)中文分詞技術(shù)

1.3.1 分詞意義

無(wú)論是文檔還是查詢(xún)，都要變成標(biāo)引項(xiàng)的某種形式，文檔可以用多個(gè)標(biāo)引項(xiàng)的集合來(lái)表示，一般用詞來(lái)表示，還可以用其他形式的語(yǔ)言單位表示，還有一種特殊的標(biāo)引詞就是關(guān)鍵詞。這就需要我們將文檔進(jìn)行分詞來(lái)找到標(biāo)引詞及其數(shù)目來(lái)作為每篇文章的特性。

1.3.2 中文詞法分析

1.3.3 停用詞消除

1.3.4 中文重疊詞還原

1.4 使用方法

檢索的使用方法分成單項(xiàng)檢索和組合檢索兩種

1.4.1 單項(xiàng)檢索

單項(xiàng)檢索將需要檢索的檢索詞輸入即可

如：想了解金銀花，檢索“金銀花”

1.4.2 多項(xiàng)檢索技術(shù)

多個(gè)檢索技術(shù)有兩種方式，第一種是單個(gè)檢索中的一些單詞或單詞的組合，第二種是一些檢索點(diǎn)的組合檢索，也就是說(shuō)在同一搜索點(diǎn)中設(shè)置多個(gè)檢索詞，或者同時(shí)設(shè)置多個(gè)不同的檢索點(diǎn)再加以不同的條件，在這之后再執(zhí)行檢索。

如：關(guān)鍵詞=（磁流體and（密閉or泄露））not（華東理工大學(xué)or華東化工學(xué)院）

2.搜索引擎技術(shù)

搜索引擎。說(shuō)起搜索引擎，都清楚它需要具備內(nèi)容全面、查詢(xún)內(nèi)容準(zhǔn)確、查找速度快等作用。此外，搜索引擎需要對(duì)各種文本進(jìn)行分類(lèi)。

2.1 內(nèi)容全面信息采集概述

信息采集。

下載從因特網(wǎng)收集的信息通常被稱(chēng)為機(jī)器人、蜘蛛和爬蟲(chóng)，它們被下載、預(yù)先組織和在線(xiàn)。

投入大規(guī)模硬件進(jìn)行采集和存儲(chǔ)

2.2 保證準(zhǔn)確性的技術(shù)

2.2.1 相似度計(jì)算

將查詢(xún)轉(zhuǎn)換為向量，將文檔轉(zhuǎn)換為向量，將其更改為向量，然后求向量的相似性。相似性的計(jì)算被認(rèn)為是三個(gè)因素：文檔中出現(xiàn)的單詞的數(shù)量，出現(xiàn)在單詞中的文檔的數(shù)量，以及接近度的比較。

2.2.2 鏈接分析

被越多網(wǎng)頁(yè)指向，而且被越重要的網(wǎng)頁(yè)指向，它就越重要。PageRank較大的網(wǎng)頁(yè)才會(huì)被檢索，保證了結(jié)果。

2.3 保證速度快的技術(shù)

2.3.1 倒排索引

建立倒排文件、使用倒排表搜索，使檢索速度更快。

2.3.2 計(jì)算剪枝技術(shù)

由于很多用戶(hù)只會(huì)看前兩頁(yè)，所以并不是所有網(wǎng)頁(yè)都會(huì)參與運(yùn)算，因此，根據(jù)某種規(guī)則預(yù)先刷掉很多網(wǎng)頁(yè)或者分級(jí)。通過(guò)減少數(shù)量來(lái)加快速度。

2.3.3 緩存技術(shù)

將常用的放在內(nèi)存，如檢索結(jié)果、索引等，加快檢索速度。

3.文本分類(lèi)技術(shù)

3.1 統(tǒng)計(jì)學(xué)習(xí)法的流程

大量的按人力分類(lèi)的文件作為學(xué)習(xí)資料（稱(chēng)為訓(xùn)練集），由人力分類(lèi)的一批文件的成本遠(yuǎn)遠(yuǎn)低于從這些文件中總結(jié)準(zhǔn)確規(guī)則的成本。

計(jì)算機(jī)主動(dòng)從原來(lái)給出的大量人力分類(lèi)資料中（即訓(xùn)練集），提取有效的分類(lèi)規(guī)則。這個(gè)過(guò)程稱(chēng)為訓(xùn)練，而這個(gè)總結(jié)出來(lái)的規(guī)則集就叫做分類(lèi)器。

訓(xùn)練完成之后，用分類(lèi)器對(duì)未知文檔進(jìn)行分類(lèi)。