亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算機(jī)檢索技術(shù)的研究與分析

        2018-07-23 08:09:32河北農(nóng)業(yè)大學(xué)信息學(xué)院趙曉卓
        電子世界 2018年13期
        關(guān)鍵詞:搜索引擎權(quán)值文檔

        河北農(nóng)業(yè)大學(xué)信息學(xué)院 徐 琳 尹 悅 趙曉卓

        1.文獻(xiàn)檢索原理及技術(shù)

        1.1 概述

        隨著當(dāng)今社會(huì)的發(fā)展,被計(jì)算機(jī)存儲(chǔ)設(shè)備攜帶的電子類(lèi)的信息越來(lái)越多。專(zhuān)利文獻(xiàn)特征:1.明顯的知識(shí)產(chǎn)權(quán)特性2.實(shí)用性非常強(qiáng)3.著錄格式規(guī)范4.將科技與法律融為一體。5.有很多重復(fù)信息,而且數(shù)量巨大。

        從狹義上理解信息檢索,就是說(shuō)從信息集合中尋找所需信息的過(guò)程,即我們經(jīng)常說(shuō)的信息搜索。

        檢索大致過(guò)程如下圖所示:

        用戶(hù)任務(wù)——信息需求——問(wèn)題——問(wèn)題提煉——搜索引擎——結(jié)果——數(shù)據(jù)庫(kù)

        1.2 原理

        1.2.1 原理示意圖

        為了滿(mǎn)足檢索的需要,需要收集大量的數(shù)據(jù)并對(duì)其進(jìn)行處理,以滿(mǎn)足檢索者快速準(zhǔn)確檢索的需要。下面是信息檢索原理的示意圖:

        1.2.2 檢索模型

        (1)檢索模型引出:

        所有索引基本上分為三個(gè)部分:文檔表示部分、查詢(xún)表示部分和匹配功能部分。文獻(xiàn)表示部分體現(xiàn)的是文獻(xiàn)的存儲(chǔ)形式,文獻(xiàn)表示部分可以是一些關(guān)鍵詞或者標(biāo)引詞,它也可以是一些數(shù)據(jù);查詢(xún)表示部分是指用戶(hù)表達(dá)信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢(xún)表示部分放入系統(tǒng)中進(jìn)行匹配,并通過(guò)使用不同的匹配函數(shù)獲得不同的輸出結(jié)果。

        (2)標(biāo)引詞權(quán)重

        標(biāo)引詞的權(quán)重,用于描述標(biāo)引詞和文獻(xiàn)內(nèi)容相關(guān)程度。

        (3)三種模型及其簡(jiǎn)單函數(shù)

        A.布爾模型

        檢索X由邏輯運(yùn)算符和/或非邏輯運(yùn)算組成。檢索系統(tǒng)的索引系統(tǒng)中的每個(gè)索引在文檔中只有兩種狀態(tài):出現(xiàn)和不出現(xiàn)。索引字的權(quán)重是q_ij屬于{0,1}。

        B.向量空間模型

        對(duì)于向量空間模型,二元組(Di,Kj)的權(quán)值是正非二值數(shù)。文件Kj的向量可以表示為。其中,表示第i標(biāo)引詞Di在文檔Kj中權(quán)重。的取值范圍是[0,1],這樣某文檔就可轉(zhuǎn)為高維空間中一點(diǎn)。

        標(biāo)引詞權(quán)值主要由于標(biāo)引詞的頻率統(tǒng)計(jì),即:局部權(quán)值和全局權(quán)值。

        全局權(quán)值(IDFi):是指第i個(gè)標(biāo)引詞在整個(gè)系統(tǒng)中文檔集的權(quán)值,IDFi=log(N / ni)。

        N——系統(tǒng)中文檔總數(shù);ni——系統(tǒng)含標(biāo)引詞Ki的文檔數(shù);FREqij為標(biāo)引詞Ki在文檔Dj中的出現(xiàn)的次數(shù); MAXTfj表示文檔Dj中所用標(biāo)引詞出現(xiàn)次數(shù)最大的值。

        C模糊模型

        用模糊數(shù)學(xué)語(yǔ)言描述標(biāo)引詞的權(quán)重和其他關(guān)系而建立的模型。

        1.3 技術(shù)中文分詞技術(shù)

        1.3.1 分詞意義

        無(wú)論是文檔還是查詢(xún),都要變成標(biāo)引項(xiàng)的某種形式,文檔可以用多個(gè)標(biāo)引項(xiàng)的集合來(lái)表示,一般用詞來(lái)表示,還可以用其他形式的語(yǔ)言單位表示,還有一種特殊的標(biāo)引詞就是關(guān)鍵詞。這就需要我們將文檔進(jìn)行分詞來(lái)找到標(biāo)引詞及其數(shù)目來(lái)作為每篇文章的特性。

        1.3.2 中文詞法分析

        1.3.3 停用詞消除

        1.3.4 中文重疊詞還原

        1.4 使用方法

        檢索的使用方法分成單項(xiàng)檢索和組合檢索兩種

        1.4.1 單項(xiàng)檢索

        單項(xiàng)檢索將需要檢索的檢索詞輸入即可

        如:想了解金銀花,檢索“金銀花”

        1.4.2 多項(xiàng)檢索技術(shù)

        多個(gè)檢索技術(shù)有兩種方式,第一種是單個(gè)檢索中的一些單詞或單詞的組合,第二種是一些檢索點(diǎn)的組合檢索,也就是說(shuō)在同一搜索點(diǎn)中設(shè)置多個(gè)檢索詞,或者同時(shí)設(shè)置多個(gè)不同的檢索點(diǎn)再加以不同的條件,在這之后再執(zhí)行檢索。

        如:關(guān)鍵詞=(磁流體and(密閉or泄露))not(華東理工大學(xué)or華東化工學(xué)院)

        2.搜索引擎技術(shù)

        搜索引擎。說(shuō)起搜索引擎,都清楚它需要具備內(nèi)容全面、查詢(xún)內(nèi)容準(zhǔn)確、查找速度快等作用。此外,搜索引擎需要對(duì)各種文本進(jìn)行分類(lèi)。

        2.1 內(nèi)容全面信息采集概述

        信息采集。

        下載從因特網(wǎng)收集的信息通常被稱(chēng)為機(jī)器人、蜘蛛和爬蟲(chóng),它們被下載、預(yù)先組織和在線(xiàn)。

        投入大規(guī)模硬件進(jìn)行采集和存儲(chǔ)

        2.2 保證準(zhǔn)確性的技術(shù)

        2.2.1 相似度計(jì)算

        將查詢(xún)轉(zhuǎn)換為向量,將文檔轉(zhuǎn)換為向量,將其更改為向量,然后求向量的相似性。相似性的計(jì)算被認(rèn)為是三個(gè)因素:文檔中出現(xiàn)的單詞的數(shù)量,出現(xiàn)在單詞中的文檔的數(shù)量,以及接近度的比較。

        2.2.2 鏈接分析

        被越多網(wǎng)頁(yè)指向,而且被越重要的網(wǎng)頁(yè)指向,它就越重要。PageRank較大的網(wǎng)頁(yè)才會(huì)被檢索,保證了結(jié)果。

        2.3 保證速度快的技術(shù)

        2.3.1 倒排索引

        建立倒排文件、使用倒排表搜索,使檢索速度更快。

        2.3.2 計(jì)算剪枝技術(shù)

        由于很多用戶(hù)只會(huì)看前兩頁(yè),所以并不是所有網(wǎng)頁(yè)都會(huì)參與運(yùn)算,因此,根據(jù)某種規(guī)則預(yù)先刷掉很多網(wǎng)頁(yè)或者分級(jí)。通過(guò)減少數(shù)量來(lái)加快速度。

        2.3.3 緩存技術(shù)

        將常用的放在內(nèi)存,如檢索結(jié)果、索引等,加快檢索速度。

        3.文本分類(lèi)技術(shù)

        3.1 統(tǒng)計(jì)學(xué)習(xí)法的流程

        大量的按人力分類(lèi)的文件作為學(xué)習(xí)資料(稱(chēng)為訓(xùn)練集),由人力分類(lèi)的一批文件的成本遠(yuǎn)遠(yuǎn)低于從這些文件中總結(jié)準(zhǔn)確規(guī)則的成本。

        計(jì)算機(jī)主動(dòng)從原來(lái)給出的大量人力分類(lèi)資料中(即訓(xùn)練集),提取有效的分類(lèi)規(guī)則。這個(gè)過(guò)程稱(chēng)為訓(xùn)練,而這個(gè)總結(jié)出來(lái)的規(guī)則集就叫做分類(lèi)器。

        訓(xùn)練完成之后,用分類(lèi)器對(duì)未知文檔進(jìn)行分類(lèi)。

        3.2 統(tǒng)計(jì)學(xué)習(xí)法流程圖

        猜你喜歡
        搜索引擎權(quán)值文檔
        一種融合時(shí)間權(quán)值和用戶(hù)行為序列的電影推薦模型
        有人一聲不吭向你扔了個(gè)文檔
        CONTENTS
        基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        廣告主與搜索引擎的雙向博弈分析
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        日本护士xxxx视频| 午夜dy888国产精品影院| av无码国产精品色午夜| 娇妻在交换中哭喊着高潮| 欧美日韩不卡合集视频| 欧美老妇人与禽交| 国产91 对白在线播放九色| 国产精品无码一区二区三区免费| 日韩AV不卡一区二区三区无码| 亚洲成人中文| 亚洲av乱码国产精品色| 日本久久久精品免费免费理论| 国产剧情一区二区三区在线| 国产va免费精品观看精品| 国产乱人视频在线播放| 亚洲Va欧美va国产综合| 色老汉亚洲av影院天天精品| 日韩激情视频一区在线观看| 亚洲乱码中文字幕在线| 国产无夜激无码av毛片| 中文字幕精品久久久久人妻| 国产精品三级在线观看| 又色又爽又黄的视频网站| 国产优质av一区二区三区 | 大肉大捧一进一出视频| 日本55丰满熟妇厨房伦| 中出高潮了中文字幕| 久久亚洲精品成人av观看| 国产真实一区二区三区| 99热在线观看| 免费夜色污私人影院在线观看| 一区二区三区国产在线网站视频| 亚洲中文字幕高清视频| 久久老熟女一区二区三区福利| 永久免费a∨片在线观看 | 91久久精品国产综合另类专区| 日韩精品真人荷官无码| 日韩精品大片在线观看| 熟女丝袜美腿亚洲一区二区三区| 亚洲成人免费av影院| 我把护士日出水了视频90分钟|