亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        開放式圖書館數(shù)字資源檢索系統(tǒng)研究

        2015-05-29 11:49:06曹異卿唐俊
        電腦知識與技術(shù) 2015年10期
        關(guān)鍵詞:檢索系統(tǒng)數(shù)字資源

        曹異卿+唐俊

        摘要:該文設(shè)計了一個基于互聯(lián)網(wǎng)技術(shù)的開放式圖書館數(shù)字資源檢索系統(tǒng),系統(tǒng)采用多粒度索引技術(shù)建立數(shù)字資源的索引數(shù)據(jù)庫,使用逆向最大匹配算法實現(xiàn)分詞,提升了系統(tǒng)的檢索能力。測試結(jié)果表明系統(tǒng)在準(zhǔn)確率、召回率和F-measure上取得較好的效果。

        關(guān)鍵詞:數(shù)字資源;檢索系統(tǒng);多粒度索引;逆向最大匹配

        中圖分類號:TP315 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)10-0012-03

        1 概述

        現(xiàn)代圖書館的發(fā)展越來越趨向于數(shù)字化、移動化,因此圖書館的建設(shè)也與傳統(tǒng)的紙質(zhì)圖書館模式產(chǎn)生了很大的不同。國內(nèi)主要公共圖書館和高校圖書館都將圖書采購的主要來源定位于數(shù)字資源。[1-2]圖書館數(shù)字資源的不斷增加給圖書館對數(shù)字資源的加工、處理、存儲、檢索和使用帶來了考驗與挑戰(zhàn)。目前國內(nèi)圖書館數(shù)字資源的建設(shè)主要包括購買國內(nèi)外著名的數(shù)據(jù)庫和圖書館的特色館藏。[3-4]

        購買的數(shù)據(jù)庫都提供了數(shù)字資源的檢索系統(tǒng),而圖書館的特色館藏資源的形式多樣。[5]特色館藏資源一般包括圖像、文本、聲音、視頻等方方面面,這類數(shù)字資源的查詢條件有時候難以準(zhǔn)確描述,所以查詢條件的描述本身就是難點,而且檢索的對象或者集合也可能是模糊的。其中的原因可能是因為信息檢索的處理對象通常是自然語言,自然語言本身就變化無常,而且自然語言沒有固定的結(jié)構(gòu),它們的語義經(jīng)常具有模糊性,導(dǎo)致經(jīng)常檢索不到所需要的資源。[6]

        本文第二節(jié)提出了一種圖書館數(shù)字資源的多粒度混合索引技術(shù),第三節(jié)基于混合索引技術(shù)進行了基于互聯(lián)網(wǎng)的開放式數(shù)字圖書館檢索系統(tǒng),第四節(jié)對系統(tǒng)進行了測試,測試結(jié)果表明系統(tǒng)在準(zhǔn)確率、召回率和F-measure上取得較好的效果。

        2 多粒度混合索引技術(shù)

        多粒度索引技術(shù)是構(gòu)建倒排索引數(shù)據(jù)文件的一種方法和技術(shù)。多粒度索引技術(shù)采用了統(tǒng)計學(xué)方法,該方法先識別文檔中包含的未登錄詞語,然后把識別出來的未登錄詞語依次放在一個擴展的詞典里面,采用統(tǒng)計學(xué)方法識別未登錄詞語會有錯誤的情況發(fā)生,使得擴展的分詞詞典里面含有錯誤的詞語。在保存擴展的分詞詞典時,把識別出來的新詞語再用基本分詞詞典進行二次切分,并保存好切分開的詞語序列。

        多粒度索引技術(shù)采用統(tǒng)一倒排文件索引詞典,沒有二級索引詞典,不會產(chǎn)生額外的訪問開銷。多粒度索引技術(shù)不限制擴展詞語的長度,可以把更長的短語建成索引,這樣使得信息檢索時更加靈活。與詞語索引結(jié)合Bigram索引的技術(shù)相比,多粒度索引技術(shù)采用了未登錄詞語識別技術(shù),能夠避免Bigram索引帶來的倒排索引數(shù)據(jù)詞典膨脹的問題。

        多粒度索引技術(shù)中增加的擴展詞語索引,可以使得更多詞語或短語被索引,從而提高信息檢索系統(tǒng)的檢索效率,所以多粒度索引技術(shù)是可行的。

        多粒度索引技術(shù)的實現(xiàn)包括未登錄詞語識別和擴展詞典構(gòu)建兩個部分。

        第一部分 未登錄詞語識別算法

        1) 提取m元組:采用基本詞語詞典,對文本進行詞語切分,從得到的分詞結(jié)果中提取出包含m個相鄰基本詞語的字符串,稱為 m元組。

        2) 噪聲處理:把停用詞搜集起來構(gòu)成停用詞表,在m元組中進行刪除。

        3) 刪除重復(fù)的m元組:把那些重復(fù)出現(xiàn)的多余m元組進行刪除。

        4) 把最后剩下的m元組按照它們出現(xiàn)的頻次從高到低排列,超過一定閾值就作為未登錄詞語加入擴展詞語表。

        未登錄詞語可以從網(wǎng)頁文檔語料數(shù)據(jù)中提取得到。在提取m元組時,網(wǎng)頁文本中的用戶經(jīng)常查詢的詞語優(yōu)先被考慮。也可以從網(wǎng)頁文本文摘文字中選擇m元組。這樣可以提高未登錄詞語的識別效果。

        第二部分 擴展詞典構(gòu)建

        把識別出來的新詞語保存在擴展的詞典中??梢韵冗M行基本分詞詞典分詞,并將結(jié)果轉(zhuǎn)換成基本詞語的序列。然后使用散列查找表把基本詞語的序列轉(zhuǎn)換成連續(xù)整數(shù)編碼。那么擴展分詞詞典里面就保存新詞語中基本詞語的整數(shù)編碼,相當(dāng)于由整數(shù)編碼構(gòu)成的m元組集合。

        3 開放式圖書館數(shù)字資源檢索系統(tǒng)設(shè)計

        3.1 逆向最大匹配算法設(shè)計

        逆向最大匹配法通常簡稱為RMM法。RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續(xù)匹配。相應(yīng)地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據(jù)逆序詞典,對逆序文檔用正向最大匹配法處理即可。逆向最大匹配算法如圖1所示。

        3.2 創(chuàng)建索引

        在索引創(chuàng)建的算法方面,采用兩趟的內(nèi)存倒排索引創(chuàng)建算法,首先是依次對每個規(guī)模小的文檔集合創(chuàng)建倒排索引,然后執(zhí)行多路歸并算法,最后得到總的倒排索引文件。主要的創(chuàng)建步驟如下:

        1) 頁面分析。按照HTML標(biāo)簽語法規(guī)則分析源文件的標(biāo)簽結(jié)構(gòu)。在分析的過程中記下每個索引詞的詞頻和文檔頻率,然后利用散列表把它們轉(zhuǎn)換成索引詞語編碼,并把這些結(jié)果保存到詞典文件中,同時把頁面分析的結(jié)果保存到臨時文件里面,留給后面的步驟使用。

        2) 按照統(tǒng)計方法得到索引詞語的詞頻和文檔頻率屬性,能夠估計出索引詞語對應(yīng)得倒排文件數(shù)據(jù)可能的長度,并預(yù)先申請文檔集合需要的倒排索引內(nèi)存空間。讀取頁面分析得到的臨時文件,并在內(nèi)存里面按照臨時文件的內(nèi)容創(chuàng)建倒排索引,并把得到的結(jié)果保存在臨時的倒排文件里面。

        3) 讀取上面得到的多個臨時的倒排文件的內(nèi)容,然后執(zhí)行多路歸并算法,并進行編碼壓縮,最后輸出到最終的倒排文件里面保存。

        在索引創(chuàng)建模塊中,頁面分析過程,尤其是中文分詞過程是主要的時間開銷。算法的后面步驟相對來說速度很快。

        3.3 內(nèi)容檢索

        檢索模塊同建立索引模塊一樣,都是異構(gòu)數(shù)字資源檢索系統(tǒng)的核心模塊,檢索模塊的功能是首先獲取用戶輸入的關(guān)鍵詞,然后對其進行預(yù)處理,繼而對處理后的關(guān)鍵詞進行中文分詞,最后從索引庫中將用戶需求的數(shù)字資源檢索出來。檢索模塊中,用戶可根據(jù)不同的檢索需求(比如資源題目、資源作者、資源簡介等等),選取不同的檢索條件,獲取不同的檢索結(jié)果。

        3.4 結(jié)果排序

        排序模塊的功能主要是對檢索模塊檢索出來的結(jié)果進行排序,從而給用戶呈現(xiàn)出相應(yīng)的資源列表。首先獲取用戶輸入的檢索詞進行分詞之后獲得的關(guān)鍵詞,然后計算關(guān)鍵詞與檢索結(jié)果中文檔的相關(guān)度,最后根據(jù)相關(guān)度大小進行排序。排序模塊的流程圖如圖2所示。

        4 測試與驗證

        根據(jù)美國情報學(xué)家Lancaster基于傳統(tǒng)的信息檢索系統(tǒng)提出的信息檢索的性能指標(biāo),取480個數(shù)字資源作為測試數(shù)據(jù),測試數(shù)據(jù)包含等量的四種類型的數(shù)字資源,即120個epub格式的文本資源、120個epub格式的音頻資源、120個epub格式的視頻資源以及120個epub格式的圖像資源,每一種類型的數(shù)字資源包含全英文的以及全中文的,所有的中文資源不僅僅只關(guān)注同一個關(guān)注點。本文從十個不同的方面精心選擇了十個查詢句,其中包括5個中文查詢句和5個英文查詢句,其中軍事、醫(yī)藥、體育、經(jīng)濟、環(huán)境、 健康、藝術(shù)、教育、 政治、交通方面分別有一個查詢句。

        表1中,R 代表相關(guān)文檔集合,變量A 代表檢索結(jié)果構(gòu)成的文檔集合,變量Ra 代表相關(guān)文檔集合R 和檢索結(jié)果構(gòu)成的文檔集合 A 的交集。

        本系統(tǒng)的平均查準(zhǔn)率為88.5%,平均査全率為81.4%。在查準(zhǔn)率和查全率上與傳統(tǒng)搜索引擎有較大提升。英文資源的查全率和查準(zhǔn)率都高于中文資源的查全率和查準(zhǔn)率,這是因為英文和中文本身的差異引起的,英文的分界符非常明顯,而對中文進行切分需要各種分詞算法,準(zhǔn)確度自然沒有英文高。

        5 總結(jié)

        開放式數(shù)字圖書館需要一個能檢索各種類型資源的檢索系統(tǒng),本文提出的開放式圖書館數(shù)字資源檢索系統(tǒng)采用了多粒度索引、逆向最大匹配算法等技術(shù)來提高搜索的精度。對檢索系統(tǒng)的分詞、索引、搜索和結(jié)果展現(xiàn)等模塊進行了設(shè)計,并基于Java平臺進行系統(tǒng)的原型創(chuàng)建。測試結(jié)果表明系統(tǒng)在準(zhǔn)確率、召回率和F-measure上取得較好的效果。

        參考文獻:

        [1]馬文峰. 數(shù)字資源整合研究[J]. 中國圖書館學(xué)報,2002(4):63-66.

        [2]劉陽. 基于開放獲取的高校圖書館科學(xué)數(shù)據(jù)信息資源管理與服務(wù)[J]. 科技情報開發(fā)與經(jīng)濟,2015,05:29-31.

        [3]畢強,王傳清,李潔. 基于語義的數(shù)字資源超網(wǎng)絡(luò)聚合研究[J]. 情報科學(xué),2015(3):8-12.

        [4]王小君,何慶. 資源網(wǎng)格中的一種資源檢索機制[J]. 計算機技術(shù)與發(fā)展,2010(3):63-66.

        [5]鄭偉青. 云計算在圖書館群資源檢索中的研究與應(yīng)用[J]. 圖書館建設(shè),2010(4):85-87.

        [6]陳旭,陳德華,樂嘉錦. 基于語義相關(guān)度排序的政務(wù)信息資源檢索算法[J]. 計算機工程與應(yīng)用,2011(25):121-125.

        猜你喜歡
        檢索系統(tǒng)數(shù)字資源
        世界地質(zhì)公園地圖檢索系統(tǒng)開發(fā)與應(yīng)用
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年1期)2018-09-03 07:53:04
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年5期)2018-06-28 02:16:02
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年4期)2018-06-27 03:34:16
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年3期)2018-06-27 03:30:18
        一種基于內(nèi)容的圖像檢索系統(tǒng)設(shè)計
        美術(shù)教科書使用應(yīng)把握的幾個視角
        圖書館員新角色
        建立中文DOI標(biāo)識在科技期刊出版中的作用
        高校數(shù)字資源云服務(wù)平臺的建設(shè)研究
        97SE亚洲国产综合自在线不卡 | 国产精品久久久久一区二区三区| 边啃奶头边躁狠狠躁| 91麻豆精品激情在线观看最新| 亚洲嫩模一区二区三区视频| 日本视频一区二区三区观看| 丰满少妇又爽又紧又丰满动态视频| 亚洲乱码中文字幕视频| 久久精品国产亚洲7777| 色欲麻豆国产福利精品| 国产午夜精品美女裸身视频69| 日韩av在线手机免费观看| 92午夜少妇极品福利无码电影| 精品国产一区二区三区av 性色| 无码在线观看123| 国产一区二区三区在线爱咪咪| 国产性感丝袜在线观看| 隔壁老王国产在线精品| 人妻丰满熟妇av无码区免| 免费无码又爽又刺激又高潮的视频 | 天堂精品人妻一卡二卡| 国产成人精品免费视频大全软件| 亚洲精品aa片在线观看国产| 正在播放一区| 亚洲国产一区二区三区视频在线| 一区在线视频免费播放| 成年免费视频黄网站zxgk| 中文毛片无遮挡高潮| 日本一区二区啪啪视频| 久久免费看的少妇一级特黄片| 97人妻精品一区二区三区| 91呻吟丰满娇喘国产区| 青青青视频手机在线观看| 亚洲国产精品无码一线岛国| 四川老熟女下面又黑又肥| 日韩在线观看网址| 久久亚洲乱码中文字幕熟女| 国产精品久久国产精品99 gif| 国产高清乱理伦片| 国产亚洲精品日韩香蕉网| 白白色发布免费手机在线视频观看|