〔摘 要〕文章針對移動設備的數(shù)字圖書館檢索過程中出現(xiàn)的實際問題,全面分析研究了目前輕型文檔匹配新算法的發(fā)展,深入討論了該檢索技術的預處理、前后端具體實現(xiàn)等內(nèi)容,另外,文章介紹了目前二分網(wǎng)絡聚類方法在數(shù)字圖書館推薦系統(tǒng)中的應用,為目前的數(shù)字圖書館的檢索提供了一種比較實用的方法。
數(shù)字圖書館就是對有價值的文本、圖像、語音、影像、軟件和科學數(shù)據(jù)等多媒體信息進行收集、組織規(guī)范性的加工、進行高質(zhì)量保存和管理、實施知識增值,并提供在廣域網(wǎng)上高速橫向跨庫連接的電子存取服務。在現(xiàn)代社會中,數(shù)字圖書館所收藏的各類信息對于知識經(jīng)濟的整個過程都是必不可少的,它們憑借高新技術快速地傳播文化知識,不斷推動全民族文化素質(zhì)的不斷提高,促進社會的進步和發(fā)展。同時,隨著科技的日新月異,使用智能化移動設備訪問數(shù)字圖書館的受眾不斷增多,這就給數(shù)字圖書館的發(fā)展提出了更高的要求,主要是如何將網(wǎng)絡服務逐漸移植到移動設備上,讓用戶更加方便、快捷地使用數(shù)字圖書館資源。但伴隨著我國各個數(shù)字圖書館的數(shù)據(jù)資源不斷的快速增長,由于數(shù)字圖書館信息資源的異構性、復雜性等特點,面對浩如煙海的信息,用戶想在最短時間內(nèi)獲取需要的信息卻經(jīng)常會相當困難。產(chǎn)生這些困難的主要有以下幾個原因:(1)數(shù)字圖書館的信息以幾何級數(shù)急劇膨脹,而信息同時呈現(xiàn)出異構、龐大、分散的特點,以至于圖書館的信息維護和用戶獲取有用信息的困難較大;(2)基于移動設備數(shù)字圖書館檢索工具的功能直接關系到瀏覽者的閱讀效果,由于各個數(shù)字圖書館索引編制和標引方式以及開發(fā)方式的不同,會造成索引信息的查找速度、覆蓋面和檢索結果的差別較大;(3)數(shù)字圖書館檢索帶有一定的主觀性,直接和用戶信息檢索能力相關,而目前的大部分用戶缺少檢索方面的專業(yè)知識,從而直接影響到信息檢索的效果。
1 問題闡述現(xiàn)今,我們可以注意到許多人在利用移動設備訪問基于服務器的數(shù)字圖書館。數(shù)字圖書館檢索引擎最常用的搜索方法為分類檢索(目錄檢索)、多元檢索和關鍵詞檢索。分類檢索主要是采用圖書分類或者學科分類方法對數(shù)字圖書資料進行加工整理,最終提供一種等級結構式檢索目錄,該方法檢索質(zhì)量高,但是檢索信息數(shù)量有限。多元檢索可以同時檢索多個數(shù)據(jù)庫資源,整合后輸出檢索結果。目前,國內(nèi)的清華知網(wǎng)和萬方數(shù)據(jù)系統(tǒng)等均提供該種檢索方式,但是由于檢索機制及檢索算法的差異,致使檢索結果的準確性差、速度慢。基于關鍵字的索引是移動設備訪問數(shù)字圖書館最常見的方式,該方式只需移動用戶在搜索提問框中輸入關鍵詞,確認后,遠程數(shù)字圖書館服務器會將與關鍵詞匹配的結果羅列出來,發(fā)給移動用戶終端,這以看似簡單步驟其實需要大量的存儲和計算資源。移動設備數(shù)字圖書檢索需要的是能接收理想長度的輸入,并給出類似搜索引擎(對匹配的文檔進行排序)的結果,這些過程要在移動設備快速進行。另外,目前一些數(shù)字圖書館的搜索采用數(shù)據(jù)挖掘或者基于案例的分析方法來查找匹配輸入的文檔,這些方法只能是關鍵字索引的補充,在用戶有需求的情況下進行。
解決概覽目前,業(yè)界提出一種解決移動設備檢索數(shù)字圖書館的新方法,該方法主要基于輕型文檔匹配的新算法。該快速評價算法在移動設備上計算非常高效,而且僅需極小的數(shù)據(jù)結構。該算法的具體處理過程主要是首先做一個預處理過程,根據(jù)圖書館中的文檔生成一組數(shù)據(jù)結構,該數(shù)據(jù)結構包含了每篇文檔的本地字典和具有惟一關鍵字的全局字典,該數(shù)據(jù)字典中主要包括了每篇文檔的文檔標題、關鍵字、特定標簽內(nèi)容的提取,以及出現(xiàn)頻率最高的單詞,該數(shù)據(jù)結構的數(shù)據(jù)量較小,當用戶瀏覽數(shù)字圖書館時,直接緩存到移動設備中,當用戶利用關鍵字查找資源時,直接利用提取出的關鍵字和數(shù)字圖書館中的文檔作比較,這樣就保證了過程的高速性,預處理步驟如圖1所示。
圖1 匹配預處理圖 接下來,需要一個在線的匹配計算過程,找到用戶檢索的相關文檔。這一個過程其實就是一個文檔相似度的計算問題,即求取兩篇文章之間的相似程度的數(shù)值。因為兩篇文章相似度越高,則表明兩篇文章越有可能是同一類型。首先要做的一個工作是特征向量的選取,大部分數(shù)字圖書館采用的是中文分詞機制,即先把文本切分為關鍵詞序列,再進行信息處理。把經(jīng)過處理之后得到的關鍵詞進行停用詞的處理,即把各種標點符號、漢語中最常用的虛詞,包括介詞、連詞、助詞和嘆詞作為停用詞,這些處理后的關鍵詞構成了文本的特征向量。接下來。多采用基于空間向量模型(VSM)的文本進行分類,文本的特征向量與各類代表向量的夾角是決定文檔歸屬的重要依據(jù),這些夾角的余弦被稱為“相似度”。上述過程相對是一個比較傳統(tǒng)的處理方式,而針對移動設備未必適用。而目前的對本地文檔與輸入文檔的相關量度的評價算法是利用匹配成功的單詞數(shù)作為基礎分,然后再抬高權重的單詞加分。其中文章題目、特定域的標簽在匹配單詞成功的過程中優(yōu)先得到加分。在線處理過程如圖2所示。
圖2 在線處理過程圖 該檢索的具體工作方法分為前后端兩部分,后端生成能保證匹配器正常工作的數(shù)據(jù)結構部分,主要就是將與文本相關的內(nèi)容利用一種XML風格的標記語言進行描述,并呈現(xiàn)給最終用戶。具體派生出的數(shù)據(jù)結構包括兩部分:(1)本地字典主要包含了與特定文檔相關的內(nèi)容,一般每篇文檔被賦予10個關鍵字,但是這些單詞并不是惟一的,同一個詞可以出現(xiàn)在多個文檔中。(2)全局字典是經(jīng)過合并后的內(nèi)容,它包含了與所有文檔相關的單詞,這組單詞是惟一的。完整的XML格式的文件包括了本地字典和附加的屬性信息,譬如文檔的標題以及某些特定應用的屬性比如結構標識。最終的全局字典加上一個包含本地字典和附加屬性的提取文件,就是用來評價新文檔的標準。前端處理過程主要是接收用戶的輸入,最終產(chǎn)生與之匹配的排好序的文檔。這一過程的前提保證是新文檔的單詞與全局字典的單詞完全匹配,而且全局字典的單詞要指向存儲文檔的本地字典。在檢索匹配過程中,每篇本地文檔都有一個基礎分值,就是該文檔關鍵字在新文檔中出現(xiàn)的個數(shù),對于出現(xiàn)在題目或特殊標簽(產(chǎn)品或發(fā)行號)中的匹配單詞有額外的加分,給其加上等同于它權重的分數(shù)單詞權重為1/num,num是包含了該單詞的本地文檔的數(shù)量,最終使用哈希表完成即時查詢。該數(shù)字圖書館新檢索方式的特點在于單詞加分算法非常簡單,而且匹配機制具有較大的透明性,特定關鍵字在匹配文檔檢索時的作用一目了然。其次,該索引使用了精確地同義詞匹配,根本沒有文本特征向量的復雜求解過程,檢索效果明顯高效。整個索引排除文檔頻率的索引,這一點極大地降低了復雜性存儲需求,縮小化的索引作為整個匹配過程的基礎,省去了所有需要的計算,非常適合數(shù)字圖書館的移動設備檢索。
3 檢索系統(tǒng)擴展伴隨著數(shù)字圖書館檢索技術的迅速發(fā)展,同時也帶來了“信息爆炸”的問題,即信息較大豐富而只是相對匱乏。在數(shù)字圖書館大量、異質(zhì)的信息資源中,蘊含有巨大潛在價值的知識,這就是數(shù)字圖書館信息挖掘技術。信息挖掘是數(shù)據(jù)挖掘的分支,它能夠幫助用戶從大量的信息中迅速發(fā)現(xiàn)對自己有用的信息,并在一定程度上揭示信息與信息的關聯(lián)。針對移動用戶對數(shù)字圖書館檢索的更深入需求,目前業(yè)界提出一種基于復雜網(wǎng)絡二分網(wǎng)絡的聚類推薦檢索機制,該方法是上述數(shù)字圖書館輕型文檔檢索的良好補充,它主要針對需要關聯(lián)分析與文本挖掘的用戶。用圖論的語言來描述,一個網(wǎng)絡可以抽象為一個由節(jié)點的集合V和邊集E組成的圖G=(V,E)。節(jié)點數(shù)記為N=V,邊數(shù)記為M=E。E中每條邊都有V中一對點與之相對應。對于數(shù)字圖書館系統(tǒng)而言,點集指的是一個個獨立的圖書和閱讀者,而邊集就是圖書與閱讀者之間的鏈接,一個圖書系統(tǒng)的這些大量信息被提取出來就構成了一個完整的復雜網(wǎng)絡。該復雜網(wǎng)絡同時具備了一個顯著的特點,該網(wǎng)絡由兩類節(jié)點以及兩類節(jié)點之間的連邊組成,同類節(jié)點之間不存在連邊,U代表閱讀者,B代表書籍,這樣的網(wǎng)絡在復雜網(wǎng)絡中被稱為二分網(wǎng)絡,如圖3所示。數(shù)字圖書館借閱圖書節(jié)點呈現(xiàn)出若干個“群”或“團”的結構,二分網(wǎng)絡稱之為社團結構。通過數(shù)字圖書館后臺服務器的運行計算,可以挖掘出“群”或“團”的特點,它們就是給用戶提供系統(tǒng)推薦的依據(jù)。
圖3 高校圖書借閱系統(tǒng)二分網(wǎng)絡示圖 目前,國內(nèi)外眾多劃分二分網(wǎng)絡社團結構的算法被設計出來,主要包括凝聚算法、分裂算法,搜索算法及其他算法4大類。國內(nèi)的學者考慮到計算復雜度及效率等問題,提出直接基于原始二分網(wǎng)絡進行社團劃分的算法,該方法首先準確的把握了二分網(wǎng)絡社團結構的根本信息,提出二分網(wǎng)絡社團結構的比較性定義,這個定義允許社團之間存在重疊,并定義了在二分網(wǎng)絡中頂點與社團之間的作用力。接下來,在不引進額外參數(shù)的情況下,設計了針對二分網(wǎng)絡社團結構定義的算法,算法主要應用于探測社團結構明顯的人工網(wǎng),譬如,該算法應用于經(jīng)濟物理科學家與文章網(wǎng)絡中,它是一個具有777個科學家和818篇文章的二分網(wǎng)絡,算法首先找到這個網(wǎng)絡的最大連通子集,該子集中任何兩個點都是連通的,然后經(jīng)過頂點10次移動,對科學家這類頂點進行聚類,發(fā)現(xiàn)38個社團,對文章這類頂點進行聚類,劃分出社團53個,這個算法具有較高的準確度,可以比較準確地對網(wǎng)絡進行聚類,其結果可以為數(shù)字圖書館的用戶提供較可靠的檢索推薦內(nèi)容。
4 結束語基于移動設備的數(shù)字圖書館瀏覽業(yè)務的開展,為圖書館的發(fā)展注入了強大的生命力,與此同時也改變了傳統(tǒng)的圖書管理工作思維模式,但該項工作卻存在著諸多挑戰(zhàn)。目前的數(shù)字圖書館普遍關注于提供海量的數(shù)字資源,而忽略了基于移動設備的檢索和推薦等功能的具體開發(fā)。文章針對這一實際問題,介紹了輕型文檔匹配檢索技術,它與“傳統(tǒng)”文檔匹配有著本質(zhì)的區(qū)別,“傳統(tǒng)”文檔匹配需要計算復雜的距離度量,“傳統(tǒng)”文檔匹配用到的主要是全文索引技術,它對文檔參考的數(shù)量、單詞匹配的計算量及存儲需求提出過高的要求,在不限資源的前提下,它的效果會更好,但對于利用移動設備瀏覽數(shù)字圖書館的用戶,利用輕型文檔匹配可以更快的檢索圖書信息。另外,文章將二分網(wǎng)絡聚類與數(shù)字圖書館檢索緊密的聯(lián)系在一起,這也是數(shù)字圖書館深入發(fā)展的一個趨勢,就是加強數(shù)字圖書館的后臺數(shù)據(jù)管理與分析處理能力,帶給用戶更加實用的個性化檢索體驗。
參考文獻
[1]李亞子.跨數(shù)字圖書館檢索關鍵技術研究[J].圖書館雜志,2010,(5):65-70.
[2]申飛駒.基于XML的數(shù)字圖書館檢索技術研究[J].現(xiàn)代情報,2010,(7):97-98.
[3]唐吉深.圖書館數(shù)據(jù)挖掘技術研究現(xiàn)狀述評[J].圖書館界,2011,(1):42-44.
[4]劉振義.高等教育統(tǒng)計中圖書統(tǒng)計問題探析[J].圖書館建設,2011,(5):70-72.
[5]涂軍,曹鵬.數(shù)字圖書館中基于本體的語義檢索模型研究[J].情報雜志,2012,(7):191-194.
[6]吳亞晶,張鵬,狄增如,等.二分網(wǎng)絡研究[J].復雜系統(tǒng)與復雜性科學,2010,7(1):1-12.
[7]李曉佳,張鵬,狄增如,等.復雜網(wǎng)絡中的社團結構[J].復雜系統(tǒng)與復雜性科學,2008,5(3):19-42.
(本文責任編輯:馬 卓)