徐暉 武漢商學(xué)院圖書(shū)館
引言:圖書(shū)館對(duì)于每個(gè)大學(xué)來(lái)說(shuō)都是重要的知識(shí)寶庫(kù),每個(gè)在校的學(xué)生都可以通過(guò)在圖書(shū)館的學(xué)校來(lái)獲得進(jìn)步。因此,圖書(shū)館建設(shè)的好壞關(guān)系著萬(wàn)千學(xué)子的成長(zhǎng)與發(fā)展。面對(duì)日新月異的科學(xué)技術(shù),線上的數(shù)字圖書(shū)館也逐漸進(jìn)入人們的視線。同時(shí),大學(xué)生是對(duì)新興事物的接受能力是最強(qiáng)的,已經(jīng)有很多大學(xué)生通過(guò)線上圖書(shū)館進(jìn)行學(xué)習(xí)查找資料。因此,數(shù)字圖書(shū)館項(xiàng)目的建設(shè)也越來(lái)越重要,對(duì)其中的各種圖書(shū)資源也需要合理的進(jìn)行歸類(lèi)和分類(lèi)。這就需要關(guān)聯(lián)數(shù)的數(shù)字圖書(shū)館資源聚合方法,并且對(duì)服務(wù)系統(tǒng)進(jìn)行合理的設(shè)計(jì)。提高用戶(hù)的體驗(yàn)感受,優(yōu)化數(shù)字資源的合理利用,提高資源的利用率,擴(kuò)大圖書(shū)的使用效率,這一直是我國(guó)的數(shù)字圖書(shū)館所追求的目標(biāo),同時(shí)也是當(dāng)前對(duì)于數(shù)字圖書(shū)館資源聚合研究的熱點(diǎn)問(wèn)題。
當(dāng)今世界,各國(guó)各方面的現(xiàn)代化建設(shè)規(guī)模不斷擴(kuò)大,在我國(guó)亦是如此。不僅是在工程建筑領(lǐng)規(guī)模擴(kuò)大,在信息科技方面的進(jìn)展也是日新月異的,特別是對(duì)待科學(xué)教育方面,更是走在前列。因此,對(duì)于數(shù)字圖書(shū)館資源聚合與服務(wù)設(shè)計(jì)領(lǐng)域的研究也越來(lái)越重視。同時(shí)還有用到很多關(guān)聯(lián)數(shù)據(jù),通過(guò)對(duì)這些信息數(shù)據(jù)進(jìn)行整合優(yōu)化,可以建立起一個(gè)優(yōu)化的模擬模型,為下一步的建設(shè)工作提供客觀的信息。
隨著科技的發(fā)展,各行各業(yè)的信息化程度逐步提升,信息化也已成為當(dāng)今社會(huì)的一個(gè)主要特征。社會(huì)中的各行各業(yè)都因網(wǎng)絡(luò)技術(shù)和智能電子技術(shù)的應(yīng)用而得到更好的發(fā)展。對(duì)于高校的教育事業(yè)也不例外?,F(xiàn)在網(wǎng)絡(luò)信息技術(shù)和數(shù)據(jù)檢索技術(shù)水平越來(lái)越高,對(duì)于各大高校中的數(shù)字圖書(shū)館建設(shè)也帶來(lái)了巨大的好處和便利。
國(guó)外對(duì)于圖書(shū)館的智能化信息模型的建設(shè)和應(yīng)用起步較早。由于國(guó)際形式變化越來(lái)越快,各個(gè)的教育問(wèn)題也因此受到了很大的關(guān)注。例如教育的普及率,教育資源的利用率,學(xué)生的成就等一系列問(wèn)題。因此,學(xué)生的教育問(wèn)題是一個(gè)重要的問(wèn)題。國(guó)外對(duì)于各種教育資源的利用率一直處于較高的行列。對(duì)于圖書(shū)館的資源聚合與服務(wù)設(shè)計(jì),國(guó)外一些學(xué)者聚焦于復(fù)合圖書(shū)館的研究,這個(gè)符合圖書(shū)館的原理是通過(guò)統(tǒng)一的界面來(lái)為用戶(hù)提供多樣化的服務(wù),并且可以提高資源的利用率,另外這個(gè)認(rèn)證的網(wǎng)關(guān)也是唯一的。即可以保證資源的安全性和重復(fù)性,不會(huì)被外界所干擾,是處于一種安全的模式之下,保障了數(shù)字圖書(shū)館龐大數(shù)據(jù)庫(kù)的安全性。
我國(guó)的大多研究均是從數(shù)字聚合資源模型的定義這個(gè)角度出發(fā),構(gòu)建出適合各種類(lèi)型數(shù)字圖書(shū)館。目前,可以在管理領(lǐng)域建立合適數(shù)據(jù)信息模型,利用數(shù)據(jù)信息模型技術(shù)進(jìn)行項(xiàng)目成本優(yōu)化等探索?;诖?,對(duì)我國(guó)已經(jīng)建設(shè)成功的數(shù)字圖書(shū)館進(jìn)行評(píng)估和成本計(jì)算。將合適的服務(wù)設(shè)計(jì)導(dǎo)入新的數(shù)據(jù)信息模型庫(kù)中,利用程序方程得出成本的預(yù)算流程,從而達(dá)到節(jié)約成本的目的。另外,還可以進(jìn)行基于成本預(yù)算流程對(duì)整個(gè)項(xiàng)目系統(tǒng)的軟件框架設(shè)計(jì)和功能設(shè)計(jì),為數(shù)據(jù)信息模型在成本預(yù)算方面的應(yīng)用提供了進(jìn)一步研究提供基礎(chǔ)。
現(xiàn)階段,相比于國(guó)外數(shù)字圖書(shū)館建設(shè)的研究狀況,我國(guó)是仍是處于落后狀態(tài)的。但是,我們的研究是在一定方向和基礎(chǔ)上開(kāi)展的,進(jìn)行了針對(duì)性的研究。從關(guān)聯(lián)數(shù)據(jù)的信息管理的角度,利用大量的時(shí)間來(lái)分析各種具有不同特點(diǎn)的資源聚合,進(jìn)而可以指出目前國(guó)內(nèi)存在的數(shù)字圖書(shū)館信息模型的優(yōu)點(diǎn)和不足,通過(guò)信息集成的方法,將優(yōu)點(diǎn)繼續(xù)發(fā)揚(yáng),對(duì)缺點(diǎn)進(jìn)行優(yōu)化改進(jìn)。
對(duì)于關(guān)聯(lián)數(shù)據(jù)是一種大型模型設(shè)計(jì)?;诖说膮f(xié)同信息推薦的主要工作和關(guān)鍵點(diǎn)在于觀察大多數(shù)用戶(hù)經(jīng)常檢索的數(shù)字資源,得到客戶(hù)需求的規(guī)律,并對(duì)查找內(nèi)容進(jìn)行資源評(píng)價(jià)。隨后,可以利用大數(shù)據(jù)庫(kù)對(duì)近期所被查找的內(nèi)容進(jìn)行總結(jié),再進(jìn)行數(shù)據(jù)的錄入和輸出。
此處推薦的模型是采用比較的方法來(lái)對(duì)用戶(hù)之間的相似度評(píng)價(jià)進(jìn)行計(jì)算。基礎(chǔ)此,我們選用皮爾森相關(guān)相似性計(jì)算法,用戶(hù)i和j對(duì)項(xiàng)目C的評(píng)分是用ri,C和ij,C來(lái)表示的,用戶(hù)j對(duì)共同評(píng)分過(guò)的項(xiàng)目的平均評(píng)分用ij來(lái)表示,而用戶(hù)i和j對(duì)項(xiàng)目評(píng)分平方的平均值用ri2和ij2;來(lái)表示,則用戶(hù)i和用戶(hù)j之間的相似性Sim(i,j)的計(jì)算公式如下:
根據(jù)上述皮爾森相關(guān)相似性的計(jì)算公式,對(duì)所有用戶(hù)與當(dāng)前用戶(hù)U的相似性進(jìn)行具體計(jì)算,這些計(jì)算出來(lái)的結(jié)果就構(gòu)成了當(dāng)前用戶(hù)U的最近鄰居集合,如下表達(dá)式所示:
其中 sim (u,uk) 這樣一輪下來(lái),先對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分進(jìn)行排序,選擇預(yù)測(cè)評(píng)分最高的n項(xiàng)目并將其推薦給用戶(hù),這一過(guò)程就是TOP-N推薦。 數(shù)字圖書(shū)數(shù)字資源聚合方法是多種多樣的,針對(duì)不同的圖書(shū)館類(lèi)型有著不用的聚合方法。在進(jìn)行計(jì)算和模擬的時(shí)候,需要根據(jù)所屬的條件進(jìn)行二次篩選,以便選到合適的類(lèi)型,在此,我們列舉了一些常用那個(gè)數(shù)字資源聚合方法,以供參考: (1)基于OPAC系統(tǒng)的數(shù)字資源聚合; (2)基于跨庫(kù)檢索、異構(gòu)數(shù)據(jù)源的數(shù)字資源聚合; (3)基于數(shù)字資源導(dǎo)航的聚合; (4)基于鏈接導(dǎo)航的數(shù)字資源聚合。 我們所處的時(shí)代是一個(gè)信息化的時(shí)代,生活中的各個(gè)環(huán)節(jié)都離不開(kāi)信息的推送,可以說(shuō)如果失去了信息,那么就像失去了雙眼一樣。各種各樣的信息推送組成如今信息化的世界。同時(shí),個(gè)性化的信息推送了隨之而來(lái)。而在數(shù)字圖書(shū)館中,我們也可以進(jìn)行個(gè)性化的信息推送。因此,在數(shù)字圖書(shū)館中,對(duì)于數(shù)據(jù)的管理運(yùn)用是非常重要的一個(gè)環(huán)節(jié)。如何對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行整合歸類(lèi),關(guān)系著個(gè)性化信息推送的命脈。在日常的資源利用中,資源的聚合可以擴(kuò)大資源的利用率,同時(shí)我們可以通過(guò)對(duì)關(guān)聯(lián)數(shù)據(jù)的整合,了解用戶(hù)最新的需要和最想找到的資源有哪些,從而可以的主動(dòng)地向用戶(hù)或讀者提供其所需的數(shù)字資源及相關(guān)檢索意見(jiàn)。更為重要的是,對(duì)于用戶(hù)搜索的內(nèi)容,可以進(jìn)行一定的定位追蹤,然后就可以為用戶(hù)提供一些解決問(wèn)題的方法和一些特定服務(wù),這些就是關(guān)聯(lián)數(shù)據(jù)和資源聚合而實(shí)現(xiàn)對(duì)讀者的服務(wù)設(shè)計(jì)內(nèi)容。 由于共同出現(xiàn)的查詢(xún)?cè)~具有某種程度的語(yǔ)義相似性,如果能夠?qū)Σ樵?xún)的相似度進(jìn)行定量計(jì)算,則可通過(guò)數(shù)值反映出查詢(xún)?cè)~之間的語(yǔ)義聯(lián)系。因此,為了體現(xiàn)查詢(xún)?cè)~之間關(guān)系,首先需要對(duì)查詢(xún)條目進(jìn)行分詞處理。 進(jìn)行標(biāo)準(zhǔn)化之前,應(yīng)該統(tǒng)計(jì)查詢(xún)?cè)~的出現(xiàn)頻率,在所有 詢(xún)?cè)~中確定了a個(gè)待選核心查詢(xún)?cè)~,這樣能把日志條目中的所有查詢(xún)?cè)~按照a個(gè)待選核心 詢(xún)?cè)~按按主題進(jìn)行查詢(xún)?cè)~的相似度分析,一定程度上保證相似度計(jì)算的準(zhǔn)確性。接著按某種屬性對(duì)a個(gè)核心查詢(xún)?cè)~分成P類(lèi),然后確定o/p個(gè)核心查詢(xún)?cè)~。每個(gè)核心查詢(xún)?cè)~可以代表同一屬性的查詢(xún)?cè)~集合,對(duì)于每個(gè)集合而言,不是所有的核心查詢(xún)?cè)~的共現(xiàn) 詢(xún)?cè)~都適合做后續(xù)處理,比如一些與其它查詢(xún)?cè)~共現(xiàn)頻率不高,原則是根據(jù)該查詢(xún)?cè)~的頻率以及共現(xiàn)頻率。經(jīng)過(guò)上述處理,可以得到反應(yīng)不同屬性的查詢(xún)?cè)~集合。例如,有四個(gè)查詢(xún)條目(A,B,C,D),(A,C,D),(B,C,D,E,F),(D,E,F(xiàn)),則可構(gòu)造出如下所示的6*6對(duì)稱(chēng)矩陣 W(i,j): 在該矩陣中,Wij表示第i個(gè)查詢(xún)?cè)~與第j個(gè)查詢(xún)?cè)~一起出現(xiàn)的頻率。我們需要將基于共現(xiàn)頻率的相似矩陣轉(zhuǎn)化為基于共現(xiàn)頻率的標(biāo)準(zhǔn)化相似矩陣。現(xiàn)有多種轉(zhuǎn)化公式,本文采用相似距離公式,如下所示, 其中有2個(gè)參數(shù)n和k。n表示可視化空間的維度,一般情況下,n取2或3。k只能取正整數(shù)。當(dāng)k=l時(shí),表示兩個(gè)點(diǎn)上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距總和;當(dāng)k=2時(shí),公式1變?yōu)闅W氏距離公式,它能測(cè)量在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離;當(dāng)k趨近正無(wú)窮時(shí),變?yōu)榇_界距離。公式2中的參數(shù)c為非0的正小數(shù)。當(dāng)01時(shí),S (X,y)值處于(0,1)之間,C越小,S (x, y)的值越趨近1;當(dāng)0 本文是從關(guān)聯(lián)數(shù)據(jù)的角度,介紹數(shù)字圖書(shū)館的資源聚合和服務(wù)設(shè)計(jì)等方面。研究了國(guó)內(nèi)外對(duì)于數(shù)字圖書(shū)館的研究方向。在基于關(guān)聯(lián)數(shù)據(jù)、資源聚合、服務(wù)設(shè)計(jì)等思維標(biāo)準(zhǔn)下描述了數(shù)字圖書(shū)館的一個(gè)含義、原則和方法。首先介紹了數(shù)字圖書(shū)館研究的現(xiàn)狀、資源聚合概念、關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu),使對(duì)這個(gè)數(shù)字圖書(shū)館有一個(gè)具體的了解。同時(shí)介紹了一個(gè)資源聚合的模型實(shí)例,并可以從中檢索出有用的數(shù)據(jù)信息,從而進(jìn)一步使數(shù)字圖書(shū)館得到更好的應(yīng)用和發(fā)揮,使數(shù)字圖書(shū)館的使用率、重復(fù)率和資源利用率等功能更好的展現(xiàn)出來(lái)。數(shù)字圖書(shū)館對(duì)學(xué)校的教育事業(yè)的發(fā)展是功不可沒(méi)的,在提高學(xué)生學(xué)習(xí)查閱資料速度和學(xué)習(xí)效率的同時(shí),還能節(jié)約各方面的成本,提高學(xué)生的積極性,可操作性和便捷性。針對(duì)各個(gè)方面存在的問(wèn)題都可以及時(shí)的進(jìn)行預(yù)測(cè)和優(yōu)化調(diào)整。以后的研究和發(fā)展可以向更多有效的數(shù)據(jù)信息的獲取方面進(jìn)行探究,爭(zhēng)取獲得更精準(zhǔn)詳細(xì)的數(shù)據(jù),建立起完善的數(shù)據(jù)庫(kù)系統(tǒng),為日后數(shù)字圖書(shū)館信息模型的建立打下良好的基礎(chǔ)。2.2 數(shù)字圖書(shū)數(shù)字資源聚合方法
3 基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書(shū)館創(chuàng)新服務(wù)
3.1 基于關(guān)聯(lián)數(shù)據(jù)的信息個(gè)性定制與推送
3.2 數(shù)字圖書(shū)館數(shù)據(jù)格式標(biāo)準(zhǔn)化
4 結(jié)束語(yǔ)