張錫椿
(溫州醫(yī)學(xué)院圖書館,浙江 溫州 325037)
上世紀(jì)90年代以來,全國興起了一股興建大學(xué)城或者高教園區(qū)的熱潮,這一方面標(biāo)志著我國高等教育從精英教育向大眾化教育的轉(zhuǎn)變;另一方面也提高了高等教育的辦學(xué)效益,優(yōu)化了教育資源的合理配置。大學(xué)城或者高教園區(qū)通常是由一所或多所大學(xué)為核心,整合其他高校后形成具有整體功能、擴(kuò)散效益的高素質(zhì)人才教育社區(qū),園區(qū)內(nèi)各高校既獨(dú)立辦學(xué)又合作共享。
隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,文獻(xiàn)信息資源的傳播載體和渠道日益多樣化,利用成本和難度也相應(yīng)增加。大學(xué)城和高教園區(qū)的建設(shè),在地域環(huán)境和管理體制上為文獻(xiàn)信息資源的共建共享提供了有利條件。而高校圖書館集中了高校教學(xué)與科研所需的絕大部分學(xué)術(shù)資源與文獻(xiàn)信息資源,是主要的信息資源集散地。如何有效地利用自動(dòng)化、數(shù)字化、網(wǎng)絡(luò)化的高科技工具和資源,提高文獻(xiàn)信息資源的共享率,是當(dāng)前高教園區(qū)圖書館建設(shè)中面臨的一個(gè)重大問題,是亟待解決并將產(chǎn)生社會(huì)效益的新課題。
高教園區(qū)圖書館信息資源共建共享是指各高校圖書館利用園區(qū)的地域和環(huán)境優(yōu)勢,本著“優(yōu)勢互補(bǔ)、互通有無”的理念,在資源建設(shè)、管理和利用等方面進(jìn)行合作,從而達(dá)到以較少較合理地投入而能更全面、有效地為園區(qū)內(nèi)所有師生提供信息資源服務(wù),以保障教學(xué)和科研的信息需求。
目前,大多數(shù)城市的高教園區(qū)還處在建設(shè)與完善階段,園區(qū)內(nèi)各學(xué)校圖書館的信息資源共建共享模式還在探討與實(shí)踐過程中,歸納起來,主要存在以下幾個(gè)亟待解決的問題:1.1 管理體制問題。隨著我國高等教育改革的深入,現(xiàn)階段各高校面臨著各種各樣的壓力與挑戰(zhàn),比如教育部組織的本科教學(xué)評估等,對各高校的文獻(xiàn)資源都有硬性規(guī)定,如果沒有滿足這些條件,將對各高校產(chǎn)生極大的影響,包括學(xué)校的地位和知名度、教育部或地方政府的經(jīng)費(fèi)投入額度、學(xué)生招生人數(shù)等等,因此在現(xiàn)行條件下讓各高校完全放棄自己長期形成的館藏是不太現(xiàn)實(shí)的。
1.2 觀念意識(shí)問題。長期以來各高校圖書館由于受傳統(tǒng)圖書館“以藏為主”思想的影響,基本采取自給自足的“農(nóng)耕式”文獻(xiàn)資源建設(shè)方式,造成了“只希望共享而不愿意共建”的不合理現(xiàn)象,資源共建意識(shí)淡薄,只重視本單位文獻(xiàn)信息資源的建設(shè)與發(fā)展,而忽視園區(qū)整體上的協(xié)調(diào)與合作。
1.3 組織協(xié)調(diào)問題??v觀溫州地區(qū)的高教園區(qū),雖然各高校處于同一個(gè)地域,但各高校行政隸屬不盡相同,又缺乏一個(gè)權(quán)威性的組織機(jī)構(gòu)進(jìn)行總體的宏觀管理和統(tǒng)籌規(guī)劃,使得校際之間缺乏有效的溝通與協(xié)調(diào),反映在文獻(xiàn)信息資源共建共享上就是“各自為政,重復(fù)建設(shè)”。
1.4 標(biāo)準(zhǔn)規(guī)范問題。當(dāng)前,我國圖書館文獻(xiàn)信息資源的標(biāo)準(zhǔn)化和規(guī)范化進(jìn)程緩慢,缺乏全國統(tǒng)一的分類、著錄、標(biāo)引和檢索標(biāo)準(zhǔn)以及計(jì)算機(jī)系統(tǒng)規(guī)劃,各館根據(jù)自身發(fā)展的需要購置了不同的自動(dòng)化系統(tǒng),導(dǎo)致各單位、各系統(tǒng)之間的數(shù)據(jù)資源難以共享。同時(shí),各高校圖書館受到經(jīng)費(fèi)、人員、技術(shù)等各種客觀條件的影響和制約,自動(dòng)化的程度和規(guī)模也相差很大,很難組織起區(qū)域性的系統(tǒng)間網(wǎng)絡(luò)信息服務(wù)。
數(shù)據(jù)挖掘(DataMining,DM)是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他各種信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程,是知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。簡而言之,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。它融合了信息檢索、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化以及數(shù)據(jù)庫技術(shù)等多個(gè)領(lǐng)域的理論和技術(shù),是信息技術(shù)產(chǎn)業(yè)最有發(fā)展前途的交叉學(xué)科之一。
數(shù)據(jù)挖掘任務(wù)可分為兩類:描述和預(yù)測。描述性挖掘是指描述要挖掘數(shù)據(jù)的一般性質(zhì)及“可信性”度量。預(yù)測性挖掘是指通過對當(dāng)前數(shù)據(jù)進(jìn)行推斷與分析,以作出預(yù)測及可行性度量。
數(shù)據(jù)挖掘的原始數(shù)據(jù)既可以是結(jié)構(gòu)化的,如對象——關(guān)系數(shù)據(jù)庫和面向特殊應(yīng)用的數(shù)據(jù)庫;也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像及多媒體數(shù)據(jù)庫;還可以是非結(jié)構(gòu)化的,如萬維網(wǎng)或局域網(wǎng)上的新聞、郵件、文件、Web日志等。
數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、可實(shí)用和多檢索這3個(gè)特征:①“先未知”性是指該信息是事先未曾預(yù)料到的,或者僅有模糊印象的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的甚至是違背直覺的信息或知識(shí)。②“可實(shí)用”性是指該信息可以給人們的某種決策提供相對有用的參考與建議,也有可能與原先決策相反。③“多檢索”是指該信息有一定的表達(dá)模式和用戶界面,可供個(gè)人或機(jī)構(gòu)多方面自由檢索。
數(shù)據(jù)挖掘所用的數(shù)據(jù)分析方法可粗分為統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別和數(shù)據(jù)倉庫等5種方法。其中應(yīng)用很廣泛的是關(guān)聯(lián)規(guī)則分析法和決策樹分析法以及基于密度的方法。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)分析方法,結(jié)合各方法的優(yōu)缺點(diǎn),以達(dá)到最大限度最準(zhǔn)預(yù)測地發(fā)現(xiàn)知識(shí)。
基于數(shù)據(jù)挖掘技術(shù)的高教園區(qū)信息資源共建共享即以圖書館自動(dòng)化集成系統(tǒng)為基礎(chǔ),以讀者使用數(shù)據(jù)以及其他網(wǎng)絡(luò)相關(guān)數(shù)據(jù)為研究對象,將這些原始數(shù)據(jù)提取并集成化,然后建立模型進(jìn)行加工和分析,挖掘出潛在的、有用的、可理解的信息和知識(shí),用來指導(dǎo)圖書館日常工作及決策工作。
信息資源共建共享的基礎(chǔ)和前提是“共建”,只有園區(qū)各高校全心全意地參與信息資源共建,才能更有效地實(shí)現(xiàn)資源“共享”,否則到頭來只會(huì)是一句空話。信息資源的共建,牽涉到園區(qū)各高校的自身利益,沒有哪所大學(xué)能接受“不公平”的共建,也沒有哪所大學(xué)能無私地共建,而數(shù)據(jù)挖掘技術(shù)可以對各高校讀者的使用情況及分類資源的利用率作出預(yù)測和評估,以堅(jiān)強(qiáng)的數(shù)據(jù)基礎(chǔ)為各高校在資源共建上的決策提供支持與參考。
用此方法來處理信息,易于綜合分析讀者的使用情況,對圖書館信息資源共建共享模式的有效建立有指導(dǎo)意義。在實(shí)際應(yīng)用中,圖書館采用數(shù)據(jù)挖掘技術(shù)的目的是搜集、分析高教園區(qū)各高校文獻(xiàn)資源的利用情報(bào),并把每個(gè)高校的情報(bào)綜合起來,然后采取統(tǒng)計(jì)分析、技術(shù)群組、文本挖掘、組合理論等技術(shù),對其進(jìn)行綜合分析及評估,并以統(tǒng)計(jì)圖譜、關(guān)聯(lián)圖譜和技術(shù)報(bào)告等形式展現(xiàn)出來。
數(shù)據(jù)挖掘一般需要經(jīng)歷以下6個(gè)階段:原始數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)整合、建立分析模型、數(shù)據(jù)挖掘操作、知識(shí)表達(dá)和解釋,如圖1所示。
現(xiàn)階段,高教園區(qū)文獻(xiàn)信息資源共建共享采用的較為合理的做法是:以各高校圖書館本身具有的館藏為基礎(chǔ),各館對今后新收藏的文獻(xiàn)信息資源實(shí)行統(tǒng)一采購、統(tǒng)一加工和統(tǒng)一配置。各成員館要統(tǒng)籌規(guī)劃,分類收藏相關(guān)文獻(xiàn),重點(diǎn)收藏本校重點(diǎn)學(xué)科及重點(diǎn)發(fā)展學(xué)科的文獻(xiàn),在經(jīng)費(fèi)允許的情況下,適當(dāng)收藏本校師生使用率較高的非專業(yè)文獻(xiàn),以達(dá)到較高的經(jīng)費(fèi)使用性價(jià)比和共享滿足程度。
3.1 原始數(shù)據(jù)提取。以各高校圖書館自動(dòng)化集成系統(tǒng)的數(shù)據(jù)作為主要數(shù)據(jù)源,輔之以數(shù)據(jù)庫使用數(shù)據(jù)及Web頁面、文本等其他類型的數(shù)據(jù),這是數(shù)據(jù)挖掘技術(shù)的前提。
3.2 數(shù)據(jù)預(yù)處理。原始數(shù)據(jù)由于其本身的復(fù)雜性及無關(guān)聯(lián)性,并不能被直接使用,否則數(shù)據(jù)挖掘得到的分析結(jié)果質(zhì)量將難以得到保障,所以數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。數(shù)據(jù)預(yù)處理主要是處理數(shù)據(jù)中的遺漏,避免有噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,并對臟數(shù)據(jù)進(jìn)行清洗。
3.3 數(shù)據(jù)整合。與傳統(tǒng)的分析方法相比,數(shù)據(jù)挖掘技術(shù)是一種更高級的分析過程。而未經(jīng)預(yù)處理過的數(shù)據(jù),并不能直接使用,必須通過各種轉(zhuǎn)換方法轉(zhuǎn)換成數(shù)據(jù)挖掘可以使用的有效數(shù)據(jù)形式。數(shù)據(jù)整合就是根據(jù)分析需求,通過算法將原始數(shù)據(jù)預(yù)處理后形成的新數(shù)據(jù)經(jīng)過融合和集成,重新構(gòu)建一個(gè)數(shù)據(jù)全面、準(zhǔn)確而又合乎分析需求的數(shù)據(jù)庫過程。在此基礎(chǔ)上,再對數(shù)據(jù)進(jìn)行分析處理,得到結(jié)果的分析層次及質(zhì)量將大大提高。
3.4 建立分析模型。數(shù)據(jù)經(jīng)過整合后,就是用數(shù)據(jù)挖掘工具讀入數(shù)據(jù)并從中構(gòu)造出一個(gè)有效的分析模型,并在數(shù)據(jù)集中選出部分?jǐn)?shù)據(jù)對模型進(jìn)行測試驗(yàn)證,根據(jù)驗(yàn)證結(jié)果對模型進(jìn)行評估,反復(fù)對模型進(jìn)行修改,直至找到最有利于此種數(shù)據(jù)挖掘的模型。分析模型類型各異,根據(jù)所用數(shù)據(jù)挖掘工具的不同,也會(huì)有很大的差別。
3.5 數(shù)據(jù)挖掘操作。做好上述準(zhǔn)備工作后,將進(jìn)入最重要的一環(huán):利用選好的數(shù)據(jù)挖掘工具在數(shù)據(jù)中挖掘知識(shí)。這個(gè)過程可以自動(dòng)化,由系統(tǒng)根據(jù)數(shù)據(jù)自行發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以人工化,加入用戶交互過程,根據(jù)分析人員的假設(shè),搜索數(shù)據(jù)來驗(yàn)證假設(shè)的正確性。
3.5.1 館藏量與學(xué)科分類關(guān)系(如圖2所示)。在保持各高校原有館藏不變的情況下,圖書館新館藏要與本校的學(xué)科設(shè)置相關(guān)聯(lián)。
3.5.2 讀者興趣點(diǎn)分析。學(xué)科館藏是各高校圖書館的立館之本,各館都在各自的范圍內(nèi)盡量多藏,以滿足師生的學(xué)科需求。在此基礎(chǔ)上,各高校讀者的興趣愛好也不盡相同,可根據(jù)挖掘出的信息配置相應(yīng)的館藏。
3.5.3 讀者借閱規(guī)律分析。高校讀者的圖書借閱都有一個(gè)時(shí)間段,如果是學(xué)科圖書,讀者會(huì)集中在某個(gè)時(shí)間來借閱,這就要進(jìn)行分析,才能進(jìn)行最佳調(diào)配。如在一定時(shí)間段可從其他高校“借用”某種或某類館藏,以滿足讀者的臨時(shí)需求。
3.5.4 借閱習(xí)慣關(guān)聯(lián)分析(如表1所示)。目的是找出各高校讀者中隱藏的有趣的閱讀習(xí)慣關(guān)聯(lián)網(wǎng),用來指導(dǎo)資源共建工作,重點(diǎn)配置讀者感興趣的圖書,以有限的經(jīng)費(fèi)發(fā)揮最大的功用。具體操作方法包括關(guān)聯(lián)矩陣和關(guān)聯(lián)圖。
表1 讀者對某些圖書需求的最優(yōu)模糊矩陣
3.6 知識(shí)表達(dá)和解釋。根據(jù)最終用戶的決策目標(biāo),將分析結(jié)果以用戶容易理解的方式(圖和表)把挖掘到的最有價(jià)值的知識(shí)呈現(xiàn)出來,并且提交給圖書館決策者和個(gè)人,使之可以洞察讀者的動(dòng)態(tài),為圖書館日常業(yè)務(wù)工作提供參考。
數(shù)據(jù)挖掘技術(shù)是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),在各個(gè)領(lǐng)域得到了廣泛應(yīng)用,取得了很好的社會(huì)效益。筆者將數(shù)據(jù)挖掘技術(shù)引入高教園區(qū)信息資源共建共享過程當(dāng)中,從各種不同的數(shù)據(jù)來源中,挖掘出有用的知識(shí),使之幫助圖書館決策者調(diào)整館藏策略,有效地進(jìn)行資源共建,更好地實(shí)現(xiàn)資源共享。但是任何一種方法都不可能解決所有問題,基于數(shù)據(jù)挖掘技術(shù)的高教園區(qū)信息資源共建共享的方法還存在著一定的難題和局限,還有待進(jìn)一步研究。
[1] 魯黎明.高教園區(qū)文獻(xiàn)信息資源共建共享模式研探.圖書館理論與實(shí)踐,2005(2):91-92.
[2] 金勝勇,于淼.基于共建共享的文獻(xiàn)信息資源建設(shè)理論構(gòu)建.中國圖書館學(xué)報(bào),2006(4):72-75.
[3] 黃修齡.大學(xué)城環(huán)境下圖書館信息資源建設(shè)的理念與實(shí)踐模式.圖書情報(bào)知識(shí),2004(1):45-46.
[4] 羅玉英.大學(xué)城圖書館實(shí)現(xiàn)資源共建共享的對策.圖書館雜志,2006(10):50-51.
[5] 危薇,陳如好.試論大學(xué)城高校文獻(xiàn)信息資源共建共享體系的功能與模式.情報(bào)探索,2007(4):34-36.
[6] 王桂芹,黃道.數(shù)據(jù)挖掘技術(shù)綜述.電腦應(yīng)用技術(shù),2007(2):9-14.
[7]JiaweiHan,MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù).北京:機(jī)械工業(yè)出版社,2007.
[8] 高巨山,仲偉佇.高校數(shù)字圖書館構(gòu)建中的數(shù)據(jù)挖掘應(yīng)用研究.中國教育信息化,2008(3):81-82.
[9] 潘小楓.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館建設(shè)中的運(yùn)用.圖書館理論與實(shí)踐,2006(4):105-106.
[10] 牛根義.國內(nèi)圖書館數(shù)據(jù)挖掘研究.現(xiàn)代情報(bào),2009(1):128-133.