金 梅
(安徽農(nóng)業(yè)大學(xué)圖書館,安徽 合肥 230036)
隨著網(wǎng)絡(luò)技術(shù)和信息科學(xué)的飛速發(fā)展,圖書館參考咨詢的形式和內(nèi)容都發(fā)生了根本性的改變,虛擬參考咨詢應(yīng)運(yùn)而生。現(xiàn)代高校圖書館既有書籍典藏,也存儲(chǔ)了龐大的數(shù)字資源,同時(shí)學(xué)科之間交叉重疊的關(guān)系日益復(fù)雜。因此,如何提供高質(zhì)量的虛擬參考咨詢服務(wù)是所有圖書館面臨的一個(gè)棘手問題。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)處理技術(shù),能有效的處理和分析海量的數(shù)據(jù),使參考咨詢提供的信息服務(wù)更加實(shí)時(shí)、動(dòng)態(tài)、高效,有效地解決了當(dāng)前圖書館“信息豐富而知識(shí)貧乏”的問題。
參考咨詢工作是圖書館傳統(tǒng)核心服務(wù)之一,它的服務(wù)質(zhì)量和水平是現(xiàn)代圖書館核心競(jìng)爭(zhēng)力的一個(gè)重要指標(biāo)。在現(xiàn)代通信技術(shù)與網(wǎng)絡(luò)技術(shù)普遍應(yīng)用的條件下,虛擬參考咨詢(virtual reference)逐漸顯示出它獨(dú)特的風(fēng)格和魅力。虛擬參考咨詢打破了傳統(tǒng)參考咨詢?cè)跁r(shí)間和空間上的限制,即咨詢員不受地域、時(shí)間的限制,實(shí)時(shí)解答讀者提出的問題,從而使讀者能夠及時(shí)得到問題的答案,內(nèi)容涉及館藏資源及其利用、文獻(xiàn)查找途徑及查找中遇到的問題、圖書館的各項(xiàng)服務(wù)與規(guī)則等等。
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題。數(shù)據(jù)挖掘有很多的定義,比較普遍的一種是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者做出正確的決策。
數(shù)據(jù)挖掘的流程在應(yīng)用于不同領(lǐng)域時(shí)會(huì)有所變化,因此要結(jié)合具體領(lǐng)域和知識(shí)、根據(jù)不同數(shù)據(jù)挖掘技術(shù)、針對(duì)不同問題的要求確定具體流程。比較普適的數(shù)據(jù)挖掘流程如下:理解數(shù)據(jù)和數(shù)據(jù)的來源;獲取相關(guān)知識(shí)與技術(shù);整合與檢查數(shù)據(jù);去除錯(cuò)誤或不一致的數(shù)據(jù);建立模型和假設(shè);實(shí)際數(shù)據(jù)挖掘工作;測(cè)試和驗(yàn)證挖掘結(jié)果;解釋和應(yīng)用。
數(shù)據(jù)挖掘的方法研究融合了若干不同學(xué)科領(lǐng)域的技術(shù)與成果,從而表現(xiàn)出來非富多彩的形式。
圖書館為了給讀者提供更多、更新的信息資源,大量引進(jìn)中外文數(shù)據(jù)庫。如中外文期刊數(shù)據(jù)庫、學(xué)位論文數(shù)據(jù)庫、引文統(tǒng)計(jì)分析庫、學(xué)術(shù)會(huì)議論文數(shù)據(jù)庫等。但是不同的數(shù)據(jù)庫的標(biāo)準(zhǔn)很難完全統(tǒng)一,從而給讀者查詢、閱讀和利用帶來了一定的困難,也使圖書館參考咨詢服務(wù)人員的服務(wù)質(zhì)量不高,工作效率低下。
傳統(tǒng)的參考咨詢只能從表層提供一些比較單一、無關(guān)聯(lián)的結(jié)果。而數(shù)據(jù)挖掘技術(shù)利用統(tǒng)計(jì)學(xué)中的抽樣、估計(jì)和假設(shè)檢驗(yàn),人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論,以及最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索等思想和方法,有效地組織和檢索信息,從而提高圖書館虛擬咨詢服務(wù)的質(zhì)量。
現(xiàn)代的數(shù)字資源和文獻(xiàn)資源非常豐富、內(nèi)容涉及各個(gè)互相交叉的學(xué)科,面對(duì)諸多媒體、各種形式和格式的大量無序的信息資源,要檢索、分析、優(yōu)化組合出用戶滿意的咨詢結(jié)果比較困難,這時(shí)就可以利用數(shù)字挖掘技術(shù)對(duì)資源進(jìn)行準(zhǔn)確的描述、自動(dòng)采集、整理組織、歸類,實(shí)現(xiàn)對(duì)查詢問題的全面深層解答。
由于各數(shù)字資源相互獨(dú)立、有自己獨(dú)特的表現(xiàn)和存儲(chǔ)標(biāo)準(zhǔn),因此需要采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和組織形式,將各種數(shù)據(jù)庫、電子資源庫、網(wǎng)絡(luò)信息等異構(gòu)的數(shù)字化信息資源進(jìn)行規(guī)范和儲(chǔ)存。這種整合的和統(tǒng)一的資源能夠更快速、更高效的對(duì)用戶的檢索進(jìn)行反應(yīng)。
圖書館的建設(shè)趨于數(shù)字化、虛擬化,參考咨詢服務(wù)不再僅是簡(jiǎn)單讓用戶自己訪問放在數(shù)據(jù)庫中的數(shù)字化信息資源,而是要根據(jù)用戶需求及
對(duì)信息資源訪問的習(xí)慣和歷史,能動(dòng)的為用戶提供服務(wù)。數(shù)據(jù)挖掘技術(shù)可以對(duì)用戶訪問信息、使用信息進(jìn)行挖掘,在數(shù)字對(duì)象和用戶、對(duì)象分類和主題之間進(jìn)行模式匹配,采用不同挖掘技術(shù)從而確定個(gè)性化服務(wù)內(nèi)容,提高為用戶參考咨詢服務(wù)的自動(dòng)化水平。同時(shí)結(jié)合用戶對(duì)資源的需求方向、類別的不同和需求量的大小,有針對(duì)性、合理的配置圖書館信息資源,滿足用戶的需求。
圖書館信息資源中,有陳舊冗雜的,也有新興有用的。但在圖書館的粗放服務(wù)模式下,往往圖書館對(duì)數(shù)字資源存儲(chǔ)和利用情況無法精確地的了解。利用數(shù)據(jù)挖掘技術(shù),通過分析圖書館的資源引進(jìn)和使用情況和用戶的信息行為,從不同的角度反映資源的需求及資源使用的規(guī)律,可以為圖書館的管理層提供決策支持,為圖書館信息資源采集的改進(jìn)和圖書館資源結(jié)構(gòu)的改善提供科學(xué)依據(jù)。
圖書館的信息資源浩如煙海,用戶在虛擬參考咨詢服務(wù)中提出的信息需求也越來越不局限于信息線索或參考數(shù)據(jù)的獲取,而更追求獲取濃縮專深的全面深層解答。數(shù)據(jù)挖掘在數(shù)據(jù)組織、分析和知識(shí)發(fā)現(xiàn)及信息深層挖掘等方面有強(qiáng)大優(yōu)勢(shì)。因此,將數(shù)據(jù)挖掘應(yīng)用于虛擬參考咨詢工作,使圖書館在數(shù)字資源的組織和管理、服務(wù)質(zhì)量的提升和服務(wù)方式的拓展上有了質(zhì)的飛躍,有效地解決了當(dāng)前圖書館“信息豐富而知識(shí)貧乏”的問題。在信息技術(shù)飛速發(fā)展的當(dāng)今社會(huì),我們有理由相信,數(shù)據(jù)挖掘技術(shù)、方法和工具也會(huì)不斷發(fā)展和進(jìn)步。
[1]孫達(dá)辰.時(shí)態(tài)數(shù)據(jù)挖掘在圖書館參考咨詢工作中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2011年第21卷第25期.
[2]林曉霞.網(wǎng)絡(luò)知識(shí)挖掘在數(shù)字參考咨詢中的實(shí)現(xiàn)[J].情報(bào)資料工作,2006年第2期.
[3]曹占偉,王桂平.數(shù)據(jù)挖掘技術(shù)在數(shù)字參考咨詢中的應(yīng)用淺析[J].科技信息,2008年第24期
[4]謝含,謝漫.數(shù)據(jù)挖掘—未來圖書館參考咨詢工作的新方法[J].高校圖書館工作,2006年第1期
[5]饒媛.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館參考咨詢服務(wù)[J].計(jì)算機(jī)與網(wǎng)絡(luò).