唐吉深
(河池學(xué)院圖書(shū)館,廣西 宜州 546300)
20世紀(jì) 90年代以來(lái),數(shù)據(jù)挖掘技術(shù)已成為數(shù)據(jù)庫(kù)研究最活躍的分支之一。數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過(guò)程[1]。通過(guò)數(shù)據(jù)挖掘機(jī)器算法可以幫助決策者從海量的數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)隱藏其中有價(jià)值的關(guān)系和模式,從而對(duì)未來(lái)可能發(fā)生的行為進(jìn)行預(yù)測(cè)。
隨著圖書(shū)館網(wǎng)絡(luò)化、自動(dòng)化的普及,數(shù)據(jù)庫(kù)技術(shù)在圖書(shū)館的應(yīng)用中迅速發(fā)展。圖書(shū)館日常管理產(chǎn)生大量數(shù)據(jù),如:圖書(shū)館書(shū)目數(shù)據(jù)、讀者流通借還數(shù)據(jù)、書(shū)目檢索記錄、Web訪問(wèn)記錄等。采用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)加以挖掘分析,將對(duì)圖書(shū)館的采訪、流通、參考咨詢(xún)、數(shù)字圖書(shū)館建設(shè)等有著很強(qiáng)的指導(dǎo)作用。同時(shí)可為圖書(shū)館決策及開(kāi)展服務(wù)創(chuàng)新提供強(qiáng)有力的科學(xué)依據(jù)。
在國(guó)外,數(shù)據(jù)挖掘技術(shù)活躍于各行各業(yè),如加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開(kāi)發(fā)的SKICAT系統(tǒng),能夠幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類(lèi)星體;電子商務(wù)領(lǐng)域利用數(shù)據(jù)挖掘技術(shù)識(shí)別顧客的購(gòu)買(mǎi)行為;生物學(xué)研究領(lǐng)域用數(shù)據(jù)挖掘技術(shù)對(duì) DNA進(jìn)行分析;銀行利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶(hù)詐騙行為進(jìn)行預(yù)測(cè);IBM公司開(kāi)發(fā)的 AS(Advanced Scout)系統(tǒng)針對(duì) NBA的訓(xùn)練比賽數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合 ,等等[2]。
在 Thomson Reuters的 “Science Citation Index Expanded”數(shù)據(jù)庫(kù)中檢索有關(guān)數(shù)據(jù)挖掘技術(shù)及其在圖書(shū)館應(yīng)用方面的論文被 SCI收錄的情況,以“主題=(data mining)and入庫(kù)時(shí)間 =(2003—2009)”為檢索條件(簡(jiǎn)稱(chēng)檢索方式 1),得到 13 693條結(jié)果記錄;以“主題 =(data mining)and主題 =(library)and入庫(kù)時(shí)間 =(2003—2009)”為檢索條件(簡(jiǎn)稱(chēng)檢索方式 2),得到 27條結(jié)果記錄。按發(fā)表論文時(shí)間排列得到表 1(以上檢索時(shí)間為 2010年 5月 28日)。
SCI收錄的文章數(shù)量能夠反映某一問(wèn)題研究的熱度與創(chuàng)新程度。從表 1可以看出,2003—2009年間,SCI收錄數(shù)據(jù)挖掘技術(shù)方面的文章總計(jì) 13 693篇,且逐年遞增,呈明顯的上升趨勢(shì)。這表明國(guó)外學(xué)者在數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域相當(dāng)活躍,成果頗豐。而 SCI收錄數(shù)據(jù)挖掘在圖書(shū)館這一特定領(lǐng)域應(yīng)用的文章為 27篇,不及總量的 0.2%。這表明數(shù)據(jù)挖掘在圖書(shū)館領(lǐng)域的應(yīng)用相對(duì)較少,且高質(zhì)量的研究成果不多。
表1 國(guó)外數(shù)據(jù)挖掘論文被SCI收錄情況
在國(guó)內(nèi),數(shù)據(jù)挖掘技術(shù)應(yīng)用同樣廣泛,尤其以電子商務(wù)、電信等商業(yè)領(lǐng)域的應(yīng)用居多。國(guó)內(nèi)圖書(shū)館自引入基于數(shù)據(jù)庫(kù)的自動(dòng)化管理系統(tǒng)后,數(shù)據(jù)量劇增。海量數(shù)據(jù)蘊(yùn)藏著不菲的研究?jī)r(jià)值,但由于圖書(shū)館本身技術(shù)力量薄弱,往往只能憑借業(yè)務(wù)管理系統(tǒng)自帶的數(shù)據(jù)分析功能,對(duì)數(shù)據(jù)進(jìn)行諸如查詢(xún)、統(tǒng)計(jì)等表面化的分析。缺乏內(nèi)在的、深層次的問(wèn)題分析,其分析效果不盡理想。鑒于此,一些學(xué)者嘗試?yán)脭?shù)據(jù)挖掘這種新興技術(shù)來(lái)解決所面臨的問(wèn)題,以求服務(wù)質(zhì)量有所突破。
以下通過(guò)對(duì)中國(guó)知網(wǎng)“中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)”收錄的 2003—2009年間有關(guān)國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)在圖書(shū)館應(yīng)用研究方面的論文進(jìn)行定量、歸納分析,以展示其研究現(xiàn)狀。采用檢索條件式“主題 =(圖書(shū)館)并且主題 =(數(shù)據(jù)挖掘)并且時(shí)間 =(2003—2009)”進(jìn)行檢索,得到有效記錄 533條(以上檢索時(shí)間為 2010年 5月 28日)。
對(duì)上述檢索結(jié)果按照發(fā)表論文年代排列得到表2。從表 2可以看出,國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)在圖書(shū)館的應(yīng)用研究所發(fā)表的論文數(shù)量逐年遞增,且呈線(xiàn)性上升態(tài)勢(shì)。學(xué)者在這一領(lǐng)域的研究熱情持續(xù)升溫,數(shù)據(jù)挖掘技術(shù)在圖書(shū)館的應(yīng)用具有廣闊前景。
表2 國(guó)內(nèi)圖書(shū)館數(shù)據(jù)挖掘技術(shù)研究論文年代分布情況
533篇公開(kāi)發(fā)表的論文分布在省級(jí)以上的 56種刊物中,其中圖書(shū)館專(zhuān)業(yè)期刊 36種,共刊載論文 398篇,占總發(fā)表量的 74.7%。對(duì) 56種刊物按其刊載量進(jìn)行排序,選取前 10位得到表 3。從表 3可以看出,前 10種期刊共刊載論文 180篇,占總發(fā)表量的 33.8%,其中 7種期刊為中文核心刊物,刊載論文 135篇,占前10種期刊刊載量的 75%。這表明其研究成果主要集中在核心刊物,且學(xué)術(shù)成果價(jià)值較高,學(xué)者在這一領(lǐng)域的研究得到了圖情界主流的認(rèn)可。
表3 圖書(shū)館數(shù)據(jù)挖掘技術(shù)論文載文量前 10位的期刊
這些公開(kāi)發(fā)表論文的作者分散在 186個(gè)學(xué)術(shù)機(jī)構(gòu)中(其中高校 152個(gè)、其他機(jī)構(gòu) 34個(gè))。以機(jī)構(gòu)發(fā)表論文數(shù)量排序,選取前 10位得到表 4。從表 4可以看出,排在前 10位的機(jī)構(gòu)有 9個(gè)為高校,有 1個(gè)為科研所。有關(guān)這一領(lǐng)域研究的學(xué)者多數(shù)來(lái)自高校,公共圖書(shū)館在這一領(lǐng)域開(kāi)展的研究較少,其原因是高校在學(xué)術(shù)環(huán)境、實(shí)驗(yàn)設(shè)施、人力資源等方面較公共圖書(shū)館有優(yōu)勢(shì)。但筆者認(rèn)為公共圖書(shū)館擁有龐大的讀者群,且讀者層次不一,利用數(shù)據(jù)挖掘技術(shù)對(duì)讀者開(kāi)展個(gè)性化服務(wù)很有研究?jī)r(jià)值。由于高校對(duì)這一問(wèn)題研究相對(duì)活躍,公共圖書(shū)館可以嘗試與高校開(kāi)展合作研究,充分利用高校的優(yōu)勢(shì)資源,推進(jìn)數(shù)據(jù)挖掘技術(shù)在公共圖書(shū)館的應(yīng)用。
表4 國(guó)內(nèi)發(fā)表圖書(shū)館數(shù)據(jù)挖掘技術(shù)論文數(shù)量前 10位的機(jī)構(gòu)
對(duì)檢索到的 533篇論文,按照其在圖書(shū)館業(yè)務(wù)中的應(yīng)用范疇進(jìn)行分類(lèi)得到表 5。從表 5可以看出,有關(guān)讀者個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的論文居首,表明圖書(shū)館傾向于利用數(shù)據(jù)挖掘技術(shù)解決如何高效、高質(zhì)量地為讀者提供個(gè)性化服務(wù),最大限度滿(mǎn)足讀者需求的問(wèn)題。以下選取檢索結(jié)果論文中具有代表性主題的文章進(jìn)行歸納分析。
表5 發(fā)表論文研究范疇分類(lèi)
數(shù)據(jù)挖掘技術(shù)在讀者個(gè)性化服務(wù)中的應(yīng)用,主要表現(xiàn)為通過(guò)對(duì)讀者信息、讀者借閱和 Web使用記錄等進(jìn)行挖掘,建立讀者興趣模型,并根據(jù)模型對(duì)讀者開(kāi)展有針對(duì)性的服務(wù)。如:史艷梅“建立了一種 CMPS系統(tǒng)模型來(lái)獲取用戶(hù)興趣”[3];郭家義“探討數(shù)據(jù)挖掘技術(shù)在個(gè)性化檢索系統(tǒng)中的作用以及如何發(fā)現(xiàn)用戶(hù)興趣”[4];柳炳祥等“將粗糙集和模糊聚類(lèi)數(shù)據(jù)挖掘算法應(yīng)用到圖書(shū)館個(gè)性化服務(wù)中”[5];曹強(qiáng)“將數(shù)據(jù)挖掘技術(shù)與 RSS推送技術(shù)有機(jī)結(jié)合,設(shè)計(jì)、實(shí)現(xiàn)個(gè)性化信息服務(wù)模型”[6]。
數(shù)據(jù)挖掘技術(shù)在文獻(xiàn)采訪工作中的應(yīng)用,主要表現(xiàn)為通過(guò)對(duì)讀者信息、書(shū)目數(shù)據(jù)、讀者借閱數(shù)據(jù)、文獻(xiàn)檢索記錄等信息利用關(guān)聯(lián)分析、聚類(lèi)分析進(jìn)行挖掘,發(fā)現(xiàn)讀者與借閱讀書(shū)之間的關(guān)系、不同讀者群的借閱傾向及不同學(xué)科間的聯(lián)系等,以指導(dǎo)采訪員科學(xué)選書(shū)。如:遲春佳等“針對(duì)如何科學(xué)制訂高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃的問(wèn)題,提出了將數(shù)據(jù)挖掘技術(shù)用于高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃制定決策輔助的方法”[7];劉淑瑞“采用 k-means算法將讀者分為活躍讀者、一般讀者、較少讀者三類(lèi),并根據(jù)不同類(lèi)讀者的借閱興趣,調(diào)整采購(gòu)策略”[8];王伊蕾等“將數(shù)據(jù)挖掘技術(shù)與運(yùn)籌學(xué)相結(jié)合,提出了一種基于庫(kù)存理論的圖書(shū)訂購(gòu)策略”[9]。
數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館的應(yīng)用,主要表現(xiàn)為提供智能搜索引擎服務(wù)、圖書(shū)館 Web挖掘、多媒體數(shù)據(jù)挖掘、Web信息抽取等。如:鄒凱等“闡述了數(shù)據(jù)挖掘技術(shù)在智能搜索引擎服務(wù)中的個(gè)性化知識(shí)決策功能”[10];黎琳論述了“文本自動(dòng)摘要、文本分類(lèi)和文本聚類(lèi)等 Web內(nèi)容挖掘技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用”[11];張英等“介紹了圖像挖掘、視頻挖掘、音頻挖掘等多媒體挖掘方法,并提出了一種適合多媒體數(shù)據(jù)挖掘的系統(tǒng)框架”[12];宋玉忠“認(rèn)為Web數(shù)據(jù)抽取技術(shù)是 Web信息挖掘的關(guān)鍵,并提出了一種面向 XML描述的 Web數(shù)據(jù)抽取模型”[13]。
數(shù)據(jù)挖掘技術(shù)在參考咨詢(xún)工作中的作用,主要表現(xiàn)為利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱性知識(shí),以使館員在解答讀者咨詢(xún)問(wèn)題時(shí)更為客觀、全面。如:楊亞華“將知識(shí)管理、知識(shí)挖掘和參考咨詢(xún)服務(wù)有機(jī)結(jié)合,提出了一種新的參考咨詢(xún)服務(wù)體系結(jié)構(gòu)”[14]。
近年來(lái),隨著計(jì)算機(jī)技術(shù)及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種新技術(shù)不斷涌入圖書(shū)館,圖書(shū)館進(jìn)入 3.0時(shí)代,云計(jì)算、移動(dòng)閱讀將主導(dǎo)未來(lái)圖書(shū)館的發(fā)展方向。如何將數(shù)據(jù)挖掘技術(shù)與這些新技術(shù)融合,已成為亟待解決的問(wèn)題。筆者就新形勢(shì)下,數(shù)據(jù)挖掘技術(shù)在圖書(shū)館的應(yīng)用創(chuàng)新提出以下設(shè)想。
當(dāng)前,國(guó)外許多圖書(shū)館自動(dòng)化業(yè)務(wù)管理系統(tǒng)已整合了數(shù)據(jù)挖掘功能(如 Mylibrary系統(tǒng))。國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)在圖情界的研究相對(duì)活躍,但主要是針對(duì)如何利用的問(wèn)題在進(jìn)行探討,真正可操作性強(qiáng)、能夠指導(dǎo)實(shí)際業(yè)務(wù)的成熟產(chǎn)品很少,僅有少數(shù)大學(xué)圖書(shū)館自行開(kāi)發(fā)有供本館使用的個(gè)性化服務(wù)系統(tǒng),如中國(guó)人民大學(xué)開(kāi)發(fā)的 KBDL系統(tǒng)。由于圖書(shū)館一般技術(shù)力量比較薄弱,自主開(kāi)發(fā)數(shù)據(jù)挖掘系統(tǒng)困難較大。由專(zhuān)業(yè)公司開(kāi)發(fā)具有數(shù)據(jù)挖掘功能的圖書(shū)館自動(dòng)化業(yè)務(wù)管理系統(tǒng),在圖書(shū)館進(jìn)行推廣使用,將促進(jìn)數(shù)據(jù)挖掘技術(shù)在圖書(shū)館應(yīng)用的普及。
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展成熟及 3G手機(jī)的普及,移動(dòng)閱讀越來(lái)越受到讀者青睞。中國(guó)國(guó)家圖書(shū)館、重慶大學(xué)圖書(shū)館等率先推出手機(jī)圖書(shū)館 WAP網(wǎng)站,以滿(mǎn)足手機(jī)讀者用戶(hù)的需求。手機(jī)圖書(shū)館的推出大大便利了讀者,讀者足不出戶(hù)即可獲得圖書(shū)館的資源。如何為手機(jī)讀者開(kāi)展個(gè)性化服務(wù),將成為手機(jī)圖書(shū)館當(dāng)前面臨的巨大挑戰(zhàn)。圖書(shū)館可嘗試在手機(jī)圖書(shū)館 WAP網(wǎng)站后臺(tái)部署讀者興趣挖掘模型,通過(guò)模型對(duì)手機(jī)讀者的訪問(wèn)記錄及借閱情況進(jìn)行挖掘,找出讀者感興趣的資源。一旦發(fā)現(xiàn)圖書(shū)館有其感興趣的資源,就可利用模型推送技術(shù)向手機(jī)讀者發(fā)送短信告知。由此可見(jiàn),利用數(shù)據(jù)挖掘技術(shù)解決手機(jī)圖書(shū)館個(gè)性化服務(wù)具有可行性。
自 Google提出云計(jì)算框架以來(lái),云計(jì)算得到了廣泛的應(yīng)用。所謂“云圖書(shū)館”即“圖書(shū)館云”,這是建立在云計(jì)算模式下的一種服務(wù),是整個(gè)云計(jì)算模式架構(gòu)中的一個(gè)功能層,是互聯(lián)網(wǎng)上的一朵云[15]。由此可見(jiàn),云計(jì)算環(huán)境下,“云圖書(shū)館”本質(zhì)上是一種服務(wù),來(lái)自五湖四海的圖書(shū)館終端共享“云圖書(shū)館”的基礎(chǔ)設(shè)施,共同構(gòu)成一個(gè)存在于互聯(lián)網(wǎng)中的大型數(shù)據(jù)庫(kù)?!霸茍D書(shū)館”應(yīng)用數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)深層次的知識(shí),使“云圖書(shū)館”服務(wù)更具人性化。
基于數(shù)據(jù)挖掘思想,通過(guò)對(duì)國(guó)內(nèi)外學(xué)者公開(kāi)發(fā)表的有關(guān)圖書(shū)館數(shù)據(jù)挖掘應(yīng)用方面的論文進(jìn)行深層次分析,并對(duì)其未來(lái)發(fā)展方向進(jìn)行探討,以期能夠反映其發(fā)展軌跡與趨勢(shì),進(jìn)而推進(jìn)數(shù)據(jù)挖掘技術(shù)在圖書(shū)館的更廣泛應(yīng)用。
[1]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利電利出版社,2003:2.
[2]李菁菁,培 基,亦 瀟.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004(3):10—14.
[3]史艷梅.個(gè)性化服務(wù)中挖掘用戶(hù)興趣的 CMPS[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(3):85—87.
[4]郭家義.個(gè)性化檢索系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2003(8):93— 97.
[5]柳炳祥,鄧歡軍,高淑妍,等.基于數(shù)據(jù)挖掘的圖書(shū)館個(gè)性化服務(wù)系統(tǒng)[J].現(xiàn)代情報(bào),2007(3):108—109.
[6]曹 強(qiáng).圖書(shū)館個(gè)性化信息服務(wù)模型的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)雜志,2007(4):80— 83.
[7]遲春佳,毛志勇.基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃輔助決策研究[J].現(xiàn)代情報(bào),2007,29(7):108—110.
[8]劉淑瑞,秦文珍,張 聰.基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)館采購(gòu)管理研究[J].重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,29(1):110—112.
[9]王伊蕾,李 濤,王福生,等.一種基于庫(kù)存理論的圖書(shū)訂購(gòu)策略[J].情報(bào)科學(xué),2008,26(5):698—700.
[10]鄒 凱,汪全莉.智能搜索引擎與數(shù)字圖書(shū)館個(gè)性化服務(wù)[J].情報(bào)科學(xué),2004,22(7):874— 877.
[11]黎 琳,趙 英.Web內(nèi)容挖掘在數(shù)字圖書(shū)館中的應(yīng)用[J].圖書(shū)館學(xué)研究,2006(2):19—21.
[12]張 英,趙艷君.數(shù)字圖書(shū)館中多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法[J].數(shù)字圖書(shū)館技術(shù)論壇,2008(1):92—94.
[13]宋玉忠.Web抽取技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用[J].四川圖書(shū)館學(xué)報(bào),2009,3(169):46— 49.
[14]楊亞華.基于知識(shí)管理與知識(shí)挖掘中的參考咨詢(xún)服務(wù)探討[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007,17(29):28—30.
[15]致齋主.云圖書(shū)館就是圖書(shū)館云[EB/OL].[2009-09-24].http://www.linhq.net/archives/48.