喻正紅
湖南工程學(xué)院,湖南 湘潭 411104
數(shù)據(jù)挖掘技術(shù)在圖書館借閱記錄中的應(yīng)用研究綜述*
喻正紅
湖南工程學(xué)院,湖南湘潭411104
摘要:圖書館是信息文獻服務(wù)中心,為讀者提供服務(wù)是圖書館的目的;而數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用,就是通過數(shù)據(jù)分析提取出讀者具有一定共性的需求,從而把它作為選擇購買數(shù)字、紙質(zhì)資源,向讀者開展個性化服務(wù)等工作的指導(dǎo)標(biāo)準(zhǔn),為讀者提供更好的優(yōu)質(zhì)服務(wù)。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;借閱記錄;研究綜述
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘可以定義為:從大量的、不完全的、隨機的、有噪聲的數(shù)據(jù)庫中,提取隱含著的那些預(yù)先不知道的并且對人們潛在有用的信息和知識的過程。主要包括以下四個層次的含義:
(一)數(shù)據(jù)的來源必須真實,數(shù)據(jù)量要大并且包含噪聲;
(二)發(fā)現(xiàn)的是用戶感興趣的知識;
(三)知識可以被理解和應(yīng)用,可以用自然語言來表達;
(四)知識是有特定前提和約束條件,是相對的應(yīng)用于特定領(lǐng)域。
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,把潛在的、有用的信息和規(guī)律提取出來,為決策提供信息支持。
二、數(shù)據(jù)挖掘在國內(nèi)外的研究現(xiàn)狀
數(shù)據(jù)挖掘是一門新興的科學(xué),蘊含廣泛,各個學(xué)科都在進行研究。1989年8月舉行了第一屆國際聯(lián)合人工智能會議,數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)的概念在該次會議上被提出。目前專家們認(rèn)為數(shù)據(jù)庫的本質(zhì)不只限于查詢,查詢只是眾多應(yīng)用中的一個工具,深層次發(fā)掘其中的信息知識才是數(shù)據(jù)庫的本質(zhì)所在。把數(shù)據(jù)庫作為信息源的中心,建立共享平臺可以使數(shù)據(jù)庫技術(shù)加速發(fā)展。正是基于這些原因,在需求的驅(qū)動下,很多專家學(xué)者將重點面向數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究[1]。
從上世紀(jì)90年代開始,國內(nèi)就已開始數(shù)據(jù)挖掘的研究,發(fā)展也十分迅速。數(shù)據(jù)挖掘研究人員主要集中于國內(nèi)高校,其主要研究方面為:模糊方法在知識發(fā)現(xiàn)中的應(yīng)用、數(shù)據(jù)立方體代數(shù)、關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造、知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用等,這個時期理論方面的研究占了絕大部分。可以實際應(yīng)用的成果寥寥無幾。其中有兩個著名的應(yīng)用:第一個是上個世紀(jì)九十年代初,寶鋼公司為了解決鋼板生產(chǎn)問題,引入了當(dāng)時國際上成熟的SAS公司的技術(shù)解決方案,開創(chuàng)了國內(nèi)第一個數(shù)據(jù)挖掘項目:提高鋼板質(zhì)量用來造船,該項目的實施大大提升了寶鋼在同行業(yè)的競爭力,帶來了巨大的經(jīng)濟效益和社會效益[3]。第二個是鐵道運輸部為了緩解春運期間鐵路運輸?shù)膲毫?,利用?shù)據(jù)挖掘工具,對春運期間的鐵路客流量進行了分析和研究,從中挖掘出關(guān)鍵信息用來指導(dǎo)鐵路運輸[1,3]。
三、數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用
用數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館管理工作,國外做了很多研究工作。美國許多大學(xué)圖書館人員聯(lián)合本校計算機專業(yè)人員,已經(jīng)做了一些實際的應(yīng)用。比如芝加哥大學(xué)圖書館研究院的Swansan等一直在從事認(rèn)知科學(xué)文獻內(nèi)容管理的研究[1]。美國圖書館與信息技術(shù)聯(lián)合會的多位著名專家在1999年的討論會上,就己經(jīng)把向讀者進行個性化服務(wù)推薦作為以后圖書館發(fā)展技術(shù)的重要研究方向[2,3]。
數(shù)據(jù)挖掘應(yīng)用于國內(nèi)圖書館的研究在近幾年才開始。由于數(shù)據(jù)挖掘是一門剛剛起步的技術(shù),它在數(shù)據(jù)庫和信息決策領(lǐng)域的研究成果還不是很多。僅有高校中的一些圖書館研究人員和計算機專業(yè)人員從事了少量的工作,他們的研究重點集中于研究數(shù)據(jù)挖掘在圖書館個性化信息服務(wù)推薦方面。
理論方面,從2000年開始,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書館個性化服務(wù)方面的研究逐年增加,已成為近幾年的研究熱點。這些文章探討了數(shù)據(jù)挖掘在圖書館信息服務(wù)中的應(yīng)用,揭示了個性化信息服務(wù)在圖書館中的作用和發(fā)展趨勢。研究內(nèi)容包括數(shù)據(jù)推送技術(shù)、個性化信息服務(wù)的概念與內(nèi)涵、個性化信息服務(wù)的模式、個性化信息服務(wù)的特點、以及個性化信息服務(wù)發(fā)展對策及展望等。
實踐方面,個性化信息推送服務(wù)已受到越來越多高校圖書館的重視。國內(nèi)知名高校如浙江大學(xué)、人民大學(xué)等圖書館都著手于個性化信息推送服務(wù)[1];浙江大學(xué)圖書館系統(tǒng)將館藏的各種電子資源和網(wǎng)絡(luò)資源二次加工以后,系統(tǒng)主動向讀者推送信息,主要功能有:定制圖書館各種網(wǎng)絡(luò)資源和本地數(shù)字資源,用戶可以把常用的數(shù)據(jù)庫放在定制頁面上以方便檢索,允許讀者挑選幾個常用Web頁面的URL地址放入書簽。用戶可根據(jù)自己的需要來點擊國內(nèi)外著名圖書館的鏈接地址[1]。
在圖書館使用者行為模式研究方面,西南大學(xué)陳文老師對讀者社群關(guān)系利用數(shù)據(jù)挖掘技術(shù)進行了摸索,詳細(xì)介紹了對讀者分類的方法;關(guān)聯(lián)規(guī)則算法方面,東南大學(xué)的周蓓有深入的研究并開發(fā)了應(yīng)用的產(chǎn)品;此外,其他研究人員將數(shù)據(jù)挖掘在數(shù)字圖書館方面的應(yīng)用進行了理論研究。
基于我國的具體國情和文化背景的差異,數(shù)據(jù)挖掘技術(shù)在國內(nèi)的應(yīng)用還缺少具體的實現(xiàn)環(huán)境,大多數(shù)學(xué)者把研究重點放在對技術(shù)和概念的介紹等方面,即國內(nèi)學(xué)者關(guān)于數(shù)據(jù)挖掘理論研究較多,對數(shù)據(jù)挖掘應(yīng)用系統(tǒng)和算法測試的研究方面較少,特別是數(shù)據(jù)挖掘在圖書館讀者借閱記錄中的應(yīng)用研究,目前還沒有具體的實踐案例,學(xué)術(shù)性較強,應(yīng)用的實例較少,特別是能在各圖書館間推廣的應(yīng)用實例[1]。
四、結(jié)語
湖南工程學(xué)院圖書館從2000年實行計算機管理以來,圖書管理系統(tǒng)包含了大量館藏文獻信息和讀者借閱記錄信息,這些業(yè)務(wù)數(shù)據(jù)的使用范圍僅限于檢索和查詢以及簡單的數(shù)據(jù)統(tǒng)計,沒有對這些館藏數(shù)據(jù)作進一步的研究,這些蘊含在館藏數(shù)據(jù)中的模式和規(guī)律沒有被發(fā)現(xiàn)和利用。我館紙本圖書有130多萬冊,如果讀者對圖書館的檢索系統(tǒng)功能不熟悉,讀者想要快速、準(zhǔn)確的找到自己所需要的文獻信息資源是比較困難的。流通子系統(tǒng)中,讀者的借閱記錄每天都有新的數(shù)據(jù)產(chǎn)生,讀者借閱記錄的信息對于讀者的信息需求是真實可靠的,因此對讀者借閱記錄進行數(shù)據(jù)挖掘,可以較好掌握每個讀者的借閱興趣、愛好和需求,其中所包含的那些讀者和圖書館互動的歷史記錄對于我們提供個性化的信息推送服務(wù)是不可或缺的資源,如果我們能把這些有意義的信息挖掘出來,能幫助我們熟悉讀者的文獻信息需求,主動對讀者進行資源推送,提高圖書館文獻信息資源的利用率和個性化服務(wù)水平。
[參考文獻]
[1]王斌.數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用研究[D].西安理工大學(xué),2010.
[2]李宏運.關(guān)聯(lián)規(guī)則挖掘在圖書館管理中的應(yīng)用[D].華東師范大學(xué),2009.
[3]付開遠(yuǎn).數(shù)據(jù)挖掘在高校圖書館個性化信息服務(wù)中的應(yīng)用研究[D].貴州大學(xué),2010.
中圖分類號:TP311.13
文獻標(biāo)識碼:A
文章編號:1006-0049-(2016)10-0040-01
* 2014年度湖南省高等學(xué)校科學(xué)研究項目(基金編號:14C0294)。