任佩劍
摘 要:隨著圖書(shū)館事業(yè)的不斷發(fā)展,如何更好的提高用戶(hù)對(duì)圖書(shū)館資源的使用率,如何更好地、有針對(duì)性的為讀者提供服務(wù),已經(jīng)成為圖書(shū)館今后發(fā)展中所面臨的具體任務(wù)。應(yīng)用數(shù)據(jù)挖掘技術(shù)將為圖書(shū)館的管理工作和個(gè)性化服務(wù)提供有效的技術(shù)支持,它可以從表面龐雜無(wú)序的數(shù)據(jù)中提取出重要的,可供參考的信息。
關(guān)鍵詞:信息檢索;教學(xué)改革
隨著高校信息化的建設(shè),為了給老師和學(xué)生提供更好的服務(wù),在圖書(shū)館中可以使用數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,它通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律,幫助用戶(hù)做出正確的決策。因此,我們可以在圖書(shū)館的日常工作和各項(xiàng)信息服務(wù)中使用數(shù)據(jù)挖掘技術(shù),將這些分散的信息整合起來(lái),找出聯(lián)系并充分利用,來(lái)為圖書(shū)館管理者做出正確的決策提供幫助。
一、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘是通過(guò)一定的數(shù)據(jù)挖掘算法從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有效的、有用的知識(shí)的過(guò)程,是知識(shí)發(fā)現(xiàn)過(guò)程中的一個(gè)步驟。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。
(二)數(shù)據(jù)挖掘的過(guò)程。(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備將會(huì)直接影響到數(shù)據(jù)挖掘的效率,在這個(gè)階段主要完成數(shù)據(jù)采集、數(shù)據(jù)的預(yù)處理工作。(2)數(shù)據(jù)挖掘。對(duì)經(jīng)過(guò)數(shù)據(jù)準(zhǔn)備階段之后所得到的數(shù)據(jù),利用選定的數(shù)據(jù)挖掘工具和方法進(jìn)行挖掘,用選定的算法或算法組合在模型空間中進(jìn)行反復(fù)迭代搜索,從數(shù)據(jù)集中抽取出隱藏的、新穎的模式和知識(shí)。在數(shù)據(jù)挖掘過(guò)程中需要不斷的進(jìn)行人機(jī)交互,以期得到更加符合實(shí)際情況的模式和知識(shí)。(3)結(jié)果表述和解釋。根據(jù)系統(tǒng)的目的和需求,對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行分析,將最具價(jià)值的信息加以區(qū)分并提交給決策者。
二、數(shù)據(jù)挖掘中的幾種重要算法
(一)關(guān)聯(lián)規(guī)則算法。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。它在數(shù)據(jù)挖掘中是一個(gè)最重要、最成熟的課題,這種算法已經(jīng)被應(yīng)用到很多領(lǐng)域中。
關(guān)聯(lián)規(guī)則挖掘的一個(gè)典型例子是購(gòu)物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系,找出顧客購(gòu)買(mǎi)行為模式,如購(gòu)買(mǎi)了某一商品對(duì)購(gòu)買(mǎi)其他商品的影響。分析結(jié)果可以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購(gòu)買(mǎi)模式對(duì)用戶(hù)進(jìn)行分類(lèi)。
(二)聚類(lèi)分析。所謂聚類(lèi)分析是指將數(shù)據(jù)聚集成由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程,同一個(gè)類(lèi)中的對(duì)象有很大的相似性,而不同類(lèi)間的對(duì)象有很大的相異性。聚類(lèi)與分類(lèi)的不同在于,聚類(lèi)所要求劃分的類(lèi)是未知的。分類(lèi)是根據(jù)事先知道的數(shù)據(jù)特征將事物進(jìn)行分類(lèi),而聚類(lèi)分析則是要找到這個(gè)數(shù)據(jù)特征。
三、數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館中的應(yīng)用
(一)合理制定采購(gòu)計(jì)劃。隨著時(shí)間的推移,讀者對(duì)圖書(shū)館資源的需求在發(fā)生變化,因此圖書(shū)館的館藏資源也要與時(shí)俱進(jìn),進(jìn)行更新,圖書(shū)館必須不斷優(yōu)化館藏資源來(lái)滿足讀者的需求。如何采購(gòu)到讀者需要的圖書(shū),在館藏資源建設(shè)中起著決定性作用。一般圖書(shū)館在制定采購(gòu)計(jì)劃的時(shí)候主要采用以下兩種方法:(1)通過(guò)咨詢(xún)各專(zhuān)業(yè)教師,請(qǐng)他們列出有價(jià)值的圖書(shū),圖書(shū)館采購(gòu)人員據(jù)此來(lái)進(jìn)行采購(gòu)。(2)采購(gòu)人員根據(jù)自己的經(jīng)驗(yàn),自行制定采購(gòu)計(jì)劃。這兩種方式最大的問(wèn)題是主觀性強(qiáng),因此采購(gòu)回來(lái)的圖書(shū)很可能利用率不高,造成資源和資金的浪費(fèi)。
利用數(shù)據(jù)挖掘中的聚類(lèi)分析可以幫助分析人員從讀者的流通記錄中發(fā)現(xiàn)讀者對(duì)圖書(shū)的借閱情況,深入了解學(xué)科的走勢(shì)和讀者的需求,幫助采購(gòu)人員制定更加合理的采購(gòu)計(jì)劃,避免造成資源和資金的浪費(fèi)。
(二)優(yōu)化館藏資源。讀者在查詢(xún)書(shū)目和借閱圖書(shū)過(guò)程中會(huì)產(chǎn)生大量數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,可以獲知讀者對(duì)哪類(lèi)圖書(shū)更感興趣,在哪段時(shí)間借閱更頻繁,可以及時(shí)從圖書(shū)館中剔除舊的、使用較少的圖書(shū),不斷補(bǔ)充新的、需求量多的圖書(shū)資源。這樣可以使圖書(shū)館的館藏分配更加合理,更加科學(xué),優(yōu)化各類(lèi)圖書(shū)資源,減少冗余,節(jié)約資源,合理引導(dǎo)圖書(shū)館的建設(shè)。
(三)為讀者提供個(gè)性化服務(wù)。不同的讀者對(duì)資源的需求是不同的。讀者在借閱圖書(shū)過(guò)程中會(huì)留下大量的信息,如讀者的個(gè)人信息、借閱信息、歸還時(shí)間等,可以利用數(shù)據(jù)挖掘?qū)ψx者的借閱數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,挖掘出各專(zhuān)業(yè)、各年級(jí)層次、各職稱(chēng)的讀者對(duì)圖書(shū)館資源的需求情況,從而為讀者提供個(gè)性化服務(wù),例如,為讀者定制推薦服務(wù),以建議或指導(dǎo)讀者的借閱行為;閱讀量大的讀者,為其擴(kuò)大閱讀權(quán)限等。
總結(jié):總之,通過(guò)對(duì)圖書(shū)館中產(chǎn)生的大量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而使圖書(shū)館的館藏資源更加合理,提高資源利用率和讀者滿意度。另外,數(shù)字圖書(shū)館也是圖書(shū)館以后發(fā)展的一個(gè)方向,數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)組織、分析和知識(shí)發(fā)現(xiàn)等方面具有的巨大優(yōu)勢(shì)和潛力,使其在數(shù)字圖書(shū)館建設(shè)中將發(fā)揮重要作用。
參考文獻(xiàn):
[1] 賈輝.淺談數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中的應(yīng)用[J].經(jīng)濟(jì)研究導(dǎo)刊.2012(27).