摘要:大學(xué)圖書(shū)館在日常的圖書(shū)流通中會(huì)產(chǎn)生大量的讀者服務(wù)數(shù)據(jù),這些流通數(shù)據(jù)能夠客觀反映不同讀者閱讀習(xí)慣、讀書(shū)興趣等方面的規(guī)律和特點(diǎn)。數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則、聚類分析、分類和預(yù)測(cè)分析等方法對(duì)發(fā)現(xiàn)和挖掘這些規(guī)律和模式有著獨(dú)特的優(yōu)勢(shì)。把這些技術(shù)應(yīng)用在圖書(shū)管理中,可以發(fā)現(xiàn)圖書(shū)流通環(huán)節(jié)隱藏的潛在規(guī)律,提高圖書(shū)流通效率。同時(shí)為領(lǐng)導(dǎo)決策、館藏圖書(shū)配置以及文獻(xiàn)結(jié)構(gòu)體系建設(shè)提供科學(xué)的指導(dǎo)。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 圖書(shū)管理 技術(shù)分析方法
中圖分類號(hào):G251文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2012)09(b)-0254-02
1 數(shù)據(jù)挖掘
隨著各行業(yè)事務(wù)處理的計(jì)算機(jī)化,我們產(chǎn)生和收集數(shù)據(jù)的能力正在迅速提高。我們已經(jīng)被各種數(shù)據(jù)所淹沒(méi),如科研數(shù)據(jù)、商業(yè)數(shù)據(jù)、氣象數(shù)據(jù)、居民日常消費(fèi)數(shù)據(jù)、圖書(shū)借還歷史數(shù)據(jù)……我們沒(méi)有時(shí)間和精力把這些數(shù)據(jù)逐個(gè)查看。用什么手段來(lái)處理和應(yīng)付這些數(shù)據(jù)已經(jīng)成為我們當(dāng)前的興趣所在,因此我們就必須找到一套行之有效的辦法,來(lái)對(duì)這些數(shù)據(jù)實(shí)現(xiàn)自動(dòng)分類、分析和匯總,自動(dòng)地發(fā)現(xiàn)和描述數(shù)據(jù)中的規(guī)律和趨勢(shì),并發(fā)現(xiàn)和標(biāo)記數(shù)據(jù)的異常情況。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)和發(fā)展,為我們提供了解決這一問(wèn)題的有效方法。
數(shù)據(jù)挖掘是將隱含的、尚不為人所知的、同時(shí)又是潛在的信息從數(shù)據(jù)中提取出來(lái),建立計(jì)算機(jī)程序,自動(dòng)在數(shù)據(jù)庫(kù)中掃描,以發(fā)現(xiàn)規(guī)律或者模式,即找出數(shù)據(jù)中的模式或規(guī)律的過(guò)程。這個(gè)過(guò)程是自動(dòng)的或半自動(dòng)的,數(shù)據(jù)的總量通常是相當(dāng)可觀的,同時(shí)從中發(fā)現(xiàn)的模式或規(guī)律需要是有意義的,并且能產(chǎn)生一定的效益。
數(shù)據(jù)挖掘通常又稱為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn),是方便地提取代表知識(shí)的模式或規(guī)律;這些模式或規(guī)律通常隱含或記錄在各種數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)集、網(wǎng)頁(yè)日志、應(yīng)用軟件或通信數(shù)據(jù)流中。不能把數(shù)據(jù)挖掘看作是簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢技術(shù)。數(shù)據(jù)挖掘要求在海量數(shù)據(jù)中,挖掘出的信息是新穎的、潛在實(shí)用的、正確的和最終是可理解的、并且是非平凡性的;它不同于在電話本上查找電話號(hào)碼和在搜索引擎上查找特定的網(wǎng)頁(yè)內(nèi)容。數(shù)據(jù)挖掘技術(shù)可以通過(guò)分類和預(yù)測(cè)分析的方法對(duì)海量數(shù)據(jù)進(jìn)行直接數(shù)據(jù)挖掘;也可以通過(guò)關(guān)聯(lián)分析、聚類分析、描述和可視化分析,以及復(fù)雜數(shù)據(jù)類型,如信息網(wǎng)絡(luò)、web、圖形圖像和音頻視頻等的分析來(lái)進(jìn)行間接數(shù)據(jù)挖掘。如在對(duì)美國(guó)沃爾瑪?shù)馁?gòu)物籃分析,發(fā)現(xiàn)的啤酒和紙尿布之間存在的讓人忍俊不禁的聯(lián)系。
2 圖書(shū)館
功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù)為每天面對(duì)數(shù)量龐大、分類眾多的高校圖書(shū)和不同口味、需求各異的服務(wù)對(duì)象的高校圖書(shū)管理者提供了一個(gè)化腐朽為神奇的法寶。圖書(shū)管理者在工作中充分發(fā)揮數(shù)據(jù)挖掘技術(shù)在圖書(shū)管理、讀者服務(wù)等方面的作用,不斷實(shí)踐廣泛應(yīng)用,必將實(shí)現(xiàn)圖書(shū)管理工作的大變革和跨越式發(fā)展。就現(xiàn)在筆者所在學(xué)校的圖書(shū)館而言,與大部分圖書(shū)館構(gòu)成大體一樣。我們學(xué)校的圖書(shū)館包括職能部門:采編部、流通部、技術(shù)部、期刊部和參考咨詢部;教學(xué)研究部門:信息檢索教研室、信息檢索研究所;行政部門:辦公室及館長(zhǎng)。簡(jiǎn)稱“五部一室一所”,部門各自的作用僅從它們各自的名字便可粗略得知。這里只就兩個(gè)主要部門做簡(jiǎn)單介紹。采編部主要負(fù)責(zé)圖書(shū)館新進(jìn)圖書(shū)的前期采訪、采購(gòu)和后期加工,如分類、編目、錄入、分庫(kù)、入庫(kù)等工作。流通部主要負(fù)責(zé)文學(xué)書(shū)庫(kù)、藝術(shù)書(shū)庫(kù)、外文書(shū)庫(kù)、中文工具書(shū)庫(kù)、自然科學(xué)書(shū)庫(kù)、社會(huì)科學(xué)書(shū)庫(kù)及樣本書(shū)庫(kù)等書(shū)庫(kù)的日常管理和圖書(shū)流通工作。
3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 圖書(shū)流通中的應(yīng)用
頻繁模式是頻繁出現(xiàn)在數(shù)據(jù)集中的模式。關(guān)聯(lián)規(guī)則是從頻繁模式產(chǎn)生的最常見(jiàn)的一類規(guī)則。用關(guān)聯(lián)規(guī)則對(duì)不同讀者的日常借閱歷史目錄進(jìn)行跟蹤分析,從這些海量借閱歷史目錄信息中挖掘,發(fā)現(xiàn)各類圖書(shū)間存在的關(guān)聯(lián),總結(jié)不同讀者的興趣。通過(guò)各類圖書(shū)這種關(guān)聯(lián)關(guān)系的支持度和置信度正確計(jì)算分析,可以得出異類圖書(shū)間的關(guān)聯(lián)規(guī)則。通過(guò)深入研究各專業(yè)讀者的讀書(shū)學(xué)習(xí)習(xí)慣,可以為圖書(shū)館領(lǐng)導(dǎo)科學(xué)決策、高效管理提供現(xiàn)實(shí)依據(jù),為圖書(shū)管理員日常管理工作中的新書(shū)分庫(kù)和圖書(shū)的異類排架等方面提供科學(xué)有效的參考,從而提高圖書(shū)館圖書(shū)借閱效率,為高校廣大師生提供更加科學(xué)、高效、人性化的服務(wù),最終達(dá)到讀者面對(duì)圖書(shū)和圖書(shū)面向讀者的目的,實(shí)現(xiàn)讀者和圖書(shū)間的和諧。
具體而言,如用數(shù)據(jù)挖掘軟件對(duì)讀者借閱歷史的數(shù)據(jù)挖掘發(fā)現(xiàn),近年來(lái)出現(xiàn)的一個(gè)出乎大家意料的現(xiàn)象,很多理工科的學(xué)生在大三時(shí)期,頻繁的借閱經(jīng)濟(jì)類的書(shū)籍,特別是與考研相關(guān)的經(jīng)濟(jì)專業(yè)圖書(shū)。后來(lái)通過(guò)軟件分析和實(shí)踐調(diào)研得知,由于近年來(lái)大學(xué)生畢業(yè)人數(shù)不斷攀升,就業(yè)壓力逐年加大。很多大學(xué)生為逃避就業(yè)選擇了考研,而高等數(shù)學(xué)、概率統(tǒng)計(jì)在而經(jīng)濟(jì)類研究生入學(xué)考試中占有很重要的作用,理工類比經(jīng)濟(jì)專業(yè)學(xué)生在數(shù)學(xué)科目考試中占有明顯優(yōu)勢(shì),容易考取。因此,就有很多理工類學(xué)生在大三時(shí)期,選擇了報(bào)考經(jīng)濟(jì)類研究生。于是在學(xué)過(guò)本專業(yè),確保順利畢業(yè)的同時(shí),擠出大量課余時(shí)間通過(guò)自學(xué)或者旁聽(tīng)等方式加補(bǔ)經(jīng)濟(jì)類專業(yè)課程。從而導(dǎo)致了上述不尋常借閱現(xiàn)象的發(fā)生。
圖書(shū)管理人員在新書(shū)分庫(kù)和圖書(shū)排架方面,就可以利用這個(gè)發(fā)現(xiàn),大膽打破理工類圖書(shū)和經(jīng)濟(jì)類圖書(shū)分別分庫(kù)存放的限制,進(jìn)行個(gè)性化和人性化的分庫(kù)排架方案??茖W(xué)的將把部分副本量的經(jīng)濟(jì)考研類圖書(shū),與高年級(jí)理工類專業(yè)書(shū)進(jìn)行跨學(xué)科合庫(kù)且就近上架擺放,以提高圖書(shū)資源流通和利用效率。依次類推,新書(shū)分庫(kù)和圖書(shū)排架也完全可以根據(jù),年級(jí)、專業(yè)、讀者類型,如??粕?、本科生、研究生或者課堂教學(xué)教師、實(shí)驗(yàn)類教師等讀者類型的需求等,作為科學(xué)的參考。當(dāng)然這種參考需要以事先對(duì)圖書(shū)資源利用率和讀者借閱目錄做正確的數(shù)據(jù)分析和知識(shí)挖掘?yàn)榍疤帷6@種個(gè)性分類法,可以在部分書(shū)庫(kù)做試點(diǎn),特別是在院專資料室的圖書(shū)分類中可以廣泛采用大膽探索。在實(shí)踐中查找利弊反復(fù)檢驗(yàn),加以時(shí)日并實(shí)時(shí)做出必要的修正和改進(jìn)。待時(shí)機(jī)成熟,這種個(gè)性化的圖書(shū)分類排架法可在全館推行。再經(jīng)過(guò)長(zhǎng)期的跟蹤調(diào)查、科學(xué)統(tǒng)計(jì)結(jié)合數(shù)據(jù)挖掘技術(shù)的數(shù)學(xué)計(jì)算等研究,這種根據(jù)學(xué)校自身特點(diǎn),針對(duì)性的強(qiáng)具有本校特色的科學(xué)又新穎圖書(shū)分類排架法,必將大大方便不同類型的讀者群體,從而大幅度的圖書(shū)資源流通和利用效率。
聚類是將物理或抽象對(duì)象的集合分成相似的對(duì)象類的過(guò)程。通過(guò)自動(dòng)的聚類能夠識(shí)別對(duì)象空間中稠密和稀疏區(qū)域,從而發(fā)現(xiàn)全局分布模式和數(shù)據(jù)屬性之間有趣的相關(guān)。聚類分析已經(jīng)廣泛應(yīng)用于數(shù)據(jù)分析等領(lǐng)域中。同樣利用數(shù)據(jù)挖掘的聚類分析技術(shù)分析、挖掘讀者在不同時(shí)段的借閱特點(diǎn)和規(guī)律。如學(xué)生不同年級(jí)、各個(gè)學(xué)期,甚至每個(gè)月份,每天的圖書(shū)借閱規(guī)律,找出不同時(shí)間段的圖書(shū)借閱高峰。以合理配置圖書(shū)管理人員的數(shù)量,靈活安排圖書(shū)館老師的上班時(shí)間。同時(shí)為圖書(shū)館領(lǐng)導(dǎo)科學(xué)決策,提高圖書(shū)館員的效率提供現(xiàn)實(shí)的數(shù)據(jù)支持。這樣可以大大提高圖書(shū)流通率,減少讀者借閱圖書(shū)時(shí)間,從根本上提高圖書(shū)管理員的工作效率。
3.2 圖書(shū)采編中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析、聚類分析在圖書(shū)采購(gòu)和編目中也有著廣泛的應(yīng)用。比如,可以通過(guò)對(duì)各類讀者的借閱偏好和各種圖書(shū)的借閱率的關(guān)聯(lián)性分析,找到不同讀者和相關(guān)類圖書(shū)的關(guān)聯(lián)度。為制訂采購(gòu)圖書(shū)的種類、副本量以及新書(shū)推薦和圖書(shū)導(dǎo)讀提供科學(xué)建議,從而達(dá)到減少圖書(shū)資料浪費(fèi),提高圖書(shū)利用率的目的。通過(guò)對(duì)不同年級(jí)專業(yè)類型的讀者進(jìn)行聚類分析,找出不同類讀者的閱讀傾向,同樣可以為圖書(shū)采購(gòu)人員正確制訂采購(gòu)圖書(shū)計(jì)劃和結(jié)構(gòu)提供科學(xué)依據(jù),為采編人員提供全方位的現(xiàn)實(shí)的指導(dǎo),為建設(shè)全面科學(xué)合理的圖書(shū)館圖書(shū)文獻(xiàn)構(gòu)成體系保駕護(hù)航。
分類是找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型的過(guò)程,以便能夠使用模型預(yù)測(cè)類標(biāo)號(hào)未知的對(duì)象。同分類一樣,預(yù)測(cè)也是一種數(shù)據(jù)分析形式,不同于分類可以用于提取描述重要數(shù)據(jù)類,預(yù)測(cè)可以用于預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)的模型。這兩種分析有利于我們更好地全面理解數(shù)據(jù)。數(shù)據(jù)挖掘中的分類和預(yù)測(cè)分析在采編中的應(yīng)用也是相當(dāng)廣泛的。通過(guò)圖書(shū)管理系統(tǒng),對(duì)讀者每天的圖書(shū)借閱歸還等的服務(wù)所產(chǎn)生的大量數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘系統(tǒng)做出分類和預(yù)測(cè)分析,為圖書(shū)采購(gòu)、新書(shū)分庫(kù)以及舊書(shū)調(diào)撥提供科學(xué)指導(dǎo)。特別是彌補(bǔ)圖書(shū)采購(gòu)人員,在現(xiàn)實(shí)采購(gòu)方面存在的憑經(jīng)驗(yàn)和專家推薦等采購(gòu)方法上的不足。通過(guò)數(shù)據(jù)挖掘在分類和預(yù)測(cè)分析中提供的各類圖書(shū)文獻(xiàn)利用率和不同讀者的閱讀傾向等預(yù)測(cè)信息和評(píng)估報(bào)告,為及時(shí)補(bǔ)充稀少短缺圖書(shū)和適時(shí)剔除過(guò)時(shí)圖書(shū)資源提供多維度的、全方位的科學(xué)合理性建議。
4 結(jié)論
總之,數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)規(guī)則分析、聚類分析、分類分析和預(yù)測(cè)分析等方法在圖書(shū)館的流通和采編過(guò)程中都有相當(dāng)廣泛的應(yīng)用。通過(guò)應(yīng)用這些技術(shù),可以發(fā)現(xiàn)圖書(shū)流通環(huán)節(jié)隱藏的潛在規(guī)律。這些規(guī)律的發(fā)現(xiàn),在提高圖書(shū)流通效率、合理排架、科學(xué)配置圖書(shū)管理人員、科學(xué)制定值班時(shí)間以及為讀者有針對(duì)性的提供新書(shū)推薦和導(dǎo)讀等方面,都起到不可估量的作用。它也為領(lǐng)導(dǎo)決策、館藏圖書(shū)配置及文獻(xiàn)結(jié)構(gòu)體系建設(shè),提供科學(xué)的指導(dǎo)。
參考文獻(xiàn)
[1] JiaweiHan,MiehelineKamber[著],范明,孟小峰[譯].數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2005.
[2] (美)Jamie MacLennan,(美)ZhaoHui Tang,(美)Bogdan Crivatr[著],董艷,程文俊[譯].數(shù)據(jù)挖掘原理與應(yīng)用—— SQL Server 2008[M].北京:清華大學(xué)出版社,2010.
[3] 李朝葵,凌云.數(shù)據(jù)挖掘及其在圖書(shū)館中的應(yīng)用[J].情報(bào)雜志,2002(6):33-34
[4] 劉曉東.數(shù)據(jù)挖掘在圖書(shū)館工作中的應(yīng)用[J].情報(bào)雜志,2005(8):63-65.
[5] 鮑翠梅,王尊新,白如江.數(shù)據(jù)挖掘技術(shù)及其在圖書(shū)館中的應(yīng)用[J].情報(bào)雜志,2004(9):49-5