童 浪 裴勝玉(廣西財(cái)經(jīng)學(xué)院,廣西 南寧 530003)
?
聚類(lèi)分析在圖書(shū)館管理中的應(yīng)用研究
童 浪 裴勝玉
(廣西財(cái)經(jīng)學(xué)院,廣西 南寧 530003)
摘 要:聚類(lèi)分析是數(shù)據(jù)挖掘中的一種非監(jiān)督分類(lèi)技術(shù)。聚類(lèi)分析作為輔助技術(shù)在圖書(shū)館管理中發(fā)揮了巨大的作用。本文在介紹聚類(lèi)分析的基礎(chǔ)上,分析了聚類(lèi)分析在圖書(shū)館管理中的應(yīng)用研究,指出當(dāng)前聚類(lèi)分析算法存在的不足,提出新的聚類(lèi)分析方法。
關(guān)鍵詞:聚類(lèi)分析;數(shù)據(jù)挖掘;非監(jiān)督學(xué)習(xí);圖書(shū)館管理
高等學(xué)校圖書(shū)館作為高校信息服務(wù)中心,提供高等學(xué)校教學(xué)和科學(xué)研究服務(wù),是培養(yǎng)人才和開(kāi)展科學(xué)研究的重要基地之一,在高校發(fā)揮著舉足輕重的作用。隨著大學(xué)教育的發(fā)展,高校圖書(shū)館的藏書(shū)量大幅度增長(zhǎng),隨著計(jì)算機(jī)技術(shù)的普及和信息資源的日益增長(zhǎng),高校數(shù)字圖書(shū)館數(shù)據(jù)呈幾何倍數(shù)增長(zhǎng)。面對(duì)這些海量數(shù)據(jù),為更好地推動(dòng)高校圖書(shū)館管理,學(xué)者們相繼提出了各自的聚類(lèi)分析算法,聚類(lèi)分析也成為高校圖書(shū)館管理中的重要研究技術(shù)之一。
本文結(jié)合圖書(shū)館管理中的應(yīng)用,概述聚類(lèi)分析的基礎(chǔ)上,對(duì)聚類(lèi)分析在圖書(shū)館管理中的應(yīng)用研究進(jìn)行分析,指出當(dāng)前聚類(lèi)分析算法存在的不足,提出新的聚類(lèi)分析方法,從而推進(jìn)聚類(lèi)分析在圖書(shū)館管理中技術(shù)研究。
需求是發(fā)明之母。20世紀(jì)70年代初,數(shù)據(jù)挖掘成為了慢慢興起的數(shù)據(jù)智能分析技術(shù),引起專(zhuān)家學(xué)者們的極大關(guān)注,主要源于存在大量數(shù)據(jù),而這些數(shù)據(jù)也迫切需要轉(zhuǎn)換成有用的信息和知識(shí)。在這一歷史發(fā)展階段,聚類(lèi)分析是數(shù)據(jù)挖掘研究領(lǐng)域的重點(diǎn)課題。
1.1 聚類(lèi)分析概念
數(shù)據(jù)挖掘(Data Mining,DM)又譯為資料探斟,它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的、隨機(jī)的、不完全的、模糊的、有噪聲的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘的任務(wù)主要包含關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)、預(yù)測(cè)、時(shí)序模式和偏差分析等。聚類(lèi)分析(Clustering analysis)正是數(shù)據(jù)挖掘中的一項(xiàng)重要任務(wù)。聚類(lèi)分析以“物以類(lèi)聚”作為劃分依據(jù),將按相似性將數(shù)據(jù)歸納成若干類(lèi)別,相同類(lèi)別的數(shù)據(jù)相似,不相同類(lèi)別的數(shù)據(jù)彼此相異,聚類(lèi)過(guò)程中劃為一組的稱(chēng)為一個(gè)類(lèi)(Cluster)。于是可以得出聚類(lèi)分析的數(shù)學(xué)表達(dá)方式:
對(duì)于數(shù)據(jù)集合V{vi|i=1,2,...,n},這里,vi為數(shù)據(jù)對(duì)象,依據(jù)數(shù)據(jù)對(duì)象之間的相近程度將數(shù)據(jù)集合V劃分成k組,滿(mǎn)足以下條件
這一過(guò)程稱(chēng)為聚類(lèi)分析,Ci(i=1,2,...,n)稱(chēng)為類(lèi)(或簇)。
1.2 聚類(lèi)分析原理
用有序?qū)Γ▁,s)或(x,d)表示輸入,s和d表示聚類(lèi)樣本數(shù)據(jù)之間的相似程度和相異程度標(biāo)準(zhǔn)。x={G1,G2,...,Gk}作為輸出,其中Gk(k=1,2,...,N)為x的子集,即滿(mǎn)足以下條件
圖1 聚類(lèi)分析算法分類(lèi)及代表算法
子集G1,G2,...,Gk稱(chēng)為類(lèi),這些子集都是通過(guò)一些關(guān)鍵特征進(jìn)行描述的。通常,可以通過(guò)這些樣本集合的重心或類(lèi)(簇)中關(guān)系的點(diǎn)來(lái)表示n維空間的一類(lèi);或借助聚類(lèi)樹(shù)的方式用于表示一類(lèi);或通過(guò)樣本點(diǎn)屬性的邏輯表達(dá)式表示一類(lèi)。
1.3 聚類(lèi)分析算法
聚類(lèi)分析有許多種不同的方法,主要包含以下幾種:層次聚類(lèi)方法、劃分聚類(lèi)方法、基于密度的聚類(lèi)、基于網(wǎng)格的算法和基于模型的算法。以下給出聚類(lèi)分析算法的分類(lèi)及代表算法。
伴隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,高校圖書(shū)館的藏書(shū)量大幅度增長(zhǎng),高校圖書(shū)館在人才培養(yǎng)和科學(xué)研究中所占的位置也日益提升,除了傳統(tǒng)模式的圖書(shū)館管理外,數(shù)字圖書(shū)館也迅速在高校推廣起來(lái)。
2.1 聚類(lèi)分析在圖書(shū)管理系統(tǒng)中的應(yīng)用
在圖書(shū)管理中,運(yùn)用聚類(lèi)分析技術(shù)主要體現(xiàn)在以下幾個(gè)方面。比如,從樣本數(shù)據(jù)中分析出讀者的閱讀傾向。如孫凌云在論文中分析了高校學(xué)生讀者的閱讀傾向,以及給出圖書(shū)館的相關(guān)對(duì)策;吳志強(qiáng)在論文中應(yīng)用了聚類(lèi)分析來(lái)研究讀者閱讀傾向問(wèn)題;孫銳等在論文中以重慶大學(xué)圖書(shū)館作為研究背景,通過(guò)圖書(shū)預(yù)約數(shù)據(jù)對(duì)讀者閱讀傾向展開(kāi)研究。另外,運(yùn)用聚類(lèi)分析算法創(chuàng)建圖書(shū)推薦系統(tǒng)。如孫彥超在其論文中,將讀者“查找”圖書(shū)轉(zhuǎn)變?yōu)橄蜃x者“推薦”圖書(shū),運(yùn)用聚類(lèi)分析來(lái)向讀者更好地推薦;王家勝在論文中提出了基于SPSS Clementine的聚類(lèi)模型,并用于對(duì)讀者群體進(jìn)行細(xì)分。聚類(lèi)分析技術(shù)應(yīng)用于圖書(shū)館管理系統(tǒng)中,不僅能充分了解到讀者的興趣和需求,還可以為圖書(shū)管理部門(mén)開(kāi)展圖書(shū)采購(gòu)計(jì)劃提供及時(shí)可靠的數(shù)據(jù)依據(jù)。從而將傳統(tǒng)管理系統(tǒng)中的被動(dòng)服務(wù)轉(zhuǎn)化為主動(dòng)服務(wù),更好地發(fā)揮圖書(shū)館的功能。
2.2 聚類(lèi)分析在數(shù)字圖書(shū)館中的應(yīng)用
相比傳統(tǒng)圖書(shū)館管理模式,隨著時(shí)間的遷移,高校數(shù)字圖書(shū)館數(shù)據(jù)呈幾何倍數(shù)增長(zhǎng)。面對(duì)這些海量數(shù)據(jù),為更好地推動(dòng)高校圖書(shū)館管理,學(xué)者們運(yùn)用聚類(lèi)分析算法也提出了相應(yīng)的改革措施。如潘旭武等在論文中提出運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)字圖書(shū)館進(jìn)行結(jié)構(gòu)挖掘、內(nèi)容挖掘和用戶(hù)使用記錄的挖掘。張付志等在論文中提出一種基于聚類(lèi)技術(shù)的數(shù)字圖書(shū)館個(gè)性推薦算法。無(wú)論在傳統(tǒng)圖書(shū)管理系統(tǒng),還是對(duì)于數(shù)字圖書(shū)管理,從這些文獻(xiàn)統(tǒng)計(jì)中,聚類(lèi)分析扮演著越來(lái)越重要的角色,承擔(dān)起越來(lái)越重要的功能作用。
綜上所述,這些聚類(lèi)算法均為單一聚類(lèi)算法,均為基于傳統(tǒng)聚類(lèi)分析基礎(chǔ)上的算法。聚類(lèi)問(wèn)題的不同也決定了需要使用不同的最優(yōu)化準(zhǔn)則,不同的最優(yōu)化策略和不同的聚類(lèi)準(zhǔn)則,因此將產(chǎn)生許多不同的聚類(lèi)分析方法。目前,關(guān)于圖書(shū)館管理中所應(yīng)用的聚類(lèi)分析方法均只是對(duì)一個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化。單目標(biāo)聚類(lèi)算法通常在檢測(cè)有意義的現(xiàn)實(shí)樣本數(shù)據(jù)集合時(shí),因?qū)嶋H樣本數(shù)據(jù)為高維的、稀疏的數(shù)據(jù)而失效。因此,考慮到單目標(biāo)算法的這些缺點(diǎn),本文將提出基于多目標(biāo)優(yōu)化的聚類(lèi)分析算法用于解決圖書(shū)館管理中的問(wèn)題。
3.1 基于多目標(biāo)優(yōu)化的聚類(lèi)分析
基于多目標(biāo)優(yōu)化的聚類(lèi)算法已提出許多種。K. Suresh,D. Kundu等在文獻(xiàn)[12]中提出了基于差分進(jìn)化的自動(dòng)多目標(biāo)聚類(lèi)分析算法;K. S. N. Ripon,C. H. Tsang等在文獻(xiàn)[13]中提出了可變長(zhǎng)實(shí)數(shù)跳轉(zhuǎn)基因的多目標(biāo)進(jìn)化遺傳聚類(lèi)分析方法;K. S. N. Ripon和M. N. H. Siddique在文獻(xiàn)[14]中提出了基于多目標(biāo)進(jìn)化聚類(lèi)分析算法用于重疊聚類(lèi)檢測(cè);S. Saha和S. Bandyopadhyay在文獻(xiàn)[15]中提出了對(duì)稱(chēng)的多目標(biāo)自動(dòng)聚類(lèi)分析算法。通過(guò)調(diào)查分析,圖書(shū)館管理中所遇到的問(wèn)題中,樣本數(shù)據(jù)集合大多為多特征、多因素、多目標(biāo)優(yōu)化問(wèn)題,因此基于多目標(biāo)優(yōu)化的聚類(lèi)分析算法更適合求解此類(lèi)問(wèn)題。
參考文獻(xiàn)
[1] Oded Maimon, Lior Rokach(Eds.). Data Mining and Knowledge Discovery Handbook[M]. Springer, 2005: 321-352.
[2]張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004:49.
[3]孫凌云.高校學(xué)生讀者的淺閱讀傾向及圖書(shū)館對(duì)策[J].圖書(shū)情報(bào)工作,2010,54(3):85-88.
[4]孫彥超.基于聚類(lèi)分析算法的圖書(shū)推薦系統(tǒng)的研究[J].數(shù)字圖書(shū)館,2015(5):76-795.
[5]吳志強(qiáng).基于聚類(lèi)分析的讀者閱讀傾向研究[J].圖書(shū)館工作研究,2011(15):82-84.
[6]孫銳,楊新涯.利用圖書(shū)預(yù)約數(shù)據(jù)進(jìn)行讀者閱讀傾向研究——以重慶大學(xué)圖書(shū)館為例[J].圖書(shū)館建設(shè),2011(1):31-34.
[7]王家勝.聚類(lèi)分析在高校圖書(shū)館讀者群體細(xì)分中的應(yīng)用[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2011,23(9):15-42.
[8]孫吉貴,劉杰,趙連宇.聚類(lèi)算法研究[J].軟件學(xué)報(bào),2008(1):46-150.
[9]賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類(lèi)算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(1).
[10]潘旭武,陳玲洪.數(shù)據(jù)挖掘在數(shù)字圖書(shū)中的應(yīng)用研究[J].浙江高校圖書(shū)情報(bào)工作,2007,1(81):36-55.
[11]張付志,姜志英.一種基于聚類(lèi)技術(shù)的數(shù)字圖書(shū)館個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用與軟件,2008,7(25):84-99.
[12] K.Suresh, D.K.S.G.Automatic Clustering with Multi-objective Differential Evolution Algorithms[C].IEEE Congress on Evolutionary Computation, 2009: 2590-2597.
[13] K.S.N.Ripon, C.H.T.S. Multi-objective evolutionary clustering using variable-length real jumping genes genetic algorithm[C]. Proceeding of the 18th International Conference on Pattern Recognition, 2006: 1200-1203.
[14] K.S.N.Ripon, M.N.H.S.Evolutionary multi-objective clustering for overlapping clusters detection[C].IEEE Congress on Evolutionary Computation, 2009: 976-982.
[15] S.Saha, S.B.A symmetry based multiobjective clustering technique for evolution of clusters[J].Pattern Recognition,2010, 43(3): 738-751.
中圖分類(lèi)號(hào):G25
文獻(xiàn)標(biāo)識(shí)碼:A