周運(yùn)麗
(商丘醫(yī)學(xué)高等??茖W(xué)?!∩糖稹?76000)
圖書(shū)館中的文獻(xiàn)是人們獲得知識(shí)的重要途徑。但是隨著信息技術(shù)的興起和網(wǎng)絡(luò)的普及推廣,使得圖書(shū)館不僅擁有傳統(tǒng)的紙本書(shū)籍,越來(lái)越多的電子書(shū)籍資源在圖書(shū)館中也能夠給公眾提供信息資源[1~2]。圖書(shū)館系統(tǒng)也記錄了讀者信息資源并且更迭出新的數(shù)據(jù)為讀者提供便利。但是數(shù)據(jù)隨著時(shí)間會(huì)越來(lái)越多,書(shū)籍資料會(huì)漸漸龐大,讀者與書(shū)館的聯(lián)系變得更加復(fù)雜,所以需要更好的系統(tǒng)來(lái)處理信息數(shù)據(jù)為圖書(shū)館建設(shè)提供數(shù)據(jù)支持[3]。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生解決了龐大數(shù)據(jù)的問(wèn)題,不僅可以快速搜索出讀者想要的書(shū)籍,甚至可以分析讀者的使用習(xí)慣來(lái)推薦文獻(xiàn),并且通過(guò)分析文獻(xiàn)來(lái)提出合理的采購(gòu)建議等。所以數(shù)據(jù)挖掘技術(shù)結(jié)合圖書(shū)館管理系統(tǒng)運(yùn)用關(guān)聯(lián)技術(shù)來(lái)搜索文獻(xiàn),了解讀者與圖書(shū)館的內(nèi)在聯(lián)系,提出個(gè)性化推薦。
圖書(shū)的分類是系統(tǒng)的重點(diǎn),例如傳統(tǒng)的PAM算法技術(shù)可以有效地解決不同書(shū)籍的分類[4],Clarans算法也是數(shù)據(jù)處理的一種手段[5~6],不過(guò)兩者都有數(shù)據(jù)量的局限性。
本文運(yùn)用混合聚類分析技術(shù)來(lái)進(jìn)行文獻(xiàn)分類[7],通過(guò)文獻(xiàn)借還過(guò)程中隱藏的數(shù)據(jù)規(guī)律,為圖書(shū)館文獻(xiàn)收集和建設(shè)提供根據(jù)。數(shù)據(jù)挖掘技術(shù)可以找出讀者的潛在需求[8],提供個(gè)性化幫助,也為讀者選擇購(gòu)買(mǎi)電子書(shū)籍提供幫助,使讀者快速,準(zhǔn)確地利用圖書(shū)館的資源。通過(guò)算法實(shí)現(xiàn),搭建讀者與圖書(shū)館之間的系統(tǒng)服務(wù),并與其他算法進(jìn)行比較,得出混合聚類算法的優(yōu)越性,證明該算法的合理性和有效性。
移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)優(yōu)化指的是針對(duì)運(yùn)行的網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)分析,進(jìn)行高效的數(shù)據(jù)處理,數(shù)據(jù)分析就是互聯(lián)網(wǎng)優(yōu)化的重點(diǎn),信息化的時(shí)代數(shù)據(jù)量非常巨大,而有效的、有益的數(shù)據(jù)卻被海量的數(shù)據(jù)所隱藏,我們要解決的就是找到我們所要的數(shù)據(jù),并且找出數(shù)據(jù)之間的關(guān)系,為決策者做出決定,從而得到想要的效果。
圖書(shū)管理系統(tǒng)是根據(jù)圖書(shū)館的具體業(yè)務(wù)的需要從而搭建的計(jì)算機(jī)系統(tǒng),該系統(tǒng)主要提供了兩個(gè)方面的模型為圖書(shū)館的實(shí)際業(yè)務(wù)提供服務(wù),一個(gè)是圖書(shū)借還管理模型,另一個(gè)是讀者庫(kù)管理模型[9]“圖書(shū)借還管理”主要負(fù)責(zé)的是書(shū)館的一般業(yè)務(wù),一般業(yè)務(wù)主要包括查詢書(shū)籍、書(shū)籍的借出、返還、預(yù)定書(shū)籍等。模型如圖1所示,每個(gè)讀者用戶我們令為xi,書(shū)籍設(shè)為cj,模型建立xi,cj之間的關(guān)系。
讀者庫(kù)管理模型主要負(fù)責(zé)讀者對(duì)信息進(jìn)行保護(hù)、修改以及掛失等等,另外還包含讀者在書(shū)館進(jìn)行辦證、補(bǔ)辦證件等[10]。模型如圖2所示,讀者可以通過(guò)兩種方式,一個(gè)是向管理人員進(jìn)行及時(shí)的證件處理,書(shū)證的辦理,書(shū)證的掛失,另一個(gè)是讀者可以通過(guò)圖書(shū)館在線主頁(yè)面進(jìn)行業(yè)務(wù)處理,省去時(shí)間,最后的補(bǔ)卡要管理人員進(jìn)行處理。
圖書(shū)館管理系統(tǒng)包括為2個(gè)模塊[11],包括為讀者用戶、管理人員的后臺(tái)系統(tǒng)都采用混合聚類算法分析,2個(gè)模塊又劃分成幾個(gè)子塊來(lái)實(shí)現(xiàn)其各自的功能,算法實(shí)現(xiàn)的功能設(shè)計(jì)如下。
圖2 讀者庫(kù)管理
讀者管理分為用戶信息注冊(cè)、用戶登錄以及用戶個(gè)人信息的瀏覽與修改。用戶在系統(tǒng)主頁(yè)面注冊(cè)流程包括填寫(xiě)姓名、身份證號(hào)、工作單位以及綁定金額等有用信息來(lái)實(shí)現(xiàn)注冊(cè)。當(dāng)讀者登錄系統(tǒng)之后,可以進(jìn)行個(gè)人信息的完善、查看和修改等;管理人員的后臺(tái)管理圖書(shū)館書(shū)籍的海量信息,實(shí)現(xiàn)書(shū)籍信息的添加、刪除、編輯和顯示等功能,另外管理技術(shù)人員必須定期地進(jìn)行系統(tǒng)修復(fù)、及時(shí)地安裝補(bǔ)丁進(jìn)行系統(tǒng)升級(jí)。
采用的混合聚類的算法對(duì)圖書(shū)館書(shū)籍進(jìn)行分析[12],首先要確定混合聚類的目標(biāo):給定一個(gè)包含n個(gè) a維書(shū)籍或?qū)?yīng)用戶數(shù)據(jù)集 X={x1,x2,…,xi,…,xn},其中 xi∈Ra,確定要生成的書(shū)籍?dāng)?shù)據(jù)子集的數(shù)目m,混合聚類算法將各讀者書(shū)籍和未借出書(shū)籍進(jìn)行分類,進(jìn)行m個(gè)劃分C={cm,i=1,2,…,m}),信息的種類都表示一個(gè)書(shū)籍與用戶類cm,對(duì)于各類cm都有一個(gè)類別中心值ui,ui是這個(gè)類最具代表的數(shù)值信息,也就是中心值成績(jī)。采用歐式距離作為依據(jù)來(lái)判斷相似度的原則,計(jì)算各書(shū)籍類中各點(diǎn)到ui的距離平方之和,作為該點(diǎn)與中心數(shù)值的相似度,則歐式距離平方之和是
混合聚類的目標(biāo)函數(shù)就是各類的距離平方和。若J(c)最小時(shí),那么
其中ami=1(xi∈ci)或ami=0(xi?ci)。可以看出,混合聚類的中心ui應(yīng)取為各類別cm類各書(shū)籍類數(shù)據(jù)點(diǎn)的平均值。
混合聚類算法是從初始的M類別開(kāi)始進(jìn)行劃分。聚類過(guò)程如圖3所示,混合聚類算法中總的距離平方和是根據(jù)個(gè)數(shù)M的類別增長(zhǎng)而距離和卻趨于減小。特殊情況,當(dāng)M=0時(shí),J(c)=0。所以,可以得出只有當(dāng)總的距離平方和在確定的類別個(gè)數(shù)M下J(c)才能取得最小值。
圖3 混合聚類樹(shù)狀過(guò)程圖
混合聚類算法將書(shū)籍?dāng)?shù)據(jù)集劃分成M個(gè)分類,算法的流程如下:
第1步:從書(shū)籍?dāng)?shù)據(jù)集中任意選擇M個(gè)初始聚類中心;
第2步:對(duì)書(shū)籍?dāng)?shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)象,算出對(duì)象與其他所有聚類中心的距離,并依據(jù)最近鄰準(zhǔn)則將其劃分給距離最近的類別中;
第3步:上一步計(jì)算之后,依據(jù)計(jì)算結(jié)果重新計(jì)算各個(gè)新聚類的聚類中心,計(jì)算全部書(shū)籍?dāng)?shù)據(jù)的距離平方之和;
第4步:再判斷所得的聚類中心J(c)值是否有變,若發(fā)生改變,重復(fù)第2、3兩步操作若聚類中心不再變化那么算法結(jié)束;若沒(méi)有變化,算法直接結(jié)束。
令 Ai,j為書(shū)籍信息Mi與Mj之間的相似度,則有
算法實(shí)驗(yàn)對(duì)象是商丘某學(xué)校的校圖書(shū)館,測(cè)試環(huán)境包括服務(wù)器端與客戶端。測(cè)試用服務(wù)器端部位是系統(tǒng)為Windows Server 2003聯(lián)想。所使用的臺(tái)式機(jī)是Intel Core i7的CPU頻率為3.2 Hz,內(nèi)存是132GB DDR3a。通過(guò)運(yùn)行仿真腳本,最后分析實(shí)驗(yàn)結(jié)果。
混合聚類算法得出的系統(tǒng)如圖4所示,圖書(shū)登記表單、圖書(shū)登記、庫(kù)存圖書(shū)、注冊(cè)表單等四個(gè)模塊是算法實(shí)現(xiàn)的結(jié)果類別,圖書(shū)登記是面向混合聚類算法方法的核心技術(shù),通過(guò)算法實(shí)現(xiàn)具體到每個(gè)類中,因此可以完成設(shè)計(jì)走向細(xì)化的過(guò)程。該系統(tǒng)可以有效地完成圖書(shū)館龐大數(shù)據(jù)的實(shí)現(xiàn)和管理,有利于用戶與圖書(shū)館進(jìn)行有效的聯(lián)系。
圖4 圖書(shū)庫(kù)管理
采用聚類分析方法去挖掘、評(píng)價(jià)書(shū)籍的內(nèi)容,為書(shū)籍評(píng)分,這樣好的數(shù)據(jù)就可以呈現(xiàn)在系統(tǒng)界面,提供讀者建議,每一個(gè)好書(shū)都成為一個(gè)集合群,處于該集合中心的值、具有代表的書(shū)籍就是中心值,那么中心值成績(jī)就是此類書(shū)籍的評(píng)分指標(biāo)。圖5所示就是該算法通過(guò)Java實(shí)現(xiàn)的系統(tǒng)界面。
圖5 系統(tǒng)界面實(shí)現(xiàn)
系統(tǒng)中有對(duì)書(shū)籍的評(píng)價(jià)功能,如表1所示,包括封面設(shè)計(jì),書(shū)籍材料,內(nèi)容價(jià)值以及購(gòu)買(mǎi)意向,最后得出的總評(píng)分能夠?yàn)槠渌x者用戶提供閱讀和購(gòu)買(mǎi)的依據(jù),也為圖書(shū)館的建設(shè)提供幫助,是個(gè)性化服務(wù)的體現(xiàn)。
表1 系統(tǒng)中對(duì)書(shū)籍的評(píng)價(jià)功能
除了本文的混合聚類算法,還有很多傳統(tǒng)的算法進(jìn)行圖書(shū)館的信息數(shù)據(jù)處理,可以有效地進(jìn)行系統(tǒng)管理,混合聚類算法的優(yōu)勢(shì)在于處理速度快,處理的數(shù)據(jù)量更大,在系統(tǒng)維護(hù)和升級(jí)上更有優(yōu)勢(shì)。圖6表示該算法與其他算法的處理速度比較。
本文研究的是構(gòu)建圖書(shū)館中積累的大量書(shū)籍?dāng)?shù)據(jù)和用戶信息之間建立聯(lián)系,用來(lái)幫助圖書(shū)館進(jìn)行系統(tǒng)管理,圖書(shū)館作為一個(gè)龐大的數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘的技術(shù)的引入為圖書(shū)館的管理增加便利,在數(shù)據(jù)挖掘后,基于混合聚類算法可以對(duì)書(shū)籍信息進(jìn)行合理安排,提升系統(tǒng)的便利性,通過(guò)算法實(shí)現(xiàn)和算法比較可以看出本文系統(tǒng)結(jié)合算法可以形成良好的系統(tǒng)管理秩序,實(shí)現(xiàn)功能可視化,為圖書(shū)案的用戶以及管理技術(shù)人員提供服務(wù),所以該算法具有合理性。
圖6 不同算法比較
[1]江麗,伍萍,JIANGLi,等.在ILASⅡ2.0圖書(shū)館管理系統(tǒng)下構(gòu)建RFID系統(tǒng)——以武漢圖書(shū)館為例[J].圖書(shū)館界,2008(4):39-42.JIANG Li,Constructing RFID System Based on ILAS Ⅱ2.0 Library Management System-Taking Wuhan Library asan Example[J].Library Circles,2008(4):39-42.
[2]李仁玲.C/S與B/S結(jié)合的圖書(shū)館管理系統(tǒng)設(shè)計(jì)[J].情報(bào)雜志,2006,25(1):102-104.LIRenling.Design of Library Management System Combining C/Sand B/S[J].Journalof Information,2006,25(1):102-104.
[3]曾頻,高飛,寧璐.基于RFID技術(shù)的圖書(shū)館管理系統(tǒng)的分析與評(píng)價(jià)[J].圖書(shū)情報(bào)工作,2013,57(9):75-79.ZENG Ping,GAO Fei,NING Lu.Analysis and Evaluation of Library Management System Based on[J].Library and InformationWork,2013,57(9):75-79.
[4]李秀霞.VTLSRFID圖書(shū)館管理系統(tǒng)的結(jié)構(gòu)與實(shí)現(xiàn)[J].圖書(shū)館學(xué)研究,2009(3):27-29.LI Xiuxia.Structure and Realization of VTLS RFID Library Management System[J].Journal of Library Science,2009(3):27-29.
[5]朱福珍,薛景.蟻群聚類算法在高職院校教學(xué)評(píng)價(jià)系統(tǒng)中的應(yīng)用研究[J].江蘇第二師范學(xué)院學(xué)報(bào)(自然科學(xué)),2014,30(3):93-96.ZHU Fuzhen,XUE Jing.Application of Ant Colony Clustering Algorithm in Teaching Evaluation System of Higher Vocational Colleges[J].Journal of Jiangsu No.2 Normal University(Social Science),2014,30(3):93-96.
[6]劉建偉,李衛(wèi)民.基于摘要技術(shù)的混合模型流數(shù)據(jù)聚類算法[J].計(jì)算機(jī)科學(xué),2009,36(11):148-151.LIU Jianwei,LIWeiming.Synopsis Data Structure Based Mixture Probabilistic Density Data Stream Clustering Approach[J].Computer science,2009,36(11):148-151.
[7]邵磊,陳志德.基于聚類算法的數(shù)據(jù)庫(kù)訪問(wèn)日記入侵檢測(cè)[J].電腦與電信,2013(4):48-50.SHAO Lei,CHEN Zhide.Database Access Diary Intrusion Detection Based on Clustering Algorithm[J].Computer and Telecommunications,2013(4):48-50.
[8]馬鐵軍.基于先進(jìn)聚類分析算法的管理系統(tǒng)研究與實(shí)現(xiàn)[J].河北省科學(xué)院學(xué)報(bào),2015(1):5-8.MA Tiejun.Research and Implementation of Management System Based on Advanced Clustering Algorithm[J].JournalofHebeiAcademy of Sciences,2015(1):5-8.
[9]夏宇,劉天華.基于聚類分析的教職工檔案管理[J].沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,34(2):196-200.XIA Yu,LIU Tianhua.File Management of Teaching Staff Based on Cluster Analysis[J].Journal of Shenyang Normal University(Natural Science Edition),2016,34(2):196-200.
[10]王少鵬,彭巖,王潔.基于LDA的文本聚類在網(wǎng)絡(luò)輿情分析中的應(yīng)用研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(9):129-134.WANG Shaopeng,PENG Yan,WANG Jie.Application of Text Clustering Based on LDA in Network Public Opinion Analysis[J].Journal of Shandong University(NaturalScience),2014,49(9):129-134.
[11]潘偉.基于UML實(shí)現(xiàn)圖書(shū)管理系統(tǒng)的建模設(shè)計(jì)[J].圖書(shū)情報(bào)知識(shí),2005(1):51-52.PANWei.Modeling and Design of Library Management System Based on UML[J].Journal of Library and Information Science,2005(1):51-52.
[12]周瑩,張宇華.UML及其在圖書(shū)管理系統(tǒng)中的應(yīng)用[J].電腦與信息技術(shù),2004,25(4):52-54.ZHOU Ying,ZHANG Yuhua.Application of UML and Its Application in Library Management System[J].Computer&Information Technology,2004,25(4):52-54.