侯松霞
[摘 要] 本文針對圖書館數(shù)據(jù)低效利用的現(xiàn)狀,采用了基于R的數(shù)據(jù)挖掘技術(shù)對圖書館借閱數(shù)據(jù)進行了深入挖掘,以期發(fā)現(xiàn)這部分數(shù)據(jù)所隱含的價值。通過數(shù)據(jù)挖掘從借閱數(shù)據(jù)中探索其中隱含的規(guī)律,并將挖掘出的規(guī)律信息進行實際應(yīng)用,從而實現(xiàn)數(shù)據(jù)挖掘?qū)?shù)據(jù)中價值的發(fā)現(xiàn)和高效利用。
[關(guān)鍵詞] R;圖書館用戶;借閱行為;數(shù)據(jù)挖掘
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1671-0037(2017)2-91-6
Data Mining Study of Library Users' Borrowing Behavior based on R
Hou Songxia
(Tianjin Transportation Vocational College, Tianjin 300112)
Abstract: The article aims at the status of inefficient use of library data, adopts R based data mining technology, and deeply evacuates the borrowing data of library, hoping to find the implied values of the data. In order to complete the efficient use of the value of the data by data mining, we explore the implied laws of the borrowing data by data mining and apply the mined laws into practical application .
Key words: R; library users; borrowing behavior; data mining
1 引言
評判一個圖書館服務(wù)水平的基本標準應(yīng)當(dāng)是借閱者的借閱需求滿足情況。為盡可能滿足借閱者的借閱需求,圖書館需要在館藏文獻管理及對借閱者提供個性化服務(wù)兩個方面做出努力。因此,需要通過對用戶借閱行為進行深入的數(shù)據(jù)挖掘,得到更加接近真實的用戶需求情況。通過對用戶的借閱興趣、借閱習(xí)慣進行分析總結(jié),在預(yù)測未來的借閱行為的基礎(chǔ)上,發(fā)揮圖書館對用戶的引導(dǎo)教育作用。
2 圖書館用戶借閱行為分析數(shù)據(jù)特點
圖書館的服務(wù)對象主要可以分為:教師和學(xué)生。根據(jù)專業(yè)的不同,又可以進一步細分,如學(xué)生用戶可以進一步細分為理工類學(xué)科與人文社科類學(xué)科等。顯然,各類用戶群對信息的需求層次差異很大,同一用戶群中不同專業(yè)的用戶信息需求也存在較大差異[1]。圖書館用戶的學(xué)科專業(yè)性非常明顯,信息需求主要集中在與專業(yè)領(lǐng)域緊密相關(guān)的專業(yè)文獻上,不同專業(yè)的用戶需求差異十分明顯,可以根據(jù)挖掘數(shù)據(jù)的結(jié)果進行分析,將書籍的擺放位置和書籍的數(shù)量進行調(diào)整,而相同專業(yè)的用戶也具有相近的興趣度,可以通過數(shù)據(jù)挖掘技術(shù)對各個用戶的借閱行為數(shù)據(jù)進行挖掘,并對挖掘結(jié)果進行專業(yè)性的分析,針對各個用戶的相似性開展大量的個性化服務(wù)。
3 挖掘過程
3.1 數(shù)據(jù)挖掘目標的確定
本文數(shù)據(jù)挖掘采用R語言,其目的是根據(jù)圖書館用戶借閱行為的數(shù)據(jù)來得到用戶的借閱習(xí)慣、借閱特點等,最終實現(xiàn)對館藏文獻的優(yōu)化管理及對借閱者提供個性化服務(wù)[2]。挖掘工作的重點應(yīng)該是分析并獲?。?.用戶類型及各自類型的借閱特點;2.不同種類圖書的利用率。
3.2 數(shù)據(jù)獲取
在用戶利用圖書館的資源過程中會留下諸如讀者基本信息、借閱歷史、檢索歷史等大量的有價值信息,這就是我們進行數(shù)據(jù)挖掘的數(shù)據(jù)來源,通過對用戶信息和借閱歷史的挖掘來得到我們需要的信息。
3.2.1 讀者信息。讀者的具體身份信息作為數(shù)據(jù)挖掘中的一項基礎(chǔ)數(shù)據(jù)。主要用來為用戶分類、借閱行為分類聚類提供信息,由于數(shù)據(jù)量龐大,在預(yù)處理時需刪掉無用的數(shù)據(jù),保留本次挖掘所需數(shù)據(jù),如用戶編號、專業(yè)、性別屬性,如表1所示,本文針對某圖書館近幾年的圖書借閱情況進行挖掘。
3.2.2 書目信息。書目信息與用戶信息類似,是所有館藏書目的一個數(shù)據(jù)庫,主要包括書目名稱、書目編號、出版社、所屬類別、類別編號、館藏位置、入館時間、下架時間等屬性。通過預(yù)處理后,所選擇的有效數(shù)據(jù)如表2所示。
3.2.3 讀者借閱記錄。讀者借閱歷史記錄主要包含了借閱的目標信息(書籍?dāng)?shù)據(jù))、時間信息及連接信息(編號數(shù)據(jù)),如表3所示。其中目標信息的主要組成部分為書籍的屬性信息;時間信息的主要內(nèi)容包含借閱書籍的起止時間信息;聯(lián)系信息主要內(nèi)容為用戶編號等起聯(lián)系作用的信息[3]。但是這三種信息不應(yīng)該被撕裂開來,而應(yīng)該是呈相互關(guān)聯(lián)、缺一不可的關(guān)系。在這里主要為方便敘述將其分為三類:
第一,目標信息。目標信息是進行聚類分類的重要核心數(shù)據(jù),主要通過用戶編號與用戶信息進行連接從而進行數(shù)據(jù)挖掘。在此只截取數(shù)據(jù)中書名及圖書編號等數(shù)據(jù)進行概化后用于數(shù)據(jù)挖掘;
第二,時間信息。時間信息對于數(shù)據(jù)挖掘的主要意義是進行時間序列的分析,其主要內(nèi)容包括借閱時間、歸還時間等;
第三,聯(lián)系信息。聯(lián)系信息則為用戶編號等起聯(lián)系性作用的數(shù)據(jù)。這部分信息是利用數(shù)據(jù)挖掘技術(shù)獲取圖書館文獻利用狀況的關(guān)鍵,通過對它們的統(tǒng)計、歸類、分析有助于了解書刊的使用情況并進行預(yù)測分析同樣需要通過基于屬性的歸納算法進行數(shù)據(jù)概化。最后得到的主要屬性有圖書主題、圖書編號、借閱時間段、借閱時長。
3.3 數(shù)據(jù)預(yù)處理
從圖書館得到的用戶數(shù)據(jù)往往十分雜亂,結(jié)構(gòu)化進行的并不完全,而且存在大量的無效信息。因此需要對其數(shù)據(jù)進行預(yù)處理。
經(jīng)過預(yù)處理后的數(shù)據(jù)結(jié)構(gòu)如表4所示。
3.4 挖掘過程
根據(jù)指導(dǎo)圖書館實現(xiàn)其館藏文獻優(yōu)化目標及給借閱者提供個性化推薦的目標,對具體的挖掘任務(wù)進行分配。根據(jù)借閱行為的主體及客體,我們將挖掘分為三個大的環(huán)節(jié)[4]。首先是對整體數(shù)據(jù)的大的挖掘,即得出高頻借閱者和高頻書籍,通過這一步驟的挖掘,我們會對于整體的數(shù)據(jù)結(jié)構(gòu)有直觀的理解。其次是對館藏文獻的挖掘。對文獻的挖掘,要考慮時間要素、優(yōu)質(zhì)資源、待下架資源這三方面的信息。最后是對于借閱者的需求信息的挖掘,其目的是挖掘出讀者的不同需求。
3.4.1 據(jù)概覽。通過對多個數(shù)據(jù)集的聯(lián)立(merge()函數(shù))得到了數(shù)據(jù)的整體情況。經(jīng)過對預(yù)處理數(shù)據(jù)進行簡單的統(tǒng)計,其中借閱記錄10 342條,借閱者編號(人數(shù))3 321個,圖書編號4 032個。如圖1所示。
然后對數(shù)據(jù)中的用戶和書目進行統(tǒng)計,發(fā)現(xiàn)國際經(jīng)濟與貿(mào)易,金融學(xué),成教院,信息管理與信息系統(tǒng),計算機科學(xué)與技術(shù)和數(shù)學(xué)與應(yīng)用數(shù)學(xué)專業(yè)的同學(xué)借閱量最多,然后將所有出現(xiàn)次數(shù)前5的單位單獨導(dǎo)出,作為后續(xù)分析中的重點挖掘?qū)ο?。同理?dǎo)出被借閱書籍最多的種類,作為向?qū)W校推薦加強館藏建設(shè)的重點內(nèi)容。如圖2所示。
3.4.2 挖掘文獻使用規(guī)律
圖書館的文獻被借閱情況,其往往表現(xiàn)出一定的規(guī)律性。
第一,對時間要素的挖掘
在時間序列上,往往表現(xiàn)在特定時間的某種類型書籍被大量借閱,而突然增大的借閱量必然會影響圖書館的服務(wù)質(zhì)量。所以通過對時間要素的挖掘,我們可以對圖書館在借閱量增加的時候?qū)D書館的工作情況進行適當(dāng)?shù)恼{(diào)整。如圖3所示。
經(jīng)過觀察發(fā)現(xiàn)數(shù)據(jù)集中在2011年的11月,因此時間序列上以天數(shù)為劃分標準,然后利用table()函數(shù)及plot()函數(shù)來繪制出不同月份圖書借閱量的圖表。以便于直觀地對借閱量的月度變化進行掌握。通過對圖書館不同月份借閱量的對比,我們可以根據(jù)圖4看出,在該月,圖書借閱量隨著時間變化呈現(xiàn)出明顯的規(guī)律性變化,整體呈現(xiàn)出波動性變化。再結(jié)合周度記錄的圖表圖5,可以得出圖書館的借閱活動相對高峰期出現(xiàn)在每周的周二前后,并且在周五前后將出現(xiàn)一個較明顯的低落,經(jīng)過分析后判斷出這種規(guī)律性變動,主要是因為學(xué)校在課程安排以周為單位。很多同學(xué)會在新的一周開始時接到教師安排的新的學(xué)習(xí)任務(wù),為了滿足專業(yè)性的知識需求,會在周一之后開始去圖書館借閱書籍,這直接導(dǎo)致了周二前后借閱高潮的出現(xiàn)。在經(jīng)過一周的學(xué)習(xí)后,面對即將到來的周末,由于周末休息時間較長,部分讀者利用周末安排了外出游玩等社交休閑活動,因此借閱熱情減退,這也導(dǎo)致了周五前后的借閱量低潮的出現(xiàn)。
第二,對優(yōu)質(zhì)資源的挖掘。圖書館中存在著大量的優(yōu)質(zhì)資源,這些優(yōu)質(zhì)資源常常處于被借閱的狀態(tài),但是在實際流通中其表現(xiàn)出的流通率卻并不高,因為這些資源經(jīng)常被同一用戶反復(fù)借閱[5]。這就為我們挖掘出這一部分優(yōu)質(zhì)的資源埋下了巨大的障礙,因為既不能單純以流通率來判斷(部分書籍可能因為封面設(shè)計吸引眼球而被頻繁借閱,但質(zhì)量并不足夠優(yōu)質(zhì)),也不能單純以被借閱時長來判斷(部分書籍被借走但卻長期停留在書架上)。
因此,在篩選出優(yōu)質(zhì)資源時需要考慮多個參數(shù)的影響:a.平均借閱時間;b.被借閱次數(shù);c.重復(fù)借用率。在這三個參數(shù)都滿足閾值的記錄時應(yīng)該基本滿足優(yōu)質(zhì)資源的標準。但是,因為這種篩選方法在閾值這個門檻上將大量的新進書籍排除在外,所以還需要再進行重新考慮。為尋求更合適的篩選方法,我們可以通過聚類分析的方法來進行初步的探索(即對新進書籍與歷史書籍進行聚類分析)。
第三,對待下架資源的挖掘。在獲取了優(yōu)質(zhì)資源目錄的同時,我們還需要對圖書館中的陳舊資源進行清理,以避免部分類新購進書籍因為書架資源有限而無法陳列出來。對待下架資源的挖掘需要考慮兩方面的因素:1.新增加的書籍?dāng)?shù)量,這是驅(qū)動對待下架資源挖掘的動力;2.文獻的被借閱量,這是評判一本書籍是否需要下架的主要因素。
因為文獻使用的量是動態(tài)變化的,所以通過數(shù)據(jù)挖掘?qū)v史數(shù)據(jù)的分析,獲取平均上架數(shù)量對于圖書館的優(yōu)化館藏排架結(jié)構(gòu)十分重要。新增書籍的數(shù)量可以通過書目記錄信息獲得,而流通數(shù)量可以通過以下方式獲得:首先利用往年相同時期的流通數(shù)量變化情況,特別是在高校圖書館,由于院系課程進度的原因,會出現(xiàn)周期性學(xué)生大量借閱同類書籍文獻的現(xiàn)象,利用這一已知規(guī)律,可以很方便地來推算當(dāng)前流通數(shù)量。當(dāng)然這有一個前提,就是該類書籍必須具有這種周期性變化,在這里可以使用回歸分析、時間序列分析的方法來獲取這些規(guī)律。當(dāng)某類圖書不存在周期性借閱起伏時可以利用其回歸曲線的變化趨勢來分析,如果曲線歷來比較平穩(wěn),說明這類書籍的在館率比較穩(wěn)定,而如果偶然出現(xiàn)一次高峰,我們可以向上文一樣通過關(guān)聯(lián)挖掘獲取其當(dāng)時借閱量突增的原因。
第四,挖掘用戶特點。通過對借閱者與借閱記錄的聯(lián)合挖掘,可以得出大量的用戶需求信息,而這些需求信息,是指導(dǎo)圖書館實現(xiàn)其館藏文獻優(yōu)化目標及給借閱者提供個性化推薦的重要指導(dǎo)。要實現(xiàn)對這些聯(lián)合信息的挖掘,我們需要頻繁使用到關(guān)聯(lián)規(guī)則的挖掘,因此在此進行較為具體的描述。我們主要采用的是購物籃分析(Market Basket Analysis)[6]。購物籃分析是通過顧客購物時的籃子內(nèi)的商品所顯示的信息來研究顧客的購買行為,通過這些信息,可以了解到不同顧客的不同需求以及需求的原因,從而得到一定的規(guī)律。主要的目的在于找出什么樣的東西應(yīng)該放在一起,并藉由這些規(guī)則的挖掘獲得利益與建立競爭優(yōu)勢。這種思路對于我們進行圖書的個性化推薦具有重要參考價值。我們可以通過對借閱者借閱記錄中的書籍進行匯總,進而形成每個借閱者的“數(shù)據(jù)籃子”,然后對眾多的“數(shù)據(jù)籃子”進行匯總,通過apriori算法,對其進行相關(guān)性的挖掘,然后對形成的關(guān)聯(lián)規(guī)則進行排序,將其中聯(lián)系性較強的數(shù)據(jù)進行推廣利用,主要的目的在于推斷借了某本書的人還會借閱哪本書,并藉由這些信息來實現(xiàn)對讀者的個性化推薦。
關(guān)聯(lián)規(guī)則的挖掘包括兩個階段的工作,首先是對于資料的整理,因為一般的數(shù)據(jù)集需要經(jīng)過整理符合其算法的需求才可以進行下一步的輸入處理。在此過程中,主要利用as(transactions,數(shù)據(jù)集名稱)函數(shù)將一般性的數(shù)據(jù)轉(zhuǎn)換為購物籃類型的數(shù)據(jù)。如圖6所示。
其次,就是具體的關(guān)聯(lián)過程。是從資料集合中找出所有的高頻項目組,在圖書館用戶行為數(shù)據(jù)挖掘中,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對數(shù)據(jù)庫中的紀錄進行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值。符合此需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。最后,再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則,若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則(如「專業(yè),書目類別」),滿足設(shè)定最小支持度與最小信賴度兩個門檻值,將可接受該關(guān)聯(lián)規(guī)則。因此,今后若有某讀者已確定某一相關(guān)要素,則圖書館將可推薦該讀者借閱某一類書籍。如圖7所示。
在對整體數(shù)據(jù)進行關(guān)聯(lián)分析之后,又對不同類別數(shù)據(jù)(如金融系等)進行了多次重復(fù)性關(guān)聯(lián)之后[7],我們得出很多的結(jié)論,如通過對整體數(shù)據(jù)挖掘發(fā)現(xiàn)借閱計算機類圖書的讀者往往會再借閱一些文學(xué)性的書籍,而對管理學(xué)專業(yè)的挖掘表明,管理學(xué)學(xué)生的借閱內(nèi)容范圍往往十分廣泛,不易形成關(guān)聯(lián)規(guī)則(支持度往往不高),這些結(jié)論對于圖書館的館藏內(nèi)容進行優(yōu)化就具有比較明顯的作用,而且根據(jù)得出的具體關(guān)聯(lián)規(guī)則,還可以在進行圖書推薦時針對不同院系的學(xué)生進行相對個性化的推薦。
4 結(jié)語
因為本次挖掘完全依賴數(shù)據(jù)驅(qū)動,只是根據(jù)數(shù)據(jù)內(nèi)容上挖掘出需要的規(guī)則,所以源數(shù)據(jù)的準確性完全決定了本次挖掘準確性,但是部分的數(shù)據(jù)挖掘過程因為數(shù)據(jù)量太小,僅為幾百條,所以進行個性化推薦的挖掘中得出的結(jié)論可能會受此影響。與此同時,我們只是對源數(shù)據(jù)進行了挖掘,對于源數(shù)據(jù)的準確性并未深究,所以,本次挖掘結(jié)果并不一定與實際情況吻合。通過數(shù)據(jù)挖掘這一工具,我們得到的用戶模型必定與事實存在著一定的差異。因此,將模型與實際情況進行驗證,并進行適當(dāng)?shù)恼{(diào)整應(yīng)當(dāng)是提高挖掘結(jié)果準確性的一種重要思路。
參考文獻:
[1] 李賢虹.基于數(shù)據(jù)挖掘的讀者個性化信息服務(wù)系統(tǒng)的研究與設(shè)計[D].南昌:南昌大學(xué),2009.
[2] 譚云江.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館讀者行為研究[J].圖書情報工作,2012(S).
[3] 艾金勇.圖書館讀者借閱行為的關(guān)聯(lián)規(guī)則挖掘研究[J].情報探索,2017(1):40-43.
[4] 陳靜榮.圖書借閱分析系統(tǒng)的數(shù)據(jù)挖掘技術(shù)[J].農(nóng)業(yè)圖書情報學(xué)刊,2017(2):69-72.
[5] 陳潔.數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用探析[J]. 大學(xué)圖書情報學(xué)刊,2016(2):53-57.
[6] 陳麗芳.基于Apriori算法的購物籃分析[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2014(5).
[7] 郝海濤.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在圖書館系統(tǒng)中的應(yīng)用[J].信息通信,2016(6):74-76.