謝康
摘 要: 傳統(tǒng)圖書館服務(wù)缺乏個性化設(shè)置,無法充分利用資源進(jìn)行準(zhǔn)確書目推薦,為了改善這一問題,提出基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)。根據(jù)讀者類聚特點與數(shù)據(jù)關(guān)聯(lián)規(guī)則,設(shè)計節(jié)目個性化推薦系統(tǒng),并將挖掘出的關(guān)聯(lián)規(guī)則應(yīng)用到推薦服務(wù)當(dāng)中;根據(jù)挖掘流程可得到大量數(shù)據(jù),并對多余數(shù)據(jù)進(jìn)行清理,不完整數(shù)據(jù)進(jìn)行補充,計算支持度和置信度;采用基于讀者個性化特征數(shù)據(jù)挖掘圖書館書目并進(jìn)行推薦,由此完成圖書館書目推薦。通過實驗分析可知,該推薦方法可充分利用圖書館資源,快速、準(zhǔn)確完成書目推薦。
關(guān)鍵詞: 圖書館服務(wù); 個性化特征; 數(shù)據(jù)關(guān)聯(lián)規(guī)則; 數(shù)據(jù)挖掘; 圖書館書目; 書目推薦
中圖分類號: TN911?34; TP311.13 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)06?0034?03
Abstract: The traditional library service lacks personalized setting, and cannot make full use of resources to conduct catalogue recommendation accurately. To resolve this problem, library catalogue recommendation based on readers′ personalized feature data mining is proposed. According to reader clustering characteristics and data association rules, a personalized program recommendation system is designed, and the mined association rules are applied to recommendation service. A large amount of data can be obtained according to the mining process, with redundant data cleaned and incomplete data supplemented, so as to calculate the support degree and confidence coefficient. Readers′ personalized feature data is used to mine and recommend library catalogue, so as to complete library catalogue recommendation. The experimental analysis shows that this recommendation method can make full use of library resources and complete catalogue recommendation quickly and accurately.
Keywords: library service; personalized feature; data association rule; data mining; library catalogue; catalogue recommendation
0 引 言
高校圖書館中應(yīng)用數(shù)據(jù)庫技術(shù)促使系統(tǒng)硬件與軟件都得到改善,每天都會更新資源,學(xué)生和教師等讀者對資源也會充分利用,這就使圖書館數(shù)據(jù)庫中積累大量的歷史信息。圖書館是面向全校讀者所提供的一個方便快捷查找資料的場所,但是隨著讀者對圖書館資料查詢要求不斷提高,從資源中準(zhǔn)確篩選讀者需要的圖書信息成為了當(dāng)務(wù)之急[1]。
傳統(tǒng)圖書館服務(wù)缺乏個性化設(shè)置,無法充分利用資源,為了改善這一問題,提出基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦。其利用數(shù)據(jù)挖掘技術(shù)對圖書館數(shù)據(jù)庫中的海量借閱信息進(jìn)行挖掘,可找到其中隱藏的關(guān)聯(lián)規(guī)則,根據(jù)這些規(guī)則可幫助圖書館完成個性化信息推薦工作,也為讀者提供了良好服務(wù)。
1 圖書館書目推薦特征數(shù)據(jù)挖掘算法的實施
根據(jù)讀者類聚特點與數(shù)據(jù)關(guān)聯(lián)規(guī)則,在圖書館傳統(tǒng)管理系統(tǒng)基礎(chǔ)上,設(shè)計基于讀者個性化數(shù)據(jù)挖掘的信息服務(wù)系統(tǒng)[2?3],如圖1所示,針對數(shù)據(jù)與處理模塊和數(shù)據(jù)挖掘模塊進(jìn)行詳細(xì)分析。
基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)主要能實現(xiàn)以下兩個方面能力:一是數(shù)據(jù)挖掘,首先對圖書館讀者進(jìn)行調(diào)查,并根據(jù)借閱數(shù)據(jù)信息進(jìn)行聚類群分,根據(jù)聚類群體中讀者借閱的數(shù)據(jù)信息完成數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘;二是個性化推薦,將挖掘出的關(guān)聯(lián)規(guī)則應(yīng)用到推薦服務(wù)當(dāng)中[4?5],該系統(tǒng)是基于Windows XP上運行的,并采用B/S模式,而前臺使用Visual Studio 2008集成環(huán)境,將Visual C++作為開發(fā)工具,后臺使用SQL Server 2008數(shù)據(jù)庫來保存用戶數(shù)據(jù)[1]。
2 基于讀者個性化特征數(shù)據(jù)挖掘書目推薦算法
2.1 讀者個性化特征數(shù)據(jù)挖掘
數(shù)據(jù)挖掘中最常用的方法是對個性化關(guān)聯(lián)規(guī)則展開分析,利用該規(guī)則對圖書館書目進(jìn)行推薦,具體算法如下:
書目推薦算法通常采用項集合x和y來表示,兩個項集合是相互獨立的,且不具有重復(fù)屬性[6],可表示為:[x?y=?]。集合x和y之間的個性化規(guī)則需滿足如下條件:兩項集合有用并且集合之間個性化規(guī)則具有一定普遍性和有趣性。比如:[T=T1,T2,…,Tm]是項的集合,相關(guān)數(shù)據(jù)[D]是數(shù)據(jù)庫信息的集合,其中每條信息d是項的集合[7],使得[d?1]。每條信息具有一個標(biāo)志符號,稱為[d1]。設(shè)a是一個項集,信息d所包含的a當(dāng)且僅當(dāng)[a∈d]。個性化關(guān)聯(lián)規(guī)則具有[a?b]蘊涵式,其中[a?1,b?1],并且[a?b=?]。endprint
2.2 書目推薦算法
如果個性化關(guān)聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有特征屬性支持度s,信息集合[D]中包含[a?b]的百分比也被稱為支持度,即為[pa?b]。
如果個性化關(guān)聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有置信度c,信息集合[D]中包含信息a的同時也包含b的全部信息比,也被稱為置信度[8?9],即為[pba]。可具體表示為:
[Supporta?b=pa?bConfidencea?b=pba]
通常情況下,特征數(shù)據(jù)挖掘是在基于讀者個性化關(guān)聯(lián)規(guī)則基礎(chǔ)上實現(xiàn)的,該挖掘主要分成兩個部分:一部分是將找到的所有與關(guān)聯(lián)規(guī)則有關(guān)項集進(jìn)行統(tǒng)計;另一部分是在上一部分產(chǎn)生項集基礎(chǔ)上進(jìn)行強關(guān)聯(lián)規(guī)則分析[10]。在挖掘過程中,中心問題是要進(jìn)行高效頻繁項集搜索,如果效率較低,那么每次所產(chǎn)生的候選項會導(dǎo)致算法在運行過程中需要進(jìn)行一次數(shù)據(jù)庫掃描,所耗費工作量較大,為此利用個性化關(guān)聯(lián)規(guī)則進(jìn)行繁瑣項集搜索。繁瑣項集搜索完成后,會產(chǎn)生強大的關(guān)聯(lián)規(guī)則,如果項目集中每一個頻繁項目集為1,那么就會產(chǎn)生1個非空子集;如果項目集為非空子集,且滿足大于等于最小置信度的條件,則該子集可輸出作為書目推薦。
3 實 驗
3.1 實驗參數(shù)設(shè)置
為了驗證基于讀者個性化特征數(shù)據(jù)挖掘的圖書館書目推薦方法合理性,使用科學(xué)試驗和技巧與程序的調(diào)試方法進(jìn)行相關(guān)數(shù)據(jù)收集,設(shè)計實驗并進(jìn)行驗證,分析個性化推薦數(shù)據(jù)挖掘算法的使用效果與準(zhǔn)確度。實驗開發(fā)環(huán)境設(shè)置如下:處理器為[Intel?][CoreTM i5-4590CPU @3.30 GHz;]內(nèi)存為32.0 GB;系統(tǒng)種類為[Windows 10,]64位操作系統(tǒng),使用64位的處理器。
3.2 實驗結(jié)果與分析
選舉6位閱讀者所借閱5本圖書為例,假設(shè)學(xué)生編號為[PZ],書目借閱信息為[Tx],具體數(shù)據(jù)如表1所示。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為70%的情況下,對書目推薦準(zhǔn)確率進(jìn)行對比,結(jié)果如圖2所示。
由圖2可知,當(dāng)讀者借閱了T1和T5,傳統(tǒng)方法推薦書目為T1,而正確推薦書目應(yīng)該為T2;當(dāng)讀者借閱了T2和T5,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應(yīng)該為T1;當(dāng)讀者借閱了T5,傳統(tǒng)方法推薦書目為T1和T2,與正確推薦書目一致。由此可知,當(dāng)最小置信度閾值為70%,傳統(tǒng)方法對書目推薦準(zhǔn)確率小于本文使用的方法。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為50%的情況下,對書目推薦準(zhǔn)確率進(jìn)行對比,結(jié)果如圖3所示。
由圖3可知,當(dāng)讀者借閱了T1和T2,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應(yīng)該為T3;當(dāng)讀者借閱了T1和T3,傳統(tǒng)方法推薦書目為T2,與正確推薦書目一致;當(dāng)讀者借閱了T2和T3,傳統(tǒng)方法推薦書目為T3,而正確推薦書目應(yīng)該為T1。由此可知,當(dāng)最小置信度閾值為50%,傳統(tǒng)方法對書目推薦準(zhǔn)確率小于本文使用的方法。
4 結(jié) 語
由于圖書館書目推薦工作意義繁重,利用基于讀者個性化特征數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,根據(jù)歷史記錄,可方便為讀者推薦感興趣書目。圖書館可通過數(shù)據(jù)挖掘?qū)⒄洳氐膱D書推薦給閱讀者,使讀者快速尋找到自己感興趣書目,具有省時、高效特征,采用該推薦方法能滿足不同借閱者個性化需求,具有一定真實性。
參考文獻(xiàn)
[1] 周欣,陸康.基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究[J].現(xiàn)代情報,2016,36(1):51?56.
ZHOU Xin, LU Kang. Data mining on reader behaviors based on library digital resource system [J]. Modern information, 2016, 36(1): 51?56.
[2] 何勝,馮新翎,武群輝,等.基于用戶行為建模和大數(shù)據(jù)挖掘的圖書館個性化服務(wù)研究[J].圖書情報工作,2017,61(1):40?46.
HE Sheng, FENG Xinling, WU Qunhui, et al. Research on personalized services of library based on user behavior modeling and big data mining [J]. Library and information service, 2017, 61(1): 40?46.
[3] 陳臣.基于大數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的智慧圖書館構(gòu)建[J].現(xiàn)代情報,2017,37(8):85?91.
CHEN Chen. Construction of smart library based on the big data mining and knowledge discovery [J]. Modern information, 2017, 37(8): 85?91.
[4] 韓雪飛,丁玉東,杜瑾.高校畢業(yè)季圖書館開展讀者數(shù)據(jù)留存活動調(diào)查與建議[J].圖書情報工作,2015,59(20):77?82.
HAN Xuefei, DING Yudong, DU Jin. Investigation and suggestion on readers′ date retention activities in the graduation season in university libraries [J]. Library and information service, 2015, 59(20): 77?82.endprint