謝康
摘 要: 傳統(tǒng)圖書館服務(wù)缺乏個(gè)性化設(shè)置,無法充分利用資源進(jìn)行準(zhǔn)確書目推薦,為了改善這一問題,提出基于讀者個(gè)性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)。根據(jù)讀者類聚特點(diǎn)與數(shù)據(jù)關(guān)聯(lián)規(guī)則,設(shè)計(jì)節(jié)目個(gè)性化推薦系統(tǒng),并將挖掘出的關(guān)聯(lián)規(guī)則應(yīng)用到推薦服務(wù)當(dāng)中;根據(jù)挖掘流程可得到大量數(shù)據(jù),并對(duì)多余數(shù)據(jù)進(jìn)行清理,不完整數(shù)據(jù)進(jìn)行補(bǔ)充,計(jì)算支持度和置信度;采用基于讀者個(gè)性化特征數(shù)據(jù)挖掘圖書館書目并進(jìn)行推薦,由此完成圖書館書目推薦。通過實(shí)驗(yàn)分析可知,該推薦方法可充分利用圖書館資源,快速、準(zhǔn)確完成書目推薦。
關(guān)鍵詞: 圖書館服務(wù); 個(gè)性化特征; 數(shù)據(jù)關(guān)聯(lián)規(guī)則; 數(shù)據(jù)挖掘; 圖書館書目; 書目推薦
中圖分類號(hào): TN911?34; TP311.13 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)06?0034?03
Abstract: The traditional library service lacks personalized setting, and cannot make full use of resources to conduct catalogue recommendation accurately. To resolve this problem, library catalogue recommendation based on readers′ personalized feature data mining is proposed. According to reader clustering characteristics and data association rules, a personalized program recommendation system is designed, and the mined association rules are applied to recommendation service. A large amount of data can be obtained according to the mining process, with redundant data cleaned and incomplete data supplemented, so as to calculate the support degree and confidence coefficient. Readers′ personalized feature data is used to mine and recommend library catalogue, so as to complete library catalogue recommendation. The experimental analysis shows that this recommendation method can make full use of library resources and complete catalogue recommendation quickly and accurately.
Keywords: library service; personalized feature; data association rule; data mining; library catalogue; catalogue recommendation
0 引 言
高校圖書館中應(yīng)用數(shù)據(jù)庫技術(shù)促使系統(tǒng)硬件與軟件都得到改善,每天都會(huì)更新資源,學(xué)生和教師等讀者對(duì)資源也會(huì)充分利用,這就使圖書館數(shù)據(jù)庫中積累大量的歷史信息。圖書館是面向全校讀者所提供的一個(gè)方便快捷查找資料的場所,但是隨著讀者對(duì)圖書館資料查詢要求不斷提高,從資源中準(zhǔn)確篩選讀者需要的圖書信息成為了當(dāng)務(wù)之急[1]。
傳統(tǒng)圖書館服務(wù)缺乏個(gè)性化設(shè)置,無法充分利用資源,為了改善這一問題,提出基于讀者個(gè)性化特征數(shù)據(jù)挖掘的圖書館書目推薦。其利用數(shù)據(jù)挖掘技術(shù)對(duì)圖書館數(shù)據(jù)庫中的海量借閱信息進(jìn)行挖掘,可找到其中隱藏的關(guān)聯(lián)規(guī)則,根據(jù)這些規(guī)則可幫助圖書館完成個(gè)性化信息推薦工作,也為讀者提供了良好服務(wù)。
1 圖書館書目推薦特征數(shù)據(jù)挖掘算法的實(shí)施
根據(jù)讀者類聚特點(diǎn)與數(shù)據(jù)關(guān)聯(lián)規(guī)則,在圖書館傳統(tǒng)管理系統(tǒng)基礎(chǔ)上,設(shè)計(jì)基于讀者個(gè)性化數(shù)據(jù)挖掘的信息服務(wù)系統(tǒng)[2?3],如圖1所示,針對(duì)數(shù)據(jù)與處理模塊和數(shù)據(jù)挖掘模塊進(jìn)行詳細(xì)分析。
基于讀者個(gè)性化特征數(shù)據(jù)挖掘的圖書館書目推薦系統(tǒng)主要能實(shí)現(xiàn)以下兩個(gè)方面能力:一是數(shù)據(jù)挖掘,首先對(duì)圖書館讀者進(jìn)行調(diào)查,并根據(jù)借閱數(shù)據(jù)信息進(jìn)行聚類群分,根據(jù)聚類群體中讀者借閱的數(shù)據(jù)信息完成數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘;二是個(gè)性化推薦,將挖掘出的關(guān)聯(lián)規(guī)則應(yīng)用到推薦服務(wù)當(dāng)中[4?5],該系統(tǒng)是基于Windows XP上運(yùn)行的,并采用B/S模式,而前臺(tái)使用Visual Studio 2008集成環(huán)境,將Visual C++作為開發(fā)工具,后臺(tái)使用SQL Server 2008數(shù)據(jù)庫來保存用戶數(shù)據(jù)[1]。
2 基于讀者個(gè)性化特征數(shù)據(jù)挖掘書目推薦算法
2.1 讀者個(gè)性化特征數(shù)據(jù)挖掘
數(shù)據(jù)挖掘中最常用的方法是對(duì)個(gè)性化關(guān)聯(lián)規(guī)則展開分析,利用該規(guī)則對(duì)圖書館書目進(jìn)行推薦,具體算法如下:
書目推薦算法通常采用項(xiàng)集合x和y來表示,兩個(gè)項(xiàng)集合是相互獨(dú)立的,且不具有重復(fù)屬性[6],可表示為:[x?y=?]。集合x和y之間的個(gè)性化規(guī)則需滿足如下條件:兩項(xiàng)集合有用并且集合之間個(gè)性化規(guī)則具有一定普遍性和有趣性。比如:[T=T1,T2,…,Tm]是項(xiàng)的集合,相關(guān)數(shù)據(jù)[D]是數(shù)據(jù)庫信息的集合,其中每條信息d是項(xiàng)的集合[7],使得[d?1]。每條信息具有一個(gè)標(biāo)志符號(hào),稱為[d1]。設(shè)a是一個(gè)項(xiàng)集,信息d所包含的a當(dāng)且僅當(dāng)[a∈d]。個(gè)性化關(guān)聯(lián)規(guī)則具有[a?b]蘊(yùn)涵式,其中[a?1,b?1],并且[a?b=?]。endprint
2.2 書目推薦算法
如果個(gè)性化關(guān)聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有特征屬性支持度s,信息集合[D]中包含[a?b]的百分比也被稱為支持度,即為[pa?b]。
如果個(gè)性化關(guān)聯(lián)規(guī)則[a?b]在信息集合[D]中成立,具有置信度c,信息集合[D]中包含信息a的同時(shí)也包含b的全部信息比,也被稱為置信度[8?9],即為[pba]??删唧w表示為:
[Supporta?b=pa?bConfidencea?b=pba]
通常情況下,特征數(shù)據(jù)挖掘是在基于讀者個(gè)性化關(guān)聯(lián)規(guī)則基礎(chǔ)上實(shí)現(xiàn)的,該挖掘主要分成兩個(gè)部分:一部分是將找到的所有與關(guān)聯(lián)規(guī)則有關(guān)項(xiàng)集進(jìn)行統(tǒng)計(jì);另一部分是在上一部分產(chǎn)生項(xiàng)集基礎(chǔ)上進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則分析[10]。在挖掘過程中,中心問題是要進(jìn)行高效頻繁項(xiàng)集搜索,如果效率較低,那么每次所產(chǎn)生的候選項(xiàng)會(huì)導(dǎo)致算法在運(yùn)行過程中需要進(jìn)行一次數(shù)據(jù)庫掃描,所耗費(fèi)工作量較大,為此利用個(gè)性化關(guān)聯(lián)規(guī)則進(jìn)行繁瑣項(xiàng)集搜索。繁瑣項(xiàng)集搜索完成后,會(huì)產(chǎn)生強(qiáng)大的關(guān)聯(lián)規(guī)則,如果項(xiàng)目集中每一個(gè)頻繁項(xiàng)目集為1,那么就會(huì)產(chǎn)生1個(gè)非空子集;如果項(xiàng)目集為非空子集,且滿足大于等于最小置信度的條件,則該子集可輸出作為書目推薦。
3 實(shí) 驗(yàn)
3.1 實(shí)驗(yàn)參數(shù)設(shè)置
為了驗(yàn)證基于讀者個(gè)性化特征數(shù)據(jù)挖掘的圖書館書目推薦方法合理性,使用科學(xué)試驗(yàn)和技巧與程序的調(diào)試方法進(jìn)行相關(guān)數(shù)據(jù)收集,設(shè)計(jì)實(shí)驗(yàn)并進(jìn)行驗(yàn)證,分析個(gè)性化推薦數(shù)據(jù)挖掘算法的使用效果與準(zhǔn)確度。實(shí)驗(yàn)開發(fā)環(huán)境設(shè)置如下:處理器為[Intel?][CoreTM i5-4590CPU @3.30 GHz;]內(nèi)存為32.0 GB;系統(tǒng)種類為[Windows 10,]64位操作系統(tǒng),使用64位的處理器。
3.2 實(shí)驗(yàn)結(jié)果與分析
選舉6位閱讀者所借閱5本圖書為例,假設(shè)學(xué)生編號(hào)為[PZ],書目借閱信息為[Tx],具體數(shù)據(jù)如表1所示。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為70%的情況下,對(duì)書目推薦準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果如圖2所示。
由圖2可知,當(dāng)讀者借閱了T1和T5,傳統(tǒng)方法推薦書目為T1,而正確推薦書目應(yīng)該為T2;當(dāng)讀者借閱了T2和T5,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應(yīng)該為T1;當(dāng)讀者借閱了T5,傳統(tǒng)方法推薦書目為T1和T2,與正確推薦書目一致。由此可知,當(dāng)最小置信度閾值為70%,傳統(tǒng)方法對(duì)書目推薦準(zhǔn)確率小于本文使用的方法。
將傳統(tǒng)書目推薦方法與本文使用的推薦方法在最小置信度閾值為50%的情況下,對(duì)書目推薦準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果如圖3所示。
由圖3可知,當(dāng)讀者借閱了T1和T2,傳統(tǒng)方法推薦書目為T2,而正確推薦書目應(yīng)該為T3;當(dāng)讀者借閱了T1和T3,傳統(tǒng)方法推薦書目為T2,與正確推薦書目一致;當(dāng)讀者借閱了T2和T3,傳統(tǒng)方法推薦書目為T3,而正確推薦書目應(yīng)該為T1。由此可知,當(dāng)最小置信度閾值為50%,傳統(tǒng)方法對(duì)書目推薦準(zhǔn)確率小于本文使用的方法。
4 結(jié) 語
由于圖書館書目推薦工作意義繁重,利用基于讀者個(gè)性化特征數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,根據(jù)歷史記錄,可方便為讀者推薦感興趣書目。圖書館可通過數(shù)據(jù)挖掘?qū)⒄洳氐膱D書推薦給閱讀者,使讀者快速尋找到自己感興趣書目,具有省時(shí)、高效特征,采用該推薦方法能滿足不同借閱者個(gè)性化需求,具有一定真實(shí)性。
參考文獻(xiàn)
[1] 周欣,陸康.基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究[J].現(xiàn)代情報(bào),2016,36(1):51?56.
ZHOU Xin, LU Kang. Data mining on reader behaviors based on library digital resource system [J]. Modern information, 2016, 36(1): 51?56.
[2] 何勝,馮新翎,武群輝,等.基于用戶行為建模和大數(shù)據(jù)挖掘的圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)工作,2017,61(1):40?46.
HE Sheng, FENG Xinling, WU Qunhui, et al. Research on personalized services of library based on user behavior modeling and big data mining [J]. Library and information service, 2017, 61(1): 40?46.
[3] 陳臣.基于大數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的智慧圖書館構(gòu)建[J].現(xiàn)代情報(bào),2017,37(8):85?91.
CHEN Chen. Construction of smart library based on the big data mining and knowledge discovery [J]. Modern information, 2017, 37(8): 85?91.
[4] 韓雪飛,丁玉東,杜瑾.高校畢業(yè)季圖書館開展讀者數(shù)據(jù)留存活動(dòng)調(diào)查與建議[J].圖書情報(bào)工作,2015,59(20):77?82.
HAN Xuefei, DING Yudong, DU Jin. Investigation and suggestion on readers′ date retention activities in the graduation season in university libraries [J]. Library and information service, 2015, 59(20): 77?82.endprint