崔金環(huán) 解海
關鍵詞: 數據挖掘; 圖書館讀者; 借閱行為; Jaccard相似系數; 對稱矩陣; 喜好指數
中圖分類號: TN911.1?34; G252.0 ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)01?0166?05
Abstract: The traditional hybrid attribute method based on rough set has the problems of low utilization rate of library readers′ borrowing behavior and inaccurate analysis of readers′ book borrowing behavior. Therefore, the data mining based behavior analysis method of library readers is proposed. The clustering algorithm based on similarity coefficient matrix is used to analyze the borrowing behavior of library readers. Jaccard similarity coefficient is used to measure the similarity of high?dimensional borrowing data of library readers to reduce the dimensions of borrowing data of library readers. The new matrix is constructed while building the clustering algorithm. If all the elements in the new matrix are greater than the initial threshold, the data clustering process is completed. The construction of clustering algorithm can realize the effective classification of library readers′ behavior data, and design the recommendation service of personalized exclusive books for readers. The practical application process of the proposed method is analyzed, and the book borrowing information data of library readers is preprocessed to analyze the readers′ borrowing behavior. The experimental results show that the proposed method can improve the utilization rate of library readers′ borrowing behavior data, and has high execution efficiency and CPU utilization rate, and strong ability of book borrowing analysis behavior of readers.
Keywords: data mining; library reader; borrowing behavior; Jaccard similarity coefficient; symmetric matrix; preference index
隨著科學技術的迅猛發(fā)展,讀者對圖書借閱信息水平要求也有所提高,這就要求圖書館為讀者提供個性化和智能化的圖書借閱體驗,人們正處在數據爆炸的時代,讀者借閱圖書信息呈幾何式增長[1],數據挖掘技術的廣泛應用,可以從海量錯綜復雜的讀者借閱行為信息數據中將有利用價值的數據提取出來,供讀者和圖書館使用。因此采取合適的數據挖掘手段解決海量的讀者借閱行為信息很有必要。
針對傳統(tǒng)基于粗糙集的混合屬性方法存在對圖書館讀者借閱行為數據的利用效率低、圖書館圖書分類效果差的問題,本文提出基于數據挖掘的圖書館讀者借閱行為分析方法,提高讀者圖書借閱行為數據的利用率,增強讀者的閱讀體驗。
數據挖掘技術中常用的數據分析方法為聚類分析,通過聚類分析可實現對特定目標進行不同特征類別的劃分。本文基于數據挖掘的圖書館讀者借閱行為分析方法,通過構建一種基于相似系數矩陣的聚類算法,對圖書館讀者借閱行為實施分析,其基于相似系數矩陣進行數據聚類,將讀者按族群劃分更清晰[2],且從中挖掘出的圖書館讀者借閱行為特點更具有代表性。
對收集的高校圖書館讀者借閱圖書的原始數據實施數據清洗,即數據預處理過程。本文根據《中圖法》對表1中借閱圖書的圖書編號的部分信息進行提取[7];根據讀者就讀專業(yè)獲取專業(yè)信息;從原始數據中獲取讀者借閱圖書的月份,并將其轉換為周信息;根據讀者的入學信息得到讀者入學日期及借閱圖書時所在年級信息。表2為對高校圖書館讀者借閱圖書信息的數據預處理結果[8]。將原始數據進行離散化操作,轉化為normal的數據形式,便于挖掘隱含的讀者借閱行為數據關系,數據轉化為刪除一些不必要的數據內容,將數據聚類所需的讀者學號、圖書編號和院系信息等提取出來,獲取完備的圖書借閱行為數據。
本文采用上述對圖書館讀者借閱圖書信息數據預處理結果對讀者閱讀行為進行分析,對讀者圖書館圖書借閱行為實施定義,其中讀者圖書借閱行為包括圖書借閱的頻率、圖書借閱的喜好等。本文方法將借閱頻率用[Tb]表示,即在單位時間內讀者借閱圖書的次數,通常以月或季度為單位;讀者閱讀喜好用[Tc]表示,即在單位時間內讀者借閱某一類圖書的次數,由此得出讀者借閱圖書的喜好指數RI:
[RI=TcTb] (4)
RI的值越大表明讀者對該圖書的借閱率就越高。本文對圖書館讀者借閱圖書的喜好有如下規(guī)定:若該喜好指數在[0,0.1]之間,認為讀者的借閱喜好偏小;若該值在[0.1,0.4]之間,說明讀者借閱喜好一般;若該值在[0.4,0.6]之間,說明讀者的借閱喜好偏中上等;讀者對圖書借閱水平最高是RI在[0.6,1]之間。表3為該校圖書館整理和計算后的圖書借閱數據庫記錄。
從表3整理后的數據庫中隨機選取50條記錄用于對讀者借閱行為實施分析。依據相關的數據統(tǒng)計方法,對50條數據記錄進行數據分析和挖掘,針對專業(yè)和讀者借閱頻率、借閱喜好三者關系進行分析,設置本文方法相似度系數是0.05。表4為本文方法下讀者就讀專業(yè)與圖書借閱頻率的相關性分析結果,對其實施相似度聚類分析得出,就讀專業(yè)與圖書借閱頻率并無較大關聯[9],學生經??鐚I(yè)借閱圖書,非文學專業(yè)的學生也會到圖書館借閱文學類的圖書。
從表5專業(yè)和讀者圖書借閱喜好相關分析結果可知,兩者的相關性較顯著,顯著性(雙側)為0.14與0.05較接近[10],出現這種現象的原因是專業(yè)的跨度導致讀者對圖書借閱喜好的差異較大。
通過對上文本文方法的讀者借閱行為分析結果可以看出,讀者借閱圖書行為與讀者就讀專業(yè)無明顯關系,與讀者對圖書的個人喜好有關。
實驗采用本文方法對某校隨機選取的100位讀者的圖書借閱行為數據進行聚類,劃分為12個類別,這些類別都是基于中圖分類號進行劃分,每位讀者都至少借閱一本書為數據劃分的主要特征,50人以上借閱過的圖書為次要特征。平均值為類中借閱圖書的均值,對實驗選取的圖書借閱行為數據的聚類結果如表6所示。
由表6可以看出,讀者借閱圖書的類別特征和平均值中一些借閱均值較大,說明該圖書類別應用面較廣。從聚類組1中可以看出,有11個讀者借閱的圖書借閱均值為135,圖書類別囊括了D6(中國政治)、D9(法律)和F0(經濟學),從讀者借閱圖書的類別特征能得出讀者閱讀行為的特點,在對這些讀者推薦圖書時應優(yōu)先推送這些書籍。從聚類組2中,7個讀者的平均圖書借閱量為62本,圖書類別包括D6(中國政治)、F8(金融)和I2(世界文學)。聚類組3中7個讀者以及組4中12個讀者,借閱圖書的均值分別是51和49.4,組3中讀者對世界文學(I2)更為感興趣,對常用外國語(H3)以及中國史(K2)等圖書感興趣度一般;組4中讀者對世界文學(I2)以及數學(O1)更為感興趣,對外國語(H3)以及經濟計劃與管理(F2)等圖書感興趣度一般。
綜合分析這些結果說明,采用本文方法可提高讀者借閱行為數據的利用率,對讀者借閱行為分析能力強,針對不同讀者的借閱行為向其推送可能感興趣的圖書,增強讀者的閱讀興趣。
為驗證本文方法的性能,在Inter[?] CoreTM 2 Duo CPU,主頻為2.1 GHz,內存容量為2 GB,硬盤擴展容量為550 GB的電腦端進行實驗。實驗依據Visual Studio 2010編程實現,分別采用本文方法和傳統(tǒng)基于粗糙集的混合屬性算法對上文高校圖書館讀者借閱行為的原始數據實施分析。實驗設置本文最小的支持度為Min_sup=10%,選取的圖書館讀者借閱行為原始數據規(guī)模從10~50 KB,實驗對不同數據規(guī)模下兩種方法的執(zhí)行時間和CPU利用率進行比較,結果分別如圖1,圖2所示。
從圖1中可以明顯看出,兩種方法執(zhí)行時間隨著數據量的擴大而增加,但本文方法的用時在12~13 ms之間,當數據增加到一定規(guī)模后,方法用時趨于穩(wěn)定,展示了方法良好的運行能力。而傳統(tǒng)的基于粗糙集的混合屬性方法從運算初始用時就較長,隨著數據規(guī)模的擴大,方法執(zhí)行用時也不斷增加,明顯高于本文方法。由此可以得出,當圖書館讀者借閱行為數據較大時,采用本文方法對數據處理用時較短,執(zhí)行效率高,滿足讀者的實時使用需求,提高了圖書館的圖書借閱效率。
由圖2可以看出,本文方法的CPU利用率隨著數據規(guī)模的擴大,CPU利用率也越來越高在95%以上,傳統(tǒng)方法的CPU利用率隨數據規(guī)模的擴大而減小,說明方法的執(zhí)行速度越來越慢,因此本文方法能提高CPU的利用率,縮短數據任務執(zhí)行時間。
本文提出的基于數據挖掘的圖書館讀者借閱行為分析方法,能有效地提高圖書館讀者借閱行為數據的利用率,明確讀者圖書借閱行為,并針對讀者的閱讀愛好向其推薦感興趣的圖書。
參考文獻
[1] 茹文,忻展紅.圖書館借閱數據分類信息的關聯性研究[J].北京郵電大學學報(社會科學版),2016,18(1):14?19.
RU Wen, XIN Zhanhong. Associations between different classifications of library circulation data [J]. Journal of Beijing University of Posts and Telecommunications (social sciences edition), 2016, 18(1): 14?19.
[2] 朱會華.基于讀者借閱數據的館藏結構合理性分析[J].現代情報,2015,35(2):128?132.
ZHU Huihua. An analysis of rationality library collection structure based on reader borrowing data [J]. Modern information, 2015, 35(2): 128?132.
[3] 孟德泉,董穎,沙婭弘,等.基于OPAC統(tǒng)計數據的借閱率提升策略探討[J].大學圖書館學報,2014,32(5):73?78.
MENG Dequan, DONG Ying, SHA Yahong, et al. The promotion strategy of lending rate based on the statistical data of OPAC [J]. Journal of academic libraries, 2014, 32(5): 73?78.
[4] 許桂菊.新加坡國家圖書館管理局閱讀推廣活動可持續(xù)發(fā)展探析[J].國家圖書館學刊,2015,24(2):95?103.
XU Guiju. Analysis on the sustainable development of library reading promotion activities of the National Library Board Singapore [J]. Journal of the National Library of China, 2015, 24(2): 95?103.
[5] 韓晗.“互聯網+”與市民閱讀的形成:以2015年中國十大公共圖書館借閱排行榜為例[J].出版科學,2016,24(6):57?59.
HAN Han. ″Internet Plus″ and citizen reading′s formation [J]. Publishing journal, 2016, 24(6): 57?59.
[6] 都藍,肖麗萍,李賓.基于數據平臺的圖書館畢業(yè)季服務實踐研究:以暨南大學圖書館為例[J].圖書情報工作,2015,59(22):79?83.
DU Lan, XIAO Liping, LI Bin. Research on the graduation season service in the academic library based on data platform: a case study of Jinan University Library [J]. Library and information service, 2015, 59(22): 79?83.
[7] 周偉,陳立龍,宋建文.基于增強現實技術的圖書館導航系統(tǒng)研究[J].系統(tǒng)仿真學報,2015,27(4):810?815.
ZHOU Wei, CHEN Lilong, SONG Jianwen. Research on augmented reality of library′s navigation system [J]. Journal of system simulation, 2015, 27(4): 810?815.
[8] 李善青,趙輝,宋立榮.基于大數據挖掘的科技項目查重模型研究[J].圖書館論壇,2014,34(2):78?83.
LI Shanqing, ZHAO Hui, SONG Lirong. Study on detection model of similar scientific project based on big data mining [J]. Library tribune, 2014, 34(2): 78?83.
[9] 鄭祥云,陳志剛,黃瑞,等.基于主題模型的個性化圖書推薦算法[J].計算機應用,2015,35(9):2569?2573.
ZHENG Xiangyun, CHEN Zhigang, HUANG Rui, et al. Personalized book recommendation algorithm based on topic model [J]. Journal of computer applications, 2015, 35(9): 2569?2573.
[10] 夏翠娟,劉煒,陳濤,等.家譜關聯數據服務平臺的開發(fā)實踐[J].中國圖書館學報,2016,42(3):27?38.
XIA Cuijuan, ?LIU Wei, ?CHEN Tao, et al. A genealogy data service platform implemented with linked data technology [J]. Journal of library science in China, 2016, 42(3): 27?38.