曹 流,韋 相,王 晶
(1.中國(guó)石油大學(xué)地球科學(xué)學(xué)院大數(shù)據(jù)研究所,北京 102200;2.紅河學(xué)院工學(xué)院,云南蒙自 661199)
聚類分析是通過計(jì)算樣本的距離并按照某種標(biāo)準(zhǔn)將樣本劃分成若干不相交的子集。大多數(shù)的聚類算法都需要事先確定聚類數(shù)。然而,目前常用的一些聚類有效性指標(biāo)都存在著一定缺陷,對(duì)圖書館用戶進(jìn)行聚類研究時(shí)應(yīng)使用何種聚類指標(biāo)、如何確定最佳聚類數(shù)也尚無確切方法。
文章引用聚類有效性指標(biāo)——G A 指標(biāo)(Generalization Ability),該指標(biāo)可以對(duì)當(dāng)前聚類結(jié)果的泛化能力進(jìn)行評(píng)價(jià)來判斷聚類結(jié)果的優(yōu)劣,計(jì)算流程如圖1所示[1]。借用GA指數(shù)計(jì)算結(jié)果來確定圖書館用戶最佳聚類數(shù)是一種可行的有效方法,計(jì)算過程及結(jié)果如圖2所示。
圖1 GA指標(biāo)計(jì)算流程圖
由圖2可知,圖書館借閱用戶聚類時(shí)的最佳聚類數(shù)為3。采用基于歐式距離的K-means聚類,以借閱次數(shù)為聚類中心,將借閱用戶分為了三類(惰性用戶、一般用戶、活躍用戶),如表1所示。
表1 用戶聚類示意表
圖2 不同K值下的GA指數(shù)圖
分析發(fā)現(xiàn),對(duì)于惰性用戶,在大學(xué)四年里總共借書5.425 本,每年平均借書約1.35 本;對(duì)于一般用戶,四年共借書31.41 本,每年平均借書約8 本;而對(duì)于活躍用戶,四年共借書115.441 本,每年平均借書約28.86 本。
經(jīng)過分析,不同類別用戶數(shù)量的分布情況和分類比例可以看出,惰性用戶占多數(shù),達(dá)到42%,活躍用戶占比最少,占21%,三類用戶占比約是4:4:2,符合二八定律。
綜上所述,圖書館管理層可根據(jù)圖書館用戶活躍程度的差異,分析這三類用戶不同的個(gè)性化閱讀需求,提出相應(yīng)的個(gè)性化策略,提高圖書館藏利用率。例如,每當(dāng)購進(jìn)新書時(shí),可以通過信息推送的方式將新到圖書推薦給圖書館的活躍用戶以提升館藏利用率;又或者,針對(duì)圖書館活躍用戶的個(gè)性化需求,以信息推送、問卷調(diào)查等形式與活躍群體保持聯(lián)系,獲取不同方面的信息反饋以改進(jìn)圖書館服務(wù)、圖書購買計(jì)劃等。
關(guān)聯(lián)規(guī)則是指支持度和置信度分別滿足給定閾值的規(guī)則。支持度是指同時(shí)包含A和B的事務(wù)占所有事務(wù)的比例;置信度表示包含A的事務(wù)中同時(shí)包含B事務(wù)的比例,即同時(shí)包含A和B的事務(wù)占包含A事務(wù)的比例。
該算法用于超市訂單分析時(shí),能夠確定顧客在一次購物中可能一起購買的商品,挖掘不同商品之間的聯(lián)系、顧客購買行為之間的關(guān)聯(lián)。因此可以認(rèn)為關(guān)聯(lián)規(guī)則能夠分析圖書館被借閱圖書之間的關(guān)聯(lián)性[2],引導(dǎo)圖書擺放、圖書購置等工作,提高圖書借用率。
依照中國(guó)圖書分類號(hào),設(shè)定支持度閾值為0.05對(duì)表2所示項(xiàng)集進(jìn)行第一次篩選。
表2 一元項(xiàng)集支持度
由表2得到一元頻繁項(xiàng)集結(jié)果:['T','G','K','O','B','H','I']。
再對(duì)一元項(xiàng)集進(jìn)行排列組合,得到二元項(xiàng)集,如表3所示:
表3 二元項(xiàng)集支持度
再設(shè)定二元項(xiàng)集支持度閾值為0.05,對(duì)表4項(xiàng)集進(jìn)行篩選,得到二元頻繁項(xiàng)集,形成了關(guān)聯(lián)規(guī)則:[['T','H'],['T','I'],['G','H'],['G','I'],['K','B'],['K','H'],['K','I'],['O','H'],['O','I'],['B','K'],['B','H'],['B','I'],['H','T'],['H','G'],['H','K'],['H','O'],['H','B'],['H','I'],['I','T'],['I','G'],['I','K'],['I','O'],['I','B'],['I','H']]。
表4 二元項(xiàng)集置信度
根據(jù)中國(guó)圖書分類號(hào),T表示工業(yè)技術(shù)類,H表示語言文字類,I表示文學(xué),關(guān)聯(lián)規(guī)則['T','H']表示借閱了工業(yè)技術(shù)類書籍的用戶,很大程度上也會(huì)借閱語言文字類書籍;關(guān)聯(lián)規(guī)則['T','I']則表示借閱了工業(yè)技術(shù)類書籍的用戶,很大程度上也會(huì)借閱文學(xué)類書籍。
綜上所述,借助關(guān)聯(lián)規(guī)則可以引導(dǎo)圖書館的圖書排放、圖書購置等工作,提高圖書館的工作效率。例如,將工業(yè)技術(shù)類書籍和語言文學(xué)類書籍?dāng)[放在同一借閱區(qū)域;或是在用戶使用自助借閱系統(tǒng)、電子借閱系統(tǒng)借閱工業(yè)技術(shù)類書籍時(shí),自動(dòng)推薦語言文學(xué)類書籍以提高其他圖書的借閱率。
讀者喜歡借閱哪類圖書,受到什么因素的影響,一直是圖書館和出版社關(guān)注的焦點(diǎn)。通過對(duì)紅河學(xué)院圖書館2004年到2018年,共14年所有圖書借閱次數(shù)進(jìn)行統(tǒng)計(jì),獲取歷年理工類和文史類最受歡迎(被借閱次數(shù)最多)的20本書,并對(duì)這類圖書進(jìn)行文本分析。因表格較多,且得到的是一些共性的規(guī)律,因而主要對(duì)2004年、2006年、2008年、2010年、2012年、2014年、2016年和2018年的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析。這里以2004年為例:
表5 2004年理工和文史類借閱次數(shù)前二十名圖書
通過對(duì)2004年的借閱數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),對(duì)于理工類而言,學(xué)生借閱最多的數(shù)學(xué)類書籍,占20本理工類書籍的65%、其他的是物理類、計(jì)算機(jī)類和化學(xué)類相關(guān)專業(yè)平臺(tái)必修課的參考書籍;對(duì)于文史類而言,借閱的書籍主要分為2類:(1)英語考試和寫作類的書籍,分別是排名第1的《大學(xué)英語三級(jí)考試指導(dǎo)與練習(xí)》和排名第3的《大學(xué)英語四級(jí)考試90分突破詞匯必備》,以及排名第10的《應(yīng)用文寫作范例大全》;(2)任課教師推薦的經(jīng)典小說,比如排名第2的《塵埃落定》、排名第7的《茶花女》、排名第16的《巴黎圣母院》、排名第17《鋼鐵是怎樣煉成的》和排名第19的《外國(guó)短篇小說百年精華》。對(duì)于2006年、2008年、2010年、2012年、2014年、2016年和2018年的數(shù)據(jù)統(tǒng)計(jì)和分析結(jié)果,詳見與補(bǔ)充材料。
結(jié)合所有分析結(jié)果可知:該校在2006年時(shí)的借閱書籍還以網(wǎng)絡(luò)小說為主,而從2008年開始經(jīng)典名著的借閱次數(shù)便開始逐步上升。從2010年開始,國(guó)內(nèi)外名著的借閱次數(shù)排名開始全面占優(yōu)且一直持續(xù)到2018年。同時(shí),從2014開始逐漸有了與教師行業(yè)相關(guān)的圖書借閱記錄。結(jié)合實(shí)際情況,十一五期間是我國(guó)圖書館轉(zhuǎn)型發(fā)展的重要時(shí)期,業(yè)界和學(xué)界都積極響應(yīng)了國(guó)家政策,大力推動(dòng)我國(guó)圖書館的發(fā)展、讓圖書走進(jìn)各級(jí)各類學(xué)校,從紅河學(xué)院圖書館的借閱記錄發(fā)展變化中也可見一斑。此外,也可以看出國(guó)家“多讀書,讀經(jīng)典”的號(hào)召取得了不錯(cuò)的效果,讀者的閱讀素養(yǎng)在隨時(shí)間變化不斷提高。
圖書館和出版社可以借助該項(xiàng)研究,結(jié)合第1章的用戶聚類結(jié)果分析不同用戶群體的需求方向,擴(kuò)大出版書籍的受眾面,并在出版策略上更加積極的向國(guó)家政策靠攏。也可以結(jié)合第2章的關(guān)聯(lián)規(guī)則算法分析高頻借閱書籍的關(guān)聯(lián)書籍,仔細(xì)考究高頻借閱書籍與其關(guān)聯(lián)書籍的擺放,提高其他書籍的借閱率。
時(shí)間序列分析研究一組真實(shí)數(shù)據(jù)在長(zhǎng)期變化過程中存在的統(tǒng)計(jì)規(guī)律,通過揭示該規(guī)律來了解所要研究的動(dòng)態(tài)系統(tǒng),得出預(yù)測(cè)模型,解決實(shí)際問題或提高決策水平[3]。
通過一系列的數(shù)據(jù)處理和檢驗(yàn)后,使用ARMA模型[4]對(duì)未來借閱趨勢(shì)進(jìn)行預(yù)測(cè),如下所示,圖6上圖是2005—2018年原始借閱數(shù)據(jù)趨勢(shì)圖;圖6下圖藍(lán)線表示2016年—2018年原始借閱數(shù)據(jù)趨勢(shì)圖,紅線為預(yù)測(cè)值,不難看出除陡然上升的特殊數(shù)值外,其他預(yù)測(cè)值與實(shí)際值擬合較為準(zhǔn)確。
由圖3可以發(fā)現(xiàn)紙質(zhì)書籍借閱量在2007年至2009年間達(dá)到頂峰,隨后開始大致保持下跌趨勢(shì),直至2016年迅速回升,隨后再次下跌。主要原因如下:
圖3 借閱趨勢(shì)預(yù)測(cè)模型圖
(1)紅河學(xué)院在2016年新建圖書館,隨后借閱量陡然上升,從中可以看出一個(gè)良好、舒適的學(xué)習(xí)環(huán)境,有利于提高學(xué)生學(xué)習(xí)積極性和自覺性。
(2)而從總體趨勢(shì)不難看出,紙質(zhì)圖書的借閱逐年降低。通過了解發(fā)現(xiàn),電子圖書因其便捷的獲取方式,逐漸成為同學(xué)們快速獲取信息的方式,因此對(duì)紙質(zhì)圖書的借閱帶來了不可避免的沖擊,導(dǎo)致學(xué)生紙質(zhì)圖書的借閱逐年降低。
綜上所述,圖書館可以借助時(shí)間序列相關(guān)分析提高電子書籍的館藏占比,結(jié)合第1章與第2章的研究?jī)?nèi)容將電子書籍以信息推送的方式推薦給活躍用戶群體,提高圖書借閱率;或者合理安排服務(wù)人員配置,在借閱高峰來臨前安排好人員配置、清潔打掃和圖書回收整理等工作,以便在人流高峰時(shí)間提供更為優(yōu)質(zhì)的服務(wù)。度過高峰后便可以減少人員配置、降低清潔頻率等,降低人力成本和日常開支。
對(duì)文章內(nèi)容總結(jié)如下:
(1)通過基于GA指標(biāo)的聚類分析算法得到了圖書館用戶的最佳聚類數(shù)為3,以借書量1.35本、8本、28.86本為聚類中心將借閱用戶分為了惰性、一般、活躍三類,可以結(jié)合關(guān)聯(lián)規(guī)則、文本分析等算法對(duì)圖書館用戶進(jìn)行詳細(xì)畫像以支撐其他研究或圖書館決策;
(2)通過關(guān)聯(lián)規(guī)則算法得到了被借閱圖書之間的關(guān)聯(lián)性,例如借閱了工業(yè)技術(shù)類書籍的用戶,很大程度上也會(huì)借閱語言文字類書籍,該項(xiàng)研究可以引導(dǎo)圖書館的圖書排放、圖書購置等工作,提高圖書館的工作效率;或是在用戶使用自助借閱系統(tǒng)、電子借閱系統(tǒng)借閱工業(yè)技術(shù)類書籍時(shí),自動(dòng)推薦語言文學(xué)類書籍以提高其他圖書的借閱率;
(3)通過統(tǒng)計(jì)和文本分析發(fā)現(xiàn)了專業(yè)區(qū)別、教師引導(dǎo)及政策導(dǎo)向?qū)W(xué)生圖書借閱存在關(guān)鍵作用??梢越柚擁?xiàng)研究,結(jié)合用戶聚類結(jié)果分析不同用戶群體的需求方向,擴(kuò)大出版書籍的受眾面,并在出版策略上更加積極的向國(guó)家政策靠攏。也可以結(jié)合關(guān)聯(lián)規(guī)則算法分析高頻借閱書籍的關(guān)聯(lián)書籍,仔細(xì)考究高頻借閱書籍與其關(guān)聯(lián)書籍的擺放,提高其他書籍的借閱率;
(4)通過時(shí)間序列算法分析了該校圖書館2007年至2019年的借閱趨勢(shì)變化,發(fā)現(xiàn)電子圖書對(duì)紙質(zhì)圖書的沖擊導(dǎo)致紙質(zhì)圖書借閱量呈現(xiàn)總體下降的趨勢(shì)以及閱讀環(huán)境對(duì)圖書借閱量有著一定影響,并給出了借閱趨勢(shì)變化預(yù)測(cè)和提高電子書籍館藏占比的建議。該算法可以與聚類分析和關(guān)聯(lián)規(guī)則的研究?jī)?nèi)容相結(jié)合,將電子書籍以信息推送的方式推薦給活躍用戶群體,提高圖書借閱率;或者合理安排服務(wù)人員配置,在借閱高峰來臨前安排好人員配置、清潔打掃和圖書回收整理等工作,以便在人流高峰時(shí)間提供更為優(yōu)質(zhì)的服務(wù)。度過高峰后便可以減少人員配置、降低清潔頻率等,降低人力成本和日常開支。
以上四個(gè)結(jié)論有助于圖書館管理層或出版社從用戶群體、用戶需求、時(shí)間緯度等不同角度針對(duì)不同用戶個(gè)性化需求,提出相應(yīng)的個(gè)性化服務(wù)策略;也可以結(jié)合多個(gè)算法給予圖書館及出版社決策層以大數(shù)據(jù)支撐,準(zhǔn)確提出圖書刊印、購買計(jì)劃,從而提高圖書館藏利用率和工作效率。