任麗紅
摘 ?要: 圖書館讀者的數(shù)量大、借閱行為復(fù)雜多變,而傳統(tǒng)圖書館讀者借閱行為分析方法精度不高,且工作效率極低,無(wú)法滿足現(xiàn)代圖書館管理的要求。為了更好地刻畫圖書館讀者借閱行為,提高圖書館讀者借閱行為分析的準(zhǔn)確性,設(shè)計(jì)了大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法。首先,分析圖書館讀者借閱行為的研究現(xiàn)狀,對(duì)圖書館讀者借閱行為分析數(shù)據(jù)進(jìn)行聚類分析,并提取圖書館讀者借閱行為分析特征;然后,采用大數(shù)據(jù)分析技術(shù)——最小二乘支持向量機(jī)對(duì)圖書館讀者借閱行為變化特點(diǎn)進(jìn)行擬合,構(gòu)建圖書館讀者借閱行為分析模型;最后進(jìn)行圖書館讀者借閱行為分析實(shí)例驗(yàn)證。結(jié)果表明,大數(shù)據(jù)背景下的圖書館讀者借閱行為分析精度超過93%,而當(dāng)前其他分析方法的精度均小于90%,同時(shí),減少了圖書館讀者借閱行為分析時(shí)間,所提方法分析速度明顯加快,具有顯著的優(yōu)勢(shì)。
關(guān)鍵詞: 借閱行為分析; 圖書館讀者; 聚類分析; 特點(diǎn)擬合; 分析模型構(gòu)建; 實(shí)例驗(yàn)證
中圖分類號(hào): TN911.1?34; TP391 ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)07?0090?04
Library readers′ borrowing behavior analysis under background of big data
REN Lihong
(Handan University, Handan 056005, China)
Abstract: Due to the large number of library readers and the various and complex library readers′ borrowing behavior, the precision of traditional analysis methods of library readers′ borrowing behavior is not high, and the working efficiency of the methods is extremely low. Therefore, they cannot meet the requirements of modern library management. In order to satisfactorily describe the library readers′ borrowing behavior and improve the precision of library readers′ borrowing behavior analysis, an analysis method of the library readers′ borrowing behavior under the background of big data is designed. The research status of the library readers′ borrowing behavior is studied, and then, the data of the library readers′ borrowing behavior analysis is subjected to clustering analysis, and the features of library readers′ borrowing behavior analysis are extracted. After that, the big data analysis technology named least squares support vector machine (LS?SVM) is used to fit the change characteristics of the library readers′ borrowing behavior and construct the analysis model of library readers′ borrowing behavior. Finally, examples are given to verify the library readers′ borrowing behavior analysis. The results show that the precision of the library readers′ borrowing behavior analysis under the background of big data exceeds 93%, while the precision obtained with other analysis methods is below 90%. In addition, the duration of the library readers′ borrowing behavior analysis using the proposed method is reduced and the analysis speed is obviously accelerated. Therefore, the proposed method has significantly advantages.
Keywords: borrowing behavior analysis; library reader; clustering analysis; characteristic fitting; analysis model establishment; example verification
0 ?引 ?言
圖書館是人們獲取知識(shí)的重要場(chǎng)所,其對(duì)高校的教學(xué)質(zhì)量、科研起著重要的作用,全國(guó)各地的高校均建立了自己的圖書館管理系統(tǒng),大幅度提高了圖書館的管理水平,也減輕了圖書管理員的工作量[1?3]。圖書館管理系統(tǒng)經(jīng)過多年運(yùn)營(yíng),積累了大量的歷史數(shù)據(jù),如圖書數(shù)據(jù)、讀者數(shù)據(jù)等,對(duì)這些數(shù)據(jù)進(jìn)行深度挖掘,掌握讀者的借閱行為習(xí)慣和規(guī)律,可以為讀者提供更優(yōu)的服務(wù),因此,對(duì)圖書館讀者的借閱行為進(jìn)行研究,對(duì)于提高圖書館的管理水平具有十分重要的意義[4?5]。
最初由于圖書館讀者借閱行為的歷史數(shù)據(jù)較少,通常采用人工方式對(duì)圖書館讀者借閱行為進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)與分析,難以充分找到圖書館讀者借閱行為的規(guī)律,館藏資源利用率低[6]。隨著自動(dòng)化技術(shù)、信息處理技術(shù)的不斷發(fā)展,出現(xiàn)了許多基于數(shù)據(jù)挖掘技術(shù)的圖書館讀者借閱行為分析方法[7],如基于時(shí)間序列分析法的圖書館讀者借閱行為分析方法[8],根據(jù)時(shí)間前后采集圖書館讀者借閱行為,但是其無(wú)法全面、客觀地描述圖書館讀者借閱行為變化特點(diǎn),使得圖書館讀者借閱行為分析結(jié)果不可靠[9];基于關(guān)聯(lián)規(guī)則算法的圖書館讀者借閱行為分析方法,反映了圖書館讀者與借閱活動(dòng)之間的聯(lián)系[10],但是其屬于線性分析技術(shù),而圖書館讀者與借閱活動(dòng)之間的聯(lián)系具有隨機(jī)性,即非線性,因此圖書館讀者借閱行為分析誤差大[11];有學(xué)者提出了基于流通日志的高校學(xué)生圖書借閱行為分析方法[12],從流量日志找到讀者圖書借閱行為變化規(guī)律,但是由于當(dāng)前流通日志數(shù)據(jù)量相當(dāng)大,其圖書館讀者借閱行為分析時(shí)間長(zhǎng),效率低[13?15]。
為了更好地描述圖書館讀者借閱行為變化特點(diǎn),獲得高精度的圖書館讀者借閱行為分析結(jié)果,提出大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法,并通過實(shí)例分析本文圖書館讀者借閱行為分析方法的有效性和優(yōu)越性。
1 ?大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法
1.1 ?聚類分析算法
對(duì)于[n]個(gè)圖書館讀者借閱行為分析數(shù)據(jù)[X={x1,x2,…,xi,…,xn}],設(shè)有[k]個(gè)聚類,即有[k]個(gè)類別的圖書館讀者借閱行為,聚類分析算法的工作原理為:從[n]個(gè)圖書館讀者借閱行為數(shù)據(jù)中隨機(jī)選擇[k]個(gè)圖書館讀者借閱行為數(shù)據(jù)為初始聚類中心,其他圖書館讀者借閱行為數(shù)據(jù)根據(jù)其與聚類中心距離分別分配到最相似的類別中。
1) [cj]表示第[j]類的圖書館讀者借閱行為類的中心,那么[xi]和[cj]的距離為:
[d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2] ?(1)
[xi]和[cj]之間的相似度計(jì)算公式為:
[s(xi,cj)=1d(xi,cj)] (2)
2) 對(duì)所有聚類中心進(jìn)行更新,第[j]個(gè)類別的圖書館讀者借閱行為分析樣本集合為[{xj1,xj2,…,xjnj}],相應(yīng)聚類中心為[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]為[cj]的第[k]個(gè)屬性,具體如下:
[ckj=xkj1+xkj2+…+xkjnjnj] (3)
3) 不斷重復(fù)上述步驟,直到更新后的類中心和更新前一致為止,采用均方差作為測(cè)度標(biāo)準(zhǔn),即:
[J=i=1kj=1ni(xij-ci)2(n-1)] (4)
通過上述步驟,就可以得到一個(gè)圖書館讀者借閱行為分析樣本的相似歷史樣本數(shù)量,不用選擇所有的圖書館讀者借閱行為歷史樣本進(jìn)行建模,減少了圖書館讀者借閱行為分析樣本數(shù)量,可以提高圖書館讀者借閱行為分析效率。
1.2 ?提取圖書館讀者借閱行為分析特征
每個(gè)圖書館讀者借閱行為有自己的特征,可以根據(jù)這些特征來識(shí)別相應(yīng)的圖書館讀者借閱行為。本文從3個(gè)方面提取讀者借閱行為特征:
1) 讀者借閱圖書的月時(shí)間、周時(shí)間和時(shí)段;
2) 讀者專業(yè)、讀者學(xué)歷、讀者的職業(yè)、讀者的年齡段;
3) 讀者借閱書籍類型、讀者借閱書籍?dāng)?shù)量。
1.3 ?圖書館讀者借閱行為分析算法
由于圖書館讀者的數(shù)量大、借閱行為復(fù)雜多變,結(jié)合該特點(diǎn),本文采用大數(shù)據(jù)分析技術(shù)——最小二乘支持向量機(jī)對(duì)圖書館讀者借閱行為變化特點(diǎn)進(jìn)行擬合,構(gòu)建圖書館讀者借閱行為分析模型。給定[M]個(gè)圖書館讀者借閱行為分析數(shù)據(jù)[{xi,yi}],[i=1,2,…,n],構(gòu)造最優(yōu)圖書館讀者借閱行為分析數(shù)據(jù)決策函數(shù):
[f(x)=wTφ(x)+b] (5)
式中:[b]為偏置量;[w]為權(quán)值向量。
根據(jù)現(xiàn)代統(tǒng)計(jì)學(xué)理論得到滿足式(5)的條件為:
[yi-wTφ(x)+b≤εmin J=12wTw] (6)
根據(jù)最小二乘支持向量機(jī)的工作原理將式(6)轉(zhuǎn)換為:
[minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t. ? ?yi=wTφ(xi)+b+ei] (7)
式中[γ]表示控制誤差的懲罰程度。
引入拉格朗日乘子法解決式(7),建立拉格朗日函數(shù):
[L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)
式中[αi]表示拉格朗日乘子。
根據(jù)優(yōu)化條件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定義核函數(shù)[K(xi,xj)=φT(xi)φ(xj)],得到圖書館讀者借閱行為分析模型為:
[yi=i=1nαiK(xi,xj)+b ] (9)
1.4 ?大數(shù)據(jù)背景下的圖書館讀者借閱行為分析原理
大數(shù)據(jù)背景下的圖書館讀者借閱行為分析原理為:
1) 采集圖書館讀者借閱行為分析數(shù)據(jù);
2) 對(duì)圖書館讀者借閱行為分析數(shù)據(jù)進(jìn)行聚類分析,并提取圖書館讀者借閱行為分析特征;
3) 采用大數(shù)據(jù)分析技術(shù)——最小二乘支持向量機(jī)對(duì)圖書館讀者借閱行為變化特點(diǎn)進(jìn)行擬合,構(gòu)建圖書館讀者借閱行為分析模型,具體如圖1所示。
2 ?圖書館讀者借閱行為分析實(shí)例
2.1 ?圖書館讀者借閱行為的數(shù)據(jù)來源
為了分析大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法的性能,選擇5個(gè)圖書館讀者借閱行為的歷史數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,它們的歷史數(shù)據(jù)數(shù)量如表1所示。將歷史數(shù)據(jù)根據(jù)5[∶]1的比例劃分為訓(xùn)練樣本和測(cè)試樣本。選擇基于關(guān)聯(lián)規(guī)則算法的圖書館讀者借閱行為分析方法、基于時(shí)間序列分析法的圖書館讀者借閱行為分析方法進(jìn)行對(duì)照實(shí)驗(yàn),使用Visual Studio 2014編程開發(fā)工具實(shí)現(xiàn)圖書館讀者借閱行為分析仿真實(shí)驗(yàn)。
2.2 ?圖書館讀者借閱行為分析精度
分別采用本文方法、關(guān)聯(lián)規(guī)則算法、時(shí)間序列分析法對(duì)表1中的5個(gè)圖書館讀者借閱行為分析的訓(xùn)練數(shù)據(jù)集合進(jìn)行建模,建立圖書館讀者借閱行為分析模型,然后對(duì)5個(gè)圖書館讀者借閱行為分析的測(cè)試數(shù)據(jù)集合進(jìn)行分析,統(tǒng)計(jì)它們的分析精度,結(jié)果如圖2所示。從圖2可以發(fā)現(xiàn),大數(shù)據(jù)背景下的圖書館讀者借閱行為分析精度平均值為93.16%,關(guān)聯(lián)規(guī)則算法、時(shí)間序列分析法下的圖書館讀者借閱行為分析精度平均值為88.98%和86.90%,相對(duì)于關(guān)聯(lián)規(guī)則算法、時(shí)間序列分析法,本文方法的圖書館讀者借閱行為分析精度分別提高了4.18%和6.26%,減少了圖書館讀者借閱行為分析誤差,不僅獲得了更好的圖書館讀者借閱行為分析結(jié)果,而且圖書館讀者借閱行為分析結(jié)果十分穩(wěn)定,更加可信。
2.3 ?圖書館讀者借閱行為分析速度
分別統(tǒng)計(jì)本文方法、關(guān)聯(lián)規(guī)則算法、時(shí)間序列分析法對(duì)5個(gè)圖書館讀者借閱行為分析數(shù)據(jù)的訓(xùn)練時(shí)間和測(cè)試時(shí)間,結(jié)果分別如圖3,圖4所示。從圖3可以發(fā)現(xiàn),大數(shù)據(jù)背景下的圖書館讀者借閱行為分析的訓(xùn)練時(shí)間明顯低于關(guān)聯(lián)規(guī)則算法和時(shí)間序列分析法,加快了圖書館讀者借閱行為分析的訓(xùn)練速度;從圖4可知,本文方法的圖書館讀者借閱行為分析的測(cè)試時(shí)間少于關(guān)聯(lián)規(guī)則算法、時(shí)間序列分析法,提升了圖書館讀者借閱行為的分析速度。
3 ?結(jié) ?語(yǔ)
讀者借閱行為分析法是當(dāng)前現(xiàn)代圖書館管理研究的一個(gè)重要方向,為了獲得理想的圖書館讀者借閱行為分析結(jié)果,設(shè)計(jì)了大數(shù)據(jù)背景下的圖書館讀者借閱行為分析方法。首先,通過聚類分析算法對(duì)圖書館讀者借閱行為數(shù)據(jù)進(jìn)行預(yù)處理,去除一些無(wú)關(guān)的數(shù)據(jù);然后,提取讀者借閱行為分析特征;最后,采用最小二乘支持向量機(jī)構(gòu)建圖書館讀者借閱行為分析模型。測(cè)試結(jié)果表明,大數(shù)據(jù)背景下的圖書館讀者借閱行為分析的平均精度超過93%,遠(yuǎn)遠(yuǎn)高于其他圖書館讀者借閱行為分析方法的精度,減少了圖書館讀者借閱行為分析時(shí)間,分析效率得到了顯著改善,具有廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1] 彭博.圖書館借閱行為的多屬性可視化分析[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2017,29(10):9?12.
[2] 李東,董穎,謝麗斌,等.基于用戶行為的館藏紙質(zhì)資源借閱影響因素分析[J].情報(bào)科學(xué),2014,32(7):103?107.
[3] 趙楠.高校圖書館讀者借閱行為分析及導(dǎo)讀策略研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(10):96?97.
[4] 趙保華,曾曉梅.基于圖書館流通數(shù)據(jù)的讀者行為分析:以阿壩師范學(xué)院圖書館為例[J].阿壩師范學(xué)院學(xué)報(bào),2016,33(2):102?107.
[5] 吳曉海,黃芳.首都醫(yī)科大學(xué)醫(yī)學(xué)生圖書借閱行為分析[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2015,24(5):44?49.
[6] 彭渝.基于GRI關(guān)聯(lián)規(guī)則的圖書館讀者借閱行為分析研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2014,24(11):78?80.
[7] 于曦.師范類高校圖書館讀者借閱行為分析及導(dǎo)讀策略研究[J].大學(xué)圖書情報(bào)學(xué)刊,2011,29(1):71?75.
[8] 陳春穎,熊擁軍.基于序列模式挖掘的讀者借閱行為分析[J].圖書情報(bào)知識(shí),2011,12(4):92?96.
[9] 黃海云,韓育,張達(dá)瀚,等.貝葉斯模型大數(shù)據(jù)分析的軟件實(shí)現(xiàn):以河北科技大學(xué)圖書館為例[J].圖書館論壇,2018,38(5):95?102.
[10] 白晗.基于關(guān)聯(lián)規(guī)則算法分析圖書館讀者借閱行為[J].中國(guó)教育技術(shù)裝備,2013,7(3):77?78.
[11] 崔金環(huán),解海.基于數(shù)據(jù)挖掘的圖書館讀者借閱行為分析[J].現(xiàn)代電子技術(shù),2019,42(1):166?170.
[12] 王睿,楊晉蘇,彭聚霞.基于流通日志的高校學(xué)生圖書借閱行為分析與對(duì)策研究[J].福建電腦,2018,34(10):12?14.
[13] 彭博.面向用戶屬性的個(gè)性化圖書推薦方法探究[J].圖書館工作與研究,2017,22(10):118?123.
[14] 楊江麗,高凡,董若劍.基于數(shù)據(jù)挖掘的高校圖書館讀者行為研究:以西南交通大學(xué)圖書館為例[J].圖書館研究,2013,43(3):106?110.
[15] 劉春霞.基于數(shù)據(jù)挖掘的用戶借閱行為分析:以河南理工大學(xué)圖書館為例[J].圖書情報(bào)導(dǎo)刊,2017,2(8):1?8.