范雯雯
(云南交通職業(yè)技術(shù)學(xué)院 交通信息工程學(xué)院, 云南 昆明 650000)
隨著科學(xué)技術(shù)的不斷發(fā)展,每一個(gè)大學(xué)的圖書館越來越大,圖書的種類和數(shù)量大幅度增加,圖書資源更加豐富,可以為讀者提供更好的學(xué)習(xí)資源,在這種數(shù)據(jù)爆炸式背景下,如何對(duì)讀者借閱行為進(jìn)行分析十分重要,因此其成為高校圖書館研究領(lǐng)域中的一個(gè)重要方向[1-3]。
為了獲得理想高校圖書館讀者借閱行為分析結(jié)果,提出了高校圖書館讀者借閱行為分析的數(shù)據(jù)挖掘算法,并與其它高校圖書館讀者借閱行為分析方法進(jìn)行了對(duì)比分析。結(jié)果表明,本文算法是一種精度高、用時(shí)少的高校圖書館讀者借閱行為分析方法,相對(duì)于其它高校圖書館讀者借閱行為分析方法,具有十分明顯的優(yōu)越性。
當(dāng)前圖書館文獻(xiàn)資源雖然豐富,但是質(zhì)量相差很大,讀者花費(fèi)大量的時(shí)間,卻獲得了一些沒有價(jià)值的東西,因此如何從眾多的文獻(xiàn)資源中快速找到讀者真正需要的資源,為讀者提供個(gè)性化的服務(wù)是當(dāng)前迫切需要解決的問題[4]。多年以來,人們對(duì)高校圖書館讀者借閱行為分析問題進(jìn)行了長(zhǎng)期的研究,可以將高校圖書館讀者借閱行為分析劃分為兩個(gè)階段:第一個(gè)階段為人工階段,該階段為一些高校圖書館管理員對(duì)讀者的借閱歷史記錄進(jìn)行分析,如調(diào)查問卷法,多元統(tǒng)計(jì)學(xué)方法,根據(jù)分析結(jié)果給高校圖書館讀者借閱行為提供一些參考意見,由于讀者的借閱歷史記錄相當(dāng)大,使得該過程的工作時(shí)間比較長(zhǎng),容易出現(xiàn)錯(cuò)誤,而且高校圖書館資源比較大,因此人工方式不能滿足要求[5];第二階段為自動(dòng)化階段,該階段利用計(jì)算機(jī)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、傳感器以及人工智能等技術(shù)進(jìn)行高校圖書館讀者借閱行為分析,最初人們采用多因素關(guān)聯(lián)分析法,從讀者的電子閱讀時(shí)間、讀者借閱數(shù)量等因素去分析高校圖書館讀者借閱行為變化態(tài)勢(shì),但是其分析結(jié)果缺乏定量分析,結(jié)果可信度不高。近幾年出來了基于聚類分析的高校圖書館讀者借閱行為分析方法、基于時(shí)間序列法的高校圖書館讀者借閱行為分析方法、關(guān)聯(lián)規(guī)則推薦算法的高校圖書館讀者借閱行為分析方法,它們根據(jù)讀者偏好、讀者借閱的歷史數(shù)據(jù),挖掘出讀者借閱流量的變化規(guī)律,將讀者劃分為不同的類型,根據(jù)讀者類型推薦相應(yīng)的書籍[6-7],但是它們?cè)趯?shí)際應(yīng)用中,還是存在高校圖書館讀者借閱行為分析結(jié)果存在精度低、效率低等缺陷,因此高校圖書館讀者借閱行為分析結(jié)果有待進(jìn)一步提高[9-10],當(dāng)前數(shù)據(jù)挖掘技術(shù)得到了飛速發(fā)展,為解決高校圖書館讀者借閱行為問題提供了一種新的工具。
最小二乘支持向量機(jī)是一種數(shù)據(jù)挖掘算法,其工作原理與標(biāo)準(zhǔn)支持向量機(jī)差不多,但是其學(xué)習(xí)速度要明顯快于支持向量機(jī),同時(shí)學(xué)習(xí)精度要高于人工神經(jīng)網(wǎng)絡(luò),因此,本文將其引入到高校圖書館讀者借閱行為分析中。最小二乘支持向量機(jī)的結(jié)構(gòu),如圖1所示。
圖1 最小二乘支持向量機(jī)的結(jié)構(gòu)
在一定的空間范圍中,設(shè)高校圖書館讀者借閱行為分析的樣本集D={(xk,yk)|k=1,2,…,N},其中,xk為高校圖書館讀者借閱行為特征,yk為高校圖書館讀者借閱行為類型,采用徑向基函數(shù)作為高校圖書館讀者借閱行為分析建模的核函數(shù),如式(1)。
(1)
對(duì)于高校圖書館讀者借閱行為分析問題,采用最小二乘支持向量機(jī)可以描述為一個(gè)目標(biāo)優(yōu)化函數(shù),如式(2)。
(2)
式中,γ表示正則化參數(shù),式(2)應(yīng)該滿足如下約束條件,如式(3)。
yk[wTφ(xk)+b]=1-ek
(3)
由于式(2)是一個(gè)帶等式約束的二次規(guī)劃問題,直接求解比較復(fù)雜,導(dǎo)致的高校圖書館讀者借閱行為分析效率低下,為此采用拉格朗日乘子αk,建立拉格朗日乘子函數(shù),如式(4)。
L(w,b,e,α)=φ(w,b,e)-
(4)
設(shè)w,b,ek,αk的偏導(dǎo)數(shù)為零,對(duì)上式進(jìn)行優(yōu)化,如式(5)。
(5)
將式(4)寫成矩陣方程,如式(6)。
(6)
根據(jù)ykylφ(xk)Tφ(xl)=ykylψ(xk,xl),最后得到高校圖書館讀者借閱行為分析的最優(yōu)決策函數(shù),如式(7)。
(7)
Step1:分析影響高校圖書館讀者借閱行為的因素,采集相應(yīng)影響因素的數(shù)據(jù),并對(duì)其進(jìn)行如下處理,如式(8)。
(8)
式中,n表示高校圖書館讀者借閱行為影響因素的個(gè)數(shù)。
Step2:根據(jù)高校圖書館讀者借閱行為影響因素值,通過專業(yè)人員對(duì)高校圖書館讀者借閱行為的類型進(jìn)行標(biāo)記,這樣建立了高校圖書館讀者借閱行為分析的樣本集合。
Step3:根據(jù)4∶1的方式將高校圖書館讀者借閱行為分析的樣本集合劃分為訓(xùn)練集和測(cè)試集。
Step4:確定最小二乘支持向量機(jī)的參數(shù),以高校圖書館讀者借閱行為分析精度為目標(biāo),采用5折交叉驗(yàn)證算法確定最優(yōu)參數(shù),并對(duì)高校圖書館讀者借閱行為分析訓(xùn)練集進(jìn)行學(xué)習(xí),建立高校圖書館讀者借閱行為分析模型。
Step5:采用訓(xùn)練樣本對(duì)高校圖書館讀者借閱行為分析模型的性能進(jìn)行分析。
高校圖書館讀者借閱行為分析的數(shù)據(jù)挖掘算法的工作流程,如圖2所示。
為了分析本文設(shè)計(jì)的高校圖書館讀者借閱行為分析的數(shù)據(jù)挖掘算法的性能,采用Python語言編程實(shí)現(xiàn)高校圖書館讀者借閱行為分析程序,數(shù)據(jù)來自某高校的高校圖書館,讀者借閱行為劃分為5類,每一類行為的讀者數(shù)量,如表1所示。
圖2 高校圖書館讀者借閱行為的分析流程
表1 仿真實(shí)例分析的數(shù)據(jù)分布
它們組成學(xué)習(xí)樣本集合。
為了測(cè)試本文方法的實(shí)驗(yàn)結(jié)果的優(yōu)越性,采用時(shí)間序列法的高校圖書館讀者借閱行為分析方法和關(guān)聯(lián)規(guī)則推薦算法的高校圖書館讀者借閱行為分析方法進(jìn)行對(duì)比測(cè)試,統(tǒng)計(jì)它們的分析精度,如圖3所示。
圖3 讀者借閱行為分析精度
從圖3的高校圖書館讀者借閱行為分析結(jié)果可以看出,時(shí)間序列法的高校圖書館讀者借閱行為分析精度最低,其次為關(guān)聯(lián)規(guī)則推薦算法,本文方法的高校圖書館讀者借閱行為分析精度最優(yōu),有效降低了高校圖書館讀者借閱行為分析誤差,可以更加準(zhǔn)確的為讀者推薦更好的圖書資源,解決了當(dāng)前高校圖書館讀者借閱行為分析建模過程中存在的問題。
計(jì)算所有方法的高校圖書館讀者借閱行為分析時(shí)間(秒,s),如圖4所示。
對(duì)圖4的結(jié)果進(jìn)行分析可以知道,相對(duì)于用時(shí)間序列法的高校圖書館讀者借閱行為分析方法和關(guān)聯(lián)規(guī)則推薦算法的高校圖書館讀者借閱行為分析方法,本文方法的分析速度得到了明顯的改善,提高了高校圖書館讀者借閱行為分析效率。
圖4 讀者借閱行為分析時(shí)間
為了解決當(dāng)前高校圖書館讀者借閱行為分析過程存在的問題,如精度低、效率低等,提出了高校圖書館讀者借閱行為分析的數(shù)據(jù)挖掘算法,與經(jīng)典借閱行為分析方法的對(duì)比結(jié)果表明,本文方法無論是高校圖書館讀者借閱行為精度或者是分析效率均要優(yōu)于經(jīng)典方法,可以實(shí)現(xiàn)讀者個(gè)性化服務(wù)功能。