●田 梅 a,b(新鄉(xiāng)醫(yī)學(xué)院 a.管理學(xué)院; b.衛(wèi)生信息資源研究中心,河南 新鄉(xiāng) 453003)
目前國(guó)內(nèi)對(duì)圖書(shū)借閱流量行為預(yù)測(cè)的研究,多集中在利用統(tǒng)計(jì)學(xué)理論和平穩(wěn)時(shí)間序列模型進(jìn)行建模。姜炳蔚等利用回歸分析的方法建立圖書(shū)流通量與時(shí)間的回歸方程,并計(jì)算出預(yù)測(cè)范圍;[1]吳紅艷[2]利用A R I M A時(shí)間序列理論和神經(jīng)網(wǎng)絡(luò)理論為基礎(chǔ)預(yù)測(cè)圖書(shū)借閱流量,提出了處理具有周期性時(shí)間序列問(wèn)題的季節(jié)性神經(jīng)網(wǎng)絡(luò)模型。此外,傳統(tǒng)的圖書(shū)借閱量的預(yù)測(cè)方法還包括灰色模型預(yù)測(cè)法、線性回歸法等。但這些方法都存在著自身固有的缺陷。由于圖書(shū)借閱預(yù)報(bào)本質(zhì)是一個(gè)復(fù)雜的非線性動(dòng)力學(xué)過(guò)程,其內(nèi)部運(yùn)行關(guān)系很難確定,呈現(xiàn)非平穩(wěn)動(dòng)態(tài)隨機(jī)變化特性,因此,傳統(tǒng)的時(shí)間序列預(yù)測(cè)模型、線性回歸都難以解決閱讀流量行為的非線性問(wèn)題,無(wú)法解決流量增長(zhǎng)的某些不穩(wěn)定變化對(duì)模型預(yù)測(cè)效果的影響。而利用神經(jīng)網(wǎng)絡(luò)建模,又容易陷入局部極小值問(wèn)題,所得到的模型無(wú)法提供良好的推廣能力。
本文以混沌時(shí)間序列理論和支持向量機(jī)為基礎(chǔ),提出了處理非線性圖書(shū)借閱流量問(wèn)題的混沌時(shí)間序列預(yù)測(cè)模型。該模型根據(jù)圖書(shū)借閱流量行為的非平穩(wěn)時(shí)間序列的數(shù)據(jù)特點(diǎn),分別求得時(shí)間序列的嵌入維數(shù)和時(shí)延,從而建立了單步預(yù)測(cè)模型。利用該模型對(duì)新鄉(xiāng)醫(yī)學(xué)院圖書(shū)館流通部每月的圖書(shū)借閱流量進(jìn)行監(jiān)測(cè)預(yù)報(bào),結(jié)果表明,該模型運(yùn)行高效,與常規(guī)的神經(jīng)網(wǎng)絡(luò)模型相比,預(yù)測(cè)精度有所提高。
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的一種學(xué)習(xí)算法,以解決小樣本學(xué)習(xí)問(wèn)題為目標(biāo)。與已有的機(jī)器學(xué)習(xí)算法相比,它尋求模型的復(fù)雜性和學(xué)習(xí)能力之間的最佳折衷,以獲得有限樣本信息下的最優(yōu)推廣能力,避免了過(guò)學(xué)習(xí)現(xiàn)象;它所構(gòu)建的優(yōu)化目標(biāo)函數(shù)是一個(gè)嚴(yán)格的凸二次型規(guī)劃,從而保證了全局唯一解。通過(guò)引入核函數(shù),將原始空間中線性不可分樣本通過(guò)非線性函數(shù)映射到高維特征空間,實(shí)現(xiàn)線性可分。同時(shí),通過(guò)將高維特征空間中的內(nèi)積運(yùn)算轉(zhuǎn)化為低維原始空間的核函數(shù)計(jì)算,有效解決了高維數(shù)據(jù)學(xué)習(xí)中的“維數(shù)災(zāi)難”問(wèn)題,計(jì)算量幾乎不受樣本維數(shù)影響,從而實(shí)現(xiàn)了良好的高維處理能力。由于支持向量機(jī)在解決非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出特有的優(yōu)勢(shì),因此成為目前的研究熱點(diǎn),在文本自動(dòng)分類(lèi)、圖像檢索、數(shù)據(jù)融合、信號(hào)處理、時(shí)間序列預(yù)測(cè)等領(lǐng)域得到了廣泛應(yīng)用。
以ε-支持向量回歸為例。它的核心思路是把超平面控制在ε管道內(nèi),由ε值控制管道的寬度并決定支持向量回歸的誤差要求,同時(shí)管道盡可能平坦。根據(jù)統(tǒng)計(jì)學(xué)理論,決策函數(shù)的計(jì)算轉(zhuǎn)換成如下的最優(yōu)化問(wèn)題:[3]
構(gòu)造Lagrange乘子方程轉(zhuǎn)換到對(duì)偶問(wèn)題:
可以得出決策函數(shù)為:
混沌時(shí)間序列在現(xiàn)實(shí)生活中隨處可見(jiàn),比如電力載荷、金融、股票價(jià)格、大氣、水文數(shù)據(jù)等。通常計(jì)算出某時(shí)間序列的最大Lyapunov指數(shù),即可確定其是否具有混沌特性。使用SVM可以對(duì)混沌時(shí)間序列進(jìn)行預(yù)測(cè),預(yù)測(cè)的重點(diǎn)在于確定時(shí)間序列的嵌入維數(shù)和時(shí)延,從而構(gòu)建能夠反映原時(shí)間序列數(shù)據(jù)所蘊(yùn)含動(dòng)力系統(tǒng)本質(zhì)的狀態(tài)空間,從而達(dá)到較高精度的預(yù)測(cè)效果。
理論上,時(shí)間序列本身已包含了參與此動(dòng)力系統(tǒng)的全部變量的有關(guān)信息,通過(guò)考察采樣得到的樣本,將它在某些固定時(shí)間延遲點(diǎn)上的觀測(cè)量看成新的坐標(biāo),以擴(kuò)展成一個(gè)高維空間,即重構(gòu)的狀態(tài)空間。根據(jù)重構(gòu)的混沌時(shí)間序列輸入向量和輸出向量進(jìn)行學(xué)習(xí), 時(shí)刻支持向量機(jī)的一步預(yù)測(cè)模型為:[4]
本文中采用的圖書(shū)流通量數(shù)據(jù),來(lái)自于新鄉(xiāng)醫(yī)學(xué)院圖書(shū)館信息管理數(shù)據(jù)庫(kù)系統(tǒng)的流通子系統(tǒng)。這些數(shù)據(jù)是圖書(shū)館藏書(shū)量、服務(wù)效率在某個(gè)側(cè)面的反映,通過(guò)這些數(shù)據(jù)可以分析出讀者需求與傾向、閱讀效果等活動(dòng)規(guī)律,可為提高圖書(shū)館流通系統(tǒng)的管理水平提供科學(xué)依據(jù)。但是,與大多數(shù)的圖書(shū)管理系統(tǒng)功能類(lèi)似,這套系統(tǒng)可以利用后臺(tái)數(shù)據(jù)庫(kù)對(duì)圖書(shū)館的各種數(shù)據(jù)進(jìn)行記錄和管理,只能做基本的統(tǒng)計(jì)分析,無(wú)法對(duì)數(shù)據(jù)進(jìn)行深層次的挖掘。因此,我們應(yīng)用上述混沌預(yù)測(cè)模型對(duì)我院圖書(shū)館圖書(shū)流通量行為中TP類(lèi)圖書(shū)在2003年1月至2010年12月間的流通量進(jìn)行建模和預(yù)報(bào)。之所以選擇中圖法分類(lèi)目錄中TP類(lèi)圖書(shū)流通數(shù)據(jù)作為研究對(duì)象,是由于TP類(lèi)圖書(shū)為計(jì)算機(jī)與信息類(lèi)圖書(shū),由于其應(yīng)用的廣泛性,較能代表醫(yī)學(xué)專(zhuān)業(yè)學(xué)生的業(yè)余愛(ài)好和需求,可以作為學(xué)生綜合素質(zhì)的變化依據(jù),因此有重要的參考意義。同時(shí),從2003年到2010年,我院招生人數(shù)大幅攀升,目前已達(dá)兩萬(wàn)余人,藏書(shū)量也有較快提高,人數(shù)的激增以及醫(yī)學(xué)類(lèi)就業(yè)形式的變化帶來(lái)了圖書(shū)流通量行為的巨大變化。論文分析使用的圖書(shū)借閱流量時(shí)間序列如圖1所示。
圖1 圖書(shū)借閱流量時(shí)間序列
利用混沌時(shí)間序列分析與預(yù)測(cè)工具箱[5]計(jì)算得到上述數(shù)據(jù)的最大L y a p u n o v指數(shù),為0.0163,說(shuō)明該時(shí)間序列具有混沌性質(zhì),因此可利用上述混沌模型對(duì)該數(shù)據(jù)進(jìn)行預(yù)測(cè)。首先選取2003年1月到2009年12月共84個(gè)月份的流通數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2010年12個(gè)月份的數(shù)據(jù)作為測(cè)試樣本。由于數(shù)據(jù)長(zhǎng)度有限,未另外安排檢測(cè)集。預(yù)測(cè)的步驟為:(1)歸一化;(2)狀態(tài)空間延遲重構(gòu);(3)支持向量機(jī)學(xué)習(xí)與預(yù)測(cè);(4)數(shù)據(jù)處理與誤差分析。
首先需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。歸一化方式為:,使每一因子的數(shù)據(jù)都落入[0,1]區(qū)間。其次,由于混沌系統(tǒng)具有短期可預(yù)測(cè)性,因此可以按照式(1)的方式,通過(guò)引入延遲時(shí)間和嵌入維數(shù),把一維時(shí)間序列改造成多維狀態(tài)空間,以盡可能充分的提取原系統(tǒng)蘊(yùn)藏的信息。嵌入維數(shù)m的選取成為關(guān)鍵。本文選擇,延遲時(shí)間設(shè)為1,構(gòu)建訓(xùn)練樣本為。采用RBF核,使用Libsvm庫(kù)[6]來(lái)做學(xué)習(xí)和預(yù)測(cè)。具體做法為,利用前84個(gè)訓(xùn)練數(shù)據(jù)重構(gòu)得到80組訓(xùn)練樣本,作為L(zhǎng)ibsvm的訓(xùn)練樣本,利用Libsvm自帶的網(wǎng)格法選取最優(yōu)參數(shù),其中以五折交叉驗(yàn)證作為評(píng)判標(biāo)準(zhǔn),訓(xùn)練得到SVM模型,對(duì)第85個(gè)數(shù)據(jù)(即2010年1月份數(shù)據(jù))進(jìn)行預(yù)測(cè),然后利用該預(yù)測(cè)值重新訓(xùn)練SVM模型,預(yù)測(cè)接下來(lái)的一個(gè)月份數(shù)據(jù)(類(lèi)似于滑動(dòng)窗口向后移動(dòng)一位),依次遞推直至完成。為衡量預(yù)測(cè)模型的精確性,采用相對(duì)誤差:[4]
圖2 網(wǎng)格法中不同參數(shù)對(duì)應(yīng)的交叉驗(yàn)證值
圖3 2010年圖書(shū)借閱流量一步預(yù)測(cè)實(shí)際值與預(yù)測(cè)值的比較(相對(duì)誤差err=0.0869)
圖4 84個(gè)月份(2003.1~2009.12)數(shù)據(jù)的訓(xùn)練誤差
由圖3可知,利用基于支持向量機(jī)的混沌時(shí)間序列模型可較好地對(duì)2010年的流通數(shù)據(jù)進(jìn)行預(yù)測(cè),相對(duì)預(yù)測(cè)誤差為8.69%。這表明本文所用方法是有效的,基本符合真實(shí)規(guī)律。同時(shí),由圖4可知,本文所用方法對(duì)建模所有的2003年至2009年間流通數(shù)據(jù)也達(dá)到了較好的擬合效果,只有一個(gè)月份的數(shù)據(jù)預(yù)測(cè)值達(dá)到59.06%,絕大部分月份的相對(duì)誤差都低于20%。這充分表明本文所建立的混沌時(shí)間序列支持向量機(jī)模型是精確的,而且在嵌入維數(shù)沒(méi)有經(jīng)過(guò)嚴(yán)格篩選的情況下也能取得滿意的預(yù)測(cè)效果。據(jù)分析,最主要的原因是支持向量機(jī)將人工重構(gòu)的相空間進(jìn)一步通過(guò)核函數(shù)映射到高維特征空間,從而克服非線性因素的干擾,并提取輸入樣本中包含的系統(tǒng)信息,從而帶來(lái)良好的對(duì)未知數(shù)據(jù)的推廣能力。
嵌入維數(shù)m對(duì)預(yù)測(cè)效果的影響較大?;趫D2所得到的最優(yōu)支持向量機(jī)參數(shù),改變m,預(yù)測(cè)效果的變化如圖5所示??梢杂^察到在嵌入維數(shù)小于5時(shí),相對(duì)誤差隨著嵌入維數(shù)的增大而減小,這表明狀態(tài)空間重構(gòu)可以更好地表達(dá)時(shí)間序列內(nèi)部的信息。在嵌入維數(shù)為5,6,7,8時(shí),相對(duì)誤差變化很小,而繼續(xù)增加嵌入維數(shù)反而會(huì)導(dǎo)致相對(duì)誤差有所上升。本文實(shí)驗(yàn)選擇嵌入維數(shù)為5。這也契合了學(xué)生借閱行為的周期性,即寒暑假的借閱量往往會(huì)出現(xiàn)突變。
圖5 圖書(shū)借閱流量時(shí)間序列的嵌入維數(shù)與相對(duì)誤差的關(guān)系
采用量化方法研究圖書(shū)館服務(wù)與管理工作是當(dāng)前圖書(shū)館學(xué)研究的趨勢(shì)之一,有利于合理調(diào)配圖書(shū)館的人力物力,提高服務(wù)質(zhì)量。圖書(shū)借閱流量預(yù)測(cè)的意義在于,有助于對(duì)讀者群體的需求進(jìn)行評(píng)估,形成一定季節(jié)期限內(nèi)的需求預(yù)測(cè),在控制圖書(shū)采編、藏書(shū)質(zhì)量以及反饋服務(wù)質(zhì)量上起重要作用。圖書(shū)借閱流量行為具有明顯的非線性非平穩(wěn)的特性,因此采用傳統(tǒng)的時(shí)間序列分析方法難以取得滿意效果。本文采用支持向量機(jī)作為建模工具,引入了混沌時(shí)間序列預(yù)測(cè)模型,通過(guò)對(duì)圖書(shū)借閱流量時(shí)間序列的分析和建模,從預(yù)測(cè)結(jié)果可以看出該模型具有較好的預(yù)測(cè)效果。筆者認(rèn)為,任一時(shí)刻的借閱量數(shù)據(jù)的變化信息都隱含在與之相關(guān)的其他時(shí)刻的數(shù)據(jù)中?;谶@種認(rèn)識(shí),本文所提方法的本質(zhì)在于利用混沌時(shí)間序列的理論解釋了圖書(shū)借閱流量時(shí)間序列的變化,核心是利用狀態(tài)空間重構(gòu)提取了時(shí)間序列的內(nèi)在信息,并建立了單步支持向量機(jī)預(yù)測(cè)模型。這種預(yù)測(cè)方法不會(huì)丟失時(shí)間序列中重要的周期信息(混沌的確定性),同時(shí)也充分考慮了借閱行為的突變性(混沌的長(zhǎng)期不可預(yù)測(cè)性),從而避免了常規(guī)預(yù)報(bào)步數(shù)多、預(yù)報(bào)誤差大的缺點(diǎn)。但由于分析中使用的借閱流量數(shù)據(jù)樣本較少,在建立預(yù)測(cè)模型時(shí)無(wú)法充分表達(dá)圖書(shū)借閱行為的信息。此外,外界因素的影響也應(yīng)當(dāng)加入到預(yù)測(cè)模型中。這些都是下一步工作中需要考慮的問(wèn)題。
[1]姜炳蔚,任玉杰.回歸分析在圖書(shū)流通中的應(yīng)用[J].職大學(xué)報(bào)(自然科學(xué)版),2003(4):6-7.
[2]吳紅艷.圖書(shū)借閱流量行為季節(jié)預(yù)測(cè)模型[J].圖書(shū)情報(bào)工作,2007,51(11):98-101.
[3]V N Vapnik.The nature of statistical learning theory[M].New York:Springer Verlag,1995..
[4]崔萬(wàn)照,等.混沌時(shí)間序列的支持向量機(jī)預(yù)測(cè)[J].物理學(xué)報(bào),2004,53(10):3303-3309.
[5]陸振波.混沌時(shí)間序列分析與預(yù)測(cè)工具箱[EB/OL].[2011-08-04]. http://luzhenbo.88uu.com.cn/.
[6]CC Change,CJ Lin.LIBSVM:a library for supportvector machine[EB/OL].[2011-08-04].http://www.csie.ntu.edu.tw/cjlin/libsvm.