孫 寶 趙艷梅
(華北科技學(xué)院圖書館,北京東燕郊 101601)
平均復(fù)本量預(yù)測模型研究①
孫 寶②趙艷梅
(華北科技學(xué)院圖書館,北京東燕郊 101601)
在確定采購復(fù)本量過程中,重點突出讀者借閱行為的影響作用,根據(jù)借閱率與平均復(fù)本量之間相關(guān)關(guān)系,運用線性回歸分析方法,預(yù)測未來2008—2009學(xué)年度20個大類圖書平均復(fù)本量,目的是為了給采購復(fù)本量的確定提供參考。選取高校圖書館中具有代表性的H語言類圖書為例,介紹平均復(fù)本量預(yù)測過程。
線性回歸;自回歸;借閱率;平均復(fù)本量;圖書采購
單純確定某一種圖書采購復(fù)本量,方法比較多,筆者從預(yù)測37個大類圖書平均復(fù)本量角度出發(fā),試圖用每一個大類平均復(fù)本量指導(dǎo)任何一種圖書采購復(fù)本量的確定。若要確定某一種圖書采購復(fù)本量,可以從該種圖書所在大類的平均復(fù)本量點預(yù)測值和置信區(qū)間中獲得參考。制定采購策略應(yīng)當首先考慮讀者借閱行為及藏書量的影響作用,筆者對此進行了深入探討。本文在預(yù)測20個大類圖書平均復(fù)本量過程中,所運用線性回歸方法,以借閱率為自變量,包含著讀者借閱行為和藏書量兩方面信息。預(yù)計采購的某一種圖書一般不在館藏范圍內(nèi),也不可能有反映讀者借閱行為的歷史數(shù)據(jù),而該種圖書所在大類的其他館藏圖書借閱歷史數(shù)據(jù)卻可以用于作為首選參考數(shù)據(jù)。
復(fù)本量是圖書館采購人員必須解決的問題,許多專家學(xué)者都在關(guān)注圖書采購復(fù)本量研究,發(fā)表了大量論文,專門闡述確定復(fù)本量的各種策略。吳志榮老師主張借鑒國外大學(xué)圖書館一個復(fù)本的圖書采購策略[1]。高校圖書館的服務(wù)對象是由在校大學(xué)生、研究生、授課教師等組成的廣大讀者群,復(fù)本量過低,則很可能使部分讀者無法借到所需文獻。相反,復(fù)本量過多,又會造成經(jīng)費和館藏空間的浪費,也沒有考慮到同類書的不同品種在一定程度上可以代替復(fù)本[2]。復(fù)本量過低和過多都不可行,于是研究制定科學(xué)的復(fù)本量策略就顯得俞加必要和緊迫。
實際工作中,圖書采購人員一般根據(jù)本校教學(xué)科研情況和本館館藏情況,劃出每一類圖書的采購復(fù)本量標準,但是這種操作方法會受到采購人員主觀認識水平的限制[3]。王居平老師根據(jù)復(fù)本量與拒借率之間相關(guān)關(guān)系,由控制方程,在指定拒借率范圍內(nèi)求解出某一種圖書復(fù)本量[4]。只是拒借率難于統(tǒng)計,所得結(jié)果不夠準確,模型置信度不易達到通常要求。
劉新文老師考慮7個主要因素對復(fù)本量的共同作用,綜合確定某一種圖書采購復(fù)本量[5]。7個因素之多的公式復(fù)雜度較高,實際工作中難于把握,而且讀者續(xù)借文獻概率、預(yù)計消耗冊數(shù)等指標也不易統(tǒng)計,不易獲得。
決定一種圖書采購復(fù)本量的首要因素應(yīng)當是讀者借閱行為。無論采用何種方法,精確得出即將采購的某一種圖書復(fù)本量都是不現(xiàn)實的,理論上似乎可行,實際操作卻很難實現(xiàn)。如果預(yù)先確定該種圖書所在大類平均復(fù)本量和上下波動范圍,是否對實際采購的指導(dǎo)作用更強?對比其他復(fù)本量確定方法,平均復(fù)本量模型中借閱率指標只包含借閱量和藏書量信息,易于統(tǒng)計,易于獲得,僅有一個指標的模型相對簡單,可操作性強。
從借閱率與平均復(fù)本量相關(guān)關(guān)系中研究復(fù)本量的方法,目前在相關(guān)文獻中尚未檢索到類似報道。圖書采購部門選擇采購策略,應(yīng)當充分考慮讀者借閱行為的影響作用,筆者在這方面進行了有益嘗試。
如果一個因變量Y與一個自變量X有相關(guān)關(guān)系,根據(jù)觀察數(shù)據(jù)作散點圖時,具有直線趨勢,其樣本回歸方程:
根據(jù)最小二乘法原理,可得a和b的計算公式[6,7,8]:
從樣本回歸方程可得點預(yù)測值,置信區(qū)間能給出估計的更精確信息[9,10]。
在顯著性水平α下,某一個新值y0的置信區(qū)間是
對于時間序列yi(i=1,2,…,n),可以取xi= i,采用線性回歸分析,即為線性趨勢時間序列分析,也可以采用時間序列自回歸分析。
把時間序列前后兩期觀察值一一配對,可得自相關(guān)表,如表1所示[11,12,13]。
表1 時間序列自相關(guān)表
筆者觀察每一個大類平均復(fù)本量與借閱率,都總結(jié)出二者服從線性關(guān)系,可以應(yīng)用線性回歸分析?;貧w理論相對比較成熟,有一系列檢驗準則。只要模型通過檢驗,就能夠保證應(yīng)用結(jié)果的準確性。模型由兩個步驟組成,首先根據(jù)時間序列理論預(yù)測下一個學(xué)年度借閱率,然后利用該預(yù)測結(jié)果預(yù)測下一學(xué)年度平均復(fù)本量。
本文對各個大類圖書平均復(fù)本量的探討,所引用的數(shù)據(jù)基本上都來源于華北科技學(xué)院圖書館鑫盤集成管理系統(tǒng)。華北科技學(xué)院圖書館的讀者主要是在校大學(xué)生,英語是公共課,讀者借閱量比較集中,因此,英語類藏書所在的H語言類圖書相比于其他各類圖書具有典型性,于是本文以H語言類圖書為例,介紹平均復(fù)本量預(yù)測過程
H語言類圖書借閱率用G表示,計算公式為:
上式中L表示一個學(xué)年度(前一年8月至該年7月)H語言類圖書總借閱量,單位是冊;C表示一個學(xué)年度(該年7月底)H語言類圖書藏書量,單位是冊。調(diào)用鑫盤管理系統(tǒng)統(tǒng)計功能,可以統(tǒng)計出1999年至今9個學(xué)年度H語言類圖書總借閱量和藏書量(見表2)。
表2 H語言類圖書借閱率
H語言類圖書平均復(fù)本量用O表示,計算公式為:
上式中C的意義與4.1中相同;K表示一個學(xué)年度(該年7月底)H語言類圖書總種數(shù),單位是種。H語言類圖書總種數(shù)也可從鑫盤系統(tǒng)中統(tǒng)計得到(見表3)。
表3 H語言類圖書平均復(fù)本量
3.3.1 借閱率自相關(guān)表
以1999年至今9個學(xué)年度借閱率為時間序列,把相鄰兩個學(xué)年度借閱率一一配對,即為借閱率自相關(guān)表(見表4)。
表4 借閱率自相關(guān)表
3.3.2 描繪借閱率自回歸散點圖
以借閱率自相關(guān)表中g(shù)i為x軸坐標,以gi+1為y軸坐標,將對應(yīng)借閱率用坐標點形式描繪,即為借閱率一階自回歸散點圖,如圖1所示。
圖1 借閱率自回歸散點圖
3.3.3 自相關(guān)系數(shù)判定條件
從借閱率自回歸散點圖可以看出,借閱率時間序列具有明顯一階自相關(guān)性。但是,能否應(yīng)用時間序列自回歸分析,還要根據(jù)自相關(guān)系數(shù)判定條件來決定。利用借閱率自相關(guān)表中數(shù)據(jù),自相關(guān)系數(shù)計算結(jié)果為:
在顯著性水平α=0.001下,查相關(guān)系數(shù)檢驗表,獲得置信度為99.9%的臨界值d= 0.92493。由于|r1|=0.953197>d,滿足判定條件,自回歸分析適用于此。
3.3.4 確定自回歸參數(shù)與樣本自回歸方程
利用借閱率自相關(guān)表中數(shù)據(jù),確定自回歸參數(shù):
3.3.5 F—檢驗
從表5可知,在顯著性水平α=0.001下,查F—概率分布表,獲得置信度為99.9%的臨界值F0.001(1,8-2)=35.51。由于F=59.634068>F0.001(1,6),表明相鄰兩學(xué)年度借閱率之間具有密切自相關(guān)關(guān)系,自回歸分析通過F—檢驗。
3.3.6 預(yù)測2008~2009學(xué)年度借閱率
由2007~2008學(xué)年度借閱率可以預(yù)測2008~2009學(xué)年度借閱率為:
表5 借閱率自回歸分析方差分析表
3.4.1 平均復(fù)本量對借閱率相關(guān)表0
根據(jù)1999年至今9個學(xué)年度平均復(fù)本量和借閱率原始數(shù)據(jù),把借閱率從小到大排列,將平均復(fù)本量與其對應(yīng)排列,可得平均復(fù)本量對借閱率相關(guān)表(見表6)。
表6 平均復(fù)本量對借閱率相關(guān)表
3.4.2 描繪平均復(fù)本量對借閱率線性相關(guān)散點圖
以借閱率為x軸坐標,以平均復(fù)本量為y軸坐標,把對應(yīng)觀察值用坐標點形式描繪,可得線性相關(guān)散點圖,如圖2所示。
圖2 平均復(fù)本量與借閱率散點圖
3.4.3 平均復(fù)本量與借閱率線性相關(guān)系數(shù)判定條
從圖2看出,平均復(fù)本量與借閱率近似服從負線性相關(guān)關(guān)系。通過判定相關(guān)系數(shù),進一步印證了線性回歸分析適用性。相關(guān)系數(shù)計算結(jié)果為:
在顯著性水平α=0.001下,查相關(guān)系數(shù)檢驗表,獲得置信度為99.9%的臨界值d=0.8982。由于|r|=0.985161>d,滿足判定條件,此處適用線性回歸分析。
3.4.4 確定線性回歸參數(shù)與樣本回歸方程利用表6中數(shù)據(jù),回歸參數(shù)計算結(jié)果為:
3.4.5 F—檢驗
從表7可知,在顯著性水平α=0.001下,查F—概率分布表,獲得置信度為99.9%的臨界值為F0.001(1,9-2)=29.25。由于F=230.627861?F0.001(1,7),表明平均復(fù)本量與借閱率之間具有密切線性相關(guān)關(guān)系,線性回歸分析通過F—檢驗。
表7 平均復(fù)本量對借閱率方差分析表
3.4.6 預(yù)測2008~2009學(xué)年度平均復(fù)本量
當已知2008~2009學(xué)年度借閱率g0= 79.612506,可以預(yù)測2008~2009學(xué)年度平均復(fù)本量為:
3.4.7 估計2008—2009學(xué)年度平均復(fù)本量置信區(qū)間利用表7中數(shù)據(jù)有:
在顯著性水平α=0.001下,平均復(fù)本量置信度為99.9%的置信區(qū)間是:
即(3.825697,4.765604)。至此,可以預(yù)測2008—2009學(xué)年度H語言類圖書平均復(fù)本量將是4.3冊/種,置信區(qū)間介于3.8冊/種至4.8冊/種之間。
按照中圖法分類體系,分別獲取了A,B,……,Z,TB,TD,……,TV等37個大類圖書借閱、藏書數(shù)據(jù),采用與預(yù)測H語言類圖書平均復(fù)本量類似的方法,可以預(yù)測其他各個大類平均復(fù)本量。根據(jù)相關(guān)系數(shù)判定條件,經(jīng)過對這37個大類平均復(fù)本量與借閱率相關(guān)系數(shù)逐一判別,取最低置信度95%,從中篩選出20個大類判定結(jié)果符合回歸分析理論應(yīng)用要求(見表8)。
表8 20個大類平均復(fù)本量預(yù)測表
在類號旁邊標以“*”的A、G、TB等3大類平均復(fù)本量預(yù)測過程中,當采用自回歸分析預(yù)測借閱率時,出現(xiàn)檢驗置信度低于95%的情況,換用線性趨勢時間序列分析方法,才保證模型置信度達到95%以上。
本文在回歸分析理論指導(dǎo)下,根據(jù)各個大類平均復(fù)本量與借閱率之間相關(guān)系數(shù)判定結(jié)果,求得了2008~2009學(xué)年度20個大類平均復(fù)本量點預(yù)測值和置信區(qū)間,可以作為這20個大類采購復(fù)本量的參考依據(jù)。本文應(yīng)用的理論和方法,易于實現(xiàn),可操作性強,對高校圖書館采購部門確定新書采購復(fù)本量,具有較強的指導(dǎo)作用。
限于回歸分析理論相關(guān)系數(shù)判定條件的約束,在37個大類圖書中,只有20個大類可以應(yīng)用回歸分析方法。在下一步研究和探討中,可否尋找出能夠用于預(yù)測每個大類平均復(fù)本量的回歸分析方法,則對圖書采購的指導(dǎo)作用更強。
[1] 吳志榮.感悟“一個復(fù)本”—探究西方大學(xué)圖書館的辦館理念[J].圖書館雜志,2004(12):41-43
[2] 陳堯禧.試論藏書品種與復(fù)本的關(guān)系及對策[J].圖書館學(xué)研究,2003(6):55-57
[3] 曹臻.大學(xué)圖書館館藏中文圖書復(fù)本的配置[J].大學(xué)圖書館學(xué)報,2005(3):53-56
[4] 王居平.圖書館學(xué)和情報學(xué)中的量化分析和預(yù)測方法初探[J].情報雜志,2007(1):105 -106
[5] 劉新文.圖書館圖書復(fù)本量的定量分析[J].西南師范大學(xué)學(xué)報(自然科學(xué)版),2007(4):87-89
[6] Gerard ED.Introduction to S impleLinearRegression[EB/OL].(2008-7-16)[2009-4-2]. http://www.jerrydallal.com/LHSP/slr.h tm
[7] Devore J L.Probability and Statistics for Engineering and the Sciences[M].6th edition.Brooks/Cole, 2004:496-554
[8] Kelly H Z,Kemal T,Stuart G S.Correlation and Simple Linear Regression[J].Radiology,2003, 227(3):617-622
[9] Prem S M.Introductory Statistics[M].5th edition.JohnWiley&Sons,2007:580-642
[10] 蘇均和,朱建中.社會經(jīng)濟統(tǒng)計學(xué)原理[M].上海:立信會計出版社,2007:256-268
[11] 孫允午.統(tǒng)計學(xué)—數(shù)據(jù)的搜集、整理和分析[M].上海:上海財經(jīng)大學(xué)出版社,2007:326-333
[12] 徐國祥.統(tǒng)計學(xué)[M].上海:上海人民出版社,2007:317-320
[13] 王燕.應(yīng)用時間序列分析[M].北京:中國人民大學(xué)出版社,2007:69-82
The Research aboutM ean Duplicates Prediction M odel
SUN B ao,ZHAO Yanm ei
(North China Institute of Science and TechnologyLibrary,Yanjiao Beijing-East 101601)
The influence of the reader loans behavior is firstly selected to determine the literature purchasing duplicates.Based on the correlation relation between the library loans rate and the mean duplicates of 20 categories books,the method of linear regression analysis is used to predict itsmean duplicates in the coming 2008-2009 school year.The prediction result plays a key role in deter mining all duplicates thatwill be purchased.As the representative in the library of colleges and universities,the H language category books is selected to demonstrate the mean duplicates prediction procedure.
Linear regression;Autoregression;Library loans rate;Mean duplicates;Literature purchasing
G250.71
A
1672-7169(2010)01-0079-06
2009-07-18
孫寶(1970-),男,河北遷安人,碩士,華北科技學(xué)院圖書館副研究館員,研究方向:信息管理與信息系統(tǒng)。