魯新明 李變秀
摘 要: 高校圖書館是與教學、科研并重的高校三大支柱之一,在大學扮演著十分重要的角色。近年來,高校圖書館在發(fā)展的同時,存在諸如經費緊缺、藏書結構不夠合理、采購方案不夠科學等問題,由此造成圖書利用率低(平均只有30%)和人力、物力、財力的嚴重浪費。因此有必要對圖書利用情況進行科學的分析,以支持采購方案的制定、圖書館藏書結構的完善。本文在介紹聚類算法之后,采用k-means這一經典聚類算法對保山學院圖書館近9年的借閱量進行聚類分析。并對以后的圖書采購提供一些建議。
關鍵詞:聚類算法 圖書館
中圖分類號:G251.4 文獻標識碼:A 文章編號:1003-9082(2016)08-0036-03
前言
從建國到至今這65年,我國的教育事業(yè)有了長足的進展,在基礎教育教育普及率不斷提高的情況下,高等教育事業(yè)也呈現(xiàn)出蓬勃發(fā)展的態(tài)勢。特別是恢復高考制度以來,高校在校生人數(shù)從1978年的80多萬人突增至現(xiàn)在的2000多萬。近年來,高校每年為社會輸送數(shù)百萬人才。
高校圖書館,是高校的文獻情報中心,與教學、行政組成高校的三大支柱。在大學扮演著十分重要的角色,是大學生信息素養(yǎng)教育的重要基地[1],是師生們獲取情報、做學術研究和交流的重要場所。近年來,高校圖書館在發(fā)展的同時,也在帶來了一些問題,比如說因為學校發(fā)展定位、專業(yè)設置對相關圖書需求而要求高校圖書館在一個時間內大力采購某一類圖書,而忽視藏書結構的合理性問題;也存在圖書館在高校發(fā)展的某一年或幾年因為工作重心傾斜而被縮減撥款的現(xiàn)象。所以,高校圖書館在藏書數(shù)量驟增的同時存在諸如經費緊缺、藏書結構亟待完善、采購方案不夠科學等問題,造成了高校學生不能借到想要的圖書,而圖書館的藏書利用率很低,亦即高校圖書館在很大程度上造成人力、物力、財力的嚴重浪費。所以,有必要在大學生借閱傾向等方面進行分析,對圖書的利用情況作一個科學的分析,進而支持采購方案、完善圖書館的藏書結構、為讀者提供更好質量的服務,讓我們的工作更有效益。
一直以來,國內圖書館(包括高校圖書館)圖書利用率極低,只有25%[2][3]到30%[4]。由于藏書利用率低,造成文獻資源大量浪費、積壓和閑置。因此,加大提高圖書有效利用方面的研究,是圖書館相關領域的主要工作,也是保山學院圖書館亟待解決的問題。
一、聚類算法簡述
1.聚類分析
又稱為群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計方法。它區(qū)別于分類分析,后者是有監(jiān)督的學習。通過聚類分析,可以在沒有任何模式可供參考或依循,即在沒有先驗知識的情況下,將大量數(shù)據樣本按各自的特性來進行合理的分類。在自然科學和社會科學眾多領域都存在大量的分類問題,因此,聚類分析是數(shù)據挖掘領域最常用的技術之一。
所謂聚類就是把整個數(shù)據集分成不同的“簇”,使得簇與簇之間的區(qū)別盡可能的大,而簇內的數(shù)據的相似度盡可能的高,相似或不相似的度量是基于數(shù)據對象描述屬性的聚類值來確定的,通常就是利用各個聚類間的距離來進行描述的。
在聚類分析中,對象之間的相似程度可以通過計算相應兩個對象之間距離來確定。最常用的距離計算公式就是歐氏距離(Euclidean distance),具體計算公式如下:
d(I,j)= 公式1.1
d越小,說明兩個對象相似度越高;反之,則說明兩個對象相似度很低。
2.k-means算法介紹
k-means算法最早是Mac Queen在1967年提出的[5],它是一種迭代的聚類算法,迭代過程中不斷地移動簇集中的成員直至得到理想的簇集為止,具有簡單、快速的優(yōu)點。自算法提出至今已有很長的歷史,但仍然是當前研究的熱點課題。
k-means算法是一個著名并且最常用的基于劃分的聚類算法,它以k為參數(shù)(在算法運行前確定),把N個數(shù)據對象劃分為k個簇,使簇內數(shù)據對象具有就較高的相似度,而簇間的相似度較低,相似度基于簇內數(shù)據對象的平均值計算。首先隨機從數(shù)據對象中選取 K個點作為初始聚類中心,然后計算各個樣本到聚類中心的距離,把樣本歸到離它最近的那個聚類中心所在的類。計算新形成的每一個聚類的數(shù)據對象的平均值來得到新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣本調整結束,聚類準則函數(shù)已經收斂。本算法的一個特點是在每次迭代中都要考察每個樣本的分類是否正確。若不正確,就要調整,在全部樣本調整完后,再修改聚類中心,進入下一次迭代。如果在一次迭代算法中,所有的樣本被正確分類,則不會有調整,聚類中心也不會有任何變化,這標志著已經收斂,因此算法結束。
k-means算法基本步驟為:
2.1從給定數(shù)據對象中選擇k個樣本為初始聚類中心。
2.2將樣本按照歐氏距離最短原則分配給與其最近的簇生成一個新簇。
2.3重新計算簇的中心。
2.4重復步驟2和3直到求出準則函數(shù)的最優(yōu)解(或直到類的成員穩(wěn)定)。
二、基于聚類算法的圖書館利用情況分析
在圖書收藏和借閱流通活動當中,圖書館積累了很多可供研究的數(shù)據。一般高校圖書館,每年新增收藏圖書幾萬冊,每天都接待成百成千的讀者,每天借還書幾百冊甚至幾千冊,經過長時間的積累,手工記錄和計算機管理系統(tǒng)得以保存下來數(shù)百萬條各式各樣的數(shù)據,比如說讀者類別、數(shù)量;館藏各類圖書的種數(shù)、冊數(shù);讀者總借閱量,各類讀者借閱量;各類圖書借閱量和圖書預約量;各類讀者到館次數(shù)、到館時間和超期違約金等等。
在使用計算機軟件對圖書館館藏、流通等工作進行管理之前,工作人員對數(shù)據的積累都是手工操作,對上述這些數(shù)據的統(tǒng)計很繁瑣,也不夠精確,圖書館員要對這些錯綜復雜的數(shù)據作完全分析幾無可能?,F(xiàn)在,大多數(shù)高校圖書館都實現(xiàn)了自動化管理,所以能更快捷、準確地獲取上述這些統(tǒng)計數(shù)據。但是到目前為止這些數(shù)據并沒有被很好的利用,例如有些館對數(shù)據的深層次分析沒有足夠的重視、圖書館工作人員面對圖書管理系統(tǒng)的統(tǒng)計數(shù)據時只是簡單的憑經驗說話,而沒有進行科學的分析處理等等。因此,圖書館員需要選擇一些具有重要研究意義的數(shù)據進行分析,并做出相關決策和建議。圖書借閱量就是經常被用來分析研究的數(shù)據,很多研究人員之所以選擇圖書借閱量來做分析研究,是因為它是讀者使用圖書館的最好證據,圖書館員可以從中發(fā)現(xiàn)、掌握讀者興趣并積極滿足讀者的個人信息需求;同時它也是評價圖書館藏書結構和藏書質量的重要指標,圖書館員可以根據借閱量分析館藏結構是否存在不合理之處、圖書館的采購策略是否需要調整。可以說,圖書借閱量在研究、提高圖書館資源利用方面具有較高的參考價值。
針對上述情況,本文將采用聚類算法對2007-2015這9年中保山學院圖書館流通數(shù)據(僅從中圖法22個大類作分析)進行聚類分析,提高數(shù)據分析結果的可靠性和科學性,提高數(shù)據處理的效率,將數(shù)據進行深層次挖掘分析之后轉化為可以為決策、預測、預報和估計提供參考的信息。
1.用k-means算法對2007年-2015年的圖書借閱量分別作聚類,結果如表1所示。表中1、2、3分別代表圖書借閱量小、大、適中三種聚類結果。
從表1中,我們可看出2007年-2010年的聚類結果沒有變化,說明在這四年里保山學院師生對各類圖書的需求變化不明顯,因而借閱量分布基本保持不變;2011年、2012年兩年哲學類圖書從低借閱量的聚類結果中脫離出來,進入到借閱量適中的聚類結果中,說明這兩年哲學類圖書的借閱量有了明顯的提高;2013年繼哲學類圖書借閱量提高之后,數(shù)理化類圖書也躍上借閱量適中的行列,說在這一年里數(shù)理化類圖書的需求有了質的變化;2014年工業(yè)技術類圖書上升到借閱量適中的隊伍,而此前7年一直都在借閱量適中的文科教體類圖書則降到借閱量低的一類圖書中,說明在2014年讀者對工業(yè)技術類圖書的需求較以前增大,而降低了對文科教體類圖書的需求。
2.表1中,文學類圖書始終是單獨一類,是因為其借閱量太大,不足以影響其他各類圖書的聚類情況,特剔除文學類圖書以后,再用k-means算法進行逐年聚類分析后結果如表2所示。1、2、3分別代表借閱量小、適中、大三種聚類結果。
從表2中,我們可以看到哲學類、數(shù)理化類圖書2007-2013年的借閱量都沒發(fā)生較大變化,在2014年同時出現(xiàn)需求的增大;藝術類、歷史地理類圖書在2011-2013年出現(xiàn)需求變小的情況,在2014年又同時回歸大需求量行列;政治法律、經濟類圖書也是同時出現(xiàn)需求量從小變大,在2011年同時出現(xiàn)低谷,又同時增長;社科總類類圖書也呈一個低需求——增長——降低——增長的趨勢;文科教體類圖書基本呈現(xiàn)需求量從降低的趨勢。
3.在2007-2015年圖書借閱數(shù)據中剔除借閱量最大的文學類圖書以及借閱量極小的交通運輸、航空航天2類類圖書以后,用k-means算法進行逐年聚類分析后結果如表3所示。1、2、3分別代表借閱量小、適中、大三種聚類結果。
以表3與表2相比,僅有的區(qū)別是2008年里當剔除文學類圖書進行聚類時的社科總論圖書的需求為中等需求,而當剔除三類圖書聚類之時社科總論圖書的需求為低需求。
從表1、2、3近9年的逐年聚類分析中,我們發(fā)現(xiàn)隨著時間的推移,哲學類圖書、數(shù)理化類圖書、工業(yè)技術類圖書和文科教體類圖書的需求在發(fā)生著變化,前三類圖書近幾年的需求大致呈上升趨勢,而文科教體類圖書則下降趨勢較為明顯,這可能與保山學院學生結構的變化有關。自2009年開始招收第一批本科學生開始,到2015年本??茖W生比例已經超過1.8∶1,更多的本科生對自己的專業(yè)書本需求、人文素養(yǎng)書本需求更高;而師范生人數(shù)銳減使得學生對于中小學教育相關的文科教體類圖書的需求大大降低。
以文科教體類圖書為例:2007年-2012年6年期間,該類圖書借閱量占當年借閱圖書總量的9%-10%,2013年雖然還在借閱量適中的聚類結果中,但是較2012年的10494冊銳減到6332冊,所占比例也降低到7.3%;2015年借閱量只有4588冊,所占比例已經不到6.2%。說明表1、2、3的聚類結果的變化趨勢很好的反映了文科教體類圖書有學生感興趣的書籍變成冷門圖書。同樣的辦法可以看到哲學類圖書、數(shù)理化類圖書、工業(yè)技術類圖書逐步成為熱門圖書。
基于此,我們可以作如下預測:待2016年圖書館所購買新書上架之后,正在成為熱門圖書的哲學類圖書、數(shù)理化類圖書、工業(yè)技術類圖書的被借閱可能性大于已經變成冷門圖書的文科教體類。因此,對保山學院圖書館2016年的圖書采購工作和圖書宣傳工作作以下幾點建議:
第一、降低對文科教體類圖書的采購金額。在師范生人數(shù)不斷下降的情況下,要大幅度縮減對中小學教材、教法類圖書,以免造成同類圖書堆積。
第二、增加對借閱量聚類結果中從借閱量低升格到中的幾類圖書的采購金額,特別是計算機類圖書?,F(xiàn)在計算機已經不再作為一種專業(yè)技能,而是一種普及的工具,為了掌握這門工具,很多學生爭相學習。因此,圖書館應增加采購經費比例來完成對此類圖書最新版本的更新。
第三、繼續(xù)做好圖書推薦工作。2016年要在總結前幾年經驗的基礎上,根據近9年借閱量聚類結果的變化趨勢進行圖書利用率的預估,并加強圖書館的讀者培訓(包括日常的讀者教育和新生入館培訓)、參考咨詢工作、加大宣傳力度,盡可能的讓學生到圖書看書、借書。
第四、加強圖書剔舊工作。按時對藏書當中重復率比較高的這一部分圖書進行剔舊,把老版本、借閱量極低(等于0)的剔出來。比如說文科教體類中的中小學教材、語言類的字典和詞典這些都是重復率較高的,隨著知識不斷在更新發(fā)展,這幾類圖書低版本淘汰較快。
參考文獻
[1]閔紅武.十年來我國高校圖書館信息素養(yǎng)教育研究綜述[J].圖書與情報,2008(4):63-67
[2]才宏慧.加強讀者借閱工作 提高文獻利用率[J].圖書館建設,1999(2):57
[3]企業(yè)成本核算的啟示——談提高館藏文獻利用率[J].高校圖書館工作,1998(3):47-49
[4]韓樹華,左建新.怎樣提高高校圖書館館藏利用率[J].河北科技圖苑.1996(S1):57-59
[5]J MacQueen.Some methods for classification and analysis of multivariate observations[C]. Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability. 1967:281-297.
作者簡介:魯新明,男,(1984-),碩士,就職于保山學院圖書館,館員。研究方向為圖書館數(shù)據挖掘與讀者服務。
李變秀,女,副研究館員,研究方向為圖書館文化建設。