龔自振
(深圳職業(yè)技術(shù)學(xué)院圖書館,廣東 深圳 518055)
隨著時(shí)代的發(fā)展,圖書館傳統(tǒng)館藏建設(shè)模式越來越不適應(yīng)圖書館的轉(zhuǎn)型與發(fā)展。在圖書價(jià)格上漲、讀者閱讀習(xí)慣改變、大數(shù)據(jù)運(yùn)用日益廣泛、圖書館經(jīng)費(fèi)不足及館藏空間有限的情況下,高校圖書館采取相應(yīng)的措施優(yōu)化館藏圖書配置、精選圖書以提高圖書的使用效率。從館藏發(fā)展政策的制定到近年來討論的讀者決策采購(patron-driven acquisition,簡稱PDA),都將館藏圖書的配置作為重點(diǎn)問題來對待。事實(shí)上,作為圖書館資源建設(shè)的主要內(nèi)容,館藏圖書配置在電子化閱讀環(huán)境下仍然占有重要地位。一是因?yàn)轲^藏圖書的配置經(jīng)費(fèi)雖然在下降,但仍然占據(jù)全館文獻(xiàn)資源購置總費(fèi)用的較大比例[1],二是最近發(fā)布的研究報(bào)告指出,我國成年國民人均紙質(zhì)圖書閱讀量大于電子圖書閱讀量[2],三是在我國現(xiàn)有政策下,館藏圖書還是高校圖書館考察的一個(gè)重要指標(biāo)。因此,在大數(shù)據(jù)時(shí)代,館藏圖書配置仍不能忽視,而應(yīng)轉(zhuǎn)變思路,加快轉(zhuǎn)型與創(chuàng)新,以適應(yīng)新的要求與挑戰(zhàn)。本文將從大數(shù)據(jù)的視野出發(fā),對這一問題進(jìn)行分析與探討,以期引起圖書館界的重視。
筆者通過文獻(xiàn)檢索發(fā)現(xiàn):近十年來,學(xué)者對館藏建設(shè)的關(guān)注與研究越來越少,而閱讀推廣方面的研究快速增加。也就是說,在圖書館轉(zhuǎn)型發(fā)展過程中,館藏建設(shè)這一塊業(yè)務(wù)逐漸被壓縮,越來越不被重視,因此,大多數(shù)圖書館的采購模式仍然停留在傳統(tǒng)圖書配置上。圖書館常用的讀者薦購[3]、學(xué)科館員及專業(yè)館員[4]選書等手段,對提高圖書配置的科學(xué)性和圖書利用率所起的作用有限。傳統(tǒng)模式的圖書配置將直接或間接地影響圖書的流通與閱讀。統(tǒng)計(jì)表明,美國大學(xué)圖書館藏書平均十年才被使用一次的圖書居然達(dá)到50%比例[5],我國大學(xué)圖書館近年來圖書的流通量也在逐年下滑[6]。造成這種現(xiàn)象的原因除了傳統(tǒng)閱讀受互聯(lián)網(wǎng)閱讀沖擊比較大外,還有一個(gè)重要因素就是當(dāng)前的館藏圖書配置沒有很好地利用圖書館大數(shù)據(jù)。
歸納起來,館藏圖書配置的問題主要有以下幾點(diǎn):(1)以電子書目選訂和現(xiàn)場選購的圖書配置模式不能有效地覆蓋學(xué)校的學(xué)科專業(yè),經(jīng)常會造成圖書收藏的遺漏,而有些學(xué)術(shù)性圖書一旦錯(cuò)過收藏,若干年后再無法購買。所以,傳統(tǒng)征訂模式無法完全滿足讀者教學(xué)科研及學(xué)習(xí)的需求,因?yàn)檫@種圖書配置模式完全依賴電子書目的質(zhì)量和采購人員的個(gè)人經(jīng)驗(yàn)。(2)以圖書薦購、學(xué)科館員及專業(yè)館員選書為輔助的圖書配置模式因?yàn)樗]購數(shù)量少,無法完成圖書館規(guī)模化的年度購書任務(wù),這種模式的工作局面經(jīng)常會先熱后冷,重復(fù)薦購。并且由于反饋信息不及時(shí),無法保證薦購的持續(xù)性,只能是采訪館員配置圖書的一種補(bǔ)充。(3)PDA模式目前主要運(yùn)用于電子書的采購,在國外也只是應(yīng)用在館際互借及OPAC檢索中的MARC數(shù)據(jù)發(fā)現(xiàn)和購買[7],并沒有在館藏紙本書配置中全面推行。所以,目前的紙本書PDA模式僅能滿足一小部分讀者個(gè)性化的需求,也不能完成館藏圖書配置的任務(wù)。在這種情況下,圖書館需要轉(zhuǎn)變觀念,探索新的館藏圖書配置模式。
大數(shù)據(jù)具有“4V”特性,即容量(Volume)巨大、處理速度(Velocity)快、價(jià)值(Value)巨大和類型(Variety)繁多[8]。根據(jù)這四個(gè)特性,從數(shù)據(jù)所處的環(huán)境來說,影響?zhàn)^藏圖書配置的大數(shù)據(jù)可分為兩類:一類是圖書館內(nèi)部數(shù)據(jù),包括紙質(zhì)資源、電子資源、網(wǎng)絡(luò)資源、圖片、音視頻等各種內(nèi)容和載體形式的館藏資源數(shù)據(jù),圖書流通數(shù)據(jù),圖書采訪數(shù)據(jù),編目加工數(shù)據(jù),信息咨詢數(shù)據(jù),專題服務(wù)數(shù)據(jù)等業(yè)務(wù)工作數(shù)據(jù);另一類是圖書館外部數(shù)據(jù),與圖書館業(yè)務(wù)密切相關(guān)的數(shù)據(jù),主要包括學(xué)科專業(yè)數(shù)據(jù)、核心科研人員數(shù)據(jù)、出版社書目數(shù)據(jù)、研究熱點(diǎn)數(shù)據(jù)、學(xué)校科研項(xiàng)目數(shù)據(jù)等。這些數(shù)據(jù)具有較大的規(guī)模,如果能對其進(jìn)行整理、分析,就能尋找到與配置圖書相關(guān)的依據(jù),優(yōu)化館藏圖書結(jié)構(gòu),提高圖書利用率。從數(shù)據(jù)的可用性與價(jià)值來說,館藏圖書優(yōu)化配置還需要考慮有關(guān)讀者的大數(shù)據(jù)。按讀者行為來分,高校的讀者數(shù)據(jù)包括靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)。讀者靜態(tài)大數(shù)據(jù)主要包括讀者的年齡、興趣、專長、專業(yè)等背景信息,而動態(tài)數(shù)據(jù)則包括讀者在微信、微博、博客、論壇等新媒體上發(fā)表的對閱讀的評論等信息,以及在網(wǎng)店、網(wǎng)站等平臺上發(fā)表的讀書互動、購書行為記錄、消費(fèi)行為記錄等數(shù)據(jù)。在構(gòu)建館藏圖書配置模型時(shí),要弄清這些數(shù)據(jù)構(gòu)成與特性,以便分類整理與研究。
簡單地說,數(shù)據(jù)挖掘(Data Mining)是指從大型數(shù)據(jù)庫或海量數(shù)據(jù)倉庫中提取隱含的、潛在的、有用知識的方法和技術(shù)。它與數(shù)據(jù)庫密切相關(guān),又可稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD) ,數(shù)據(jù)挖掘涉及的學(xué)科較復(fù)雜,包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等學(xué)科領(lǐng)域,還包含了可視化、信息科學(xué)等內(nèi)容。數(shù)據(jù)挖掘需要運(yùn)用多種現(xiàn)代技術(shù)與方法來解決問題,如統(tǒng)計(jì)學(xué)中的回歸分析、判別分析、聚類分析以及置信區(qū)間等技術(shù),機(jī)器學(xué)習(xí)中的決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù),數(shù)據(jù)庫中的關(guān)聯(lián)分析、序列分析等技術(shù)。
圖1 QlikView的體系結(jié)構(gòu)圖
從商業(yè)化的運(yùn)作來講,數(shù)據(jù)挖掘就是BI(商業(yè)智能)。QlikView作為一個(gè)完整的商業(yè)分析軟件[9],
不同于傳統(tǒng)BI通過ETL過程處理數(shù)據(jù),它通過內(nèi)存數(shù)據(jù)引擎,能夠直接查詢外部數(shù)據(jù)庫,將大量的所需要分析的數(shù)據(jù)存儲在內(nèi)存中,及時(shí)返回分析需求,提高了數(shù)據(jù)訪問和分析的效率。其體系結(jié)構(gòu)如圖1所示。
筆者利用QlikView分析工具,構(gòu)建圖書館大數(shù)據(jù)分析模型,通過數(shù)據(jù)導(dǎo)入與運(yùn)算,生成的部分圖書館流通數(shù)據(jù),能清楚地分析借閱量(如圖2所示)。從圖2可以看出.圖書館年度流通數(shù)據(jù)、分類流通數(shù)據(jù)、學(xué)院、班級及個(gè)人的借閱數(shù)據(jù),并對比流通圖書的出版社來分析館藏結(jié)構(gòu)、學(xué)生借閱報(bào)告,從而關(guān)聯(lián)到班級及學(xué)風(fēng)建設(shè)。
圖2 QlikView圖書館流通數(shù)據(jù)分析示例圖
2.3 圖書優(yōu)化配置模型的影響因子
影響圖書優(yōu)化配置的數(shù)據(jù)因素較多,不同的學(xué)者從不同的角度加以分析與論述。筆者通過中國期刊網(wǎng)期刊全文數(shù)據(jù)庫,分別按篇名關(guān)鍵詞“圖書采購”或“圖書采訪”進(jìn)行檢索,然后再用影響因素的關(guān)鍵詞按“主題”進(jìn)行二次檢索,得到關(guān)于圖書配置的各個(gè)影響因素的關(guān)鍵詞研究記錄數(shù)據(jù),進(jìn)行歸納整理,總結(jié)如表1所示。
從表1數(shù)據(jù)可以分析出,研究文獻(xiàn)關(guān)注的影響?zhàn)^藏圖書配置的主要因素有出版社、采購人員、流通率、研究領(lǐng)域、專業(yè)(學(xué)科)設(shè)置、薦購、學(xué)科(專業(yè))館員。其中出版社、研究領(lǐng)域、專業(yè)(學(xué)科)設(shè)置、薦購、學(xué)科(專業(yè))館員、采購人員是館藏配置工作的前期影響因素,而流通率則是評價(jià)館藏配置的影響因素之一。這些因素相互關(guān)聯(lián),影響?zhàn)^藏圖書的配置。
出版社提供的書目是館藏配置的基礎(chǔ),在此基礎(chǔ)上,采購人員的業(yè)務(wù)水平、選書風(fēng)格、文化知識、工作態(tài)度以及學(xué)科(專業(yè))館員推薦工作的質(zhì)量等對館藏配置起決定性作用。而圖書流通率、研究領(lǐng)域分析、專業(yè)(學(xué)科)設(shè)置、薦購情況等數(shù)據(jù)則對館藏配置的結(jié)構(gòu)偏離起到校正與完善作用。因此,研究圖書優(yōu)化配置模型的影響因子時(shí)必須考慮這些因素的權(quán)重區(qū)分比例大小,進(jìn)行量化研究。
表1 影響圖書配置因素的關(guān)鍵詞統(tǒng)計(jì)表
在大數(shù)據(jù)環(huán)境下,構(gòu)建一個(gè)科學(xué)合理的館藏圖書配置模型,主要分為四個(gè)步驟:
(1)圖書館大數(shù)據(jù)的收集、整理與建庫。收集本校圖書館微博、微信,電子郵件、新書推薦網(wǎng)站、圖書流通率、專業(yè)館員與專業(yè)教師推薦目錄、OPAC檢索詞、出版社書目、當(dāng)前研究熱點(diǎn)關(guān)鍵詞、核心科研人員研究領(lǐng)域關(guān)鍵詞、學(xué)校專業(yè)(學(xué)科)設(shè)置類別的關(guān)鍵詞、共建共享文獻(xiàn)庫書目,形成大數(shù)據(jù)庫集,以表格形式儲存,保留主要字段,便于各表格數(shù)據(jù)的關(guān)聯(lián)與發(fā)現(xiàn)。如出版社書目表格中的字段為:ISBN、書名、作者、出版社、分類號。那么,讀者借閱數(shù)據(jù)表格中的字段則對應(yīng)為:讀者證號、ISBN號、書名、作者、出版社等,這兩個(gè)表格中的字段能有效關(guān)聯(lián)和揭示,通過數(shù)據(jù)對比,挖掘讀者的閱讀興趣與圖書出版的關(guān)系,提高圖書配置的可讀性。
(2)利用數(shù)據(jù)關(guān)聯(lián)規(guī)則尋找數(shù)據(jù)的共性與個(gè)性,找出影響圖書配置主要因素的關(guān)聯(lián)性。關(guān)聯(lián)規(guī)則是分析數(shù)據(jù)集在事務(wù)集合中出現(xiàn)的頻度關(guān)系[10]。簡言之,數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)能推導(dǎo)出一種從甲到乙的模式,即當(dāng)甲事件發(fā)生時(shí),乙事件會伴隨發(fā)生,稱為一種甲與乙的關(guān)聯(lián)關(guān)系。如一個(gè)讀者的借閱記錄能反映他的閱讀傾向,但一個(gè)專業(yè)或者一個(gè)班級的讀者的借閱記錄則能反映出他們共同的研究領(lǐng)域或閱讀范圍,此為多維關(guān)聯(lián)技術(shù)。通過多維數(shù)據(jù)關(guān)聯(lián)技術(shù)研究,能發(fā)現(xiàn)各個(gè)維度的關(guān)聯(lián)度,找出影響?zhàn)^藏圖書配置因素的潛在關(guān)系,預(yù)測讀者未來的閱讀傾向或閱讀領(lǐng)域,可以提前科學(xué)地配置圖書。
(3)采用德爾菲法確定圖書配置的影響因子權(quán)重。德爾菲法(Delphi)又名專家意見法,是依據(jù)系統(tǒng)的程序,采用匿名發(fā)表意見的方式,即團(tuán)隊(duì)成員之間不互相討論,不發(fā)生橫向聯(lián)系,只與調(diào)查人員發(fā)生關(guān)系,通過多輪次調(diào)查專家對問卷所提問題的看法,經(jīng)過反復(fù)征詢、歸納、修改,最后匯總成專家基本一致的看法,并作為預(yù)測的結(jié)果。筆者通過德爾菲法預(yù)測圖書優(yōu)化配置模型的影響因子權(quán)重,得到的圖書優(yōu)化配置的主要影響因子及權(quán)重如表2所示。
表2 圖書優(yōu)化配置的主要影響因子及權(quán)重
(4)構(gòu)建圖書優(yōu)化配置模型。根據(jù)影響因子、圖書流通分析數(shù)據(jù)、讀者分析數(shù)據(jù)和《中國圖書館分類法》,按館藏圖書22個(gè)大類,構(gòu)建圖書配置比例模型(見表3),并在圖書配置實(shí)踐中檢驗(yàn)。運(yùn)用此模型配置圖書,對比圖書借閱數(shù)據(jù)和采集到的其他讀者數(shù)據(jù)來修正此模型,使之更符合館藏圖書建設(shè)。
表3 圖書配置比例模型及實(shí)證表
在大數(shù)據(jù)環(huán)境下,需要跨界思維,推進(jìn)圖書館“互聯(lián)網(wǎng)+”,再造圖書館圖書資源配置與服務(wù)新流程。打破傳統(tǒng)圖書配置、圖書閱讀、圖書推薦相脫節(jié)的弊端,通過讀者大數(shù)據(jù)的挖掘、書目大數(shù)據(jù)的分析,建立圖書館新書推送機(jī)制及反饋機(jī)制,形成圖書優(yōu)化配置與推送服務(wù)的新格局。依靠大數(shù)據(jù)分析系統(tǒng),將獲取并分析的讀者數(shù)據(jù)反饋給圖書館,優(yōu)化圖書配置模式,完善圖書配置工作。通過數(shù)據(jù)的推送將圖書配置結(jié)果發(fā)送給讀者,讀者在手機(jī)APP、電子郵箱、微信、新書網(wǎng)站、閱讀推廣QQ群等新媒體上能及時(shí)獲取信息,解決目前圖書采購、閱讀、薦購相脫節(jié)的問題,實(shí)現(xiàn)圖書服務(wù)的機(jī)制創(chuàng)新、讀者借閱的智能創(chuàng)新、圖書館業(yè)務(wù)部門間協(xié)同創(chuàng)新,讓圖書館服務(wù)更加智能化與合理化,從而形成圖書優(yōu)化配置與服務(wù)創(chuàng)新機(jī)制(如圖3所示)。
圖3 圖書館大數(shù)據(jù)的館藏圖書優(yōu)化配置模型及圖書優(yōu)化配置服務(wù)創(chuàng)新機(jī)制
挖掘并利用圖書館大數(shù)據(jù)是優(yōu)化圖書資源配置的有效途徑。大數(shù)據(jù)內(nèi)容豐富、結(jié)構(gòu)復(fù)雜,不僅僅是一堆數(shù)字,隱含的更是技術(shù),是思維和理念。大數(shù)據(jù)分析與研究,能捕捉現(xiàn)在信息,預(yù)測未來趨勢,挖掘出更多的隱性價(jià)值,傳統(tǒng)圖書配置方法與模式無法做到這一點(diǎn),因而無法面對現(xiàn)代社會對圖書閱讀的沖擊。只有創(chuàng)新圖書配置服務(wù)與工作流程,才能跟上時(shí)代潮流,滿足讀者需求,緩解圖書閱讀率逐年下降的趨勢。
挖掘并利用讀者大數(shù)據(jù)將改變圖書館與讀者的信息交互模式,創(chuàng)新圖書閱讀服務(wù)模式,實(shí)現(xiàn)圖書的精準(zhǔn)購買與精準(zhǔn)推送,讓導(dǎo)讀服務(wù)工作更專業(yè)。通過大數(shù)據(jù)獲取讀者的閱讀偏好,分析讀者的研究領(lǐng)域和方向,開展O2O服務(wù),既可節(jié)約讀者的時(shí)間,幫助他們及時(shí)完成學(xué)習(xí)、教學(xué)及科研工作任務(wù),又可促進(jìn)圖書館館藏的轉(zhuǎn)型與升級。未來館藏圖書配置工作的特點(diǎn)將呈現(xiàn)少而精、少而準(zhǔn)、少而快的特點(diǎn),而這一特征的實(shí)現(xiàn),需要圖書館同仁不懈地努力和對大數(shù)據(jù)的深入研究與運(yùn)用。
[參考文獻(xiàn)]
[1]王波等.2015年高校圖書館發(fā)展概況[EB/OL].[2017-03-20].http://www.scal.edu.cn.
[2]中國新聞出版研究院.第十三次全國國民閱讀調(diào)查數(shù)[EB/OL].[2016-04-09],http://cips.chinapublish.com.cn.
[3]王文君.重慶市高校圖書館讀者薦購情況的調(diào)查與分析[J].圖書館學(xué)研究,2017(11):45-48.
[4]龔自振.近十年高校圖書館學(xué)科館員參與選書研究綜述[J].圖書館學(xué)刊,2014(6):129-131.
[5]劉華.“讀者決策采購”在美國大學(xué)圖書館的實(shí)踐及其對我國的啟示[J].大學(xué)圖書館學(xué)報(bào),2012(1):45-50.
[6]汪志莉,李欣,于亞秀.高校圖書館館藏利用現(xiàn)狀及對策數(shù)據(jù)評估—以華東師范大學(xué)圖書館為例[J].圖書館論壇,2017(3):116-122.
[7]史麗香.紙本圖書PDA:境外圖書館的實(shí)踐及其啟示[J].圖書館雜志,2013(11):83-87.
[8]嚴(yán)雷風(fēng),張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(4):168-172.
[9]孟曉冬.電站鍋爐大數(shù)據(jù)分析系統(tǒng)開發(fā)與應(yīng)用[J].電站系統(tǒng)工程,2017,33(1):79-80,82.
[10]張煒.讀者借閱行為的關(guān)聯(lián)知識發(fā)現(xiàn)實(shí)證分析[J].圖書館工作與研究,2010(12):38-41.