蔡和全
(三明學(xué)院圖書館,福建 三明 365004)
數(shù)據(jù)分析在各領(lǐng)域的應(yīng)用由來已久,2013年由英國牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)研究所治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯特(Viktor Mayer-Schonberger)和《經(jīng)濟學(xué)人》數(shù)據(jù)編輯肯尼迪·庫克耶(Kenneth Cukjer)合著的《大數(shù)據(jù)時代》一書真正將數(shù)據(jù)分析與人們的生活緊密關(guān)聯(lián)起來,掀起了大數(shù)據(jù)的熱潮。隨著計算技術(shù)的不斷進步,人們的行為分析已被各行各業(yè)所應(yīng)用,大數(shù)據(jù)已不斷深入人心。高校圖書館作為高校信息和知識服務(wù)的窗口,無論在資源建設(shè)、讀者服務(wù)還是管理上逐漸轉(zhuǎn)向以數(shù)據(jù)分析為基礎(chǔ)的用戶服務(wù)。高校圖書館的數(shù)字資源建設(shè)一直面臨著資源種類繁多、數(shù)量急劇增長和經(jīng)費不足的矛盾,在以往的數(shù)字資源建設(shè)的過程中,圖書館雖然聽取了部分讀者的意見,也做過一些調(diào)研工作,但是難免有所偏頗。大數(shù)據(jù)環(huán)境下的用戶行為分析為圖書館的數(shù)字資源建設(shè)打開了新的一 扇門。
數(shù)字資源建設(shè)是圖書館的基礎(chǔ)建設(shè),是圖書館資源建設(shè)的重要組成部分,隨著信息技術(shù)的發(fā)展,數(shù)字資源的種類和數(shù)量劇增,信息獲取渠道的增加,人們的閱讀習(xí)慣泛在化,圖書館的數(shù)字資源體系成為圖書館文獻信息資源的主要部分,目前許多大學(xué)圖書館的資源建設(shè)經(jīng)費的紙電比已呈現(xiàn)倒掛趨勢。
在《圖書館數(shù)字資源統(tǒng)計標(biāo)準(zhǔn)GC-FJ080149-AD010》中對數(shù)字資源和數(shù)字館藏做了定義,數(shù)字資源是指“經(jīng)過選擇、組織和加工處理,以數(shù)字格式存在的各種媒介信息”,數(shù)字館藏是指“圖書館館藏中所有的數(shù)字資源,包括圖書館本地?fù)碛械暮瞳@得一定期限使用權(quán)的數(shù)據(jù)庫——數(shù)字文獻”,并根據(jù)高校圖書館的實際情況,將數(shù)字資源劃分為四種類型:電子圖書(包括與圖書類似的出版物)、電子期刊(包括與期刊類似的連續(xù)出版物)、二次文獻數(shù)據(jù)庫(包括題錄、文摘、索引等)、其他數(shù)據(jù)庫。各圖書館根據(jù)自身的實際情況也會把數(shù)字資源分為不同的類別,例如以學(xué)科分類、以信息的加工層次分類、以讀者屬性分類、以存儲的介質(zhì)分類等,在日益增長的數(shù)字資源中,種類不斷增加,數(shù)量不斷增加,呈井噴之勢。在數(shù)字資源數(shù)量不斷增加的同時,數(shù)字資源的質(zhì)量出現(xiàn)了良莠不齊的現(xiàn)象,部分?jǐn)?shù)據(jù)庫只是將一些網(wǎng)絡(luò)信息用爬蟲進行搜集,簡單羅列,就形成數(shù)據(jù)庫給用戶使用,不考慮數(shù)字資源的版權(quán)、內(nèi)容的權(quán)威性和準(zhǔn)確性、元數(shù)據(jù)的規(guī)范性等因素。
目前,數(shù)字資源的采購經(jīng)費逐年上漲,就拿外文數(shù)據(jù)庫來說,在不考慮匯率波動因素的情況下,大多數(shù)外文數(shù)據(jù)庫每年的漲幅在5%以上,多的甚至達到了20%。中文數(shù)據(jù)庫的漲幅雖然沒有外文數(shù)據(jù)庫那么大,但也存在逐年上漲的現(xiàn)象,以中國知網(wǎng)為例,雖然資源總庫的漲幅不大,但是在期刊的單刊訂購上不斷加碼,單刊的種類逐年翻倍,使訂購的總體經(jīng)費大幅增長;還有一些數(shù)據(jù)庫化整為零,原來是打包一起訂購的,現(xiàn)在要分塊采購,這些現(xiàn)象都大大增加了圖書館的經(jīng)費負(fù)擔(dān)。從高校圖書館這方面來看,學(xué)校劃撥每年數(shù)字資源的預(yù)算經(jīng)費增加的空間很小,特別是山區(qū)的地方高校,數(shù)字資源的訂購經(jīng)費少得可憐,在同樣的經(jīng)費下,去年可以采購10個數(shù)據(jù)庫,今天只能采購8個數(shù)據(jù)庫了,這種矛盾對于高校圖書館數(shù)字資源建設(shè)的長期發(fā)展是非常不利的。
我國大多數(shù)985和211高校的圖書館都設(shè)有學(xué)科館員,每個學(xué)科館員負(fù)責(zé)一個學(xué)科的文獻資源建設(shè),就是在這樣的情況下,也難以周全,令大多數(shù)讀者的需求得到滿足,更何況在沒有學(xué)科館員的圖書館,僅憑一兩個資源采購人員,只能做簡單的調(diào)研再加上個人的喜好來選擇訂購數(shù)字資源,往往是圖書館買來的數(shù)字資源閑置,而讀者真正需要的數(shù)字資源又沒有,形成了圖書館與讀者之間信息不對稱的現(xiàn)象,這種矛盾不但不能使有限的資源建設(shè)經(jīng)費得到效益的最大化,也讓讀者對圖書館的信任度不斷降低,形成惡性循環(huán),從而導(dǎo)致圖書館資源利用率的不斷下降。
在過去,數(shù)據(jù)對于大多數(shù)人來說,它是陳舊的,靜止的,就像數(shù)字資源的數(shù)據(jù)僅僅作為一種統(tǒng)計資料存在,諸如數(shù)字資源的數(shù)據(jù)量有多少,使用量是多少,它的作用在于對資產(chǎn)的統(tǒng)計,稱其為小數(shù)據(jù)。而大數(shù)據(jù)可以從海量的原始數(shù)據(jù)中衍生出許多規(guī)律,從思維上改變?nèi)藗儗?shù)據(jù)的看法,它可以是一種資產(chǎn),可以是一種服務(wù),也可以是一種新的產(chǎn)品,可以根據(jù)人們的不同的需求來開發(fā)其衍生品?,F(xiàn)在,更多的人關(guān)注數(shù)據(jù)之間的關(guān)聯(lián),在許多曲線圖、柱狀圖、餅圖、氣泡圖等數(shù)據(jù)圖中尋求事物之間的聯(lián)系和發(fā)展規(guī)律,大數(shù)據(jù)以它獨特的方式改變?nèi)藗兊恼J(rèn)知,創(chuàng)造新的價值[1]。
高校圖書館數(shù)字資源建設(shè)是基于讀者需求的基礎(chǔ)上,建設(shè)符合本校本館實際情況和特色的數(shù)字資源體系,具有一定的連續(xù)性和共享性。隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的發(fā)展,手持終端的普及,信息獲取的泛在化,人工智能在圖書館的應(yīng)用,使圖書館的數(shù)字資源建設(shè)的理念發(fā)生了根本性的變化,新技術(shù)讓圖書館的數(shù)字資源建設(shè)不再拘泥于傳統(tǒng)數(shù)據(jù)庫的建設(shè),而是向與移動數(shù)字資源、多媒體數(shù)字資源等相結(jié)合、互補的多樣化的數(shù)字資源體系發(fā)展。
大數(shù)據(jù)環(huán)境下,人們掌握的數(shù)據(jù)越來越多,也越來越雜,不再執(zhí)著于數(shù)據(jù)的精確性,在乎的是數(shù)據(jù)研究之后的預(yù)測,數(shù)據(jù)分析技術(shù)提供了這種可能,通過大量原始數(shù)據(jù)的清洗和分析,可以厘清讀者利用數(shù)字資源的基本規(guī)律,通過這些基本規(guī)律反過來研究讀者對數(shù)字資源的好惡,從而得出數(shù)字資源建設(shè)發(fā)展的趨勢,這樣對數(shù)字資源建設(shè)的內(nèi)容和方向就有了一個基本判斷。
目前,大多數(shù)圖書館越來越重視圖書館的數(shù)字資源建設(shè),在不斷地壓縮紙質(zhì)資源的采購經(jīng)費,在此基礎(chǔ)上減少紙質(zhì)文獻的復(fù)本量,以數(shù)字資源來彌補紙質(zhì)資源的不足。紙電一體化是將圖書資源管理系統(tǒng)、數(shù)字資源管理系統(tǒng)、資源發(fā)現(xiàn)系統(tǒng)、分析決策系統(tǒng)整合為一體,共享資源和數(shù)據(jù),在資源建設(shè)的同時,對讀者的借閱行為進行分析,根據(jù)分析結(jié)果不斷調(diào)整資源建設(shè)方案,以達到資源建設(shè)與服務(wù)的最大化利益[2]。
據(jù)調(diào)查,圖書館的紙電一體化資源建設(shè),在減少紙質(zhì)館藏復(fù)本的情況下,大大增加了圖書的借閱量,特別是高校圖書館,大多數(shù)讀者的年齡在18-25歲之間,他們的閱讀習(xí)慣以數(shù)字閱讀和手持閱讀為主,豐富的電子書館藏為他們增加了可選擇的空間,減少了熱門圖書的等待時間。
手持終端在高校為大多數(shù)讀者所喜的信息載體,據(jù)悉,廈門大學(xué)圖書館在首次推出kindle時就被一搶而空,而且還有許多讀者的預(yù)約,大學(xué)生對手持終端閱讀喜歡程度可見一斑,而移動數(shù)字資源也深受讀者的喜愛,在每年的資源利用統(tǒng)計數(shù)據(jù)中,移動數(shù)字資源的使用量和下載量高于同類型的線上平臺的使用。讀者在使用數(shù)字資源時不再滿足于資源的獲取和學(xué)習(xí),他們更希望能夠有交流和討論的空間,目前的移動數(shù)字資源平臺較為成熟的有學(xué)習(xí)通等,它們是基于數(shù)字資源的社交平臺,在平臺上,可以閱讀,討論、直播、分享等,還能進行個性化的閱讀定制和討論話題的創(chuàng)建,將閱讀和分享、學(xué)習(xí)和交流融為一體,大大增加了讀者的閱讀體驗[3]。
高校圖書館的特色數(shù)字資源是各校根據(jù)自己學(xué)?;蛩诘貐^(qū)的特色資源所建設(shè)的特色資源數(shù)據(jù)庫,據(jù)不完全統(tǒng)計,近年來各高校自建的特色數(shù)據(jù)庫不下五百個,這些數(shù)據(jù)庫具有地方特色,如以紅色文化為主題的“萍鄉(xiāng)文化特色庫”,以特色產(chǎn)業(yè)為主題的“動漫產(chǎn)業(yè)特色文獻數(shù)據(jù)庫”,以特色館藏為主題的“集美大學(xué)水產(chǎn)科技數(shù)據(jù)庫”等,這些特色數(shù)據(jù)庫在豐富館藏數(shù)字資源的同時為讀者提供更多樣化的資源。但是在數(shù)字資源的建設(shè)中,由于沒有統(tǒng)一規(guī)劃難免造成重復(fù)建設(shè)和不夠規(guī)范的問題,1999年CALIS啟動特色庫建設(shè)項目,在歷經(jīng)三期的特色庫項目的建設(shè),一共入選了近三百項特色專題數(shù)據(jù)庫,進行規(guī)范化的建設(shè),但是還是有很多特色資源沒有納入CALIS的統(tǒng)一建設(shè),而且大多數(shù)特色資源僅僅局限于在各自高校的校內(nèi)提供訪問,無法做到資源共享。特色數(shù)字資源是圖書館館藏資源的一個重要組成部分,目前全國各高校自建的特色數(shù)字資源量較大,如果將這些資源整合起來,建設(shè)一個統(tǒng)一的特色資源檢索平臺,這樣既能使建好的特色資源得到有效的利用,提高服務(wù)效益,又能有效避免由于重復(fù)建設(shè)或建設(shè)不規(guī)范而造成的資源浪費。
依據(jù)數(shù)據(jù)分析來制定數(shù)字資源建設(shè)規(guī)劃有一定的科學(xué)性,在一定程度上反映了讀者對數(shù)字資源的客觀需求,但是也存在一定的問題,表現(xiàn)在以下三個方面:
4.1.1 數(shù)據(jù)的全面性和準(zhǔn)確性
在反映數(shù)字資源狀況的數(shù)據(jù)中,有兩類數(shù)據(jù)是核心數(shù)據(jù),一是數(shù)字資源的資源量,二是數(shù)字資源的使用量。這兩類數(shù)據(jù)的來源通常有兩種途徑,一種途徑是由數(shù)據(jù)商提供,另一種途徑可通過服務(wù)器端的采集器進行數(shù)據(jù)采集。數(shù)字資源的資源量大多數(shù)由數(shù)據(jù)商提供,由于數(shù)字資源的資源量龐大,數(shù)據(jù)商提供的數(shù)據(jù)是否準(zhǔn)確,無法考證;數(shù)字資源的使用量亦是如此,有些數(shù)據(jù)商夸大資源的使用量,給統(tǒng)計分析人員造成錯覺,而通過服務(wù)器端采集的數(shù)據(jù)會由于采集的線程、采集的路徑等因素導(dǎo)致采集的數(shù)據(jù)不夠準(zhǔn)確,無論采取哪種方式,得來的數(shù)據(jù)都存在有一定的片面性。
4.1.2 讀者調(diào)研數(shù)據(jù)的真實性和完整性
在讀者調(diào)研的過程中,大多使用發(fā)放問卷或訪談的形式進行調(diào)研,所調(diào)研的讀者范圍非常有限,不可能對所有的讀者進行全面覆蓋,同時,在調(diào)研過程中許多的問卷設(shè)計本身并不能完全反映讀者的真實意愿,結(jié)果就造成大多數(shù)讀者抱著無所謂的態(tài)度對待問卷,這樣調(diào)研出來的數(shù)據(jù)的真實性和完整性存在一定的問題。
4.1.3 數(shù)字資源的畸形消費
在許多高校,不是根據(jù)實際需求來建設(shè)數(shù)字資源,而是為了應(yīng)對各類的評估和檢查突擊式的采購數(shù)字資源,使數(shù)字資源建設(shè)失去了連續(xù)性,喪失了圖書館數(shù)字資源體系的科學(xué)性和整體性。更有部分高校圖書館根據(jù)圖書館領(lǐng)導(dǎo)或資源采購人員的喜好來采購數(shù)據(jù)庫,隨著圖書館領(lǐng)導(dǎo)的更換或采購人員的調(diào)整,數(shù)字資源體系面目全非。無論是哪一種現(xiàn)象對整個社會資源來說都是極大的浪費。
針對上述問題,高校圖書館應(yīng)采取相應(yīng)的措施極力避免因主觀或客觀因素對圖書館數(shù)字資源建設(shè)帶來的不利因素。第一,應(yīng)合理擬定本館數(shù)字資源建設(shè)的長期規(guī)劃和短期計劃,根據(jù)本校的學(xué)科建設(shè)情況,將圖書館數(shù)字資源建設(shè)與學(xué)校的學(xué)科建設(shè)緊密地結(jié)合在一起,讓數(shù)字資源的建設(shè)具有可持續(xù)性和針對性,保障圖書館數(shù)字資源體系的科學(xué)性和實用性;第二,要有效建立數(shù)字資源建設(shè)的評估制度,建立較為完善的評價指標(biāo)體系,組建由學(xué)科帶頭人或?qū)<医M成的專業(yè)的數(shù)字資源論證團隊,由專業(yè)人員對所購買的數(shù)字資源進行有效的使用效益評估,對于使用情況不好的數(shù)據(jù)庫進行合理地調(diào)整;第三,要制定科學(xué)的數(shù)字資源采購流程和規(guī)范,有目的、有計劃、有組織地進行資源的建設(shè),并且邀請讀者代表共同參與數(shù)字資源的建設(shè),以提高數(shù)字資源建設(shè)的針對性和符合度;第四,應(yīng)充分利用數(shù)字資源共享平臺,將數(shù)字資源共享平臺與本館的數(shù)字資源建設(shè)有機地結(jié)合起來,爭取圖書館數(shù)字資源體系的效益最大化;第五,建立科學(xué)的數(shù)據(jù)采集系統(tǒng),增加讀者需求調(diào)研的途徑和方法,廣泛收集讀者對數(shù)字資源需求的意見和建議,切合讀者需求以最大限度地確保數(shù)據(jù)的真實性、完整性和準(zhǔn)確性[4]。
數(shù)字資源建設(shè)是國家信息化建設(shè)的重要組成部分,有力地推動了國家的信息化發(fā)展,高校圖書館的數(shù)字資源建設(shè)是一項長期的工作,有一定的連續(xù)性和發(fā)展性。在大數(shù)據(jù)的環(huán)境背景下,要求我們重新審視數(shù)字資源建設(shè)的重要性和復(fù)雜性,在建設(shè)的過程中不斷進行改革和創(chuàng)新,更好地發(fā)揮大數(shù)據(jù)的力量,使圖書館的數(shù)字資源建設(shè)更具有系統(tǒng)性、合理性和針對性,最大程度滿足教學(xué)科研需求。