伏立霞 王文剛
(1山東職業(yè)學(xué)院圖書館,山東濟南 250104;2山東省圖書館,山東濟南 250100)
文獻(xiàn)資源建設(shè)質(zhì)量的高低直接影響圖書館的讀者服務(wù)工作,影響讀者對圖書館藏書的利用[1]。同時,圖書館文獻(xiàn)資源的建設(shè)也需要有高效的圖書采訪工作的保障[2],而采訪數(shù)據(jù)的處理則是采訪工作的首要環(huán)節(jié)。其中,訂單查重是圖書采訪人員決定是否采購的關(guān)鍵一步。當(dāng)前大多數(shù)圖書館都能夠依靠圖書館管理系統(tǒng)自帶的查重工具實現(xiàn)批量快速查重[3]。對采訪人員來說,出版信息都相同或都不同很容易判定是否為重書,但I(xiàn)SBN相同,其他字段不同,則有重書的可能性;而ISBN不同,但題名和責(zé)任者兼相同,同樣有重書的可能性[4]。2017年CIP數(shù)據(jù)統(tǒng)計,《西游記》《水滸傳》《紅樓夢》和《三國演義》中國古典四大名著每種的重復(fù)版本均超過了130種,這不僅“令讀者判斷哪一版本才是最佳的,實在勉為其難,對圖書采訪工作也是一個嚴(yán)峻挑戰(zhàn)”[5]。筆者多年的工作經(jīng)驗發(fā)現(xiàn),在經(jīng)過多次查重處理后,館藏仍存在大量出版信息不同但內(nèi)容雷同的圖書。
因此,設(shè)計一套完善的圖書采訪訂單處理系統(tǒng),實現(xiàn)訂單問題的一站式處理,快速地篩選出有效訂單,是目前圖書采訪人員面臨的共同課題。
為了更詳實地了解當(dāng)前圖書采訪訂單處理情況,以圖書館采訪人員為調(diào)查對象,筆者進(jìn)行了問卷調(diào)查。
問卷設(shè)計為個人資料和采訪訂單處理情況兩大塊。結(jié)合采訪工作實際,采訪訂單處理情況部分包含采用的訂單處理模式、訂單處理周期以及訂單篩選處理時遇到哪些問題等主要情況的調(diào)查。題目的設(shè)置分為是非題、選擇題、開放式回答。本次調(diào)查采取問卷星網(wǎng)絡(luò)平臺進(jìn)行,來自山東、北京、天津、山西、廣西等全國各地的高校圖書館,其中本科院校60所,專科院校55所,共收集問卷115份。
2.2.1 采訪訂單的處理模式統(tǒng)計
從調(diào)查結(jié)果可以看出,目前50%的圖書館都用現(xiàn)有的圖書館管理軟件來進(jìn)行簡單的查重處理;32%的圖書館用純?nèi)斯ずY選處理模式,有專門的處理系統(tǒng)或軟件的圖書館僅占17%,如圖1所示:
圖1 圖書采訪訂單處理模式
2.2.2 圖書采訪工作訂單需處理的問題統(tǒng)計
每個圖書館的篩選、處理原則和側(cè)重點不一樣,但處理時面臨的問題大同小異,如圖2所示:
圖2 圖書采訪訂單需處理的問題
2.2.3 訂單處理周期及到貨周期統(tǒng)計
據(jù)調(diào)查數(shù)據(jù)顯示,目前,圖書館采訪訂單數(shù)據(jù)的篩選處理工作基本都是人工完成,圖書采訪人員需要對著電腦查看Excel表格逐條瀏覽,多數(shù)圖書館一個訂單處理完需要5天或者更長的時間。訂單處理時長太久影響下單訂貨,導(dǎo)致訂單從發(fā)貨到到貨的周期太長,如圖3所示,超過80%館到貨周期都超過30天,耗時耗力,效率低下,使得圖書館有限的購書經(jīng)費不能最大化地利用。
圖3 訂單到貨周期調(diào)查統(tǒng)計
最后開放式問題要求答卷人結(jié)合工作實際談對圖書訂單處理有哪些體會或建議時,共收集了65條有效建議。
從調(diào)查結(jié)果看,普遍認(rèn)為現(xiàn)有的訂單處理模式弊端重重,結(jié)合調(diào)查數(shù)據(jù)分析,主要集中在以下幾方面:
從調(diào)查數(shù)據(jù)看,目前超過三分之一的圖書館都使用純?nèi)斯ずY選處理。采訪訂單處理工作中無論是對非本館所需種類、高價圖書以及出版時間的篩選,還是復(fù)本的設(shè)置,都需要逐條仔細(xì)處理。尤其是通過書目來采選圖書,書商如果在自編征訂書目中摻雜一些非本館所需書目,絕大部分采訪人員是無法判斷的。面對幾千條訂單數(shù)據(jù)不僅容易出現(xiàn)疲勞,“長期重復(fù)簡單勞動容易使得工作人員產(chǎn)生懈怠情緒,進(jìn)而影響查重效率”[6]??總鹘y(tǒng)的人工篩選處理,或使用簡單的Excel篩選,“在大量的數(shù)據(jù)信息中逐條進(jìn)行比對的傳統(tǒng)查重方式已經(jīng)滿足不了當(dāng)前采訪工作人員的工作需要,需耗費大量的時間和精力且容易出錯”[4]。這種模式處理后的訂單不僅不全面,數(shù)據(jù)漏選現(xiàn)象頻出,質(zhì)量不高,低端的重復(fù)性勞動占較大比例。大數(shù)據(jù)的時代,繁冗的數(shù)據(jù)處理不再適合手工比[7]。
據(jù)調(diào)查了解,目前多數(shù)圖書館采訪訂單數(shù)據(jù)的處理工作中超過5000條數(shù)據(jù)的訂單處理完需要3天或者更長的時間。訂單處理耗時太久影響下單訂貨,導(dǎo)致訂單從發(fā)貨至到貨的周期太長。一般來說,“現(xiàn)貨圖書的到貨周期一般二至三周,預(yù)訂圖書到貨周期一般四至六周,如果超出這個范圍,將會影響到圖書館的采購計劃與讀者的閱讀需求”[8],嚴(yán)重影響采編工作效率,新書上架后時效性大打折扣。近年來,各高校“圖書館文獻(xiàn)信息的利用率極低,館藏文獻(xiàn)資源對讀者吸引力越來越弱了”[9]。其中很重要的原因之一就是新書到館周期太長,在網(wǎng)絡(luò)資源日益發(fā)達(dá)的今天,很多讀者就會放棄圖書館而選擇網(wǎng)絡(luò)途徑獲取資源。長此以往,不僅導(dǎo)致有限經(jīng)費的浪費,館藏得不到充分的利用,圖書館也就失去了其存在的價值。
調(diào)查對象中有50%的圖書館利用現(xiàn)有的圖書館管理軟件處理采訪訂單。當(dāng)前流行的圖書館管理軟件匯文、ILAS、金盤、MELINETS等只有基本的訂單查重功能。這些軟件和圖書數(shù)據(jù)采集器的查重都是同樣的原理和效果,即如果一本書的所有出版信息包括ISBN號、題名、作者、出版社等外部特征信息完全一致,系統(tǒng)將認(rèn)為是重書。但當(dāng)一本書僅僅是題名相同或類似,其他出版信息不相同的時候,現(xiàn)有的查重系統(tǒng)就認(rèn)為不是重書。《2018年全國新聞出版業(yè)基本情況》顯示,2018年全國出版圖書24.7萬種,重印圖書27.2萬種,圖書出版的發(fā)行量很大,圖書出版質(zhì)量卻參差不齊,重復(fù)出版。據(jù)筆者了解,現(xiàn)實中各個圖書館館藏中內(nèi)容雷同而其他出版信息有所差異的圖書少則幾種多則幾十種甚至上百種。館藏重復(fù)已成為圖書館面臨的共性問題,其造成的資金浪費、檢索困難、書庫危機等問題也越來越凸顯,目前的采訪查重解決的主要是顯性復(fù)本的甄別問題對于隱性復(fù)本(內(nèi)容相同或相似而外部特征不同的文獻(xiàn))的控制無能為力[10]。采訪人員也沒有很便捷的方法對這些書進(jìn)行再次甄別,導(dǎo)致館藏重復(fù)訂購問題無法解決,館藏結(jié)構(gòu)不合理現(xiàn)象日益加重。
圖書館信息化和現(xiàn)代化的發(fā)展日新月異,大數(shù)據(jù)時代現(xiàn)有的訂單處理模式弊端日益凸顯,制約著圖書采購質(zhì)量和館藏資源建設(shè)水平?;谀壳皥D書采訪訂單處理工作的現(xiàn)狀,據(jù)調(diào)查結(jié)果顯示,74%的調(diào)查對象很期待開發(fā)一款便捷、高效的訂單處理系統(tǒng),可以按照自己需要的要求,進(jìn)行篩選,并且能全方位及時合理匹配到已訂購和現(xiàn)有館藏的圖書。
針對上述當(dāng)前處理模式的弊端,如何開發(fā)一種高效的處理系統(tǒng)即能幫助圖書館解決采訪工作中訂單篩選處理耗時耗力、效率低下的問題,又能實現(xiàn)和館藏比對后解決館藏重復(fù)訂購問題呢?本文就以這個目的為出發(fā)點而研究的“圖書采訪訂單數(shù)據(jù)處理系統(tǒng)”。
信息處理系統(tǒng)的設(shè)計要充分考慮系統(tǒng)運行環(huán)境、用戶使用需求以及處理速度等環(huán)節(jié)。圖書采訪訂單數(shù)據(jù)處理系統(tǒng)是面向圖書館采訪人員,為采訪工作提供便利,提高采訪工作效率的信息處理系統(tǒng)。其設(shè)計遵從以下原則:(1)簡便易操作。首先系統(tǒng)運行只需office軟件,配置、運行環(huán)境較少出現(xiàn)問題;其次從事圖書館采編工作的人員幾乎沒有計算機專業(yè)背景,待處理的訂單也多數(shù)是Excel格式,因此系統(tǒng)設(shè)計時要充分考慮操作的便捷性,讓每個采訪人員都能熟練操作。(2)全面兼容。由于每個圖書館使用的管理系統(tǒng)不一樣,導(dǎo)入和導(dǎo)出的訂單和館藏文件格式也有差別,數(shù)據(jù)字段也不一致,系統(tǒng)在設(shè)計時對此做了全面的了解和調(diào)查,使每個圖書館無論使用哪個管理系統(tǒng)都能方便地使用本系統(tǒng)處理訂單。(3)速度與質(zhì)量兼顧。首先圖書采訪訂單處理完越早反饋給書商,就能縮短配貨周期,使新書盡早上架與讀者見面;其次要方便采訪人員多方面的檢索與處理需求,提高訂單質(zhì)量。因此,在系統(tǒng)處理速度上采用了最先進(jìn)的Hash算法,增加了智能檢索功能。
設(shè)計一套科學(xué)、有效的采訪數(shù)據(jù)處理系統(tǒng),幫助圖書館采訪人員方便快捷地處理圖書館采訪數(shù)據(jù),及時下單進(jìn)書。提高采訪工作的效率和質(zhì)量,把采訪人員從低端的人工處理中解放出來,提升圖書采訪工作的自動化、智能化程度,推進(jìn)智慧圖書館的建設(shè)和發(fā)展。具體設(shè)計方案如下圖4所示。
圖4 訂單數(shù)據(jù)處理系統(tǒng)設(shè)計方案
系統(tǒng)的設(shè)計與實現(xiàn)主要使用VBA語言編寫。為了系統(tǒng)運行的準(zhǔn)確性和高效性,還使用了以下主要技術(shù)算法:(1)數(shù)組技術(shù)。為了提高檢索的準(zhǔn)確性,使用了兩個數(shù)組將訂單中的題名中的小寫轉(zhuǎn)換為大寫,中文標(biāo)點轉(zhuǎn)為英文,并刪除空格。由于數(shù)組是寫入內(nèi)存的,在替換的過程中極大地提高了速度。(2)Hash算法。鑒于館藏數(shù)據(jù)的龐大,為了提高運行速度,使用Hash算法。HashTable占內(nèi)存大,數(shù)據(jù)存儲合理稀疏,在完成館藏比對功能時能快速實現(xiàn)。由于使用了此算法,系統(tǒng)多次完善后運行時間由40多分鐘縮短至1分多鐘。
根據(jù)系統(tǒng)對圖書采訪訂單進(jìn)行自動檢索、篩選處理,并與館藏進(jìn)行比對,提高圖書館采訪工作質(zhì)量和效率,主要功能結(jié)構(gòu)有以下幾個模塊:
模塊一:導(dǎo)入分類(訂單)。(1)原始訂單的導(dǎo)入。
將需要篩選的訂單轉(zhuǎn)化為xls或xlsx格式后,按照系統(tǒng)給出的字段順序調(diào)整好數(shù)據(jù),再將其復(fù)制到“原始訂單”工作表中。(2)館藏書目的導(dǎo)入。將館藏書目信息從圖書管理系統(tǒng)中導(dǎo)出,導(dǎo)出格式為txt的文件,保存到安裝目錄下并命名為“館藏數(shù)據(jù).txt”。
模塊二:規(guī)范數(shù)據(jù),此模塊分三個子模塊。子模塊一訂單查重:可以實現(xiàn)對原始訂單的重名篩選、條件篩選。重名篩選主要是可檢索出原始訂單中書名及ISBN號重復(fù)的書目信息。子模塊二訂單篩選:主要完成以下功能:(1)種類篩選。通過設(shè)定字符種類篩選過濾本館不適合的圖書。由于每個圖書館的篩選條件不一樣,所以本模塊在設(shè)計時增加了自由添加篩選字符種類的功能,可根據(jù)本館要求,自由添加篩選字符,字符數(shù)要求4個以下。(2)篩選高價圖書。根據(jù)設(shè)定的高價區(qū)間,將該價格及以上的圖書篩選出來由采訪人員決定是否訂購此書。(3)篩選出版日期。過濾、篩選,并可刪除某一出版日期之前的數(shù)據(jù)記錄,具體日期可根據(jù)各館要求自由輸入。子模塊三訂單檢索:可將“原始訂單”中“書名”“分類”列中含有篩選字符的書目信息全部檢索出來,滿足各館對特需圖書采購的檢索需求。
模塊三:比對館藏。將書目訂單與館藏數(shù)據(jù)進(jìn)行題名比對,將兩者題名相同的圖書一并列出,加亮顯示館藏已有相同或類似題名的圖書題名及冊數(shù),采訪人員可根據(jù)需要自行判斷是否再訂購此種圖書。
模塊四:生成書單。本模塊將經(jīng)過以上處理后的訂單進(jìn)行最后的復(fù)本設(shè)定后自動生成最終訂購書目。復(fù)本的設(shè)定可以按照兩種規(guī)則:一是按照價格設(shè)定,高價圖書與低價圖書復(fù)本分別設(shè)定;二是按照《中國圖書館分類法(第五版)》分類設(shè)定復(fù)本。
測試是保證系統(tǒng)質(zhì)量的重要手段。為了驗證本系統(tǒng)的實用性和高效性,本文以山東職業(yè)學(xué)院圖書館為例測試系統(tǒng)的主要功能。
結(jié)合該館館藏概況,圖書館制定的篩選原則是兒童、小學(xué)、初中、茶、醫(yī)學(xué)等相關(guān)的圖書不訂;其次出版日期在2016年1月1日前的圖書不訂;復(fù)本的設(shè)定原則是定價在100元以下的訂3本,100~200元的訂2本,200~500元的訂1本,500元以上的篩選出待定;和現(xiàn)有館藏題名相同或類似的全部篩出待定。此測試用的原始訂單共4000條數(shù)據(jù)(種),館藏量為20萬條數(shù)據(jù)(種),按照上述圖書館篩選要求和設(shè)定的篩選條件(自由設(shè)定)對原始書單進(jìn)行種類、出版日期及高價圖書篩選序處理。系統(tǒng)用時2.19秒篩選出符合上述篩選條件的數(shù)據(jù)共360條,其中單價超過500元的15條,2016/1/1以前出版的98條,不符合該館需求的種類247條,訂單自身重復(fù)數(shù)據(jù)27條,分別以不同的顏色加亮顯示方便采訪人員查看、處理。
將經(jīng)過以上處理過的“原始書單”中的數(shù)據(jù),與館藏數(shù)據(jù)進(jìn)行比對,系統(tǒng)用時58.02秒檢索出訂單中與館藏題名相同或相似的數(shù)據(jù)共344條并寫入“待定書目”工作表中,如圖5所示,“待定書目”工作表的A列中帶索書號且加亮顯示的圖書為館藏圖書,帶“不訂購”字樣的為“原始書單”中的圖書。根據(jù)館情如需訂購,采訪人員可將“不訂購”字樣刪除,程序會將該圖書寫回“原始書單”。
圖5 館藏比對結(jié)果
該系統(tǒng)已經(jīng)過多次嚴(yán)格測試,結(jié)果表明在圖書采訪過程中發(fā)揮了較大作用,原來采訪訂單動輒幾萬條數(shù)據(jù)的工作量,需要采訪人員花費幾天的時間進(jìn)行篩選處理,現(xiàn)在利用本系統(tǒng)只需1分鐘左右即可處理完善,大大提高了采訪工作的效率,深受圖書館采訪人員的歡迎。
總之,該系統(tǒng)研究將采訪訂單數(shù)據(jù)自動地進(jìn)行規(guī)范、篩選、過濾、添加復(fù)本,并實現(xiàn)了和館藏數(shù)據(jù)的自動比對、處理等操作,形成最終有效的訂購書單。不僅彌補了現(xiàn)有圖書館管理系統(tǒng)缺失的原始書單篩選處理功能,其運用的Hash Table等比較先進(jìn)的算法,大大提高了運算處理速度,提升了圖書采訪訂單處理工作的自動化程度。極大地提高了圖書采訪的效率和準(zhǔn)確率,縮減了采訪人員的工作量,使圖書采訪工作更加系統(tǒng)化、程序化、規(guī)范化。