目前,大多數(shù)圖書館進(jìn)行采訪查重主要是利用圖書館自身的自動化管理系統(tǒng)、館配商提供的圖書查重平臺、購買具有查重功能的采集器以及自己開發(fā)的查重軟件幾種方式進(jìn)行查重,這幾種方式對數(shù)據(jù)的個性化要求,處理的繁簡層次、所耗費(fèi)的時間以及成本費(fèi)用都不盡相同。幾種方式各有長處,也各有弊端。本人也先后嘗試過各種查重方式,最終的結(jié)果都不那么令人滿意。經(jīng)過長時間的體會和摸索,發(fā)現(xiàn)還是office辦公軟件靠得住些。以下就如何利用office進(jìn)行查重,與同行切磋。
1 利用Excel進(jìn)行查看
由于一張Excel表格只能容納6萬多條記錄,采用Excel查重主要是針對比較小的數(shù)據(jù),在這里我把它稱為局部查重,特別適合采訪數(shù)據(jù)間的相互查重(館藏小的也適合),對圖書驗(yàn)收特別有用,可以有效地杜絕塞書現(xiàn)象。我們可以把來自不同館配商的采訪預(yù)訂數(shù)據(jù)做成一個文件,分別放在不同的工作表中,比如將從人天、儒林和三新的預(yù)訂數(shù)據(jù)做成一個名叫圖書預(yù)訂數(shù)據(jù).xls文件,該文件中就包含人天、儒林和三新三個工作表,也可以把不同館配商的預(yù)訂數(shù)據(jù)分別做成不同的文件,如人天.xls、懦林.xls和三新.xls三個文件,本人習(xí)慣做成一個文件。當(dāng)每新訂購一批圖書,就將其采訪數(shù)據(jù)加入相應(yīng)的工作表中或文件中,并作一備注,標(biāo)明是第幾批,以供圖書到館驗(yàn)收查重用。
1.1 同一表中數(shù)據(jù)的處理
包括對書號及重復(fù)數(shù)據(jù)的處理,進(jìn)行這種處理有助于表與表中查重的效率和準(zhǔn)確性的提高。書號的處理主要是針對10位同13位ISBN號間進(jìn)行轉(zhuǎn)換,建議將10位和13位的ISBN號各入一列,這樣就可以用10位查,也可以用13位查。由于同一表中可能會出現(xiàn)幾條相同的記錄,會造成統(tǒng)計(jì)的誤差,這就需要對這一重復(fù)記錄進(jìn)行剔除,用手動的方法不僅費(fèi)時而且費(fèi)神,用表中高級篩選的話,效率就大大提高了。具體操作為選中工具欄中數(shù)據(jù)下拉菜單一篩選一高級篩選,選中列表區(qū)域和條件區(qū)域,在復(fù)選選擇不重復(fù)記錄,單擊確定,表中就會隱藏重復(fù)的記錄,顯示的則是不重復(fù)的記錄,我們也可以將其記錄復(fù)制到其它表中。建議以上的操作最好是以ISBN號為條件,書名因同名的太多而不宜用,同一書號的叢書或套書則要單獨(dú)進(jìn)行處理。
1.2 不同表或不同文件間數(shù)據(jù)的查重
采購的圖書入館后,先不急著一包一單驗(yàn)收,因?yàn)橐话粏蔚膱D書不一定是本館訂購的書。用訂購數(shù)據(jù)同館配商的發(fā)貨數(shù)據(jù)比對,進(jìn)行查重,可以將館配商的塞書剔除,從而有效地杜絕塞書現(xiàn)象。數(shù)據(jù)的比對實(shí)際上是引用Excel自帶的統(tǒng)計(jì)函數(shù)COUNTIF進(jìn)行統(tǒng)計(jì),最終達(dá)到查重的目的。假若本館現(xiàn)在要對人天公司的發(fā)貨圖書進(jìn)行驗(yàn)收,只要打開人天的訂購數(shù)據(jù)和發(fā)貨數(shù)據(jù),在ISBN的格式一致時用ISBN號查重:在人天發(fā)貨數(shù)據(jù)插入一列,在要插入的列中調(diào)用統(tǒng)計(jì)函數(shù)COUNTIF,這個函數(shù)主要用于計(jì)算區(qū)域中滿足給定條件的單元格的個數(shù),語法為COUNTIF(range,criteria),Range為需要計(jì)算其中滿足條件的單元格數(shù)目的單元格區(qū)域Criteria為確定哪些單元格將被計(jì)算在內(nèi)的條件,其形式可以為數(shù)字、表達(dá)式、單元格引用或文本。本例中的Range為人天訂購數(shù)據(jù)中的ISBN列,Criteria為人天發(fā)貨數(shù)據(jù)中的ISBN列。通過計(jì)算后,數(shù)字為0的是未訂購的數(shù)據(jù),即人天塞書,非零的就是本館的訂購圖書。記住插入列前的一列數(shù)據(jù)不能為空,計(jì)算完畢后最好將計(jì)算好的值替換成文本,這樣會提高處理數(shù)據(jù)的效率。為了防止館配商將所到圖書在下次重發(fā),最好將已驗(yàn)收的訂購圖書作一備注,供下次再查重用。這樣,就可以從根本上杜絕館配商塞書情況的發(fā)生。在掌握這個函數(shù)后,我們可以很方便地進(jìn)行表與表的比對,不過數(shù)據(jù)太大會影響計(jì)算速度,建議太大的數(shù)據(jù)比對不用Excel,改用Access。
2 利用Access查重
Access同Excel相比,具有更強(qiáng)大的功能,支持廣泛的數(shù)據(jù)格式,可以處理大型的數(shù)據(jù),在查重和去重方面有不可比擬的優(yōu)越性,其操作方法如下。
在去重和查重之前,將要處理的數(shù)據(jù)導(dǎo)入Access表中,包括采訪數(shù)據(jù),館藏?cái)?shù)據(jù)以及其它相關(guān)的數(shù)據(jù),其數(shù)據(jù)各字段的格式要保持一致。導(dǎo)入數(shù)據(jù)后,接著我們就要進(jìn)行數(shù)據(jù)的處理。
2.1 同一文件中的數(shù)據(jù)去重
我們先在查詢中建立一個去重文件,在設(shè)計(jì)視圖中寫入去重命令(sELECT DISTINCT字段名INTO表FROM需要去重的數(shù)據(jù)文件),其中,字段名指導(dǎo)人數(shù)據(jù)的各字段,如書號,書名等,“表”是經(jīng)過處理后的沒有重復(fù)記錄的表,點(diǎn)擊執(zhí)行后,不重的數(shù)據(jù)就進(jìn)入“表”中,打開“表”,全是不重的數(shù)據(jù)記錄。
2.2 不同文件的數(shù)據(jù)去重
若要將采訪數(shù)據(jù)A中同館藏?cái)?shù)據(jù)B中相重復(fù)的記錄去掉,可以用DELETE*FROM A WHERE字段名iIl(select字段名from B);命令,其字段名必須相對應(yīng),即為同一條件。執(zhí)行命令后,重復(fù)的數(shù)據(jù)就在A中刪除沒有了。
2.3 不同文件的數(shù)據(jù)的查重
如果說我們只要知道采訪數(shù)據(jù)A中的哪些數(shù)據(jù)同館藏?cái)?shù)據(jù)B中的數(shù)據(jù)重了,而不動采訪數(shù)據(jù)A,也好辦,用命令SELECT A* INTO c FROM AWHERE字段名in(select字段名from B);命令執(zhí)行后,重復(fù)的數(shù)據(jù)記錄就在表c了,只要打開表c就可以查看重復(fù)的數(shù)據(jù)記錄,而采訪數(shù)據(jù)A沒有任何變化。
用Access查重去重很容易實(shí)現(xiàn),只需用簡短的命令執(zhí)行操作,不過,查重前務(wù)必要確保導(dǎo)人數(shù)據(jù)的準(zhǔn)確性,否則,查重去重的準(zhǔn)確性就沒有保障。
關(guān)于用office查重去重,更深層次的東西有待大家進(jìn)一步挖掘,希望本文起到拋磚引玉之效。筆者以為,為了科學(xué)建設(shè)館藏資源及優(yōu)化館藏資源,圖書館采購人員必須具備一定的數(shù)據(jù)處理能力,通過在整個業(yè)務(wù)鏈的前端把好圖書的質(zhì)量關(guān),確保提高全館的服務(wù)水平。