□馬芳珍
?
查收查引系統(tǒng)需求分析和設(shè)計(jì)要點(diǎn)探討
□馬芳珍
從圖書館和用戶的角度分析論文查收查引服務(wù)的現(xiàn)狀和存在的問題,在與現(xiàn)有的查收查引系統(tǒng)對比分析的基礎(chǔ)上,提出新的查收查引系統(tǒng)的設(shè)計(jì)要點(diǎn)。
查收查引系統(tǒng) 系統(tǒng)需求分析 系統(tǒng)設(shè)計(jì)
論文的收錄和引用的檢索服務(wù)是國內(nèi)圖書館的一項(xiàng)特色服務(wù)。國內(nèi)的課題申報(bào)、職稱評定、成果評定和科研評估工作,都以論文的數(shù)量和質(zhì)量作為重要的參考依據(jù)。“論文被收錄與引用報(bào)告”在一定程度上反映了申報(bào)人科研產(chǎn)出的影響力,成為獎勵、評選、基金申報(bào)等項(xiàng)目的重要參考資料[1]。
目前國內(nèi)圖書館的查收查引服務(wù)量很大,僅以北京大學(xué)圖書館為例,據(jù)統(tǒng)計(jì),2011年至2013年的論文檢索總篇數(shù)約為3.7萬篇。同時(shí),由于查收查引工作多以手工為主,效率較低,特別在檢索高峰期,既無法滿足用戶的全部需求,也影響到服務(wù)質(zhì)量。一言以蔽之,無論對圖書館還是用戶,手工化工作流程有很多難以克服的問題,只有通過系統(tǒng)化和智能化的系統(tǒng)支撐服務(wù),才能解決現(xiàn)有問題[2]。
圖書館查收查引工作需要大量重復(fù)性操作,目前急需解決的問題是:
1.1 檢索結(jié)果不能重復(fù)使用
由于高校圖書館查收查引服務(wù)的用戶群基本固定,因此許多委托人會在幾年內(nèi)連續(xù)多次委托查詢。根據(jù)北京大學(xué)圖書館2011-2013年的統(tǒng)計(jì),三年有過兩次以上委托的委托人有341名。英文文獻(xiàn)檢索量的統(tǒng)計(jì)按照平臺進(jìn)行統(tǒng)計(jì):包括WOS(Web of Science)平臺和EI(The Engineering Index)平臺,其中WOS平臺包含的數(shù)據(jù)庫有SCI ( Science Citation Index)、SSCI ( Social Science Citation Index) 、A&HCI( Arts Humanities Ctation Index)、CPCI-S( Conference Proceedings Citation Index-Science)、CPCI-SSH (Conference Proceedings Citation Index-Social Science & Humanities);中文文獻(xiàn)的檢索量較小,因此將“中國科學(xué)引文索引”和“中文社會科學(xué)引文索引”兩個(gè)平臺進(jìn)行了合并統(tǒng)計(jì)。詳細(xì)統(tǒng)計(jì)見表1:
表1 2011—2013年檢索文獻(xiàn)統(tǒng)計(jì)
假設(shè)委托人每次委托論文清單的變動率為20%估算,WOS收錄、EI收錄、WOS引用、中文收錄和中文引用的重復(fù)檢索量分別為10352篇、5952篇、9806篇、2973篇和2713篇。對照北京大學(xué)圖書館2011-2013年的委托總量,如圖1所示,重復(fù)檢索文獻(xiàn)占全部檢索量的比例分別為31.62%、34.66%、32.36%、40.16%、38.53%。
圖1 重復(fù)文獻(xiàn)檢索比例
假設(shè)在更長的時(shí)間內(nèi)統(tǒng)計(jì),根據(jù)科研工作者的成長過程,多次委托的比例將更高。根據(jù)上述2011-2013年重復(fù)委托文獻(xiàn)檢索量的估計(jì),如果檢索結(jié)果可以重用,經(jīng)過3年左右的數(shù)據(jù)積累后,將可為圖書館節(jié)約大于30%的人力資源。手工條件下,由于委托人對清單進(jìn)行部分變更、逐條核對新舊委托清單非常耗時(shí),因此一般工作人員不會利用以前的收錄檢索結(jié)果。而對于引用檢索,雖然重復(fù)文獻(xiàn)的檢索詞、檢索策略是完全相同的,但由于檢索的中間環(huán)節(jié)無法記錄,因此也需要重新檢索。
1.2 多庫分頭檢索導(dǎo)致工作量倍增
委托人通常會委托同一文獻(xiàn)在多個(gè)庫中檢索收錄和引用情況,使檢索工作量成倍增加。以英文論文為例,如工科的論文通常要求檢索SCI、CPCI-S、EI庫,文理交叉學(xué)科如心理學(xué)、地理、環(huán)境科學(xué)等方面的論文通常要求檢索SCI、SSCI、CPCI-S、CPCI-SSH庫,藝術(shù)類學(xué)科的論文則需要檢索SSCI、A&HCI和CPCI-SSH庫等等。因此,一份20篇論文的委托單,經(jīng)常需要付出40篇論文的檢索工作量,加重了高峰期的供需矛盾。根據(jù)北京大學(xué)最近3年的統(tǒng)計(jì)數(shù)據(jù),委托同時(shí)檢索SCI和EI庫的論文數(shù)量為14733篇,占收錄檢索總量的39.37%。
1.3 論文清單不規(guī)范增加檢索和查重的工作量
委托人提供的委托清單經(jīng)常會有錯誤,如題名、刊名、卷期、作者等;還經(jīng)常會缺少很多信息,如合作者、卷期、頁碼等。為了盡可能減少漏檢,檢索人員需要對同一文獻(xiàn)進(jìn)行多種檢索式的組合檢索,實(shí)際上就是要求對同一文獻(xiàn)進(jìn)行多次檢索,使檢索的工作量翻倍增加。并且論文委托清單還會出現(xiàn)文章重復(fù)的情況,需要進(jìn)行人工查重。在查收查引過程中,工作人員的很多時(shí)間實(shí)際上都用在整理、查重和獲得文章的正確信息上,這個(gè)過程不僅繁瑣,還需要反復(fù)和用戶確認(rèn)。但是由于很多委托清單是由學(xué)術(shù)秘書代為整理,因此清單錯誤和部分信息缺失幾乎是不可避免的。
1.4 檢索結(jié)果整理繁瑣和數(shù)據(jù)庫平臺不穩(wěn)定造成時(shí)間浪費(fèi)
SCI、EI和中文庫平臺通常都有信息導(dǎo)出接口,但導(dǎo)出信息只是簡單的文本格式,需要工作人員摘取相應(yīng)的字段,填入檢索結(jié)果表單中,引用檢索還要區(qū)分他引和自引。這一過程目前北京大學(xué)圖書館已經(jīng)通過小工具實(shí)現(xiàn)了自動化。
另外,對于委托檢索的論文數(shù)量較大,時(shí)間緊的委托單,例如院士評審、團(tuán)隊(duì)創(chuàng)新的委托單,通常需要多個(gè)館員分工檢索,再統(tǒng)一匯總結(jié)果。例如一個(gè)180篇的SCI庫收錄引用和EI庫收錄檢索委托單,由5個(gè)人完成,則每個(gè)人都會生成SCI收錄結(jié)果、SCI引用結(jié)果、EI收錄結(jié)果和SCI他引、自引統(tǒng)計(jì)數(shù)據(jù)信息,匯總?cè)诵枰獙?5份檢索結(jié)果進(jìn)行匯總核對和統(tǒng)計(jì),這些工作都因?yàn)闆]有自動化統(tǒng)計(jì)平臺而額外產(chǎn)生的。
另外,有些數(shù)據(jù)庫平臺,由于網(wǎng)絡(luò)、技術(shù)架構(gòu)等因素,檢索速度較慢,使得檢索后的等待時(shí)間增加,降低了工作效率。
手工檢索工作的過程使得信息共享困難、溝通不流暢,導(dǎo)致用戶也面臨許多問題。
2.1 無法及時(shí)了解委托進(jìn)度
委托單通過郵件發(fā)送到郵箱后,用戶無法及時(shí)了解進(jìn)度,如郵箱是否收到、分配以及檢索進(jìn)度。特別是高峰期時(shí)論文數(shù)量大的委托,完成報(bào)告的時(shí)間較長,用戶只能通過電話和郵箱詢問,工作進(jìn)度不透明。
2.2 報(bào)告結(jié)果不易核對
圖書館根據(jù)委托論文清單提供檢索報(bào)告,報(bào)告中主要包含數(shù)據(jù)庫的論文收錄和引用情況。用戶需要對比原委托單,才能知道哪些論文未被收錄。例如用戶委托檢索80篇論文,有70篇被SCI收錄,則檢索報(bào)告提供一個(gè)70篇論文收錄情況的報(bào)告,而用戶需要根據(jù)檢索報(bào)告對比委托清單,核對哪些文章未被收錄。
2.3 論文被漏檢
檢索時(shí),工作人員通常根據(jù)習(xí)慣使用的一、兩種檢索式進(jìn)行檢索,尤其是在高峰期,任務(wù)繁重,不可能強(qiáng)制要求工作人員用三種以上的檢索式對同一文章進(jìn)行檢索。因此在委托清單有誤或是不規(guī)范時(shí)容易造成漏檢。尤其是在檢索會議論文的引用情況時(shí),經(jīng)常會出現(xiàn)引用信息不規(guī)范的情況,增加了漏檢的概率。
2.4 論文檢索報(bào)告更新困難
有些用戶需要更新同一論文清單的收錄引用情況,以便在不同的時(shí)間用于申請項(xiàng)目或其他用途。但是由于目前圖書館的手工操作流程,報(bào)告更新的工作量幾乎相當(dāng)于重新檢索。對于用戶來說不僅需要承擔(dān)重復(fù)檢索的費(fèi)用,而且在檢索高峰期,一般會優(yōu)先安排新檢索文章的委托,用戶希望快速更新的需要往往不能全部滿足。
目前已經(jīng)有一些論文查收查引的工具或者平臺,但是由于功能和設(shè)計(jì)的原因,無法完全解決上述問題。
3.1 北京大學(xué)圖書館的查收查引工具
北京大學(xué)圖書館的工具是單機(jī)版的小程序,主要實(shí)現(xiàn)了檢索結(jié)果的格式整理和統(tǒng)計(jì)功能。該軟件包括ISI收錄、EI收錄、ISI引用和中文收錄引用四個(gè)模塊??梢詫?shù)據(jù)庫導(dǎo)出的TXT文本轉(zhuǎn)換成查收查引的結(jié)果表格,并統(tǒng)計(jì)檢索結(jié)果,見圖2。
圖2 查收查引整理工具
該工具主要實(shí)現(xiàn)了查收查引過程中檢索論文信息的格式化和統(tǒng)計(jì)的功能,能夠簡化部分工作,但是不能從根本上解決圖書館和用戶的問題;并且因?yàn)楣ぞ呤菃螜C(jī)版,不能支持分工協(xié)作的環(huán)境。遇到多人分工協(xié)作檢索文獻(xiàn)的情況,仍需要通過手工將各自的檢索結(jié)果進(jìn)行整理和匯總。
3.2 中國科學(xué)院圖書館的查收查引工具
中國科學(xué)院圖書館的的查收查引工具是網(wǎng)絡(luò)版的,主要實(shí)現(xiàn)了對論文收錄和引用的自動檢索、檢索結(jié)果格式整理和統(tǒng)計(jì)等功能。其中論文和收錄引用檢索步驟需要部分人工參與。系統(tǒng)需要按照一定格式整理的文章清單,導(dǎo)入文章清單后可自動進(jìn)行收錄和引用的檢索,并進(jìn)行檢索結(jié)果格式的整理和統(tǒng)計(jì)。2013年底,北京大學(xué)圖書館對該系統(tǒng)進(jìn)行了試用,發(fā)現(xiàn)幾個(gè)主要問題:(1)論文收錄檢索策略的制定過于簡單,容易造成漏檢和誤檢;(2)引用檢索模塊和收錄檢索模塊是割裂的,不能利用收錄檢索的信息修正論文清單,從而完善引用檢索;(3)檢索信息不可重復(fù)利用,比如在檢索中進(jìn)行的人工對比和確認(rèn)信息無法被系統(tǒng)用于下一次同一文獻(xiàn)的檢索。(4)工作流程設(shè)計(jì)簡單、不流暢,用戶參與度低。(5)生成的報(bào)告格式單一、缺少查重、多種排引選擇、年代限定等功能。
2014年中國科學(xué)院圖書館的查收查引系統(tǒng)又進(jìn)行了升級,主要解決檢索環(huán)節(jié)和報(bào)告生成環(huán)節(jié)的問題[2]。
查收查引系統(tǒng)的設(shè)計(jì)有兩個(gè)重點(diǎn):第一是工作流程的設(shè)計(jì),第二是檢索模塊的檢索策略設(shè)計(jì)。
4.1 查收查引系統(tǒng)的流程設(shè)計(jì)
查收查引系統(tǒng)的工作流程設(shè)計(jì)應(yīng)把委托用戶納入到系統(tǒng)中,實(shí)現(xiàn)委托用戶、任務(wù)管理員和查收引工作人員的數(shù)據(jù)共享和信息交流。同時(shí),在流程設(shè)計(jì)中還要考慮流程的可逆性和循環(huán)性,簡化手工流程的無效環(huán)節(jié)。以北京大學(xué)為例,傳統(tǒng)的論文查收查引服務(wù)流程大致分為10個(gè)步驟,具體見圖3,在查收查引流程設(shè)計(jì)中應(yīng)該充分考慮以下原則。
(1)工作流程設(shè)計(jì)中應(yīng)重視考慮用戶的參與和信息共享。
在委托檢索的初期和后期,用戶參與可以使很多工作簡化。在用戶提交委托階段,如果用戶能夠先選取系統(tǒng)中以往委托的文獻(xiàn),再增補(bǔ)文獻(xiàn),就會非常方便工作人員重復(fù)利用以前的檢索成果。但是如果用戶沒有參與到系統(tǒng)中,則只能提交一個(gè)整體委托清單,其中可能有新有舊,工作人員如果想重復(fù)利用以前的成果,需要先對委托清單逐一檢索核對。在后期,用戶核對檢索信息和報(bào)告生成階段,通過系統(tǒng)參與,會使信息溝通更加方便。
用戶的參與不僅能夠減輕工作人員的負(fù)擔(dān),而且對用戶也是一件有益的事情,用戶可以方便地提取和導(dǎo)出他委托過的已完成檢索的論文的標(biāo)準(zhǔn)信息,不用再為整理過去3年、5年或更多年的論文清單費(fèi)神。用戶可以通過系統(tǒng)了解檢索委托的進(jìn)度、更為方便地核對報(bào)告結(jié)果,有些用戶對檢索報(bào)告中的論文排列順序有特別要求,如按照年代和引用次數(shù)排列、按照年代和第一作者排列等,這些要求往往很難描述和通過單一的排序功能解決。如果系統(tǒng)提供用戶接口,在限制檢索信息修改的同時(shí),給予用戶調(diào)整報(bào)告排序的權(quán)限,對用戶來說更為便利。
圖3 查收查引服務(wù)流程
(2)工作流程設(shè)計(jì)要具有可逆性和循環(huán)性。
論文的查收查引工作并非完全按步驟執(zhí)行,中間可能需要多次反復(fù)。比如在論文清單初檢后,如果清單有問題,需要重新和用戶確認(rèn);用戶核查報(bào)告后,如果發(fā)現(xiàn)有錯檢和漏檢的情況,也要重新進(jìn)行檢索;報(bào)告領(lǐng)取后,用戶可能由于其他原因,需要再次領(lǐng)取報(bào)告副本,或者對報(bào)告本身稍作修改,如只選擇報(bào)告中的部分文獻(xiàn),需要再領(lǐng)取一份報(bào)告等,這些都要求流程要具有可逆性,也就是說,工作流程要具有循環(huán)性,可循環(huán)利用檢索結(jié)果。
(3)工作流程的設(shè)計(jì)應(yīng)簡化手工流程的無效環(huán)節(jié)。
以北京大學(xué)圖書館為例,查收查引委托工作的管理仍以手工為主。在委托初期要對委托單進(jìn)行登記,在委托后期又需要對收費(fèi)情況進(jìn)行登記。前后的登記是割裂的,各有各的登記體系,無法一一對應(yīng)。因此設(shè)計(jì)流程時(shí)應(yīng)統(tǒng)一進(jìn)行考慮,建立一對多的關(guān)聯(lián)關(guān)系,以便于整體查詢。其次,手工登記很難精確地統(tǒng)計(jì)人員的工作量。比如為1篇論文檢索1個(gè)庫和檢索多個(gè)庫的工作量是不同的;期刊論文較會議論文規(guī)范,也更易檢索。這些差別可以在統(tǒng)計(jì)時(shí)折算到工作量中。再者,對個(gè)別的委托后不領(lǐng)取報(bào)告、領(lǐng)取報(bào)告后拖欠費(fèi)用的情況,通過提醒、黑名單管理等功能的設(shè)計(jì),將更方便地進(jìn)行催繳和管理工作。
4.2 查收查引系統(tǒng)的關(guān)鍵功能設(shè)計(jì)
查收查引系統(tǒng)應(yīng)著重解決耗時(shí)多、重復(fù)性勞動多等影響檢索工作效率的問題,這也是系統(tǒng)的核心功能。檢索模塊功能設(shè)計(jì)的難點(diǎn)并不是在論文委托信息和引用信息完全正確、規(guī)范的情況下進(jìn)行數(shù)據(jù)庫檢索的操作,而是在委托信息不規(guī)范或論文的引用信息不規(guī)范和錯誤的情況下檢索數(shù)據(jù)庫并通過容錯機(jī)制獲得良好的結(jié)果。要獲得“良好的結(jié)果”,必須有人工干預(yù)和確認(rèn),因此在設(shè)計(jì)之初就需要做一個(gè)工作量的衡量,在機(jī)器工作和人工干預(yù)之間求得平衡。
(1)檢索策略的多條件組合設(shè)計(jì)。
如果論文的標(biāo)題有誤或來源期刊不規(guī)范就無法獲得檢索結(jié)果,那么論文的檢索策略顯然是失敗的。因此論文檢索策略設(shè)計(jì)的根本在于通過幾種方式的組合檢索達(dá)到容錯的目的。檢索策略的設(shè)計(jì)要考慮檢索庫、論文種類和論文年代的特點(diǎn)。例如期刊論文和會議論文的檢索應(yīng)有所區(qū)別,因?yàn)槠诳撐母撰@得規(guī)范的來源信息,而會議論文的來源——會議名稱往往是難以規(guī)范的。再如SCI庫中2006年以后的論文引用信息更為完善,不僅有來源信息還有論文的標(biāo)題,而較早期的論文引用信息往往沒有提供引文的標(biāo)題。檢索策略的設(shè)計(jì)應(yīng)在細(xì)致考慮這些特點(diǎn)的前提下,制定有效的組合策略,在準(zhǔn)確和容錯之間獲得一個(gè)平衡的結(jié)果,使檢索結(jié)果中包含確定的信息和可能的信息,再通過有限的人工干預(yù)加以處理。
以SCI數(shù)據(jù)的收錄檢索為例,如表2所示,先進(jìn)行兩個(gè)基本的檢索式,如無法獲得結(jié)果,再對題名等字段進(jìn)行模糊檢索。
圖4 查收查引系統(tǒng)的人工干預(yù)界面
SCI數(shù)據(jù)庫檢索策略策略1檢索式:題名策略2檢索式:發(fā)表年+作者+期刊名補(bǔ)充策略檢索式:題名變形
(2)恰當(dāng)?shù)娜斯じ深A(yù)節(jié)點(diǎn)選擇。
雖然論文的查收查引工作一直以大量的“重復(fù)性勞動”著稱,但不能否認(rèn)工作中仍然有大量的判斷工作要依據(jù)人工的經(jīng)驗(yàn)和智能。究其原因只有一個(gè),就是信息錯誤和不規(guī)范。從用戶方面來看,很難避免提供的信息是錯誤的或不規(guī)范的。例如,數(shù)據(jù)庫中的標(biāo)題為“Double-pi”,而用戶提供的標(biāo)題為“double-π”,這在人工處理時(shí)非常容易判定,而機(jī)器則很難,除非有一個(gè)不斷增長的足夠強(qiáng)大的知識庫。類似的問題除了在標(biāo)題中容易出現(xiàn),在作者縮寫、期刊信息中也會出現(xiàn)。同樣,在數(shù)據(jù)庫中,信息也存在錯誤和不規(guī)范的情況,例如標(biāo)題中的分子式常常去掉下標(biāo)或用其他替代形式。所以期望用戶提交完全合乎數(shù)據(jù)庫規(guī)范的數(shù)據(jù)是不現(xiàn)實(shí)的,這也就意味著期望通過計(jì)算機(jī)實(shí)現(xiàn)論文查收引工作的完全自動化也是不現(xiàn)實(shí)的。系統(tǒng)在初次檢索后就應(yīng)當(dāng)進(jìn)行人工判斷,通過人工校對來獲得準(zhǔn)確的文獻(xiàn)信息。如圖4。
當(dāng)然人工規(guī)范信息和校對的時(shí)間要根據(jù)具體情況而定,信息規(guī)范的論文可以先用系統(tǒng)檢索,再進(jìn)行規(guī)范;反之,則應(yīng)先進(jìn)行規(guī)范。另外,有些論文可能需要通過收錄檢索矯正和補(bǔ)充信息,再進(jìn)行引用檢索。
查收查引服務(wù)是國內(nèi)的一項(xiàng)特色業(yè)務(wù),既無法借鑒國外經(jīng)驗(yàn),也無現(xiàn)成的國外系統(tǒng)供圖書館購買和使用。因此迫切需要開發(fā)出適合國情、館情和用戶需求的服務(wù)系統(tǒng)。基于前文提出的系統(tǒng)需求分析和設(shè)計(jì)理念,借助CALIS的研發(fā)力量,北京大學(xué)圖書館已經(jīng)完成了查收查引系統(tǒng)的一期開發(fā)和初步測試工作,此系統(tǒng)旨在最大程度上實(shí)現(xiàn)查收查引工作的自動化,提高效率,改善用戶體驗(yàn)。不僅如此,通過該系統(tǒng)還能夠積累學(xué)者發(fā)表正式文獻(xiàn)的數(shù)據(jù),既可以為委托學(xué)者進(jìn)行科研成果分析提供一定的數(shù)據(jù)支持,也可以成為機(jī)構(gòu)庫的有效補(bǔ)充。盡管目前系統(tǒng)還存在一些待完善之處,但已經(jīng)邁出了一大步,故愿與同行分享,更希望能拋磚引玉。
1 樊亞芳,陳鍇. 利用Excel和EndNote Web提高論文查收查引工作效率[J]. 圖書館雜志,2013(1):32-34,60
2 王學(xué)勤,郝丹,鄭菲,趙文忠,周津慧. “查收查引報(bào)告自動生成系統(tǒng)”應(yīng)用實(shí)踐研究[J]. 圖書情報(bào)工作,2014,58(16):131-137
3 王曉丹,田永梅,孫雷. 提高查收查引服務(wù)效率的實(shí)踐與探討——以哈爾濱工業(yè)大學(xué)圖書館為例[J]. 高校圖書館工作,2014(4):55-56,92
Ma Fangzhen
We analyze and discuss the current situation and problems of cited reference retrieve service from the perspective of the libraries and library users. Then based on the comparison with state-of-the-art cited reference retrieve systems, design of a novel system is presented.
Cited Reference Retrieve Service System; System Request Analysis; System Design
北京大學(xué)圖書館,北京,100871
2015年3月17日Requirements Analysis and Design of a Cited Reference Retrieve System
*通訊作者:馬芳珍,ORCID:0000-0002-1089-2220,mafz@lib.pku.edu.cn。