顧笑迎 吳 瑨 李 碩
(華東師范大學(xué)圖書館 上海 200062)
“查收查引”是高校圖書館信息服務(wù)的重要內(nèi)容,屬于圖書館傳統(tǒng)核心業(yè)務(wù)之一——參考咨詢的工作范疇,是參考咨詢事業(yè)發(fā)展到一定水平的產(chǎn)物,其服務(wù)水平的高低被認(rèn)為是衡量現(xiàn)代圖書館整體業(yè)務(wù)質(zhì)量的重要標(biāo)準(zhǔn)。目前,高校的人才引進(jìn)、職稱評定、各類人才工程、科研項目申報等,都需要圖書館對其原始學(xué)術(shù)論文提供收錄引用等查詢證明,以此作為學(xué)校相關(guān)決策的數(shù)據(jù)支撐[1]。
隨著越來越多管理機(jī)構(gòu)對查收查引檢索結(jié)果的認(rèn)可,查收查引業(yè)務(wù)的需求不斷增長。國家圖書館科技查新中心接收的查收查引業(yè)務(wù)咨詢量從2013年的2 716單增長到2019年的4 749單;浙江大學(xué)圖書館2016—2018年接受的查收查引業(yè)務(wù)委托達(dá)23 826人次[2]。由于作者提供的原始信息不準(zhǔn)確、引用者標(biāo)注的引用格式不規(guī)范、數(shù)據(jù)庫誤標(biāo)誤引、作者重名等原因,查收查引工作往往需要耗費(fèi)檢索人員大量的時間,且導(dǎo)致該項工作的自動化較難以實(shí)現(xiàn)[3]。一般認(rèn)為自引易受作者或期刊編輯的主觀情感影響,較他引的含金量低[4]。因此,在做查收查引工作中,委托者通常會要求區(qū)分自引和他引。由于外文數(shù)據(jù)庫姓名著錄方式較為典型的規(guī)則是姓全拼,名僅保留首字母,這導(dǎo)致了大量不同中國作者的拼寫是一致的,如Wang W可以是王偉、汪巍、王唯等,而系統(tǒng)是無法自動識別和判定的[5]。且一篇被引文獻(xiàn)往往有很多作者,尤其是理工科的論文,有時作者能達(dá)到上百個甚至更多,要將這些數(shù)量繁多的原作者從施引文獻(xiàn)中區(qū)分出來需要檢索者花費(fèi)大量的時間。因此自引他引的區(qū)分成為了查收查引工作中的瓶頸問題。
為了解決查收查引工作中大量機(jī)械重復(fù)的工作,提高工作效率,研究人員們做出了許多努力。通過文獻(xiàn)調(diào)研發(fā)現(xiàn),我國查收查引工作的研究探索主要可分為兩個方向,一是開發(fā)整體系統(tǒng),二是針對某個工作步驟,如區(qū)分自引他引、自動生成報告等,或利用已有軟件或編寫程序開發(fā)軟件工具來提高工作效率。
袁浩等人[2]對我國查收查引系統(tǒng)進(jìn)行了調(diào)研,發(fā)現(xiàn)有十余家圖書館自行開發(fā)了查收查引系統(tǒng),但大部分僅用于自己的圖書館,其中中國科學(xué)院系統(tǒng)、CALIS(China Academic Library & Information System)系統(tǒng)、北京郵電大學(xué)系統(tǒng)(株洲田心系統(tǒng))、知先系統(tǒng)、寶和系統(tǒng)這五家查收查引系統(tǒng)通過商業(yè)渠道取得了相對較為廣泛的應(yīng)用。但整體系統(tǒng)的開發(fā)耗時耗力,并非易事,且系統(tǒng)也僅能實(shí)現(xiàn)查收查引過程的半自動化,部分環(huán)節(jié)依然需要人工干預(yù),再加上購買商業(yè)系統(tǒng)還要受到經(jīng)費(fèi)預(yù)算等的限制,查收查引系統(tǒng)并未得到十分廣泛的普及。朱慧等人[5]對教育部認(rèn)證的102家查新站的查收查引服務(wù)進(jìn)行了調(diào)研,獲取了其中49家的系統(tǒng)使用情況:15家未引進(jìn)系統(tǒng),34家引進(jìn)系統(tǒng)。
沒有查收查引系統(tǒng)加持的查新機(jī)構(gòu),在查收查引工作的開展上也充分發(fā)揮自身特長進(jìn)行了多方位的探索。一部分充分利用已有的軟件,如利用Excel、Endnote、NoteExpress等提高自引和他引的區(qū)分效率[6-8],利用Word宏快捷生成檢索報告中的表格[9],利用水晶報表軟件自動生成檢索報告[10],等等。還有一部分通過編寫程序開發(fā)軟件來提高查收查引的工作效率,如利用python語言編寫程序,通過Web of Science(以下簡稱WOS)的API接口直接獲取數(shù)據(jù)并區(qū)分自引他引[11-13];利用Java編寫相應(yīng)程序,實(shí)現(xiàn)自引他引的區(qū)分并生成相應(yīng)統(tǒng)計表或報告[14-16];結(jié)合作者姓名、單位和作者識別號編寫程序進(jìn)行自引他引的區(qū)分[17-18];通過嵌套自動檢索系統(tǒng)的微信小程序?qū)崿F(xiàn)快速委托與收錄檢索的功能[19],等等。
上述研究成果或仍無法避免前期或后期的處理工作,或未能解決自引他引的區(qū)分這個查收查引工作的瓶頸問題,或嘗試解決但依然存在需改進(jìn)的地方。筆者基于Unity3D開發(fā)了一款高效的自引他引區(qū)分軟件,解決查收查引工作中的瓶頸問題,過程的實(shí)現(xiàn)不受瀏覽器版本、模式,以及數(shù)據(jù)庫更新的影響,也不受WOS付費(fèi)API接口的限制,可一勞永逸長期使用。
Unity3D是由Unity Technologies研發(fā)的可跨平臺的開發(fā)引擎,可延伸于基于WebGL技術(shù)的HTML5網(wǎng)頁平臺,以及tvOS、Oculus Rift、ARKit等新一代多媒體平臺。編輯語言支持C#或JavaScript,對開發(fā)者要求低,通過開源代碼可方便地生成相關(guān)軟件工具。除可以用于研發(fā)電子游戲之外,Unity3D還廣泛用作建筑可視化、實(shí)時三維動畫等類型互動內(nèi)容的綜合型創(chuàng)作工具。
Unity3D最初于2005年在蘋果公司的全球開發(fā)者大會上對外公布并開放使用,當(dāng)時只是一款面向Mac OS X平臺的游戲引擎。時至2018年,該引擎所支持的研發(fā)平臺已經(jīng)達(dá)到27個[20],這些平臺包括Windows、Mac OS、iOS、安卓、索尼PS4、任天堂Switch、微軟Xbox One、谷歌Stadia、微軟Hololens、谷歌AR Core、蘋果AR Kit、商湯SenseAR等。Unity分為免費(fèi)的個人版,付費(fèi)的進(jìn)階版、專業(yè)版以及面向大型用戶的企業(yè)版。
Unity3D的開發(fā)環(huán)境為層級式,編輯器視覺化,頁面預(yù)覽動態(tài)化??砷_發(fā)微軟Microsoft Windows和Mac OS X的可執(zhí)行文件、在線內(nèi)容(通過Unity Web Player插件支持Internet Explorer、Firefox、Safari、Mozilla、Netscape、Opera和Camino)、Mac OS X的Dashboard工具、Wii程序和iPhone應(yīng)用程序。
近年來,Unity為中國用戶量身打造產(chǎn)品和服務(wù)。2019年Unity中國版編輯器正式推出,其中加入專為中國Unity研發(fā)的Unity優(yōu)化-云端性能檢測和優(yōu)化工具。此外,Unity還為各種規(guī)模的游戲開發(fā)團(tuán)隊提供技術(shù)支持服務(wù),通過線上問答、項目分析、現(xiàn)場培訓(xùn)等形式為中國開發(fā)者解決各種難題。
從實(shí)際收到的查收查引委托來看,涉及最多的檢索數(shù)據(jù)源為WOS平臺上的Science Citation Index Expanded(SCI-EXPANDED)、Social Sciences Citation Index(SSCI)、Arts & Humanities Citation Index(A&HCI)等數(shù)據(jù)庫,該平臺也是業(yè)界公認(rèn)的權(quán)威檢索數(shù)據(jù)源之一。筆者利用Unity3D工具設(shè)計一款WOS引文數(shù)據(jù)的自引查找工具。軟件的設(shè)計思路是將被引文獻(xiàn)的作者列與施引文獻(xiàn)的作者列進(jìn)行對比,篩選出相同的用括號括起并標(biāo)記為不同的顏色,也即為自引的記錄;同時還要限定比對的范圍為某篇被引文獻(xiàn)之后,下一篇被引文獻(xiàn)之前,PT列標(biāo)J(期刊)、B(書籍)、S(叢書)、P(專利)的該被引文獻(xiàn)的施引文獻(xiàn)。算法程序控制流圖如圖1所示。
圖1 算法程序控制流圖
核心代碼如下:
public IEnumerator handle(){
string colorname = "";
GameObject[]colorlist = GameObject.FindGameObjectsWithTag ("toggle");
for (var i = 0; i < colorlist.Length; i++) {
Toggle new1 = colorlist [i].GetComponent
if (new1.isOn == true) {
colorname = colorlist [i].name;
}
}
xuhao_column = getNumByString(xuhao.text);
name_column = getNumByString(xname.text);
filePath = file.text;
FileInfo newFile = new FileInfo(filePath);
using (ExcelPackage package = new ExcelPackage(newFile))
{
//showtips.text = filePath+ sheet.text;
ExcelWorksheet worksheet = package.Workbook.Worksheets[sheet.text];
for (int i = 1; i <= 8000; i++) {
var temp1 = worksheet.Cells[i, xuhao_column].Value;
string strtemp1 = Convert.ToString (temp1);
if (strtemp1.CompareTo("J")== 0 || strtemp1.CompareTo("S")==0 || strtemp1.CompareTo("B")==0 || strtemp1.CompareTo("P")==0) {
var temp2= worksheet.Cells[i - 1, xuhao_column].Value;
string strtemp2 = Convert.ToString(temp2);
//設(shè)置第一次碰到J值時候,確定的名字列的行號
if (strtemp2.CompareTo("J") !=0 && strtemp2.CompareTo("S")!=0 && strtemp2.CompareTo("B")!=0 && strtemp2.CompareTo("P")!=0) {lastnameno = i - 1;
}
zu izh on g =biaoshiName(Convert.ToString(worksheet.Cells[i,name_column].Value), Convert.ToString(worksheet.Cells[lastnameno,name_column].Value));
showtips.text = "處理第" +Convert.ToString(i+1) + "行數(shù)據(jù)";
yield return new WaitForEndOfFrame();
if (zuizhong[1].CompareTo("1")== 0) {
//有名字替換成功
worksheet.Cells[i,name_column].Value = zuizhong[0];
if (colorname.CompareTo("Red") == 0) {
worksheet.Cells[i, name_column].Style.Font.Color.SetColor(System.Drawing.Color.Red);
}else if(colorname.CompareTo("Green") == 0){
worksheet.Cells[i, name_column].Style.Font.Color.SetColor(System.Drawing.Color.Green);
}else if(colorname.CompareTo("Blue") == 0){
worksheet.Cells[i, name_column].Style.Font.Color.SetColor(System.Drawing.Color.Blue);
}
}
}else{
lastnameno = 0;
}
}
package.Save();
}
showtips.text = "處理完成";
}
從WOS平臺導(dǎo)出被引文獻(xiàn)記錄,導(dǎo)出格式選擇制表符分隔文件,導(dǎo)出內(nèi)容選擇完整記錄,將所得txt文件復(fù)制粘貼到Excel文件中。在A列標(biāo)上序號。檢索各被引文獻(xiàn)的相應(yīng)施引文獻(xiàn),以同樣的方式導(dǎo)出,通過插入,放在該被引文獻(xiàn)的下方,如圖2所示。A列為被引文獻(xiàn)的序號和施引文獻(xiàn)的文獻(xiàn)標(biāo)識,B列為作者名字縮寫,F(xiàn)列為作者名字全拼。
圖2 文件準(zhǔn)備示例
軟件運(yùn)行界面如圖3所示,輸入文件路徑、sheet頁名稱、序號列A、名字列B(或F),選擇標(biāo)注的顏色,點(diǎn)擊開始即可。
圖3 自引查找工具界面
實(shí)際操作中,由于B列是作者姓名的縮寫,會出現(xiàn)大量假陽性的對比結(jié)果,而F列作者全拼列則又會由于全拼的表達(dá)方式不同(如何積豐可能被表達(dá)為he jifeng、he ji-feng、he, jifeng等)而漏掉一些真陽性的對比結(jié)果。因此可以將B列和F列分別進(jìn)行比對,如F列顯示為自引,則確定該記錄為自引。如僅有B列顯示自引,但F列不顯示,則將這部分記錄通過作者姓名全拼、單位等進(jìn)行復(fù)核。實(shí)踐顯示,絕大部分的自引都能通過軟件自行判斷,僅有少量文獻(xiàn)需要進(jìn)行人工復(fù)核,且由于B列已經(jīng)將有可能是自引的作者用括號進(jìn)行了標(biāo)識,因此即使是人工復(fù)核,也不會花很多時間。
用軟件判斷過后的頁面顯示如圖4所示,B列、F列自引的記錄根據(jù)選擇標(biāo)識了不同顏色,并對具體的自引作者進(jìn)行了括號標(biāo)記。
圖4 自引查找工具運(yùn)行后Excel界面
對10篇被引文獻(xiàn)共87篇施引文獻(xiàn)使用自引查找工具和人工Excel篩選查找兩種方式進(jìn)行自引他引的區(qū)分,結(jié)果如表1所示。兩種方式F列均查找到30條真陽性記錄,使用自引查找工具在B列共查找到35條記錄,使用人工方式在B列共查找到38條記錄。使用自引查找工具在標(biāo)記自引記錄時共耗時5秒,而人工方式則耗時960秒,使用自引查找工具在自引標(biāo)記上提高了191倍的效率。
表1 工具與人工區(qū)分自引和他引對比驗證結(jié)果表
可以發(fā)現(xiàn),B列使用人工方式比使用自引查找工具的方式多3條記錄。經(jīng)比較發(fā)現(xiàn)是由于諸如Zhu, H、Wang, X在篩選查找的方式下會標(biāo)記出諸如Zhu, HB、Wang, XB等錯誤記錄??梢娡ㄟ^自引查找工具可降低B列假陽性出現(xiàn)的概率,減少后續(xù)人工復(fù)核的工作量。
在對B列進(jìn)行自引標(biāo)記時,使用自引查找工具不僅減少了假陽性的出現(xiàn),而且由于把自引作者用括號進(jìn)行了標(biāo)記,能極大地提高人工復(fù)核的效率。使用自引查找工具后對5條假陽性記錄進(jìn)行人工復(fù)核共耗時40秒,人工方式對8條假陽性進(jìn)行人工復(fù)核共耗時210秒。如文獻(xiàn)作者較多,將耗費(fèi)更多的時間。因此使用軟件在假陽性復(fù)核上能提高至少4—5倍的工作效率。
在總耗時上,使用自引查找工具對10篇被引文獻(xiàn)共87篇施引文獻(xiàn)進(jìn)行自引標(biāo)記總耗時45秒,而使用人工Excel篩選查找方式總耗時1 170秒。使用自引查找工具相較人工方式可提高至少25倍工作效率。
查收查引工作由于客觀原因,完全實(shí)現(xiàn)自動化較為困難,但在實(shí)際操作過程中有大量重復(fù)工作,基于Unity3D開發(fā)的自引查找工具能在自引和他引的區(qū)分這項耗時耗力的工作中發(fā)揮極大的作用,能提高至少25倍工作效率,是一項可在其他圖書館復(fù)制采用的微技術(shù)革新。
今后還可考慮通過作者姓名結(jié)合單位以及作者識別號的比對來進(jìn)行自引的自動查找,減少需要人工復(fù)核的記錄,進(jìn)一步提高自動化程度并提高準(zhǔn)確率。但由于單位的表達(dá)存在差異、一個作者可能涉及多個單位、作者識別號的使用還不夠廣泛等原因,這項工作的開展還需要更多的探索。另外,還可考慮進(jìn)一步提高工具的適用性,如將中文的CSCD(Chinese Science Citation Database)、CSSCI(Chinese Social Sciences Citation Index)等納入適用范圍,全面提高圖書館查收查引的工作效率。