摘要:從文獻(xiàn)研究來(lái)看,國(guó)內(nèi)對(duì)于EI文章引用的相關(guān)研究缺失。文章介紹了基于VBA語(yǔ)言開(kāi)發(fā),并通過(guò)SeleniumBasic技術(shù)實(shí)現(xiàn)了EI論文跨庫(kù)批量引文檢索軟件的詳細(xì)設(shè)計(jì)、實(shí)現(xiàn)過(guò)程和關(guān)鍵代碼,軟件填補(bǔ)了國(guó)內(nèi)EI論文跨庫(kù)批量引文索引軟件的空白。
關(guān)鍵詞:論文查收查引;引文檢索軟件;EI;EI引用;VBA
中圖分類(lèi)號(hào):G250" 文獻(xiàn)標(biāo)志碼:A
0 引言
學(xué)術(shù)界常說(shuō)的三大科技文獻(xiàn)檢索系統(tǒng):科學(xué)引文索引(Science Citation Index,SCI)、工程索引(Engin-eering Index,EI)、科技會(huì)議錄索引(Conference Proceedings Citation Index-Science,CPCI-S ;原名Index to Scientific amp; Technical Proceedings,ISTP),是國(guó)際公認(rèn)的科學(xué)統(tǒng)計(jì)與科學(xué)評(píng)價(jià)主要檢索工具??萍冀缙毡榻邮芤员籗CI 、EI、CPCI-S(原ISTP)三大檢索收錄和引用論文的統(tǒng)計(jì)分析結(jié)果,作為評(píng)價(jià)學(xué)術(shù)論文水平和國(guó)際影響力的主要依據(jù)之一[1]。
EI創(chuàng)刊于1884年,由美國(guó)工程情報(bào)公司出版發(fā)行[2],是目前全球最全面的工程領(lǐng)域二次文獻(xiàn)數(shù)據(jù)庫(kù),側(cè)重提供應(yīng)用科學(xué)和工程領(lǐng)域的文摘索引信息,涉及核技術(shù)、生物工程、交通運(yùn)輸、化學(xué)和工藝工程、照明和光學(xué)技術(shù)、農(nóng)業(yè)工程和食品技術(shù)、計(jì)算機(jī)和數(shù)據(jù)處理、應(yīng)用物理、電子和通信、控制工程、土木工程、機(jī)械工程、材料工程、石油、宇航、汽車(chē)工程以及這些領(lǐng)域的子學(xué)科。
EI數(shù)據(jù)庫(kù)作為三大索引里工程技術(shù)領(lǐng)域重要的檢索工具,是SCI的重要補(bǔ)充,但EI數(shù)據(jù)庫(kù)僅有收錄,沒(méi)有引用檢索(也是三大索引中唯一),不能體現(xiàn)出EI數(shù)據(jù)庫(kù)收錄論文對(duì)EI論文的引用與他引情況。隨著我國(guó)科研人員產(chǎn)出成果的與日俱增,論文查收查引業(yè)務(wù)量不斷增加,科研工作者對(duì)于論文收錄與引用質(zhì)量要求也越來(lái)越高,他們不僅希望發(fā)表的論文被更高學(xué)科分區(qū)(比如Q1區(qū)期刊)的期刊錄用,也希望論文能有更高的引用與他引數(shù)量。在競(jìng)爭(zhēng)激烈的學(xué)術(shù)氛圍中,人們?cè)絹?lái)越希望EI論文能實(shí)現(xiàn)跨庫(kù)引用檢索,即在Web of Science數(shù)據(jù)庫(kù)(以下簡(jiǎn)稱(chēng)“WOS數(shù)據(jù)庫(kù)”)中檢索EI論文的引用與他引情況,以此來(lái)反映EI論文的高質(zhì)量。
利用主題詞Engineering Village(EI;同義詞EI-Village或不同拼寫(xiě)形式EI Village)和查收查引(及其同義詞或近義詞,如代查代檢、引文查證、引用檢索等)在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中檢索并查看檢出文章的內(nèi)容,并未在相關(guān)文獻(xiàn)中發(fā)現(xiàn)國(guó)內(nèi)有關(guān)于EI論文跨庫(kù)檢索實(shí)現(xiàn)引用他引檢索的相關(guān)研究。筆者結(jié)合工作實(shí)際,利用VBA語(yǔ)言研發(fā)了EI論文跨庫(kù)引用檢索軟件,可以自動(dòng)提取收錄于EI論文中的標(biāo)題、作者、DOI號(hào)等,并生成相關(guān)檢索式,通過(guò)SeleniuBasic控制瀏覽器自動(dòng)實(shí)現(xiàn)WOS數(shù)據(jù)庫(kù)進(jìn)行引文檢索,獲取引用他引數(shù)據(jù),并運(yùn)用Excel宏完成引用和他引的統(tǒng)計(jì)分析,控制Word宏輸出符合需求的檢索證明。程序代替了人工檢索引用他引的步驟,真正實(shí)現(xiàn)了EI論文的WOS數(shù)據(jù)庫(kù)引用自動(dòng)化檢索與數(shù)據(jù)處理、模板式輸出檢索證明,降低了工作強(qiáng)度,同時(shí)提高了準(zhǔn)確度和工作效率。
1 設(shè)計(jì)思路
軟件實(shí)現(xiàn)EI論文的跨庫(kù)引用檢索與引用數(shù)據(jù)導(dǎo)出,并通過(guò)Excel宏自動(dòng)快速統(tǒng)計(jì)引用和他引次數(shù),具體流程如圖1所示。
EI收錄查詢(xún)是檢索人員根據(jù)用戶(hù)委托對(duì)申請(qǐng)檢索論文進(jìn)行EI數(shù)據(jù)庫(kù)收錄查詢(xún)的操作,檢索人員需要通過(guò)標(biāo)題、作者、來(lái)源出版物、出版年、DOI號(hào)等字段在EI數(shù)據(jù)庫(kù)中檢索確定論文的收錄情況。EI收錄查詢(xún)除了可以用來(lái)確定委托論文是否有被EI數(shù)據(jù)庫(kù)收錄,同時(shí)也是對(duì)委托論文進(jìn)行修正和規(guī)范的過(guò)程(在沒(méi)有機(jī)構(gòu)知識(shí)庫(kù)的情況下,委托人提交的論文可能出現(xiàn)信息錯(cuò)誤、不完整、不規(guī)范等情況),EI收錄查詢(xún)是做好EI引用的基礎(chǔ)和前提條件。
EI收錄檢索完成后的數(shù)據(jù),可作為論文引用檢索數(shù)據(jù)源導(dǎo)入程序,并通過(guò)程序提取DOI(Digital Object Identifier)號(hào)。DOI是數(shù)字對(duì)象唯一標(biāo)識(shí)符,是云計(jì)算背景下最佳的“大數(shù)據(jù)”樣本存儲(chǔ)和應(yīng)用技術(shù),也是數(shù)字時(shí)代的“身份證”號(hào)碼,具有唯一性、持久性、兼容性、互操作性、動(dòng)態(tài)更新的特點(diǎn)[3]。作為科技論文“身份證”的DOI號(hào),可以用來(lái)作為EI論文跨庫(kù)Web of Science數(shù)據(jù)庫(kù)批量檢索論文引用情況的關(guān)鍵字段。程序?qū)⑻崛〉降娜緿OI號(hào)輸入Web of Science數(shù)據(jù)庫(kù)進(jìn)行被引參考文獻(xiàn)檢索,再將生成的引文列表數(shù)據(jù)全部導(dǎo)出進(jìn)行數(shù)據(jù)分析。如果通過(guò)DOI檢索,得出引用為0,則可以直接生成Word版論文收錄證明。
Excel數(shù)據(jù)分析主要通過(guò)施引論文(EI收錄論文)的DOI號(hào)到引文數(shù)據(jù)集中去做匹配,引文數(shù)據(jù)集包含了參考文獻(xiàn)的相關(guān)信息,其中就有DOI號(hào),匹配到相同的DOI號(hào),則為引用1次,依此類(lèi)推,得出EI論文的引用次數(shù)。再通過(guò)作者來(lái)排他引,可得到EI論文的他引次數(shù),最終獲得論文的總引用次數(shù)和總他引次數(shù)。
最后格式化的Word版檢索證明生成,是利用Word的郵件合并功能,批量化生成標(biāo)準(zhǔn)格式的論文收錄與引用檢索證明。
2 VBA編程實(shí)現(xiàn)
2.1 VBA編程語(yǔ)言
VBA(Visual Basic for Applications)是1993年由微軟公司開(kāi)發(fā)的應(yīng)用程序共享一種通用的自動(dòng)化語(yǔ)言,它是Visual Basic的一種宏語(yǔ)言,是在其桌面應(yīng)用程序中執(zhí)行通用的自動(dòng)化(OLE)任務(wù)的編程語(yǔ)言。主要用來(lái)擴(kuò)展Windows的應(yīng)用程序功能,特別是Microsoft Office軟件,也可說(shuō)是一種應(yīng)用程式視覺(jué)化的Basic 腳本。
寄生于VB應(yīng)用程序而生的VBA語(yǔ)言,更強(qiáng)大的集成于Microsoft Office軟件,尤其是Excel和Word辦公軟件。首先,VBA更關(guān)注辦公數(shù)據(jù)的處理,因?yàn)槭珍浥c引文數(shù)據(jù)的標(biāo)準(zhǔn)化處理、引用他引次數(shù)的統(tǒng)計(jì)分析,在Excel中能更直觀地呈現(xiàn)和統(tǒng)計(jì)分析;其次,個(gè)人用戶(hù)或團(tuán)體用戶(hù)的引文數(shù)據(jù)相對(duì)簡(jiǎn)單且操作重復(fù),處理量較小,用Excel就足以勝任;另外,Excel可以無(wú)縫銜接地輸出到宏Word的檢索證明模板,宏Word的檢索證明模板維護(hù)方便,便于按用戶(hù)需求隨時(shí)修改;最后,VBA不需要另外安裝軟件運(yùn)行環(huán)境,只要裝有Microsoft Office軟件便可以將宏程序模塊復(fù)制過(guò)去,保存后便可直接運(yùn)行,宏模塊體積一般只有幾十KB大小,小巧而應(yīng)用靈活。綜上考慮,筆者選擇VBA語(yǔ)言。
2.2 實(shí)現(xiàn)過(guò)程
2.2.1 提取DOI字段及編寫(xiě)引用檢索語(yǔ)句
EI數(shù)據(jù)庫(kù)收錄的論文都有一個(gè)唯一的DOI號(hào),用Excel格式從EI數(shù)據(jù)庫(kù)導(dǎo)出的EI收錄詳細(xì)數(shù)據(jù),可以在DOI字段列輕松提取所有論文的DOI號(hào),還可以用邏輯或(OR)語(yǔ)句將所有的DOI號(hào)串聯(lián)起來(lái),寫(xiě)出適合WOS數(shù)據(jù)庫(kù)被引參考文獻(xiàn)檢索的語(yǔ)句出來(lái),如DOI=(10.1109/JIOT.2019.2953476 OR 10.1109/TNSE.2022.3163279)。
運(yùn)用VBA通過(guò)SeleniumBasic在WOS被引參考文獻(xiàn)界面,選定好引用論文的所在數(shù)據(jù)庫(kù)(SCIE、SSCI、CPCI-S、CPCI-SSH等)及限定論文出版年后,輸入DOI檢索語(yǔ)句即可匹配所有的引用論文(程序代碼如圖2所示)。執(zhí)行“檢索”得到的被引文獻(xiàn)的列表后,全部選中再點(diǎn)擊“查看結(jié)果”便可生成引文列表,再將所有引文記錄導(dǎo)出“制表符分隔文件”,記錄內(nèi)容包含“全記錄與引用的參考文獻(xiàn)”,導(dǎo)出的文件格式為T(mén)XT(導(dǎo)出選項(xiàng)設(shè)置如圖3所示),獲取并導(dǎo)出引文數(shù)據(jù)實(shí)現(xiàn)過(guò)程的部分軟件代碼如圖4所示。
2.2.2 引文數(shù)據(jù)合并及引用他引統(tǒng)計(jì)
將導(dǎo)出的引文數(shù)據(jù)導(dǎo)入Excel,通過(guò)Excel宏完成引用他引分析與計(jì)算,所有引文文章的數(shù)據(jù)中的CR字段都包含了被引論文的DOI號(hào),通過(guò)DOI號(hào)可以與施引文章映射起來(lái),通過(guò)檢索得出每篇被引文章的引用次數(shù),再通過(guò)施引文獻(xiàn)與被引文獻(xiàn)作者的逐一對(duì)比,得出自引與他引的次數(shù),結(jié)果如圖5所示。軟件采用最嚴(yán)格的他引計(jì)算標(biāo)準(zhǔn),即除作者及合作者以外文獻(xiàn)被其他人的引用,即引用文獻(xiàn)和被引文獻(xiàn)中,只要有一個(gè)作者相同,即為自引。在作者的對(duì)比中,又會(huì)出現(xiàn)作者名縮寫(xiě)與全拼形式的問(wèn)題,所以在比對(duì)前,首先要統(tǒng)一作者姓名格式。
2.2.3 格式化檢索證明生成
完成了引用與他引數(shù)據(jù)的分析與統(tǒng)計(jì),最后按照用戶(hù)的需求,輸出為Word格式的檢索證明(檢索證明部分形式如圖6所示)。調(diào)查發(fā)現(xiàn),每個(gè)查收查引機(jī)構(gòu)都有自己的一套檢索證明格式化模板,雖然呈現(xiàn)形式各異,但檢索證明內(nèi)容基本上是相同的。本軟件" 采用Word軟件郵件合并的功能,通過(guò)域名的方式,與Excel的各字段連接,將結(jié)果數(shù)據(jù)逐一、逐字段地輸出到Word模板,并根據(jù)檢索項(xiàng)目,對(duì)檢索證明自動(dòng)進(jìn)行格式調(diào)整,生成“日期+姓名+檢索項(xiàng)目”格式命名的Word文檔檢索證明。
3 效果對(duì)比
軟件開(kāi)發(fā)至今,已經(jīng)在筆者工作部門(mén)運(yùn)行了2年,經(jīng)歷了WOS數(shù)據(jù)庫(kù)網(wǎng)頁(yè)大改版,因?qū)?shù)據(jù)庫(kù)網(wǎng)頁(yè)基本上是一次利用,故而對(duì)程序影響較小。軟件安裝簡(jiǎn)便、維護(hù)更新容易、運(yùn)行效率高、查準(zhǔn)率較高,獲得了部門(mén)同事的青睞。本軟件的設(shè)計(jì)思路出自筆者之前開(kāi)發(fā)的基于VBA的WOS論文引用檢索軟件[4],軟件的運(yùn)行用時(shí)與軟件可移植性對(duì)比均與其一致,前款軟件橫向?qū)Ρ鹊膰?guó)內(nèi)自行研發(fā)的軟件有:高營(yíng)等[5-9]研發(fā)的論文查收查引軟件,對(duì)比的項(xiàng)目有對(duì)10、50、100篇文章進(jìn)行引文檢索的用時(shí)及軟件可移植性等,因此與其他同類(lèi)軟件的對(duì)比數(shù)據(jù)可參考前文,這里不再贅述。
本軟件同時(shí)具有很強(qiáng)的擴(kuò)展性,不僅可以查引用他引次數(shù),還可以限定引用年限(5年或其他)、檢索不同的引文數(shù)據(jù)庫(kù)(SCIE、SSCI、CPCI-S、CPCI-SSH或WoS核心合集),而且還可以檢索WOS核心合集收錄論文發(fā)表當(dāng)年或最新年份的JCR影響因子與分區(qū),并具備第一作者與通信作者的輔助判斷能力,可以滿(mǎn)足用戶(hù)論文查收查引的各項(xiàng)檢索需求。
4 軟件的優(yōu)化改進(jìn)
4.1 用標(biāo)題補(bǔ)檢漏檢非標(biāo)準(zhǔn)引用項(xiàng)
通過(guò)DOI號(hào)進(jìn)行引文檢索,會(huì)因?yàn)橐膮⒖嘉墨I(xiàn)數(shù)據(jù)著錄不規(guī)范或者不完整,出現(xiàn)關(guān)鍵信息字段如DOI數(shù)據(jù)缺失、錯(cuò)誤或不完整等情況而導(dǎo)致極少數(shù)的個(gè)別漏檢,對(duì)于漏檢的問(wèn)題,本軟件再輔以標(biāo)題進(jìn)行二次檢索,找出存在的非標(biāo)準(zhǔn)引用項(xiàng),對(duì)于非標(biāo)準(zhǔn)引用數(shù)據(jù)中沒(méi)有DOI號(hào)或DOI拼寫(xiě)錯(cuò)誤的其余引文數(shù)據(jù)再比對(duì)標(biāo)題、作者、來(lái)源出版物、出版年甚至卷期號(hào)、頁(yè)碼等字段來(lái)進(jìn)行人工甄別,便可將漏檢的引用數(shù)據(jù)補(bǔ)齊進(jìn)來(lái)。
4.2 軟件實(shí)現(xiàn)了第一作者與通信作者的檢測(cè)與標(biāo)注。
論文收錄與引用檢索證明已經(jīng)廣泛應(yīng)用于各類(lèi)項(xiàng)目基金申報(bào)評(píng)獎(jiǎng)、職稱(chēng)評(píng)定等領(lǐng)域,論文作者發(fā)表的位置排序也是論文質(zhì)量評(píng)估的重要指標(biāo),第一作者、共同第一作者及通信作者等排位順序一般會(huì)獲得相應(yīng)的權(quán)重系數(shù)。軟件通過(guò)EI收錄數(shù)據(jù)的分析統(tǒng)計(jì),可實(shí)現(xiàn)第一作者與通信作者的檢測(cè)與標(biāo)注,對(duì)于共同第一作者,因EI數(shù)據(jù)庫(kù)不作區(qū)分與標(biāo)注,EI收錄數(shù)據(jù)也沒(méi)有字段記錄共同第一作者,所以需查看論文原文,暫時(shí)無(wú)法實(shí)現(xiàn),需配合人工完成。
4.3 軟件實(shí)現(xiàn)了斷點(diǎn)續(xù)傳功能
在軟件執(zhí)行過(guò)程中,比如引用檢索、非標(biāo)準(zhǔn)引用檢索、檢索證明生成等階段,因網(wǎng)絡(luò)延時(shí)、PC故障等原因,可能會(huì)出現(xiàn)程序中斷現(xiàn)象,軟件通過(guò)記錄程序執(zhí)行進(jìn)程,實(shí)現(xiàn)了各階段中斷后可再次從中斷處繼續(xù)運(yùn)行的功能。
5 結(jié)語(yǔ)
(1)本軟件實(shí)現(xiàn)了EI論文的跨庫(kù)(WOS數(shù)據(jù)庫(kù))批量引用檢索,據(jù)文獻(xiàn)考查,在國(guó)內(nèi)同行實(shí)屬先例。之前的EI論文,要么是不給查引用他引數(shù)據(jù),要么就得檢索人員手動(dòng)檢索。人工檢索需要逐條檢索EI論文的引用次數(shù),再手動(dòng)比對(duì)作者來(lái)排除自引得到他引次數(shù),這樣既繁雜又重復(fù),費(fèi)時(shí)費(fèi)力且容易出錯(cuò);另外又因?yàn)榭鐜?kù)檢索,數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)格式的要求不同,國(guó)內(nèi)相關(guān)的論文查收查引軟件也難以實(shí)現(xiàn)此功能,這也是檢索人員不愿意給EI論文查引用他引的原因所在。
(2)本軟件的開(kāi)發(fā),是對(duì)本人之前開(kāi)發(fā)的基于VBA的WOS論文引用檢索軟件的一個(gè)補(bǔ)充和拓展,實(shí)現(xiàn)了英文科技論文三大索引(SCIE、CPCI-S和EI)數(shù)據(jù)庫(kù)引用他引的批量自動(dòng)檢索,如果再配以機(jī)構(gòu)知識(shí)庫(kù)的數(shù)據(jù)規(guī)范,便可實(shí)現(xiàn)英文論文的三大索引平臺(tái)的收錄與引用的批量自動(dòng)檢索,軟件甚至實(shí)現(xiàn)了WOS核心合集(SCIE、SSCI、CPCI-S、CPCI-SSH)收錄論文的JCR期刊影響因子與分區(qū)的自動(dòng)檢索(包括最新和當(dāng)年數(shù)據(jù)),這極大地提高了檢索人員的工作效率。另外,科研論文的水平質(zhì)量評(píng)估除了作者的排位(包括第一作者、共同第一作者及通信作者等)、期刊影響因子與分區(qū)(包括科睿唯安JCR影響因子與分區(qū)和中科院影響因子與分區(qū))、高被引等指標(biāo)因素外,論文的引用與他引次數(shù)的多少也是重要的評(píng)估指標(biāo),EI論文跨庫(kù)(WOS)引用他引檢索的實(shí)現(xiàn)完善了科研論文的質(zhì)量評(píng)估。
程序今后的拓展方向是實(shí)現(xiàn)查收查引業(yè)務(wù)的自動(dòng)化、平臺(tái)化,查收查引自動(dòng)化平臺(tái)將對(duì)接校園一卡通認(rèn)證系統(tǒng)、機(jī)構(gòu)知識(shí)庫(kù)、查收查引檢索系統(tǒng)、電子簽章系統(tǒng)等。用戶(hù)通過(guò)一卡通認(rèn)證登錄平臺(tái),在平臺(tái)嵌入的機(jī)構(gòu)知識(shí)庫(kù)中搜索勾選所要檢索的論文后,填寫(xiě)檢索項(xiàng)目與需求,點(diǎn)擊提交檢索任務(wù),查收查引系統(tǒng)可以自動(dòng)掃描平臺(tái)提交的檢索任務(wù),并完成查收查引項(xiàng)目檢索,直接生成電子版檢索證明文檔,用戶(hù)在平臺(tái)完成付費(fèi)后便可獲得加蓋電子簽章的檢索證明。
參考文獻(xiàn)
[1]賀偉,劉鵬,姜旭,等.山東建筑大學(xué)學(xué)術(shù)論文被三大檢索收錄引用情況分析[J].山東建筑大學(xué)學(xué)報(bào),2011(1):92-94.
[2]百度百科.三大檢索[EB/OL].(2023-05-30)[2023-05-19].https://baike.baidu.com/item/三大檢索/6581002.
[3]百度百科.數(shù)字對(duì)象唯一標(biāo)識(shí)符[EB/OL].(2023-04-11)[2023-05-31].https://baike.baidu.com/item/數(shù)字對(duì)象唯一標(biāo)識(shí)符/2820022?fr=ge_ala.
[4]曾永杰.基于VBA語(yǔ)言的Web of Science數(shù)據(jù)庫(kù)論文引文檢索軟件設(shè)計(jì)與實(shí)踐[J].圖書(shū)情報(bào)導(dǎo)刊,2023(2):53-58.
[5]高營(yíng).基于WOS API的論文自動(dòng)查收查引程序設(shè)計(jì)與實(shí)現(xiàn)[J].圖書(shū)館研究與工作,2019(4):82-85.
[6]王學(xué)勤,郝丹,鄭菲,等.“查收查引報(bào)告自動(dòng)生成系統(tǒng)”應(yīng)用實(shí)踐研究[J].圖書(shū)情報(bào)工作,2014(16):131-137.
[7]藺梅芳,翟燕,張宇娥.應(yīng)用Python語(yǔ)言的引文檢索自動(dòng)化軟件設(shè)計(jì)與實(shí)踐[J].四川圖書(shū)館學(xué)報(bào),2016(3):42-45.
[8]涂穎哲.論文查收查引工具軟件的設(shè)計(jì)與應(yīng)用實(shí)踐[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2015(8):34-38.
[9]虞晨琳.基于Python語(yǔ)言的WOS引文檢索軟件設(shè)計(jì)與實(shí)現(xiàn)[J].新世紀(jì)圖書(shū)館,2020(11):53-56.
Design and implementation of cross database citation retrieval software for EI papers based on VBA language
Abstract: From literature research, there is a lack of relevant research on the citation of EI articles in China. The article introduces the detailed design, implementation process, and critical code of Cross Database Citation Retrieval Software for EI Papers Based on VBA Language and SeleniumBasic technology. The software fills the gap in domestic Cross Database Citation Retrieval Software for EI Papers.
Key words: paper cited reference retrieval; cited retrieval software; EI; EI reference; VBA