馮中華 盧利農(nóng) 祝忠明 徐燦燦
摘 ? 要:在機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)建設(shè)過程中,開發(fā)設(shè)計(jì)具備更高自動(dòng)化的期刊數(shù)據(jù)規(guī)范管理功能,提高元數(shù)據(jù)質(zhì)量,可以為數(shù)據(jù)的進(jìn)一步關(guān)聯(lián)分析、聚類統(tǒng)計(jì)、決策審計(jì)等能力提供數(shù)據(jù)保障。文章通過分析期刊數(shù)據(jù)規(guī)范的特征項(xiàng)及輔助因子,采用自動(dòng)化實(shí)現(xiàn)的技術(shù)路線,實(shí)現(xiàn)對(duì)期刊數(shù)據(jù)規(guī)范的功能,并在數(shù)據(jù)的統(tǒng)計(jì)分析中測(cè)試修正。該期刊數(shù)據(jù)規(guī)范管理功能具備較高的自動(dòng)化程度,提高了工作效率,減輕了人力成本,并可高質(zhì)量完成對(duì)相應(yīng)數(shù)據(jù)的規(guī)范。針對(duì)期刊數(shù)據(jù)規(guī)范的自動(dòng)化技術(shù)路線和功能實(shí)踐,是一種切實(shí)可行、更加高效的實(shí)現(xiàn)路徑,可在高質(zhì)量規(guī)范數(shù)據(jù)的保障下提供更優(yōu)質(zhì)的機(jī)構(gòu)知識(shí)庫(kù)服務(wù)。
關(guān)鍵詞:機(jī)構(gòu)知識(shí)庫(kù);數(shù)據(jù)管理;期刊規(guī)范;自動(dòng)化
中圖分類號(hào):G239.2 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2020083
Abstract In the process of data construction of Institutional Repository, the development and design of periodical data standard management function with higher automation can improve the quality of metadata, and provide data rantee for the ability of further correlation analysis, clustering statistics, decision auditing and so on. The characteristic items and auxiliary factors of periodical data specification were analyzed, the technical route of automatic realization was adopted to realize the function of periodical data specification, and the correction was tested in the statistical analysis of the data. The data specification management function has a high degree of automation, and it can improve work efficiency and reduce labor costs, and it can also complete the corresponding data specification with high quality. The unstandardized journal data may not be easily discovered on the display layer, so the manual specification is highly required. Aiming at the automatic technical route and functional practice of periodical data specification, it is a feasible and more efficient implementation path, which can provide better Institutional Repository service under the guarantee of high quality normative data.
Key words institutional repository; data management; periodical specification; automations
1 ? 引言
期刊數(shù)據(jù)的規(guī)范性一直是圖情領(lǐng)域所面臨的一大難題,不規(guī)范的期刊數(shù)據(jù)可能會(huì)衍生出一系列包括數(shù)據(jù)冗余、數(shù)據(jù)不完整、期刊歷史記錄信息無法補(bǔ)充、數(shù)據(jù)統(tǒng)計(jì)與分析錯(cuò)誤等問題。對(duì)于機(jī)構(gòu)知識(shí)庫(kù)(IR)而言,期刊數(shù)據(jù)的規(guī)范性顯得尤為突出,期刊數(shù)據(jù)質(zhì)量是IR是否成功建設(shè)的重要標(biāo)志。在IR中,期刊中英文名稱、期刊ISSN號(hào)、JCR簡(jiǎn)稱等信息是數(shù)據(jù)建設(shè)工作中的深水區(qū)和重災(zāi)區(qū)。在期刊數(shù)據(jù)中,發(fā)表在同一期刊中的文章其“出處/來源”元數(shù)據(jù)由于刊物歷史名稱的變更或輸入不規(guī)范等原因就可能出現(xiàn)各種不同,特別是外文期刊情況更加復(fù)雜,一種外文期刊名稱有可能對(duì)應(yīng)數(shù)十種以上的別名名稱。在實(shí)際數(shù)據(jù)建設(shè)過程中,需要耗時(shí)耗力將同一刊物發(fā)表的文章都?xì)w并到該刊物名下。因此,對(duì)于機(jī)構(gòu)知識(shí)庫(kù)中期刊名稱、期刊別名等數(shù)據(jù)的規(guī)范急需一種高效、穩(wěn)定、準(zhǔn)確的方式進(jìn)行集中統(tǒng)一處理。當(dāng)前,國(guó)內(nèi)學(xué)者對(duì)期刊數(shù)據(jù)規(guī)范進(jìn)行了相關(guān)研究,如王軍輝等[1]對(duì)期刊名稱規(guī)范描述記錄組成的文檔,實(shí)現(xiàn)對(duì)期刊信息的規(guī)范化管理以及外部數(shù)據(jù)本地化之后的統(tǒng)計(jì)和分析;張曉林[2]從期刊載文篇均引用文獻(xiàn)、作者地區(qū)分布統(tǒng)計(jì)、基金論文比例和有作者機(jī)構(gòu)標(biāo)注論文比四個(gè)主要指標(biāo)來評(píng)價(jià)分析CSSCI來源期刊和擴(kuò)展版體育學(xué)期刊(2009-2011年)的學(xué)術(shù)規(guī)范程度與學(xué)術(shù)影響力。上述文獻(xiàn)都是從期刊學(xué)術(shù)規(guī)范角度進(jìn)行了研究,但對(duì)因期刊變動(dòng)導(dǎo)致期刊信息發(fā)生變化等問題未進(jìn)行深入研究。
文章從期刊的歷史名稱變更、中英文期刊名稱不統(tǒng)一不規(guī)范等問題出發(fā),給出一致化解決方案。通過對(duì)期刊信息自定義,根據(jù)不同機(jī)構(gòu)要求自定義期刊信息數(shù)據(jù),對(duì)第三方系統(tǒng)提供標(biāo)準(zhǔn)的RESTful接口服務(wù),通過接口可以對(duì)接同步期刊基本信息、期刊影響因子、圖譜分析等期刊信息數(shù)據(jù)。
2 ? 研究現(xiàn)狀
機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)規(guī)范的研究現(xiàn)在已不在少數(shù),但對(duì)機(jī)構(gòu)知識(shí)庫(kù)中期刊數(shù)據(jù)規(guī)范的研究并不多。大多數(shù)都是只針對(duì)論文期刊信息顯示的規(guī)范性進(jìn)行研究,采取最為普遍的方法是建立唯一的標(biāo)識(shí)符(Name Identifier)對(duì)期刊數(shù)據(jù)進(jìn)行規(guī)范。但隨著對(duì)期刊數(shù)據(jù)規(guī)范性要求的提高,機(jī)構(gòu)知識(shí)庫(kù)通過對(duì)期刊數(shù)據(jù)的信息進(jìn)行全面補(bǔ)充,探討期刊變動(dòng)對(duì)期刊的字段信息的影響變化,進(jìn)而對(duì)期刊的數(shù)據(jù)信息規(guī)范。期刊數(shù)據(jù)規(guī)范不僅可以根據(jù)期刊的歷史記錄信息查看期刊歷年的影響因子,而且為數(shù)據(jù)的進(jìn)一步關(guān)聯(lián)分析、聚類統(tǒng)計(jì)、決策審計(jì)等能力提供數(shù)據(jù)保障。
對(duì)于機(jī)構(gòu)知識(shí)庫(kù)中的期刊數(shù)據(jù)處理目前還是采用較為傳統(tǒng)的人工介入的方式來完成。一般的方式為,在作品提交或編輯時(shí)由提交者或管理員手動(dòng)的對(duì)作品的出處、作者單位等字段值進(jìn)行規(guī)范。采用此種數(shù)據(jù)規(guī)范方法存在效率低下、人力成本較高和由于人工規(guī)范失誤所導(dǎo)致的知識(shí)圖譜統(tǒng)計(jì)分析信息錯(cuò)誤、期刊論文詳情頁(yè)中來源期刊和ISSN號(hào)等元數(shù)據(jù)書寫不規(guī)范、論文期刊的統(tǒng)計(jì)分析錯(cuò)誤以及檢索導(dǎo)出條目數(shù)據(jù)錯(cuò)誤等各種問題(見圖1)。
由上圖可知,名為“JOURNAL OF BIOLOGICAL CHEMISTRY”的期刊存在“JOURNAL OF BIOLOGICAL CMT”別名,在不對(duì)該期刊進(jìn)行規(guī)范時(shí),系統(tǒng)會(huì)默認(rèn)存在上述兩個(gè)名稱的期刊,但實(shí)際上,上述名稱的刊物為同一期刊。未被規(guī)范的數(shù)據(jù)直接影響的就是統(tǒng)計(jì)圖譜的準(zhǔn)確性,而錯(cuò)誤的知識(shí)圖譜將嚴(yán)重影響機(jī)構(gòu)科研評(píng)價(jià)、知識(shí)共享的能力。因此急需開發(fā)對(duì)應(yīng)的數(shù)據(jù)管理規(guī)范功能,對(duì)機(jī)構(gòu)知識(shí)庫(kù)中的數(shù)據(jù)進(jìn)行規(guī)范,并且對(duì)于數(shù)據(jù)管理規(guī)范的目標(biāo)盡可能多的由機(jī)器進(jìn)行規(guī)范處理,以此來提高準(zhǔn)確度與自動(dòng)化程度。
為解決因期刊數(shù)據(jù)不規(guī)范而造成的各種問題,中國(guó)科學(xué)院西北生態(tài)環(huán)境資源研究院文獻(xiàn)情報(bào)中心研發(fā)的機(jī)構(gòu)知識(shí)庫(kù)采用了一種較為高效的方法對(duì)期刊數(shù)據(jù)進(jìn)行規(guī)范。首先,由用戶在期刊數(shù)據(jù)中新增期刊,然后為該新增期刊建立別名庫(kù),將該刊存在的名稱形式歸入別名庫(kù),對(duì)期刊別名的整合規(guī)范處理可以提高引文數(shù)據(jù)與基礎(chǔ)數(shù)據(jù)匹配的成功率。在系統(tǒng)中則是為該新增期刊設(shè)定唯一標(biāo)識(shí)符,在用戶進(jìn)行期刊類別統(tǒng)計(jì)分析時(shí),將知識(shí)作品的出處屬性字段值與期刊別名庫(kù)中的值進(jìn)行一一匹配,若匹配成功,則為該字段賦予唯一標(biāo)識(shí)符,表示作品來源為該新增期刊。在此規(guī)范過程中除人工新增期刊外,其余流程都將由機(jī)器進(jìn)行規(guī)范操作。
另外,還有一些有關(guān)數(shù)據(jù)規(guī)范的算法研究。如曾新等[3]提出的基于join-based的數(shù)據(jù)規(guī)范化算法DNRA;溫捷文等[4]提出的批再規(guī)范化算法;米允龍等[5]提出的基于區(qū)間模糊匹配函數(shù)的數(shù)據(jù)清洗算法等,其共同特點(diǎn)均是抽取規(guī)范數(shù)據(jù)特征項(xiàng)后再利用其他數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行聚類規(guī)范,但由于此類算法的應(yīng)用寬廣性,多使用在語義類別數(shù)據(jù)處理方面。由于機(jī)構(gòu)知識(shí)庫(kù)規(guī)范數(shù)據(jù)的特殊性與嚴(yán)謹(jǐn)性,僅依靠數(shù)據(jù)規(guī)范算法來對(duì)機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)進(jìn)行規(guī)范顯然是不合理的,因此,開發(fā)針對(duì)對(duì)應(yīng)的機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)的規(guī)范功能,再配合算法進(jìn)而規(guī)范機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù),可實(shí)現(xiàn)將外部數(shù)據(jù)本地化之后進(jìn)行統(tǒng)計(jì)和分析,使期刊管理高效化。
3 ? 期刊數(shù)據(jù)特征項(xiàng)及輔助因子
期刊規(guī)范數(shù)據(jù)特征項(xiàng)需要具備的是準(zhǔn)確對(duì)期刊規(guī)范數(shù)據(jù)的描述能力,一般選擇如“ISSN”號(hào)作為其特征項(xiàng),期刊名稱、期刊別名作為輔助因子,具體介紹如下:
3.1 ? ?期刊數(shù)據(jù)的特征項(xiàng)
標(biāo)準(zhǔn)國(guó)際刊號(hào)(ISSN號(hào))[6]具備唯一性,它可以更好的聚類規(guī)范數(shù)據(jù)。在進(jìn)行期刊數(shù)據(jù)規(guī)范時(shí),通常采用ISSN號(hào)作為期刊數(shù)據(jù)特征項(xiàng)來規(guī)范數(shù)據(jù)。一般情況下,每一個(gè)期刊都對(duì)應(yīng)一個(gè)ISSN號(hào)。但對(duì)于一些期刊可能存在發(fā)行的電子刊和紙刊對(duì)應(yīng)不同的標(biāo)準(zhǔn)國(guó)際刊號(hào)、一些期刊的ISSN號(hào)會(huì)隨著期刊變更而進(jìn)行變化,但實(shí)際上這些變更的ISSN號(hào)對(duì)應(yīng)的都是同一期刊,對(duì)于出現(xiàn)此類ISSN號(hào)不同但屬于同一期刊的問題,我們?cè)谧鰯?shù)據(jù)規(guī)范時(shí)會(huì)存儲(chǔ)期刊的歷史記錄以及期刊的變更記錄,并根據(jù)這些變化的值來進(jìn)行期刊數(shù)據(jù)規(guī)范。
3.2 ? ?期刊數(shù)據(jù)的輔助因子
輔助因子作為期刊數(shù)據(jù)規(guī)范流程中不可或缺的一部分,是判斷論文期刊詳情頁(yè)中的特征項(xiàng)與期刊規(guī)范庫(kù)中特征項(xiàng)是否匹配和人工規(guī)范確認(rèn)中間的橋梁。在通過特征項(xiàng)不能進(jìn)行匹配確認(rèn)時(shí),就要考慮到使用一些輔助因子來進(jìn)行二次匹配確認(rèn)期刊數(shù)據(jù)。
期刊的名稱樣式可能存在多種情形。一些外文刊物名稱可能存在大小寫問題導(dǎo)致別名形式[7]眾多,一般公開發(fā)表的學(xué)術(shù)作品均會(huì)有出處信息,可依據(jù)此來判斷作品的來源,如根據(jù)名稱為“Advanced Energy Materials”的刊物作品,可判斷出知識(shí)作品的出處屬性(見表1)。
4 ? 數(shù)據(jù)規(guī)范功能框架及流程
4.1 ? ?數(shù)據(jù)規(guī)范框架設(shè)計(jì)
期刊數(shù)據(jù)規(guī)范功能的開發(fā)要找到具備一定描述機(jī)構(gòu)知識(shí)庫(kù)期刊規(guī)范的特征項(xiàng),確定數(shù)據(jù)規(guī)范特征項(xiàng)及其輔助因子后,就具備了對(duì)規(guī)范數(shù)據(jù)的細(xì)致準(zhǔn)確的描述,同時(shí)也能對(duì)數(shù)據(jù)管理規(guī)范功能的框架進(jìn)行設(shè)計(jì)(見圖2)。
在機(jī)構(gòu)知識(shí)庫(kù)中知識(shí)作品的存繳存在多種形式,一般的方式為個(gè)人作品提交、管理員進(jìn)行批量導(dǎo)入、數(shù)據(jù)回溯或通過OAI數(shù)據(jù)接口收割同步等。為了使存繳的知識(shí)作品中的發(fā)表期刊、出處等元數(shù)據(jù)單元值發(fā)生變化后,知識(shí)圖譜依然是基于期刊規(guī)范數(shù)據(jù)統(tǒng)計(jì)分析得出,在知識(shí)作品存繳后,系統(tǒng)會(huì)調(diào)用期刊規(guī)范數(shù)據(jù)事件,觸發(fā)期刊數(shù)據(jù)規(guī)范管理模塊對(duì)論文的來源期刊、影響因子等元數(shù)據(jù)進(jìn)行規(guī)范。
其中,在進(jìn)行期刊數(shù)據(jù)規(guī)范管理時(shí),系統(tǒng)內(nèi)部均通過具備唯一標(biāo)識(shí)能力的數(shù)據(jù)特征項(xiàng)及其輔助因子綜合來確定規(guī)范數(shù)據(jù)名稱[8]。如在進(jìn)行期刊數(shù)據(jù)規(guī)范時(shí),首先會(huì)觸發(fā)期刊規(guī)范管理事件,對(duì)所匹配到的知識(shí)作品由系統(tǒng)檢測(cè)存在對(duì)應(yīng)的期刊別名,在內(nèi)部規(guī)范時(shí)便將此期刊別名歸入規(guī)范的期刊名稱下,再比對(duì)電子期刊數(shù)據(jù)具備唯一標(biāo)識(shí)能力的ISSN號(hào),當(dāng)ISSN號(hào)相同,且其他輔助因子對(duì)應(yīng)準(zhǔn)確率較高,則說明為同一期刊,即該條期刊數(shù)據(jù)規(guī)范正確。在進(jìn)行期刊排行等圖譜統(tǒng)計(jì)分析時(shí),此知識(shí)作品會(huì)自動(dòng)被歸并到規(guī)范的期刊名下。
對(duì)沒法合并的非規(guī)范數(shù)據(jù),系統(tǒng)提供了人工規(guī)范確認(rèn)功能,由人工進(jìn)一步糾正規(guī)范數(shù)據(jù)信息。
4.2 ? ?數(shù)據(jù)規(guī)范流程
期刊數(shù)據(jù)規(guī)范流程的核心是整個(gè)數(shù)據(jù)規(guī)范事件,特征項(xiàng)的匹配性直接影響是否繼續(xù)執(zhí)行數(shù)據(jù)規(guī)范事件。而數(shù)據(jù)規(guī)范的流程正是體現(xiàn)到利用機(jī)器進(jìn)行自動(dòng)化實(shí)現(xiàn)。在數(shù)據(jù)規(guī)范時(shí),系統(tǒng)會(huì)重復(fù)讀取知識(shí)作品中的特征項(xiàng)數(shù)據(jù),而后與規(guī)范庫(kù)中的規(guī)范特征項(xiàng)唯一標(biāo)識(shí)進(jìn)行比對(duì),若匹配且其他輔助因子匹配性也較高則可判斷為同一數(shù)據(jù),進(jìn)而完成規(guī)范操作,否則都會(huì)由人工介入進(jìn)行二次審核以此來進(jìn)行數(shù)據(jù)規(guī)范(見圖3)。
5 ? 數(shù)據(jù)規(guī)范功能實(shí)現(xiàn)
5.1 ? ?數(shù)據(jù)規(guī)范唯一標(biāo)識(shí)機(jī)制
數(shù)據(jù)規(guī)范的前提是需要一個(gè)唯一標(biāo)識(shí)來代表某一個(gè)規(guī)范數(shù)據(jù)。當(dāng)唯一標(biāo)識(shí)被建立后,就需要將未規(guī)范及待規(guī)范的數(shù)據(jù)信息映射到該唯一標(biāo)識(shí)[9]中。將期刊數(shù)據(jù)規(guī)范及機(jī)構(gòu)數(shù)據(jù)規(guī)范中所設(shè)定的數(shù)據(jù)規(guī)范特征項(xiàng)ISSN號(hào)字段作為唯一標(biāo)識(shí),即得到期刊數(shù)據(jù)規(guī)范項(xiàng)(見圖4)。唯一標(biāo)識(shí)的確立,保證了數(shù)據(jù)統(tǒng)計(jì)及傳遞時(shí)不會(huì)出現(xiàn)數(shù)據(jù)混亂的錯(cuò)誤[10]。
5.2 ? ?數(shù)據(jù)規(guī)范設(shè)計(jì)
5.2.1 ? 根據(jù)期刊ISSN號(hào)特征項(xiàng)及輔助因子進(jìn)行規(guī)范
在當(dāng)前提交或采集的期刊知識(shí)作品中,首先會(huì)提取知識(shí)作品的ISSN號(hào),與規(guī)范期刊的ISSN號(hào)進(jìn)行匹配,當(dāng)ISSN號(hào)匹配成功時(shí),且輔助因子匹配率較高,即表明為同種期刊。當(dāng)ISSN號(hào)匹配失敗,但輔助因子匹配成功時(shí),就要考慮到因期刊變動(dòng)引起的期刊ISSN號(hào)不同,或者同一種期刊出現(xiàn)的電子版與紙質(zhì)版的ISSN號(hào)不同問題,此時(shí)就通過將期刊的歷史變動(dòng)數(shù)據(jù)處理來判斷期刊為同種期刊。
5.2.2 ? 自動(dòng)化期刊數(shù)據(jù)規(guī)范
期刊數(shù)據(jù)規(guī)范的功能在于解決因數(shù)據(jù)不規(guī)范造成的論文期刊詳情頁(yè)中字段值不規(guī)范以及統(tǒng)計(jì)分析中圖譜錯(cuò)誤的問題。而加入自動(dòng)化規(guī)范期刊數(shù)據(jù)的技術(shù),能夠避免因人為因素造成的失誤,同時(shí)能夠減少人力資源浪費(fèi)。
自動(dòng)化期刊數(shù)據(jù)規(guī)范流程:通過云端技術(shù)從其他期刊庫(kù)中獲取到需要的期刊數(shù)據(jù)信息,構(gòu)建一張本地期刊數(shù)據(jù)規(guī)范表,期刊規(guī)范表中包含一些在論文期刊詳情頁(yè)以及統(tǒng)計(jì)分析中常用的規(guī)范字段,如影響因子、五年影響因子、JCR分區(qū)、CAS分區(qū)、學(xué)科信息、出版周期、歷史信息記錄和收錄類別。系統(tǒng)通過收錄期刊的歷史數(shù)據(jù)存儲(chǔ)期刊往年的影響因子等字段信息,有效的解決期刊因變動(dòng)造成的收錄類別變化的問題,并按照分區(qū)規(guī)則要求對(duì)分區(qū)信息字段進(jìn)行規(guī)范。論文期刊詳情頁(yè)數(shù)據(jù)規(guī)范顯示:通過Ajax同步請(qǐng)求讀取期刊數(shù)據(jù)規(guī)范表中數(shù)據(jù)的技術(shù),在客戶端發(fā)送數(shù)據(jù)規(guī)范請(qǐng)求后,服務(wù)端接收到請(qǐng)求后會(huì)根據(jù)傳送過來的特征項(xiàng)唯一標(biāo)識(shí)與規(guī)范庫(kù)中的ISSN號(hào)進(jìn)行匹配,若匹配成功,服務(wù)端將規(guī)范庫(kù)中的數(shù)據(jù)發(fā)送給客戶端,進(jìn)行字段值的規(guī)范。若匹配失敗,則需要將客戶端的期刊名稱,期刊別名等輔助因子與規(guī)范庫(kù)中對(duì)應(yīng)的輔助因子進(jìn)行匹配,匹配成功后,服務(wù)端將規(guī)范庫(kù)中的信息發(fā)送到客戶端進(jìn)行數(shù)據(jù)規(guī)范展示,若輔助因子匹配失敗,此時(shí)就需要介入人工進(jìn)行期刊數(shù)據(jù)處理。論文期刊統(tǒng)計(jì)分析圖譜展示:本地期刊數(shù)據(jù)規(guī)范表建立后,設(shè)定統(tǒng)計(jì)分析條件,系統(tǒng)中將規(guī)范庫(kù)中的特征項(xiàng)與輔助因子進(jìn)行聚類統(tǒng)計(jì)分析,獲取統(tǒng)計(jì)分析圖譜(機(jī)器化數(shù)據(jù)管理規(guī)范見圖5)。
5.2.3 ? 人工規(guī)范確認(rèn)
人工規(guī)范確認(rèn)是進(jìn)行機(jī)器化數(shù)據(jù)管理規(guī)范后一個(gè)糾錯(cuò)的過程,如對(duì)于一些規(guī)范錯(cuò)誤的數(shù)據(jù)或未被規(guī)范的數(shù)據(jù)由管理員統(tǒng)一進(jìn)行規(guī)范。
6 ? 應(yīng)用案例及效果
期刊規(guī)范功能匯集國(guó)內(nèi)外近1.7萬種期刊信息,其中包括國(guó)別、語種、ISO、ISSN、EISSN等基礎(chǔ)信息,也包括歷年影響因子、對(duì)應(yīng)收錄類別排名等重點(diǎn)信息,對(duì)期刊信息進(jìn)行自動(dòng)關(guān)聯(lián)、聚類、分析,并生成可視化圖譜(見圖6)。同時(shí),期刊信息可自動(dòng)關(guān)聯(lián)至成果數(shù)據(jù),實(shí)現(xiàn)成果數(shù)據(jù)中發(fā)表期刊字段的自動(dòng)關(guān)聯(lián)更新[11]。該功能支持對(duì)期刊信息自定義,根據(jù)不同機(jī)構(gòu)要求自定義期刊信息數(shù)據(jù),對(duì)第三方系統(tǒng)提供標(biāo)準(zhǔn)的RESTful接口服務(wù),通過接口可以對(duì)接同步期刊基本信息、期刊影響因子、圖譜分析等期刊信息數(shù)據(jù)。而這一功能在一些機(jī)構(gòu)得到很好的應(yīng)用,如:南方科技大學(xué)知識(shí)苑(SUSTech-KC)以及中國(guó)科學(xué)院的一些研究所。
6.1 ? ?論文期刊成果數(shù)據(jù)規(guī)范應(yīng)用
對(duì)期刊數(shù)據(jù)進(jìn)行規(guī)范后,通過Ajax技術(shù)[12]將期刊數(shù)據(jù)的規(guī)范表中的數(shù)據(jù)讀取到期刊論文的詳情頁(yè)中。對(duì)期刊論文中的發(fā)表期刊和ISSN號(hào)字段進(jìn)行自動(dòng)規(guī)范填寫,從而可以根據(jù)發(fā)表期刊來查看期刊論文的影響因子以及JCR分區(qū)的信息。
6.2 ? ?論文期刊統(tǒng)計(jì)分析圖譜應(yīng)用
系統(tǒng)將自動(dòng)化獲取到的期刊數(shù)據(jù)進(jìn)行規(guī)范后,可以用于論文期刊的統(tǒng)計(jì)分析。在統(tǒng)計(jì)分析時(shí)可以使用規(guī)范后的字段信息作為統(tǒng)計(jì)條件進(jìn)行分析。當(dāng)按JCR的分區(qū)方式進(jìn)行論文期刊類別統(tǒng)計(jì)分析時(shí),即可得到期刊類別分布圖(見圖7)。即得到不同效果圖(見圖8)。
從上述論文期刊統(tǒng)計(jì)分析圖的數(shù)據(jù)管理規(guī)范結(jié)果來看,采用機(jī)構(gòu)知識(shí)庫(kù)的期刊數(shù)據(jù)規(guī)范方式將更準(zhǔn)確地展示期刊數(shù)據(jù)、更清晰地查看統(tǒng)計(jì)分析結(jié)果。同時(shí)機(jī)構(gòu)通過不同JCR分區(qū)的論文期刊數(shù)量和影響因子來判斷該機(jī)構(gòu)的發(fā)文質(zhì)量,也可以通過不同刊物名稱的論文期刊分布圖查看機(jī)構(gòu)的常用發(fā)表期刊,用來幫助機(jī)構(gòu)在一些有較高影響力的期刊上進(jìn)行論文期刊的發(fā)表,同時(shí)機(jī)構(gòu)根據(jù)統(tǒng)計(jì)分析出的數(shù)據(jù)可以對(duì)一些發(fā)表的高質(zhì)量的論文進(jìn)行獎(jiǎng)勵(lì),鼓勵(lì)科研人員多發(fā)表一些高質(zhì)量的數(shù)據(jù)。
7 ? 結(jié)語
綜上所述,在機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)規(guī)范管理中期刊規(guī)范數(shù)據(jù)的建立可以讓知識(shí)資產(chǎn)更加方便維護(hù)管理,也有利于知識(shí)資產(chǎn)的多級(jí)組合定制統(tǒng)計(jì)分析以及知識(shí)資產(chǎn)的共享傳播利用,因此對(duì)于期刊數(shù)據(jù)規(guī)范管理是具備其獨(dú)特意義的,數(shù)據(jù)規(guī)范管理功能的實(shí)現(xiàn)也意味著機(jī)構(gòu)知識(shí)庫(kù)自動(dòng)化程度的進(jìn)一步提升。同時(shí),通過期刊規(guī)范功能的實(shí)現(xiàn),目前已累計(jì)1.7萬條詳細(xì)的期刊規(guī)范詞表,可以以接口的方式廣泛的應(yīng)用于知識(shí)服務(wù)領(lǐng)域的各類期刊規(guī)范服務(wù)中,具備積極的社會(huì)效應(yīng)。此外,在規(guī)范性數(shù)據(jù)的保障下,更多深層次的機(jī)構(gòu)知識(shí)庫(kù)應(yīng)用服務(wù)也將被廣泛應(yīng)用,機(jī)構(gòu)知識(shí)庫(kù)也將真正成為機(jī)構(gòu)自身管理、利用、傳播知識(shí)資源的綜合應(yīng)用型平臺(tái)。
此外,目前的機(jī)器自動(dòng)化數(shù)據(jù)規(guī)范管理由于各類別名的多樣性及其它元數(shù)據(jù)規(guī)范情況的不統(tǒng)一,雖已有較高的自動(dòng)化處理能力,但依舊無法完全實(shí)現(xiàn)機(jī)器規(guī)范化處理,這兩個(gè)問題目前還是機(jī)構(gòu)知識(shí)庫(kù)以及數(shù)據(jù)分析領(lǐng)域的兩大難題,還需要不斷的探索與實(shí)踐[13]。
參考文獻(xiàn):
[1] ?王軍輝,方安,任慧玲,等.期刊規(guī)范文檔建設(shè)方案與應(yīng)用場(chǎng)景研究[J].數(shù)字圖書館論壇,2015(7):9-13.
[2] ?張曉林.中文類體育核心期刊學(xué)術(shù)規(guī)范分析[J].體育文化導(dǎo)刊,2012(8):151-155.
[3] ?曾新,李曉偉,楊健.基于數(shù)據(jù)規(guī)范化的co-location模式挖掘算法[J].計(jì)算機(jī)科學(xué),2018,45(S1):482-486.
[4] ?溫捷文,戰(zhàn)蔭偉,凌偉林,等.實(shí)時(shí)目標(biāo)檢測(cè)算法YOLO的批再規(guī)范化處理[J].計(jì)算機(jī)應(yīng)用研究,2018,35(10):3179-3185.
[5] ?米允龍,李金海,米春橋,等.基于區(qū)間模糊匹配函數(shù)的數(shù)據(jù)清洗算法研究及其在問卷調(diào)查中的應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2017,17(3):70-79.
[6] ?國(guó)際標(biāo)準(zhǔn)刊號(hào)[EB/OL].[2020-04-19].https://baike.baidu.com/item/4602660?fr=aladdin.
[7] ?王鵬,馬湃.醫(yī)學(xué)期刊中常用中藥規(guī)范用名與別名校正[J].河南中醫(yī),2004(12):67-69.
[8] ?DOI標(biāo)識(shí)符查找文獻(xiàn)的方法[J].臺(tái)灣農(nóng)業(yè)探索,2019(4):46.
[9] ?趙蘊(yùn)華.國(guó)內(nèi)數(shù)字期刊資源唯一標(biāo)識(shí)符的應(yīng)用研究[J].情報(bào)科學(xué),2007(7):1018-1021.
[10] ?劉巍,祝忠明,張旺強(qiáng),等.機(jī)構(gòu)知識(shí)庫(kù)中作者標(biāo)識(shí)與作品認(rèn)領(lǐng)機(jī)制的研究與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2014(3):8-13.
[11] ?徐春,李廣原.一種高效的增量更新約束關(guān)聯(lián)規(guī)則挖掘算法的研究[J].廣西師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,33(2):48-54.
[12] ?王菲露,李軍,宋楊,等.基于Ajax技術(shù)的ECharts實(shí)時(shí)圖形報(bào)表實(shí)現(xiàn)[J].黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版),2019,19(12):79-83.
[13] ?陳孝文,陳寧,李蕊,等.基于MAPREDUCE并行化處理的用戶地址數(shù)據(jù)規(guī)范化存儲(chǔ)與管理系統(tǒng)設(shè)計(jì)[J].電子測(cè)試,2019(2):87-88.
作者簡(jiǎn)介:馮中華,男,南京水利科學(xué)研究院科技信息研究中心高級(jí)工程師;盧利農(nóng),男,中國(guó)科學(xué)院西北生態(tài)環(huán)境資源研究院文獻(xiàn)情報(bào)中心館員;祝忠明,男,中國(guó)科學(xué)院西北生態(tài)環(huán)境資源研究院文獻(xiàn)情報(bào)中心研究館員;徐燦燦,女,南京水利科學(xué)研究院科技信息研究中心工程師。