陳 辰,王 璐,郝曉雪,王凱艷,王雪峰
規(guī)范文檔的概念在圖書館編目領(lǐng)域由來已久,《新編圖書館學(xué)情報(bào)學(xué)詞典》中將規(guī)范文檔定義為“圖書館編目或者書目記錄中所使用的保持標(biāo)目(姓名、統(tǒng)一題名、叢編題名和主題)一致性的程序”,該程序?qū)⒁?guī)范文檔應(yīng)用于新增文獻(xiàn)并將其加入館藏[1],該定義代表圖書館界對(duì)規(guī)范文檔的一種經(jīng)典認(rèn)識(shí)。劉煒等[2]認(rèn)為用具體的做法去定義規(guī)范文檔,無法抽象規(guī)范控制的實(shí)質(zhì),基于情報(bào)檢索概念理論,提出規(guī)范文檔是通過記載概念與概念表達(dá)(即語詞和符號(hào))之間的關(guān)系來建立規(guī)范概念空間的過程。概念上的深化認(rèn)識(shí)為語義規(guī)范文檔的進(jìn)一步研究奠定了理論基礎(chǔ)。
此外,立體化描述模型的出現(xiàn)為人名語義信息表達(dá)提供規(guī)范。國際圖聯(lián)(IFLA)于1997年推出《書目記錄的功能需求》(FRBR)報(bào)告,2009年推出《規(guī)范數(shù)據(jù)的功能需求》(FRAD),提出利用實(shí)體-關(guān)系的概念模型描述書目及規(guī)范數(shù)據(jù),此模型允許規(guī)范記錄的多元關(guān)系表達(dá)。Pedro等[3]則利用FRAD建立和描述不同類型的記錄關(guān)系,并將其作為結(jié)構(gòu)模型,設(shè)計(jì)了自動(dòng)規(guī)范控制系統(tǒng)——AUTHORIS。劉煒等[4]認(rèn)為FRBR第一次將“文獻(xiàn)”之外的“人”作為“資源”,“資源”在網(wǎng)上的可標(biāo)識(shí)性決定了它的可規(guī)范性,因此可簡(jiǎn)化網(wǎng)絡(luò)資源的規(guī)范控制問題。郝嘉樹[5]指出FRAD擴(kuò)充了FRBR第二組實(shí)體(責(zé)任者)的概念模型,利用實(shí)體關(guān)系模型描述責(zé)任者與其他實(shí)體的關(guān)系,改變了MARC格式扁平化、線性和單一的形式。由此可見,F(xiàn)RBR和FRAD為立體化的描述人的語義信息提供了一種全新方式。
資源描述與檢索(RDA),是適應(yīng)于數(shù)字環(huán)境下資源著錄與檢索的全新標(biāo)準(zhǔn)。RDA對(duì)“人”的屬性和“人”的關(guān)系進(jìn)行規(guī)范,不僅提供人的全方位描述信息,還對(duì)人的筆名、化名和曾用名等關(guān)系進(jìn)行了說明,它豐富的語義信息和關(guān)系描述為科研人員描述體系建設(shè)提供思路。RDA注冊(cè)依語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)應(yīng)用而設(shè)計(jì),元素集采用資源描述框架(RDF)注冊(cè),意在成為取代MARC格式的元數(shù)據(jù)標(biāo)準(zhǔn)[6],因此,它的實(shí)施將極大地促進(jìn)語義技術(shù)在圖書館的應(yīng)用。以上概念、模型和標(biāo)準(zhǔn)對(duì)于語義規(guī)范文檔建設(shè)思路的形成具有重要影響。
規(guī)范文檔作為圖書館的特色服務(wù),其建立、維護(hù)過程是異常復(fù)雜的。針對(duì)高成本的現(xiàn)實(shí),圖書館界通過規(guī)范文檔的共建共享減少人工成本,如美國國會(huì)圖書館(LC)牽頭的“名稱規(guī)范合作計(jì)劃”(NACO)、歐洲的15家機(jī)構(gòu)合作開展的“國際規(guī)范資料庫合作建制計(jì)劃”(LEAF)。國內(nèi)也成立了“中文名稱規(guī)范聯(lián)合協(xié)調(diào)委員會(huì)”,以此推動(dòng)規(guī)范文檔的共享進(jìn)程。但是由于不同圖書館依據(jù)不同的編目規(guī)則及格式進(jìn)行規(guī)范著錄,再加上網(wǎng)上信息交換協(xié)議等系統(tǒng)技術(shù)上的限制,也并不是所有國家和機(jī)構(gòu)都能部署相同水平的技術(shù)和人力資源進(jìn)行合作編目[7],導(dǎo)致規(guī)范數(shù)據(jù)共享的規(guī)模和范圍有限。利用自動(dòng)化名稱消歧技術(shù)進(jìn)行人名規(guī)范也可提高效率,艾森豪威爾圖書館通過貝葉斯相似度模型,利用注釋、作品信息、生卒年等信息作為姓名區(qū)分依據(jù),建立自動(dòng)名稱規(guī)范控制系統(tǒng)[8]。French等利用聚類算法來創(chuàng)建規(guī)范文檔[9],Galvez等利用有限狀態(tài)算法進(jìn)行名稱匹配研究[10],楊欣欣等提出一種基于最大最小原則的改進(jìn)的K-means算法來進(jìn)行人名消歧[11]。但是計(jì)算機(jī)自動(dòng)算法不能完全保證匹配上的正確性,因此還需要人的參與和交互。
當(dāng)前學(xué)術(shù)產(chǎn)出成果類型多種多樣,如果只是將規(guī)范控制對(duì)象放在專著作者上,顯然不能滿足當(dāng)前的科研管理需求??蒲锌?jī)效評(píng)估、成果管理、人才評(píng)價(jià)、科研決策等都需要對(duì)科研人員進(jìn)行準(zhǔn)確、唯一的識(shí)別,需要對(duì)科研人員的論文、專利、研究報(bào)告、科研數(shù)據(jù)等多種學(xué)術(shù)成果類型進(jìn)行準(zhǔn)確、全面匯集。而據(jù)OECD Data統(tǒng)計(jì)[12],1000名中國大陸人員當(dāng)中大約有2個(gè)人是科研人員。如此多數(shù)量的普通科研人員需要進(jìn)行規(guī)范控制,無疑增加了圖書館規(guī)范工作的范圍和任務(wù)。
MARC格式的規(guī)范文檔,在圖書館等同質(zhì)環(huán)境下會(huì)發(fā)揮較好的作用,但是會(huì)限制在圖書館之外領(lǐng)域的擴(kuò)展和應(yīng)用,導(dǎo)致了資源利用和共享程度很低。那么既能兼容、識(shí)別、轉(zhuǎn)換MARC格式數(shù)據(jù),又能以更加開放的格式對(duì)各類規(guī)范數(shù)據(jù)資源進(jìn)行描述和編碼,以便于其他機(jī)構(gòu)自由參考引用這些規(guī)范數(shù)據(jù)資源,是未來規(guī)范數(shù)據(jù)應(yīng)用格式的變革方向。圖書館傳統(tǒng)規(guī)范文檔如果不利用信息技術(shù)進(jìn)步取得進(jìn)展,還一味地模仿目錄卡片時(shí)代的做法,將使規(guī)范控制面臨更大的困境[13]。語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)的出現(xiàn),為傳統(tǒng)規(guī)范文檔走出困境帶來了契機(jī)。
劉煒等認(rèn)為隨著語義標(biāo)準(zhǔn)規(guī)范的不斷完善和發(fā)展,尤其是用以表達(dá)語義的RDF模式及其擴(kuò)展(如SKOS、OWL),以及以RDF數(shù)據(jù)模型為基礎(chǔ)的“關(guān)聯(lián)數(shù)據(jù)”技術(shù)等的日益成熟,為網(wǎng)絡(luò)時(shí)代的規(guī)范控制提供原生解決方案[14]。OCLC主導(dǎo)開發(fā)的基于Schema.org的書目資源描述擴(kuò)展——Schema書目擴(kuò)展(Schema BibEx)[15]和由美國國會(huì)圖書館開發(fā)的BIBFRAME[16]書目數(shù)據(jù)格式,都在力爭(zhēng)成為關(guān)聯(lián)數(shù)據(jù)化的書目標(biāo)準(zhǔn),這也無疑會(huì)影響未來規(guī)范文檔的結(jié)構(gòu)與內(nèi)容。
由OCLC、德國國家圖書館和美國國會(huì)圖書館等機(jī)構(gòu)發(fā)起[17]的“虛擬國際規(guī)范文檔”(VIAF)項(xiàng)目,也很快意識(shí)到圖書館獨(dú)有的MARC格式限制了非圖書館機(jī)構(gòu)來獲取和使用這些規(guī)范數(shù)據(jù)資源,唯有開發(fā)一種更加開放、互動(dòng)、非排他性的規(guī)范控制方案才能走出困境。因此,VIAF記錄已發(fā)布為RDF關(guān)聯(lián)數(shù)據(jù),并且目前已是關(guān)聯(lián)數(shù)據(jù)云圖中的最大的名稱規(guī)范數(shù)據(jù)集。此外,大英圖書館、德國國家圖書館等一大批國家圖書館也將其國家書目發(fā)布成了關(guān)聯(lián)數(shù)據(jù)。
作為芬蘭FinnONTO基礎(chǔ)設(shè)施的組成部分,相關(guān)學(xué)者基于FOAF、Relationship和BIO詞匯,使用ULAN中的角色和國籍屬性進(jìn)行描述,定義了一個(gè)用RDF/XML格式描述人和組織的本體[18],并在此基礎(chǔ)上構(gòu)建人物和組織機(jī)構(gòu)倉儲(chǔ)——ONKI People,為用戶提供分面語義和可視化檢索,提供人名消歧服務(wù)[19]。Kurki等則在ONKI:91-People的基礎(chǔ)上,將它的語義化規(guī)范數(shù)據(jù),重用在語義門戶網(wǎng)站上[20]。
FOAF、SKOS、Dublin Core等語義描述詞匯出現(xiàn),它們強(qiáng)大的互聯(lián)性和簡(jiǎn)單性使得多數(shù)用戶和擁有不同技術(shù)水平的機(jī)構(gòu)進(jìn)行管理和創(chuàng)建語義規(guī)范文檔成為可能。Amed等開發(fā)了基于Drupal的自動(dòng)化規(guī)范文檔轉(zhuǎn)換軟件,它結(jié)合Dublin Core、SIOC、SKOS和FOAF等語義詞匯,利用關(guān)聯(lián)數(shù)據(jù)規(guī)則將規(guī)范數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理[21]。
當(dāng)科研人員唯一標(biāo)識(shí)符數(shù)據(jù)以RDF形式表示出來,將會(huì)對(duì)傳統(tǒng)規(guī)范控制產(chǎn)生變革性影響,因?yàn)樗恍枰帉懸唤MRDF三元組即可實(shí)現(xiàn)規(guī)范數(shù)據(jù)的自動(dòng)更新。Jane等人還具體以實(shí)例形式探討如何將書目描述和期刊作者標(biāo)識(shí)符之間建立RDF鏈接,并且指出利用RDF格式將期刊作者連接到多種唯一標(biāo)識(shí)符上的現(xiàn)實(shí)也將不遠(yuǎn)。OCLC的“WorldCat發(fā)現(xiàn)服務(wù)API”提供RDF形式的書目數(shù)據(jù),其中包括實(shí)體URIs,這將利于在RDF發(fā)現(xiàn)層面實(shí)現(xiàn)規(guī)范控制[22]。
針對(duì)現(xiàn)在同一科研人員擁有多個(gè)唯一標(biāo)識(shí)符的現(xiàn)實(shí),Roberts認(rèn)為挑戰(zhàn)是在保持維護(hù)每個(gè)研究者的多個(gè)身份基礎(chǔ)上,如何映射、交叉連接不同研究者標(biāo)識(shí)符系統(tǒng),以及學(xué)科或者機(jī)構(gòu)知識(shí)庫作者的記錄,從而構(gòu)建一個(gè)研究者的關(guān)聯(lián)數(shù)據(jù)名字空間[23]。Hawkins等研究通過利用RDF技術(shù)將規(guī)范數(shù)據(jù)進(jìn)行表示,使得計(jì)算機(jī)能夠更加有效地處理規(guī)范數(shù)據(jù),從而使得網(wǎng)上更多的用戶受益[24]。Violeta Ilik展示了如何利用開源工具——Karma數(shù)據(jù)集成工具和VIVO,將規(guī)范數(shù)據(jù)表示為RDF格式,突破MARC格式固有的局限和弊端[25]。陳金星等[26]提出利用語義Web技術(shù)對(duì)責(zé)任者各種名稱標(biāo)識(shí)進(jìn)行規(guī)范控制的設(shè)想。郝嘉樹[27-28]等討論了規(guī)范數(shù)據(jù)的語義描述與開放關(guān)聯(lián)思路。胡小菁[29]認(rèn)為BIBFRAME2.0中規(guī)范類被取消,不代表規(guī)范控制重要性的下降,而是資源唯一性的確認(rèn)始終是關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)。
本文通過梳理傳統(tǒng)規(guī)范控制研究與語義環(huán)境下的規(guī)范控制的理論與發(fā)展進(jìn)程,認(rèn)為現(xiàn)有規(guī)范控制研究特點(diǎn)主要體現(xiàn)在如下幾方面:從研究對(duì)象上看,對(duì)圖書館收藏的專著作者的規(guī)范多于期刊論文作者、基金申請(qǐng)者等普通科研人員的規(guī)范;從研究方法上看,如何利用圖書館編目原則與標(biāo)準(zhǔn)規(guī)范的研究多于利用語義關(guān)聯(lián)技術(shù)的規(guī)范控制研究;從研究成果看,語義規(guī)范文檔建設(shè)研究散見于個(gè)別作者論文和研究報(bào)告中,缺乏集中的、系統(tǒng)化的研究成果。基于已有的研究成果,本文認(rèn)為人名規(guī)范文檔建設(shè)研究將呈現(xiàn)如下發(fā)展趨勢(shì):人名規(guī)范文檔的應(yīng)用范圍擴(kuò)大到除圖書館書目控制以外的其他領(lǐng)域;人名規(guī)范文檔格式從基于MARC格式向基于關(guān)聯(lián)數(shù)據(jù)化格式方向轉(zhuǎn)變;人名規(guī)范文檔從數(shù)字字典列表式向揭示豐富語義關(guān)系的深度發(fā)展;人名規(guī)范控制從事后組織規(guī)范文檔到提前分配唯一標(biāo)識(shí)符進(jìn)行干預(yù)的方式轉(zhuǎn)變。
語義網(wǎng)重要特點(diǎn)是使用統(tǒng)一資源標(biāo)識(shí)符(URI)來識(shí)別資源(物理實(shí)體和概念),其唯一性可通過使用DNS系統(tǒng)進(jìn)行保證。其他的資源描述屬性以機(jī)器可讀結(jié)構(gòu)化形式(如RDF語言)進(jìn)行表示,使用社會(huì)公認(rèn)的共同詞匯對(duì)事物進(jìn)行描述[30-31]。
語義規(guī)范文檔通過將關(guān)于人的規(guī)范記錄轉(zhuǎn)換成基于RDF語義形式的記錄,實(shí)質(zhì)是建立有關(guān)人的關(guān)聯(lián)數(shù)據(jù),這樣的規(guī)范文檔可能將不再有文檔的概念,因?yàn)樵械淖址畬⒈幌嚓P(guān)的URLs替換。具有基于全局唯一的URI和相互關(guān)聯(lián)的各類RDF語義信息是其主要的特點(diǎn)。語義規(guī)范文檔與傳統(tǒng)規(guī)范文檔相比,除能唯一標(biāo)識(shí)人物身份外,還可以作為被其他應(yīng)用程序進(jìn)行調(diào)用和重用的內(nèi)容資源庫。這些語義規(guī)范記錄成為網(wǎng)絡(luò)數(shù)據(jù)的組成部分,可以被相關(guān)內(nèi)容鏈接和重用,并可使用標(biāo)準(zhǔn)協(xié)議(如SPARQL查詢)進(jìn)行查詢。語義規(guī)范文檔的“語義”除了具有網(wǎng)絡(luò)可以理解識(shí)別的語義描述機(jī)制外,還有另一層含義:融入科研管理過程,包括科研機(jī)構(gòu)、科研基金、科研成果、學(xué)術(shù)論文、科研合作等在內(nèi)的科研語義信息,通過關(guān)聯(lián)數(shù)據(jù)機(jī)制建立這些科研語義信息間的鏈接互聯(lián),實(shí)現(xiàn)整個(gè)科研管理過程的語義化管理。
關(guān)聯(lián)數(shù)據(jù)環(huán)境下的規(guī)范文檔,用唯一識(shí)別符代替統(tǒng)一標(biāo)目是一種趨勢(shì),理想狀態(tài)是為每個(gè)科研人員建立全球唯一、持久的標(biāo)識(shí)符系統(tǒng),由唯一標(biāo)識(shí)符連接科研人員的描述數(shù)據(jù),并且這些數(shù)據(jù)使用RDF等語義形式表示。
使用唯一標(biāo)識(shí)符對(duì)“人”進(jìn)行唯一標(biāo)識(shí),也是目前國際上較為流行的做法。圖書館傳統(tǒng)做法是選取“首選名稱形式”作為標(biāo)識(shí),但是不同單位和不同國家因?yàn)檎Z言文化背景不同,可能選擇不同的“首選名稱形式”,那么同一人可能具有不同的首選名稱形式,所以在進(jìn)行信息資源集成時(shí)面臨匹配上的困難。雖然VIAF通過匹配算法將同一實(shí)體不同規(guī)范文檔進(jìn)行聚合,但也不能保證完全的精確。此外,首選名稱形式可能由于編目規(guī)則的變化或其他原因發(fā)生改變,如果與書目系統(tǒng)相關(guān)聯(lián),數(shù)據(jù)的更新問題也非常棘手。因此,使用唯一標(biāo)識(shí)符取代“首選名稱形式”作為人的網(wǎng)絡(luò)標(biāo)識(shí)是未來趨勢(shì)。人的唯一標(biāo)識(shí)符是“人”的描述,而不是“名稱”的替代。人的唯一標(biāo)識(shí)符便于聚合和跟蹤科研人員的各類科研信息。Bibframe規(guī)范類的取消正是考慮到該情況。
目前已有各種人的唯一標(biāo)識(shí)符出現(xiàn),Swan[32]按標(biāo)識(shí)符的來源和范圍,將作者標(biāo)識(shí)符系統(tǒng)劃分為5類,分別是相關(guān)標(biāo)準(zhǔn)的國際性行動(dòng)和項(xiàng)目(如ORCID、ISNI、VIAF和OpenID)、國家層面的標(biāo)識(shí)符(如荷蘭的DAI和巴西的Lattes Platform)、出版商專用的標(biāo)識(shí)符(如Scopus ID和Researcher ID)、基于學(xué)術(shù)的或者項(xiàng)目(如arXiv公共作者標(biāo)識(shí)符)、圖書館系統(tǒng)或者專用信息系統(tǒng)(如 CSHL Authority Name Ontology)。
Smith-Yoshimura等[33]指出,如此多的人員標(biāo)識(shí)符系統(tǒng),同一人員在網(wǎng)絡(luò)環(huán)境下會(huì)不可避免的擁有多個(gè)IDs,造成唯一標(biāo)識(shí)符的“不唯一”,因此如何對(duì)當(dāng)前人的唯一標(biāo)識(shí)符進(jìn)行規(guī)范控制,對(duì)人員的信息進(jìn)行有效集成,是語義規(guī)范文檔建設(shè)面臨的主要問題。
當(dāng)前國際上還沒有一個(gè)全球性的通用唯一標(biāo)識(shí)符解決方案,但是包括圖書館在內(nèi)的信息服務(wù)組織已經(jīng)意識(shí)到唯一標(biāo)識(shí)符“各自為政”的現(xiàn)象給信息集成帶來的巨大障礙,于是出現(xiàn)了ORCID、ISNI等國際性合作項(xiàng)目與標(biāo)準(zhǔn)規(guī)范,甚至有人[34]指出由于OCLC管理和參與VIAF、ISNI、WorldCat Identities、Cooperative Identities Hub等多個(gè)名稱標(biāo)識(shí)符項(xiàng)目,因此最有可能成為全球性的唯一標(biāo)識(shí)符分配和管理系統(tǒng)。OCLC與康奈爾大學(xué)、哈佛大學(xué)等7所機(jī)構(gòu)進(jìn)行的“人物實(shí)體查詢?cè)圏c(diǎn)項(xiàng)目”即是研究如何將表示同一人物實(shí)體的標(biāo)識(shí)符項(xiàng)目進(jìn)行映射互聯(lián)[35]。
而本文認(rèn)為,即使未來出現(xiàn)全球性的“權(quán)威的”責(zé)任者唯一標(biāo)識(shí)符,也不是一種唯一標(biāo)識(shí)符系統(tǒng)一統(tǒng)天下,而應(yīng)該是多種唯一標(biāo)識(shí)符共存且互聯(lián)的局面。這就需要進(jìn)行標(biāo)識(shí)符系統(tǒng)的集成或者互操作研究,通過不同標(biāo)識(shí)符系統(tǒng)的連接和映射,保持和維護(hù)每個(gè)研究者的多個(gè)身份,通過建立集中倉儲(chǔ),分配“超標(biāo)識(shí)”作為URI,并作為連接各類標(biāo)識(shí)符系統(tǒng)的統(tǒng)一的關(guān)聯(lián)數(shù)據(jù)名稱空間。
不管“首選名稱形式”還是“唯一標(biāo)識(shí)號(hào)”,都不能進(jìn)行人名上的識(shí)別,需要人的描述屬性及其他信息對(duì)人進(jìn)行進(jìn)一步區(qū)分。該問題對(duì)應(yīng)于規(guī)范文檔中標(biāo)目附加信息的選擇問題。賈君枝等[36]指出,附加屬性的選擇是區(qū)分人物的關(guān)鍵因素,但是人的附加屬性仍然存在不規(guī)范性,需進(jìn)一步進(jìn)行研究。國際上普遍認(rèn)為生卒年信息是區(qū)分同名作者的有效做法,但是從用戶的角度看,并不是一種理想方式,因?yàn)橛脩舨⒉磺宄藛T生死的確切年份,尤其是對(duì)于非名人的普通人員而言。關(guān)于人名識(shí)別,國家圖書館使用學(xué)科領(lǐng)域進(jìn)行區(qū)別,但是由于學(xué)科著錄的不規(guī)范,給人名識(shí)別造成進(jìn)一步的混亂和困難。曹寧[37]將人的屬性分為自然屬性和社會(huì)屬性,附加成分的選擇應(yīng)該在同時(shí)考慮編目員和用戶需求基礎(chǔ)上,進(jìn)行社會(huì)屬性和自然屬性的合理權(quán)衡。
關(guān)于人的附加描述信息,本文認(rèn)為在語義規(guī)范文檔中由于人的唯一標(biāo)識(shí)符的普遍使用,名稱規(guī)范甚至不具有區(qū)分功能,而是轉(zhuǎn)移為以人為中心的語義關(guān)系的揭示,并以此為基礎(chǔ)提供各種資源聚合服務(wù)。對(duì)于何種屬性能夠唯一識(shí)別,或者哪種屬性對(duì)于唯一識(shí)別人所起作用的大小問題,顯得不太重要,重要的是要具備哪些關(guān)鍵的基本描述屬性,用以在各個(gè)人名系統(tǒng)之間的互聯(lián)提供匹配參考。
構(gòu)建網(wǎng)絡(luò)環(huán)境下的人員信息描述規(guī)范,制定語義描述標(biāo)準(zhǔn),是解決人名規(guī)范控制的基本思路。當(dāng)前環(huán)境下,科研人員語義描述標(biāo)準(zhǔn)既可以是本體,也可以是元數(shù)據(jù)標(biāo)準(zhǔn),因?yàn)楸倔w和元數(shù)據(jù)標(biāo)準(zhǔn)沒有明確的界限,本體簡(jiǎn)單化為關(guān)聯(lián)數(shù)據(jù),元數(shù)據(jù)標(biāo)準(zhǔn)語義化成為關(guān)聯(lián)數(shù)據(jù)。它們都是結(jié)構(gòu)化的詞匯,用以明確定義某一概念或者概念之間的關(guān)系,且作為“語義層”來傳達(dá)數(shù)據(jù)的含義。Fenner等認(rèn)為現(xiàn)在阻礙關(guān)聯(lián)數(shù)據(jù)在學(xué)術(shù)領(lǐng)域推行的主要障礙是缺少這樣的語義描述規(guī)范,或者對(duì)現(xiàn)有的語義描述規(guī)范普及應(yīng)用的較少[38]。
科研人員作為科研管理過程中的一種角色,在對(duì)人進(jìn)行科研規(guī)范的同時(shí),離不開科研管理過程的控制。歐洲研究項(xiàng)目公用信息格式(CERIF)[39]作為科研信息領(lǐng)域的行業(yè)標(biāo)準(zhǔn),通過兩個(gè)補(bǔ)充資源:CERIF本體和CERIF語義詞匯逐步開放為關(guān)聯(lián)數(shù)據(jù)。CERIF實(shí)體框架圍繞“人”“組織單元”“項(xiàng)目”三個(gè)實(shí)體單位展開,分別用foaf:person,foaf:organization和foaf:project表示。
研究管理信息聯(lián)盟推進(jìn)標(biāo)準(zhǔn)(CASRAI)[40]的數(shù)據(jù)字典(未公布為正式機(jī)讀本體)也可映射到CERIF規(guī)范中,它目前包括1765個(gè)術(shù)語,121個(gè)對(duì)象、1036個(gè)屬性,10個(gè)屬性值列表。另外,還有兩個(gè)和CERIF兼容的OWL-2語言編碼的本體項(xiàng)目,SCoRO[41]和FRAPO[42],前者是關(guān)于“學(xué)術(shù)貢獻(xiàn)和作用”的關(guān)聯(lián)數(shù)據(jù),后者是關(guān)于“資助者,研究管理和項(xiàng)目本體”。
利用語義網(wǎng)技術(shù)搭建的科研人員學(xué)術(shù)交流網(wǎng)絡(luò)——VIVO,以及語義網(wǎng)上用于描述人及其相關(guān)屬性的詞匯語義規(guī)范——FOAF,都是當(dāng)前有關(guān)科研人員語義規(guī)范控制標(biāo)準(zhǔn),這些詞匯或者標(biāo)準(zhǔn)支持網(wǎng)絡(luò)環(huán)境下不同字段間的語義連接,它們不是孤立存在,而是相互復(fù)用、兼容的關(guān)系。RDA注冊(cè)將其中涉及“人”這一實(shí)體的元素和概念等,以關(guān)聯(lián)數(shù)據(jù)(RDF)的形式進(jìn)行發(fā)布,作為豐富的語義信息描述集和規(guī)范的語義形式化表達(dá),可以成為關(guān)聯(lián)數(shù)據(jù)環(huán)境下科研人員語義描述規(guī)范。
關(guān)于人的語義描述,要盡量復(fù)用和擴(kuò)展已有的詞匯規(guī)范,這些詞匯規(guī)范是以關(guān)聯(lián)數(shù)據(jù)形式存在的受控詞表,如VIVO、FOAF、CASRAI、vCard,并且在網(wǎng)絡(luò)環(huán)境下進(jìn)行了語義標(biāo)識(shí),復(fù)用其語義信息作為信息交換的協(xié)議,不僅能支持不同系統(tǒng)中相關(guān)詞匯的語義鏈接,解決不同系統(tǒng)的互操作,而且還可以使得數(shù)據(jù)的更新變得簡(jiǎn)單有效,這樣使得生成可控可管的規(guī)范記錄成為可能。此外,根據(jù)實(shí)際需要,還可以擴(kuò)展一些私有的屬性來更好地滿足特殊描述需要。
現(xiàn)實(shí)中存在著重名和一人多名等現(xiàn)象,給信息著錄、信息檢索、人才評(píng)價(jià)、成果管理、科研決策等工作帶來嚴(yán)重困擾。當(dāng)前網(wǎng)絡(luò)環(huán)境的開放性、共享性和語義互聯(lián)性等特征,需要我們重新審視科研人員規(guī)范文檔本質(zhì)和功能,要求它不僅能夠唯一識(shí)別科研人員,還能多視角、綜合性支撐對(duì)人員管理過程,因此,比圖書館傳統(tǒng)規(guī)范提出了更高地要求。語義規(guī)范文檔符合網(wǎng)絡(luò)環(huán)境下的人名規(guī)范控制需求,是未來規(guī)范文檔的發(fā)展趨勢(shì)。當(dāng)前,語義規(guī)范文檔的實(shí)現(xiàn)途徑即為關(guān)聯(lián)數(shù)據(jù)化的規(guī)范文檔,其中,人的唯一標(biāo)識(shí)符互操作、合理選擇人的附加描述屬性以及有效復(fù)用當(dāng)前的語義描述規(guī)范是構(gòu)建語義規(guī)范文檔面臨的主要問題,也是需要進(jìn)一步深入研究的問題。