郝嘉樹?。▏覉D書館 北京 100081)
?
個人名稱規(guī)范維護新方法探析
郝嘉樹(國家圖書館 北京 100081)
[摘 要]我國采用自上而下、人工操作和封閉的模式影響名稱規(guī)范的維護能力、效率及規(guī)范控制效果?;谥呓换サ淖砸?guī)范、自動人名消歧和開放關(guān)聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護方法,借鑒了文獻數(shù)據(jù)庫系統(tǒng)中的著者唯一標(biāo)識、機器學(xué)習(xí)領(lǐng)域的自動身份辨識和有效信息源獲取,可改變我國個人名稱規(guī)范數(shù)量少、覆蓋范圍受限和數(shù)據(jù)質(zhì)量不高的現(xiàn)狀,解決當(dāng)前名稱規(guī)范模式維護能力差、效率低下和無法與外界互操作等問題,真正發(fā)揮出名稱規(guī)范控制應(yīng)有的功能及效果。
[關(guān)鍵詞]個人名稱規(guī)范維護 自規(guī)范 自動人名消歧 開放關(guān)聯(lián)數(shù)據(jù) MARC格式
名稱規(guī)范的重要功能及近幾年越來越傾向于以人為中心的資源組織,使得個人名稱規(guī)范數(shù)據(jù)維護成為圖書館信息組織的重要內(nèi)容。目前,國內(nèi)對我國名稱規(guī)范維護工作問題的探討大多集中于從完善編目格式和規(guī)則的角度提升規(guī)范數(shù)據(jù)質(zhì)量,從多機構(gòu)聯(lián)合構(gòu)建角度解決數(shù)據(jù)的共享和重用[1-2]。然而,數(shù)據(jù)質(zhì)量的提升如果沒有信息源的有效獲取模式,完善格式和規(guī)則只能成為空殼,并且國內(nèi)多機構(gòu)聯(lián)合共建仍為自上而下的維護模式,并沒有從根本上提高維護的效率,規(guī)范控制能力仍跟不上資源增長的速度。
筆者認為,當(dāng)前我國個人名稱規(guī)范維護工作的突出問題有:一是面對海量數(shù)據(jù)資源采用自上而下、由領(lǐng)域內(nèi)少數(shù)權(quán)威機構(gòu)維護的模式,使得個人名稱規(guī)范數(shù)據(jù)質(zhì)量、規(guī)模和范圍受到影響與限制,規(guī)范控制能力跟不上資源增長的速度;二是面對大量數(shù)據(jù)和難以獲取有效信息的事實,完全由編目員承擔(dān)個人名稱規(guī)范維護工作,出現(xiàn)較多影響規(guī)范控制效果的不完整和白板數(shù)據(jù)①,這種人工維護的方式耗費人力、財力而又效率偏低;三是網(wǎng)絡(luò)中發(fā)布了大量與人相關(guān)的資源和規(guī)范數(shù)據(jù),我國名稱規(guī)范數(shù)據(jù)封閉在圖書館環(huán)境內(nèi)無法與已開放數(shù)據(jù)關(guān)聯(lián),阻礙發(fā)現(xiàn)、整合已有資源以擴大本地個人名稱規(guī)范規(guī)模和補充完善自身數(shù)據(jù),另外,數(shù)字化環(huán)境充斥的今日,期刊數(shù)據(jù)庫、網(wǎng)絡(luò)資源等對人名消歧和辨識有強烈的需求,然而封閉在圖書館內(nèi)的規(guī)范數(shù)據(jù)卻無法提供給外界使用。
針對以上問題,本文借鑒文獻數(shù)據(jù)庫系統(tǒng)中的著者唯一標(biāo)識、機器學(xué)習(xí)領(lǐng)域的自動身份辨識和有效信息源獲取,提出基于著者交互的自規(guī)范、自動人名消歧和開放關(guān)聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護方法,并分別對這些方法進行介紹,指出它們可解決的名稱規(guī)范問題,并給出如何實現(xiàn)維護的具體方案或做法。
2.1 自規(guī)范模式及相關(guān)應(yīng)用
因為著者更了解自身的相關(guān)信息和著作,所以采用自下而上、由著者主導(dǎo)的聯(lián)合共建模式,是提升個人名稱規(guī)范數(shù)據(jù)質(zhì)量、規(guī)模和范圍的途徑與方法。本文將無需外界指令而由著者自發(fā)和協(xié)同地實現(xiàn)個人信息生成和完善,以及不同人辨識的過程稱為自規(guī)范。自規(guī)范是一種自下而上、去中心化的由著者主導(dǎo)的聯(lián)合共建模式,由著者協(xié)同地維護個人名稱規(guī)范數(shù)據(jù)。
著者交互的自規(guī)范可解決自上而下維護模式的問題,具體表現(xiàn)在:一是廣泛的著者參與能消除自上而下維護的局限,擴大個人名稱規(guī)范數(shù)據(jù)的規(guī)模和范圍;二是著者熟悉自身情況,能準(zhǔn)確辨識規(guī)范庫中的個人身份,區(qū)分同名著者,發(fā)現(xiàn)由更名、別名構(gòu)建的重復(fù)記錄;三是添加和修改生卒年、研究領(lǐng)域、相關(guān)作品、所在機構(gòu)等信息,可完善名稱規(guī)范數(shù)據(jù),提高個人名稱規(guī)范數(shù)據(jù)質(zhì)量。
自規(guī)范應(yīng)用出現(xiàn)在文獻數(shù)據(jù)庫系統(tǒng),這些系統(tǒng)大都由著者填寫自身及相關(guān)學(xué)術(shù)信息并進行注冊,系統(tǒng)會為每個著者分配一個唯一標(biāo)識符(Identifier),如Research ID[3]、Scopus Author ID[4]和arXiv Author ID[5]等。該做法可有效消除姓名拼寫方式混淆和重名問題,但只局限在某一范圍或系統(tǒng)內(nèi),整體上還是削弱了著者標(biāo)識符辨識度,同時系統(tǒng)間的分割導(dǎo)致了同一著者多次注冊、多入口操作和有多個標(biāo)識符。針對以上情況,近幾年出現(xiàn)了ORCID(Open Researcher and Contributor Identifier,開放研究者與貢獻者身份),目的是解決各系統(tǒng)間著者姓名混淆和識別問題。ORCID在兼容性和互操作方面進行嘗試,建立與各系統(tǒng)著者標(biāo)識符的關(guān)聯(lián),并將著者相關(guān)信息和科研情況聚合起來;同時不受學(xué)科、機構(gòu)和地理的限制,免費向全球?qū)W術(shù)界開放并提供服務(wù)[6],這種擴大數(shù)據(jù)和服務(wù)范圍的做法真正起到了不同著者唯一身份辨識的作用。
2.2 基于自規(guī)范的個人名稱規(guī)范維護
個人名稱規(guī)范維護可借鑒自規(guī)范相關(guān)應(yīng)用,以搭建網(wǎng)絡(luò)平臺為渠道,通過著者辨識、修改、合并和新增等參與形式達到維護個人名稱規(guī)范數(shù)據(jù)的目的。構(gòu)建自規(guī)范平臺要重點實現(xiàn)以下3方面:
(1)在數(shù)據(jù)維護方面,著者新增或修改的信息項包括別名、更名、出生年月、所在機構(gòu)、發(fā)表文獻情況、研究興趣、教育程度、工作單位和開展項目等,平臺構(gòu)建者需將其與規(guī)范數(shù)據(jù)MARC格式建立映射,用以自動完善個人名稱規(guī)范數(shù)據(jù)附加成分、單純參照等相關(guān)字段,并能將著者在平臺新建的數(shù)據(jù)批量轉(zhuǎn)化為圖書館規(guī)范記錄,從而大幅提高個人名稱規(guī)范數(shù)據(jù)的維護效率。
(2)在系統(tǒng)設(shè)計方面,通過技術(shù)手段和友好性設(shè)計降低著者參與的復(fù)雜度。平臺構(gòu)建者需規(guī)避專業(yè)的MARC格式,設(shè)計新增、修改、合并模板并內(nèi)嵌到系統(tǒng)內(nèi),通過著者參與挖掘頭腦里有關(guān)人的事實信息來新建、修改和補充個人記錄。除此之外,以易于理解的形式和語言幫助著作開展相關(guān)操作,同名規(guī)范數(shù)據(jù)的展示要利于其辨識,盡量采取客觀形式完成信息項的填寫。
(3)在參與度方面,要增強著者粘性。只維護數(shù)據(jù)難以提高著者的參與興趣,平臺構(gòu)建者應(yīng)設(shè)計相關(guān)功能來增強著者參與的驅(qū)動力,如開發(fā)個人科研管理模塊以自動導(dǎo)入和生成科研成果,幫助著者發(fā)現(xiàn)開展相似項目的合著者等;同時與出版界、科研機構(gòu)、學(xué)術(shù)界等開展合作,他們對科研產(chǎn)出者有準(zhǔn)確識別和名稱消歧的需要,通過這些切合點帶動更多的科研產(chǎn)出者參與到自規(guī)范中,從而擴大個人名稱規(guī)范維護和控制的范圍和能力。
我國存在大量未能顯著區(qū)分的同名個人名稱規(guī)范數(shù)據(jù),該類數(shù)據(jù)在維護和書目掛接時需要人工逐條分析、比對和辨別,嚴(yán)重影響編目員的工作效率,成為個人名稱規(guī)范維護和控制中的突出問題。自動人名消歧可彌補人工維護的不足,利用相關(guān)方法和技術(shù)自動區(qū)分重名著者和聚合著者別名作品,從而實現(xiàn)個人名稱規(guī)范維護及控制。另外,受圖書館傳統(tǒng)維護模式與方法的影響,我國名稱規(guī)范控制工作局限于專著領(lǐng)域,而數(shù)字圖書館、網(wǎng)絡(luò)資源和期刊數(shù)據(jù)庫等對名稱規(guī)范控制有強烈的訴求,自動人名消歧非常適用于網(wǎng)絡(luò)和數(shù)字環(huán)境,有快速區(qū)分海量數(shù)據(jù)著者及其作品的能力,更好地適應(yīng)不斷擴大的數(shù)字化趨勢。
3.1 基于著作文體的辨識
文體學(xué)是用統(tǒng)計學(xué)中定量方法來分析著者寫作風(fēng)格的一種學(xué)科。著者都具有自己特定的寫作習(xí)慣和風(fēng)格,這種無意識和根深蒂固的寫作習(xí)慣和風(fēng)格會在所寫的著作中通過各種特征表現(xiàn)出來。因此,計算機可以通過統(tǒng)計特征來分析著者寫作風(fēng)格,從而能快速區(qū)分同名著者作品、聚合同人異名作品。
首先,著者文體識別需要提取出能代表著者文體風(fēng)格的識別特征(Identification Attributes),并根據(jù)這些特征評估作品之間文體風(fēng)格的相似程度。能有效區(qū)分著者文體的識別指標(biāo)可歸類為4個方面(見表1)[7-8]。其中,詞匯和句法特征中詞、標(biāo)點符號和功能詞等的使用情況可以體現(xiàn)著者的寫作特點和風(fēng)格;結(jié)構(gòu)特征反映著者如何組織整個篇章結(jié)構(gòu),不同著者對整體文本的呈現(xiàn)有不同偏好;內(nèi)容特征體現(xiàn)著者感興趣的主題類別。
表1 文體風(fēng)格識別指標(biāo)
其次,著者文體識別需設(shè)計各識別指標(biāo)的統(tǒng)計方法或公式。詞匯特征中,基于字的特征中各平均數(shù)指標(biāo)分別用總數(shù)字個數(shù)、總字母個數(shù)、總空格數(shù)、每個特殊字符數(shù)除以總字數(shù)得出,而平均每句字數(shù)用總字數(shù)除以句子數(shù)得到;基于詞的特征提取要進行中文分詞,可利用已有成熟的分詞軟件,平均詞長用總字數(shù)除以總詞數(shù),平均每句中的字數(shù)和詞數(shù)分別用總字數(shù)和總詞數(shù)除以句子數(shù)獲?。痪浞ㄌ卣髦?,通過統(tǒng)計標(biāo)點符號、功能詞和詞性的使用頻率來判斷著者的寫作風(fēng)格;結(jié)構(gòu)特征中平均每段的句、詞、字數(shù)分別用總句數(shù)、詞數(shù)和字數(shù)除以段落數(shù)獲得;內(nèi)容特征主要抽取能表達主題的關(guān)鍵詞,可通過TF-IDF、詞頻、互信息等方法提取。
3.2 基于著作外部特征的辨識
基于著作外部特征的辨識是利用著者的合著者、題名、研究方向、關(guān)鍵詞、出版物名稱及類型、著者機構(gòu)、引文和分類號等作為特征,使用機器學(xué)習(xí)中的相似度計算、自動分類及自動聚類等方法,將重名著者中同一人的作品聚合在一起,而將不同人的作品分開的過程,可利用該方法自動區(qū)分重名著者和聚合同人別名著者的作品,達到個人名稱規(guī)范維護及控制的目的。
(1)算法介紹
基于著作外部特征的辨識包括著者分組法和著者分配法。著者分組法通過相似度函數(shù)計算文獻屬性的相似度值從而將同一著者的作品集合到一起,其中值越高代表文獻之間的相似度越高,表明為同一著者所著的可能性就越大。計算相似度包含兩種算法:預(yù)定義相似度函數(shù)是在算法中植入預(yù)先定義的函數(shù)或公式,如余弦相似函數(shù)、TFIDF、Levenshtein距離和Jaccard公式等[9];基于學(xué)習(xí)的相似度函數(shù)需要訓(xùn)練數(shù)據(jù)集②來標(biāo)注各個文獻是否屬于同一著者,然后在此基礎(chǔ)上生成精確的相似度函數(shù)來區(qū)分同名作品[10-11]。
著者分配法構(gòu)建著者模型,將作品分配給不同的著者,包括分類和聚類兩類方法。分類法需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,即用相關(guān)特征與正確著者關(guān)聯(lián)以幫助訓(xùn)練生成消歧函數(shù),之后用該函數(shù)對作品集合選擇分類算法進行分配[12-13];聚類方法通過構(gòu)建著者的數(shù)學(xué)模型,直接選擇相應(yīng)的聚類算法,如劃分法、層次法、基于密度的方法和基于網(wǎng)格的方法等將作品分配給所屬的著者[14-15]。
(2)算法選用
著者分組法針對只有一個同名著者而有多個作品的情況,通過計算作品之間的相似度聚合同一著者的作品;著者分配法適合有多個同名著者且有多個作品的情況,區(qū)分同名異人的作品,聚合同人異名的作品。
著者分組法包含的兩種方法各有優(yōu)劣,在區(qū)分同名著者作品時,要根據(jù)自身數(shù)據(jù)情況選擇合適的算法。基于學(xué)習(xí)的相似度函數(shù)對不同數(shù)據(jù)集都有好的區(qū)分結(jié)果,但是需要大量的例子和充足的特征,構(gòu)建費時費力;預(yù)定義函數(shù)不需要訓(xùn)練數(shù)據(jù)集,但是面對不同的集合需要調(diào)整新的函數(shù)來適應(yīng)。對于已有訓(xùn)練數(shù)據(jù)集基礎(chǔ)、易構(gòu)建的情況,可考慮采用基于學(xué)習(xí)的相似度函數(shù)方法,否則可采用高效的預(yù)定義函數(shù),嵌入較多的預(yù)定義函數(shù)以增強對數(shù)據(jù)的適應(yīng)性。
著者分配法中,分類方法有較高的準(zhǔn)確度,但需人工構(gòu)建訓(xùn)練數(shù)據(jù)集,面對海量數(shù)據(jù)進行人工標(biāo)注的工作量巨大,限制了該方法在自動人名消歧中的應(yīng)用。聚類方法不需要訓(xùn)練數(shù)據(jù)集,適用性較高,是當(dāng)前自動人名消歧的主流方法,但預(yù)先設(shè)定聚類個數(shù)、判斷數(shù)據(jù)分布特征等做法影響準(zhǔn)確性,因此EM算法和Gibbs抽樣可彌補一般聚類算法的不足。
4.1 去除MARC格式
MARC格式是制約當(dāng)前圖書館資源開放利用的最大障礙。隨著技術(shù)的發(fā)展和信息環(huán)境的改變,讀者利用圖書館資源的對象和方式發(fā)生巨大變化,MARC格式的種種局限在網(wǎng)絡(luò)時代越來越成為絆腳石:一方面在技術(shù)上,圖書館的MARC記錄雖然可以通過互聯(lián)網(wǎng)查詢,但是ISO2709格式依然作為其交換格式,除了按照C/S時代研發(fā)的Z39.50標(biāo)準(zhǔn)開放的API接口之外,基本沒有其他互操作方式;另一方面在領(lǐng)域上,網(wǎng)絡(luò)上充斥的錯誤、冗余和虛假信息需要規(guī)范控制,而MARC因其領(lǐng)域上的封閉性已無法滿足這種需求。MARC格式的數(shù)據(jù)被牢牢“圈養(yǎng)”在各個圖書館的OPAC范圍內(nèi),缺乏方便生成一個國家或地區(qū)的聯(lián)合數(shù)據(jù)的技術(shù)和能力,更不用說開放給整個社會使用[16]。
名稱規(guī)范發(fā)布為開放關(guān)聯(lián)數(shù)據(jù),是采用RDF格式將封閉在圖書館由MARC格式表示的名稱規(guī)范數(shù)據(jù)開放到Web上,通過定義能用于識別名稱規(guī)范的詞匯集以實現(xiàn)唯一標(biāo)識,并借助這些詞匯建立相關(guān)名稱標(biāo)識的自動語義鏈接,實現(xiàn)與其他系統(tǒng)數(shù)據(jù)的互操作以及無縫訪問和獲取多來源、異構(gòu)資源,具體表現(xiàn)在:
(1)我國名稱規(guī)范控制工作局限于專著領(lǐng)域,名稱規(guī)范通過獲取來源于期刊數(shù)據(jù)庫、網(wǎng)絡(luò)和他國信息源的開放關(guān)聯(lián)數(shù)據(jù),能夠擴展本地名稱規(guī)范數(shù)據(jù)種類、范圍和規(guī)模[17]。
(2)完善和提升本地數(shù)據(jù)質(zhì)量。本地規(guī)范記錄可通過URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識符)和詞匯集的關(guān)聯(lián)自動發(fā)現(xiàn)和整合開放數(shù)據(jù)集合中特定人的相關(guān)信息,可用來完善自身附加成分、單純參照和信息附注,提高個人名稱規(guī)范數(shù)據(jù)質(zhì)量。除此之外, skos:related等詞匯挖掘與該規(guī)范記錄相關(guān)的人和機構(gòu)等從而幫助構(gòu)建個人名稱規(guī)范數(shù)據(jù)的相關(guān)參照。
(3)圖書館高質(zhì)量的規(guī)范數(shù)據(jù)在語義網(wǎng)環(huán)境下開放,可以被外部檢索使用,能夠促進對分布異構(gòu)式網(wǎng)絡(luò)發(fā)揮規(guī)范控制作用。
4.2 基于開放關(guān)聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護
基于開放關(guān)聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護涉及到管理策略和具體實現(xiàn)。機構(gòu)首先要制定相關(guān)管理策略,包括開放哪些數(shù)據(jù),在技術(shù)和人力方面的支持、準(zhǔn)備和管理等。在實施初期可以分階段逐步推進,在實現(xiàn)規(guī)范數(shù)據(jù)自身開放的基礎(chǔ)上,逐漸實現(xiàn)與其他資源的互操作。
實現(xiàn)基于開放關(guān)聯(lián)數(shù)據(jù)的個人名稱規(guī)范維護的措施具體有以下3方面:
(1)用URI標(biāo)識規(guī)范記錄
URI形式穩(wěn)定,和規(guī)范記錄是固定關(guān)系,因此無論何種環(huán)境都可用URI來表示該規(guī)范記錄,避免由名稱表示人名帶來的種種歧義[18]。用戶通過HTTP URI訪問來實現(xiàn)對數(shù)據(jù)的參引(Dereference,即查找和獲取)。
(2)個人名稱規(guī)范數(shù)據(jù)的語義描述
名稱規(guī)范數(shù)據(jù)的語義描述就是將名稱規(guī)范數(shù)據(jù)MARC格式轉(zhuǎn)換為RDF表達形式,即通過“主體-謂詞-客體”三元組(Triple)描述著者規(guī)范中各項內(nèi)容[19]。
建立個人名稱規(guī)范數(shù)據(jù)MARC格式字段及子字段對應(yīng)的RDF詞匯映射表,方便計算機自動批量實現(xiàn)名稱規(guī)范數(shù)據(jù)的語義化描述。為保證共享和重用,數(shù)據(jù)在轉(zhuǎn)化過程中要盡量利用已標(biāo)準(zhǔn)化和成熟的詞匯集描述,避免自造新詞匯,并根據(jù)中文人名的特點,采用SKOS(Simple Knowledge Organization System,簡單知識組織系統(tǒng))[20]、Schema. org[21]和FOAF(Friend of a Friend,朋友的朋友)[22]已有詞匯組合定義中文人名規(guī)范數(shù)據(jù)的語義描述詞匯集,如表2所示。
表2 RDF詞匯與名稱規(guī)范MARC格式映射表
(3)與其他數(shù)據(jù)集建立關(guān)聯(lián)
建立與其他外部數(shù)據(jù)集的廣泛關(guān)聯(lián),便于本地數(shù)據(jù)在不同數(shù)據(jù)集跳轉(zhuǎn),幫助本地數(shù)據(jù)發(fā)現(xiàn)、重用已有資源來擴大本地規(guī)范規(guī)模和完善自身數(shù)據(jù)。目前可選擇關(guān)聯(lián)的與人相關(guān)的開放數(shù)據(jù)有:VIAF(Virtual International Authority File,虛擬國際規(guī)范文檔)和NACO(Name Authority Cooperative Program,名稱規(guī)范合作項目)都聯(lián)合了多國的名稱規(guī)范數(shù)據(jù);BIO本體描述關(guān)于人的傳記類信息,包括出生日期、職業(yè)、事件、地點等信息;Wikipedia可定位關(guān)于人的百科文章;FOAF對人及其所關(guān)聯(lián)的社會網(wǎng)絡(luò)進行描述;Organization本體描述機構(gòu),包括成員、角色和活動等信息[23]。
關(guān)聯(lián)其他數(shù)據(jù)源雖然可通過匹配算法實現(xiàn),仍需要人工修正,因此并不是要關(guān)聯(lián)任何來源數(shù)據(jù),而是根據(jù)一定的標(biāo)準(zhǔn)來選擇:一是該資源被廣泛參考引用,二是該資源信息豐富,可用來完善本地數(shù)據(jù)。
我國名稱規(guī)范維護中的突出問題希望能引起相關(guān)機構(gòu)的關(guān)注及重視,采用相關(guān)方法和措施幫助改善我國名稱規(guī)范維護能力和效率較低下、數(shù)據(jù)質(zhì)量不高的現(xiàn)狀,真正發(fā)揮出名稱規(guī)范控制應(yīng)有的功能及效果。
注 釋:
①白板數(shù)據(jù)為只有著者姓名而無其他信息的數(shù)據(jù)。
②訓(xùn)練數(shù)據(jù)集屬于機器學(xué)習(xí)中語料庫的范疇,通過其可獲得相關(guān)參數(shù)以提高準(zhǔn)確性。
參考文獻 :
[1]曹玉強.國家圖書館中文名稱規(guī)范的探討[J].圖書館建設(shè),2007 (3):46-48.
[2]謝琴芳. CALIS中文名稱規(guī)范數(shù)據(jù)庫建設(shè)方案及其實施進展[J].新世紀(jì)圖書館, 2005(1):3-6.
[3]Research ID[EB/OL]. [2015-08-27]. http://www.researchid.com/.
[4]Scopus Author Identifier [EB/OL]. [2015-08-27]. http://help. scopus.com/Content/h_autsrch_intro.htm.
[5]Author Identifiers[EB/OL]. [2015-08-27]. http://arxiv.org/help/ author_identifiers.
[6]What is ORCID[EB/OL]. [2015-09-18]. http://orcid.org/content/ initiative.
[7]呂英杰, 范 靜, 劉景方. 基于文體學(xué)的中文UGC作者身份識別研究[J]. 現(xiàn)代圖書情報技術(shù), 2013,29(9):48-53.
[8]Baayen H, Halteren H V, Neijt A, et al. An Experiment in Authorship Attribution[C]// In Proceedings of the 6th International Conference on Statistical Analysis of Textual Data. Saint Malo:LED, 2002:29-37.
[9]Soler M. Separating the Articles of Authors with the Same Name[J]. Scientometrics, 2007,72(2):281-290.
[10]Torvik V I, Smalheiser N R. Author Name Disambiguation in MEDLINE[J]. ACM TKDD, 2009,3(3):1-29.
[11]Ferreira A A, Goncalves M A. Laender A H F. A Brief Survey of Automatic Methods for Author Name Disambiguation[J]. SIGMOD Record, 2012,41(2):15-26.
[12]郭 舒. 文獻數(shù)據(jù)庫中作者名自動化消歧方法應(yīng)用研究[J]. 情報雜志, 2013,32(9):132-137.
[13]Han Hui, Zha Hongyuan, Giles C L. Name Disambiguation in Author Citations Using a K-Way Spectral Clustering Method [C]// In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2005:334-343.
[14]任景華. 利用優(yōu)化的DBSCAN算法進行文獻著者人名消歧[J].圖書館理論與實踐, 2014(12):62-68.
[15]Tang Jie, Fong A C M, Wang Bo, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. Knowledge and Data Engineering, 2012,24(6):975-987.
[16]劉 煒.書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J]. 大學(xué)圖書館學(xué)報, 2014(1):5-13.
[17]Ilik V. Cataloger & Makeover: Creating Non-MARC Name Authorities[J]. Cataloging & Classification Quarterly, 2015(53): 382-398.
[18]Report for PCC Task Group on the Creation and Function of Name Authorities in a Non-MARC Environment[EB/OL]. [2015-09-27]. http://www.loc.gov/aba/pcc/rda/RDA%20Task% 2 0grou ps%2 0 and%2 0char ges/R epor t P CC T Gon NameAuthInA_NonMARC_Environ_FinalReport.pdf.
[19]Schreiber G, Raimond Y. PDF 1.1 Primer[EB/OL]. [2015-06-07]. http://www.w3.org/TR/rdf11-primer/.
[20]Simple Knowledge Organization System Reference [EB/OL]. [2015-09-18]. http://www.w3.org/TR/2009/REC-skosreference-20090818/.
[21]Person[EB/OL]. [2015-09-18]. http://schema.org.cn/Person.
[22]Dan B, Libby M. FOAF Vocabulary Specification 0.99[EB/OL]. [2015-09-18]. http://xmlns.com/foaf/spec/.
[23]賈君枝. 開放書目數(shù)據(jù)的實現(xiàn)與發(fā)展[J]. 晉學(xué)圖刊, 2015(1): 1-4.
Study on the New Methods of Personal Name Authority Maintenance
[Key words]Personal name authority maintenance; Self-authority; Automatic author name disambiguation; Open linked data; Non-MARC
[Abstract]Top-down, artificial and closed maintenance mode in our country have seriously affected the name authority maintenance's ability and efficiency, and also affected the effect of authority control. Personal name authority maintenance methods of self-authority based on author interaction, automatic author name disambiguation and open linked data draw the lessons from the contributor identifier in the document database system, automatic authorship identification of machine learning domain and effective information source acquisition, change the status of less quantity, limited coverage and low quality of data in China, resolve the problems of name authority maintenance mode, such as poor maintenance capacity, low efficiency and unable to operate with the outside world, which developing function and effect of the name authority control.
[中圖分類號]G254
[文獻標(biāo)識碼]A
[作者簡介]
郝嘉樹 女,1983年生,現(xiàn)工作于國家圖書館,館員,已發(fā)表論文5篇,參與編寫著作5部。
[ 收稿日期:2015-10-13 ]