游 毅
(廣州大學(xué)圖書館 廣東廣州 510006)
長期以來,館藏資源以良好的信息質(zhì)量、較高的組織水平與開放的可獲取性而成為公共文化服務(wù)體系的重要組成部分。而隨著信息爆炸式增長與用戶自主意識覺醒,館藏分散性、異構(gòu)性、無序性與用戶嚴(yán)苛的信息需求形成了尖銳矛盾,圖書館用戶希望基于內(nèi)在需求一站式獲取本地館藏乃至外部網(wǎng)絡(luò)資源,并以一種關(guān)聯(lián)化和知識化的方式加以組織,從而為關(guān)聯(lián)數(shù)據(jù)的圖書館應(yīng)用提供了現(xiàn)實需求。
2006年7月,“萬維網(wǎng)之父”Tim Berners-Lee提出了關(guān)聯(lián)數(shù)據(jù)概念,力圖探索Web架構(gòu)下發(fā)布結(jié)構(gòu)化數(shù)據(jù)并實現(xiàn)語義關(guān)聯(lián)的最佳實踐,此后由W3C發(fā)起的“開放關(guān)聯(lián)數(shù)據(jù)運(yùn)動”更是吸引了各類信息機(jī)構(gòu)乃至個人參與其中。另一方面,目前圖書館元數(shù)據(jù)無論數(shù)據(jù)格式還是系統(tǒng)架構(gòu)均千差萬別,同時數(shù)據(jù)間由于缺乏語義關(guān)聯(lián)而無法充分發(fā)揮在館藏組織與服務(wù)中的聚合效應(yīng)。針對這一問題,關(guān)聯(lián)數(shù)據(jù)全面支持完整數(shù)據(jù)類型、面向海量語義關(guān)聯(lián)關(guān)系、提供多樣數(shù)據(jù)存取機(jī)制等技術(shù)特性恰恰彌補(bǔ)了現(xiàn)有館藏數(shù)據(jù)的諸多不足,因此有望成為圖書館實現(xiàn)館藏組織與服務(wù)的理想模式。就技術(shù)機(jī)制而言,關(guān)聯(lián)數(shù)據(jù)核心在于RDF資源描述框架基礎(chǔ)上的語義鏈接機(jī)制,從而深入揭示館藏中實體或概念之間多樣化的語義關(guān)聯(lián),并實際承擔(dān)圖書館與外部數(shù)據(jù)間的融合與共享功能。因此,RDF鏈接構(gòu)建機(jī)制在館藏的語義聚合與共享中扮演著重要角色,并由此成為圖書館關(guān)聯(lián)數(shù)據(jù)應(yīng)用重點關(guān)注的問題。
圖書館要實現(xiàn)面向館藏關(guān)聯(lián)數(shù)據(jù)的語義鏈接構(gòu)建,必須明確鏈接對象、鏈接屬性、鏈接類型及構(gòu)建方式等基礎(chǔ)性問題。具體而言,圖書館在語義鏈接構(gòu)建中一方面要明確構(gòu)建基本原則,以便確定合適的鏈接目標(biāo)數(shù)據(jù)集與資源對象并選擇恰當(dāng)?shù)男g(shù)語詞匯作為鏈接屬性,另一方面也要區(qū)分語義鏈接類型并尋找通用高效的構(gòu)建方式,從而為圖書館關(guān)聯(lián)數(shù)據(jù)的鏈接管理奠定方法基礎(chǔ)。
圖書館應(yīng)用關(guān)聯(lián)數(shù)據(jù)的目的之一是利用語義鏈接將分散異構(gòu)的館藏元數(shù)據(jù)及其描述對象聚合在一起,為此需要確定哪些外部數(shù)據(jù)集包含館藏鏈接目標(biāo)數(shù)據(jù),進(jìn)而明確具體鏈接資源對象,此外還要選擇恰當(dāng)?shù)母拍钚g(shù)語作為鏈接屬性,而上述內(nèi)容都需要依據(jù)鏈接構(gòu)建原則作為指導(dǎo)。
首先,圖書館關(guān)聯(lián)數(shù)據(jù)的鏈接構(gòu)建需要選擇數(shù)據(jù)集作為鏈接對象來源,而內(nèi)容權(quán)威性、質(zhì)量穩(wěn)定性與鏈接廣泛性應(yīng)成為選擇目標(biāo)數(shù)據(jù)集的基本原則。具體來講,由于關(guān)聯(lián)數(shù)據(jù)中任意資源URI標(biāo)識都必須保證可解析,即數(shù)據(jù)對象能夠利用HTTP協(xié)議解析為相關(guān)資源的語義描述信息,因此鏈接目標(biāo)數(shù)據(jù)集的權(quán)威性與高質(zhì)量能夠保證館藏從中獲得準(zhǔn)確的語義描述,從而促進(jìn)資源內(nèi)容的可理解性。此外,由于權(quán)威數(shù)據(jù)集已成為關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的核心節(jié)點,因此與之構(gòu)建語義鏈接就等于間接與更多數(shù)據(jù)集形成關(guān)聯(lián)關(guān)系,利用這一擴(kuò)散效應(yīng)就能夠減輕圖書館直接構(gòu)建海量語義鏈接的沉重負(fù)擔(dān)。而從現(xiàn)實角度考慮,目前關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中的諸多高質(zhì)量核心數(shù)據(jù)集都應(yīng)當(dāng)成為圖書館關(guān)聯(lián)數(shù)據(jù)的潛在鏈接對象來源。
其次,圖書館還需要從已確定的目標(biāo)數(shù)據(jù)集中進(jìn)一步明確具體鏈接數(shù)據(jù)對象,從而構(gòu)建資源之間更為精確和富含語義的鏈接關(guān)系。而這一過程中應(yīng)重點考慮以下原則:首先是目標(biāo)數(shù)據(jù)的質(zhì)量如何,一般而言鏈接對象質(zhì)量越高,就越能夠凸顯語義鏈接構(gòu)建的價值;其次是目標(biāo)數(shù)據(jù)能夠為圖書館關(guān)聯(lián)數(shù)據(jù)增加的價值如何,由于圖書館構(gòu)建語義鏈接的核心目的在于增強(qiáng)自身關(guān)聯(lián)數(shù)據(jù)的利用價值,因此鏈接目標(biāo)選擇也應(yīng)圍繞這一目的展開;再次是目標(biāo)數(shù)據(jù)是否具有穩(wěn)定的維護(hù)機(jī)制,關(guān)聯(lián)數(shù)據(jù)動態(tài)性導(dǎo)致的更新變化會影響到指向該數(shù)據(jù)的語義鏈接的有效性,因此穩(wěn)定的維護(hù)機(jī)制能夠保證語義鏈接的持續(xù)有效性;最后是目標(biāo)數(shù)據(jù)是否已具有豐富鏈接,豐富的外部語義鏈接將能夠幫助應(yīng)用程序更好地檢索、發(fā)現(xiàn)與鏈接圖書館關(guān)聯(lián)數(shù)據(jù)并幫助其融入關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。
圖書館關(guān)聯(lián)數(shù)據(jù)在確定鏈接構(gòu)建的目標(biāo)數(shù)據(jù)集與具體數(shù)據(jù)對象之后,還需要選擇概念術(shù)語作為鏈接屬性,從而明確表達(dá)圖書館與外部數(shù)據(jù)集之間的語義關(guān)聯(lián)。一般而言,圖書館關(guān)聯(lián)數(shù)據(jù)在鏈接屬性選擇時需要考慮兩個原則:一是鏈接屬性應(yīng)當(dāng)具有權(quán)威性與通用性,從而避免異構(gòu)屬性詞匯之間的語義映射過程,同時也便于關(guān)聯(lián)數(shù)據(jù)應(yīng)用程序的訪問與解析;二是鏈接屬性應(yīng)當(dāng)具有穩(wěn)定可解析的URI,從而使得關(guān)聯(lián)數(shù)據(jù)應(yīng)用程序能夠?qū)ζ湔{(diào)用和解析并確保語義鏈接乃至整個數(shù)據(jù)網(wǎng)絡(luò)的整體質(zhì)量。具體而言,可選擇LOD開放關(guān)聯(lián)數(shù)據(jù)云中廣泛使用的詞匯集,即使使用生僻名詞術(shù)語作為鏈接屬性也應(yīng)當(dāng)與更為通用的鏈接屬性關(guān)聯(lián)在一起,以便客戶端對語義鏈接的理解與使用。
實際上,語義鏈接構(gòu)建對于任何關(guān)聯(lián)數(shù)據(jù)發(fā)布者而言都是極其困難的任務(wù),原因是一方面在于鏈接類型的多樣化,另一方面則在于構(gòu)建機(jī)制的復(fù)雜性。具體而言,語義鏈接構(gòu)建既涉及語義框架層面概念術(shù)語間的詞匯型鏈接,也包括實體對象層面客觀資源間的關(guān)系型鏈接,同時關(guān)聯(lián)數(shù)據(jù)的內(nèi)容復(fù)雜性也對鏈接構(gòu)建質(zhì)量提出挑戰(zhàn),為此明確語義鏈接構(gòu)建的類型機(jī)制成為圖書館鏈接構(gòu)建首先需要解決的基礎(chǔ)性問題。
如前所述,語義鏈接作為實現(xiàn)關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建與資源共享的核心,從目標(biāo)對象與功能作用上可分為詞匯型鏈接與關(guān)系型鏈接。其中詞匯型鏈接用于關(guān)聯(lián)描述資源內(nèi)容且存在邏輯關(guān)系的概念術(shù)語,從而保證數(shù)據(jù)網(wǎng)絡(luò)語義層面的一致性。而關(guān)聯(lián)數(shù)據(jù)中實體間的關(guān)系型鏈接作為數(shù)據(jù)網(wǎng)絡(luò)的核心骨架,反映的是客觀世界中更為靈活多樣且缺乏規(guī)律的復(fù)雜關(guān)聯(lián)。實際上,當(dāng)前鏈接構(gòu)建復(fù)雜化的重要原因便在于語義框架的異構(gòu)性,即用于資源描述的概念術(shù)語在語義層面難以統(tǒng)一,從而影響到關(guān)聯(lián)數(shù)據(jù)的通用性與可理解性,同時關(guān)系型鏈接的靈活性、主觀性與多元化使得關(guān)系型鏈接的構(gòu)建難度大大增加。
就鏈接構(gòu)建機(jī)制而言,SPARQL查詢與相似度匹配應(yīng)當(dāng)成為語義鏈接構(gòu)建的核心機(jī)制。對于詞匯型鏈接而言,一方面由于概念映射必須實現(xiàn)異構(gòu)術(shù)語詞匯的翻譯轉(zhuǎn)換,因而需要借助SPARQL查詢語言在目標(biāo)數(shù)據(jù)集中查詢鏈接詞匯對象;另一方面存在關(guān)聯(lián)的術(shù)語詞匯必然具有某種語義相似性,因此能夠通過相似度計算實現(xiàn)詞匯型鏈接構(gòu)建,同時信息檢索與自然語言處理領(lǐng)域的相似度算法也能為此提供方法論支撐。對于關(guān)系型鏈接而言,關(guān)聯(lián)數(shù)據(jù)中實體間RDF鏈接構(gòu)建可通過人工或自動機(jī)制來實現(xiàn),其中人工構(gòu)建機(jī)制可利用SPARQL查詢方式確定目標(biāo)數(shù)據(jù)集中可供關(guān)聯(lián)的對象URI,而半自動或自動鏈接構(gòu)建則是基于資源URI結(jié)構(gòu)相似性或?qū)傩韵嗨贫葋韺崿F(xiàn)。目前來看,關(guān)系型鏈接構(gòu)建中最重要的仍是基于屬性相似度的自動構(gòu)建機(jī)制,即利用算法工具對鏈接資源對象的特征屬性進(jìn)行相似度判斷,從而創(chuàng)建圖書館與外部數(shù)據(jù)集中實體間的語義鏈接。
圖書館關(guān)聯(lián)數(shù)據(jù)力圖使用通用體系標(biāo)準(zhǔn)發(fā)布與關(guān)聯(lián)各類開放數(shù)據(jù)集并使之成為滿足共享要求的數(shù)據(jù)資源,而語義鏈接構(gòu)建正是其實現(xiàn)開放共享應(yīng)用的關(guān)鍵。因此圖書館需要在關(guān)聯(lián)數(shù)據(jù)開放發(fā)布基礎(chǔ)上構(gòu)建指向外部數(shù)據(jù)集的詞匯型鏈接與關(guān)系型鏈接,以便用戶及應(yīng)用程序能夠在館藏與外部資源間自由跳轉(zhuǎn),并促進(jìn)圖書館關(guān)聯(lián)數(shù)據(jù)的自由發(fā)現(xiàn)與融合。
各類關(guān)聯(lián)數(shù)據(jù)由于選擇的語義模型與發(fā)布方法存在差異,使得其資源描述中對于概念術(shù)語的選擇具有不同傾向,進(jìn)而造成數(shù)據(jù)集間語義框架的不一致,同時也會對關(guān)系型鏈接構(gòu)建造成障礙?;诖?,館藏描述詞匯與外部通用概念間的語義關(guān)聯(lián)發(fā)現(xiàn)就成為圖書館鏈接構(gòu)建的首要內(nèi)容。
3.1.1 基于SPARQL查詢的鏈接構(gòu)建
SPARQL語言是W3C面向RDF數(shù)據(jù)查詢的候選推薦標(biāo)準(zhǔn),其典型應(yīng)用便是通過術(shù)語模式查詢從目標(biāo)數(shù)據(jù)集中尋找符合鏈接要求的RDF術(shù)語變量,以此作為關(guān)聯(lián)數(shù)據(jù)詞匯型鏈接的關(guān)聯(lián)對象,其針對目標(biāo)數(shù)據(jù)集中術(shù)語詞匯的SPARQL查詢語句結(jié)構(gòu)可表達(dá)為:
基于上述SPARQL查詢模式能夠發(fā)現(xiàn)基于特定語義結(jié)構(gòu)的關(guān)聯(lián)關(guān)系并支持各種屬性詞匯的深度查詢,而在此基礎(chǔ)上通過CONSTRUCT陳述結(jié)構(gòu),圖書館關(guān)聯(lián)數(shù)據(jù)就能夠?qū)崿F(xiàn)館藏描述術(shù)語與外部通用概念之間的映射關(guān)聯(lián),即將館藏術(shù)語結(jié)構(gòu)作為外部數(shù)據(jù)集中SPARQL術(shù)語模式查詢的約束條件,同時CONSTRUCT語句還支持與其他SPARQL查詢條件的混合使用。
綜上可見,基于SPARQL查詢的鏈接構(gòu)建較之詞匯間的復(fù)雜映射規(guī)則編制更為簡單直接,同時也能發(fā)揮關(guān)聯(lián)數(shù)據(jù)RDF模型與SPARQL查詢優(yōu)勢。例如,圖書館可以利用CONSTRUCT語句實現(xiàn)書目數(shù)據(jù)集中作者屬性bib:author與外部FOAF數(shù)據(jù)集中人物屬性foaf:person之間的語義關(guān)聯(lián)發(fā)現(xiàn),并在書目數(shù)據(jù)集中產(chǎn)生指向FOAF數(shù)據(jù)集的映射實例:
3.1.2 基于術(shù)語相似度的鏈接構(gòu)建
關(guān)聯(lián)數(shù)據(jù)的術(shù)語詞匯從本質(zhì)上可視為通用或領(lǐng)域本體,因此基于本體映射的術(shù)語相似度可以成為詞匯型鏈接構(gòu)建的重要途徑。所謂本體映射,是指利用本體間語義級映射與相似度計算來揭示概念間關(guān)聯(lián)關(guān)系的過程,從而為圖書館與外部數(shù)據(jù)集間異構(gòu)術(shù)語詞匯的鏈接構(gòu)建提供依據(jù)。
具體而言,基于本體映射的術(shù)語相似度計算能夠在詞匯語法、概念定義、概念實例與概念結(jié)構(gòu)多個層面實現(xiàn)。基于語法的術(shù)語相似度通過計算術(shù)語間的編輯距離來判斷其是否存在語義關(guān)聯(lián),其中編輯距離是指術(shù)語名稱字符串之間實現(xiàn)完全形式轉(zhuǎn)換所需的最小編輯操作數(shù)目,具體編輯操作包括字符插入、刪除、調(diào)換、替換等,同時由于該相似度計算過程實際就是編輯操作的求解最優(yōu)化問題,因此相應(yīng)算法包括Diogene算法或本體比較算法等。應(yīng)當(dāng)說,基于語法的術(shù)語相似度具有最佳的適用性與有效性,但另一方面語義深度的欠缺使得鏈接準(zhǔn)確性難以盡如人意。與之相比,基于概念定義的術(shù)語相似度是依據(jù)概念的名稱、關(guān)聯(lián)關(guān)系、約束條件等定義信息,將不同類型定義信息作為獨立要素分別計算相似度,進(jìn)而利用加權(quán)平均方法對要素相似度匯總以得到最終的語義相似度??陀^來講,通過比較概念多重屬性的語義相似度計算在鏈接構(gòu)建中具有更高的準(zhǔn)確性,但在缺乏豐富定義信息的情況下其效果往往不盡人意。除上述方法外,基于概念實例的術(shù)語相似度是從擁有相同實例的概念可能具有相似性這一假設(shè)出發(fā),以概念實例的概率分布為依據(jù)來計算相似度,例如可通過機(jī)器學(xué)習(xí)等方式對實例進(jìn)行自動統(tǒng)計從而獲得其聯(lián)合概率分布,進(jìn)而利用相應(yīng)函數(shù)確定概念間的語義相似度,其中實例完全相同的概念術(shù)語間相似度為1,完全不同則取值為0。由于該方法是基于概念的豐富實例信息來計算相似度,因而能深入語義層次,但同時也表現(xiàn)出對概念實例完備性的過度依賴。最后,基于概念結(jié)構(gòu)的術(shù)語相似度計算是基于概念間的語義層次結(jié)構(gòu),通過其中蘊(yùn)含的潛在語義信息來揭示詞匯間的語義關(guān)聯(lián)。例如術(shù)語詞匯間在結(jié)構(gòu)上存在的上下位以及整體局部等關(guān)聯(lián)均可定義在以某一核心概念為中心且半徑為r的語義輻射范圍內(nèi),其中語義半徑r取值能夠反映出概念與核心概念間的語義關(guān)聯(lián)程度。然而,目前單純依靠概念結(jié)構(gòu)信息的術(shù)語相似度仍然缺乏精確性,同時具體算法也有待成熟完善。
綜上可見,基于本體映射的術(shù)語相似度算法在擁有各自優(yōu)勢的同時也表現(xiàn)出自身局限性,因此在圖書館關(guān)聯(lián)數(shù)據(jù)的鏈接構(gòu)建中需要將各相似度取值分別作為語義關(guān)聯(lián)影響因子,進(jìn)而通過影響因子的權(quán)重匯總來提高鏈接構(gòu)建準(zhǔn)確性。
圖書館關(guān)聯(lián)數(shù)據(jù)在語義鏈接構(gòu)建中更為核心的還是實體間的關(guān)系型鏈接,這也是館藏對象與外部資源實現(xiàn)語義聚合最為直接的途徑。關(guān)系型鏈接的構(gòu)建需要借助屬性匹配或相似度計算來發(fā)現(xiàn)實體關(guān)聯(lián),而面向RDF數(shù)據(jù)對象的SPARQL查詢與基于信息檢索的文本相似度匹配能夠為此提供可能途徑。
3.2.1 基于SPARQL查詢的鏈接構(gòu)建
目前關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中大量數(shù)據(jù)集均能夠提供基于SPARQL端口的數(shù)據(jù)查詢,因此圖書館可以基于此在外部數(shù)據(jù)集中尋找與館藏存在語義相似性的資源對象,進(jìn)而判斷和構(gòu)建二者間的關(guān)系型鏈接。如針對圖書館數(shù)據(jù)集D與外部數(shù)據(jù)集D,若要在D與D的實體之間構(gòu)建關(guān)系型鏈接,首先可以通過如下SPARQL語句針對特定資源文本屬性i進(jìn)行語義查詢:
如果能在D與D中分別查詢到具有屬性i的資源r與r,那么就可以利用RDF鏈接將二者關(guān)聯(lián)起來,而如果數(shù)據(jù)集中針對文本屬性i的查詢結(jié)果均不存在,那么就可以認(rèn)為圖書館與外部數(shù)據(jù)集面向該屬性不存在語義關(guān)聯(lián)。盡管基于SPARQL查詢的語義關(guān)聯(lián)發(fā)現(xiàn)適用于圖書館與外部數(shù)據(jù)集間語義鏈接的初步構(gòu)建,但由于屬性查詢實際返回的資源可能不止一個,因而無法為資源相似度判斷提供足夠的辨識度。為此可在SPARQL查詢中增加目標(biāo)資源類型或URI格式等限制條件。如在圖書館書目數(shù)據(jù)集與外部數(shù)據(jù)集DBpedia間尋找語義關(guān)聯(lián)時,可在查詢DBpedia中圖書資源時對類型屬性進(jìn)行如下限定:
如上所述,實體間的語義鏈接構(gòu)建能夠利用SPARQL查詢中的限制條件來提高關(guān)聯(lián)結(jié)果的指向性與辨識度。然而面對圖書館關(guān)聯(lián)數(shù)據(jù)中的海量鏈接對象,基于SPARQL查詢的鏈接構(gòu)建方式雖然能夠提供較強(qiáng)可操作性與較小實現(xiàn)難度,但卻缺乏足夠的執(zhí)行效率,因此難以滿足海量語義鏈接的構(gòu)建要求,而基于文本相似度匹配的相關(guān)性檢索方法恰恰能夠通過關(guān)聯(lián)數(shù)據(jù)背景下的擴(kuò)展延伸為此提供可能途徑。
3.2.2 基于文本相似度匹配的鏈接構(gòu)建
實際上,由于關(guān)聯(lián)數(shù)據(jù)中任意資源都需要提供包括文本屬性在內(nèi)的語義描述,因此如果在語義框架一致性基礎(chǔ)上對不同數(shù)據(jù)集中資源的同類屬性進(jìn)行相似度匹配,就能夠判斷二者之間是否具有關(guān)聯(lián)并利用語義鏈接標(biāo)識其關(guān)聯(lián)關(guān)系。
總體而言,無論采用何種文本相似度匹配算法都應(yīng)滿足可延展性與高精確度兩項基本要求。可延展性是指相似度算法能夠根據(jù)文本屬性字符串長度進(jìn)行延展,使之適應(yīng)任意長度字符串間的精確匹配,如普遍使用的qgrams策略是依據(jù)連續(xù)字符序列單元長度q將屬性字符串切分為若干字符單元,其中q可以依據(jù)延展需要自行調(diào)整,如字符串r=“dblab”可在q=2的設(shè)定下被切分為r={‘d’,‘db’,‘b’,‘bl’,‘l’,‘la’,‘a(chǎn)’,‘a(chǎn)b’,‘b’}多個字符單元,進(jìn)而通過每個字符單元賦予相似度權(quán)重以計算整個字符串的相似度。高精確度是指相似度匹配算法能夠準(zhǔn)確判斷資源屬性間是否具有語義關(guān)聯(lián),這一方面取決于算法自身性能,另一方面也與相似度閾值設(shè)置有關(guān)。具體而言,用于關(guān)系型鏈接構(gòu)建的文本相似度匹配算法基本原理均是將圖書館數(shù)據(jù)集中館藏屬性字符串r作為源數(shù)據(jù),將相關(guān)數(shù)據(jù)集中資源屬性字符串r作為目標(biāo)數(shù)據(jù),進(jìn)而計算二者的語義相似度,具體算法包括Edit Similarity算法、基于信息檢索的相似度算法、隱馬爾科夫模型算法等。
(1)Edit Similarity算法。該算法通過計算字符串間的編輯距離來實現(xiàn)文本屬性的相似度匹配,其中館藏文本屬性源字符串r與外部實體屬性字符串r之間的編輯距離可表示為 tc(r,r),具體指代借助字符復(fù)制、插入、刪除、替代等編輯操作將r轉(zhuǎn)換為r所需的最小成本。基于此,屬性字符串r與r的編輯相似度可進(jìn)一步定義為:
由于屬性字符串的編輯距離與具體編輯操作有關(guān),因此針對編輯相似度算法也擁有多種編輯距離模型,其中最常見的是Levenshtein編輯距離,即對于復(fù)制以外的其他編輯操作均以單位成本1賦值,而復(fù)制操作則賦值為零,并據(jù)此判斷文本屬性是否存在語義關(guān)聯(lián)。
(2)基于信息檢索的cosine算法。該算法源于信息檢索領(lǐng)域的一個基本問題,即在給定查詢語句和一組源文件的情況下如何查詢最為相關(guān)的文件對象,而如果將館藏與外部資源的屬性字符串均視為信息檢索算法中的查詢文件,將依據(jù)q-gram策略切分的字符單元視為文件中的語詞,那么就能將文件相關(guān)性檢索技術(shù)用于文本屬性相似性匹配中。具體而言,基于tf-idf加權(quán)的cosine相似性是基于向量空間模型的相似性測度方法,利用該方法能夠?qū)^藏屬性r與目標(biāo)資源屬性r分別轉(zhuǎn)換為單位向量,進(jìn)而通過測度字符串對應(yīng)向量之間的矢量角來確定其相似距離,具體cosine相似性函數(shù)為:
其中r(t)與r(t)分別為屬性字符串r與r中每一個相同字符的標(biāo)準(zhǔn)化tf-idf權(quán)重,例如r的標(biāo)準(zhǔn)化tf-idf權(quán)重可定義為:
其中tf(t)為字符t在字符串r中的出現(xiàn)頻率,而idf(t)則為整個字符串集合R的倒排文檔頻率。
(3)隱馬爾科夫模型。圖書館與外部數(shù)據(jù)集中資源文本屬性相似度匹配還能利用離散隱馬爾科夫模型進(jìn)行建模,該模型能夠計算目標(biāo)對象屬性字符串r與館藏屬性字符串r存在相似性的概率函數(shù):
其中a與a是馬爾科夫模型中的狀態(tài)轉(zhuǎn)換概率且a=1-a,P(t|GE)與 P(t|r)分別定義為函數(shù):
利用該算法進(jìn)行屬性相似度匹配的優(yōu)勢在于能夠在關(guān)系型數(shù)據(jù)庫中使用標(biāo)準(zhǔn)SQL查詢語句,因此在目前關(guān)聯(lián)數(shù)據(jù)集主要由關(guān)系型數(shù)據(jù)庫利用D2R方式實現(xiàn)發(fā)布的背景下具有很強(qiáng)的可操作性與應(yīng)用空間。
綜上可見,利用文本相似度匹配算法能夠?qū)崿F(xiàn)圖書館與外部關(guān)聯(lián)數(shù)據(jù)集之間基于屬性相似度的語義鏈接構(gòu)建。例如在q-grams文本單元切分策略中設(shè)定q=2(相關(guān)研究表明該取值具有最好的匹配準(zhǔn)確度),圖書館可以選擇館藏數(shù)據(jù)集中題名屬性為特征文本屬性,并確定適當(dāng)?shù)南嗨贫人惴ㄅc目標(biāo)數(shù)據(jù)集中同類資源的文本屬性進(jìn)行字符串匹配,最后借助預(yù)先設(shè)定的閾值θ對其屬性相似度進(jìn)行判斷,如果資源間屬性相似度超過θ值則構(gòu)建二者的語義鏈接。
關(guān)聯(lián)數(shù)據(jù)的語義特性與聚合功能有賴于RDF數(shù)據(jù)模型下資源間無處不在的語義鏈接。正是由于數(shù)據(jù)集間存在包含多種關(guān)聯(lián)屬性的RDF鏈接,才使得多元化創(chuàng)建與分布式管理的關(guān)聯(lián)數(shù)據(jù)能夠聚合成為統(tǒng)一的語義網(wǎng)絡(luò)?;诖?,圖書館關(guān)聯(lián)數(shù)據(jù)需要面向海量外部數(shù)據(jù)集構(gòu)建復(fù)雜多樣的語義鏈接,從而更好地融入數(shù)據(jù)網(wǎng)絡(luò)之中以提高其可發(fā)現(xiàn)性,并促進(jìn)復(fù)雜館藏實體對象的標(biāo)識控制與內(nèi)容表達(dá)。同時,通過館藏實體資源與外部網(wǎng)絡(luò)資源的深度關(guān)聯(lián),能夠幫助館藏共享突破傳統(tǒng)圖書館物理限制,最終營造出覆蓋全球信息資源的廣義館藏空間。
然而必須承認(rèn),與面向異構(gòu)數(shù)據(jù)類型與用戶多元需求的關(guān)聯(lián)數(shù)據(jù)發(fā)布相比,語義鏈接的構(gòu)建方法與自動化工具仍然相對匱乏,同時無論基于SPARQL查詢抑或相似度匹配的語義鏈接構(gòu)建都還無法滿足復(fù)雜多樣的關(guān)系型鏈接構(gòu)建需求。因此,語義鏈接高效構(gòu)建已成為關(guān)聯(lián)數(shù)據(jù)發(fā)展亟待解決的重點問題,同時也應(yīng)當(dāng)成為今后圖書館關(guān)聯(lián)數(shù)據(jù)應(yīng)用所應(yīng)著力研究的關(guān)鍵。
[1]EuzenatJ,Shvaiko P.Ontology matching [EB/OL].[2013-11-20].http://homes.cs.washington.edu/hois.pdf.
[2]Scharffe F,F(xiàn)ensel D.Correspondence patterns for ontology alignment[A].Knowledge Engineering:Practice and Patterns[M].Springer Berlin Heidelberg,2008:83-92.
[3]Anhai D,Jayant M,et al.Learning to map between ontologies on the semantic web[A].Proceeding of 11th International WorldWide Web Conference[C].2002.
[4]Rodriguez A.Determining semantic similarity among entity classes from different ontologies [J].Knowledge and Data,2003,37(02):24-31.
[5]Doan A H,Madhavan J,et al.Learning to map between ontologies on the semantic web [A].Proceedings of the 11th international conference on World Wide Web[C].ACM,2002:662-673.
[6]Sekine S,Sudo K,et al.Statistical matching of two ontologies[A].Proceedings of ACL SIGLEX99 Workshop:Standardizing Lexical Resources[C].ACM,1999:134-141.
[7]Arasu A,Ganti V,et al.Efficient exact set-similarity joins[A].Proceedings of the 32nd international conferen ce on Very large data bases[C].VLDB Endowment,2006:918-929.
[8]Bhattacharya I.Collective entity resolution in relational data[J].IEEE Data Engineer,2006,23(2):4-12.
[9]Hausenblas M,Halb W.Interlinking of resources with semantics[A].Poster at the 5th European Semantic Web Conference[C].W3C,2008:234-245.