金家琴,夏翠娟
“本體(Ontology)是對概念體系的明確的、形式化、可共享的規(guī)范說明”,“本體是領(lǐng)域知識規(guī)范的抽象和描述,表達、共享、重用知識的方法”。本體構(gòu)建的目的是領(lǐng)域知識的共享和重用,標準化和形式化的領(lǐng)域本體,能夠為信息系統(tǒng)之間的高層互操作提供很好的工具[1]。近年來,在跨領(lǐng)域知識共享和重用的需求推動下,本體成為語義網(wǎng)環(huán)境下知識組織和數(shù)據(jù)語義化表達的關(guān)鍵技術(shù),被廣泛應(yīng)用于關(guān)聯(lián)數(shù)據(jù)(Linked Data)和知識圖譜(Knowledge Graph)技術(shù)中,以實現(xiàn)互聯(lián)網(wǎng)環(huán)境下領(lǐng)域知識的語義互操作。
機構(gòu)(Organization)在管理學中被定義為“由若干個人或群體所組成的、有共同目標和一定邊界的社會實體”。在關(guān)聯(lián)數(shù)據(jù)和知識圖譜中,機構(gòu)被作為一種命名實體(Name Entity),為每一個機構(gòu)賦予URI,用機器可理解的形式化語言來表示機構(gòu)的各種特性和與人、地、時、事等其他命名實體之間的關(guān)系,在數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建中有著重要的作用。因而,設(shè)計一套靈活可擴展的機構(gòu)本體模型和詞表是不可回避的問題。機構(gòu)的名稱、人員、所在地、層級關(guān)系和歷史沿革、變遷等屬性特征以及各機構(gòu)實體間的相互關(guān)系等,包含著復(fù)雜的語義信息。在關(guān)系數(shù)據(jù)庫模型中,實體和實體間的各種聯(lián)系均用二維表表示,一個關(guān)系就是一個二維表,這種單一的數(shù)據(jù)結(jié)構(gòu)在存取數(shù)據(jù)時效率非常高,但同時也丟失了大量的語義信息,無法實現(xiàn)數(shù)據(jù)的語義化表達。而本體作為一種共享概念模型的明確的形式化描述,為信息提供了語義表示機制。
國內(nèi)機構(gòu)本體方面的研究和實踐有限,構(gòu)建主體集中于科研機構(gòu)。理論研究多與機構(gòu)規(guī)范檔以及描述元數(shù)據(jù)相關(guān),實踐研究多是探索如何利用本體技術(shù)構(gòu)建本機構(gòu)本體知識庫和信息檢索系統(tǒng)。胡雪環(huán)對科研機構(gòu)的屬性及內(nèi)外部層級結(jié)構(gòu)等信息進行分析、定義與描述,基于此構(gòu)建科研機構(gòu)本體推理規(guī)則[2]。馮微峰構(gòu)建圖情機構(gòu)功能本體,基于OWL(Web Ontology Language)形式化后具有邏輯推理的功能[3]。呂翔分析國防工業(yè)機構(gòu)主要組織框架的層級結(jié)構(gòu),介紹了如何通過復(fù)用現(xiàn)有本體構(gòu)建國防工業(yè)機構(gòu)與產(chǎn)品領(lǐng)域本體的整體流程[4]。以上研究與實踐多面向特定需要,但對于如何構(gòu)建一套通用的、可擴展、可復(fù)用的機構(gòu)本體模型,尚未形成完整的本體詞表和系統(tǒng)性的構(gòu)建方法。
國外以機構(gòu)為核心描述對象的本體研究在2000 年左右發(fā)展起來,但多數(shù)機構(gòu)本體的構(gòu)建是依據(jù)具體的實踐項目需求,面向應(yīng)用場景而開發(fā),機構(gòu)信息多是政府數(shù)據(jù)或企業(yè)信息集成數(shù)據(jù)[2]。例如,TOVE(Toronto Virtual Enterprise)是一個適合企業(yè)建模的集成本體框架的項目,TOVE本體描述了企業(yè)結(jié)構(gòu)的基本元素:組織結(jié)構(gòu)、活動、角色、目標、團隊、權(quán)利和義務(wù)等信息,通過授權(quán)將機構(gòu)與行為聯(lián)系起來[5]。以W3C核心機構(gòu)本體(Core Organization Ontology)為代表的通用機構(gòu)本體的研究起步較晚。2009年5月,美國政府數(shù)據(jù)網(wǎng)站data.gov 上線,各國政府紛紛加入“政府開放數(shù)據(jù)”運動,萬維網(wǎng)上各種各樣的數(shù)據(jù)集越來越多。英國政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data(GLD)Working Group)(現(xiàn)已關(guān)閉)發(fā)現(xiàn)本體為不同的政府機構(gòu)的信息關(guān)聯(lián)數(shù)據(jù)發(fā)布提供了很好的解決方案,聯(lián)合英國的Epimorphics公司開發(fā)了一個通用的、可重用的核心機構(gòu)本體。該本體不提供組織類型、組織目的或角色的類別結(jié)構(gòu),僅提供允許擴展添加所需的特定子類結(jié)構(gòu)或分類方案所需的核心基礎(chǔ)概念[6]。之后W3C在此基礎(chǔ)上作了多次修改和完善,正式發(fā)布推薦標準“核心機構(gòu)本體ORG”,命名空間為http://www.w3.org/ns/org#。此外,很多數(shù)據(jù)框架和通用本體也為“機構(gòu)”專門定義了可復(fù)用的術(shù)語。比如,Schema:Organization 是學校、NGO組織、公司和教育機構(gòu)等各類型常用機構(gòu)的信息詞表(rdfs:comment“Anorganization such as a school,NGO,corporation,club,etc.”@en)[7]。DBpedia 本體是一個涵蓋多領(lǐng)域的通用本體,dbo:Organization類及其屬性是一套通用的組織框架數(shù)據(jù)集[8]。vcard 本體專注于描述人員和組織,vcard:Organization 與 foaf:Organization、ORG之間存在一些重疊,但它們都可以單獨提供有用的詞匯表,并且在協(xié)作使用時也可以提供增強的信息[9]。
機構(gòu)本體建模的難點在于對機構(gòu)之間復(fù)雜的關(guān)系和機構(gòu)歷史沿革的描述和揭示,如上下級關(guān)系、合作關(guān)系,由分裂、并購、重組、遷址等事件導致的關(guān)系,機構(gòu)與機構(gòu)成員之間的關(guān)系。隨著時間的推移,包括組織結(jié)構(gòu)、人員、角色、權(quán)限和組織目標等在內(nèi)的機構(gòu)的各種要素和各類關(guān)系,都可能在某些事情的推動下發(fā)生變化,如政府機構(gòu)為了提高行政效率,在橫向上撤并和整合一些職能相近的機構(gòu)。機構(gòu)本體模型的設(shè)計需要考慮簡捷通用,靈活可擴展,本體詞表的設(shè)計則需要定義詞匯或術(shù)語來描述隨著時間的變化、機構(gòu)發(fā)生的變化信息以及原始機構(gòu)和最終機構(gòu)之間的關(guān)系,而目前以機構(gòu)為核心描述對象的本體詞表大多只是定義和描述了一套適用于各類型機構(gòu)本身特性的框架數(shù)據(jù)集。雖然ORG本體定義了org:ChangeEvent 類和屬性org:originalOrganization、org:changedBy、org:resultedFrom、org:resultingOrganization 來描述機構(gòu)變革的歷史信息(如表1所示)。org:ChangeEvent 類代表一個導致機構(gòu)發(fā)生重大變化的事件,但只適用于最終機構(gòu)與原始機構(gòu)完全不同的情況,對于事件發(fā)生的時間、地點、人物、關(guān)聯(lián)事件以及由事件所引發(fā)的機構(gòu)與機構(gòu)的關(guān)系變化(如resulting Organization與originalOrganization的關(guān)系)、機構(gòu)內(nèi)人員/角色的變化等信息缺乏必要的描述[10]。
表1 W3C的ORG本體中描述機構(gòu)變化事件的屬性
本文的研究目的就是在現(xiàn)有機構(gòu)本體研究和技術(shù)發(fā)展的基礎(chǔ)上,借鑒領(lǐng)域知識本體的構(gòu)建方法,對機構(gòu)實體、機構(gòu)中的人物和角色、事件及其相互關(guān)系進行明確的、形式化的揭示和描述,嘗試構(gòu)建一個在萬維網(wǎng)上通用的、易于復(fù)用、靈活可擴展的機構(gòu)本體模型和詞表。除了定義和描述各類機構(gòu)的基本框架要素,如組織架構(gòu)、人員/角色、位置地點等,還記錄引起機構(gòu)發(fā)生變化的事件,支持機構(gòu)內(nèi)外各種要素的變化信息,如機構(gòu)變革、層級結(jié)構(gòu)的調(diào)整、歷史傳承,通過各種關(guān)系屬性將機構(gòu)和機構(gòu),機構(gòu)和人員/角色聯(lián)系起來,描述機構(gòu)和機構(gòu)(包含機構(gòu)層級結(jié)構(gòu)中的各個子機構(gòu))之間的關(guān)系、人員/角色在機構(gòu)內(nèi)的關(guān)系變化等。
本體常常表現(xiàn)為一套體系化的術(shù)語詞表及其相互之間關(guān)系描述,應(yīng)包括每一個術(shù)語的明確定義及其關(guān)系,術(shù)語分為類(Class)和屬性(Property)兩種,類是對同一類實體對象的抽象,OWL將屬性分為數(shù)據(jù)屬性(DataProperty)和對象屬性(ObjectPropery),數(shù)據(jù)屬性是對類的各種特征的抽象,對象屬性用于表示類與類之間的關(guān)系[11]。盡可能復(fù)用現(xiàn)有的本體詞表(包含類和屬性)是構(gòu)建本體的一個重要的參考原則,如W3C核心機構(gòu)本體ORG詞表就復(fù)用了FOAF、GR、OPMV、ORG、TIME、VCARD等詞匯標準。本研究基于核心機構(gòu)本體模型構(gòu)建上海圖書館機構(gòu)本體,復(fù)用ORG、foaf和Schema,在上海圖書館現(xiàn)有本體的基礎(chǔ)上擴展反映機構(gòu)間復(fù)雜關(guān)系和各種歷史沿革和變化的術(shù)語,形成一套通用的、靈活可擴展的機構(gòu)本體模型和詞表。
W3C核心機構(gòu)本體ORG是英國政府關(guān)聯(lián)數(shù)據(jù)工作組倡議的一部分,支持跨領(lǐng)域機構(gòu)信息的關(guān)聯(lián)數(shù)據(jù)發(fā)布。ORG本體不定義描述組織類型、組織目的或角色等具體的術(shù)語詞匯,只提供所需的核心基礎(chǔ)概念,鼓勵用戶復(fù)用和擴展,允許不同機構(gòu)根據(jù)實際情況擴展添加具體的子類和屬性[12]。ORG本體詞表目前共定義了9個類,35個屬性,描述組織結(jié)構(gòu)、上下級負責(reportTo)關(guān)系結(jié)構(gòu)、組織地點和組織歷史等信息[13]。ORG本體的核心類是org:Organization,對所能描述的組織機構(gòu)類型沒有明確限制,意味著與具體領(lǐng)域無關(guān)。
除了上文提到的org:ChangeEvent 類外,核心機構(gòu)本體ORG本體定義了豐富的類和屬性來描述各類機構(gòu)的層級架構(gòu)關(guān)系[14]。org:Formal Organization 是 org:Organization 的 一 個 子 類 ,表示在全世界范圍內(nèi),法律公認的具有相關(guān)權(quán)利和責任的組織機構(gòu)。機構(gòu)的層級架構(gòu)是完全開放的。例如,一個org:FormalOrganization實體可以自由地與其他org:FormalOrganization實體建立包含或被包含的層級關(guān)系。如果某機構(gòu)由層級架構(gòu)中的其他組織組成,可以通過org:subOrganizationOf 和org: hasSubOrganization這兩個關(guān)系來明確各層次之間的關(guān)系。在某些情況下,機構(gòu)的部門或者分支(org:OrganizationalUnit)也可以是獨立機構(gòu),例如法律認可的企業(yè)可能是較大集團或控股公司的一部分,org:hasUnit 和org:unitOf兩個屬性就用來表示機構(gòu)擁有分支或者職能部門。ORG 本體還提供了成員關(guān)系(org:Membership)來描述人員/機構(gòu)與機構(gòu)之間的非包含關(guān)系,org:memberOf表示某個人或者機構(gòu)是更大機構(gòu)的直接成員,org:headOf 代表了機構(gòu)的負責人。ORG 本體的核心基礎(chǔ)概念是解決異構(gòu)數(shù)據(jù)差異的解決方案,為設(shè)計通用的一般模型提供了基礎(chǔ)框架。
圖1 W3C核心機構(gòu)本體ORG模型
上海圖書館數(shù)字人文項目團隊擁有多年的本體研究、設(shè)計和應(yīng)用經(jīng)驗。上海圖書館數(shù)字人文開放數(shù)據(jù)平臺(http://data.library.sh.cn/)以關(guān)聯(lián)數(shù)據(jù)(Linked Data)的方式向互聯(lián)網(wǎng)公開發(fā)布了上圖數(shù)字人文項目所研發(fā)的各種本體詞表,并提供各種數(shù)據(jù)消費接口供開發(fā)人員調(diào)用[15],包含130萬余人物的人名規(guī)范庫和2,000余收藏機構(gòu)的機構(gòu)名錄、地名詞表、中國歷史紀年表等基礎(chǔ)知識庫,是上海圖書館數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的重要組成部分,為上海圖書館的家譜、手稿檔案、古籍、紅色文獻、老電影、館藏書目等文獻知識庫提供跨網(wǎng)域的數(shù)據(jù)連接,同時在萬維網(wǎng)上以HTTP URI 內(nèi)容協(xié)商,restful API 和 SPARQL Endpoint為其他圖書館、研究者和第三方開發(fā)者提供開放數(shù)據(jù)服務(wù)。在構(gòu)建這些基礎(chǔ)知識庫和文獻知識庫時,秉承在復(fù)用現(xiàn)有本體詞表的基礎(chǔ)上擴展的原則形成了一體化的上海圖書館本體模型和詞表(見圖2,命名空間前綴為:shl),定義了“人(shl:Person)”“機構(gòu)(shl:Organization)”“地(shl: Place)”“時 (shl: Time)”“ 事 (shl: Event)”“物(shl:PhysicalObject)”等類和屬性。繼承和復(fù)用BIBFRAME、FOAF、ORG、Schema.org、GeoNames、PROV 本體模型和部分術(shù)語。shl:Organization 類 繼 承 foaf: Organization, org:Organization,并與shl:Person,shl:Event建立了關(guān)系。其中,shl:Event復(fù)用PROV本體的兩個屬性(prov:started AtTime 和prov:endedAtTime)描述事件發(fā)生結(jié)束的事件,復(fù)用prov:Agent來描述事件發(fā)生的主體(包括機構(gòu)和人),利用圖1本體中自定義的頂層類shl: Resource 的對象屬性shl:place 用于描述事件發(fā)生的地點。shl:Event類可用于描述shl:Organization類相關(guān)的各類事件。上海圖書館本體中已有的機構(gòu)相關(guān)類和屬性已用于描述上海圖書館數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施中的文化記憶機構(gòu)名錄、盛宣懷檔案知識庫中的公司及其簡單的歷史沿革信息、上海市聯(lián)合編目中心書目數(shù)據(jù)中的出版機構(gòu)、老電影知識庫中的電影公司等[16]。
圖2 上海圖書館本體模型
由于上海圖書館已有本體模型和詞表尚不足以描述機構(gòu)間復(fù)雜的關(guān)系和機構(gòu)的歷史變遷信息,因而需要進一步擴展。在機構(gòu)實體中,“機構(gòu)”和“人”都是機構(gòu)管理的主要對象,“事件”則是機構(gòu)及人所發(fā)生的各種歷史沿革變遷的信息集合體,所以本研究構(gòu)建的上海圖書館機構(gòu)本體以“機構(gòu)(shl:Organization)”“人(shl:Person)”“事(shl:Event)”為三大核心類。其中,shl:Organization類描述機構(gòu)實體,需要描述機構(gòu)的組織架構(gòu)、組織分類、機構(gòu)的各種特性等;shl:Person 類則表示機構(gòu)中的成員,需要描述成員的基本信息、在機構(gòu)中的角色等;shl:Event描述組織沿革、活動信息和人的角色、關(guān)系變動信息等。同時,定義一系列屬性來表達三者之間的關(guān)系,將“機構(gòu)”和“機構(gòu)”、“人”和“人”、“機構(gòu)”和“人”、“機構(gòu)”和“事件”、“人”和“事件”關(guān)聯(lián)起來。
現(xiàn)有的機構(gòu)本體詞表對“機構(gòu)”O(jiān)rganization的基本信息都有相應(yīng)的類和屬性的描述,可以直接繼承和復(fù)用,定義shl:Organization 類繼承org:Organization 類 、schema:Organization 類和foaf:Organization類,以便于可以復(fù)用這3個父類的所有屬性(如表2所示)。
表2 上海圖書館機構(gòu)本體核心類
2.3.1 機構(gòu)基本信息
在構(gòu)建機構(gòu)本體數(shù)據(jù)集時,需要全面考慮機構(gòu)的名稱、網(wǎng)址、電話、地址、郵箱、傳真、郵編等各種信息的術(shù)語描述。Schema.org是一份公開的、可共享的詞匯表,是為數(shù)據(jù)集進行結(jié)構(gòu)化的元數(shù)據(jù)方案。標記于HTML頁面上的Schema.org標簽被Google、Bing、Yandex 和Yahoo!等主要的搜索引擎支持,能幫助搜索引擎理解網(wǎng)頁上的信息,從而讓搜索結(jié)果內(nèi)容更豐富[17]。Schema.org 結(jié)構(gòu)化數(shù)據(jù)可用于標記各種項目,其中schema:Organization 是最常用的類之一,定義了大量的屬性,可以作為構(gòu)建機構(gòu)本體的重要參考和術(shù)語復(fù)用來源,如表3所示。
schema:Organization數(shù)據(jù)集對機構(gòu)基本信息的描述已較為全面。在主要復(fù)用現(xiàn)有詞匯的基礎(chǔ)上,結(jié)合機構(gòu)的互聯(lián)網(wǎng)相關(guān)屬性描述需求,對聯(lián)系方式進行擴展,增加了shl:wechatID(機構(gòu)微信賬號)和shl:blogID(機構(gòu)微博賬號)兩個屬性,同時定義了shl:hasDataSet屬性來鏈接到機構(gòu)擁有的數(shù)據(jù)集。
表3 機構(gòu)基本屬性表
2.3.2 機構(gòu)的層級結(jié)構(gòu)
不同類型機構(gòu)的層級結(jié)構(gòu)通常差異較大。比如,企業(yè)組織結(jié)構(gòu)是職權(quán)-職責關(guān)系結(jié)構(gòu),是企業(yè)內(nèi)部各組織職能分配的一種體現(xiàn);政府機構(gòu)層級常常按照行政層級來劃分。在設(shè)計機構(gòu)本體層級結(jié)構(gòu)時,需要抽象出一般的機構(gòu)層級結(jié)構(gòu)模型來容納各類機構(gòu)的差異性,形成通用的解決方案,如表4所示。
圖3 上海圖書館機構(gòu)本體中機構(gòu)基本信息相關(guān)的類、屬性及其關(guān)系
機構(gòu)(Organization)的層級結(jié)構(gòu)一般可以通層級關(guān)系圖進行展示。以土地革命戰(zhàn)爭時期(1927.8-1937.7)中央組織機構(gòu)的層級結(jié)構(gòu)為例,如圖4所示。由圖4可見,中央組織機構(gòu)是最上級機構(gòu),下設(shè)6個下級機構(gòu)(org:subOrganization):中共中央領(lǐng)導機構(gòu)、中共中央工作機構(gòu)、中共中央軍委與中革軍委、全總/鐵總/??傊泄颤h團、中共蘇維埃共和國臨時中央政府和群眾團體組織,用schema:parentOrganization 和org:has SubOrganization 屬性表示。其中,群眾團體組織既是下級機構(gòu),也是上級機構(gòu)屬其他下級機構(gòu)。同級下級機構(gòu)之間可能有關(guān)系,用org:linkedTo表示。也可各自獨立沒有任何關(guān)系,如中華全國鐵路總工會與中華全國海員總工會雖然都是工會的下級機構(gòu),但是各自隸屬于不同的行業(yè),并無交集。機構(gòu)通常會根據(jù)職能設(shè)立不同的部門(org:OrganizationUnit),用 org:hasUnit,org:unitOf 表示;各部門承擔機構(gòu)的一部分職能,向上級機構(gòu)匯報(org:reportsTo),如中華全國總工會常務(wù)委員會下設(shè)組織部、宣傳部和女子部等多個不同職能的部門。此外,某些機構(gòu)會成為其他機構(gòu)成員(org:Member),彼此只是建立會員關(guān)系(org:hasMembership),并不屬于上下級范疇等。在ORG框架的基礎(chǔ)上,為了特別區(qū)分政府、科研等行政事業(yè)單位的行政級別關(guān)系,增加了shl:level屬性,如政務(wù)機構(gòu)的行政級別的取值通常是國務(wù)院、省級、自治區(qū)、直轄市和區(qū)縣,如圖5所示。
表4 機構(gòu)層級結(jié)構(gòu)基本屬性表
圖4 上海圖書館革命(紅色)文獻平臺中共組織史局部
圖5 上海圖書館機構(gòu)本體中機構(gòu)層級結(jié)構(gòu)相關(guān)的類、屬性及其關(guān)系
2.3.3 機構(gòu)的人員角色關(guān)系
上海圖書館本體定義的shl:Person類及其屬性,缺乏對人在機構(gòu)中的角色和變化進行描述的機制,上海圖書館機構(gòu)本體將在shl:Person的基礎(chǔ)上,復(fù)用Schema.org、ORG本體和foaf本體中的相關(guān)術(shù)語,如Schema:Person類及其屬性,并擴展人員與機構(gòu)的各種關(guān)系屬性。本模型主要探討如何完整記錄機構(gòu)內(nèi)人員/角色與機構(gòu)的關(guān)系,以及由某些事件的影響為這種關(guān)系帶來的各種變化,如表5所示(不再贅述有關(guān)“shl:Person”的基本信息,如國籍、籍貫、性別、生卒年月和居住地等[18]可參考上海圖書館人名規(guī)范庫http://names.library.sh.cn)。shl:Person類用于對機構(gòu)和人員/角色的屬性及各類關(guān)聯(lián)關(guān)系進行抽象與建模,在此基礎(chǔ)上,為機構(gòu)和人員/角色的關(guān)系定義詳細的描述框架,如圖6所示。
表5 機構(gòu)人員/角色關(guān)系屬性表
圖6 上海圖書館機構(gòu)本體中機構(gòu)人員/角色屬性及其關(guān)系
2.3.4 機構(gòu)的歷史沿革
機構(gòu)變化通常可以視為由事件引起,上海圖書館本體shl:Event類是對“事件”本身的描述,已包含事件發(fā)生的時間、地點,以及和人的關(guān)系等屬性。ORG 核心機構(gòu)本體的org:ChangeEvent 類,代表導致機構(gòu)發(fā)生重大變化的事件,適用于原始機構(gòu)和新機構(gòu)是完全不同的獨立個體,有不同的統(tǒng)一標識符如URI。org:ChangeEvent 類是繼承prov:Activity 的子類,prov:Activity表示一段時間內(nèi)實體與實體之間發(fā)生的各類事件,如轉(zhuǎn)化、更新、生成新實體[19]。PROV是一個輕量級本體,專門用于對特定應(yīng)用來源的詳細信息進行建模。本研究構(gòu)建的機構(gòu)本體旨在記錄和機構(gòu)相關(guān)的各種事件變化,既支持重大事件對機構(gòu)產(chǎn)生的根本性變革,生成新的機構(gòu)情況,也支持機構(gòu)內(nèi)外部發(fā)生的各類事件,如機構(gòu)外部地址變遷、內(nèi)部部門結(jié)構(gòu)調(diào)整。在繼承 org:Change Event 類和 shl:Event 類的基礎(chǔ)上,定義了新的shl:ChangeEvent類,以及相關(guān)屬性來描述機構(gòu)的沿革和變化,如表6所示。
shl:ChangeEvent類旨在以機構(gòu)為核心描述對象,反映機構(gòu)/人員變化的種種情況,所以事件(活動)的相關(guān)屬性都是用shl:Organization和shl:Person的屬性來描述。比如,shl:wasStarted By和shl:wasEndedBy兩個屬性只是記錄了啟動和結(jié)束事件的相關(guān)機構(gòu)和人員,而不推廣至其他實體(Entity)范圍。shl:influenced是廣泛的影響關(guān)系,本模型只定義了“產(chǎn)生新機構(gòu)(generate)”“注銷機構(gòu)(invalidated)”兩種屬性,在具體使用時可根據(jù)實際情況自定義更具體的關(guān)系,也可參照PROV 提供的關(guān)系術(shù)語Communication、Derivation、Association and Delegation等。以李鴻章創(chuàng)辦的“輪船招商局”為例,“輪船招商局”歷史沿革事件如圖7所示。李鴻章1872年創(chuàng)辦輪船招商局(shl:generated)。在創(chuàng)辦過程中,李鴻章(shl:Person)是主要發(fā)起人(shl:startedBy),唐廷樞(shl:Person)和朱其昂(shl:Person)是產(chǎn)生重要作用(shl:influenced)的人物。1873 年李鴻章(shl:startedBy)將輪船招商局(shl:originalOrganization)從上海南永安街(今黃浦區(qū)永安路)遷至上海三馬路新址(shl:ChangeEvent),改稱為輪船招商總局(shl:generated)。同年設(shè)天津、漢口、長崎、香港等19個分局(shl:generated)?!拜喆猩叹帧?shl: original Organization)正式結(jié)束(shl: invalidated)。李鴻章(shl: Person)和輪船招商局(shl: Organization)、輪船招商總局(shl:
Organization)是機構(gòu)事件(shl:ChangeEvent)的核心要素。將這些要素與文獻檔案中的關(guān)鍵詞和主題進行自動匹配,即可實現(xiàn)事件、機構(gòu)、人員、文獻間的動態(tài)關(guān)聯(lián),如圖8所示。
表6 機構(gòu)歷史沿革屬性表
圖7 上海圖書館盛宣懷檔案知識庫中“輪船招商局”歷史沿革事件
圖8 上海圖書館機構(gòu)本體中機構(gòu)歷史沿革事件屬性及其關(guān)系
構(gòu)建機構(gòu)本體是結(jié)構(gòu)化、語義化地描述機構(gòu)的各項特征、機構(gòu)間的復(fù)雜關(guān)系、人員角色及其變化、機構(gòu)本身的歷史沿革等信息的重要途徑,同時對不同機構(gòu)信息的語義互操作以及數(shù)據(jù)開放與共享具有重要意義。本研究針對目前國內(nèi)通用機構(gòu)本體的系統(tǒng)化研究與應(yīng)用比較有限,特別是對機構(gòu)之間的復(fù)雜關(guān)系、機構(gòu)的歷史沿革、人事關(guān)系變化等方面的研究不足的情況,在對機構(gòu)的概念、屬性及其關(guān)系進行梳理和分析、在上海圖書館已有本體模型和詞表的基礎(chǔ)上,復(fù)用多個互聯(lián)網(wǎng)上應(yīng)用較多的本體模型,嘗試設(shè)計一套可以描述不同類型的機構(gòu)、機構(gòu)在現(xiàn)實世界上復(fù)雜的相關(guān)關(guān)系,以及在時間和空間中不斷變化的歷史沿革信息的本體模型和詞表。這套本體模型和詞表在上海圖書館的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中已經(jīng)得到了一定的應(yīng)用,用該本體模型及詞表描述的收藏機構(gòu)、出版機構(gòu)、公司等數(shù)據(jù)以關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data)的形式在互聯(lián)網(wǎng)上發(fā)布,并在上海圖書館已經(jīng)舉辦的4屆開放數(shù)據(jù)應(yīng)用開發(fā)競賽中為第三方機構(gòu)和開發(fā)者提供開放數(shù)據(jù)服務(wù)。由于該本體目前只應(yīng)用于上海圖書館的數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中,還需要在更廣泛的范圍內(nèi)進行驗證,并進一步完善。接下來本研究將會繼續(xù)探索利用本體構(gòu)建工具和不同的本體形式化語言對機構(gòu)本體模型和詞表進行形式化,并通過更多的機構(gòu)數(shù)據(jù)集來驗證其適用性。