亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息資源語(yǔ)義組織與語(yǔ)義服務(wù)模式探究*
        ——以芬蘭語(yǔ)義計(jì)算研究小組(SeCo)項(xiàng)目實(shí)踐為例

        2019-02-25 08:55:48陳金菊歐石燕林澤斐
        圖書與情報(bào) 2019年5期
        關(guān)鍵詞:本體檢索語(yǔ)義

        陳金菊 歐石燕 林澤斐

        (1.南京大學(xué)信息管理學(xué)院 江蘇南京 210023)

        1 引言

        知識(shí)組織是按照知識(shí)的內(nèi)在邏輯, 對(duì)知識(shí)進(jìn)行整理、加工、引導(dǎo)、揭示、控制等一系列序化的操作過(guò)程。 早期的知識(shí)組織方法主要是分類、元數(shù)據(jù)描述和主題標(biāo)引等,通常采用DC、MARC、XML 等非語(yǔ)義化格式對(duì)信息資源外部特征進(jìn)行描述和揭示, 這些格式計(jì)算機(jī)可讀但不可理解, 因而無(wú)法為人類提供深層次的知識(shí)服務(wù),具有很大的局限性。語(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)的提出使得信息資源的組織和服務(wù)開始朝著語(yǔ)義化的方向發(fā)展。 采用語(yǔ)義網(wǎng)技術(shù)可以實(shí)現(xiàn)對(duì)信息資源的語(yǔ)義描述和語(yǔ)義組織, 并在此基礎(chǔ)上提供語(yǔ)義檢索、語(yǔ)義集成、語(yǔ)義共享等語(yǔ)義服務(wù),有效地解決了傳統(tǒng)知識(shí)組織與服務(wù)方式缺少語(yǔ)義化的問題。

        國(guó)內(nèi)信息資源語(yǔ)義組織的研究以理論研究和應(yīng)用研究層面的探討為主,實(shí)踐較少,且規(guī)模較小。 上海圖書館開放數(shù)據(jù)平臺(tái)是國(guó)內(nèi)語(yǔ)義組織與服務(wù)的典型實(shí)踐, 該平臺(tái)以關(guān)聯(lián)數(shù)據(jù)的方式發(fā)布其數(shù)字人文項(xiàng)目基礎(chǔ)知識(shí)庫(kù)(人、地、時(shí))、文獻(xiàn)知識(shí)庫(kù)(家譜、古籍、手稿)和本體詞表等。該平臺(tái)的研究對(duì)象以人文學(xué)科信息資源為主,自然科學(xué)涉及很少,此外該平臺(tái)提供的語(yǔ)義服務(wù)不夠全面,只提供語(yǔ)義瀏覽和檢索服務(wù),但是缺少語(yǔ)義集成、可視化等多樣化知識(shí)服務(wù)。翟?shī)檴櫜捎谜Z(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)開發(fā)了一個(gè)基于關(guān)聯(lián)數(shù)據(jù)的非物質(zhì)文化遺產(chǎn)資源聚合與服務(wù)平臺(tái),對(duì)楚劇這一非物質(zhì)文化遺產(chǎn)資源進(jìn)行語(yǔ)義描述、標(biāo)注和聚合研究,并提供語(yǔ)義服務(wù);歐石燕采用語(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)提出了語(yǔ)義數(shù)字圖書館資源描述框架,對(duì)圖書館信息資源進(jìn)行整合,實(shí)現(xiàn)了面向關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問答。此外,還有以檔案信息、多媒體資源、社會(huì)輿情信息等信息資 源為 研究對(duì)象的語(yǔ)義組織和服務(wù)研究。總體而言,這些研究的研究對(duì)象為單一類型信息資源, 關(guān)注的語(yǔ)義服務(wù)類型也相對(duì)單一, 對(duì)其他類型信息資源的語(yǔ)義組織和服務(wù)不具有廣泛的適用性。

        目前,涉及多個(gè)領(lǐng)域、提供多樣化語(yǔ)義服務(wù)的大型信息資源語(yǔ)義組織實(shí)踐項(xiàng)目國(guó)內(nèi)仍較少, 而國(guó)外部分研究和服務(wù)機(jī)構(gòu)已經(jīng)積極開展了此類實(shí)踐,如歐洲數(shù)字圖書館項(xiàng)目Europeana,采用語(yǔ)義網(wǎng)技術(shù)對(duì)文化遺產(chǎn)資源進(jìn)行整合, 并提供統(tǒng)一的網(wǎng)絡(luò)訪問平臺(tái);美國(guó)國(guó)家人文研究基金和德國(guó)科學(xué)基金共同支持的“關(guān)聯(lián)人文項(xiàng)目”(Linked Humanities),開發(fā)了關(guān)聯(lián)數(shù)據(jù)組織與發(fā)布平臺(tái); 歐洲數(shù)字手稿項(xiàng)目DM2E(Digital Manuscripts to Europeana),采用關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)歷史資源進(jìn)行整合和利用;芬蘭語(yǔ)義計(jì)算研究小組SeCo(Semantic Computing Research Group)創(chuàng)建了語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目平臺(tái),采用本體和關(guān)聯(lián)數(shù)據(jù)等語(yǔ)義技術(shù)對(duì)跨領(lǐng)域、 多類型的信息資源進(jìn)行語(yǔ)義組織, 并在此基礎(chǔ)上提供多樣化的語(yǔ)義服務(wù)。 在這些語(yǔ)義組織與服務(wù)實(shí)踐中,以SeCo 開展的實(shí)踐項(xiàng)目成效最為顯著,其特點(diǎn)和優(yōu)勢(shì)主要表現(xiàn)在:(1)該項(xiàng)目兼具研究廣度和研究深度。SeCo 研究團(tuán)隊(duì)自2002 年至今, 針對(duì)不同領(lǐng)域的特點(diǎn),已開發(fā)的28 個(gè)項(xiàng)目涉及人文學(xué)科和自然科學(xué)的多個(gè)研究領(lǐng)域,信息資源種類豐富,研究范圍廣泛。同時(shí), 這些項(xiàng)目開展的語(yǔ)義組織不僅包括外部表層元數(shù)據(jù),還深入到內(nèi)容語(yǔ)義層面,展開深層次語(yǔ)義描述;(2)該項(xiàng)目堅(jiān)持理論與應(yīng)用研究相結(jié)合。 SeCo研究團(tuán)隊(duì)不僅關(guān)注語(yǔ)義組織的相關(guān)理論研究, 根據(jù)各類信息資源的特點(diǎn)進(jìn)行語(yǔ)義建模, 還基于語(yǔ)義化描述和組織的數(shù)據(jù)提供多樣化語(yǔ)義服務(wù)。由此可見,SeCo 在資源語(yǔ)義組織和語(yǔ)義服務(wù)方面取得了良好的進(jìn)展, 已使其成為語(yǔ)義組織和語(yǔ)義服務(wù)的代表性實(shí)踐項(xiàng)目。本文通過(guò)梳理SeCo 研究團(tuán)隊(duì)開發(fā)的語(yǔ)義組織和語(yǔ)義服務(wù)項(xiàng)目的主要內(nèi)容, 從資源類型與標(biāo)注深度、語(yǔ)義模型、語(yǔ)義數(shù)據(jù)構(gòu)建與集成、語(yǔ)義服務(wù)這四個(gè)方面剖析其研究和實(shí)踐現(xiàn)狀,總結(jié)項(xiàng)目特點(diǎn)。

        2 項(xiàng)目概況

        芬蘭赫爾辛基大學(xué)(University of Helsinki)和阿爾托大學(xué)(Aalto University)發(fā)起的SeCo 開發(fā)了許多語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目。目前,該項(xiàng)目組位于芬蘭赫爾辛基大學(xué)藝術(shù)學(xué)院數(shù)字人文中心 (HELDIGHelsinki Centre for Digital Humanities, University of Helsinki, Faculty of Arts) 和阿爾托大學(xué)理工學(xué)院計(jì)算機(jī)科學(xué)系(Aalto University, School of Science, Department of Computer Science),項(xiàng)目組成員主要也來(lái)自這兩所大學(xué)。 SeCo 的目標(biāo)是對(duì)各領(lǐng)域的信息資源進(jìn)行語(yǔ)義化組織和描述, 并在此基礎(chǔ)上提供語(yǔ)義化服務(wù),實(shí)現(xiàn)資源的互操作。 除了相關(guān)研究論文和出版物,該項(xiàng)目還創(chuàng)建了原型應(yīng)用程序,用于展示語(yǔ)義技術(shù)的可能性應(yīng)用,譬如為終端用戶提供語(yǔ)義門戶,以及用于創(chuàng)建語(yǔ)義應(yīng)用程序的本體和工具。

        SeCo 開發(fā)的語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目的應(yīng)用領(lǐng)域非常廣泛,包括數(shù)字人文、健康、學(xué)習(xí)、政府、商業(yè)和生物等領(lǐng)域,且跨學(xué)科特征顯著。 SeCo 早期開發(fā)的項(xiàng)目主要關(guān)注圖書館領(lǐng)域, 涉及的內(nèi)容主要是語(yǔ)義標(biāo)注和語(yǔ)義檢索等。 自關(guān)聯(lián)數(shù)據(jù)出現(xiàn)后,SeCo創(chuàng)建的項(xiàng)目涉及的領(lǐng)域范圍變廣, 不僅包括人文社科領(lǐng)域(如歷史、傳記、法律、文化遺產(chǎn)等),個(gè)別項(xiàng)目還涉及自然科學(xué)領(lǐng)域(如醫(yī)學(xué)、健康等),但目前SeCo的主要研究仍以人文學(xué)科為主。 從研究?jī)?nèi)容來(lái)看,SeCo 研究團(tuán)隊(duì)在早期, 即2006 年關(guān)聯(lián)數(shù)據(jù)提出之前, 主要關(guān)注如何采用元數(shù)據(jù)和本體進(jìn)行信息資源的語(yǔ)義標(biāo)注。 從2006 年開始,該項(xiàng)目開始關(guān)注關(guān)聯(lián)數(shù)據(jù)的應(yīng)用,基于關(guān)聯(lián)數(shù)據(jù)開展各種應(yīng)用服務(wù),如語(yǔ)義門戶、可視化、應(yīng)用程序等。

        SeCo 研究團(tuán)隊(duì)自2002 年至今共開發(fā)了28 個(gè)項(xiàng)目,各項(xiàng)目周期從一年到九年不等。這些項(xiàng)目大致可以分為四類:(1)以信息資源語(yǔ)義標(biāo)注與組織為主要目的的項(xiàng)目;(2) 以提供語(yǔ)義服務(wù)為主要目的的項(xiàng)目;(3)以提供語(yǔ)義基礎(chǔ)設(shè)施為主要目的的項(xiàng)目,包括語(yǔ)義模型構(gòu)建和語(yǔ)義工具開發(fā)等。 目前已開發(fā)的語(yǔ)義工具包括語(yǔ)義搜索引擎、語(yǔ)義標(biāo)注編輯器、語(yǔ)義信息抽取工具、語(yǔ)義門戶創(chuàng)建工具等;(4)其他項(xiàng)目,以語(yǔ)義計(jì)算居多, 如探索語(yǔ)義計(jì)算在移動(dòng)5G 網(wǎng)絡(luò)管理中的應(yīng)用等。 前三類項(xiàng)目大致共有17 個(gè)(見表1),本文主要針對(duì)這些項(xiàng)目進(jìn)行探討。

        3 研究現(xiàn)狀分析

        3.1 資源類型與標(biāo)注深度

        SeCo 開發(fā)的語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目涉及范圍廣,因而其所研究的資源類型、資源內(nèi)容、標(biāo)注內(nèi)容和標(biāo)注深度也呈現(xiàn)多樣化的特征。 SeCo 開發(fā)的項(xiàng)目創(chuàng)建了許多相應(yīng)的應(yīng)用,本文選取目前仍然提供服務(wù)的應(yīng)用, 特別是包含大量語(yǔ)義數(shù)據(jù)的語(yǔ)義門戶作為調(diào)研對(duì)象,按照應(yīng)用開發(fā)的大致時(shí)間先后順序,對(duì)各項(xiàng)目的應(yīng)用涉及的資源類型和內(nèi)容, 以及標(biāo)注內(nèi)容和深度進(jìn)行歸納總結(jié)(見表2),并分析其特點(diǎn)。(1)從資源類型上看, 語(yǔ)義組織的研究對(duì)象已不再局限于傳統(tǒng)的書目信息,而是擴(kuò)展到非書目信息,如文物、雕塑、照片、視頻、音頻、廣告和地圖等多模態(tài)信息資源。語(yǔ)義組織的資源類型逐步由單一向多類型過(guò)渡,種類日益豐富;(2)從資源內(nèi)容上看,主要可以歸納為兩種:一種是研究對(duì)象僅涉及單一主題內(nèi)容,如商業(yè)、歷史和傳記;另一種是研究對(duì)象涉及多主題內(nèi)容,如文化遺產(chǎn),但前者更具有領(lǐng)域針對(duì)性,目前大多數(shù)項(xiàng)目研究的資源內(nèi)容以前者為主;(3) 從標(biāo)注內(nèi)容和深度上看,SeCo 開發(fā)的早期項(xiàng)目的語(yǔ)義標(biāo)注內(nèi)容主要停留在淺層外部特征,如關(guān)鍵詞、創(chuàng)建者和發(fā)布者等,沒有深入到資源內(nèi)容層面。 近幾年,SeCo 的語(yǔ)義組織開始出現(xiàn)向內(nèi)容層面(如實(shí)體和關(guān)系)深入的趨勢(shì),標(biāo)注內(nèi)容以人、事、物、地、時(shí)等要素為主,標(biāo)注深度逐步從淺層粗粒度標(biāo)注向深層細(xì)粒度標(biāo)注過(guò)渡。

        表1 SeCo 開展的語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目概況[12]

        表2 SeCo 項(xiàng)目涉及的資源類型與標(biāo)注深度

        3.2 語(yǔ)義模型

        SeCo 開發(fā)的語(yǔ)義組織項(xiàng)目的數(shù)據(jù)來(lái)源多樣,數(shù)據(jù)格式難以統(tǒng)一,給數(shù)據(jù)資源的互操作帶來(lái)了困難。因此,需要采用統(tǒng)一的標(biāo)準(zhǔn)和模型解決這一問題。目前,SeCo 創(chuàng)建的應(yīng)用主要涉及數(shù)字文化、數(shù)字健康、在線學(xué)習(xí)、電子政府、數(shù)字生物等領(lǐng)域,下面對(duì)這些領(lǐng)域中仍提供服務(wù)的應(yīng)用涉及的主要語(yǔ)義模型(見表3)進(jìn)行總結(jié)和分析。 可以看出,SeCo 開發(fā)的應(yīng)用中采用的語(yǔ)義模型主要包括元數(shù)據(jù)方案和本體。SeCo 側(cè)重于采用目前較通用、 成熟的語(yǔ)義模型,并基于對(duì)現(xiàn)有本體的復(fù)用和擴(kuò)展, 構(gòu)建了一系列適用于不同領(lǐng)域的領(lǐng)域本體。

        SeCo 采用了一些目前較通用、成熟的模型進(jìn)行語(yǔ)義組織實(shí)踐:(1)在文化領(lǐng)域,由于SeCo 的文化遺產(chǎn)項(xiàng)目龐大, 因此文化遺產(chǎn)領(lǐng)域的通用頂層本體CIDOC CRM 概念參考模型得到了廣泛的應(yīng)用。該模型是國(guó)際文獻(xiàn)工作委員會(huì)開發(fā)的一個(gè)概念參考模型,提供了一個(gè)描述文化遺產(chǎn)的通用框架,致力于實(shí)現(xiàn)文化遺產(chǎn)信息的語(yǔ)義共享和互操作, 充分發(fā)揮文化遺產(chǎn)的價(jià)值。 目前,CIDOC CRM 已成為ISO 標(biāo)準(zhǔn), 使其得到了更為廣泛地應(yīng)用。 Bio CRM 則是對(duì)CIDOC CRM 模型進(jìn)行擴(kuò)展得到的模型。該模型用于表示傳記信息,將傳記看成是事件,每個(gè)事件包含參與者、地點(diǎn)、時(shí)間和事件類型,同時(shí)引入角色信息,用于表示參與者在事件中扮演的角色信息。 為了規(guī)范本體中類和屬性的取值,還采用了一些受控詞表,如藝術(shù)與圖像分類系統(tǒng)ICONCLASS、 聯(lián)盟藝術(shù)家名單ULAN、 藝術(shù)與建筑敘詞表AAT 和地理信息詞表WGS84 等;(2)在健康領(lǐng)域,主要采用了都柏林核心元數(shù)據(jù)元素集(DC)和DCMI Terms,前者是描述跨領(lǐng)域信息資源國(guó)際標(biāo)準(zhǔn), 包含15 個(gè)核心元數(shù)據(jù),后者則是在前者的基礎(chǔ)上擴(kuò)展了一些其他元素和元素修飾,兩者可以對(duì)健康信息的創(chuàng)建者、發(fā)布者、主題等進(jìn)行描述。采用的詞表主要包括DCMI 類型詞表(DCMI Type)和兩個(gè)醫(yī)學(xué)健康領(lǐng)域的詞表,即國(guó)際醫(yī)學(xué)主題詞表MeSH 和歐洲多語(yǔ)種健康促進(jìn)詞表HPMULTI;(3)在教育領(lǐng)域,主要采用了學(xué)習(xí)對(duì)象元數(shù)據(jù)(LOM),是IEEE 的學(xué)習(xí)技術(shù)標(biāo)準(zhǔn)委員會(huì)(LTSC)制定的一個(gè)描述教育資源的元數(shù)據(jù)標(biāo)準(zhǔn), 其目的是為了支持學(xué)習(xí)對(duì)象重用、發(fā)現(xiàn)和互操作。LOM 包含九大類不同的教育資源類, 采用該元數(shù)據(jù)可以對(duì)教育資源的關(guān)鍵詞、格式、結(jié)構(gòu)等信息進(jìn)行描述。

        表3 SeCo 項(xiàng)目語(yǔ)義組織中涉及的主要語(yǔ)義模型

        除了上述通用本體模型外,SeCo 還根據(jù)自身需要自建了一些語(yǔ)義模型進(jìn)行不同領(lǐng)域的語(yǔ)義組織實(shí)踐。 不同領(lǐng)域的本體由不同領(lǐng)域的專家合作并以分布式方式開發(fā), 同時(shí)被映射在一起形成一個(gè)包含所有領(lǐng)域的大型國(guó)家本體家族KOKO。 KOKO 包含一個(gè)通用頂層本體YSO 和14 個(gè)基于YSO 構(gòu)建的領(lǐng)域本體(如音樂、健康、商業(yè)、文學(xué)等)。YSO 是由芬蘭國(guó)家圖書館維護(hù)的芬蘭通用敘詞表YSA 轉(zhuǎn)換而來(lái),采用SKOS 表示, 包括30465 個(gè)通用概念, 提供芬蘭語(yǔ)、英語(yǔ)和瑞典語(yǔ)三個(gè)版本。除了KOKO 本體家族外,SeCo 還開發(fā)了人物本體 (Actor)、 地點(diǎn)本體(Place)、時(shí)間本體(Time)、事件本體(Event)和生物本體(Biological),在其項(xiàng)目中都得到了廣泛的使用。除了上述常用的本體外, 還有一些使用頻率相對(duì)較低的本體和詞表, 本體主要包括名勝古跡地點(diǎn)本體POIO、 世界鳥類本體AVIO、 芬蘭健康元數(shù)據(jù)模型(HealthFinland Metadata Schema)、 地 名 注 冊(cè) 模 型(PNR)、名稱檔案模型(NA)、表示地球上的區(qū)域和地點(diǎn)的本體Location、館藏本體Collection、基于描述文化內(nèi)容的敘詞表構(gòu)建的Artifact、Material 和Situation本體等, 詞表主要包括學(xué)科類別詞表School Subject Ontology、主題詞表Theme Ontology、表示不同媒體類型的詞表Medium Ontology、表示人物類別的觀眾詞表Audience Ontology、 描述數(shù)據(jù)集的詞表voiD(Vocabulary of Interlinked Datasets)等。

        3.3 語(yǔ)義數(shù)據(jù)構(gòu)建與集成

        SeCo 的語(yǔ)義數(shù)據(jù)構(gòu)建主要是實(shí)現(xiàn)將非語(yǔ)義化格式的數(shù)據(jù)(如結(jié)構(gòu)化數(shù)據(jù)庫(kù)表和非結(jié)構(gòu)化文本數(shù)據(jù))轉(zhuǎn)換為語(yǔ)義化格式的數(shù)據(jù),SeCo 通常采用語(yǔ)義映射或創(chuàng)建語(yǔ)義轉(zhuǎn)換器的方式完成語(yǔ)義數(shù)據(jù)構(gòu)建。 譬如,MuseumFinland 項(xiàng)目的不同博物館的館藏?cái)?shù)據(jù)以數(shù)據(jù)庫(kù)表的方式存儲(chǔ),SeCo 采用XML Schema 將這些數(shù)據(jù)庫(kù)表轉(zhuǎn)換為XML 數(shù)據(jù), 再采用RDF Schema將XML 數(shù)據(jù)轉(zhuǎn)換為RDF 數(shù)據(jù),然后將這些數(shù)據(jù)映射在一起,集中存儲(chǔ)到一個(gè)全局?jǐn)?shù)據(jù)庫(kù)中。

        SeCo 的語(yǔ)義集成實(shí)踐大致可分為兩類:語(yǔ)義關(guān)聯(lián)和語(yǔ)義數(shù)據(jù)集中管理。 前者分為內(nèi)容語(yǔ)義關(guān)聯(lián)和外部語(yǔ)義關(guān)聯(lián),后者旨在對(duì)語(yǔ)義數(shù)據(jù)進(jìn)行集中管理,提供統(tǒng)一瀏覽和檢索。 在內(nèi)容語(yǔ)義關(guān)聯(lián)方面,SeCo創(chuàng)建的項(xiàng)目提供了一些語(yǔ)義信息抽取和語(yǔ)義標(biāo)注工具,如Poka 和SAHA 等。 Poka 提供了一個(gè)自動(dòng)標(biāo)注框架,為本體概念的自動(dòng)化抽取提供了基礎(chǔ)。 SAHA 是一個(gè)語(yǔ)義內(nèi)容創(chuàng)建工具,用于支持基于瀏覽器的語(yǔ)義標(biāo)注。 在外部語(yǔ)義關(guān)聯(lián)方面,通過(guò)RDF 鏈接將不同數(shù)據(jù)源的數(shù)據(jù)鏈接在一起。如SeCo 開發(fā)的Hipla 項(xiàng)目通過(guò)分布式SPARQL 查詢對(duì)不同來(lái)源的芬蘭古代歷史地理信息進(jìn)行集成,實(shí)現(xiàn)古地圖和現(xiàn)代地圖的映射。在語(yǔ)義數(shù)據(jù)集中管理方面,SeCo 主要通過(guò)構(gòu)建語(yǔ)義集成平臺(tái)的方式,實(shí)現(xiàn)對(duì)語(yǔ)義數(shù)據(jù)和語(yǔ)義模型的集中管理。 SeCo 首先開發(fā)了一個(gè)網(wǎng)站對(duì)其開發(fā)的所有項(xiàng)目、語(yǔ)義模型和語(yǔ)義數(shù)據(jù)集進(jìn)行集中訪問和共享,但該網(wǎng)站內(nèi)容繁雜,需要用戶自行逐級(jí)瀏覽,不支持檢索,不利于用戶快速獲取所需語(yǔ)義信息。此外,SeCo 還開發(fā)了一些專門的語(yǔ)義集成管理數(shù)據(jù)庫(kù)和平臺(tái),如ONKI 和LDF。ONKI 是一個(gè)本體集成管理數(shù)據(jù)庫(kù),用于對(duì)其開發(fā)的本體進(jìn)行集中管理,使其更易于維護(hù)、發(fā)現(xiàn)和使用。 LDF.fi是SeCo 創(chuàng)建的一個(gè)關(guān)聯(lián)數(shù)據(jù)平臺(tái), 該平臺(tái)對(duì)相關(guān)的語(yǔ)義數(shù)據(jù)集、研究數(shù)據(jù)和元數(shù)據(jù)模型等進(jìn)行集成管理,為網(wǎng)絡(luò)上的結(jié)構(gòu)化數(shù)據(jù)的發(fā)布者和消費(fèi)者提供服務(wù)。

        3.4 語(yǔ)義服務(wù)

        SeCo 旨在以機(jī)器能夠理解的方式表示數(shù)據(jù)和知識(shí),并基于此創(chuàng)建智能應(yīng)用,為人類提供更加智能的知識(shí)服務(wù)。 SeCo 為用戶提供免費(fèi)開源的資源共享平臺(tái),使得資源的獲取不受時(shí)空的限制,極大地提高了資源的利用率。 本文從SeCo 的主要應(yīng)用領(lǐng)域著手,對(duì)其提供的服務(wù)類型進(jìn)行探索。通過(guò)對(duì)當(dāng)前仍然提供服務(wù)的SeCo 項(xiàng)目進(jìn)行調(diào)研, 發(fā)現(xiàn)SeCo 主要通過(guò)語(yǔ)義門戶和移動(dòng)應(yīng)用兩種服務(wù)模式為用戶提供語(yǔ)義服務(wù),前者通過(guò)信息資源的集成、整合、分類和再組織,為用戶提供一個(gè)一攬子用戶服務(wù)界面,是當(dāng)前主要的語(yǔ)義服務(wù)模式;后者則是以APP 為代表的移動(dòng)應(yīng)用服務(wù),使用更加便捷,但目前此類應(yīng)用較少。這兩種語(yǔ)義服務(wù)模式提供的語(yǔ)義服務(wù)類型主要包括以下幾種:

        (1)多視角訪問。 SeCo 的項(xiàng)目開發(fā)的一些語(yǔ)義系統(tǒng), 在用戶進(jìn)行訪問時(shí), 可為其提供多個(gè)訪問視角,用戶可根據(jù)自身的信息需求,選擇合適的訪問視角。 如CultureSampo 是一個(gè)將文化遺產(chǎn)資源進(jìn)行語(yǔ)義組織,并提供語(yǔ)義服務(wù)的語(yǔ)義門戶。該門戶支持從地圖搜索與瀏覽、關(guān)系搜索、搜索與組織、集合、芬蘭歷史、技能與文化敘事、傳記、語(yǔ)義Kalevala(芬蘭國(guó)家史詩(shī))、Karelia(芬蘭的一個(gè)地區(qū))等九個(gè)視角進(jìn)行訪問;WarSampo 是一個(gè)將芬蘭二戰(zhàn)歷史數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),并提供語(yǔ)義服務(wù)的語(yǔ)義門戶。該門戶在其主頁(yè)和菜單欄,按照資源類型提供從事件、人物、軍隊(duì)、地點(diǎn)、照片、傷亡者、雜志文章、戰(zhàn)爭(zhēng)墓地等八個(gè)視角對(duì)資源進(jìn)行瀏覽和檢索(見圖1)。

        (2)支持多語(yǔ)言。 SeCo 雖然是一個(gè)針對(duì)芬蘭的語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目, 但是為了方便全球更多的用戶利用其資源,SeCo 的許多系統(tǒng)都支持多語(yǔ)言訪問,常見的語(yǔ)言包括芬蘭語(yǔ)、瑞典語(yǔ)和英語(yǔ),用戶可以選擇其熟悉的語(yǔ)言界面, 進(jìn)行語(yǔ)義瀏覽和檢索等操作,極大地增強(qiáng)了用戶友好性。如BookSampo 是一個(gè)將芬蘭公共圖書館包含的芬蘭小說(shuō)文獻(xiàn)元數(shù)據(jù)進(jìn)行語(yǔ)義化,并提供語(yǔ)義服務(wù)的語(yǔ)義門戶。該門戶在其右上角提供芬蘭語(yǔ)、 瑞典語(yǔ)和英語(yǔ)三種語(yǔ)言供用戶選擇;WarSampo 語(yǔ)義門戶則在其左上角提供了芬蘭語(yǔ)和英語(yǔ)兩種語(yǔ)言, 用戶可方便地切換用戶界面語(yǔ)言進(jìn)行系統(tǒng)訪問。

        (3)語(yǔ)義瀏覽與語(yǔ)義檢索。 SeCo 允許用戶瀏覽其發(fā)布的關(guān)聯(lián)數(shù)據(jù),并對(duì)這些關(guān)聯(lián)數(shù)據(jù)進(jìn)行檢索。由于RDF 查詢語(yǔ)言SPARQL 對(duì)于檢索能力的要求較高, 主要面向掌握SPARQL 的專業(yè)檢索人員, 因此SeCo 的大多數(shù)項(xiàng)目都為用戶提供基于自然語(yǔ)言的關(guān)鍵詞檢索, 或者提供標(biāo)準(zhǔn)查詢模板的方式引導(dǎo)用戶構(gòu)建檢索策略, 使得普通用戶可以在不掌握SPARQL 查詢語(yǔ)言的情況下,也能進(jìn)行語(yǔ)義檢索。 如CultureSampo 的“檢索與組織”界面提供了一個(gè)查詢模板“TELL ME ABOUT <Resource Type>W(wǎng)HICH <Condation1><Condation2>…”, 幫助用戶構(gòu)建檢索式;WarSampo 的Places 界面提供了對(duì)芬蘭二戰(zhàn)戰(zhàn)區(qū)覆蓋的地點(diǎn)檢索,以芬蘭首都赫爾辛基(Helsinki)為例進(jìn)行地點(diǎn)檢索得到的檢索結(jié)果(見圖2)。

        圖1 WarSampo 提供的八個(gè)訪問視角和多語(yǔ)言服務(wù)

        (4)知識(shí)發(fā)現(xiàn)。 知識(shí)發(fā)現(xiàn)是采用某種序化方式(如表、地圖和時(shí)間序列等)對(duì)檢索結(jié)果及其相關(guān)資源進(jìn)行再組織, 為用戶提供了新的視角來(lái)發(fā)現(xiàn)信息資源中隱含的新知識(shí)。如通過(guò)CultureSampo 的“檢索與組織” 界面提供的查詢模板檢索得到的結(jié)果可以以列表、地圖、時(shí)間軸三種形式呈現(xiàn),幫助用戶發(fā)現(xiàn)事物隨時(shí)間演變的規(guī)律、 空間分布規(guī)律等知識(shí);WarSampo 的Places 界面在地圖上展示相關(guān)地點(diǎn),并提供與該地點(diǎn)相關(guān)事件、 文章和照片的鏈接。本文以芬蘭首都赫爾辛基(Helsinki)進(jìn)行地點(diǎn)檢索得到相關(guān)戰(zhàn)爭(zhēng)文章,這些文章按照時(shí)間順序進(jìn)行排列,可以發(fā)現(xiàn)與該戰(zhàn)爭(zhēng)地相關(guān)的文章數(shù)量隨時(shí)間變化的規(guī)律。

        (5)可視化分析??梢暬夹g(shù)有助于幫助用戶更好地理解信息資源包含的語(yǔ)義信息, 發(fā)現(xiàn)其中隱含的規(guī)律。 SeCo 為用戶提供多種可視化方式,借助地圖、時(shí)間軸、網(wǎng)狀關(guān)系圖、柱狀圖、餅圖等方式實(shí)現(xiàn)時(shí)空語(yǔ)義信息、社會(huì)關(guān)系和統(tǒng)計(jì)信息的可視化。 如Culture-Sampo 提供人物和機(jī)構(gòu)間多種社會(huì)關(guān)系(如教學(xué)關(guān)系和親屬關(guān)系等)的可視化服務(wù);以WarSampo 的戰(zhàn)爭(zhēng)墓地訪問視角提供的英雄公墓中死亡者的年齡統(tǒng)計(jì)為例,可以發(fā)現(xiàn)該公墓中的死亡者年齡范圍在15 歲到39 歲,其中22 歲的死亡者最多。 此外,還可以通過(guò)地圖對(duì)死亡地點(diǎn)進(jìn)行可視化, 借助餅圖對(duì)死亡人員的軍銜等級(jí)進(jìn)行可視化統(tǒng)計(jì)等。

        4 特點(diǎn)與啟示

        SeCo 創(chuàng)建的語(yǔ)義組織與語(yǔ)義服務(wù)項(xiàng)目發(fā)展較成熟,且具有綜合性、跨領(lǐng)域的特征,在信息資源語(yǔ)義整合、應(yīng)用與服務(wù)方面取得了重要進(jìn)展,其在語(yǔ)義組織和語(yǔ)義服務(wù)方面的成功實(shí)踐可以為我國(guó)相關(guān)研究與實(shí)踐提供一定的啟示和借鑒。

        圖2 WarSampo 的地點(diǎn)訪問視角提供的語(yǔ)義檢索和知識(shí)發(fā)現(xiàn)服務(wù)

        圖3 WarSampo 的戰(zhàn)爭(zhēng)墓地訪問視角提供的某英雄公墓中死亡者的年齡統(tǒng)計(jì)

        (1)語(yǔ)義組織的對(duì)象從書目向非書目信息資源擴(kuò)展。在資源類型方面,隨著數(shù)字技術(shù)和信息技術(shù)的迅猛發(fā)展,信息資源的類型日益增多,語(yǔ)義組織的對(duì)象也開始變得豐富多樣。 以往以書目信息資源為中心的語(yǔ)義組織已無(wú)法完全滿足需求, 目前語(yǔ)義組織的資源類型已出現(xiàn)從傳統(tǒng)的書目信息擴(kuò)展到非書目信息的趨勢(shì),因此應(yīng)多關(guān)注對(duì)文物、雕塑、照片、視頻、音頻、廣告和地圖等多模態(tài)非書目信息資源的研究。目前, 國(guó)內(nèi)對(duì)非書信息資源的關(guān)注度仍不夠高。 今后, 國(guó)內(nèi)語(yǔ)義組織的研究對(duì)象的選擇應(yīng)多關(guān)注非書目信息資源。

        (2)語(yǔ)義標(biāo)注的深度從外部特征向內(nèi)容語(yǔ)義深入。 在標(biāo)注深度方面,早期的語(yǔ)義標(biāo)注的粒度較粗,主要關(guān)注資源的外部特征, 缺少對(duì)內(nèi)容層面的語(yǔ)義挖掘。當(dāng)前語(yǔ)義標(biāo)注逐步深入到內(nèi)容層面,標(biāo)注粒度變細(xì),呈現(xiàn)從外部元數(shù)據(jù)向內(nèi)容語(yǔ)義深入的趨勢(shì),有助于更加充分地發(fā)掘資源的有用語(yǔ)義信息, 提高資源的利用率。目前,國(guó)內(nèi)對(duì)語(yǔ)義組織的研究深度尚顯不足。今后,國(guó)內(nèi)語(yǔ)義組織的研究視角的選擇應(yīng)多關(guān)注深度內(nèi)容語(yǔ)義標(biāo)注。

        (3)信息資源的覆蓋范圍從單一領(lǐng)域向多領(lǐng)域擴(kuò)展。在研究領(lǐng)域方面,SeCo 研究團(tuán)隊(duì)至今已開發(fā)了28 個(gè)項(xiàng)目,這些項(xiàng)目涉及人文學(xué)科和自然科學(xué)的諸多研究領(lǐng)域,研究范圍廣泛。其中,以人文社科居多,如歷史戰(zhàn)爭(zhēng)、人物傳記、圖書、旅游、法律等領(lǐng)域;自然科學(xué)領(lǐng)域相對(duì)較少,如健康醫(yī)學(xué)領(lǐng)域等。 目前,國(guó)內(nèi)相關(guān)研究和實(shí)踐仍以人文社科為主, 自然科學(xué)甚少,且總體而言,人文社科領(lǐng)域的實(shí)踐數(shù)量較之國(guó)外相對(duì)較少。今后,國(guó)內(nèi)語(yǔ)義組織的研究領(lǐng)域的選取可以采取橫縱結(jié)合的方式,在縱向上,進(jìn)一步深入探索人文社科可能的研究領(lǐng)域, 在橫向上向自然科學(xué)相關(guān)領(lǐng)域擴(kuò)展。

        (4)語(yǔ)義服務(wù)從文本向圖像可視化發(fā)展??梢暬夹g(shù)可以更加生動(dòng)、形象地展示語(yǔ)義信息,使用戶的理解更加深刻, 同時(shí)還可以挖掘其中隱含的規(guī)律。SeCo 為用戶提供多種可視化方式,借助地圖、時(shí)間軸、網(wǎng)狀關(guān)系圖、柱狀圖、餅圖等方式可以實(shí)現(xiàn)時(shí)空語(yǔ)義信息、社會(huì)關(guān)系和統(tǒng)計(jì)信息的可視化。 目前,國(guó)內(nèi)相關(guān)研究和實(shí)踐仍以平面化服務(wù)方式(頁(yè)面瀏覽或逐級(jí)瀏覽)為主,內(nèi)容多以文字方式呈現(xiàn),很少提供可視化服務(wù)。今后,國(guó)內(nèi)應(yīng)嘗試提供多種圖像可視化語(yǔ)義服務(wù),使研究更加立體、易懂。

        (5)語(yǔ)義服務(wù)從單一向多樣化發(fā)展。語(yǔ)義技術(shù)最大的優(yōu)勢(shì)在于機(jī)器可讀可理解,在此基礎(chǔ)上為人類智能地處理信息,提供智能化知識(shí)服務(wù)。 SeCo 創(chuàng)建的語(yǔ)義服務(wù)模式主要包括語(yǔ)義門戶和移動(dòng)應(yīng)用, 這兩種模式符合當(dāng)前互聯(lián)網(wǎng)時(shí)代的用戶需求。 SeCo 提供的語(yǔ)義服務(wù)類型主要包括: 多視角訪問、 支持多語(yǔ)言、語(yǔ)義瀏覽和語(yǔ)義檢索、知識(shí)發(fā)現(xiàn)、可視化分析等。其中,支持多語(yǔ)言為其它服務(wù)提供了重要的基礎(chǔ),特別是國(guó)際通用的英語(yǔ),有助于提高用戶友好性。語(yǔ)義服務(wù)類型和服務(wù)視角應(yīng)具有多樣性, 以滿足不同類型用戶的多樣化需求。目前,國(guó)內(nèi)提供的語(yǔ)義服務(wù)以網(wǎng)站為主,移動(dòng)應(yīng)用甚少。此外,國(guó)內(nèi)提供的語(yǔ)義服務(wù)方式較少,鮮有支持多語(yǔ)言、可視化分析、知識(shí)發(fā)現(xiàn)等語(yǔ)義服務(wù)。 未來(lái),國(guó)內(nèi)語(yǔ)義服務(wù)應(yīng)朝多樣化方向發(fā)展。

        5 結(jié)語(yǔ)

        SeCo 項(xiàng)目實(shí)踐作為當(dāng)今國(guó)際上語(yǔ)義組織與語(yǔ)義服務(wù)的一個(gè)典型實(shí)踐, 展現(xiàn)了語(yǔ)義組織與語(yǔ)義服務(wù)的新思路和新方法, 對(duì)我國(guó)語(yǔ)義組織與語(yǔ)義服務(wù)實(shí)踐具有重要的借鑒意義。 本文從資源類型與標(biāo)注深度、語(yǔ)義模型、語(yǔ)義數(shù)據(jù)構(gòu)建與集成、語(yǔ)義服務(wù)四個(gè)方面對(duì)SeCo 開發(fā)的項(xiàng)目進(jìn)行了梳理和分析,重點(diǎn)對(duì)SeCo 語(yǔ)義組織與語(yǔ)義服務(wù)的特點(diǎn)進(jìn)行總結(jié),精煉了其對(duì)我國(guó)開展相關(guān)實(shí)踐的幾點(diǎn)重要啟示。目前,我國(guó)仍缺乏大型語(yǔ)義組織與語(yǔ)義服務(wù)實(shí)踐項(xiàng)目, 在這一研究領(lǐng)域仍有較大的可研究和探索空間, 希望本文的探討可以為國(guó)內(nèi)開展相關(guān)實(shí)踐提供一些參考。

        猜你喜歡
        本體檢索語(yǔ)義
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
        語(yǔ)言與語(yǔ)義
        2019年第4-6期便捷檢索目錄
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        認(rèn)知范疇模糊與語(yǔ)義模糊
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        語(yǔ)義分析與漢俄副名組合
        国产高清a| 久久精品国产亚洲av电影网| 99精品国产99久久久久久97| 九九精品无码专区免费| 肉丝高跟国产精品啪啪| 国产精品专区第一页天堂2019| 乱中年女人伦av一区二区| 无遮无挡三级动态图| 亚洲无码毛片免费视频在线观看| 国产精品女同av在线观看| 久久免费网站91色网站| 亚洲一区二区综合精品| 成人免费无码大片a毛片| 性xxxx视频播放免费| 久久国产国内精品对话对白| 国产精品黄色在线观看| 人人妻人人添人人爽欧美一区| 国产美女自慰在线观看| 在线免费欧美| 99久久久69精品一区二区三区| 激情内射亚洲一区二区三区| 亚洲av无码av制服丝袜在线| 亚洲一区区| 亚洲捆绑女优一区二区三区 | 日日干夜夜操高清视频| 国产亚洲日韩AV在线播放不卡| 国产一区二区三区在线男友| 亚洲愉拍99热成人精品热久久| 国产亚洲日韩欧美久久一区二区| 亚洲国产精一区二区三区性色| 美利坚日韩av手机在线| 亚洲国产另类精品| 国产精品午夜波多野结衣性色| 中文字幕亚洲乱码熟女1区2区| 欧美a级在线现免费观看| 伊人久久无码中文字幕| Jizz国产一区二区| 精品国产亚洲av高清大片| 影音先锋男人站| 91精品91| 日本黄色影院一区二区免费看|