摘 要∶人文計(jì)算中的語(yǔ)義組織對(duì)人文計(jì)算研究具有重要意義。文章采用案例調(diào)查與文獻(xiàn)分析的方法,從語(yǔ)義組織技術(shù)、基于語(yǔ)義組織的人文計(jì)算服務(wù)兩個(gè)方面對(duì)人文計(jì)算中的語(yǔ)義組織研究現(xiàn)狀進(jìn)行梳理、總結(jié)并提出相應(yīng)的建議。未來(lái)的人文計(jì)算研究可加深語(yǔ)義標(biāo)注的層次,促進(jìn)領(lǐng)域數(shù)據(jù)的關(guān)聯(lián)與復(fù)用,開(kāi)發(fā)出更多的語(yǔ)義知識(shí)服務(wù)。
關(guān)鍵詞∶人文計(jì)算;語(yǔ)義組織;數(shù)字人文;知識(shí)圖譜
中圖法分類(lèi)號(hào)∶TP3-05??? 文獻(xiàn)標(biāo)識(shí)碼∶A
Research on semantic organization in humanities computing
LIU Jianbin
(College of Information Management, Nanjing Agricultural University, Nanjing 21095, China)
Abstract:Semantic organization in humanistic compouting is of great significance to the research of humanistic computing. Using the methods of case investigation and literature analysis, this paper sorts out the research status of semantic organization in humanistic computing from two perspectives:semantic organization technology andhumanistic computing services based on semantic organization, and puts forward corresponding suggestions. Future humanistic computing research can improve semantic annotation,enhance domain data correlation and reuse, and provide more semantic knowledge services
Key words: humanistic computing, semantic organization,digital humanities,knowledge graph
1引言
整合領(lǐng)域知識(shí)的常見(jiàn)方法是以語(yǔ)義化的方式來(lái)對(duì)不同來(lái)源與不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行組織,近年來(lái),人文計(jì)算的處理對(duì)象越來(lái)越多樣化,數(shù)據(jù)的結(jié)構(gòu)越來(lái)越復(fù)雜,結(jié)合本體、語(yǔ)義知識(shí)圖譜、機(jī)器學(xué)習(xí)等語(yǔ)義技術(shù)對(duì)人文計(jì)算資源進(jìn)行有效的語(yǔ)義組織與整合是人文計(jì)算研究中的關(guān)鍵一步。在此背景下,本文以人文計(jì)算領(lǐng)域中的相關(guān)研究及項(xiàng)目為基礎(chǔ),對(duì)國(guó)內(nèi)外人文計(jì)算領(lǐng)域中的語(yǔ)義組織技術(shù)研究現(xiàn)狀進(jìn)行研究,以期為人文計(jì)算的語(yǔ)義組織研究提供借鑒。
2人文計(jì)算中的語(yǔ)義組織
語(yǔ)義組織使研究者能夠更快地發(fā)現(xiàn)原始數(shù)據(jù)及資源之間的內(nèi)在聯(lián)系,從而更加準(zhǔn)確地發(fā)現(xiàn)有關(guān)事實(shí),解決研究問(wèn)題。人文計(jì)算研究中的語(yǔ)義組織方法主要分為傳統(tǒng)語(yǔ)義組織技術(shù)、現(xiàn)代語(yǔ)義組織技術(shù)及其他語(yǔ)義組織技術(shù)等三個(gè)類(lèi)別。
2.1傳統(tǒng)語(yǔ)義組織技術(shù)
(1)敘詞表
敘詞表以概念為基本原則,認(rèn)為任何語(yǔ)詞都是概念的象征,通過(guò)概念以及概念間的關(guān)系構(gòu)建專(zhuān)業(yè)領(lǐng)域的知識(shí)。Getty詞表是人文計(jì)算領(lǐng)域中比較有代表性的詞表,被廣泛應(yīng)用于博物館編目和文獻(xiàn)工作,以及藝術(shù)、建筑和物質(zhì)文化方面的數(shù)據(jù)檢索,是人文計(jì)算領(lǐng)域的經(jīng)典詞表。我國(guó)的敦煌壁畫(huà)主題詞表是借鑒AAT的分面與層級(jí)劃分關(guān)系,針對(duì)敦煌壁畫(huà)的內(nèi)容構(gòu)建的敘詞表,用于規(guī)范敦煌壁畫(huà)數(shù)據(jù)的標(biāo)注與挖掘。除此之外,針對(duì)人文計(jì)算領(lǐng)域構(gòu)建的敘詞表還有樂(lè)器分類(lèi)詞表、藝術(shù)作品描述類(lèi)目[1]等領(lǐng)域詞表,以及人名規(guī)范、地理名稱(chēng)規(guī)范詞表等。使用敘詞表在人文計(jì)算中進(jìn)行語(yǔ)義組織的優(yōu)點(diǎn)是敘詞表的使用簡(jiǎn)單方便,但敘詞表的編制較為困難,不適用于組織有個(gè)性化需求的數(shù)據(jù)。
(2)元數(shù)據(jù)
元數(shù)據(jù)用于描述資源的基本信息、存儲(chǔ)位置信息。將元數(shù)據(jù)模型用于人文計(jì)算領(lǐng)域的語(yǔ)義組織的主要步驟有元數(shù)據(jù)元素信息抽取、元數(shù)據(jù)元素定義與描述規(guī)范設(shè)計(jì)、基于元數(shù)據(jù)的信息庫(kù)建設(shè)以及元數(shù)據(jù)應(yīng)用體系構(gòu)建。都柏林核心元數(shù)據(jù)用于描述網(wǎng)絡(luò)信息資源,包含15個(gè)核心元素集,可以分為資源內(nèi)容描述、知識(shí)產(chǎn)權(quán)描述和外部特征屬性描述三個(gè)部分,適用于對(duì)資源的控制和管理進(jìn)行規(guī)范,與其他元數(shù)據(jù)之間互操作性強(qiáng)。在人文計(jì)算的應(yīng)用中,DC元數(shù)據(jù)常常與其他模型結(jié)合來(lái)組織領(lǐng)域數(shù)據(jù),如胡以濤[2]在復(fù)用DC元數(shù)據(jù)以及CIDOC-CRM的基礎(chǔ)上建立了描述農(nóng)業(yè)文化遺產(chǎn)的元數(shù)據(jù)標(biāo)準(zhǔn),姚天泓等[3]在復(fù)用DC元數(shù)據(jù)、CIDOC-CRM,F(xiàn)OAF的基礎(chǔ)上對(duì)張學(xué)良史料資源進(jìn)行語(yǔ)義組織。
2.2現(xiàn)代語(yǔ)義組織技術(shù)
(1)本體
本體是對(duì)某個(gè)領(lǐng)域的概念及其相互之間關(guān)系的形式化表達(dá),人文計(jì)算領(lǐng)域比較通用的本體模型有CIDOC-CRM,EDM等。CIDOC-CRM是國(guó)際文獻(xiàn)工作委員會(huì)開(kāi)發(fā)的概念參考模型,用于描述文化遺產(chǎn)領(lǐng)域信息的概念與關(guān)系,是一種以事件為中心的本體構(gòu)建方法。陳艷[4]以DC元數(shù)據(jù)的映射為例,介紹了基于CIDOCCRM的文化遺產(chǎn)資源的元數(shù)據(jù)集成方案;Tan[5]在CIDOCCRM的基礎(chǔ)上構(gòu)建了“喪葬舞蹈”本體。EDM是歐洲數(shù)字圖書(shū)館Europeana在采用其他數(shù)據(jù)模型的基礎(chǔ)上,根據(jù)自身的數(shù)據(jù)特點(diǎn)設(shè)計(jì)的語(yǔ)義描述模型,建立了面向文化遺產(chǎn)領(lǐng)域的元數(shù)據(jù)知識(shí)本體模型[6]在拓展EDM的基礎(chǔ)上構(gòu)建了女性?xún)?nèi)容表達(dá)本體。此外,還有許多領(lǐng)域本體,如ABC本體、地緣政治本體、音樂(lè)本體、舞蹈本體等。由于大部分研究都針對(duì)資源特點(diǎn)構(gòu)建了本體,所以人文計(jì)算領(lǐng)域的本體較多,彼此之間的復(fù)用性較差。
(2)關(guān)聯(lián)數(shù)據(jù)
關(guān)聯(lián)數(shù)據(jù)是萬(wàn)維網(wǎng)發(fā)明者TimBerners-Lee在2006年提出的,關(guān)聯(lián)數(shù)據(jù)建立在標(biāo)準(zhǔn)的網(wǎng)絡(luò)技術(shù)(如HTTP,RDF和URI)的基礎(chǔ)上,旨在使計(jì)算機(jī)也能理解網(wǎng)頁(yè)上的信息。目前,大部分傳統(tǒng)語(yǔ)義組織工具都發(fā)布了關(guān)聯(lián)數(shù)據(jù)形式,如Getty敘詞表、敦煌壁畫(huà)主題詞表、DC元數(shù)據(jù)等,方便用戶(hù)使用。上海圖書(shū)館將家譜數(shù)據(jù)、檔案數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布在網(wǎng)站上;歐洲數(shù)字手稿項(xiàng)目[7]以關(guān)聯(lián)數(shù)據(jù)技術(shù)重構(gòu)并發(fā)布數(shù)字人文關(guān)聯(lián)開(kāi)放數(shù)據(jù)集;“威尼斯時(shí)光機(jī)”項(xiàng)目通過(guò)關(guān)鍵詞建立起不同類(lèi)型文檔的鏈接,將信息組織成一個(gè)巨大的關(guān)聯(lián)數(shù)據(jù)資源庫(kù)[8]。
(3)知識(shí)圖譜
知識(shí)圖譜是谷歌公司在2012年提出的一種組織知識(shí)單元的方法,在實(shí)際應(yīng)用中可以分為廣義知識(shí)圖譜與語(yǔ)義知識(shí)圖譜。陳濤等[9]以CBDB中的數(shù)據(jù)為基礎(chǔ),構(gòu)建了人物關(guān)系知識(shí)圖譜,并對(duì)其中的人物關(guān)系進(jìn)行推理補(bǔ)充;楊海慈等[10]構(gòu)建了宋代師承關(guān)系知識(shí)圖譜;周莉娜等[11]構(gòu)建了唐詩(shī)知識(shí)圖譜并開(kāi)發(fā)出唐詩(shī)智能服務(wù)平臺(tái)KnowPoetry。相較于其他語(yǔ)義組織方法,知識(shí)圖譜的優(yōu)點(diǎn)是可以實(shí)現(xiàn)知識(shí)推理可視化。
2.3其他語(yǔ)義組織工具
GIS是一種空間信息的分析與處理的計(jì)算機(jī)工具,人文計(jì)算研究中常將原始數(shù)據(jù)通過(guò)GIS進(jìn)行空間的可視化,這是人文計(jì)算中語(yǔ)義組織的方式之一。Knoerl[12]認(rèn)為歷史地圖能清晰地讓歷史學(xué)家了解一個(gè)地區(qū)的歷史,最早將GIS技術(shù)引入歷史學(xué)的研究中。Murrieta[13]使用GIS分析了19世紀(jì)英國(guó)霍亂發(fā)生的位置信息。
3基于語(yǔ)義組織的人文計(jì)算應(yīng)用
在現(xiàn)有研究中,部分人文計(jì)算學(xué)者在語(yǔ)義組織的基礎(chǔ)上開(kāi)發(fā)出面向用戶(hù)的知識(shí)服務(wù),拓展了語(yǔ)義組織的作用與意義。目前,基于語(yǔ)義組織的人文計(jì)算應(yīng)用主要有知識(shí)可視化、語(yǔ)義檢索、智慧知識(shí)服務(wù)三個(gè)方面。
3.1知識(shí)可視化
人文計(jì)算語(yǔ)義組織可視化的應(yīng)用主要有基于知識(shí)圖譜、GIS、歷史時(shí)間軸等方式的可視化。大不列顛名人庫(kù)用可視化技術(shù)展示名人之間血緣關(guān)系或因處于同一時(shí)空而產(chǎn)生的關(guān)聯(lián)關(guān)系等;嚴(yán)承希等[14]以CBDB的數(shù)據(jù)為基礎(chǔ),繪制了宋代政治網(wǎng)絡(luò)關(guān)系圖,展現(xiàn)宋代的政治中心演變與政治合作對(duì)抗關(guān)系;美國(guó)猶他家譜學(xué)會(huì)數(shù)據(jù)庫(kù)利用時(shí)空關(guān)聯(lián)和親屬關(guān)系等可視化內(nèi)容特征來(lái)探索家譜資源和人物關(guān)系?;谥R(shí)圖譜以及VR技術(shù)、GIS技術(shù)的知識(shí)發(fā)現(xiàn)平臺(tái),促進(jìn)了人文計(jì)算研究結(jié)果的轉(zhuǎn)化。
3.2語(yǔ)義檢索
人文計(jì)算研究者將語(yǔ)義組織后的數(shù)據(jù)庫(kù)、知識(shí)庫(kù)開(kāi)放給用戶(hù)查詢(xún)使用,主要包含兩個(gè)方面:一是在用戶(hù)的檢索結(jié)果內(nèi)提供語(yǔ)義化的結(jié)果,用戶(hù)可以在普通檢索界面進(jìn)行語(yǔ)義檢索或在檢索結(jié)果中通過(guò)關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)相關(guān)結(jié)果;二是人文計(jì)算項(xiàng)目平臺(tái)為用戶(hù)提供專(zhuān)業(yè)的SPARQL查詢(xún),如上海圖書(shū)館開(kāi)放數(shù)據(jù)平臺(tái)的家譜知識(shí)服務(wù)平臺(tái)、盛宣懷檔案數(shù)據(jù)庫(kù)為用戶(hù)提供SPARQL查詢(xún)方式等。普通用戶(hù)通過(guò)人文計(jì)算項(xiàng)目提供的語(yǔ)義檢索平臺(tái)可以發(fā)現(xiàn)更多知識(shí),便于獲取信息。
3.3智慧服務(wù)
智慧服務(wù)指人文計(jì)算研究者為用戶(hù)提供深層次的人文計(jì)算服務(wù)。當(dāng)前,人文計(jì)算研究者推出的面向普通用戶(hù)的深層次人文計(jì)算智慧服務(wù)較少,處于發(fā)展階段。中國(guó)家譜知識(shí)服務(wù)平臺(tái)是上海圖書(shū)館推出的基于關(guān)聯(lián)開(kāi)放數(shù)據(jù)的數(shù)字人文服務(wù),用戶(hù)可以在該平臺(tái)查閱家譜、進(jìn)行姓氏尋根溯源,也可以在線修家譜、上傳家譜數(shù)據(jù)等;清華大學(xué)的九歌智能系統(tǒng)具有自動(dòng)寫(xiě)詩(shī)服務(wù),用戶(hù)可以輸入關(guān)鍵詞由系統(tǒng)自動(dòng)生成詩(shī)歌;還有學(xué)者將有關(guān)語(yǔ)義信息應(yīng)用于博物館館藏品的在線展示中,為用戶(hù)提供展覽品的時(shí)空演變過(guò)程信息。
4總結(jié)
本文對(duì)人文計(jì)算研究中的語(yǔ)義組織技術(shù)以及語(yǔ)義的人文計(jì)算服務(wù)進(jìn)行了梳理。從當(dāng)前已有的研究結(jié)果來(lái)看,大部分傳統(tǒng)的語(yǔ)義組織工具,如敘詞表、元數(shù)據(jù)等都發(fā)布了關(guān)聯(lián)數(shù)據(jù)的形式,元數(shù)據(jù)在人文計(jì)算語(yǔ)義組織中的使用經(jīng)常根據(jù)數(shù)據(jù)特點(diǎn)與其他模型相結(jié)合;人文計(jì)算領(lǐng)域的本體較多,各本體之間的復(fù)用比較困難,缺少通用性較強(qiáng)的本體模型,尤其是在國(guó)內(nèi)的研究中更為突出;人文計(jì)算中語(yǔ)義標(biāo)注的層次較淺,語(yǔ)義知識(shí)圖譜的構(gòu)建較少,知識(shí)推理的研究相對(duì)較少;人文計(jì)算中面向普通用戶(hù)的語(yǔ)義服務(wù)較少,沒(méi)能為用戶(hù)提供方便使用的人文計(jì)算服務(wù)。在今后的研究中,人文計(jì)算學(xué)者可以加深數(shù)據(jù)語(yǔ)義標(biāo)注的層次,建立數(shù)據(jù)之間的關(guān)聯(lián),開(kāi)發(fā)領(lǐng)域語(yǔ)義組織工具與通用數(shù)據(jù)模型,并開(kāi)發(fā)更多的人文計(jì)算服務(wù)。
參考文獻(xiàn):
[1]LubasRL,JacksonAS,SchneiderI.UsingCategoriesfortheDescriptionofWorksofArt(CDWA)andCDWALite:WithinformationfromtheGettyInstitute[J].Metadata
Manual2013:93-133.
[2]胡以濤,惠富平.元數(shù)據(jù)方法在數(shù)字人文視域下的應(yīng)用探索—以農(nóng)業(yè)文化遺產(chǎn)為例[J].圖書(shū)館,2019(1):82-87.
[3]姚天泓,陳艷梅,劉革,等.基于CIDOC-CRM的數(shù)字人文史料資源語(yǔ)義化知識(shí)組織研究—以張學(xué)良史料資源為例[J].圖書(shū)館學(xué)刊,2019,41(7):35-43.
[4]陳艷,周馨.基于CIDOCCRM的文化遺產(chǎn)資源的元數(shù)據(jù)集成—以DC元數(shù)據(jù)的映射為例[J].現(xiàn)代情報(bào),2010,30(5):60-63+84.
[5]TanG,SunG,ZhongZ.KnowledgeRepresentationof“FuneralDance”BasedonCIDOCCRM[C]//20092ndInternationalSymposiumonKnowledgeAcquisitionandModeling(KAM2009),2009:39-42.
[6]KyvernitouI,BikakisA.AnOntologyforGenderedContentRepresentationofCulturalHeritageArtefacts[J].DigitalHumanitiesQuarterly,2017,11(3):58-66.
[7]BaiererK,EckertK,GoldfarbD,etal.DM2E:ALinkedDatasourceofDigitisedManuscriptsfortheDigitalHumanities[J].SemanticWeb,2017,8(5):733-745.
[8]翟?shī)檴?,張純,許鑫.文化遺產(chǎn)數(shù)字化長(zhǎng)期保存策略研究—以“威尼斯時(shí)光機(jī)”項(xiàng)目為例[J].圖書(shū)情報(bào)工作,2019,63(11):140-148.
[9]陳濤,劉煒,單蓉蓉,等.知識(shí)圖譜在數(shù)字人文中的應(yīng)用研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2019,45(6):34-49.
[10]楊海慈,王軍.宋代學(xué)術(shù)師承知識(shí)圖譜的構(gòu)建與可視化[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(6):109-116.
[11]周莉娜,洪亮,高子陽(yáng).唐詩(shī)知識(shí)圖譜的構(gòu)建及其智能知識(shí)服務(wù)設(shè)計(jì)[J].圖書(shū)情報(bào)工作,2019,63(2):24-33.
[12]SantosJ.Usingmachinelearningmethodsfordisambiguating
placereferencesintextualdocuments[J].Geojournal,2015,80(3):375-392.
[13]Murrieta-FloresP,BaronA,GregoryI,etal.Automatically
AnalyzingLargeTextsinaGISEnvironment:TheRegistrarGeneral'sReportsandCholerainthe19thCentury[J].TransactionsinGIS,2015,19(2):296-320.
[14]嚴(yán)承希,王軍.數(shù)字人文視角:基于符號(hào)分析法的宋代政治網(wǎng)絡(luò)可視化研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2018,44(5):87-103.
作者簡(jiǎn)介:
劉建斌(1997—),碩士,研究方向:文本挖掘與數(shù)字人文。
計(jì)算機(jī)應(yīng)用文摘·觸控2022年16期