佟淑玲 王越文 李澤坤
摘 ?要:聲像檔案利用呈現(xiàn)出扁平化、粗粒度等特征,同時檔案保管機(jī)構(gòu)無法實現(xiàn)聲像檔案同其他載體信息的深度關(guān)聯(lián),機(jī)構(gòu)間缺乏互聯(lián)互通,難以滿足用戶日益增長的多元化需求。對此筆者結(jié)合聲像檔案特征,利用七步法對聲像檔案本體概念進(jìn)行歸納總結(jié),借助protégé軟件建成本體模型,隨后按照本體模型對于數(shù)據(jù)的要求,爬取數(shù)據(jù),并通過知識抽取等操作完成數(shù)據(jù)的處理,最后將注入實例數(shù)據(jù)的本體模型導(dǎo)入至Neo4j中,形成圖譜,以期為今后的研究提供借鑒。
關(guān)鍵詞:聲像檔案;知識圖譜;本體;鄧小平
Abstract: The utilization of audio-visual archives presents the characteristics of flattening and coarse granularity. At the same time, the archives depository cannot realize the deep association between audio-visual archives and other carrier information. The lack of interconnection between institutions makes it difficult to meet the growing diversified needs of users. In this regard, the author combines the characteristics of audio-visual archives, summarizes the ontology concept of audio-visual archives by seven steps, builds up the ontology model with the help of protégé software, crawls the data according to the requirements of the ontology model for data, and completes the data processing through knowledge extraction and other operations. Finally, the ontology model injected with the case data is imported into Neo4j to form a map, which is expected to provide reference for future research.
Keywords: Audio-visual archives; Knowledge atlas; Ontology; Deng Xiaoping
隨著數(shù)字人文理論的發(fā)展,將數(shù)字技術(shù)同人文理念相結(jié)合已經(jīng)成為諸多學(xué)者優(yōu)化傳統(tǒng)信息資源管理與利用的新晉選擇,其中知識圖譜因具有良好的共享性與多維性,能夠在本體技術(shù)的基礎(chǔ)上揭示不同載體檔案之間的潛在關(guān)聯(lián),為各機(jī)構(gòu)對于聲像檔案的知識化利用提供框架,打破機(jī)構(gòu)間藩籬,幫助利用者挖掘聲像檔案核心內(nèi)涵,為進(jìn)一步共享利用賦能。
為解決各機(jī)構(gòu)之間缺乏統(tǒng)一的聲像檔案知識化共享利用框架的問題,借助本體技術(shù)對多模態(tài)、粗粒度的聲像檔案進(jìn)行內(nèi)容動態(tài)重組與顆?;鈽?gòu),并在此基礎(chǔ)上構(gòu)建領(lǐng)域知識圖譜,不但具有較強(qiáng)的現(xiàn)實意義,而且也符合數(shù)字人文背景下檔案事業(yè)發(fā)展的核心內(nèi)涵。
1 研究現(xiàn)狀
在理論層面,目前國內(nèi)對于聲像檔案的研究大多數(shù)仍停留在管理層面,致力于從宏觀角度設(shè)計制定相關(guān)制度,以推動聲像檔案的規(guī)范化建設(shè)。[1]李美芳等提出應(yīng)當(dāng)營造聲像檔案共建共享共贏新生態(tài),構(gòu)建“接收+征集+拍攝”新常態(tài)。[2]胡悅意提出開發(fā)聲像檔案統(tǒng)籌平臺,利用網(wǎng)絡(luò)實現(xiàn)聲像檔案資源聚合,提升聲像檔案管理水平。[3]
與此同時,也有學(xué)者著眼于聲像檔案的數(shù)字化加工整理,強(qiáng)調(diào)“模轉(zhuǎn)數(shù)”與原生電子聲像檔案管護(hù)的必要性。龍芊良認(rèn)為各高校在數(shù)字化聲像檔案的過程中應(yīng)當(dāng)按照“重點突出、分批選擇”的數(shù)字化原則,設(shè)定嚴(yán)格的辦公流程,并建設(shè)多元人才梯隊。[4]王偉提出要從制度、渠道、利用、人才隊伍建設(shè)等四方面優(yōu)化數(shù)字化流程,合理挖掘聲像檔案資源價值。[5]與此相對應(yīng)的,僅有少量學(xué)者關(guān)注聲像檔案的知識化開發(fā)與利用,[6-7]大部分學(xué)者的研究視角仍聚焦在聲像檔案的數(shù)字化與數(shù)據(jù)化層面,缺少知識化處理利用方面的研究,導(dǎo)致聲像檔案在缺乏完整語境的情況下,只能重現(xiàn)某一時間段的歷史,用戶無法借助其回顧歷史的全貌。[8]同時,由于聲像檔案非結(jié)構(gòu)化的特征以及資源描述體系的不健全,[9]使得國內(nèi)對于聲像檔案知識化方面的研究存在滯后性,大部分研究僅停留在宏觀層面,未能打通“數(shù)字化—數(shù)據(jù)化—知識化”路徑,后續(xù)知識化工作進(jìn)展緩慢,尚未出現(xiàn)以聲像檔案為本體的知識圖譜構(gòu)建研究。
因此本文參照斯坦福醫(yī)學(xué)院七步法,利用Protégé工具構(gòu)建本體模型,聚焦聲像檔案間隱含的知識鏈,在構(gòu)建模式層與數(shù)據(jù)層的基礎(chǔ)上,注入相關(guān)實例數(shù)據(jù),并通過Neo4j圖數(shù)據(jù)庫完成知識圖譜的存儲與可視化,借以實現(xiàn)聲像檔案資源的深度關(guān)聯(lián)聚合,加強(qiáng)數(shù)據(jù)的共享與利用。
2 聲像檔案知識圖譜整體架構(gòu)及研究流程設(shè)計
考慮到應(yīng)確保聲像檔案知識圖譜的邏輯性與系統(tǒng)性,需要在把握聲像檔案特性的同時,將知識圖譜構(gòu)建理論同實踐相結(jié)合,分層設(shè)計整體架構(gòu),并以此為依據(jù)梳理圖譜構(gòu)建流程,明確各環(huán)節(jié)工作步驟,為構(gòu)建基于本體的聲像檔案知識圖譜提供指導(dǎo)牽引。
2.1 聲像檔案知識圖譜整體架構(gòu)
聲像檔案知識圖譜的構(gòu)建以邏輯規(guī)則為核心,在抓取的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,借助本體框架約束知識的提取、加工、融合,最終實現(xiàn)知識層面的應(yīng)用。因此,筆者按照分層理論,將聲像檔案知識圖譜整體架構(gòu)劃分為源數(shù)據(jù)層、邏輯層與應(yīng)用層,如圖1所示。
首先是源數(shù)據(jù)層。聲像檔案來源廣泛,種類繁多,囊括了大量的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),其中以非結(jié)構(gòu)化數(shù)據(jù)為主。這就導(dǎo)致絕大部分聲像檔案資源的知識加工程度較低,無法直接用于知識圖譜構(gòu)建,需要經(jīng)過邏輯層處理后,才能分類聚合多源異構(gòu)數(shù)據(jù),實現(xiàn)知識組織。
其次是邏輯層。知識圖譜依照邏輯可分為模式層與數(shù)據(jù)層。其中模式層作為知識圖譜的核心,是在既有邏輯規(guī)則的約束下,框定實體范圍,梳理其間關(guān)系,并在此基礎(chǔ)上構(gòu)建實例模型。而數(shù)據(jù)層則是依照模式層的要求,將從數(shù)據(jù)中抽取的實體、關(guān)系、屬性進(jìn)行融合清洗,對齊實體與關(guān)系,細(xì)化數(shù)據(jù)粒度,最終以關(guān)聯(lián)數(shù)據(jù)的形式存儲至圖數(shù)據(jù)庫中,完成數(shù)據(jù)到知識的轉(zhuǎn)換,實現(xiàn)模式層的實例化與圖譜的可視化。
最后是應(yīng)用層。可視化后的知識圖譜能夠突破聲像檔案原始載體對于內(nèi)容的束縛,深化多源異構(gòu)數(shù)據(jù)之間的語義鏈接,將記載同一事件的不同載體、不同模態(tài)的聲像檔案數(shù)據(jù)進(jìn)行關(guān)聯(lián),形成多維度語義網(wǎng)絡(luò),實現(xiàn)聚類分析與檔案內(nèi)容之間的互補,使用戶無須翻閱大量檔案便可以了解歷史事件的全貌。同時以圖數(shù)據(jù)庫為平臺,依靠人工智能技術(shù),在專家標(biāo)注的基礎(chǔ)上,通過深度學(xué)習(xí)實現(xiàn)智能檢索與問答,提高聲像檔案資源知識化程度。借鑒文書檔案領(lǐng)域的相關(guān)研究,聲像檔案知識圖譜的應(yīng)用層在實際操作中可以表現(xiàn)為以事件或人物關(guān)系為主的知識發(fā)現(xiàn)、以圖片、視頻為主要對象的智能檢索和面向人機(jī)交互的知識問答系統(tǒng)。
2.2 研究流程設(shè)計。根據(jù)聲像檔案知識圖譜整體架構(gòu)可知,實現(xiàn)從數(shù)據(jù)到知識的轉(zhuǎn)變需要滿足兩點要求。第一點,應(yīng)當(dāng)符合主題范圍,即在明確主題范圍的前提下,查閱百度百科、OpenKG等知識庫,借助爬蟲程序盡可能網(wǎng)羅相關(guān)網(wǎng)站信息、圖片和視頻數(shù)據(jù)等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建起支撐圖譜運行的數(shù)據(jù)湖。第二點,遵循圖譜規(guī)則的約束。搜集來的海量數(shù)據(jù)經(jīng)過抽取后可分為實體、關(guān)系、屬性,在本體規(guī)則的制約下,不同元素可以相互組合形成<實體,關(guān)系,實體>或者<實體,屬性,屬性值>,例如<人物,親屬,人物>,并注入相關(guān)數(shù)據(jù)完成實例,例如<鄧小平,親屬,鄧榕>。本體模型作為構(gòu)建知識圖譜需求的體現(xiàn),發(fā)揮著規(guī)則制約與明確主題的作用,因此,筆者以構(gòu)建本體模型為牽引,按照數(shù)據(jù)獲取、知識抽取、知識融合等流程構(gòu)建聲像檔案知識圖譜。即首先按照“七步法”構(gòu)建聲像檔案知識圖譜的模式層;其次以模式層為基準(zhǔn),通過數(shù)據(jù)獲取、知識抽取、知識融合等流程完成數(shù)據(jù)層的組織重構(gòu);最后將注入實例數(shù)據(jù)的本體模型映射至Neo4j圖數(shù)據(jù)庫中,實現(xiàn)知識存儲與圖譜可視化,如圖2所示。
3 聲像檔案知識圖譜構(gòu)建與可視化
3.1 本體模型構(gòu)建。本體模型的合理性直接影響到知識圖譜的科學(xué)性,為此本文以《錄音錄像類電子檔案元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》《數(shù)碼照片歸檔與管理規(guī)范》等行業(yè)標(biāo)準(zhǔn)為依據(jù),從聲像檔案內(nèi)容與形式特征入手,著眼于聲像檔案跨機(jī)構(gòu)、跨模態(tài)共享利用,按照七步法利用protégé擬定了聲像檔案本體模型。
①確立本體范圍。本文是以聲像檔案知識圖譜構(gòu)建為研究主題,其主要目的就是在遵循聲像檔案內(nèi)容與形式特征的基礎(chǔ)上,利用本體技術(shù)建模,針對聲像檔案內(nèi)容制定一系列的語義規(guī)則,界定實體、關(guān)系、屬性的范圍,構(gòu)建面向聲像檔案的領(lǐng)域知識圖譜,實現(xiàn)聲像檔案跨機(jī)構(gòu)、跨模態(tài)的共享利用,從而深耕檔案內(nèi)容,挖掘潛在的知識關(guān)聯(lián)。對此,需要參照《錄音錄像類電子檔案元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》等行業(yè)標(biāo)準(zhǔn),確定聲像檔案為主要研究對象,借以開展下一環(huán)節(jié)的研究。
②查找可復(fù)用本體。復(fù)用本體能夠有效提升不同本體模型的語義關(guān)聯(lián)程度,解決因標(biāo)準(zhǔn)不同或類名不統(tǒng)一造成的歧義、共享效率低下等問題,符合可擴(kuò)展性的本體構(gòu)建原則,[10]這對于加強(qiáng)機(jī)構(gòu)之間互聯(lián)互通、提高本體模型構(gòu)建效率具有重要作用。通過相關(guān)材料查詢本體模型中可能涉及的類或者屬性,利用protégé中的copy模塊,復(fù)用Time Ontology中的Temporal entity及其子類等,提高本體共享效率。復(fù)用的Time本體主要包含時間段與時間點,能夠完整還原事件發(fā)展的時間線,增強(qiáng)圖譜的歷時性與共時性展示能力,提升敘事維度,有利于解決聲像檔案扁平化管理與利用的問題。
③列舉聲像檔案本體重要元素。本體模型中主要包括實體、關(guān)系、屬性三類元素,其中關(guān)系可以表述為對象屬性,屬性可以表述為數(shù)據(jù)屬性。通過對于相關(guān)行業(yè)標(biāo)準(zhǔn)的研究,結(jié)合聲像檔案本身特征與敘事要素,暫確定聲像檔案本體模型共包括時間、地點、檔案等七大類,參與、攝錄、生平年月等25個對象屬性,名稱、檔號等23個數(shù)據(jù)屬性,后續(xù)會根據(jù)需求對其進(jìn)行增刪改減。
④定義聲像檔案本體分類體系。為精細(xì)知識粒度,實現(xiàn)知識分類,確保數(shù)據(jù)聚合的邏輯性,筆者從已經(jīng)列舉出的7個大類出發(fā),向下延伸,豐富分支體系。依據(jù)行業(yè)標(biāo)準(zhǔn),構(gòu)建分類體系,在默認(rèn)“owl:Thing”類下設(shè)置“事件”“人物”“地點”“時間”“聲像檔案”“設(shè)備”“機(jī)構(gòu)”7個一級類,其中事件按照主體可以分為“國家政治活動”“國家經(jīng)濟(jì)活動”“國家文化活動”“國家軍事活動”“私人休閑活動”;“人物”按照職責(zé)分工可以分為“參與者”“攝錄者”“數(shù)字化者”;“時間”復(fù)用Time Ontology中的Temporal entity及其子類;“聲像檔案”按照記錄形式可以劃分為“照片檔案”“錄音檔案”“錄像檔案”;“設(shè)備”按照作用可以分為“攝錄設(shè)備”與“數(shù)字化設(shè)備”;“機(jī)構(gòu)”按照承擔(dān)的任務(wù)可以分為“保管機(jī)構(gòu)”“攝錄機(jī)構(gòu)”“數(shù)字化機(jī)構(gòu)”,例如表1所示。該分類體系的意義主要在于能夠按照敘事原則將聲像檔案所記錄的歷史事件完整還原,同時遵循檔案生命周期理論,將參與其中的關(guān)鍵人與機(jī)構(gòu)進(jìn)行羅列,明確權(quán)責(zé)關(guān)系。
⑤定義聲像檔案本體屬性及關(guān)系。梳理已經(jīng)列舉出的本體元素,根據(jù)聲像檔案知識圖譜構(gòu)建的實際需求對其進(jìn)行增刪改減,定義對象屬性與數(shù)據(jù)屬性,合理確定適用范圍,確保實例數(shù)據(jù)能夠按照要求準(zhǔn)確嵌入模型中,保證模型的合理有序運行。經(jīng)過整理,現(xiàn)有對象屬性17個,分別是“使用、保管、參與、發(fā)生地點、發(fā)生時間、上下級、親屬、同事、同學(xué)、戰(zhàn)友、攝錄、數(shù)字化、數(shù)字化時間、生平年月、生成、記錄、隸屬”。數(shù)據(jù)屬性19個,分別是“題名、保管期限、檔號、密級、分辨率、是否數(shù)字化、原始載體類型、視頻碼率、音頻碼率、聲道、信息源、名稱、國家、姓名、字、性別、職位、設(shè)備型號、生產(chǎn)廠商”。
⑥定義聲像檔案本體約束條件。該環(huán)節(jié)主要是在前兩個環(huán)節(jié)的基礎(chǔ)上,根據(jù)本體分類體系對已確定的對象屬性以及數(shù)據(jù)屬性的定義域與值域進(jìn)行限制,明確陳述的主體與客體。[11]對象屬性方面,根據(jù)機(jī)構(gòu)在聲像檔案生命周期過程中所肩負(fù)的職責(zé),將“保管”的定義域設(shè)為“保管機(jī)構(gòu)”,值域設(shè)為“聲像檔案”,轉(zhuǎn)換成RDF三元組表示為“保管機(jī)構(gòu)、保管、聲像檔案”,其中保管機(jī)構(gòu)是保管的主體,聲像檔案作為客體。同理,余下對象屬性的定義域與值域如圖所示。數(shù)據(jù)屬性方面,按照《錄音錄像類電子檔案元數(shù)據(jù)方案》《照片類電子檔案元數(shù)據(jù)方案》等行業(yè)標(biāo)準(zhǔn),設(shè)置本體數(shù)據(jù)屬性,規(guī)范聲像檔案本體描述內(nèi)容,增加用戶對于檔案內(nèi)容的理解,與對象屬性不同的是,數(shù)據(jù)屬性的值域并不是哪一類實體,而是需要規(guī)定數(shù)據(jù)類型,代表的是實體與數(shù)據(jù)類型之間的關(guān)系,詳情如表2與表3所示。
⑦建立聲像檔案本體。根據(jù)擬制的聲像檔案本體分類體系,利用protégé工具,將設(shè)定好的對象屬性與數(shù)據(jù)屬性依次填入,建立鏈接關(guān)系,生成聲像檔案本體模型,如圖3所示。
3.2 數(shù)據(jù)獲取。在獲取聲像檔案數(shù)據(jù)之前,首先需要確認(rèn)數(shù)據(jù)獲取的主題,通過調(diào)研發(fā)現(xiàn)由于目前國內(nèi)暫時缺少專業(yè)性的聲像檔案知識庫,大多數(shù)聲像檔案數(shù)據(jù)只能通過網(wǎng)頁搜索、進(jìn)館查詢的方式進(jìn)行查找,獲取的數(shù)據(jù)往往是半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),缺少系統(tǒng)性,很少出現(xiàn)某一專題相關(guān)的聲像檔案資源合集,因此結(jié)合多方面考慮,筆者以中央檔案館與中國共產(chǎn)黨新聞網(wǎng)聯(lián)合推出的“檔案天天看——鄧小平檔案系列”為基礎(chǔ),利用爬蟲程序從互聯(lián)網(wǎng)中抓取了與鄧小平有關(guān)的聲像檔案資源。同時,購入《鄧小平》等較為權(quán)威的人物生平畫冊,不僅能夠為后續(xù)的人工糾正提供可靠的參考文獻(xiàn),也可以充當(dāng)實驗數(shù)據(jù),增強(qiáng)知識圖譜的可靠性。經(jīng)過預(yù)處理共摘選出160張照片檔案,5份錄音檔案,13份錄像檔案,其內(nèi)容涵蓋了紅軍陜北會師、中共七屆二中全會、十一屆三中全會等重要事件,涉及的人物范圍廣、時間跨度大、內(nèi)容豐富,對于研究我黨歷史具有重要的歷史人文價值。
3.3 知識抽取。知識抽取是指對來源不同、結(jié)構(gòu)不同的數(shù)據(jù)進(jìn)行處理,抽取項目中所需要的信息形成知識,并按一定的格式將其進(jìn)行存儲。[12]鑒于實例分割、人臉識別、聲紋識別技術(shù)在聲像檔案資源開發(fā)中的應(yīng)用尚處于起步階段,因此本文以我館開發(fā)的基于人工智能的多媒體云平臺為主,以人工修正為輔,根據(jù)前文所構(gòu)建的聲像檔案本體模型的信息需求,對搜集來的數(shù)據(jù)進(jìn)行實體識別、屬性抽取、關(guān)系抽取。在本研究中,聲像檔案的實體識別主要依靠實例分割、人臉識別與聲紋識別技術(shù),通過實例分割與人臉識別可以將識別到的人或物與事先準(zhǔn)備好的知識庫進(jìn)行匹配,再輔以人工糾正,如此循環(huán)迭代,避免出現(xiàn)主要人物識別遺漏現(xiàn)象,如圖4、圖5所示。聲紋識別則需要根據(jù)音頻特征識別講話人物,通過與文本識別相結(jié)合的方式提取出講話中涉及的主要人物、事件等元素,如圖6所示。屬性抽取與關(guān)系抽取則主要依靠知識庫映射等方式,在人物識別的基礎(chǔ)上,同知識庫已有的屬性與關(guān)系相匹配,同時利用百科知識庫等結(jié)構(gòu)化數(shù)據(jù),不斷補充相關(guān)屬性與關(guān)系,完善圖譜知識網(wǎng)絡(luò)。最終將知識抽取的結(jié)果導(dǎo)出,并按照本體模型的分類體系以及數(shù)據(jù)、對象屬性排列存儲在xlsx表格中,為下一步的知識融合做準(zhǔn)備。
3.4 知識融合。知識融合是指將知識抽取完畢后的結(jié)果,通過實體鏈接、關(guān)系對齊等方式消除歧義,統(tǒng)一語義關(guān)系,減少因表述不一致而造成的語義混亂,提高知識圖譜的科學(xué)性與準(zhǔn)確性。在知識抽取的過程中,雖然通過人為干涉的方式,最大程度地避免了遺漏,但是在處理錄音檔案時,很容易出現(xiàn)一個人有多種稱謂的現(xiàn)象,例如,毛澤東會被尊稱為毛主席等;同時還需要根據(jù)上下文環(huán)境,對一些以職位為代稱的情況進(jìn)行綜合考慮,這就需要利用知識融合技術(shù),使不同稱謂與庫中實體對齊鏈接,規(guī)范語義表述。除此之外,在提取網(wǎng)頁中對于聲像檔案的描述文本時也同樣會出現(xiàn)人物名稱不一致以及時間描述沖突等問題。例如圖7,賀龍紀(jì)念館網(wǎng)標(biāo)注該照片檔案拍攝時間為1948年9月,而中央檔案館對其時間標(biāo)注為1949年3月,綜合天氣、服飾以及鄧小平生平與賀龍生平等線索,確定該照片檔案拍攝時間為1949年3月。針對類似的情況,不僅需要知識融合技術(shù),還需要利用相關(guān)知識予以人工介入。最后仍需要將知識融合后的數(shù)據(jù)存儲至xlsx表格中,以滿足大批量數(shù)據(jù)導(dǎo)入到protégé軟件的需求。
3.5 知識存儲與可視化。本環(huán)節(jié)中,需要將經(jīng)過知識融合后的數(shù)據(jù)注入本體模型之中。利用Cellfie插件,在選擇好對應(yīng)的類別后,就可以將數(shù)據(jù)從xlsx表格導(dǎo)入至protégé,生成搭載有聲像檔案本體模型的OWL文件,完成數(shù)據(jù)的實例化操作。然而protégé所產(chǎn)生的OWL文件并不能直接存儲至neo4j圖數(shù)據(jù)庫中,仍需要進(jìn)一步轉(zhuǎn)換。借助jar包rdf2rdf,在Java 1.8.0_290環(huán)境下,運行“java -jar rdf2rdf-1.0.1-2.3.1.jar 聲像檔案本體模型.owl 聲像檔案本體模型.turtle”CMD命令,實現(xiàn)owl文件向RDF文件的轉(zhuǎn)換。鑒于Java環(huán)境版本較低,開啟3.5.5版本的Neo4j數(shù)據(jù)庫,植入Neosemantics插件,并輸入“CREATE INDEX ON:Resource(uri)”命令創(chuàng)建索引,隨后輸入“CALL semantics.importRDF('file:///D:/聲像檔案本體模型.turtle','RDF/XML',{})”命令完成數(shù)據(jù)的導(dǎo)入與存儲。經(jīng)過一系列調(diào)整,最終形成可視化的聲像檔案知識圖譜,如圖8所示。在Neo4j數(shù)據(jù)庫中可以使用Cypher語言進(jìn)行檢索,其檢索速度快、操作簡便,但需要注意的是不同版本的Neo4j數(shù)據(jù)庫所使用的Cypher語法略有不同,在使用中應(yīng)細(xì)加辨別。
在應(yīng)用層面,通過對于圖譜的分析,我們可以清晰地了解到人物與事件、地點、時間之間的關(guān)系,結(jié)合已知的上下文信息,逐步推敲出與其有關(guān)的歷史活動脈絡(luò),還原歷史本真。倘若在上下文信息未知的情況下,我們依舊可以利用Cypher語句,在檢索相關(guān)元組的基礎(chǔ)上,將不同聲像檔案的內(nèi)容聯(lián)系到一起,按時間維度進(jìn)行排列,梳理歷史活動的起因經(jīng)過結(jié)果,從而達(dá)到了解歷史原貌的目的。
4 結(jié)語
本文結(jié)合聲像檔案特征,在參考相關(guān)標(biāo)準(zhǔn)的前提下,利用七步法對聲像檔案本體概念進(jìn)行歸納總結(jié),借助protégé軟件建成聲像檔案本體模型,隨后按照本體模型對于數(shù)據(jù)的要求,利用爬蟲程序爬取實驗數(shù)據(jù),并通過知識抽取、知識融合完成對于數(shù)據(jù)的處理,最后將注入實例數(shù)據(jù)的本體模型導(dǎo)入至Neo4j中,完成知識存儲與可視化。筆者希望能夠通過本研究的相關(guān)內(nèi)容為今后關(guān)于聲像檔案知識化的研究提供思路,打破扁平化、粗粒度利用聲像檔案的困局,建立各機(jī)構(gòu)之間的共享交流機(jī)制,實現(xiàn)聲像檔案跨模態(tài)、跨機(jī)構(gòu)的開發(fā)利用。在未來的研究中,筆者會不斷增加實例化數(shù)據(jù)的體量,并根據(jù)實際情況完善本體模型,進(jìn)而增強(qiáng)聲像檔案知識圖譜的適用性與科學(xué)性。
參考文獻(xiàn):
[1]陳兆祦,和寶榮,王英瑋.檔案管理學(xué)基礎(chǔ).第3版[M].中國人民大學(xué)出版社,2005.
[2]李美芳 ,王彩虹 ,李順發(fā).聲像檔案資料管理模式創(chuàng)新與實踐——以廣州市國家檔案館為例[J].中國檔案,2022(01):40-41.
[3]胡悅意.基于新媒體環(huán)境下醫(yī)院聲像檔案的管理與利用[J].黑龍江檔案,2021(06):168-169.
[4]龍芊良.高校聲像檔案數(shù)字化建設(shè)的問題與思考——以北京大學(xué)為例[J].北京檔案,2020(12):38-40.
[5]王偉.聲像檔案數(shù)字化管理的機(jī)制、思路與對策[J].城建檔案,2020(03):20-21.[6]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)研究[J/OL].圖書情報工作:1-13[2022-06-18].DOI:10.13266/j.issn.0252-3116.2022.07.001.
[7]趙雪芹,路鑫雯,李天娥,陳瑞.領(lǐng)域知識圖譜在非遺檔案資源知識組織中的應(yīng)用探索[J].檔案學(xué)通訊,2021(03):55-62.DOI:10.16113/j.cnki.daxtx.2021.03.008.
[8]曾靜怡.上下文在照片檔案敘事中的應(yīng)用[J].檔案學(xué)研究,2021(06):100-105.DOI:10.16065/j.cnki.issn1002-1620.2021.06.015.
[9]呂元智,谷俊.面向用戶需求的視頻檔案資源描述框架構(gòu)建研究[J].檔案學(xué)研究,2021(06):91-99.DOI:10.16065/j.cnki.issn1002-1620.2021.06.014.
[10]高大偉,韓瑞雪.城建檔案領(lǐng)域知識圖譜構(gòu)建方法研究[J].檔案管理,2022(03):57-58+62.DOI:10.15950/j.cnki.1005-9458.2022.03.012.
[11]宋雪雁,張偉民,張祥青.基于檔案文獻(xiàn)的清代祭祀禮器知識圖譜構(gòu)建研究[J].圖書情報工作,2022,66(03):140-151.DOI:10.13266/j.issn.0252-3116.2022.03.015.
[12]張云中,郭冬,王亞鴿,孫平.基于知識圖譜的紅色歷史人物知識問答服務(wù)框架研究[J].圖書情報工作,2021,65(16):108-117.DOI:10.13266/j.issn.0252-3116.2021.16.012.
(作者單位:解放軍檔案館 來稿日期:2022-08-12)