王電化,錢 濤,錢立新,盛 琦,夏春梅
(1.湖北科技學(xué)院, 湖北 咸寧 437100;2.咸寧市檔案館, 湖北 咸寧 437100)
檔案信息化在近幾年得到了快速發(fā)展,檔案數(shù)據(jù)已呈幾何級(jí)增長(zhǎng),形成真正意義上的檔案大數(shù)據(jù)[1]。檔案數(shù)據(jù)資源的利用特別是檔案信息檢索成為日常工作中不可或缺的組成部分。傳統(tǒng)檔案信息檢索系統(tǒng)主要采用關(guān)鍵詞匹配技術(shù),只能進(jìn)行詞形的機(jī)械匹配,導(dǎo)致人們難以檢索到符合自己意愿的檔案信息。然而,檢索語(yǔ)句中的“關(guān)鍵詞”通常存在諸多隱形的邏輯語(yǔ)義關(guān)系,例如對(duì)于用戶輸入查詢語(yǔ)句:“張三任職局長(zhǎng)”,該語(yǔ)句包含三個(gè)關(guān)鍵字“張三、任職、局長(zhǎng)”,隱含著張三是公職人員,用戶想查詢是人事任命類檔案,甚至可能想查詢張三是何時(shí)在何地?fù)?dān)任局長(zhǎng)的。但當(dāng)前的檔案檢索系統(tǒng)并不能從語(yǔ)義的角度分析用戶的檢索意圖,也缺乏有效的檔案知識(shí)推理。
知識(shí)圖譜[2~4]技術(shù)在解決知識(shí)查詢的精度及知識(shí)推理方面展現(xiàn)出了巨大的優(yōu)勢(shì),成為學(xué)術(shù)與工業(yè)界研究的熱點(diǎn)問(wèn)題。已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦、內(nèi)容分發(fā)等領(lǐng)域。當(dāng)前有代表性的知識(shí)圖譜產(chǎn)品包括當(dāng)DBpedia[5],YAGO[6],百度知心[7],搜狗知立方[8]等。以上大部分是通用的知識(shí)圖譜,直接運(yùn)用行業(yè)領(lǐng)域并不能達(dá)到較好性能。因此領(lǐng)域知識(shí)圖譜也受到越來(lái)越多的重視。構(gòu)建基于檔案的知識(shí)圖譜能效進(jìn)行檔案知識(shí)推理,是實(shí)現(xiàn)檔案智能檢索的關(guān)鍵技術(shù)和主要路徑之一。然而,作為強(qiáng)領(lǐng)域?qū)傩缘臋n案領(lǐng)域,當(dāng)前缺乏系統(tǒng)的基于檔案知識(shí)圖譜的構(gòu)建方法與應(yīng)用研究。
本文以知識(shí)圖譜技術(shù)與檔案知識(shí)相結(jié)合,提出基于大規(guī)模檔案領(lǐng)域知識(shí)圖譜的構(gòu)建方法,目的是建立大規(guī)模檔案知識(shí)圖譜,用于融合語(yǔ)義關(guān)系與知識(shí)推理的檔案智能搜索系統(tǒng)。論文首先論述了知識(shí)圖譜的研究現(xiàn)狀;然后討論了檔案知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù),最后給出結(jié)論。
知識(shí)圖譜技術(shù)由Google于2012提出[9],應(yīng)用于其搜索引擎,用以提高查詢質(zhì)量。知識(shí)圖譜本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò)。其由具有屬性的實(shí)體通過(guò)關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),即具有有向圖結(jié)構(gòu)的一個(gè)知識(shí)庫(kù),其中圖的節(jié)點(diǎn)代表實(shí)體或者本體,而圖的邊代表實(shí)體——本體之間的各種語(yǔ)義關(guān)系。
知識(shí)圖譜具有規(guī)模大、語(yǔ)義豐富、結(jié)構(gòu)清晰等特點(diǎn),是人工智能進(jìn)一步發(fā)展的核心技術(shù)之一。因此其知識(shí)圖譜受到了廣泛的關(guān)注,在國(guó)外,比較有代表性的知識(shí)圖譜產(chǎn)品包括: DBpedia[5], YAGO[6]和Probase[10],這些知識(shí)圖譜包括百萬(wàn)級(jí)別的實(shí)體及十億級(jí)別的關(guān)系邊。當(dāng)前國(guó)內(nèi)針對(duì)知識(shí)圖譜的研究正快速發(fā)展,在開放域方面有百度知心[7]、搜狗知立方[8]、Zhishi.me[11],CNN-DBpedia[12]等。然而這些產(chǎn)品都是通用知識(shí)圖譜,直接用于行業(yè)領(lǐng)域研究不能達(dá)到較好效果。
不同于通用知識(shí)圖譜,領(lǐng)域知識(shí)圖譜能利用領(lǐng)域特有知識(shí)快速構(gòu)建知識(shí)庫(kù),如醫(yī)療知識(shí)圖譜[13]、地理知識(shí)圖譜[14]、軍事知識(shí)圖譜[15]及農(nóng)業(yè)知識(shí)圖譜[16]等。作為強(qiáng)領(lǐng)域特性的檔案領(lǐng)域,當(dāng)前仍主要集中在檔案本體知識(shí)庫(kù)的構(gòu)建與應(yīng)用研究,如:賈永剛[17]提出采用五步來(lái)構(gòu)建檔案領(lǐng)域本體。李海軍[18]系統(tǒng)的討論了檔案信息本體在檔案管理信息系統(tǒng)中的使用。張園[19]利用檔案本體來(lái)提升檔案檢索系統(tǒng)性能。周義剛和董慧[20]針對(duì)電子政務(wù)領(lǐng)域的特點(diǎn),探討電子政務(wù)領(lǐng)域數(shù)字檔案本體的構(gòu)建過(guò)程。這些本體構(gòu)建通常采用手動(dòng)構(gòu)建。由于本體模型本質(zhì)上屬性概念級(jí)別的知識(shí)庫(kù),并不能真正實(shí)現(xiàn)語(yǔ)義推理與檢索。本文利用自然語(yǔ)言的處理技術(shù),在人工構(gòu)建知識(shí)本體的基礎(chǔ),探討檔案知識(shí)圖譜的構(gòu)建關(guān)鍵技術(shù)研究。
知識(shí)圖譜是一種結(jié)構(gòu)化的語(yǔ)義知識(shí)網(wǎng)絡(luò),用于描述現(xiàn)實(shí)世界中的概念、實(shí)體、事件及其關(guān)系,其中實(shí)體對(duì)應(yīng)于客觀世界中的事物,屬性代表事物的特征,概念是對(duì)具有相同屬性事件的概括與抽象,事件可表示為不同時(shí)空狀態(tài)下一系列實(shí)體及其聯(lián)系。通過(guò)概念與概念、概念與實(shí)體、實(shí)體與實(shí)體、實(shí)體與屬性等之間的關(guān)系,形成網(wǎng)狀的語(yǔ)義知識(shí)圖譜。
知識(shí)圖譜通常采用自頂向下和自底向上2種方式構(gòu)建。自頂向下構(gòu)建一般首先頂層關(guān)系本體,然后將抽取到的實(shí)體及關(guān)系更新到所構(gòu)建的頂層本體中。自底向上構(gòu)建是指從公開采集的數(shù)據(jù)中采用一定的技術(shù)手段提取出實(shí)體關(guān)系模式,然后進(jìn)行一定的知識(shí)加工與處理,選擇其中置信度較高的加入到知識(shí)庫(kù)中,將具有相似屬性的實(shí)體進(jìn)行抽象歸納,形成相應(yīng)的概念,再逐層向上匯集,最終構(gòu)建頂層概念本體模式。對(duì)于開放領(lǐng)域,由于所涉及知識(shí)非常廣泛,通常采用自底向上的方式構(gòu)建知識(shí)圖譜;而對(duì)于特定領(lǐng)域,由于知識(shí)概念相對(duì)明確,一般采用自頂向下的方式構(gòu)建。由于檔案領(lǐng)域即具有領(lǐng)域性,又具有開放性,本文采用將二者方式相結(jié)合,其構(gòu)建整體流程如圖1所示。具體步驟如下:
1.檔案本體建模:根據(jù)檔案管理、檔案信息標(biāo)準(zhǔn)化及應(yīng)用特點(diǎn),構(gòu)建統(tǒng)一共享的檔案領(lǐng)域概念模型,包括本體、關(guān)系及屬性。該概念模型將對(duì)知識(shí)發(fā)現(xiàn)起著指導(dǎo)和約束作用。
2.檔案來(lái)源:包括從已有檔案業(yè)務(wù)管理系統(tǒng)、領(lǐng)域百科及其它外部系統(tǒng)中導(dǎo)入數(shù)據(jù)。其數(shù)據(jù)類型包括:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。它是知識(shí)獲取的主要來(lái)源。
3.知識(shí)發(fā)現(xiàn):從不同類型數(shù)據(jù)源在本體概念模型規(guī)則約束下進(jìn)行實(shí)體識(shí)別、關(guān)系抽取與屬性識(shí)別。
4.知識(shí)融合:對(duì)發(fā)現(xiàn)的實(shí)體、關(guān)系與屬性進(jìn)行知識(shí)整合,并進(jìn)行知識(shí)更新。
5.知識(shí)存儲(chǔ)與訪問(wèn):大規(guī)模知識(shí)圖譜分布式儲(chǔ)存與訪問(wèn)。利用圖搜索算法,對(duì)存儲(chǔ)知識(shí)庫(kù)實(shí)現(xiàn)高效訪問(wèn)。
圖1 檔案知識(shí)圖譜構(gòu)建流程
1.檔案知識(shí)本體建模
知識(shí)本體建模是構(gòu)建知識(shí)圖譜的首要步驟,是對(duì)領(lǐng)域知識(shí)結(jié)構(gòu)與概念設(shè)計(jì)的過(guò)程。主要包括本體設(shè)計(jì)、關(guān)系設(shè)計(jì)及屬性設(shè)計(jì)。檔案本體建模的目標(biāo)是捕獲檔案領(lǐng)域的知識(shí), 提供對(duì)檔案領(lǐng)域知識(shí)的共同理解, 確定本領(lǐng)域內(nèi)共同認(rèn)可的詞匯, 并從不同層次的形式化模式上給出這些詞匯間相互關(guān)系的明確定義。本體作為共享的形式化概念模型,清晰定義概念之間的關(guān)系,使得被刻畫的知識(shí)富含語(yǔ)義,具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持。
檔案具有強(qiáng)領(lǐng)域性,檔案通常按主題按單位進(jìn)行詳細(xì)分類,每一檔案都有一明確的目的和主題,表達(dá)單一確定事件,例如在文書檔案里,事件通常包括:人事安排、工資提級(jí)、機(jī)構(gòu)設(shè)置等。事件是動(dòng)態(tài)的復(fù)雜的概念,它通常包含是地點(diǎn)、人物、時(shí)間等要素。利用事件概念,能明確的描述檔案事件單一性特點(diǎn),如關(guān)于人事安排的檔案,通常包括發(fā)文機(jī)關(guān)、所涉及人物,時(shí)間、地點(diǎn)等相關(guān)要素。本文主要以檔案標(biāo)準(zhǔn)文件《中國(guó)檔案分類法》和《中國(guó)檔案主題詞表》為依據(jù),結(jié)合檔案自身特點(diǎn)以及系統(tǒng)的業(yè)務(wù)需要,提出以事件概念為中心的本體構(gòu)建。以事件為中心概念,然后擴(kuò)展至其它概念:機(jī)構(gòu)、人物、文件,同時(shí)事件還包括地點(diǎn)、時(shí)間兩個(gè)屬性,對(duì)每一概念,又分別進(jìn)行子類分類,如事件按其內(nèi)容可分為:人事、學(xué)籍、科研、財(cái)政等。文件按其用途可分為:通知、公告、決定等。機(jī)構(gòu)劃分為:政府、國(guó)企業(yè)、私企、事業(yè)單位等,人物劃分為公職、商界、公眾。圖2顯示了檔案本體的核心架構(gòu)。
圖2 檔案本體建構(gòu)核心架構(gòu)
2.檔案知識(shí)抽取模型
檔案領(lǐng)域知識(shí)來(lái)源主要包括原有業(yè)務(wù)系統(tǒng)、領(lǐng)域百科、外部系統(tǒng)等結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。對(duì)結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),可采用規(guī)則方法把實(shí)體映射到知識(shí)圖譜中;對(duì)于非結(jié)構(gòu)化數(shù)據(jù)主要是檔案文本,需要從中抽取實(shí)體及關(guān)系等知識(shí)。手動(dòng)的知識(shí)抽取代價(jià)太高,因此需要采用自然語(yǔ)言處理及機(jī)器學(xué)習(xí)相關(guān)技術(shù)可實(shí)現(xiàn)領(lǐng)域知識(shí)的自動(dòng)識(shí)別和抽取。
根據(jù)前節(jié)所述檔案本體知識(shí)架構(gòu),從檔案文要識(shí)別的本體包括機(jī)構(gòu)、人物、地點(diǎn)、時(shí)間及事件。本體關(guān)系則包括上下位、子類、近義、反義及所屬事件關(guān)系。圖3給出了本文所提檔案領(lǐng)域?qū)嶓w識(shí)別與關(guān)系抽取流程。首先對(duì)檔案全文進(jìn)行預(yù)處理如分詞、詞性標(biāo)注、句法分析,然后把這些語(yǔ)言特征轉(zhuǎn)化為分布式表示,進(jìn)行實(shí)體與關(guān)系抽取。實(shí)體識(shí)別采用基于深度學(xué)習(xí)的Bi-LSTM-CRF模型[21],該模型避免了復(fù)雜的特征設(shè)計(jì),并且能充分利用全局信息進(jìn)行優(yōu)化。在實(shí)體識(shí)別基礎(chǔ)上,關(guān)系抽取采用基于遠(yuǎn)程監(jiān)督的關(guān)系抽取模型[22]。該模型能有效減少了模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴。
圖3 檔案領(lǐng)域?qū)嶓w識(shí)別與關(guān)系抽取流程圖
3.知識(shí)圖譜存儲(chǔ)與檢索
知識(shí)圖譜通常采用圖數(shù)據(jù)庫(kù)存取,在完成檔案知識(shí)圖譜構(gòu)建與存儲(chǔ)之后, 需要利用圖數(shù)據(jù)檢索技術(shù)來(lái)提高知識(shí)圖譜的查詢效率, 為大規(guī)模實(shí)時(shí)動(dòng)態(tài)查詢和推理奠定基礎(chǔ)。
本文檔案系統(tǒng)采用圖數(shù)據(jù)庫(kù)Neo4j存儲(chǔ)。領(lǐng)域知識(shí)中的概念、實(shí)體、關(guān)系分別對(duì)應(yīng)于Neo4j中的標(biāo)簽、節(jié)點(diǎn)、邊/關(guān)系。Neo4j提供Cypher命令對(duì)圖數(shù)據(jù)進(jìn)行檢索操作。例如對(duì)于第1節(jié)所述查詢語(yǔ)句:“張三任職局長(zhǎng)”。檢索系統(tǒng)首先利用分詞工具對(duì)其進(jìn)行分詞,然后識(shí)別出其中的命名實(shí)體??刹捎萌缦虏樵冋Z(yǔ)句:
Match (a:Person)->[:Person_In]->(m)<-[:Organize_In]-(d) where a.name=‘張三’and a.title=’局長(zhǎng)’//查詢事件、機(jī)構(gòu)及人物結(jié)點(diǎn)
Match(m)-[File_In]->(f) //查詢所屬文件結(jié)點(diǎn)
Return a,m,d,f; //顯示結(jié)果
其查詢結(jié)果顯示如下圖4所示。
可以看出,利用知識(shí)圖譜可以進(jìn)行深度語(yǔ)義理解與知識(shí)推理。知識(shí)圖譜是一種開放式的知識(shí)結(jié)構(gòu),如果不考慮存儲(chǔ)工具的限制,理論上基于現(xiàn)有知識(shí)圖譜能無(wú)限拓展領(lǐng)域相關(guān)各種類型知識(shí)。
圖4 檔案知識(shí)圖譜檢索示意圖
知識(shí)圖譜的構(gòu)建技術(shù)主要以數(shù)據(jù)挖掘、 機(jī)器學(xué)習(xí)、 自然語(yǔ)言處理、 信息檢索等多學(xué)科交叉技術(shù)為支撐?;跈n案領(lǐng)域既具有領(lǐng)域性,又具有開放性,本文提出檔案知識(shí)圖譜構(gòu)建框架,并探討了檔案知識(shí)本體構(gòu)建架構(gòu),檔案知識(shí)抽取模型、知識(shí)圖譜存儲(chǔ)與檢索等關(guān)鍵技術(shù)。知識(shí)圖譜作為智能檢索的核心技術(shù),具有重要的理論研究和實(shí)際應(yīng)用價(jià)值。檔案知識(shí)圖譜將在檔案智能化信息管理中發(fā)揮重要作用。