程清潔 朱仲友 吳建琳 陳胡嶸 國網安徽省電力有限公司
在檔案數字化的推進過程中,數字檔案館以及智慧檔案館的建設成為當前檔案管理模式下新的發(fā)展方向,檔案管理模式亦趨向于數字化與網絡化,檔案管理系統(tǒng)正從信息管理模式向知識管理模式轉變。在人工智能技術的支撐下,檔案管理逐漸向關聯數據、語義組織方向發(fā)展,核心技術從以數據庫存儲和XML 數據為標志轉向了以知識庫和語義技術為核心,知識圖譜[1][2]正成為檔案管理領域的重要支撐技術。
基于五大類會計檔案實體(原始憑證、會計憑證、賬簿、報表、其他),全面梳理構成檔案的所有關鍵要素,抽取實體與要素間,實體間以及要素間的關聯關系。從實體和要素兩個維度,以圖譜技術為支撐,利用可視化工具,構建全量會計檔案知識譜系模型,分層、立體描繪出數字會計檔案知識資源及其載體,并以關鍵節(jié)點與鏈路相結合的方式進行表達。通過最底層要素還原業(yè)務管理的流程環(huán)節(jié),實現在任意節(jié)點均可查詢全局結構化數據,在關鍵節(jié)點檢索全量非結構化文件。
基于會計檔案的知識圖譜[3][4]關系遵循以下原則進行設計:
1.統(tǒng)一設計原則
制定統(tǒng)一設計方案,按照要求完成適應性調整、測試工作。
2.適用性原則
設計基于會計檔案的知識圖譜關系模型,模型需兼顧全局展示、局部重點展示、穿透展示、拖動、旋轉、縮放等各類型的查閱場景;設計基于會計檔案的知識圖譜實例查詢,查詢結果需能根據關系,展示查詢關鍵字所貫穿的全業(yè)務鏈條價值信息,充分考慮各單位、各崗位人員的應用場景及查閱范圍。
3.延續(xù)性原則
數據抽取完全來源于會計檔案,方案設計充分利用統(tǒng)一的標準和系統(tǒng)功能,并在此基礎上進行業(yè)務與功能擴展,為后續(xù)業(yè)務發(fā)展提供可延續(xù)、可擴展空間。
知識圖譜:知識圖譜是基于會計檔案數據結構生成的,是對檔案結構化數據關聯關系的可視化展示。包括實體、屬性和關系。
實體:具體事物、主數據、數據庫中的表。
屬性:事物的特征、主數據的特征、表字段。
關系:事物與事物或主數據間建立的關系。
知識抽?。喊褦祿牟煌臄祿粗谐槿〕鰜恚缓蟀匆欢ǖ囊?guī)則展現在知識圖譜應用平臺上。
知識映射:知識抽取之前,要把數據源的信息通過映射的過程,將其定位的具體某個實體,實體屬性或者關系上,這一過程稱之為知識映射。
數據清洗:知識圖譜構建過程中,知識抽取后,需要對抽取的數據進行某些規(guī)則的轉換,這個過程稱之為數據清洗。
歸一消歧:知識圖譜構建過程中,某些實例或者關系會存在重復的關系,對這些重復的數據通過某些規(guī)則去重,這一過程稱為歸一消歧。
1.原始憑證
主要包括業(yè)務分類、原始附件清單(系統(tǒng)單據、有結構化信息的影像件、掃描生成的電子文件)。
系統(tǒng)單據是一個具體事物,單據上填寫全部為結構化信息,其中有特征如日期、編號、數量、金額、備注等即是事物的屬性(基本屬性),特征本身也是一個事物或者主數據(實體)的如采購訂單、項目、合同、供應商等,則將系統(tǒng)單據實體與其建立關系(關系屬性)。
有結構化信息的影像件也是一個具體事物,且檔案中有表存放結構化信息,結構化信息中特征如開票日期、編號、金額等是事物的屬性,特征本身也是一個事物或者主數據(實體)的如購買方信息則與單位建立關系,如在多個業(yè)務分類下都有增值稅發(fā)票,則與業(yè)務分類建立多條關系。
掃描生成的各類電子文件均是具體事物,但是具有共同特征,即類型名稱、ID、影像地址。因此可以統(tǒng)一為一個“原始憑證影像文件”實體,而它的實例數據則是增值稅發(fā)票、合同或協(xié)議等各類掃描件,不同的影像文件屬于不同的業(yè)務分類,則與業(yè)務分類建立關系。
2.主數據
屬于公用實體。經濟業(yè)務核算中,非原始附件,但是原始憑證上會填寫的信息,具有多個特征的,且查詢實例時還可根據填寫的內容找到其對應的特征,如根據單位找到單位對應的納稅人識別號。因此主數據作為實體,其獨有內部特征作為屬性,其特征中還包含其他主數據的,如載體維度上對應有核心維度(項目對應業(yè)務活動),則將兩個主數據建立關系。
3.會計憑證
主要包括憑證主信息、憑證類型及憑證分錄。
4.賬簿
主要包括單位、賬期、賬戶、期初方向、期初余額、借方發(fā)生、貸方發(fā)生、期末方向、期末余額等。其中,單位是實體則建立關系,賬期是各賬簿、各報表等多處都需要用到的會計期間,包括會計年度和賬期,也可抽離為實體,與科目匯總表建立關系,后續(xù)還可與報表建立關系。其他則是屬性。
5.報表
主要包括報表期間、報表單位、報表項目(橫向縱向結合)、報表單元格公式、報表(單元格)取數結果;期間包括關聯會計年度和賬期。
6.其他
主要包括會計檔案保管清冊、銀行余額調節(jié)表、會計檔案鑒定意見書、納稅申報表、會計檔案移交清冊、銀行對賬單、會計檔案銷毀清冊及銀行流水信息。
1.數據接入及存儲需求
以會計檔案管理體系為唯一的知識譜系數據來源,接入包括原始憑證、記賬憑證、賬簿、報表、其它五大類的數據關系及實例數據。數據接入采取從會計檔案數據庫直接接入的方式,通過知識映射中間組件,轉化為數據模型為圖模型的知識譜系。
2.數據質量
數據質量方面,檔案館的數據內容要涵蓋五大類會計檔案知識圖譜要素里面規(guī)劃的內容,如未涵蓋,在實例圖譜查詢時則只能顯示數據模型,不能顯示具體數據。
知識圖譜應用平臺提供本體管理、圖譜管理、圖譜構建等功能;知識圖譜應用平臺有超級管理員和用戶兩種角色,超級管理員可以管理用戶所創(chuàng)建的圖譜;用戶可以實現創(chuàng)建圖譜、導入數據、映射數據、構建圖譜、會計檔案關系模型查閱、會計檔案關系查詢等功能。
(1)技術路線:知識圖譜應用平臺以自然語言處理技術為支撐,對多源異構數據進行知識抽取、知識表示與融合、知識存儲、知識建模與推理、知識計算等功能,為會計檔案關系模型、會計檔案數據查詢等基于圖譜的應用需求提供支持。
(2)創(chuàng)建圖譜:用于管理系統(tǒng)創(chuàng)建的面向具體業(yè)務的知識圖譜,如創(chuàng)建會計檔案知識圖譜。
(3)圖譜設計:針對會計檔案知識圖譜進行Schema 設計,即定義會計檔案知識圖譜中的“實體”和“關系”。
(4)我的數據:為知識圖譜配置基礎數據源,可直接從會計檔案中獲取。
(5)圖譜構建:基于Schema 選擇基礎數據源進行圖譜構建,支持“數據清洗”和“歸一消歧”等操作實現對會計檔案知識圖譜的手動調優(yōu)。
(6)會計檔案關系模型:模型包含五大類會計檔案中存在的“實體”(如合同、發(fā)票、供應商、銀行回單、記賬憑證、明細賬、資產負債表等),以及形成會計檔案中各實體的關鍵要素即實體的“屬性”,整合業(yè)務鏈條的會計檔案電子文件和流轉信息,建立起實體與實體、實體與屬性、屬性與屬性之間的聯系及“關系”,構建會計檔案知識圖譜的關系模型,并以立體形式展現。展現形式概述如下:①關系模型全局視角:在首頁以展示會計檔案中實體與實體間的關系。②關系模型局部視角:通過選中點擊定位或搜索定位,定位到某個實體,可展示其與其他實體的內在和外在關系。③穿透查看:支持定位到某個實體后,穿透查看該實體的所有屬性信息。④提供對模型的縮放、拖拽、旋轉等動態(tài)的交互效果方便查看。
(7)會計檔案關系查詢:接入會計檔案的實例數據后,基于前期建立的會計檔案關系模型,提供實例數據的檢索查詢,如輸入供應商名稱,則可展示出會計檔案中所有和該供應商建立關系的實例數據,及該供應商相關的全業(yè)務鏈條的價值信息。
梳理形成會計檔案的關鍵要素,還原業(yè)務管理的流程環(huán)節(jié),串聯相關單據信息、版式文件、信息內在聯系,整合業(yè)務鏈條的會計檔案電子文件和流轉信息,并以關鍵節(jié)點與鏈路相結合的方式展示圖形化知識圖譜。
圖譜設計之前,要結合供電企業(yè)的業(yè)務特點,完成經濟業(yè)務現狀梳理,按照五大類會計檔案信息完成各類檔案間的實體、屬性及其關聯關系的整理。知識圖譜要基于要素之間的關系來構建圖譜數據模型,可以在系統(tǒng)以表格或者圖的方式實現實體、實體基本屬性、實體關系屬性的添加。
基礎數據是有可能或許應用到的基本常識類數據,比如地理位置、規(guī)章制度等。
安徽檔案館的數據都已存入關系型數據庫,數據之間的依賴關系也是以關系型的數據表來做關系建立的,所以需要有一個映射過程來把二維表的數據映射到圖關系上。知識映射包括實體映射、屬性映射及關系映射。
1.實體映射
實體映射的過程就是把二維數據庫的某張表映射到圖譜設計的某個實體上。
例如,圖譜設計有個實體用戶,數據庫有個表NECP_UMC_XTYHXX,那就要有一個用戶-NECP_UMC_XTYHXX 的映射過程。
2.屬性映射
實體映射完后,比如用戶-NECP_UMC_XTYHXX,那表里面屬性字段要映射到圖譜設計的基本屬性,比如用戶(姓名)-NECP_UMC_XTYHXX(YHMM)。
3.關系映射
關系映射是把二維表的關系映射到圖譜設計的某個具體關系上,二維表的某個關系可能關聯到2 張表,也可能關聯到3 張表。
圖譜構建的過程則是把數據導入的基礎數據和數據庫映射的數據,都構建到知識圖譜當中,供后續(xù)知識圖譜應用。
關系特性是知識圖譜推理的重要基礎,如“所屬角色”這個關系和“擁有用戶”是互為可逆的關系,比如用戶A-管理員-角色這樣的關系知曉了,是可以推理出角色-擁有用戶-用戶這樣的逆關系。此過程就是利用關系特性的對稱性、逆關系的設置達到關系推理的過程。
數據清洗是某些抽取到的數據在知識圖譜中要一個轉換的過程,比如非法字符過濾,數字轉換等。
歸一消歧的過程是對多個數據源的抽取到的實例有可能重復了,需要去重復的一個過程,如用戶信息,可能來自多個表,則需要對重復的用戶去重。
以原始憑證、記賬憑證、賬簿、報表、其他資料為核心,編制完成企業(yè)經濟業(yè)務核算現狀報告,厘清會計檔案實體559 個,要素5505 個以及它們的聯系,基于拖拉拽方式利用圖譜設計靈活構建實體要素關系。
利用可視化渲染技術,將圖譜設計的圖關系通過圖視覺方式展現,結合圖路徑搜索、聚合算法、中心點算法、連通子圖計算等技術推理數據關系。利用3D 技術,拖拽、縮放等交互方式,提升圖的可視效果,形成五大類會計檔案全鏈路網狀結構知識圖譜。
以數字會計檔案館數據為基礎,豐富圖譜的知識內容;以邏輯關系鏈接為基礎,分析、構建、繪制知識載體聯系;以智能技術為支撐,完成建模、抽取、融合、存儲、計算與檢索,構建體系化會計檔案知識譜系,挖掘最小檔案知識單元,實現場景式數據溯源,滿足企業(yè)數字化管理需求。
基于會計檔案的知識圖譜研究不是簡單的數據梳理和統(tǒng)計分析,而是將會計檔案知識映射到向量空間參與計算,用深度學習挖掘隱藏關系,實現數據價值,惠及企業(yè)管理。
通過知識圖譜技術重塑關鍵要素的排列組合方式以及更深層次的數據加工,進一步挖掘電力企業(yè)會計檔案價值,推進業(yè)財管理智能化發(fā)展。
基于建立的會計檔案關系模型,基于會計檔案的知識圖譜應用中接入會計檔案實例數據可提供數據的快速、全業(yè)務檢索,展示該數據全業(yè)務鏈條價值信息,助力企業(yè)數字化轉型。
知識圖譜技術應用于會計檔案管理,可以推進企業(yè)業(yè)務信息鏈與財務價值鏈的深度融合,挖掘業(yè)務信息與財務信息強關聯性,為數據治理提供便捷基礎,將信息管理應用向知識服務發(fā)展?;跁嫏n案的知識圖譜,可以為大數據開放應用提供支撐,實現財務基礎信息價值,為經濟社會的發(fā)展創(chuàng)造價值、傳遞價值。