羅紹輝 黃平友
摘要:該文通過分析、梳理城建檔案信息化現(xiàn)狀,綜合城市人文、歷史、空間地理信息等數據,以“人-房-地”一體化框架為基礎,提出了城建檔案知識圖譜服務平臺的總體架構和功能設計,通過數據挖掘分析,將城建檔案中海量數據結構化,構建集城市設計、建設、規(guī)劃、管理與社會治理、人文服務于一體的綜合性城建檔案知識圖譜服務平臺。該平臺通過多維數據自動關聯(lián)、圖譜網格多元聯(lián)系以及空間信息協(xié)同分析,可以實現(xiàn)信息處理、檢索與展示、智能查詢與分析統(tǒng)計等知識圖譜服務。
關鍵詞:時空數據 知識圖譜 城建檔案 平臺
城建檔案是在城市規(guī)劃、建設及管理活動中形成的具有保存價值的文字、圖紙、圖像、聲像等,是城市建設發(fā)展的真實歷史記錄。[1]各檔案館要利用當前技術深入挖掘城建檔案價值,首先應建立海量城建檔案信息數據庫,編制相應標準,如重慶市城建檔案館于2017年頒布了《建設工程檔案信息數據采集標準》[2];其次應制定電子檔案接收制度,如上海市浦東新區(qū)檔案局2018年開展了“基于BIM技術的三維城建檔案接收保管和應用模式研究”[3];最后應引入大數據、地理信息、數據挖掘等技術,如青島市檔案局于2017年開展了“大數據背景下檔案信息資源挖掘策略與方法研究”[4]。
時空地理信息系統(tǒng)使人們能夠更好地實現(xiàn)地理實體時間和空間信息的動態(tài)表達與建模,是地理空間分析、地理知識表達和挖掘的基礎。[5]國內開展的基于地理信息技術(GIS)的城建檔案管理系統(tǒng)研究[6],未將時空數據充分與檔案的歷史、現(xiàn)在、未來相結合形成四位一體的管理模式。知識圖譜(Knowledge Graph)則可以彌補以上不足,它是一種基于圖數據庫的數據結構,使用三元組形式組織數據,將實體表示為頂點的集合,實體之間的關系表示為邊的集合,以結構化的形式對知識進行展示。
目前某市城建檔案館在這方面的做法值得借鑒。某市城建檔案館館藏檔案超過140萬卷,均已完成數字化掃描和電子目錄著錄,并且其已將檔案中的重要信息提取、掛接到城市地理信息數據,形成關聯(lián)關系,構建了全市范圍的城建檔案時空大數據庫,形成了某市城建檔案知識圖譜服務平臺。該平臺整合某市城建大數據平臺現(xiàn)有城建檔案數據,融合人員、單位、公共設施、歷史文化、政策法規(guī)等多種數據源,將異構、稀疏、多樣和海量的數據轉化成知識圖譜,利用圖數據庫、數據挖掘、信息分析等關鍵技術,形成以圖的形式表現(xiàn)客觀世界中的實體(概念、人、事物)及其之間關系的知識庫。本文通過梳理城建檔案知識圖譜的實體、屬性和關系信息,提出建立城建檔案數據和各級用戶的交互知識圖譜服務平臺,以期為城建檔案“知識化”提供新思路。
(一)平臺總體架構
以城建檔案可視化服務為目標,城建檔案知識圖譜服務平臺采用分層思想和模塊化結構,高內聚低耦合,總體設計上分用戶層、業(yè)務層、數據層和硬件層四層。該平臺充分結合城建檔案管理特點,以工程建設全過程檔案歸集為主線,使數據自底向上流動,總體架構圖如圖1所示。用戶層按不同角色區(qū)分系統(tǒng)設計的各種用戶;業(yè)務層是系統(tǒng)建設的核心,含城建檔案關聯(lián)分析、城建檔案異常檢測、智能問答以及可視化分析與展現(xiàn)等業(yè)務模塊以及基礎數據管理和系統(tǒng)管理等系統(tǒng)模塊;數據層包括源數據管理、數據清洗、知識圖譜框架管理、知識圖譜構建等模塊;硬件層是系統(tǒng)提供各項服務并實現(xiàn)正常運行的基礎,通過相關的硬件設施來提供基礎服務。
(二)平臺體系架構
該平臺在功能設計上采用可擴展的多層體系,共分為五層:表示層、業(yè)務邏輯層、通用構件層、資源訪問層和資源層。表示層提供數據展現(xiàn)服務,將業(yè)務層提取的業(yè)務數據展現(xiàn)給系統(tǒng)用戶;業(yè)務邏輯層由各業(yè)務邏輯模塊組成,實現(xiàn)系統(tǒng)的業(yè)務功能;通用構件層將系統(tǒng)公用的功能抽取出來,以構件的方式實現(xiàn)模塊的重用,提高系統(tǒng)重用性;資源訪問層提供對系統(tǒng)數據資源的訪問接口,通過調用接口訪問相應數據資源;資源層由系統(tǒng)涉及的各種數據資源構成,包括基礎數據、字典數據、知識圖譜等。
(三)“人-房-地”知識圖譜模型設計
知識圖譜模型設計是構建知識圖譜的關鍵,采用實體-聯(lián)系模型(E-R圖模型)構建“人-房-地”的知識圖譜基本框架,展示實體集合和聯(lián)系集合。每個En? tity代表一個實體類型,字段則為實體屬性,如果字段為外鍵字段,則代表與其他實體的一種關系。
圍繞著“人-房-地”知識圖譜基本架構,我們將其梳理成三個數據域的數據源:城建檔案數據源、城市地理信息數據源(包括“點-線-面”地理信息數據)和住建基礎數據源,并基于Power Designer設計了數據源的表結構。之后,我們以城建檔案數據源為核心來構建城建檔案知識圖譜,形成城建檔案數據源物理模型。
城建檔案知識圖譜平臺基于館存城建檔案中房建、用地數據標準化處理,使住房用地空間位置與公共服務、市政、交通設施匹配,形成以地塊為基本空間單元的“人-房-地”體征數據庫。這樣“人-房-地”對應后,就可以形成在同一空間單元具有唯一性的人口、建筑和用地相互關聯(lián)關系。
該平臺通過將城建檔案中海量的非結構化和半結構化數據進行結構化,構建城建檔案知識圖譜,并且通過基于知識圖譜的信息檢索和推理,提供面向城建檔案業(yè)務人員的城建檔案流程智能關聯(lián)、地塊歷史數據關聯(lián)等知識服務。
該平臺利用知識圖譜技術,將分散在住建、城建檔案、城市地理信息等各領域的數據進行匯聚融合,并構建以“人-房-地”為核心的城建檔案知識圖譜系統(tǒng),提供智能應用服務。
(一)知識圖譜Schema可視化
該平臺可以實現(xiàn)按需求可視化調整知識圖譜結構,我們可在平臺上通過拖拽的方式自助創(chuàng)建圖數據庫集群、創(chuàng)建圖的Schema、導入圖數據,設計知識圖譜的實體、屬性和關系信息,如圖2所示。對于實體,我們可設計其實體名稱及實體屬性信息,包括屬性名稱、屬性類型(數值型、字符型、布爾型、時間日期型等)、最大最小值、是否必需、是否為顯示字段等,通過在實體之間連線操作,實現(xiàn)實體間關系的設計可視化。
(二)逐級探索及雙實體關聯(lián)分析
該平臺對知識圖譜中的“項目-地塊-單位”等信息進行關聯(lián)分析,并可視化展示其分析結果,實現(xiàn)城建檔案信息逐級探索功能。我們通過輸入檢索條件確定起始節(jié)點,即可獲得該節(jié)點屬性信息。
實體類型包括單位、項目、地塊、小區(qū)、樓棟5類共10種組合,我們通過選擇實體類型并在系統(tǒng)中輸入實體名稱可查詢該實體所有屬性的信息,并了解實體(檔案名稱、屬性等)之間的關系。
(三)基于地塊的知識圖譜可視化展示
通過將可視化展示功能與南寧市城建大數據平臺融合,可以在電子地圖上展示地塊的關聯(lián)圖譜信息。如圖3所示,查詢結果關系圖可列表顯示圖形中所有實體,并且我們選擇某個實體后,可以獲得該實體的所有屬性信息。
(四)異常檢測分析
平臺通過圖譜推理,設置異常檢測規(guī)則閾值,判斷異常數據。該功能可用于項目合規(guī)性檢測、樓棟的安全性檢測(如檢測電梯過保或者幕墻過保的樓棟信息)、危房預警分析(根據預設的危房判定規(guī)則對所有建筑物進行危房判定,預警提示符合條件的建筑物)、相似事故預警分析(通過分析歷史安全事故信息,抽取其特征值,并將特征值在知識圖譜中進行近似匹配,對近似度較高的建筑物或項目進行預警提示)。
在“存量數字化,增量電子化”的信息化進程中,檔案“知識化”越來越引起人們重視。[7]基于圖數據庫的知識圖譜在處理海量數據多對多的復雜實體聯(lián)系場景中有著高性能、靈活、敏捷的天然優(yōu)勢。城建檔案知識圖譜服務平臺有別于一般的城建檔案系統(tǒng),具有深度知識推理能力和逐步擴展的認知能力,基于知識圖譜服務平臺提供的信息檢索和推理能力提供城建檔案檢索、智能關聯(lián)、異常檢測分析等知識服務,可以有效提高服務效率,擴展城建檔案在各行業(yè)的應用,進而可以拓展服務領域。伴隨“互聯(lián)網+”與城建檔案的深度融合,后續(xù)我們可以基于知識圖譜去探索圖學習、圖計算的能力,為平臺用戶提供更多挖掘城建檔案圖數據價值的功能,推動城建檔案管理朝著智能化的方向前進。
*本文系2020年國家檔案局科技項目“基于時空數據的智慧城市檔案知識圖譜構建及應用服務體系研究”(項目編號:2020-X-053)階段性研究成果。
注釋及參考文獻:
[1]王靜巖.淺談關于海量城建檔案數據的深度挖掘和分析[J].土木建筑工程信息技術,2018,10(3):108-111.
[2]徐惦耕,張穎.大數據時代城建檔案在城市建設管理活動中的作用[J].重慶建筑,2019,18(9):41-43.
[3]楊繼東.基于BIM技術的三維城建檔案接收保管和利用模式研究[J].數字與縮微影像,2017(3):11-15.
[4]楊來青.大數據背景下檔案信息資源挖掘策略與方法研究[J].中國檔案,2018(8):60-61.
[5]鄔群勇,孫梅,崔磊.時空數據模型研究綜述[J].地球科學進展,2016,31(10):1001-1011.
[6]黃歡宏,陳啟文.基于GIS的城建檔案管理系統(tǒng)研究與開發(fā)——以城建檔案空間導視管理系統(tǒng)建設項目為例[J].城建檔案,2018(11):36-38.
[7]孫沁.“互聯(lián)網+”時代檔案利用服務工作變革的幾點思考[J].北京檔案,2020(2):32-34.
作者單位:1.南寧市勘測設計院集團有限公司2.南寧市城市建設檔案館