蘇铓,李鳳華,史國振,李莉
(1. 西安電子科技大學 綜合業(yè)務網(wǎng)理論及關鍵技術國家重點實驗室,陜西 西安710071;2. 中國科學院 信息工程研究所,北京100093;3. 北京電子科技學院 電子信息工程系,北京100070)
隨著網(wǎng)絡、數(shù)字出版等技術的進步,閱讀終端的飛速發(fā)展,使文檔閱讀的需求發(fā)生了巨大的變化,要求文檔能夠面向多樣化、普及化的終端,既有版式的清晰性和條理性,也要具備流式的內(nèi)容可變性,并能夠自適應終端屏幕大小。結構化文檔融合了流式和版式描述信息,面向多樣化的閱讀、顯示需求,已經(jīng)逐步成為互聯(lián)網(wǎng)信息傳播的重要載體。針對結構化文檔格式的研究一直是文檔描述的重點。一個文檔可以采用層次化組織的物理和邏輯結構進行描述,物理結構反映文檔的布局,邏輯結構反映文檔的組織。文檔的物理結構和邏輯結構的整體構成了文檔模型[1]。
訪問控制最初面向大型機資源共享的需求,傳統(tǒng)的訪問控制研究經(jīng)歷了自主訪問控制、強制訪問控制、基于角色的訪問控制等模型。為了適應分布式網(wǎng)絡環(huán)境的特點,出現(xiàn)了基于任務的訪問控制、面向分布式和跨域的訪問控制、與時空相關的訪問控制等模型。云計算、移動計算等的出現(xiàn),使得訪問控制的研究向細粒度、多要素的方向發(fā)展,基于屬性的訪問控制、基于行為的訪問控制等模型相繼出現(xiàn)。目前如何針對網(wǎng)絡環(huán)境下信息的傳輸進行對象化、細粒度的訪問控制,滿足用戶個性化需求的同時,保證信息資源合理、合法使用成為了訪問控制研究面臨的新挑戰(zhàn)。
多級安全[2]主要關注信息的分級管理和訪問授權,保證不同安全級別的信息只能被享有相應權限的用戶訪問,BLP[3]、Biba[4]等模型通過實施嚴格的強制訪問控制策略,在一定程度上保護了信息的機密性和完整性。
目前,泛在網(wǎng)絡環(huán)境下的信息多以結構化文檔的方式進行交互和傳播,而且隨著在線交互設備的多樣化,結構化文檔的訪問控制及安全屬性描述已經(jīng)逐漸走向?qū)ο蠹墶⒓毩6?,即文檔包含子文檔,子文檔包含對象,客體的訪問控制以對象為單位?,F(xiàn)有的結構化文檔描述模型中缺少針對訪問控制和多級安全的支持,導致在多級安全環(huán)境下,結構化文檔的機密性、完整性受到威脅,基于結構化文檔的訪問控制不能迎合多級安全的需求。因此本文提出一種面向多級安全的結構化文檔描述模型,能夠保證文檔流式和版式信息完備,并解決結構化文檔在日趨復雜的網(wǎng)絡環(huán)境下機密性、完整性、訪問控制等問題。
結構化文檔同時描述了文檔的版式信息和流式信息,能夠更好的適用于自適應顯示。在眾多的結構化文檔描述模型中,PDF、XPS和CEBX較為成熟。其中,Adobe推出的PDF 1.3規(guī)范引入了logical structure,PDF 1.4規(guī)范引入了tagged PDF來完善流式信息的表達;其后又將XML引入,用于對MARS文檔格式中信息進行結構化的描述。李寧等人針對“標文通”與Tagged PDF的信息交換進行了實驗,為減少辦公文檔的跑版問題提供了積極的借鑒意義[5]。微軟公司也在其固定版式文件XPS(XML paper specification)中采用類似的方式對邏輯結構信息進行了兼容[6],但是以上研究并沒有完全解決信息數(shù)據(jù)的結構化問題。Bloechle等人基于Dori模型開展了一系列的研究工作,于2006年提出了XCDF[7]格式,XCDF文檔與Tagged PDF相比,版式信息與流式信息的結合更為緊密合理,并且采用了XML來描述相關信息,使得其構造、使用更為方便,基于上述研究,文獻[8]提出了一種從已有固定版式文檔中重新構造文檔邏輯結構的方法——Dolores。為了縮小文檔體積、便于使用,Bloechle對XCDF格式進行了優(yōu)化[9]。
北大方正公司2005年在原來CEB版式結構文檔的基礎上啟動了CEBX計劃,并吸收Tagged-PDF、MARS流式特征,推出了CEBX 1.1版本,能夠較好的解決版式和流式文檔的融合問題,并分別針對移動設備和文檔存儲,提出了CEBX 1.2-M和CEBX 1.2-A版本。CEBX采用了打包的形式,將文檔整體描述、安全描述、版式信息、流式信息以及資源和物理層信息進行整合。CEBX添加了文檔整體安全描述[10],能夠?qū)崿F(xiàn)整個文檔及其包含文件的加密、簽名以及整體使用權限的定義,并且支持DRM解決方案,初步解決了結構化文檔在網(wǎng)絡傳輸和使用過程中的機密性、完整性等問題。
但是,隨著分布式計算、移動計算、云計算以及泛在計算的出現(xiàn),網(wǎng)絡環(huán)境日趨復雜,如何對結構化文檔進行多級安全管理,并滿足用戶隨時、隨地訪問結構化文檔的控制需求,成為結構化文檔描述的未來的研究方向。
針對上述結構化文檔在泛在網(wǎng)絡環(huán)境中面臨的訪問控制和多級安全管理問題,本文將基于CEBX等結構化文檔描述方法,提出一種如圖1所示的新型結構化文檔描述模型。該模型分為2個層次,第1層包含了文檔入口、文檔安全屬性描述、文檔根節(jié)點、頁面信息、文檔邏輯結構描述、文檔樣式結構描述。其中,文檔入口描述了文檔的安全屬性、基礎信息、文檔根節(jié)點等內(nèi)容及其相互關聯(lián)關系;文檔安全屬性描述了對文檔信息進行加密和簽名所使用的算法、密鑰以及初始向量等信息;文檔根節(jié)點的定義主要用于實現(xiàn)文檔的嵌套和包含,描述了文檔及其子文檔之間的邏輯關系,子文檔同樣包含了文檔入口、安全屬性描述等信息;文檔邏輯結構描述與文檔樣式結構描述對文檔的元素組織形式、顯示方式進行了描述,包含了文檔章、節(jié)等的組織結構和樣式表等信息;頁面信息描述了頁面的邏輯組成、關聯(lián)關系、數(shù)量等信息。為了進一步描述結構化文檔所包含資源及其物理數(shù)據(jù),定義了模型的第2個層次,包含頁面,每個頁面由資源目錄、資源描述和物理數(shù)據(jù)組成。資源是對一組圖元或其他數(shù)據(jù)描述的集合。在頁面中出現(xiàn)的圖元、使用的數(shù)據(jù)或者結構都保存在資源中,在需要使用時從相應的資源中讀取。一個文檔可以包含一個或多個資源。
在圖1所示的結構化文檔模型中,文檔邏輯結構描述、文檔樣式結構描述需要在網(wǎng)絡傳輸和使用中保證其完整性,從而保證文件格式和版式的正常顯示。并且需要保證文檔所包含資源的合法使用,因此需要結合目前網(wǎng)絡環(huán)境的多樣性和用戶訪問個性化的需求,為資源描述添加安全屬性描述,包含該資源的域安全屬性、時態(tài)屬性、環(huán)境屬性,為了能夠滿足多級安全管理的需求,為安全屬性描述添加了安全級別和訪問范疇的定義。
文檔邏輯結構和樣式結構描述的完整性標識保證了結構化文檔在網(wǎng)絡傳輸過程中文檔格式、顯示形式等描述的完整、不可篡改;資源安全屬性描述的添加能夠為用戶提供在任意時間、任意地點對任意資源合法訪問的控制以及滿足資源多級管理的需求。
安全屬性描述包含了文檔整體的安全屬性描述、針對邏輯結構描述和樣式結構描述的完整性標識以及針對資源訪問控制和多級安全管理的環(huán)境、時態(tài)、安全等級、訪問范疇和域安全屬性的描述。綜合各類不同安全屬性描述的特點,為圖1中的描述模型添加安全屬性描述定義,說明如圖2和表1所示。
訪問控制標簽(access control label)主要包含了權限描述、權限對象、用戶信息、管理員信息、域安全屬性、時態(tài)屬性、環(huán)境屬性、安全級別和訪問范疇。其中,權限定義了Read、Write、Create、Modify 4類,并且可以依據(jù)需要將其具體化,例如:針對多媒體文件,可以定義為View(查看)、Play(播放)等。為了保證權限信息的完整性,為該項內(nèi)容定義了簽名標簽。為了支持對結構化文檔跨域流通時的控制,定義了域安全屬性,主要描述在傳播過程中所經(jīng)由域的約束信息。時態(tài)、環(huán)境屬性的定義用于對用戶訪問進行控制,結合基于行為的訪問控制模型[11],時態(tài)和環(huán)境屬性分別標識了可以對文檔及其對象進行訪問的時間區(qū)段和環(huán)境要求。安全等級和訪問范疇的定義為多級安全管理提供支持,安全級別標識了能夠訪問該文檔或者資源對象主體的最低安全級別,訪問范疇則標識了訪問主體所處的組信息,例如:部門、系部等。
圖1 泛在網(wǎng)絡環(huán)境下結構化文檔描述模型
圖2 安全屬性描述結構定義
簽名標簽的定義主要用于保證文檔及其相關信息的完整性,該標簽中定義了簽名所使用的算法、簽名的有效期以及簽名生成的數(shù)據(jù)即完整性標識信息,如圖3所示。其中,ID為數(shù)字簽名的唯一標識,TimeStamp為時間戳,用于記錄簽名時間和數(shù)字簽名的有效期。由于結構化文檔描述文件包含信息較多,因此在進行數(shù)字簽名前,需要生成摘要數(shù)據(jù)。DigestMethod和DigestValue分別表示了摘要算法和摘要數(shù)據(jù)。SignatureMethod和Signature Value分別對應簽名算法和簽名數(shù)據(jù)。CertificationType和CertificationData分別描述用于驗證簽名的證書類型和證書數(shù)據(jù)。在網(wǎng)絡數(shù)據(jù)的傳輸過程中,接收方將依據(jù)接收到文檔的Signature中摘要算法、簽名算法、證書數(shù)據(jù)中的公鑰信息生成驗簽數(shù)據(jù),并與摘要數(shù)據(jù)對比以確認結構化文檔該部分信息的完整性。
用戶可以根據(jù)需求的不同而選取不同的字段,針對文檔邏輯結構描述和樣式結構描述需要選取Signature標簽;針對資源的安全屬性描述則需要選取訪問控制標簽,Signature標簽可以按照需要取舍。
表1 安全屬性描述標簽說明
圖3 Signature描述結構定義
為了進一步說明圖1所示模型以及圖2、圖3所描述結構的使用方法,本節(jié)將給出一個針對性的實例。定義結構化文檔的邏輯結構和樣式結構描述的完整性標簽,采用MD5算法計算消息摘要,RSA算法生成簽名,證書采用X.509格式,簽名生成時間為當前系統(tǒng)時間。對應的安全屬性描述文件Security_1.xml如下。
針對該結構化文檔的訪問控制需求,例如,該文檔的訪問時間是上午8點到下午5點,地點為公司內(nèi)部,可以被安全級別3及以上級別部門A的人員進行修改操作。Domain標簽將記錄該文檔在跨域傳遞過程中經(jīng)由安全域的信息,如ID、網(wǎng)絡位置等內(nèi)容。具體描述文件Security_2.xml如下。
結構化文檔安全屬性描述模型為結構化文檔、子文檔及其對象定義了安全屬性標簽,包含了完整性標記,能夠保證邏輯結構描述、樣式結構描述以及資源和數(shù)據(jù)在網(wǎng)絡傳輸過程中的完整性和不可篡改性。
該模型支持為文檔及其描述文件和資源的加密,可以定義對應的加解密算法、工作模式、密鑰以及初始化向量。能夠保證在文檔傳輸和使用過程中,數(shù)據(jù)信息的機密性。
安全屬性描述中包含域?qū)傩?、時態(tài)、環(huán)境屬性,為用戶描述訪問時所處的物理環(huán)境、軟硬件平臺、時間狀態(tài)等信息,并對結構化文檔進行對象級的環(huán)境、時態(tài)約束。文檔管理系統(tǒng)通過定義用戶與結構化文檔,添加主客體環(huán)境、時態(tài)標簽,實現(xiàn)結構化文檔的多要素訪問控制,進一步適用于分布式計算、云計算、泛在計算等復雜網(wǎng)絡環(huán)境。
安全屬性描述中包含的安全級別和訪問范疇能夠約束主客體的安全級別及所屬范圍,針對不同的安全級別設置不同的訪問規(guī)則及其操作類型,從而對結構化文檔實現(xiàn)多級安全管理。
分布式計算、移動計算、云計算以及泛在計算的出現(xiàn)推動了信息化社會的發(fā)展,結構化文檔作為一種融合了版式和流式信息的表現(xiàn)形式,在網(wǎng)絡信息的傳播中扮演了重要的角色。但是,網(wǎng)絡環(huán)境的復雜特性為結構化文檔的訪問控制帶來了新的挑戰(zhàn),不同的網(wǎng)絡環(huán)境、物理位置、用戶角色、時間狀態(tài)等使得傳統(tǒng)的訪問控制方式不能夠適用于多樣化環(huán)境下的結構化文檔管理。而且,多級安全的出現(xiàn)使得結構化文檔的描述日趨復雜。因此,需要一種結合多種訪問要素、具有多級安全特征的結構化文檔描述方法。本文通過對傳統(tǒng)結構化文檔描述模型的研究,結合訪問控制和多級安全需求,提出了一種面向多級安全的結構化文檔描述模型定義和描述方法,定義了安全屬性的描述結構,并給出了相應的XML描述實例。該模型能夠解決結構化文檔在網(wǎng)絡跨域流轉(zhuǎn)過程中邏輯結構描述、樣式結構描述以及資源數(shù)據(jù)的完整性和機密性問題,保證結構化文檔的合理、合法使用。
[1] KLINK S, DENGEL A, KIENINGER T. Document structure analysis based on layout and textual features[A]. Proceedings of the 4th IAPR International Workshop on Document Analysis Systems[C]. Rio de Janeiro, Brazil. 2000. 99 - 111.
[2] The future of multi-level secure (MLS) information systems[EB/OL].http://csrc.nist.gov/nissc/1998/ proceedings /panelF3.pdf, 1998.
[3] BELL D E. Looking Back at the Bell-LaPadula model[A]. Proceedings of the 21st Conference On Annual Computer Security Applications[C]. Washington, DC, USA, 200.337-351.
[4] BIBA K J. Integrity Considerations for Secure Computer Systems[R].MTR-3153, The Mitre Corporation, 1977, 04.
[5] 李寧, 田英愛, 侯霞等. 辦公文檔與固定版式文檔格式關系探討[J].電子學報, 2008, 36(B12): 128-132.LI N, TIAN A Y, HOU X, etal. A discussion on relationship between revisable and non-revisable document formats[J]. Acta Electronica Sinica, 2008, 36(B12): 128-132.
[6] Microsoft Corporation. XPS Specification and Reference Guide[S].2010, 06, 30.
[7] BLOECHLE J L, RIGAMONTI M, HADJAR K, etal. Xcdf: a canonical and structured document format[A]. Proceedings of the 7th International Workshop on Document Analysis Systems[C]. Nelson,New Zealand, 2006. 141 - 152.
[8] BLOECHLE J L, PUGIN C, INGOLD R. Dolores: an interactive and class-free approach for document logical restructuring[A]. Proceedings of the 8th International Workshop on Document Analysis Systems[C].Nara, Japan, 2008. 644 - 652.
[9] BLOECHLE J L, LALANNE D, INGOLD R. OCD: an optimized and canonical document format[A]. Proceedings of the 10th International Conference on Document Analysis and Recognition[C]. Barcelona,USA, 2009. 236 - 240.
[10] CEBX/Mv1.2 Standard Manual[S]. 2011.8.
[11] 李鳳華, 王巍, 馬建峰等. 基于行為的訪問控制模型及其行為管理[J].電子學報, 2008, 10, 36(10): 1881-1890.LI F H, WANG W, MA J F, etal. Access control model and administration of action[J].Acta Electronica Sinica, 2008, 10, 36(10):1881-1890.