亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于OOXML的演示文稿溯源及編輯過程恢復(fù)方法研究

        2017-10-11 02:36:48羅文華王燕燕劉曉麗
        中國司法鑒定 2017年5期
        關(guān)鍵詞:多媒體分析

        羅文華,王燕燕,劉曉麗

        (中國刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系,遼寧沈陽110035)

        基于OOXML的演示文稿溯源及編輯過程恢復(fù)方法研究

        羅文華,王燕燕,劉曉麗

        (中國刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系,遼寧沈陽110035)

        目的電子文檔易復(fù)制、易修改的特性使得文檔編輯行為的分析成為電子數(shù)據(jù)取證的難點與焦點。傳統(tǒng)的數(shù)據(jù)恢復(fù)和數(shù)據(jù)搜索無法實現(xiàn)重要信息的提取,由此嘗試通過文件結(jié)構(gòu)的分析挖掘曾經(jīng)有過的編輯行為。方法結(jié)合Microsoft Office的OOXML文件格式,對PowerPoint2010文檔中與文檔來源及編輯過程相關(guān)的特征屬性進(jìn)行挖掘,著重分析creationID、revision、幻燈片ID及多媒體ID隨編輯操作的變化規(guī)律。結(jié)果實現(xiàn)了Office PowerPoint 2010文檔的溯源分析與多媒體編輯過程重現(xiàn),并通過自主研發(fā)的軟件使分析工作智能化、工具化。結(jié)論基于復(fù)合文件格式可以實現(xiàn)Office 2003文檔編輯過程恢復(fù),基于OOXML格式不僅可以實現(xiàn)Office 2010文檔編輯過程恢復(fù),還可以實現(xiàn)文檔溯源分析。

        OOXML;演示文稿;編輯過程;還原來源

        Abstract:ObjectiveElectronic documents are easy to copy and modify,so the analysis of document editing behavior becomes the difficulty and focus of electronic data forensics.Traditional data recovery and data search methods can’t achieve the extraction of important information,so this study attempts to analyze the editing behavior through the analysis of document structure.MethodCombined with the OOXML file format of Microsoft Office,attributes related to document sources and editing processes in PowerPoint 2010 documents were studied.The change rules of creation ID,revision,slide ID and multimedia ID with edit operation were analyzed emphatically.ResultThe traceability analysis of Office PowerPoint 2010 document and the process of multimedia editing were realized.The analysis was made intelligent and tool oriented with the independent research and developed software.ConclusionBased on the compound file format,the Office 2003 document editing process can be restored.Based on the OOXML format,not only can the Office 2010 document editing process be restored,but also the document traceability analysis can be realized.

        Keywords:OOXML;slide presentation;editing process;source detection

        微軟公司的Office系列軟件自發(fā)布以來被廣泛應(yīng)用于文檔的編寫、演示、統(tǒng)計等領(lǐng)域,PowerPoint是其中一款演示文稿軟件。PowerPoint的普遍使用使得大量商業(yè)機密及創(chuàng)意產(chǎn)品資料以電子文檔的形式保存,然而由于電子文檔易復(fù)制、易修改的特性,與電子文檔相關(guān)的知識產(chǎn)權(quán)糾紛頻繁發(fā)生[1]。

        在與電子文檔相關(guān)的知識產(chǎn)權(quán)糾紛中,文檔的來源性和編輯過程檢測是檢驗的重點。現(xiàn)有的方法多為通過WinHex等二進(jìn)制讀取軟件從文件底層讀取文件信息,達(dá)到檢測來源及恢復(fù)編輯過程的目的。而Office系列軟件自2007版本之后采用了OOXML[2](Open Office XML)格式存儲文件,OOXML是一種以XML為基礎(chǔ)并以ZIP格式壓縮的電子文件規(guī)范,其將文檔屬性、文檔內(nèi)容、圖表、圖片、音視頻文件以及文檔之間的關(guān)系等打包在一起,大大提高了文檔的可恢復(fù)性。本文結(jié)合其獨特的XML格式,提出了PowerPoint2010基于OOXML的來源檢測及編輯過程恢復(fù)的方法。

        1 技術(shù)原理

        1.1 演示文稿文件結(jié)構(gòu)分析

        演示文稿文件采用ZIP格式壓縮,修改其后綴名為“ZIP”即可對其進(jìn)行解壓縮。解壓縮后的PPTX文件夾由四部分組成,其中包括三個文件夾:_rels、docProps、ppt,以及一個xml文件:[Content_Types].xml。

        _rels文件夾中只有一個.rels文件,它定義了部件之間的關(guān)聯(lián)關(guān)系,是解析整個包時要瀏覽的第一個文件。

        docProps文件夾包含三個文件:docPropsapp. xml描述了軟件版本、文檔頁數(shù)、字符總數(shù)等;docPropscore.xml描述了作者、文檔創(chuàng)建時間、最后修改時間等;docProps humbnail.jpeg是演示文稿第一頁的縮略圖。

        ppt文件夾是PowerPoint獨有的目錄,包含著其特有的文檔信息。其中,ppt\_rels指定文檔部件的集合如何組合為一個文檔;pptmedia包含文檔中嵌入的圖片、音頻、視頻等多媒體文件;ppt heme描述了文檔使用的主題風(fēng)格;pptslides是最重要的文件夾,它包含了每頁幻燈片的具體內(nèi)容及其關(guān)系文件。其中,每一頁幻燈片都以一個獨立的xml文件格式存儲,這些xml文件的命名規(guī)律為“slide+幻燈片序號.xml”,與之對應(yīng)的,pptslides\_rels文件夾中存放著各頁幻燈片的關(guān)系文件,這些關(guān)系文件的命名規(guī)律為“slide幻燈片序號.xml.rels”;最后,ppt文件夾的presentation.xml文件負(fù)責(zé)將整個文件夾中的內(nèi)容串聯(lián)在一起形成一個完整的文檔[3]。

        Content_types.xml定義包中各部分的內(nèi)容類型。

        1.2 PPTX文件來源性分析

        所謂文件的來源性分析,即通過對源文件與目標(biāo)文件進(jìn)行比較,判斷兩文件是否由同一文件復(fù)制而來。

        之前提到,幻燈片的具體內(nèi)容存儲在“slide+幻燈片序號.xml”文件中。分析PPTX文件是否同源,可從這些slide文件的內(nèi)容入手。

        由于xml文件以樹狀結(jié)構(gòu)存儲數(shù)據(jù)[4],以樹狀結(jié)構(gòu)解讀slide文件可以得到其根節(jié)點為,根節(jié)點包含兩個一級子節(jié)點——。其中,用戶可在節(jié)點中創(chuàng)建形狀樹,也就是編輯幻燈片的具體內(nèi)容。的子節(jié)點,如果幻燈片中插入了圖片、音頻、視頻等多媒體文件,里將存放這些多媒體文件的文件名及xml文檔賦予它們的ID號碼。中還包含著與同一級別的另一個子節(jié)點——,xml文檔的用戶可以在該節(jié)點中存放自定義的數(shù)據(jù)[3]。slide文件的樹形結(jié)構(gòu)如圖1所示。

        圖1 slide文件的樹形結(jié)構(gòu)圖

        由樹形結(jié)構(gòu)圖可以看到,用戶自定義節(jié)點中存放了四級子節(jié)點,該節(jié)點擁有屬性val,該屬性的值可稱為幻燈片的creationID值。研究發(fā)現(xiàn),同一演示文稿中的各幻燈片的creationID值均不相同,且分別建立的兩個演示文稿文件,其對應(yīng)頁幻燈片的creationID值也不相同。為探究由同一文件復(fù)制而來的演示文稿creationID值的變化規(guī)律,課題組進(jìn)行了大量實驗。由實驗結(jié)果總結(jié)的規(guī)律如表1所示:

        表1 creationID值的變化規(guī)律

        由表1可以看出,如果演示文稿A由演示文稿B通過復(fù)制操作生成,不論對演示文稿B做內(nèi)容修改還是對幻燈片頁數(shù)進(jìn)行增刪,只要演示文稿A中還存留有演示文稿B的任意張幻燈片,其留存的幻燈片就會保留演示文稿B中幻燈片的creationID值。圖2所示為“sample.pptx”、“sample-副本.pptx”和“sample2.pptx”中slide1.xml的內(nèi)容。其中,“sample-副本.pptx”由“sample.pptx”復(fù)制而來,并對內(nèi)容做了適當(dāng)修改,“sample2.pptx”為另外創(chuàng)建的文件。可以看到前兩個文件擁有相同的creationID值(2338748835),而另外創(chuàng)建的文件slide1.xml中的creationID值則完全不同(2411686777)。creationID值通常由8位以上數(shù)字組成,兩個creationID值完全相同的概率極低。因此,可以判定,演示文稿A如果含有與演示文稿B相同的creationID值,即可說明A與B同源。

        1.3 PPTX文件編輯順序分析

        所謂文件編輯順序分析,即以單個演示文稿為分析對象,對演示文稿內(nèi)幻燈片及其多媒體內(nèi)容的增加、刪除等編輯過程進(jìn)行還原。

        圖2 三個演示文稿中幻燈片的creationID值

        表2 revision節(jié)點、創(chuàng)建時間及修改時間的變化規(guī)律

        1.3.1 演示文稿的編輯時間鏈

        之前提到,位于docProps文件夾下的core.xml描述了文檔作者、創(chuàng)建時間以及最后修改時間等。研究發(fā)現(xiàn),core.xml中記錄的除了創(chuàng)建時間和修改時間之外,還有一個節(jié)點。經(jīng)過實驗,得到revision節(jié)點、創(chuàng)建時間及修改時間的變化規(guī)律如表2所示。

        由表2可以看出,revision節(jié)點記錄了演示文稿的版本號,即自創(chuàng)建以來修改過的次數(shù)。一個新建的pptx文檔,其版本號為1。對其進(jìn)行修改得到的pptx文檔,其版本號將隨著修改次數(shù)遞增。圖3所示的是演示文稿sample.pptx的原文件及其修改一次后的core.xml內(nèi)容。因此,從revision的數(shù)值可以判斷出文檔的編輯次數(shù)。顯然,revision較小的演示文稿的編輯順序先于revision較大的演示文稿,結(jié)合修改時間即可得到文件編輯的時間鏈。

        1.3.2 幻燈片及其多媒體內(nèi)容的添加次序

        之前提到,pptpresentation.xml文件負(fù)責(zé)將整個演示文稿串聯(lián)在一起。該xml文件的根節(jié)點是,其下的一級子節(jié)點中存儲著若干二級子節(jié)點,即演示文稿中的幻燈片列表,節(jié)點中存儲幻燈片的標(biāo)識號(id)和索引號(r:id)。通過該索引號可在ppt\_relspresentation.xml.rels文件中查詢到pptslides文件夾下對應(yīng)的幻燈片的名稱[5]。

        如果幻燈片中插入了多媒體文件,這些多媒體文件的信息將儲存在“pptslidesslide幻燈片序號. xml”的節(jié)點。如圖1所示,節(jié)點包含三個子節(jié)點——、,其中,中存儲了xml文件賦予該多媒體文件的名字(name)和標(biāo)識號(id),則存儲了索引號(r:embed),通過索引號可以在pptslides\_rels關(guān)系文件中查詢多媒體文件的存儲路徑。

        可以看出,無論是幻燈片本身還是幻燈片中添加的多媒體文件,都擁有各自的標(biāo)識號(id),經(jīng)過實驗,本文總結(jié)出幻燈片ID與多媒體ID的變化規(guī)律,如表3所示。

        圖3 sample.pptx及其修改一次后的core.xml

        表3 幻燈片ID與多媒體ID的變化規(guī)律

        由表3可以看出,隨著幻燈片的增加,幻燈片的ID隨之遞增。首張幻燈片的ID值默認(rèn)為“256”,第二張幻燈片則為“257”,以此類推。而當(dāng)刪除其中某個幻燈片時,其他幻燈片的ID值并不會發(fā)生改變。同樣的,隨著幻燈片中插入多媒體文件數(shù)量的增加,多媒體文件的ID值也呈遞增,幻燈片中加入的首個多媒體文件的ID值默認(rèn)為“4”,第二個多媒體文件為“5”,以此類推,當(dāng)刪除其中某個多媒體文件時,其他多媒體文件的ID值也不會發(fā)生改變。因此,完全可以由幻燈片ID和多媒體文件ID分析出幻燈片及其多媒體文件的插入順序及刪除情況。如圖4所示,在sample.pptx中先后添加三張幻燈片,其幻燈片ID分別為“256”、“257”、“258”,刪除第二張幻燈片,可以發(fā)現(xiàn)幻燈片ID出現(xiàn)斷層。如圖5所示,在sample. pptx的第一張幻燈片中先后插入三張圖片,其多媒體文件ID分別為“4”、“5”、“6”,刪除第二張圖片,可以發(fā)現(xiàn)多媒體文件ID出現(xiàn)斷層。

        圖4 sample.pptx的幻燈片ID列表

        圖5 sample.pptx及其修改后的多媒體文件ID列表

        圖6 來源分析模塊設(shè)計流程圖

        圖8 來源性分析結(jié)果

        圖7 多媒體文件分析模塊設(shè)計流程圖

        圖9 多媒體文件列表及添加次序

        2 系統(tǒng)功能

        基于第二節(jié)所述原理,課題組使用VB.NET語言實現(xiàn)了Office PowerPoint 2010溯源及多媒體編輯順序分析工具。系統(tǒng)分為來源分析模塊和多媒體文件分析模塊。兩個模塊的設(shè)計流程如圖6~7所示。

        為了測試系統(tǒng)的功能,課題組首先創(chuàng)建了一個單頁的演示文稿文件“圖片實驗.pptx”,并在第一頁插入了三張圖片。復(fù)制“圖片實驗.pptx”得到“圖片實驗-副本.pptx”,打開副本并刪除三張圖片中的第二張。圖8顯示的是系統(tǒng)對兩個演示文稿的來源性分析結(jié)果。從結(jié)果可以清晰地看出兩個演示文稿來源相同,且文件2(圖片實驗.pptx)的創(chuàng)建早于文件1(圖片實驗-副本.pptx)。打開圖片實驗.pptx,對幻燈片1進(jìn)行分析,幻燈片1中的多媒體文件添加次序如圖7所示??梢钥闯龌脽羝?中的多媒體文件序號從“4”開始,順序遞增至“6”。打開圖片實驗-副本. pptx,對幻燈片1進(jìn)行分析?;脽羝?中的多媒體文件添加次序如圖9所示??梢钥闯龌脽羝?中的多媒體文件序號從“4”開始,但缺少了序號為“5”的節(jié)點。結(jié)合來源性分析可以判斷,文件1為文件2復(fù)制所得,并在文件2的基礎(chǔ)上刪除了“圖片4”。

        [1] 羅文華,孫道寧.Office Word文檔溯源方法研究[J].警察技術(shù),2015,(4):45-47.

        [2] ISO/IEC 29500:2006 Information Technology-Document Description and Processing Languages-Office Open XML File Formats-Part1-4[S].2008.

        [3] 滑淑然.演示文稿文檔格式標(biāo)準(zhǔn)結(jié)構(gòu)分析[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2010,(S2):37-42.

        [4] 郭林.面向XML文檔的數(shù)據(jù)挖掘技術(shù)研究[D].遼寧:大連理工大學(xué),2005.

        [5] Rice Frank.Introducing the office(2007)open xml file formats[EB/OL].(2012-11-07)[2016-07-02].http://msdn2. microsoft.com/en-us/library/aa338205.aspx.

        (本文編輯:盧啟萌)

        Research on the Methods for Tracing the OOXML Files and Recovering the Editing Process

        LUO Wen-hua,WANG Yan-yan,LIU Xiao-li
        (Department of Cyber Crime Investigation,Criminal Investigation Police University of China,Shenyang 110035,China)

        D918.9

        A

        10.3969/j.issn.1671-2072.2017.05.009

        1671-2072-(2017)05-0052-06

        2016-09-02

        公安部技術(shù)研究計劃項目(2015JSYJC04);遼寧省教育廳科研項目

        羅文華(1977—),男,教授,主要從事網(wǎng)絡(luò)犯罪偵查與電子數(shù)據(jù)取證工作。E-mail:luowenhua770404@126.com。

        猜你喜歡
        多媒體分析
        借助多媒體探尋有效設(shè)問的“四度”
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        多媒體在《機械制圖》課中的應(yīng)用
        初中化學(xué)因多媒體而綻放光彩
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        巧用多媒體 讓課堂練筆更加有效
        多媒體達(dá)人煉成記
        河南電力(2016年5期)2016-02-06 02:11:40
        適切 適時 適度——說說語文課堂的多媒體使用
        語文知識(2015年9期)2015-02-28 22:01:42
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        91国产自拍精品视频| 精品国产一区二区三区三| 午夜不卡无码中文字幕影院| 国产成a人亚洲精品无码樱花| 成人免费a级毛片| 欧美性xxxx狂欢老少配| 波多野结衣有码| 国产精品涩涩涩一区二区三区免费| av资源在线免费观看| 成人丝袜激情一区二区| 波多野结衣av手机在线观看| 大学生被内谢粉嫩无套| 北条麻妃在线视频观看| 成人免费丝袜美腿视频| 久久综合九色综合久久久 | 日韩美女av一区二区| 久久国产精品亚洲婷婷片| 亚洲午夜成人精品无码色欲| 日本高清aⅴ毛片免费| 天堂69亚洲精品中文字幕| 亚洲天堂av大片暖暖| 人妻免费一区二区三区免费 | 国语对白福利在线观看| 内射干少妇亚洲69xxx| 性久久久久久久| 国产中文制服丝袜另类| www.亚洲天堂.com| 日本老熟妇五十路一区二区三区| 门卫又粗又大又长好爽| 粗大的内捧猛烈进出在线视频| av网站入口在线免费观看| 亚洲永久国产中文字幕| 又湿又紧又大又爽a视频国产| 婷婷五月综合缴情在线视频| 亚洲在战AV极品无码| 国产激情视频在线观看大全| 一本久久综合亚洲鲁鲁五月天| 猫咪免费人成网站在线观看| 福利片免费 亚洲| 国产亚洲av夜间福利在线观看| 久久国内精品自在自线|