劉旭
91033部隊 山東 青島 266000
隨著通信技術的發(fā)展以及裝設備的不斷升級提升,通信技術及裝設備參數數據量不斷增大。大量的數據分布式存儲加大了交換與共享的難度。通過對實驗數據進行研究發(fā)現,95%以上的數據都是以Word文檔或Excel文檔的格式進行保存,再將其手動錄入到知識共享系統(tǒng)中,重復性的錄入工作極大地增大了實驗人員的工作量,因此自動化的數據轉儲工作迫在眉睫。
通信知識共享系統(tǒng)提供了一個允許多人并行式協(xié)作的平臺。用戶可以自行決定內容的相關性,自由進行創(chuàng)建、修改、刪除等操作。它可以用來當作百科全書、字典、術語表或者內部的CMS(Content Management System)平臺等。
目前,系統(tǒng)中以文本為載體的信息尤其豐富,通過關鍵字Category對頁面進行分類,將在頁面底部自動創(chuàng)建指向分類頁面的鏈接,從而可以方便有效地查看其父類的相關文檔。將一個頁面歸入分類,只需在編輯時在底部增加“[[Category:分類名稱]]”。知識共享系統(tǒng)的每一個條目都屬于至少一個類別,而一個類別又可以同時對應多個條目,具有清晰的類層次結構。
知識共享系統(tǒng)定義了固定的XML格式,任何輸入到系統(tǒng)的條目除了手動輸入外,都可以轉儲成該格式從而實現自動導入。條目(page)組成知識共享系統(tǒng)XML文件中最基本核心的組成單位,一個條目代表一個基本頁面。知識共享系統(tǒng)XML文件中條目的組織結構設計如下:
Word和Excel文檔的標準化技術目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可導出結構清晰的XML文件[1]。XML Schema文檔完全符合XML語法規(guī)范,它的后綴名是xsd。
Excel文檔標準化之后的XML文檔如下:
兩級映射就是把Word和Excel文檔標準化之后的XML文檔通過Java算法實現向知識共享系統(tǒng)XML文檔的初步轉化[2]。因為數據源的不同,把兩級映射分為兩個部分,第一部分是Word文檔的標準XML結構到知識共享系統(tǒng)XML文檔的映射,第二部分是Excel文檔的標準XML結構到知識共享系統(tǒng)XML文檔的映射。在轉換過程中,暫且不考慮
3.1.1 Word標準XML文件的映射。通過研究Word轉換的標準XML文檔結構,我們可以知道,其XML文件標簽中根標簽下的
3.1.2 Excel標準XML文件的映射。分析Excel標準XML文件,根節(jié)點下的
頁面融合僅涉及Excel文檔的標準XML文檔到知識共享系統(tǒng)XML文檔的映射。因為Excel文檔中,會存在一種問題,即總類、分類和術語關鍵字完全相同,只有下屬不同,如“信道—無線信道—電磁波—地波傳播”和“信道—無線信道—電磁波—天波傳播”,這兩條信息在標準XML文件中是作為兩個page存在的,但在實際的知識共享系統(tǒng)中,應該是一個title為“電磁波”,text為“地波傳播、天波傳播”的頁面。所以在轉化的過程中,就需要把category、title均相同頁面進行融合[3]。
這兩個page標簽下的category和title如果都相同,則把這兩個頁面合并為一個頁面,合并后的系統(tǒng)XML文檔中的對應關系仍舊滿足上一節(jié)兩級映射的算法,即源頁面的title標簽仍舊對應目標頁面的title標簽,category標簽仍以[[category:××]]的形式放入
將完成兩級映射和頁面融合之后形成的知識分享系統(tǒng)XML文檔導入系統(tǒng)內,可自動生成知識相關頁面以及分類關系,導入效果和手工錄取無差別,且錯誤率明顯下降。
通過本文設計的兩級映射、頁面融合實現Word和Excel文檔形成的標準XML文件到通信知識共享系統(tǒng)XML文件的轉換,從而完成通信數據的轉儲,可取代手動錄入系統(tǒng)的操作,但由于Word和Excel文檔標準化的過程中,仍需要一定量的手動映射,因此還未實現完全的自動化,今后可以規(guī)范Word和Excel文檔中所有的文本信息和數據資源,使其在文檔中的位置相對固定,這樣人工判斷操作就變得不再是必需的,可以進一步減少時間的耗費。