(中國電子科技集團公司第二十八研究所 南京 210007)
軍事信息化在未來網(wǎng)絡化和服務化體系結(jié)構(gòu)下,數(shù)據(jù)集成將面臨分布式異構(gòu)、海量數(shù)據(jù)資源共享等諸多挑戰(zhàn)。數(shù)據(jù)的網(wǎng)絡化部署,不斷擴展和變化,一般通過服務發(fā)布和共享;隨著網(wǎng)絡的建設和數(shù)字化發(fā)展,數(shù)據(jù)的規(guī)模越來越龐大;數(shù)據(jù)類型更為廣泛,包括半結(jié)構(gòu)/非結(jié)構(gòu)化文檔、流媒體、各類專用格式報文等。傳統(tǒng)的數(shù)據(jù)集中(實體化方法)或邏輯(虛擬化方法)上集中存儲的方法不再可行,而如何利用各類新技術(shù)如大規(guī)模分布是數(shù)據(jù)挖掘、流式數(shù)據(jù)處理等,來解決網(wǎng)絡化的異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)、網(wǎng)絡化的非結(jié)構(gòu)化數(shù)據(jù)信息集成問題,為網(wǎng)絡化服務化的各類信息系統(tǒng)提供數(shù)據(jù)和信息支撐。
為實現(xiàn)網(wǎng)絡化數(shù)據(jù)的集成,從數(shù)據(jù)和網(wǎng)絡化技術(shù)兩個層面相關(guān)技術(shù)來實現(xiàn)。在數(shù)據(jù)層面主要通過元數(shù)據(jù)技術(shù)提高信息的可見性;應用層面主要通過信息目錄技術(shù)對各類資源進行整合、通過信息搜索技術(shù)進行搜索和發(fā)現(xiàn)、通過信息聚合及挖掘技術(shù)實現(xiàn)信息的二次開發(fā)和利用。
基于相關(guān)技術(shù)和原理提出網(wǎng)絡化基于發(fā)現(xiàn)元數(shù)據(jù)的數(shù)據(jù)集成框架,見圖1。主要分為兩層:數(shù)據(jù)及模型支撐層,數(shù)據(jù)集成服務支撐層。
在數(shù)據(jù)及模型支撐層,最底層為將進行網(wǎng)絡化共享的原始數(shù)據(jù),包括各類多媒體數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等;在其之上,存儲對結(jié)構(gòu)化數(shù)據(jù)進行描述的結(jié)構(gòu)元數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)、流媒體等多媒體數(shù)據(jù)等進行統(tǒng)一的描述發(fā)現(xiàn)元數(shù)據(jù);以及支撐數(shù)據(jù)集成服務的各類數(shù)據(jù),包括支持信息目錄的目錄庫,支持信息搜素的索引文件和詞庫,支持信息聚合的聚合庫和挖掘庫;在模型方面主要是基于Lucene的搜索引擎模型和Weka模型庫。
圖1 基于發(fā)現(xiàn)元數(shù)據(jù)的數(shù)據(jù)集成框架圖
數(shù)據(jù)集成服務支撐層主要建立在Web服務體制上,統(tǒng)一通過信息門戶作為用戶操作的入口;應用軟件主要分為面向直接使用的用戶的應用和面向信息管理的應用;面向信息管理的應用主要包括信息目錄的目錄整編和目錄發(fā)布,對元數(shù)據(jù)的管理,對各類結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的信息搜索及索引/詞庫的管理,對信息聚合的需求采集、信息整編及數(shù)據(jù)挖掘的確定等。
信息發(fā)現(xiàn)元數(shù)據(jù)和領(lǐng)域結(jié)構(gòu)元數(shù)據(jù)是元數(shù)據(jù)的主要組成,其中信息發(fā)現(xiàn)元數(shù)據(jù)著眼于資源基本屬性的描述,其目的是提高資源的可見性,增強信息的能力,而具體領(lǐng)域內(nèi)的結(jié)構(gòu)元數(shù)據(jù)是針對不同業(yè)務的數(shù)據(jù)命名、數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)間基本關(guān)系的規(guī)范性描述,為數(shù)據(jù)的重用提供結(jié)構(gòu)信息的參考[1]。
發(fā)現(xiàn)元數(shù)據(jù)是目前網(wǎng)絡上廣泛采用的用于描述信息的技術(shù)方法,提高信息資源網(wǎng)絡發(fā)現(xiàn)能力和可見性,相關(guān)領(lǐng)域的標準較多,較為著名的包括用于網(wǎng)絡化圖書資源的都柏林核心元數(shù)據(jù)標準和美國國防部的發(fā)現(xiàn)元數(shù)據(jù)標準DDMS(Dod Discovery Metadata Standard)等。
都柏林核心元數(shù)據(jù)(Dublin Core Metadata)(簡寫DC),1995年3月,由OCLC與國家超級計算應用照哦功能性(NCSA)聯(lián)合發(fā)起,52位來自圖書館界、電腦網(wǎng)絡界專家公同研究產(chǎn)生。目的是希望建立一套描述網(wǎng)絡電子文獻的方法,以便網(wǎng)上信息檢索。DC的15項著錄項目[2]包括:Title(題名)、Creator(創(chuàng)建者)、Subject(主題)、Description(說明)、Publisher(出版者)、Contributor(其他責任者)、Date(制作日期)、Type(類型)、Format(格式)、Identifier(標識符)、Source(來源)、Language(語種)、Relation(關(guān)聯(lián))、Coverage(覆蓋范圍)、Rights(權(quán)限)。
元數(shù)據(jù)在軍事領(lǐng)域也得到了應用,是軍事信息共享和發(fā)現(xiàn)的基礎(chǔ),其中發(fā)現(xiàn)元數(shù)據(jù)成為元數(shù)據(jù)建設的重要內(nèi)容,美軍的國防部發(fā)現(xiàn)元數(shù)據(jù)標準DDMS(Dod Discovery Metadata Standard)就是旨在提高數(shù)據(jù)的可見性,使得用戶能夠更方便的獲得所需的信息,有效的實現(xiàn)數(shù)據(jù)的共享。美軍2011年DDMS(《Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1》)[3]主要定義了核心層和擴展層,如圖2所示。
圖2 DDMS的邏輯模型
建設信息發(fā)現(xiàn)元數(shù)據(jù)標準將為軍事信息的一體化奠定基礎(chǔ),對提高信息共享水平和信息發(fā)現(xiàn)能力具有重要的意義。
信息目錄是網(wǎng)絡化信息登記、造冊、發(fā)布、發(fā)現(xiàn)、定位、實現(xiàn)交換的關(guān)鍵組成[4]。發(fā)現(xiàn)元數(shù)據(jù)用于一般性資源描述,特別是互聯(lián)網(wǎng)語義信息的描述。通過信息目錄可進一步對信息進行整理,提高信息的可用性和友好性。
其實現(xiàn)步驟包括兩步:元數(shù)據(jù)目錄部分負責將訪問數(shù)據(jù)的請求映射為訪問數(shù)據(jù)載體的請求,實現(xiàn)第一次映射的功能;資源信息目錄負責將訪問數(shù)據(jù)載體的請求映射到具體的數(shù)據(jù)載體上,實現(xiàn)第二次映射的功能。
在技術(shù)實現(xiàn)方案,主要包括信息目錄的集中存儲或分布存儲;分布存儲涉及信息目錄信息的同步策略及相關(guān)技術(shù);存儲方式包括數(shù)據(jù)庫存儲或基于LDAP的技術(shù)實現(xiàn)。
通常,信息檢索需要具備建立索引和提供查詢的基本功能[5],此外還需提供用戶接口、面向互聯(lián)網(wǎng)的開發(fā)接口、二次應用開發(fā)接口等。因此,信息檢索系統(tǒng)應包括索引引擎、查詢引擎、文本分析引擎、對外接口以及各種外圍應用系統(tǒng)。圖3展示了信息檢索系統(tǒng)的基本功能結(jié)構(gòu)[6]。
圖3 信息檢索系統(tǒng)基本功能結(jié)構(gòu)圖
信息檢索系統(tǒng)比較常用的檢索引擎是基于Lucene的搜索引擎模型。它能夠為任何可以轉(zhuǎn)換成文本格式的數(shù)據(jù)進行索引和搜索,具有訪問索引時間快,多用戶訪問,跨平臺使用的特點[5]。
對于中文系統(tǒng)來說,文本分析引擎最關(guān)鍵的技術(shù)之一是中文分詞法。中文分詞算法可分為三類:基于字符串匹配的分詞法、基于理解的分詞法和基于統(tǒng)計的分詞法。目前,基于字符串匹配的正向最大匹配算法是最常使用的中文分詞方法,它由詞典和切分規(guī)則構(gòu)成,遵循“長詞優(yōu)先”的原則,即從左向右與詞典匹配,要求每一句分詞結(jié)果中詞匯量最少。比如,“中”是一個詞,其還可以構(gòu)成“中國”、“中國人”等一系列詞,當需要分詞的語句中出現(xiàn)“中國人”時,正向最大匹配的分詞結(jié)果為“中國人”,而不是“中國”和“人”等其它結(jié)果。
信息聚合,指將來自于多個分布的、異構(gòu)的信息資源中的內(nèi)容整合在一起。信息聚合技術(shù)有面向萬維網(wǎng),有面向語義網(wǎng)(基于關(guān)聯(lián)數(shù)據(jù)Mashup)[7]。
面向萬維網(wǎng)的信息聚合就是通過客戶端軟件或網(wǎng)絡應用程序?qū)⒅T如新聞頭條、博客、播客等網(wǎng)絡信息聚合到單一地點以方便用戶瀏覽[8]。目前基于RSS的信息聚合服務,發(fā)展為社會化聚合服務,如Twitter Feed,F(xiàn)acebook等。其有效解決了網(wǎng)絡信息資源的有序組織、有效傳播,是用戶、技術(shù)和服務三者間互動模型的建立與變化過程。
面向語義網(wǎng)的關(guān)聯(lián)數(shù)據(jù)技術(shù),是一種用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識的標準,采用RDF(資源描述框架)數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實體,并在網(wǎng)上發(fā)布,或形成數(shù)據(jù)網(wǎng)絡。
完整的數(shù)據(jù)挖掘過程,是一個不斷調(diào)整、修改與循環(huán)的過程,包括三大步驟:數(shù)據(jù)預處理、數(shù)據(jù)挖掘以及評估與表示,如圖4所示。數(shù)據(jù)預處理步驟,依次包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換四個過程。數(shù)據(jù)挖掘步驟,主要是通過一系列的數(shù)據(jù)挖掘算法,對經(jīng)過處理的數(shù)據(jù)進行知識發(fā)現(xiàn)的過程。評估與表示步驟主要包括模式評估階段和知識表示階段,模式評估是指根據(jù)某種興趣度量來識別表示知識的真正有趣的模式;知識表示是指使用可視化和知識表示技術(shù),向用戶展現(xiàn)挖掘的知識。三大步驟之間反復循環(huán)、調(diào)整,直到得到滿意結(jié)果為止。
圖4 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘方法可以分為六大類別[9]:
·廣義知識挖掘:被挖掘出的廣義知識可以結(jié)合可視化技術(shù)以直觀的圖表形式展示給用戶。
·關(guān)聯(lián)知識挖掘:找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息,最著名的是Agrawal提出的Apriori及其改進算法。
·類知識挖掘:主要包括分類和聚類兩類。分類常用的方法有決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡、遺傳算法與進化理論、支持向量機、關(guān)聯(lián)分類、類比學習(近鄰學習)、粗糙集、模糊集等。聚類算法主要分為基于劃分、層次、密度、網(wǎng)格及模型的聚類方法五大類別。
·預測型知識挖掘:主要的方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡和機器學習等技術(shù)。
·特異型知識挖掘:揭示了事物偏離常規(guī)的異常規(guī)律。主要分為孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn)三類。
·自定義數(shù)據(jù)挖掘:用戶可以通過此接口將自己編寫的算法保存在平臺上,供日后使用或出售等。此接口使得平臺具有更強的開放性和擴展性。
其中,關(guān)聯(lián)知識挖掘和類知識挖掘是較為廣泛應用的方法。關(guān)聯(lián)規(guī)則是數(shù)據(jù)中蘊含的一類重要規(guī)律,對關(guān)聯(lián)規(guī)則進行挖掘是數(shù)據(jù)挖掘中的一項根本任務,甚至可以說是數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域中所發(fā)明并被廣泛研究的最為重要的模型。簡言之,關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間的關(guān)系或相關(guān)聯(lián)系[10]。聚類分析就是按照某種相似性度量,具有相似特征的樣本歸為一類,使得類內(nèi)差異相似度較小,而類間差異較大[11]。迄今為止。聚類還沒有一個學術(shù)界公認的定義,其主要方法包括:基于劃分的聚類方法、基于層次的聚類方法、基于網(wǎng)格的聚類方法、基于密度的聚類方法、基于模型的聚類方法等。
數(shù)據(jù)挖掘常用方法的開源產(chǎn)品較多,Weka是其中較為優(yōu)秀的產(chǎn)品。它是由新西蘭懷卡托大學開發(fā)的開源項目,具有以下特點:跨平臺、支持結(jié)構(gòu)化文本、支持數(shù)據(jù)挖掘格式的文件、提供數(shù)據(jù)庫接口;能完成預處理、分類、聚類、關(guān)聯(lián)、可視化等任務;提供算法組合、用戶算法嵌入、算法參數(shù)設置;能生成基本報告,實現(xiàn)模型解釋;實現(xiàn)數(shù)據(jù)、挖掘過程、挖掘結(jié)果的可視化[12]。
傳統(tǒng)的基于實體化(數(shù)據(jù)倉庫等)和虛擬化(全局視圖等)的數(shù)據(jù)集成方法越來越不能滿足未來網(wǎng)絡化的海量異構(gòu),特別是用戶對大量非結(jié)構(gòu)化、流媒體數(shù)據(jù)的需求,本文結(jié)合各類服務化新技術(shù),提出網(wǎng)絡化數(shù)據(jù)集成框架和相關(guān)關(guān)鍵技術(shù),對適應未來不斷發(fā)展的服務化架構(gòu)網(wǎng)絡化的大數(shù)據(jù)支持進行有意的探討。
[1]伯瓊,趙小燕,等.自動抓取元數(shù)據(jù)標簽中DC元數(shù)據(jù)的模塊設計[J].重慶教育學院學報,2010,23(3):9-13.
[2]徐險峰.網(wǎng)絡信息資源的Dublin Core元數(shù)據(jù)編目[J].農(nóng)業(yè)圖書情報學刊,2009,21(2):52-54.
[3][美]Defense Information Systems Agency.Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1[M].2011,11:18-21.
[4]陳明文,朱勤東,等.省級政府信息目錄編制實踐與探索[J].電子政務,2010(1):104-110.
[5]劉靜.淺析Lucene的查詢技術(shù)[J].電腦知識與技術(shù),2012,11(8):24-25.
[6]葛振國.基于Lucene的數(shù)據(jù)庫全文檢索研究與應用[D].成都:西南石油大學碩士學位論文,2010:4-8.
[7]丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.
[8]鄧勝利.信息聚合服務的發(fā)展和演變研究[J].情報資料工作,2012(1):79-83.
[9]黃章樹,劉晴晴.基于云計算服務模式的數(shù)據(jù)挖掘應用平臺的構(gòu)建[J].電信科學,2012:53-57.
[10]歐陽林,譚駿珊,等.經(jīng)典關(guān)聯(lián)算法分析和Weka數(shù)據(jù)挖掘應用[J].探索與觀察,2012(5):8-10.
[11]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.
[12]鄭世明,苗壯,等.Weka環(huán)境下基于模糊理論的聚類算法[J].解放軍理工大學學報(自然科學版),2012(1):22-26.