靖鯤鵬,宋之杰
(燕山大學(xué)經(jīng)濟(jì)管理學(xué)院,河北秦皇島066004)
基于屬性偏序結(jié)構(gòu)圖的文本型災(zāi)情多元信息可視化*
靖鯤鵬,宋之杰
(燕山大學(xué)經(jīng)濟(jì)管理學(xué)院,河北秦皇島066004)
在處理和分析文本型災(zāi)情多元信息時,由于傳統(tǒng)概念格層次結(jié)構(gòu)不夠清晰,不利于對其進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)以支持決策。應(yīng)用形式概念分析理論,在分層概念格建格算法的基礎(chǔ)上,通過形式背景行列交換原理,對形式背景進(jìn)行優(yōu)化,提出了屬性偏序結(jié)構(gòu)圖表示方法。該方法可以實(shí)現(xiàn)層次化的屬性聚類,便于分析概念構(gòu)成,達(dá)到分層遞階可視化的效果,實(shí)現(xiàn)知識發(fā)現(xiàn)和多元海量數(shù)據(jù)的信息融合。應(yīng)用該方法,繪制了中國1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖。結(jié)果表明,該方法清晰、直觀,可用于支持文本型災(zāi)情信息的分析和趨勢判斷。
可視化;災(zāi)情信息;文本型數(shù)據(jù);屬性偏序結(jié)構(gòu)圖
無論是應(yīng)急中的實(shí)時動態(tài)信息,還是事后的靜態(tài)統(tǒng)計分析,文本型數(shù)據(jù)都是應(yīng)急管理中災(zāi)情信息的主要表現(xiàn)形式。如:在應(yīng)急管理工作各階段,不同應(yīng)急部門報送的統(tǒng)計數(shù)據(jù)、報表、人員傷亡、財產(chǎn)損失等。2002-2008年每年發(fā)表于《安全與環(huán)境學(xué)報》的系列論文“我國事故與災(zāi)害狀況綜述”,以及從2009年開始《中國減災(zāi)》雜志每月發(fā)布的“全國災(zāi)情月報”等,都以文本數(shù)據(jù)(或多屬性數(shù)據(jù)集)的形式對我國災(zāi)情做了較為全面、準(zhǔn)確的統(tǒng)計和分析。
文本型數(shù)據(jù)主要包含多維數(shù)據(jù)(multi-dimension data)和多元數(shù)據(jù)(multi-variate data)。對于多屬性數(shù)據(jù)集,相互完全獨(dú)立的屬性被稱作“維度”(dimension),相關(guān)的屬性被稱為“變元”(variate)。由于屬性間的相關(guān)性往往難以明確判斷,因此多維數(shù)據(jù)和多元數(shù)據(jù)經(jīng)常被稱為多維多元(multi-dimensionalmulti-variate,mdmv)數(shù)據(jù)。本文將其統(tǒng)稱為“多元”數(shù)據(jù)。
災(zāi)情信息通常為多屬性數(shù)據(jù)集,可以表示成矩陣形式。若所要研究的多元數(shù)據(jù)樣本數(shù)為n,每個樣本的變量數(shù)為m,整個多元數(shù)據(jù)可以表示為n行m列的數(shù)據(jù)矩陣X(n×m)。矩陣中的元素為xij,其中i=1,2,…,n;j=1,2,…,m。
這種以表格或矩陣形式表示的文本型數(shù)據(jù)具有簡單、清晰的優(yōu)點(diǎn),可以進(jìn)行基本的統(tǒng)計分析。但由于災(zāi)情信息具有海量、多源、異構(gòu)、時變等特征,使得數(shù)據(jù)處理比較棘手。特別是在多個時間段、多個空間上比較分析災(zāi)情狀況,進(jìn)行應(yīng)急決策時,這種文本型的數(shù)據(jù)不便于對災(zāi)情進(jìn)行整體把握。
可視化方法是幫助人們“立刻理解”大量數(shù)據(jù)和信息的有效手段。Gaynor認(rèn)為危機(jī)中,人們在知覺時間感知壓力下所做出的決策必須對動態(tài)的不確定狀態(tài)做出反應(yīng)[1]。也就是說,管理者必須獲取實(shí)時的環(huán)境數(shù)據(jù),能夠“立刻理解”這些數(shù)據(jù)并采取適當(dāng)?shù)男袆印?zāi)情信息可視化在本質(zhì)上是一種數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程,高效地挖掘出對決策有用的信息,避免“大數(shù)據(jù)時代知識貧乏”的現(xiàn)象。在諸多知識發(fā)現(xiàn)方法中,形式概念分析(Formal Concept Analysis,F(xiàn)CA)表現(xiàn)出較大的潛力,并被認(rèn)為是一種有力的知識分析和知識發(fā)現(xiàn)工具。
Wille教授基于“概念是由外延和內(nèi)涵組成的思想單元”這一哲學(xué)理解,在Brikhoff對格理論(lattice theory)貢獻(xiàn)的基礎(chǔ)上,于1982年首先引入了概念格(concept lattice)并將其作為一種數(shù)學(xué)理論,從數(shù)學(xué)的角度描述了哲學(xué)范疇的“概念”,奠定了形式概念分析的理論基礎(chǔ)。該理論對“概念”進(jìn)行了形式化描述:外延是由概念所覆蓋的對象構(gòu)成的集合,內(nèi)涵是由概念的所有對象的共有屬性構(gòu)成的集合。這種描述符合人們對世界從感性到抽象的認(rèn)知規(guī)律。
形式概念分析主要研究“概念”和“概念分層”的數(shù)學(xué)化描述,其主要實(shí)現(xiàn)是:基于對象和屬性間的關(guān)系,構(gòu)建形式背景(formal context);從被表示為形式背景的數(shù)據(jù)中,定義對象與屬性的統(tǒng)一體,獲取形式概念(formal concept);通過形式概念之間的對象包含關(guān)系(或者屬性間的包含關(guān)系),定義偏序關(guān)系,建立以形式概念為元素的層次結(jié)構(gòu)——概念格。全部概念與概念間的例化(特化)和泛化關(guān)系組合形成概念格結(jié)構(gòu)[2]。因此,形式概念分析又叫概念格理論,是一種用數(shù)學(xué)的形式化語言來反映人形成概念的過程的集合理論模型,用來研究特定領(lǐng)域可能存在的概念的幾何結(jié)構(gòu)、概念格形式[3]。
作為形式概念分析的核心數(shù)據(jù)結(jié)構(gòu),概念格可以顯示對象與特征之間的聯(lián)系,表明概念之間的泛化與例化關(guān)系。使用hasse圖實(shí)現(xiàn)數(shù)據(jù)的可視化,為提取規(guī)則知識提供了一個很好的平臺,適合用來發(fā)現(xiàn)數(shù)據(jù)中潛在的概念和規(guī)則型知識。
自1982年提出形式概念分析后,有較多的論文和著作詳細(xì)地介紹了形式概念分析[4-7]。概念格可以用來作為知識表示和可視化表示的獨(dú)特而強(qiáng)大的手段[8]。形式概念分析提供了一個表示概念定義的語義基礎(chǔ),已經(jīng)被應(yīng)用到知識表示領(lǐng)域,比如:本體構(gòu)建[9-10],本體映射和合并[11-12]。與許多其他知識表示形式化比較,本體(Ontology)和形式概念分析方法都是旨在建?!案拍睢薄N墨I(xiàn)[13]中討論了如何將這兩個形式化方法互補(bǔ)推動建模概念研究。形式概念分析可以用來支持本體工程,以及利用本體可以在形式概念分析得到應(yīng)用。形式概念分析作為一個學(xué)習(xí)技術(shù)可以支持構(gòu)建、分析本體,本體可以被利用改善形式概念分析的應(yīng)用。
形式概念分析是一種無監(jiān)督的學(xué)習(xí)概念聚類技術(shù),可用于詞匯數(shù)據(jù)庫和分類建模[14-15]。文獻(xiàn)[16]中引入了冰山概念格的概念,并應(yīng)用到數(shù)據(jù)庫知識發(fā)現(xiàn)。冰山格設(shè)計的目的是分析非常大的數(shù)據(jù)庫,從一個已知的關(guān)聯(lián)規(guī)則挖掘中得到常見的模式。
形式概念分析也可用來表示和處理領(lǐng)域背景知識,比如:病人病案的說明,解釋治療的決定與治療規(guī)則的表示[17]。
文獻(xiàn)[18]中提出了基于形式概念分析的信息系統(tǒng)模型驗(yàn)證的方法學(xué)。研究證明形式概念分析對于理解概念模型拓?fù)涫怯杏玫?,并且它能夠用來改善概念模型的結(jié)構(gòu)。
通常,形式背景可以用二維表格來表示。在許多應(yīng)用場合,對象和屬性的關(guān)系不是二進(jìn)制關(guān)系,而是多值關(guān)系,多值的形式背景通過概念標(biāo)度(conceptual scaling)的方法轉(zhuǎn)換到單值形式背景[19]。
針對二維表形式的文本型形式背景(Textual Formal Concept,TFC),文獻(xiàn)[20]中提出了一種文本型形式背景的約簡方法TFC-Reducing,采用信息損失熵和語義覆蓋度評價背景約簡。
使用形式概念分析從數(shù)據(jù)中獲取概念與其他基于統(tǒng)計的傳統(tǒng)數(shù)據(jù)分析方法不同,形式概念分析用概念表示數(shù)據(jù)分析結(jié)果,用概念格顯示知識視圖。概念格已成為近年來獲得飛速發(fā)展的數(shù)據(jù)分析的有力工具。目前,形式概念分析已被廣泛研究并應(yīng)用到模式識別、機(jī)器學(xué)習(xí)、軟件工程、信息檢索、專家系統(tǒng)、決策分析等領(lǐng)域[21]。
但是,在處理和分析文本型災(zāi)情多元信息時,傳統(tǒng)概念格層次結(jié)構(gòu)不夠清晰,不利于對其進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)以支持決策。本文借助形式概念分析這一描述概念和概念層次的數(shù)學(xué)模型,通過對形式背景進(jìn)行優(yōu)化,提出概念格改進(jìn)算法——屬性偏序圖。以災(zāi)情多元數(shù)據(jù)為形式背景,通過將多值形式背景轉(zhuǎn)化為單值形式背景,繪制相應(yīng)的屬性偏序結(jié)構(gòu)圖,實(shí)現(xiàn)災(zāi)情多元數(shù)據(jù)的可視化表達(dá),以支持災(zāi)情分析和應(yīng)急管理。
1.1 形式背景的分層遞階概念格表示
根據(jù)形式概念分析的基本原理,可以通過形式背景的概念格,畫出相應(yīng)的hasse圖,實(shí)現(xiàn)形式背景的分層遞階表示[19,21-22]。
利用文獻(xiàn)[22]中提出的分層建格算法,對形式概念分析中著名的“生物和水”形式背景(表1)進(jìn)行分析,可以得到相應(yīng)的概念格(圖1)。但是,這種概念格存在線條交叉、層次結(jié)構(gòu)不夠清晰的不足之處,不利于海量多元數(shù)據(jù)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
圖1 生物和水形式背景的分層概念格
為了更好地構(gòu)建能夠處理以多元數(shù)據(jù)為形式背景的分層遞階概念格,本文通過對初始形式背景進(jìn)行優(yōu)化,提出概念格的改進(jìn)算法——基于形式背景行列交換原理的屬性偏序結(jié)構(gòu)圖。該方法可對形式背景進(jìn)行分層遞階可視化表示,具有較顯著層次關(guān)系結(jié)構(gòu)。
1.2 概念格的改進(jìn)算法——屬性偏序結(jié)構(gòu)圖
基于形式背景行列交換原理的屬性偏序結(jié)構(gòu)圖表示方法,是通過形式背景行列交換原理將多元海量數(shù)據(jù)描述成分層遞階結(jié)構(gòu),對形式背景進(jìn)行分層優(yōu)化,借助屬性偏序結(jié)構(gòu)圖這一特殊的格生成方法,實(shí)現(xiàn)分層優(yōu)化形式背景的可視化。
表1 生物和水形式背景
一個形式背景K=(O,A,R),其中O是對象的集合,A是屬性的集合,R是O和A之間的一個二元關(guān)系,并且具有(O1,O2,O3,…,Oi,…,Om)對象排列次序,(A1,A2,A3,…,Aj,…,An)屬性排列次序。如果aij為屬性值,且aij∈A。則當(dāng)對象Oi具有屬性Aj時,aij=1;否則aij=0。形式背景K=(O,A,R)轉(zhuǎn)換為分層形式背景Ky0=(O,A,R)的充分必要條件:具有新的對象排列次序(O′1,O′2,O′3,…,O′m)和新的屬性排列次序(A′1,A2,A′3,…,A′n)。
新的對象排列次序和屬性排列次序可以由下面的方法確定。
(1)求出屬性值求和最大值所對應(yīng)的列。即:
(2)將屬性列的第一列與amj對應(yīng)的第j列進(jìn)行交換,得到一個新的屬性排列次序:(A′1,A′2,A′3,…,A′j,…,A′n)。
(3)再做行交換。使得屬性值ai1=1從a11開始連續(xù)排列,得到一個新的對象排列次序O′1,O′2,O′3,…,O′i,…,O′m)。
為了定義形式背景的層次結(jié)構(gòu),在這里介紹子背景和不相交(互斥)子背景的概念。
定義1[19]如果K=(O,A,R)是一個形式背景,而且H∈O,N∈A。則
就是K=(O,A,R)的子背景。
定義2[19]設(shè)形式背景K=(O,A,R)有兩個子背景:K1=(O1,A1,R1)和K2=(O2,A2,R2)。
如果K=(O1∪O2,A1∪A2,R1∪R2),那么K1=(O1,A1,R1)和K2=(O2,A2,R2)是不相交(互斥)的背景。
由上面兩個定義,我們可以將分層形式背景Ky0=(O,A,R)拆分成兩個不相交(互斥)子背景K1=(O1,A1,R1)和K2=(O2,A2,R2)。
其中K1=(O1,A1,R1)為屬性值ai1=1對應(yīng)的背景部分,K2=(O2,A2,R2)為屬性值ai1=0對應(yīng)的背景部分。
對這兩個形式背景做如下變換:
(1)對子背景K2=(O2,A2,R2)(不含第一列)的列重新排序,確保a12=1,并且那些a1j=1的列連續(xù)地排在新序列的前面。同時,子背景K1=(O1,A1,R1)的對應(yīng)列的排列順序也做同樣的變換。
(2)子背景K1=(O1,A1,R1)的行重新排序,使得同一屬性aij=1。
(3)變換后得到新的形式背景Ky1=(O,A,R),并且具有新的對象排列次序O″1,O″2,O″3,…,O″i,…,O″m)和新的屬性排列次序A″1,A″2,A″3,…,A″j,…,A″n)。注意Ky0=(O,A,R)和Ky1=(O,A,R)的第一個屬性是相同的。
進(jìn)行第二次分層變換后,再重復(fù)上面的變換,直到屬性值求和最小。整個分層優(yōu)化過程完成。
從數(shù)學(xué)意義上看,該分層過程實(shí)質(zhì)是根據(jù)屬性集合的普遍性對集合A進(jìn)行子集劃分。其目的是使普遍性高的子族外延的并包含普遍性低的子集成員的外延。
該過程的數(shù)學(xué)描述為:設(shè)形式背景中的屬性集合A={A1,A2,…,Am},Ai表示形式背景中的第i個屬性。定義屬性Ai的度為:
式中:Degree(Ai)的值表示屬性Ai的普遍性大小。Degree(Ai)的值越大,表示在當(dāng)前形式背景下屬性Ai越具有普遍性;該值越小,表示屬性Ai越具有特異性。但直接的Degree(Ai)=‖A′i‖0計算并未考慮集合間的包含關(guān)系,因此需要進(jìn)行修正。
設(shè)Degree(Ai)的集合為D,D={‖A′i‖0|i=1,2,…,m}={0,1,2,…,d|d∈N}。根據(jù)集合論,必有d≤Degree(A)且d≤Degree(O)。
可得:屬性數(shù)為 j的對象集合是 Dj={A′i│‖A′i‖0=j(luò),i=1,2,…,m},屬性數(shù)為j的屬性集合是MDj={Ai│‖A′i‖0=j(luò),i=1,2,…,m}。
比較相鄰兩個對象集合Dj和Dj-1(j>0),遍歷Ai?MDj-1,如果
說明對于當(dāng)前Ai?MDj-1,Dj中所有元素的并包含Dj-1中所有元素的并,不需要進(jìn)行修正。否則,令‖A′i‖0=j(luò),更新Dj和MDj,再次執(zhí)行修正操作,直至滿足(式3)或‖A′i‖0=d。
表2 分層優(yōu)化后的生物和水形式背景
表1所示為未經(jīng)分層優(yōu)化的形式背景。利用上面提出的形式背景優(yōu)化的分層方法,處理表1中生物和水的形式背景。因?yàn)楸?中形式背景較為簡單,只需將對象4和對象6做行交換即可,得到分層優(yōu)化后的生物和水形式背景(表2)。依據(jù)表2形式背景,可以做出生物和水關(guān)系的屬性偏序結(jié)構(gòu)圖(圖2)。
圖2 形式背景分層優(yōu)化后的生物和水屬性偏序結(jié)構(gòu)圖
比較表1和表2,可以看到:優(yōu)化后的形式背景是嚴(yán)格分層表示的。比較圖1和圖2,可以得到以下結(jié)論:基于形式背景分層優(yōu)化方法,生成的屬性偏序結(jié)構(gòu)圖可視化表達(dá),其層次關(guān)系圖表示簡練,并且無交叉連線,類別意義清楚,層次關(guān)系鮮明。具有某一屬性對象的聚類表示,有助于挖掘知識體系。適合應(yīng)用于對復(fù)雜系統(tǒng)多元海量數(shù)據(jù)進(jìn)行分層遞階化的可視化信息融合研究。
但是,需要指出的是:盡管基于形式背景分層優(yōu)化原理構(gòu)造的屬性偏序結(jié)構(gòu)圖與概念格相似,但屬性偏序結(jié)構(gòu)圖不是形式概念分析理論中的概念格。依據(jù)形式概念分析理論將屬性偏序結(jié)構(gòu)圖與概念格做一個簡要比較,可知:從層次描述角度看,概念格是概念層次描述;而屬性偏序結(jié)構(gòu)圖是由形式背景特定屬性不為零的數(shù)目決定層次,由形式背景特定對象不為零的屬性數(shù)目決定層次層級,是概念關(guān)系描述。形式背景的概念格唯一,形式背景的屬性偏序結(jié)構(gòu)圖不唯一。
2.1 基本概念
(1)農(nóng)作物受災(zāi)面積:是指年內(nèi)因遭受旱災(zāi)、水災(zāi)、風(fēng)雹災(zāi)、霜凍、病蟲害及其他自然災(zāi)害,使農(nóng)作物較正常年景產(chǎn)量減產(chǎn)10%以上的農(nóng)作物播種面積。受災(zāi)面積不得重復(fù)計算,在同一塊土地上如先后遭受幾種或幾次災(zāi)害,只按其受災(zāi)最大最重的一次計算受災(zāi)面積。
(2)成災(zāi)面積:是指在遭受上述自然災(zāi)害的受災(zāi)面積中,農(nóng)作物實(shí)際收獲量較常年產(chǎn)量減少30%以上的播種面積。
(3)絕收面積:是指在遭受上述自然災(zāi)害的受災(zāi)面積中,農(nóng)作物實(shí)際收獲量較常年產(chǎn)量減少70%以上的播種面積。
2.2 分級標(biāo)準(zhǔn)的基礎(chǔ)
根據(jù)《自然災(zāi)害風(fēng)險分級辦法》[23],自然災(zāi)害風(fēng)險
式中:R為自然災(zāi)害風(fēng)險;P為自然災(zāi)害風(fēng)險事件發(fā)生的可能性;C為自然災(zāi)害風(fēng)險事件產(chǎn)生的后果。
可能性P和后果C都劃分為4個等級:1為“極高”;2為“高”;3為“中”;4為“低”。
在《自然災(zāi)害風(fēng)險分級辦法》中提出分級原則具有“可擴(kuò)展性”,即該辦法的分級指標(biāo)可以依據(jù)實(shí)際需要進(jìn)行調(diào)整。
在《自然災(zāi)害風(fēng)險分級辦法》的附錄“洪水災(zāi)害風(fēng)險事件風(fēng)險等級劃分示例”中,根據(jù)后果指標(biāo)中“需政府救助人數(shù)占農(nóng)牧業(yè)人口的比率或人數(shù)(%或萬)”,將后果劃分為4個等級:1級為>30%;2級為26%~30%;3級為21%~25%;4級為15%~20%。
2.3 屬性劃分標(biāo)準(zhǔn)
根據(jù)“農(nóng)作物受災(zāi)和成災(zāi)面積”原始數(shù)據(jù)表(國家統(tǒng)計局網(wǎng)站,作者整理),計算相關(guān)指標(biāo)。
SZ=受災(zāi)面積/播種總面積:表示受災(zāi)面積占總播種面積的百分比。
SH=旱災(zāi)受災(zāi)面積/受災(zāi)面積:表示旱災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SS=水災(zāi)受災(zāi)面積/受災(zāi)面積:表示水災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SF=風(fēng)雹災(zāi)受災(zāi)面積/受災(zāi)面積:表示風(fēng)雹災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SD=霜凍災(zāi)受災(zāi)面積/受災(zāi)面積:表示霜凍災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
CZ=成災(zāi)面積/受災(zāi)面積:表示成災(zāi)面積占受災(zāi)面積的百分比。
CH=旱災(zāi)成災(zāi)面積/成災(zāi)面積:表示旱災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CS=水災(zāi)成災(zāi)面積/成災(zāi)面積:表示水災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CF=風(fēng)雹災(zāi)成災(zāi)面積/成災(zāi)面積:表示風(fēng)雹災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CD=霜凍災(zāi)成災(zāi)面積/成災(zāi)面積:表示霜凍災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
可以得到:1995-1999年全國和30個省農(nóng)作物受災(zāi)和成災(zāi)面積指標(biāo)計算結(jié)果。
結(jié)合指標(biāo)計算結(jié)果,根據(jù)“可擴(kuò)展性”原則,對“洪水災(zāi)害風(fēng)險事件等級劃分”中災(zāi)害后果等級劃分指標(biāo)進(jìn)行調(diào)整,制定“農(nóng)作物受災(zāi)和成災(zāi)情況”形式背景屬性的劃分標(biāo)準(zhǔn)如下:1級為>50%;2級為31%~50%;3級為26%~30%;4級為21%~25%;5級為15%~20%;6級為<15%。
將“農(nóng)作物受災(zāi)和成災(zāi)”中的每個指標(biāo)(共10個),都劃分為6個等級,用于衡量農(nóng)作物受災(zāi)或成災(zāi)的總體嚴(yán)重性,或某一種災(zāi)害(旱災(zāi)、水災(zāi)、風(fēng)雹、霜凍)對受災(zāi)或成災(zāi)影響的嚴(yán)重性。如:SZ1為“受災(zāi)面積/播種總面積”>50%;CZ2為“成災(zāi)面積/受災(zāi)面積”在31%~50%;SF4為“風(fēng)雹災(zāi)受災(zāi)面積/受災(zāi)面積”在21%~25%。
2.4 建立形式背景
以“1995-1999年全國農(nóng)作物受災(zāi)和成災(zāi)面積”為例,形式背景(部分)如表3所示。
2.5 生成屬性偏序結(jié)構(gòu)圖
根據(jù)全國1995-1999年農(nóng)作物受災(zāi)和成災(zāi)面積的形式背景,可得到該形式背景的屬性偏序結(jié)構(gòu)圖;同理可得到陜西省1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(圖3)。
2.6 分析屬性偏序結(jié)構(gòu)圖
從圖3所示的屬性偏序圖中,可以看到某一對象所具有的所有屬性集合。如在圖3(a)中,對象O1的屬性集合為:
{a2,a24,a54,a60,a30,a7,a31,a37,a47,a16}。即1997年全國農(nóng)作物受災(zāi)和成災(zāi)情況對應(yīng)的指標(biāo)為:
圖3 全國和陜西省1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖
同理,對象O3的屬性集合為:
{a2,a24,a54,a60,a30,a7,a31,a37,a47,a16}。即1995年全國農(nóng)作物受災(zāi)和成災(zāi)情況對應(yīng)的指標(biāo)為:
在這兩年農(nóng)作物受災(zāi)和成災(zāi)10個指標(biāo)中,前6個指標(biāo)和對應(yīng)級別均相同;后4個指標(biāo)相同,級別有所差別??煽闯觯?995年和1997年災(zāi)情相近;1995年旱災(zāi)成災(zāi)較弱,水災(zāi)受災(zāi)和成災(zāi)都較1997年嚴(yán)重;1995年農(nóng)作物總體成災(zāi)情況比1997年低。
根據(jù)圖3(a),可以看出:
(1)全國1995-1999年間,每年農(nóng)作物受災(zāi)總體情況均處于2級水平(SZ2),即受災(zāi)面積占農(nóng)作物播種面積的百分比為30%~50%。
(2)1997年和1999年災(zāi)情最為嚴(yán)重(CZ、SH和CH均處于1級),即總體成災(zāi)面積、旱災(zāi)受災(zāi)面積和旱災(zāi)成災(zāi)面積均高于50%。這兩年的水災(zāi)受災(zāi)面積(SS)處于中等偏下水平,1999年(SS5)相對于1997年(SS4)低了1個級別,即水災(zāi)受災(zāi)面積從1997年的21%~25%降低到15%~20%。
(3)1996年和1998年災(zāi)情相似,其中CZ、SS、CS均處于2級,即這兩年中水災(zāi)是造成農(nóng)作物受災(zāi)和成災(zāi)的主要因素,且災(zāi)害損失較為嚴(yán)重,處于31%~50%之間。但1996年旱災(zāi)比1998年較為嚴(yán)重,旱災(zāi)造成的受災(zāi)面積和成災(zāi)面積都高。(4)1995年旱災(zāi)和水災(zāi)同時存在,水災(zāi)受災(zāi)面積(SS3)中等偏上,處于26%~30%。旱災(zāi)和水災(zāi)造成的農(nóng)作物成災(zāi)面積較大(CH2、CS2),均處于31%~50%,總體成災(zāi)損失嚴(yán)重(CZ2)。
表3 1995-1999年全國農(nóng)作物受災(zāi)和成災(zāi)面積的形式背景(部分)
根據(jù)圖3(b),可以看出:
(1)陜西省1995-1999年間,農(nóng)作物受災(zāi)和成災(zāi)主要是由旱災(zāi)引起(SH1、CH1),每年的旱災(zāi)受災(zāi)面積超過農(nóng)作物播種面積的50%,旱災(zāi)成災(zāi)面積超過受災(zāi)面積的50%。
(2)5年間,陜西省由風(fēng)雹災(zāi)和霜凍災(zāi)造成的農(nóng)作物損失很少,均低于15%。
(3)在1995年、1997年和1999年,受災(zāi)和成災(zāi)情況均處于最高級別(SZ1、CZ1);1996年和1998年,由于雨量相對較多,水災(zāi)造成了一定的損失(SS3、CS2),但也緩解了一定的旱情,使得這兩年的受災(zāi)和成災(zāi)情況有所降低(SZ2、CZ2),受災(zāi)和成災(zāi)面積處于31%~50%。
以同樣的方法,可以得到:全國30個省份1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖、1995-1999年各年度30個省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖。
以1995年30個省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(部分)為例(圖4)。(限于篇幅,其余的屬性偏序圖本處省略)。可以根據(jù)圖4分析1995年各省農(nóng)作物受災(zāi)和成災(zāi)情況的特征。
同理,可以根據(jù)以上的方法,分析全國各省在1995-1999年的農(nóng)作物受災(zāi)和成災(zāi)情況。也可以按年度對全國30個省的農(nóng)作物受災(zāi)和成災(zāi)情況進(jìn)行分析。
圖4 1995年30個省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(部分)
在文本型災(zāi)情多元信息分析和可視化中,將形式概念分析理論、知識庫、數(shù)據(jù)庫等相結(jié)合,從海量數(shù)據(jù)中抽取有用信息和知識,是切實(shí)可行并且是有意義的。該方法的主要優(yōu)點(diǎn)在于:可以將災(zāi)情多元海量數(shù)據(jù)庫中的表面或隱含數(shù)據(jù),通過圖示化,完整地表現(xiàn)出這些數(shù)據(jù)和知識之間的內(nèi)在邏輯和組織結(jié)構(gòu),從而為分析數(shù)據(jù)之間的關(guān)聯(lián)信息提供系統(tǒng)的可視化工具。
但是,在建立形式背景時,需要根據(jù)指標(biāo)計算值確定屬性劃分標(biāo)準(zhǔn),進(jìn)而將多值背景轉(zhuǎn)換為單值形式背景。這種屬性劃分的標(biāo)準(zhǔn),還需要經(jīng)過相關(guān)主管部門確認(rèn),以便該方法具有更好的指導(dǎo)性。
[1] Gaynor M,Seltzer M,Moulton S,etal.A Dynamic,data-driv-en,decision support systemfor emergency medical services[M]//Computational Science-ICCS 2005,Lecture Notes in Computer Science.Berlin,Heidelberg:Springer,2005,3515:703-711.
[2] 康向平.基于形式概念分析理論的知識獲取模型研究[D].太原:山西大學(xué),2012.
[3] 錢杰.基于形式概念分析的本體構(gòu)建與映射方法研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2006.
[4] GanterB,WilleR,F(xiàn)ranzke C.Formal concept analysis:Mathematical foundations[M].New York:Springer-Verlag,1997.
[5] Kalfoglou Y,Dasmahapatra S,Chen-Burger Y H.FCA in Knowledge Technologies:Experiences and Opportunities[M]//Concept Lattices.Berlin,Heidelberg:Springer,2004:252-260.
[6] Diaz-Agudo B,Gonzalez-Calero PA.Formal conceptanalysis as a support technique for CBR[J].Knowledge-Based System,2001,14(3):163-171.
[7] Priss U.Formal concept analysis in information science[J].Annual Review of Information Science and Technology,2006,40:521-543.
[8] Jiang GQ,PathakJ,Chute CG.Formalizing ICD coding rulesusing formal concept analysis[J].Journal of Biomedical Informatics,2009,42(3):504-517.
[9] Schoening J.IEEE P1600.1:Standard Upper Ontology Working Group(SUOWG)[EB/OL].(2003-12-28)[2013-11-12].http://suo.ieee.org/.
[10]Jiang G,Ogasawara K,Endoh A,etal.Context-based Ontology Building Support in Clinical Domains Using Formal Concept Analysis[J].International Journal of Medical Informatics,2003,71(1):71-81.
[11]Kalfoglou Y,Schorlemmer M.IF-Map:An ontology-mapping method based on information-flow theory[M]//Journal on Data Semantics I.Berlin,Heidelberg:Springer,2003:98-127.
[12]Stumme G,Maedche A.FCA-Merge:Bottom-up merging of ontologies[C]//International Joint Conference on Artificial Intelligence.Lawrence Erlbaum Associates LTD.,2001,17(1):225-234.
[13]Cimiano P,Hotho A,Stumme G,et al.Conceptual knowledge processing with formal conceptanalysisand ontologies[M]//Concept Lattices.Berlin Heidelberg:Springer,2004:189-207.
[14]Priss U,Old LJ.Modelling lexical databaseswith formal concept analysis[J].Journal of Universal Computer Science,2004,10(8):967-984.
[15]Priss U.Formalizing Botanical Taxonomies[M]//Conceptual Structures for Knowledge Creation and Communication.Berlin Heidelberg:Springer,2003:309-322.
[16]Stumme G.Efficient datamining based on formal conceptanalysis[C]//Database andExpertSystem Applications.Berlin Heidelberg:Springer,2002:534-546.
[17]Schnabel M.Representing and processing medical knowledge using formal conceptanalysis[J].Methodsof Information in Medicine,2002,41(2):160-167.
[18]Laukaitis A,Vasilecas O,Plikynas D.Formal concept analysis for business information systems[J].Information Technology and Control,2008,37(1):33-37.
[19]馬垣,曾子維,遲呈英,等.形式概念及其新進(jìn)展[M].北京:科學(xué)出版社,2010.
[20]楊小平,何偉,孫亞琳,等.TFC-Reducing:一種基于屬性語義距離和規(guī)則的文本型形式背景約簡方法[J].小型微型計算機(jī)系統(tǒng),2012,33(10):2170-2176.
[21]許研.基于FCA的信息檢索模型研究及應(yīng)用[D].開封:河南大學(xué),2007.
[22]潘躍建.基于FCA面向多數(shù)據(jù)源的領(lǐng)域本體創(chuàng)建方法研究[D].南京:南京航空航天大學(xué),2010.
[23]中華人民共和國民政部.MZ/T031-2012自然災(zāi)害風(fēng)險分級方法[EB/OL].[2013-11-05].http://files.mca.gov.cn/yunnan/201209/20120901201208905.pdf.
Textual Disaster M ultivariate Information Visualization based on Attribute Partial Orderstructure Diagram
Jing Kunpeng and Song Zhijie
(Economic and Management College,Yanshan University,Qinhuangdao 066004,China)
An hierarchy of traditional concept lattice is not clear in processing and analyzingmultivariate information about textual disaster.This is not conducive to carry on datamining and knowledge discovery to support decision making.It is proposed that the representationmethod of attribute partial order structure diagram by applying the ranks exchange principle of formal context to optimize formal context.Themethod has advantage in analyzing some concepts and hierarchical attribute clustering.It can realize knowledge discovery,hierarchical information visualization and information fusion of huge amounts ofmultivariate data.Themethod was applied to draw multiple attribute partial order structure diagrams of the national crop disaster and inundated area during 1995-1999. The results show that this approach is clear,intuitive,and supportiveto information analysis and trend judgment of textual disaster information.
visualization;information on disastrous situation;text-data;attribute partial orderstructure diagram
C934;X915.5;X43
A
1000-811X(2014)03-0057-07
10.3969/j.issn.1000-811X.2014.03.012
靖鯤鵬,宋之杰.基于屬性偏序結(jié)構(gòu)圖的文本型災(zāi)情多元信息可視化[J].災(zāi)害學(xué),2014,29(3):57-63.[Jing Kunpeng,Song Zhijie.Textual disastermultivariate information visualization based on attribute partial orderstructure diagram[J].Journal of Catastrophology,2014,29(3):57-63.]*
2013-09-24 修回日期:2013-11-11
國家自然科學(xué)基金項(xiàng)目(70871101);燕山大學(xué)博士基金項(xiàng)目(B804)
靖鯤鵬(1977-),男,陜西西安人,副教授,博士,主要從事應(yīng)急管理、信息可視化研究.E-mail:jkp@ysu.edu.cn