李 國,張 亞,王懷超
(中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)
隨著民航業(yè)的蓬勃發(fā)展,民航數(shù)據(jù)呈現(xiàn)出指數(shù)式的爆炸增長。這些數(shù)據(jù)中很多是基礎(chǔ)的、共享的數(shù)據(jù),即某些數(shù)據(jù)會在多個部門、系統(tǒng)或業(yè)務(wù)中重復(fù)使用。若出現(xiàn)各個部門編碼方式不一樣或者某個數(shù)據(jù)在某一個部門更新了,其它部門還未更新等情況,則會造成信息不對稱,從而影響最終的決策。因此如何從這些海量的數(shù)據(jù)中識別出這種具有高價值的、基礎(chǔ)的、被多個部門共享的數(shù)據(jù),即主數(shù)據(jù)[1,2],變得緊迫且重要。
然而,主數(shù)據(jù)的識別工作一直未受到重視,也未提出比較有效的識別方法,目前的研究有:王學(xué)建等[3]提出了基于層次分析法的主數(shù)據(jù)識別方法,該方法的優(yōu)點為它是一個系統(tǒng)性的分析方法,簡單實用且所需定量數(shù)據(jù)較少,缺點為定性成份較多,不易令人信服;當(dāng)指標(biāo)過多時,數(shù)據(jù)統(tǒng)計量大,權(quán)重難以計算;權(quán)重確定為專家打分法,當(dāng)某個專家更改時,結(jié)果可能會波動很大。劉濤等[4]提出了基于綜合加權(quán)法的主數(shù)據(jù)識別方法,綜合加權(quán)法即德爾菲法與主成分分析法的結(jié)合,主成分分析法主要思想就是降維,將多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo),這幾個綜合指標(biāo)代表了原始變量的大部分信息,德爾菲法即專家打分法,該方法的優(yōu)點為當(dāng)數(shù)據(jù)量過大時,通過降維減少數(shù)據(jù)量,易于計算,缺點是專家打分具有主觀性,當(dāng)替換某個專家時,結(jié)果可能波動很大。上述理論和方法在權(quán)重確定方面都是由專家打分得到的。這就意味著人為主觀因素影響較大。因此,識別主數(shù)據(jù)仍是一個重大挑戰(zhàn),有必要探索新的有效的理論和方法。
為消除主數(shù)據(jù)識別指標(biāo)中的隨機性和模糊性,識別過程的關(guān)鍵兩點:①用于主數(shù)據(jù)識別的定性指標(biāo)的定量化描述。正向云模型方法是一種基于概率論和模糊數(shù)學(xué)理論的定性概念到定量表示的轉(zhuǎn)化模型,它可以將概念內(nèi)涵(主觀世界中的抽象概念)轉(zhuǎn)化為概念外延(客觀世界中的樣本集合)。故本文基于此模型,實現(xiàn)主數(shù)據(jù)識別指標(biāo)的定量化。②指標(biāo)權(quán)重的確定問題。傳統(tǒng)的權(quán)重確定幾乎都需要專家打分,存在某種程度的主觀性。粗糙集理論可以根據(jù)客觀存在的樣本數(shù)據(jù)來計算各個指標(biāo)的權(quán)重,可以得到相對客觀的結(jié)果。故本文采用粗糙集的方法來確定指標(biāo)之間的權(quán)重。基于以上兩點分析,本文提出了一種基于云模型及粗糙集的民航主數(shù)據(jù)識別方法。
本文基于云模型及粗糙集的對民航主數(shù)據(jù)進行識別。考慮到識別指標(biāo)的模糊性和不確定性,選取7個具有代表性的典型指標(biāo)建立識別指標(biāo)體系,通過客觀方法得到識別指標(biāo)的客觀權(quán)重。然后,基于客觀權(quán)重建立了RS-CM(粗糙集-云模型),為民航主數(shù)據(jù)識別提供了一種方法。
民航新一代旅客服務(wù)系統(tǒng)由21個子系統(tǒng)組成,根據(jù)中國民航的業(yè)務(wù)特點、主數(shù)據(jù)的定義及主數(shù)據(jù)具有的特征一致性、識別唯一性、長期有效性、業(yè)務(wù)穩(wěn)定性的特點,在確定主數(shù)據(jù)的識別指標(biāo)時,需重點考慮以下因素:
(1)基礎(chǔ)性
并不是所有的數(shù)據(jù)都是主數(shù)據(jù),主數(shù)據(jù)是原子數(shù)據(jù),不是衍生數(shù)據(jù)。如旅客訂票后,旅客和機票皆是原子數(shù)據(jù),它具有不可拆分性。
(2)共享性
共享性是主數(shù)據(jù)非常重要的一個特性,是其它特性的前提。主數(shù)據(jù)一定會被多個系統(tǒng)訪問,某個數(shù)據(jù)被訪問的系統(tǒng)越多,則它越可能是主數(shù)據(jù)。如國家代碼會被運價發(fā)布和計算系統(tǒng)、電子票系統(tǒng)、貨運系統(tǒng)、離港系統(tǒng)、GDS分銷系統(tǒng)等共同使用,則國家代碼極有可能是主數(shù)據(jù)。
(3)存在時間
主數(shù)據(jù)一般存在時間比較長,被多個系統(tǒng)共享的臨時數(shù)據(jù)不是主數(shù)據(jù),如機場代碼需長期存在,不能缺少,則機場代碼可能是主數(shù)據(jù)。
(4)訪問次數(shù)
主數(shù)據(jù)一般比較活躍,被各個系統(tǒng)訪問頻繁,即需要經(jīng)常使用到的數(shù)據(jù)。如城市代碼會被離港系統(tǒng)、GDS分銷系統(tǒng)、電子票系統(tǒng)等頻繁訪問,則城市代碼極有可能是主數(shù)據(jù)。
(5)變更頻率
主數(shù)據(jù)一般比較穩(wěn)定,變動頻率較低。如省代碼。
充分考慮以上因素,最終確定主數(shù)據(jù)識別的7個指標(biāo),見表1。
表1 主數(shù)據(jù)識別指標(biāo)
云模型[6-8]是Li和Du[9]在1995年首次提出的一種數(shù)學(xué)模型。它考慮了定性概念與定量數(shù)值表示之間轉(zhuǎn)換的不確定性。充分考慮了主數(shù)據(jù)的模糊性和隨機性。
設(shè)Z是一個定量集合Z={x}。C在Z中是定性的概念,確定的參數(shù)x∈Z,在C中是隨機發(fā)生的,對于Z中的任何元素x,C中x的確定性程度為μ(x)∈[0,1],μ(x)是一個穩(wěn)定的隨機數(shù)。x在Z中的分布稱為云,每個x稱為云滴。由大量的云滴組成的云可以代表領(lǐng)域空間中的定性概念[10,11]。
引入了3個數(shù)值特征(Ex、En和He)來表示云模型中的定性概念。期望Ex是區(qū)域空間中云滴空間分布的期望和集合的均值,Ex也是最能代表定性概念的點。熵En是由定性概念的隨機性和模糊性決定的。具體來說,En是定性的隨機性和模糊性的度量的概念。超熵是熵不確定性的一種度量,反映了不確定性在域空間中各點的內(nèi)聚性。超熵值He間接反映了云滴的厚度[12]。
本文采用正向云發(fā)生器和x條件云發(fā)生器。正向云發(fā)生器具有將定性概念轉(zhuǎn)換為定量值的能力,這些發(fā)生器根據(jù)云的3個數(shù)值特性來生成云滴。x條件云發(fā)生器是一種基于云的3個數(shù)值特征與x的指定值的組合,能夠產(chǎn)生云滴(x,μ(x))的正向云發(fā)生器。通過兩個發(fā)生器的結(jié)合,可以得到各種類型的云,在定性知識和定量值之間進行轉(zhuǎn)換[13]。
由于主數(shù)據(jù)具有隨機性與模糊性等不確定性特征,故若對主數(shù)據(jù)進行分等級識別,則得到的結(jié)果會更加精確與合理。所以本文借助于云模型理論,根據(jù)主數(shù)據(jù)的特點,選出最能定性概括民航主數(shù)據(jù)的幾個指標(biāo),通過這些指標(biāo)來對主數(shù)據(jù)進行分級識別。識別過程中,權(quán)重的確定尤為重要,本文采用粗糙集理論來確定各指標(biāo)的權(quán)重,這樣處理使結(jié)果更加客觀。具體過程如下:
步驟1 根據(jù)主數(shù)據(jù)特點,選出最具代表性的識別指標(biāo),對主數(shù)據(jù)進行等級劃分;
步驟2 對各指標(biāo)不同等級計算相應(yīng)云模型的3個參數(shù),生成相應(yīng)的云模型圖;
步驟3 根據(jù)民航采集的數(shù)據(jù),計算出各等級對應(yīng)各指標(biāo)的隸屬度u(x);
步驟4 根據(jù)粗糙集理論確定各指標(biāo)的權(quán)重wi;
步驟5 用如下公式計算綜合確定性程度
(1)
步驟6 根據(jù)最大確定度原理確定主數(shù)據(jù)的等級。
識別過程流程,如圖1所示。
圖1 識別過程流程
云模型的具體實現(xiàn)方法有多種形式,依據(jù)不同的概率分布可以形成不同的云,比如基于正態(tài)分布的正態(tài)云、基于高斯分布的高斯云、基于線性分布的線性云等。其中,正態(tài)分布廣泛存在于社會活動、自然活動、及生產(chǎn)技術(shù)中。實際生活中遇到的大部分隨機事件都呈現(xiàn)正態(tài)分布或者近似呈現(xiàn)正態(tài)分布。由中心極限定理可知,正態(tài)云模型具有普適性,所以本文選擇正態(tài)云。
云模型中3個參數(shù)的計算方法[14]如下
(2)
式中:Zmax和Zmin分別為各等級對應(yīng)的最大值和最小值。r是一個固定值,可以根據(jù)變量的模糊度進行調(diào)整,在本研究中固定為0.01。
識別過程步驟3中數(shù)據(jù)x對應(yīng)的隸屬度函數(shù)[15]如式(3)所示,因為經(jīng)過對各類隸屬函數(shù)進行對比,發(fā)現(xiàn)其它隸屬函數(shù)多數(shù)與正態(tài)隸屬函數(shù)一致。它們大部分是正態(tài)隸屬函數(shù)泰勒展開式的低次項之和,是正態(tài)隸屬函數(shù)的近似表達。所以正態(tài)隸屬函數(shù)具有普適性,則本文選擇正態(tài)隸屬函數(shù)來確定樣本的隸屬度
(3)
粗糙集理論[16-18]是波蘭數(shù)學(xué)家Pawlak提出的一種數(shù)據(jù)挖掘方法,這種方法挖掘不完整的數(shù)據(jù),發(fā)現(xiàn)隱藏的信息,它在確定指標(biāo)權(quán)重方面具有獨特的優(yōu)勢,可以消除人為因素的影響且它最大的優(yōu)勢是克服了模糊集合論中隸屬函數(shù)的主觀性,屬性重要度、條件信息熵等是從原始數(shù)據(jù)中計算得到的,人不會參與進來,所以用它來確定指標(biāo)的權(quán)重是比較客觀的[19-21]。
定義1 在決策表S=(U,A,V,f)中,其中U是非空有限集合,稱為論域,記為U={x1,x2,…,xn};A=C∪D,C是條件屬性集,D為決策屬性集,C∩D=φ;f:U×A→V是一個信息函數(shù),V=∪Va,a∈A,Va表示屬性a的值域。
定義3 在決策表S=(U,A,V,f)中,A=C∪D,指標(biāo)屬性C,U/C={C1,C2,…,Cm},決策屬性D,U/D={D1,D2,…,Dn},則決策屬性相對于指標(biāo)屬性的條件信息熵為
(4)
定義4 在決策表S=(U,A,V,f)中,A=C∪D,?c∈C,a∈A,x∈U,則條件屬性c的重要度為
(5)
其中,a(x)=U/{a}。
定義5 在決策表S={U,A,V,f)中,A=C∪D,?c∈C,則條件屬性c的權(quán)重為
(6)
本節(jié)仿真實驗的實驗環(huán)境是:Intel(R) Core(TM)i5-4590CPU,8 GB內(nèi)存,操作系統(tǒng)為Windows7 旗艦版,在Matlab環(huán)境下進行仿真實驗。
本節(jié)模擬實際場景進行仿真實驗,來驗證本文研究的基于粗糙集-云模型的民航主數(shù)據(jù)識別方法的可行性。
本節(jié)仿真實驗數(shù)據(jù)皆來自航空公司。
將主數(shù)據(jù)劃分為5個等級,每個等級代表成為主數(shù)據(jù)的可能性,具體含義為I(極高),II(高),III(中),IV(弱),Ⅴ(極弱)。由7個指標(biāo)共同決定,見表2。
表2中,統(tǒng)計了民航信息系統(tǒng)20個月來的數(shù)據(jù),每個指標(biāo)值的含義如下:按照民航信息系統(tǒng)的優(yōu)先級規(guī)則將業(yè)務(wù)優(yōu)先級設(shè)置為10級;統(tǒng)計數(shù)據(jù)在系統(tǒng)中的生命周期,以月為單位,比如說國家代碼在系統(tǒng)中的生命周期是20個月,則國家代碼的生命周期這一識別指標(biāo)為第一等級;統(tǒng)計數(shù)據(jù)的標(biāo)識作用,以百分比為單位;查詢該數(shù)據(jù)被訪問的系統(tǒng)個數(shù),最多為17個子系統(tǒng);統(tǒng)計數(shù)據(jù)的變更頻率,以月為單位;查詢一天中數(shù)據(jù)在系統(tǒng)中的被訪問的次數(shù);判斷數(shù)據(jù)的基礎(chǔ)性。根據(jù)以上分析,生成如表2所示的主數(shù)據(jù)等級標(biāo)準(zhǔn)。
表2 主數(shù)據(jù)等級標(biāo)準(zhǔn)
由于正態(tài)云具有普適性,故本文使用正態(tài)分布函數(shù)的正向云發(fā)生器。將定性描述的識別指標(biāo)轉(zhuǎn)化為用3個數(shù)字特征表示的定量映射。映射過程由式(2)計算,得到主數(shù)據(jù)各個指標(biāo)的云模型參數(shù)(Ex,En,He),分別為:
業(yè)務(wù)優(yōu)先級:I(9.5,0.42,0.01), II(8,0.85,0.01), III(5.5,1.27,0.01), IV(3,0.85,0.01), Ⅴ(1.5,0.42,0.01);
生命周期:I(17.5,2.12,0.01), II(13.5,1.27,0.01), III(9,2.55,0.01), IV(4.5,1.3,0.01), Ⅴ(1.5,1.27,0.01);
唯一性:I(95,4.25,0.01), II(77.5,10.62,0.01), III(50,12.7,0.01), IV(22.5,10.6,0.01), Ⅴ(5,4.25,0.01);
跨系統(tǒng)使用:I(12,4.25,0.01), II(6,0.85,0.01), III(4,0.85,0.01), IV(2.5,0.42,0.01), Ⅴ(1,0.85,0.01);
變更頻率:I(1,0.85,0.01), II(3,0.85,0.01), III(5.5,1.27,0.01), IV(8,0.85,0.01), Ⅴ(10.5,1.27,0.01);
使用頻率:I(150,16.96,0.01), II(115,12.74,0.01), III(75,21.23,0.01), IV(35,12.7,0.01), Ⅴ(10,8.49,0.01);
基礎(chǔ)性:I(8.5,0.42,0.01), II(7.5,1.27,0.01), III(4.5,1.27,0.01), IV(2,0.85,0.01), Ⅴ(0.5,0.42,0.01)。然后生成各指標(biāo)的標(biāo)準(zhǔn)云,如圖2所示。
圖2為7個識別指標(biāo)的標(biāo)準(zhǔn)云,每個指標(biāo)中有5個等級。橫坐標(biāo)為各指標(biāo)的取值,縱坐標(biāo)為隸屬度。以生命周期為例,當(dāng)生命周期取16時,則第I、II、III、IV、Ⅴ等級的隸屬度分別為0.6、0.3、0.05、0、0。
對于隸屬度函數(shù)的選擇,有線性隸屬函數(shù)、柯西隸屬函數(shù)、正態(tài)隸屬函數(shù)等,但由文獻[22]可知,正態(tài)隸屬函數(shù)在很多領(lǐng)域與其它隸屬函數(shù)具有一致性,并且廣泛應(yīng)用在各個領(lǐng)域。故本文選用正態(tài)隸屬函數(shù),由x條件發(fā)生器,根據(jù)式(3)將采樣數(shù)據(jù)代入圖2中各識別指標(biāo)標(biāo)準(zhǔn)云,得到每個數(shù)據(jù)各個識別指標(biāo)的隸屬度,這個隸屬度具有隨機性,但是是一個具有穩(wěn)定傾向的隨機數(shù),故本文對其進行了100次計算并對這100次結(jié)果求其平均數(shù),得到其中的業(yè)務(wù)優(yōu)先級隸屬度見表3。在該表中,展示了各個樣本在每個等級下的隸屬度。
根據(jù)式(4)、式(5)和式(6)計算各指標(biāo)的權(quán)重,得到各指標(biāo)權(quán)重為業(yè)務(wù)優(yōu)先級(0.0084),生命周期(0.0084),唯一性(0.0105),跨系統(tǒng)使用(0.0105),變更頻率(0.0105),使用頻率(0.0105),基礎(chǔ)性(0.0105)。
根據(jù)式(1)計算每條數(shù)據(jù)的綜合確定度,以最大確定度作為最終主數(shù)據(jù)的識別等級。結(jié)果見表4。
圖2 各識別指標(biāo)標(biāo)準(zhǔn)云
表3 業(yè)務(wù)優(yōu)先級隸屬度
表4 識別結(jié)果
將表4的識別結(jié)果與民航領(lǐng)域已有主數(shù)據(jù)標(biāo)準(zhǔn)進行對比,國家代碼,城市代碼,機場代碼與州或省代碼這4項已經(jīng)確定一定為主數(shù)據(jù),本文識別結(jié)果均為Ⅰ等級,故結(jié)果合理有效。樣本一到樣本四與預(yù)期結(jié)果相同,驗證本文研究的主數(shù)據(jù)識別方法是可行的。
隨著社會的高速發(fā)展,數(shù)據(jù)已變成信息時代的重要戰(zhàn)略資源,它如同一座有待開采、礦藏豐富的礦山,對它進行有效的挖掘已經(jīng)成為各個行業(yè)的核心競爭力。而對主數(shù)據(jù)識別則是其中的關(guān)鍵一環(huán)。本文依據(jù)主數(shù)據(jù)的隨機性與模糊性,提出運用云模型方法對其進行識別,首先選取7個關(guān)鍵識別指標(biāo),然后建立標(biāo)準(zhǔn)云模型,再將采集的樣本代入標(biāo)準(zhǔn)云模型,求出各個數(shù)據(jù)隸屬于各等級的隸屬度。由于每個指標(biāo)對主數(shù)據(jù)的影響是不一樣的,不能平均對待,故本文采取粗糙集方法來確定各指標(biāo)的權(quán)重。此方法對先驗知識要求不高,使權(quán)重確定更客觀。最后將各隸屬度與相應(yīng)權(quán)重結(jié)合,求出綜合確定度,以最大確定度確定主數(shù)據(jù)等級。
本文第一次將主數(shù)據(jù)劃分等級,使識別結(jié)果更為精確。并且在權(quán)重確定這部分與已有方法有很大不同,已有方法人工干預(yù)過多,即大多為專家打分,導(dǎo)致結(jié)果主觀性比較強。本文引入粗糙集方法,根據(jù)原始數(shù)據(jù)計算權(quán)重,結(jié)果更為客觀。將本文所提方法應(yīng)用在民航領(lǐng)域,最終結(jié)果與中航信提供結(jié)果一致,驗證了本文所提方法的可行性。
但是對主數(shù)據(jù)識別方法的研究仍然是任重而道遠的,還需要進一步的研究。