亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云模型及粗糙集的民航主數(shù)據(jù)識別方法

        2020-09-04 10:46:48王懷超
        計算機工程與設(shè)計 2020年8期
        關(guān)鍵詞:正態(tài)粗糙集定性

        李 國,張 亞,王懷超

        (中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)

        0 引 言

        隨著民航業(yè)的蓬勃發(fā)展,民航數(shù)據(jù)呈現(xiàn)出指數(shù)式的爆炸增長。這些數(shù)據(jù)中很多是基礎(chǔ)的、共享的數(shù)據(jù),即某些數(shù)據(jù)會在多個部門、系統(tǒng)或業(yè)務(wù)中重復(fù)使用。若出現(xiàn)各個部門編碼方式不一樣或者某個數(shù)據(jù)在某一個部門更新了,其它部門還未更新等情況,則會造成信息不對稱,從而影響最終的決策。因此如何從這些海量的數(shù)據(jù)中識別出這種具有高價值的、基礎(chǔ)的、被多個部門共享的數(shù)據(jù),即主數(shù)據(jù)[1,2],變得緊迫且重要。

        然而,主數(shù)據(jù)的識別工作一直未受到重視,也未提出比較有效的識別方法,目前的研究有:王學(xué)建等[3]提出了基于層次分析法的主數(shù)據(jù)識別方法,該方法的優(yōu)點為它是一個系統(tǒng)性的分析方法,簡單實用且所需定量數(shù)據(jù)較少,缺點為定性成份較多,不易令人信服;當(dāng)指標(biāo)過多時,數(shù)據(jù)統(tǒng)計量大,權(quán)重難以計算;權(quán)重確定為專家打分法,當(dāng)某個專家更改時,結(jié)果可能會波動很大。劉濤等[4]提出了基于綜合加權(quán)法的主數(shù)據(jù)識別方法,綜合加權(quán)法即德爾菲法與主成分分析法的結(jié)合,主成分分析法主要思想就是降維,將多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo),這幾個綜合指標(biāo)代表了原始變量的大部分信息,德爾菲法即專家打分法,該方法的優(yōu)點為當(dāng)數(shù)據(jù)量過大時,通過降維減少數(shù)據(jù)量,易于計算,缺點是專家打分具有主觀性,當(dāng)替換某個專家時,結(jié)果可能波動很大。上述理論和方法在權(quán)重確定方面都是由專家打分得到的。這就意味著人為主觀因素影響較大。因此,識別主數(shù)據(jù)仍是一個重大挑戰(zhàn),有必要探索新的有效的理論和方法。

        為消除主數(shù)據(jù)識別指標(biāo)中的隨機性和模糊性,識別過程的關(guān)鍵兩點:①用于主數(shù)據(jù)識別的定性指標(biāo)的定量化描述。正向云模型方法是一種基于概率論和模糊數(shù)學(xué)理論的定性概念到定量表示的轉(zhuǎn)化模型,它可以將概念內(nèi)涵(主觀世界中的抽象概念)轉(zhuǎn)化為概念外延(客觀世界中的樣本集合)。故本文基于此模型,實現(xiàn)主數(shù)據(jù)識別指標(biāo)的定量化。②指標(biāo)權(quán)重的確定問題。傳統(tǒng)的權(quán)重確定幾乎都需要專家打分,存在某種程度的主觀性。粗糙集理論可以根據(jù)客觀存在的樣本數(shù)據(jù)來計算各個指標(biāo)的權(quán)重,可以得到相對客觀的結(jié)果。故本文采用粗糙集的方法來確定指標(biāo)之間的權(quán)重。基于以上兩點分析,本文提出了一種基于云模型及粗糙集的民航主數(shù)據(jù)識別方法。

        本文基于云模型及粗糙集的對民航主數(shù)據(jù)進行識別。考慮到識別指標(biāo)的模糊性和不確定性,選取7個具有代表性的典型指標(biāo)建立識別指標(biāo)體系,通過客觀方法得到識別指標(biāo)的客觀權(quán)重。然后,基于客觀權(quán)重建立了RS-CM(粗糙集-云模型),為民航主數(shù)據(jù)識別提供了一種方法。

        1 相關(guān)工作

        1.1 主數(shù)據(jù)的識別指標(biāo)

        民航新一代旅客服務(wù)系統(tǒng)由21個子系統(tǒng)組成,根據(jù)中國民航的業(yè)務(wù)特點、主數(shù)據(jù)的定義及主數(shù)據(jù)具有的特征一致性、識別唯一性、長期有效性、業(yè)務(wù)穩(wěn)定性的特點,在確定主數(shù)據(jù)的識別指標(biāo)時,需重點考慮以下因素:

        (1)基礎(chǔ)性

        并不是所有的數(shù)據(jù)都是主數(shù)據(jù),主數(shù)據(jù)是原子數(shù)據(jù),不是衍生數(shù)據(jù)。如旅客訂票后,旅客和機票皆是原子數(shù)據(jù),它具有不可拆分性。

        (2)共享性

        共享性是主數(shù)據(jù)非常重要的一個特性,是其它特性的前提。主數(shù)據(jù)一定會被多個系統(tǒng)訪問,某個數(shù)據(jù)被訪問的系統(tǒng)越多,則它越可能是主數(shù)據(jù)。如國家代碼會被運價發(fā)布和計算系統(tǒng)、電子票系統(tǒng)、貨運系統(tǒng)、離港系統(tǒng)、GDS分銷系統(tǒng)等共同使用,則國家代碼極有可能是主數(shù)據(jù)。

        (3)存在時間

        主數(shù)據(jù)一般存在時間比較長,被多個系統(tǒng)共享的臨時數(shù)據(jù)不是主數(shù)據(jù),如機場代碼需長期存在,不能缺少,則機場代碼可能是主數(shù)據(jù)。

        (4)訪問次數(shù)

        主數(shù)據(jù)一般比較活躍,被各個系統(tǒng)訪問頻繁,即需要經(jīng)常使用到的數(shù)據(jù)。如城市代碼會被離港系統(tǒng)、GDS分銷系統(tǒng)、電子票系統(tǒng)等頻繁訪問,則城市代碼極有可能是主數(shù)據(jù)。

        (5)變更頻率

        主數(shù)據(jù)一般比較穩(wěn)定,變動頻率較低。如省代碼。

        充分考慮以上因素,最終確定主數(shù)據(jù)識別的7個指標(biāo),見表1。

        表1 主數(shù)據(jù)識別指標(biāo)

        1.2 云模型

        云模型[6-8]是Li和Du[9]在1995年首次提出的一種數(shù)學(xué)模型。它考慮了定性概念與定量數(shù)值表示之間轉(zhuǎn)換的不確定性。充分考慮了主數(shù)據(jù)的模糊性和隨機性。

        設(shè)Z是一個定量集合Z={x}。C在Z中是定性的概念,確定的參數(shù)x∈Z,在C中是隨機發(fā)生的,對于Z中的任何元素x,C中x的確定性程度為μ(x)∈[0,1],μ(x)是一個穩(wěn)定的隨機數(shù)。x在Z中的分布稱為云,每個x稱為云滴。由大量的云滴組成的云可以代表領(lǐng)域空間中的定性概念[10,11]。

        引入了3個數(shù)值特征(Ex、En和He)來表示云模型中的定性概念。期望Ex是區(qū)域空間中云滴空間分布的期望和集合的均值,Ex也是最能代表定性概念的點。熵En是由定性概念的隨機性和模糊性決定的。具體來說,En是定性的隨機性和模糊性的度量的概念。超熵是熵不確定性的一種度量,反映了不確定性在域空間中各點的內(nèi)聚性。超熵值He間接反映了云滴的厚度[12]。

        本文采用正向云發(fā)生器和x條件云發(fā)生器。正向云發(fā)生器具有將定性概念轉(zhuǎn)換為定量值的能力,這些發(fā)生器根據(jù)云的3個數(shù)值特性來生成云滴。x條件云發(fā)生器是一種基于云的3個數(shù)值特征與x的指定值的組合,能夠產(chǎn)生云滴(x,μ(x))的正向云發(fā)生器。通過兩個發(fā)生器的結(jié)合,可以得到各種類型的云,在定性知識和定量值之間進行轉(zhuǎn)換[13]。

        2 基于云模型-粗糙集的民航主數(shù)據(jù)識別方法

        2.1 基于云模型-粗糙集的民航主數(shù)據(jù)識別思路

        由于主數(shù)據(jù)具有隨機性與模糊性等不確定性特征,故若對主數(shù)據(jù)進行分等級識別,則得到的結(jié)果會更加精確與合理。所以本文借助于云模型理論,根據(jù)主數(shù)據(jù)的特點,選出最能定性概括民航主數(shù)據(jù)的幾個指標(biāo),通過這些指標(biāo)來對主數(shù)據(jù)進行分級識別。識別過程中,權(quán)重的確定尤為重要,本文采用粗糙集理論來確定各指標(biāo)的權(quán)重,這樣處理使結(jié)果更加客觀。具體過程如下:

        步驟1 根據(jù)主數(shù)據(jù)特點,選出最具代表性的識別指標(biāo),對主數(shù)據(jù)進行等級劃分;

        步驟2 對各指標(biāo)不同等級計算相應(yīng)云模型的3個參數(shù),生成相應(yīng)的云模型圖;

        步驟3 根據(jù)民航采集的數(shù)據(jù),計算出各等級對應(yīng)各指標(biāo)的隸屬度u(x);

        步驟4 根據(jù)粗糙集理論確定各指標(biāo)的權(quán)重wi;

        步驟5 用如下公式計算綜合確定性程度

        (1)

        步驟6 根據(jù)最大確定度原理確定主數(shù)據(jù)的等級。

        識別過程流程,如圖1所示。

        圖1 識別過程流程

        2.2 分布函數(shù)的選擇

        云模型的具體實現(xiàn)方法有多種形式,依據(jù)不同的概率分布可以形成不同的云,比如基于正態(tài)分布的正態(tài)云、基于高斯分布的高斯云、基于線性分布的線性云等。其中,正態(tài)分布廣泛存在于社會活動、自然活動、及生產(chǎn)技術(shù)中。實際生活中遇到的大部分隨機事件都呈現(xiàn)正態(tài)分布或者近似呈現(xiàn)正態(tài)分布。由中心極限定理可知,正態(tài)云模型具有普適性,所以本文選擇正態(tài)云。

        2.3 云模型中參數(shù)的計算方法

        云模型中3個參數(shù)的計算方法[14]如下

        (2)

        式中:Zmax和Zmin分別為各等級對應(yīng)的最大值和最小值。r是一個固定值,可以根據(jù)變量的模糊度進行調(diào)整,在本研究中固定為0.01。

        識別過程步驟3中數(shù)據(jù)x對應(yīng)的隸屬度函數(shù)[15]如式(3)所示,因為經(jīng)過對各類隸屬函數(shù)進行對比,發(fā)現(xiàn)其它隸屬函數(shù)多數(shù)與正態(tài)隸屬函數(shù)一致。它們大部分是正態(tài)隸屬函數(shù)泰勒展開式的低次項之和,是正態(tài)隸屬函數(shù)的近似表達。所以正態(tài)隸屬函數(shù)具有普適性,則本文選擇正態(tài)隸屬函數(shù)來確定樣本的隸屬度

        (3)

        2.4 權(quán)重確定方法

        粗糙集理論[16-18]是波蘭數(shù)學(xué)家Pawlak提出的一種數(shù)據(jù)挖掘方法,這種方法挖掘不完整的數(shù)據(jù),發(fā)現(xiàn)隱藏的信息,它在確定指標(biāo)權(quán)重方面具有獨特的優(yōu)勢,可以消除人為因素的影響且它最大的優(yōu)勢是克服了模糊集合論中隸屬函數(shù)的主觀性,屬性重要度、條件信息熵等是從原始數(shù)據(jù)中計算得到的,人不會參與進來,所以用它來確定指標(biāo)的權(quán)重是比較客觀的[19-21]。

        定義1 在決策表S=(U,A,V,f)中,其中U是非空有限集合,稱為論域,記為U={x1,x2,…,xn};A=C∪D,C是條件屬性集,D為決策屬性集,C∩D=φ;f:U×A→V是一個信息函數(shù),V=∪Va,a∈A,Va表示屬性a的值域。

        定義3 在決策表S=(U,A,V,f)中,A=C∪D,指標(biāo)屬性C,U/C={C1,C2,…,Cm},決策屬性D,U/D={D1,D2,…,Dn},則決策屬性相對于指標(biāo)屬性的條件信息熵為

        (4)

        定義4 在決策表S=(U,A,V,f)中,A=C∪D,?c∈C,a∈A,x∈U,則條件屬性c的重要度為

        (5)

        其中,a(x)=U/{a}。

        定義5 在決策表S={U,A,V,f)中,A=C∪D,?c∈C,則條件屬性c的權(quán)重為

        (6)

        3 仿真實驗與分析

        本節(jié)仿真實驗的實驗環(huán)境是:Intel(R) Core(TM)i5-4590CPU,8 GB內(nèi)存,操作系統(tǒng)為Windows7 旗艦版,在Matlab環(huán)境下進行仿真實驗。

        本節(jié)模擬實際場景進行仿真實驗,來驗證本文研究的基于粗糙集-云模型的民航主數(shù)據(jù)識別方法的可行性。

        本節(jié)仿真實驗數(shù)據(jù)皆來自航空公司。

        3.1 數(shù)據(jù)預(yù)處理

        將主數(shù)據(jù)劃分為5個等級,每個等級代表成為主數(shù)據(jù)的可能性,具體含義為I(極高),II(高),III(中),IV(弱),Ⅴ(極弱)。由7個指標(biāo)共同決定,見表2。

        表2中,統(tǒng)計了民航信息系統(tǒng)20個月來的數(shù)據(jù),每個指標(biāo)值的含義如下:按照民航信息系統(tǒng)的優(yōu)先級規(guī)則將業(yè)務(wù)優(yōu)先級設(shè)置為10級;統(tǒng)計數(shù)據(jù)在系統(tǒng)中的生命周期,以月為單位,比如說國家代碼在系統(tǒng)中的生命周期是20個月,則國家代碼的生命周期這一識別指標(biāo)為第一等級;統(tǒng)計數(shù)據(jù)的標(biāo)識作用,以百分比為單位;查詢該數(shù)據(jù)被訪問的系統(tǒng)個數(shù),最多為17個子系統(tǒng);統(tǒng)計數(shù)據(jù)的變更頻率,以月為單位;查詢一天中數(shù)據(jù)在系統(tǒng)中的被訪問的次數(shù);判斷數(shù)據(jù)的基礎(chǔ)性。根據(jù)以上分析,生成如表2所示的主數(shù)據(jù)等級標(biāo)準(zhǔn)。

        表2 主數(shù)據(jù)等級標(biāo)準(zhǔn)

        3.2 仿真實驗過程

        由于正態(tài)云具有普適性,故本文使用正態(tài)分布函數(shù)的正向云發(fā)生器。將定性描述的識別指標(biāo)轉(zhuǎn)化為用3個數(shù)字特征表示的定量映射。映射過程由式(2)計算,得到主數(shù)據(jù)各個指標(biāo)的云模型參數(shù)(Ex,En,He),分別為:

        業(yè)務(wù)優(yōu)先級:I(9.5,0.42,0.01), II(8,0.85,0.01), III(5.5,1.27,0.01), IV(3,0.85,0.01), Ⅴ(1.5,0.42,0.01);

        生命周期:I(17.5,2.12,0.01), II(13.5,1.27,0.01), III(9,2.55,0.01), IV(4.5,1.3,0.01), Ⅴ(1.5,1.27,0.01);

        唯一性:I(95,4.25,0.01), II(77.5,10.62,0.01), III(50,12.7,0.01), IV(22.5,10.6,0.01), Ⅴ(5,4.25,0.01);

        跨系統(tǒng)使用:I(12,4.25,0.01), II(6,0.85,0.01), III(4,0.85,0.01), IV(2.5,0.42,0.01), Ⅴ(1,0.85,0.01);

        變更頻率:I(1,0.85,0.01), II(3,0.85,0.01), III(5.5,1.27,0.01), IV(8,0.85,0.01), Ⅴ(10.5,1.27,0.01);

        使用頻率:I(150,16.96,0.01), II(115,12.74,0.01), III(75,21.23,0.01), IV(35,12.7,0.01), Ⅴ(10,8.49,0.01);

        基礎(chǔ)性:I(8.5,0.42,0.01), II(7.5,1.27,0.01), III(4.5,1.27,0.01), IV(2,0.85,0.01), Ⅴ(0.5,0.42,0.01)。然后生成各指標(biāo)的標(biāo)準(zhǔn)云,如圖2所示。

        圖2為7個識別指標(biāo)的標(biāo)準(zhǔn)云,每個指標(biāo)中有5個等級。橫坐標(biāo)為各指標(biāo)的取值,縱坐標(biāo)為隸屬度。以生命周期為例,當(dāng)生命周期取16時,則第I、II、III、IV、Ⅴ等級的隸屬度分別為0.6、0.3、0.05、0、0。

        對于隸屬度函數(shù)的選擇,有線性隸屬函數(shù)、柯西隸屬函數(shù)、正態(tài)隸屬函數(shù)等,但由文獻[22]可知,正態(tài)隸屬函數(shù)在很多領(lǐng)域與其它隸屬函數(shù)具有一致性,并且廣泛應(yīng)用在各個領(lǐng)域。故本文選用正態(tài)隸屬函數(shù),由x條件發(fā)生器,根據(jù)式(3)將采樣數(shù)據(jù)代入圖2中各識別指標(biāo)標(biāo)準(zhǔn)云,得到每個數(shù)據(jù)各個識別指標(biāo)的隸屬度,這個隸屬度具有隨機性,但是是一個具有穩(wěn)定傾向的隨機數(shù),故本文對其進行了100次計算并對這100次結(jié)果求其平均數(shù),得到其中的業(yè)務(wù)優(yōu)先級隸屬度見表3。在該表中,展示了各個樣本在每個等級下的隸屬度。

        根據(jù)式(4)、式(5)和式(6)計算各指標(biāo)的權(quán)重,得到各指標(biāo)權(quán)重為業(yè)務(wù)優(yōu)先級(0.0084),生命周期(0.0084),唯一性(0.0105),跨系統(tǒng)使用(0.0105),變更頻率(0.0105),使用頻率(0.0105),基礎(chǔ)性(0.0105)。

        根據(jù)式(1)計算每條數(shù)據(jù)的綜合確定度,以最大確定度作為最終主數(shù)據(jù)的識別等級。結(jié)果見表4。

        圖2 各識別指標(biāo)標(biāo)準(zhǔn)云

        表3 業(yè)務(wù)優(yōu)先級隸屬度

        表4 識別結(jié)果

        3.3 實驗結(jié)果分析

        將表4的識別結(jié)果與民航領(lǐng)域已有主數(shù)據(jù)標(biāo)準(zhǔn)進行對比,國家代碼,城市代碼,機場代碼與州或省代碼這4項已經(jīng)確定一定為主數(shù)據(jù),本文識別結(jié)果均為Ⅰ等級,故結(jié)果合理有效。樣本一到樣本四與預(yù)期結(jié)果相同,驗證本文研究的主數(shù)據(jù)識別方法是可行的。

        4 結(jié)束語

        隨著社會的高速發(fā)展,數(shù)據(jù)已變成信息時代的重要戰(zhàn)略資源,它如同一座有待開采、礦藏豐富的礦山,對它進行有效的挖掘已經(jīng)成為各個行業(yè)的核心競爭力。而對主數(shù)據(jù)識別則是其中的關(guān)鍵一環(huán)。本文依據(jù)主數(shù)據(jù)的隨機性與模糊性,提出運用云模型方法對其進行識別,首先選取7個關(guān)鍵識別指標(biāo),然后建立標(biāo)準(zhǔn)云模型,再將采集的樣本代入標(biāo)準(zhǔn)云模型,求出各個數(shù)據(jù)隸屬于各等級的隸屬度。由于每個指標(biāo)對主數(shù)據(jù)的影響是不一樣的,不能平均對待,故本文采取粗糙集方法來確定各指標(biāo)的權(quán)重。此方法對先驗知識要求不高,使權(quán)重確定更客觀。最后將各隸屬度與相應(yīng)權(quán)重結(jié)合,求出綜合確定度,以最大確定度確定主數(shù)據(jù)等級。

        本文第一次將主數(shù)據(jù)劃分等級,使識別結(jié)果更為精確。并且在權(quán)重確定這部分與已有方法有很大不同,已有方法人工干預(yù)過多,即大多為專家打分,導(dǎo)致結(jié)果主觀性比較強。本文引入粗糙集方法,根據(jù)原始數(shù)據(jù)計算權(quán)重,結(jié)果更為客觀。將本文所提方法應(yīng)用在民航領(lǐng)域,最終結(jié)果與中航信提供結(jié)果一致,驗證了本文所提方法的可行性。

        但是對主數(shù)據(jù)識別方法的研究仍然是任重而道遠的,還需要進一步的研究。

        猜你喜歡
        正態(tài)粗糙集定性
        分裂平衡問題的Levitin-Polyak適定性
        基于Pawlak粗糙集模型的集合運算關(guān)系
        當(dāng)歸和歐當(dāng)歸的定性與定量鑒別
        中成藥(2018年12期)2018-12-29 12:25:44
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗
        多?;植诩再|(zhì)的幾個充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計
        半?yún)?shù)EV模型二階段估計的漸近正態(tài)性
        兩個域上的覆蓋變精度粗糙集模型
        共同認(rèn)識不明確的“碰瓷”行為的定性
        av在线播放免费观看| 久久不见久久见免费视频7| 亚洲国产果冻传媒av在线观看| 午夜少妇高潮在线观看| 国产精品精品自在线拍| 国产精品亚洲а∨无码播放不卡| 午夜成人理论无码电影在线播放| 最新精品国偷自产在线婷婷| 美腿丝袜美腿国产在线| 男女做那个视频网站国产| 一本久道综合色婷婷五月| 成人爽a毛片在线视频| 中文字幕久久久久人妻无码| 国产丝袜高跟美腿一区在线| 亚洲成人一区二区三区不卡| 亚洲夜夜性无码| 精品久久久bbbb人妻| 国模欢欢炮交啪啪150| 加勒比精品久久一区二区三区| 日本成人免费一区二区三区 | 亚洲va中文字幕无码一二三区| 在线观看精品视频网站| 少妇太爽了在线观看| 四虎影视在线观看2413| 欧美在线观看www| 精品人妻一区二区三区不卡毛片| 国产av自拍视频在线观看| 国产日产亚洲系列最新| 无码精品a∨在线观看| av中文字幕少妇人妻| 国产日本精品一区二区| 国产激情久久久久影院小草| 国产乱码精品一区二区三区四川人 | 日韩欧美成人免费观看| 亚洲首页一区任你躁xxxxx| 国产日产久久福利精品一区| 精品一区二区三区人妻久久福利| 国产又大又硬又粗| 色欲aⅴ亚洲情无码av蜜桃| 精品国产福利一区二区三区| 国产精品国产三级国产专区51区|