亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        成本預測系統(tǒng)中的自變量約簡方法

        2012-10-20 08:52:38訾書宇魏汝祥林名馳
        統(tǒng)計與決策 2012年18期
        關鍵詞:約簡廣義定義

        訾書宇,魏汝祥,林名馳

        (海軍工程大學a.裝備經濟管理系;b.理學院,武漢 430033)

        1 問題的提出

        在市場經濟條件下,有效的成本預測和控制對于企業(yè)生存和發(fā)展至關重要,所以成本預測問題受到了越來越多的關注。在成本預測系統(tǒng)中,為了更完備地描述和分析系統(tǒng),盡可能不遺漏一些至關重要的系統(tǒng)特征。成本分析人員往往傾向于較周到地選取有關的自變量。而這樣構成的多自變量系統(tǒng)常存在嚴重的冗余。在具體的成本預測過程中,冗余自變量就會嚴重危害模型參數(shù)估計,擴大模型誤差,并破壞模型的穩(wěn)健性。目前,常用的自變量約簡(剔除冗余自變量)方法有灰色關聯(lián)系數(shù)法[1,2]、主成分分析法[3]和偏最小二乘法[4]等,但這些方法有一個共同的缺點就是均不能有效挖掘出自變量間隱含的信息。

        粗糙集作為挖掘數(shù)據(jù)間蘊含信息的新方法,已廣泛用于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究中。但現(xiàn)有的粗糙集方法[5,6]大多適用于離散型數(shù)據(jù),所能處理的知識和概念都是清晰的。對于連續(xù)型數(shù)據(jù),通常是先將其離散化再進行處理,而離散化往往會丟失有用信息,易使約簡產生錯誤。為解決數(shù)據(jù)離散化過程中的信息損失問題,法國學者D.Dubios和H.Prade將模糊集理論引入粗糙集中,對系統(tǒng)中的數(shù)據(jù)不再進行離散化,而討論數(shù)據(jù)間的關系時也用數(shù)據(jù)的相似關系而非粗糙集中的等價關系[7]。相關研究表明[8,9],應用模糊粗糙集得到的約簡比粗糙集具有更高的準確度。

        鑒于在實際的成本預測系統(tǒng)中,自變量既有離散型數(shù)據(jù),也有連續(xù)型數(shù)據(jù),所以本文擬采用模糊粗糙集理論對成本預測系統(tǒng)中的自變量進行約簡,給出了相對約簡的系列定義,并在此基礎上,提出了一種基于改進廣義差別矩陣的多自變量約簡算法。最后通過實例證明所提方法的有效性。

        2 基于模糊粗糙集的成本預測系統(tǒng)自變量約簡模型

        根據(jù)粗糙集中關于決策系統(tǒng)的定義[10],我們可以將成本預測系統(tǒng)看成是一個決策系統(tǒng),表述為S=(U,C?88i0imu,f,V),其中U={x1,x2,…,xn}為成本預測系統(tǒng)的樣本集(論域);C={c1,…,cs,…,cm}為條件屬性集,對應于成本預測系統(tǒng)中的自變量,不失一般性,設前s個自變量是連續(xù)型數(shù)據(jù),記為C1={c1,c2,…,cs},后m-s個自變量是離散型數(shù)據(jù),記為C2={cs+1,…,cm},{}d為決策屬性集,對應于經濟預測系統(tǒng)中的因變量(成本),C?2ua8ewq=φ;V為條件屬性和決策屬性的值域;f:U×{C?20aimui}→V為映射函數(shù)。由于自變量是混合型數(shù)據(jù),本文采用模糊粗糙集方法,對自變量進行約簡,并構建基于模糊粗糙集的成本預測系統(tǒng)自變量約簡模型。成本預測系統(tǒng)的變量關系示意圖如圖1所示。

        圖1 成本預測系統(tǒng)的變量關系示意圖

        2.1 模糊等價關系

        定義1對于非空有限的樣本集U,R是U上定義的一個二元關系。稱R為模糊等價關系,如果R滿足下面的條件:

        (1)自反性:R(x,x)=1,?x∈U

        (2)對稱性:R(x,y)=R(y,x),?x,y∈U

        (3)傳遞性:R(x,z)≥miny{R(x,y),R(y,z)}

        R用關系矩陣 M(R)來表示:M(R)=(rij)n×n,其中rij∈[0,1]是xi和xj之間的關系值。

        對于離散型變量a∈C?mkuaics,xi,xj∈U,定義:

        其中 f(xi,a)為樣本xi的變量a的取值。

        類似等價關系中的等價類的概念,定義模糊等價關系框架下的等價類概念。

        定義2對于非空有限的樣本集U,R是U上的模糊二元關系,R產生的對U的模糊劃分定義為:

        其中:[xi]R=ri1/x1+ri2/x2+…+rin/xn是 xi和 R產生的模糊等價類。

        2.2 不可分辨關系

        本文用信息熵描述變量間的不可分辨關系。熵值的增加,意味著分辨能力或知識準確性的增加。因此分類能力越好,熵值就越大,對應著變量越重要。信息熵的定義如下:

        定義3[11]給定成本預測系統(tǒng)S=(U,C?ym0icuw,V,f),R是U上C?ackecuy對應的模糊二元關系。則R對應的信息量為:

        定義4[11]給定成本預測系統(tǒng)S=(U,C?uqmkqwo,V,f),B?C?g4iequa,E?C?cakeog0,[xi]B和[xi]E為B和E產生的xi的模糊等價類。那么,B和E的聯(lián)合熵和條件熵定義為:

        2.3 相對約簡

        定義5給定成本預測系統(tǒng)S=(U,C?igeoo0w,V,f),B?C,?a∈B,如果 H(igeyg0s/B-{a})=H(ssgc0o2/B),則稱a相對于d在B中是多余的(redundant),否則稱B相對于d是獨立的。

        定義6[12給定成本預測系統(tǒng)S=(U,C?akk0siy,V,f),B?C。稱B為C相對于d的約簡,如果B滿足:

        (1)H(gge0eia/B)=H(ugqc0ia/C);

        (2)B相對于d是獨立的。

        3 基于改進廣義差別矩陣的成本預測系統(tǒng)自變量約簡算法

        求成本預測系統(tǒng)中自變量的相對約簡,就是從自變量集(條件屬性集)中挑選出滿足定義6中條件限制的子集。其中,自變量數(shù)目最小的約簡,即為最小相對約簡。從約簡算法設計的角度,自變量約簡可以看成樹的遍歷,樹的每一個節(jié)點是一個自變量,尋找自變量最小相對約簡的問題可以轉化為滿足一定條件的最短路徑問題。根據(jù)算法起始點的不同,可以分為樹的修剪和樹的長成。樹的修剪,指從自變量全集C開始,利用定義6中的啟發(fā)式信息逐步剔除冗余的自變量,從而得到最小相對約簡;樹的長成,指從自變量的核(核包含在所有的約簡集中)開始,利用定義6中的啟發(fā)式信息逐步增加不可缺少的自變量,從而得到最小相對約簡。本文根據(jù)樹的長成思想,設計自變量的啟發(fā)式約簡算法。算法分為三個主要步驟:一是自變量核計算;二是自變量增加判據(jù);三是算法結束條件。鑒于成本預測系統(tǒng)的因變量(決策屬性)一般是連續(xù)型數(shù)據(jù),用傳統(tǒng)的差別矩陣法無法計算它的自變量核,而文獻[13]提出的廣義差別矩陣又僅適用于決策屬性是離散型數(shù)據(jù)的情況,也就是說,該文獻給出的廣義差別矩陣定義是不完備的。本文在文獻[13]的基礎上,對廣義差別矩陣的定義進行改進,使其適用于決策屬性是連續(xù)型數(shù)據(jù)的情況,并以此計算成本預測系統(tǒng)的自變量核。在自變量核的基礎上,以變量重要度作為自變量增加判據(jù),直到滿足定義6,算法結束。

        3.1 改進的廣義差別矩陣

        首先對成本預測系統(tǒng)中的連續(xù)型數(shù)據(jù)進行規(guī)范化處理,以消除數(shù)量級差,規(guī)范化處理的公式為:

        其中 f(xi,a)為樣本xi的變量a的取值,a∈C?ssgmiag。

        文獻[13]給出的廣義差別矩陣中的約束條件f(xi,d)=f(xj,d)只適用于決策屬性是離散型數(shù)據(jù)的情況,而成本預測系統(tǒng)的決策屬性一般是連續(xù)型數(shù)據(jù),該約束條件對連續(xù)型數(shù)據(jù)過于嚴厲,因此需要對文獻[13]中的廣義不一致決策表、廣義不一致對象和廣義差別矩陣的定義進行推廣。

        定義7給定成本預測系統(tǒng)S=(U,C?wu0qaq0,V,f)的任意兩個樣本 xi和 xj(1≤i,j≤n),給定參數(shù) α>0、δ>0 ,若 dissim(f(xi,d),f(xj,d))≥α ,?b∈C1,有f(xi,b)=f(xj,b)成 立 ,?a∈C2,有 dissim(f(xi,a),f(xj,a))<δ成立,則稱樣本xi和xj為C-廣義不一致對象,否則稱樣本xi和xj為C-廣義一致對象。稱不含廣義不一致對象的決策表為廣義一致決策表,含有廣義不一致對象的決策表為廣義一致決策表。

        其中:dissim(f(xi,λ),f(xj,λ))為樣本 xi和 xj在變量 λ上的不相似性度量。本文定義,?λ∈C2?ckwiqeg,

        σλ為變量λ的標準方差,即所謂距離越大越不相似。定義8對于給定的成本預測系統(tǒng)S=(U,C?u00gmos,V,f),定義改進的廣義差別矩陣M3={mij}為:

        對于決策屬性是離散型數(shù)據(jù)的情況,只要保證α小于某一閾值,即可保證f(xi,d)≠f(xj,d)和 dissim(f(xi,d),f(xj,d))≥α同時成立。因此,式(9)是對文獻[11]定義的廣義差別矩陣的推廣,解決了用廣義差別矩陣求解決策屬性是連續(xù)型數(shù)據(jù)的數(shù)據(jù)約簡問題,同時可以使求得的約簡結果符合傳統(tǒng)的Rough框架。同樣根據(jù)文獻[11],求取成本預測系統(tǒng)中自變量的核:

        定理1對于給定的成本預測系統(tǒng)S=(U,C?0c0ogmg,V,f),給定參數(shù)α>0、δ>0,若記IDM(C,M3)={mijmij|∈M3,且mij為單個自變量},則有 IDM(C,M3)=Core(C)。即當且僅當某個mij為單個自變量時,該自變量屬于核Core(C)。

        3.2 基于變量重要度的屬性增加判據(jù)

        在得到了自變量核的基礎上,需要對核以外的自變量進行判別,從中選取最優(yōu)的自變量與核一起構成一個相對約簡,并保證相對約簡前后的分類能力不變。本文以變量重要度作為自變量增加的判據(jù):

        定義9對于給定的成本預測系統(tǒng)S=(U,C?ey8am0g,V,f),B?C。則對于任意變量a∈C-B的重要性SGF(a,B,d)定義為:

        SGF(a,B,d)=H(ecowg0k/B)-H(o82kgk0/B?{a}) (11)

        若 B=φ,則 SGF(a,B,d)變?yōu)?SGF(a,d)=H(saowgya)-H(8ywemq0/{a})。SGF(a,B,d)的值越大,說明在已知B的條件下,變量a對于因變量(決策屬性)就越重要。

        3.3 算法實現(xiàn)

        輸入:給定的成本預測系統(tǒng)S=(U,C?0qc0yas,V,f),以及α、δ,其中,C為成本預測系統(tǒng)中的自變量,d為成本變量(因變量);

        輸出:成本預測系統(tǒng)的一個最優(yōu)的自變量最小相對約簡Bopt。

        Begin

        (1)根據(jù)式(9)建立改進的廣義差別矩陣M3,并得到自變量C相對于因變量d的核Core(C);

        (2)Bopt? Core(C);

        (3)?a∈C-Bopt,根據(jù)式(4)、(5)、(11)計算其變量重要度SGF(a,Bopt,d);

        (4)選擇使 SGF(a,Bopt,d)最大的自變量 a,且Bopt?Bopt?{a};

        (5)如果 Bopt滿足定義6,轉6)跳出;否則,轉3)繼續(xù);

        (6)輸出 Bopt。

        End

        4 實例分析

        為了驗證方法的有效性,我們以艦船維修成本預測系統(tǒng)為例,樣本數(shù)據(jù)選用美軍艦船維修成本數(shù)據(jù),自變量有9個,分別是空載排水量(D)、艦總長(L)、艦寬(B)、軸馬力(H)、發(fā)電機功率(G)、主機數(shù)量(Q)、動力類型(E)、艦員數(shù)量(S)和費用發(fā)生的大致年份(A),因變量為艦船平均維修成本,為便于比較,費用均已折算到同一年。其中變量D、L、B、H、G、S和MC是連續(xù)型數(shù)據(jù),變量Q、E和A是離散型數(shù)據(jù)。樣本數(shù)據(jù)如表1所示。

        表1 艦船維修成本預測系統(tǒng)中的自變量和因變量數(shù)據(jù)

        我們分別采用灰色關聯(lián)系數(shù)法、主成分分析法、偏最小二乘法和文中所提的方法,對表1中的自變量進行約簡。由于主成分分析法和偏最小二乘法是通過提取變量成分來實現(xiàn)變量約簡的,所以我們以約簡后的變量成分數(shù)表示變量的約簡結果。另外設定灰色關聯(lián)系數(shù)法的關聯(lián)度閾值=0.7,文中所提方法的α=0.2,δ=0.25。同時,為比較四種方法的自變量約簡效果,我們分別采用多元線性回歸和最小二乘支持向量機,構建約簡后的自變量與因變量的預測模型。這里以Model 1表示灰色關聯(lián)系數(shù)法的預測模型,模型2表示主成分分析法的預測模型,模型3表示偏最小二乘法的預測模型,模型4表示文中所提方法的預測模型。最小二乘支持向量機的正則化參數(shù)γ取1880,核函數(shù)采用徑向基函數(shù),徑向基函數(shù)中的δ為3.6。取表1中的前16個樣本作訓練樣本,后3個樣本作測試樣本,以平均絕對相對誤差(Average Absolute Relative Error,AARE)作為預測精度的度量,預測結果如表2、表3所示。

        從表2和表3中我們可得出以下結論:

        表2 基于多元線性回歸的預測模型比較結果

        表3 基于最小二乘支持向量機的預測模型比較結果

        (1)經過模型4的約簡后,自變量數(shù)從9個下降到了4個,雖然不及模型2和模型3,但約簡率仍達到了50%以上,可使成本預測系統(tǒng)大為簡化。

        (2)模型4的約簡率雖不是最高的,但其約簡效果是最優(yōu)的,從約簡后構建的多元線性回歸模型和最小二乘支持向量機模型來看,模型4的測試樣本預測誤差均優(yōu)于其它3種模型。由于在現(xiàn)實當中,對于成本預測問題人們更關注模型的預測性能,從這一角度而言,文中所提方法的約簡效果是最佳的。

        5 結束語

        實例分析結果表明,用文中所提的方法對成本預測系統(tǒng)的多自變量進行約簡,不但使約簡后的自變量數(shù)量大為減少,而且約簡后的效果也要大大好于其它方法。該方法引入模糊粗糙集理論,較好地解決了復雜的成本預測系統(tǒng)中的自變量約簡問題;文中所提的改進廣義差別矩陣,也推廣了廣義差別矩陣的應用范圍,并且以此構建的啟發(fā)式約簡算法大大簡化了最小相對約簡的計算過程。該方法可借鑒應用于其它類似的自變量眾多且它們之間關系紛繁復雜的數(shù)據(jù)系統(tǒng)的自變量約簡中,但該方法提出的改進廣義差別矩陣中α、δ的取值可能會影響到變量核的計算,這一方面的工作和相應的實驗驗證將在后續(xù)的研究中開展。

        [1]李洪偉,楊印生,周德群.多輸入多輸出問題效率的影響因素分析方法[J].系統(tǒng)工程理論與實踐,2007,(3).

        [2]蘆二,吳曉平.基于系統(tǒng)關聯(lián)分析的裝備維修費用的灰色系統(tǒng)預測研究[J].海軍工程學院學報,1999,(3).

        [3]張紅,林蔭,劉平.基于主成分分析的房地產上市公司盈利能力分析與預測[J].清華大學學報(自然科學版),2010,50(3).

        [4]劉瑞蘭,陳渭泉,蘇宏業(yè).基于改進GA-PLS算法的最優(yōu)輔助變量選擇及其在軟測量建模中的應用[J].南京郵電大學學報(自然科學版),2006,26(1).

        [5]劉啟和,李凡,閔帆,等.一種基于新的條件信息熵高效知識約簡算法[J].控制與決策,2005,20(8).

        [6]楊明.一種基于改進差別矩陣的屬性約簡增量式更新算法[J].計算機學報,2007,30(5).

        [7]Dubois D,Prade H.Putting Rough Sets and Fuzzy Sets Together[Z].Dordrecht,1992.

        [8]Radzikowska A M,Kerre E E.A Comparative Study of Fuzzy Rough Sets[J].Fuzzy Sets and Systems,2002,12(6).

        [9]Liang H L,Zhang H G,Liu D R.Roughness of Fuzzy Sets Based on Two New Operators[C].IEEE International Conf.on Fuzzy Systems,Piscataway,2004.

        [10]裴小兵.粗糙集的知識約簡研究[D].華中科技大學,2006.

        [11]Hu Q H,Yu D R,Xie Z X.Information-preserving Hybrid Data Re?duction Based on Fuzzy-Rough Techniques[J].Pattern Recognition Letters,2006,27(5).

        [12]葉玉玲,傘冶.基于遺傳算法的粗糙集混合數(shù)據(jù)屬性約簡[J].哈爾濱工業(yè)大學學報,2008,40(5).

        [13]楊明,楊萍.基于廣義差別矩陣的核和屬性約簡算法[J].控制與決策,2008,23(9).

        [14]James M B.A Parametric Cost Model for Estimating Operating and Support Costs of U.S.Navy(Non-Nuclear)Surface Ships[D].Naval Postgraduate School,U.S.,1999.

        猜你喜歡
        約簡廣義定義
        Rn中的廣義逆Bonnesen型不等式
        基于二進制鏈表的粗糙集屬性約簡
        從廣義心腎不交論治慢性心力衰竭
        實值多變量維數(shù)約簡:綜述
        自動化學報(2018年2期)2018-04-12 05:46:01
        基于模糊貼近度的屬性約簡
        有限群的廣義交換度
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        一種改進的分布約簡與最大分布約簡求法
        河南科技(2014年7期)2014-02-27 14:11:29
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        山的定義
        公務員文萃(2013年5期)2013-03-11 16:08:37
        成人自拍一二在线观看| 日本不卡一区二区高清中文| 女女同性av一区二区三区免费看| 区一区二区三区四视频在线观看| 成年站免费网站看v片在线| 亚洲av无码av吞精久久| 官网A级毛片| 日韩av免费一区二区| 高清精品一区二区三区| 亚洲的天堂av无码| 人妻中文字幕一区二区二区| 极品美女调教喷水网站| 日本高清视频永久网站www| 国产av日韩a∨亚洲av电影| 国产亚洲av手机在线观看| 美女人妻中出日本人妻| 麻豆精品国产精华精华液好用吗| 国产在线不卡AV观看| 白色白色在线视频播放平台| 制服丝袜一区二区三区 | 在线观看国产成人av天堂野外| 99久久精品国产一区二区三区| 精品国产免费Av无码久久久| 北岛玲亚洲一区二区三区| 国产在线第一区二区三区| 国产成人无码免费网站| 精品视频在线观看一区二区三区| 国内自拍视频一区二区三区 | 91福利国产在线观看网站| 亚洲国产一区二区网站| 少妇愉情理伦片高潮日本| 久久青草伊人精品| 日本一区二区啪啪视频| 一本大道av伊人久久综合| 久久精品国产自清天天线| 亚洲精品高清av在线播放| 国产不卡在线视频观看| 白又丰满大屁股bbbbb| 午夜福利视频男同女同| 日韩av一区二区三区高清| 少妇仑乱a毛片|