龔艷冰,戴靚靚,劉高峰
(河海大學(xué) 企業(yè)管理學(xué)院,江蘇 常州 213022)
在預(yù)測(cè)評(píng)價(jià)與決策等領(lǐng)域,回歸分析方法是一個(gè)重要且常用的研究方法,但是傳統(tǒng)回歸往往依賴于精確的統(tǒng)計(jì)數(shù)值及二值邏輯。在社會(huì)經(jīng)濟(jì)活動(dòng)中,部分或者全部的觀測(cè)數(shù)據(jù)常常是不精確或者用語(yǔ)言值描述的數(shù)據(jù),使得經(jīng)典線性回歸模型受到限制。人們常常使用自然語(yǔ)言值表示定性概念,例如大概、溫度不高、相當(dāng)小等,恰恰是人們賴以識(shí)別分析乃至決策的重要依據(jù)。現(xiàn)實(shí)世界中不確定性主要包括隨機(jī)性和模糊性,當(dāng)觀測(cè)變量的不確定性不是由概率分布給出的,而是由隸屬函數(shù)確定的,相應(yīng)的回歸模型稱為模糊線性回歸模型。模糊線性回歸模型由日本學(xué)者Tanaka等人[1]首次提出的,主要用于反映自變量和因變量的模糊關(guān)系。經(jīng)典回歸模型把真實(shí)數(shù)據(jù)和估計(jì)值之間的偏差認(rèn)為是觀測(cè)誤差,而模糊回歸模型將這種誤差視為系統(tǒng)結(jié)構(gòu)自身的模糊性,并把數(shù)據(jù)和其估計(jì)值之間的偏差視為系統(tǒng)參數(shù)的模糊性,從而由參數(shù)模糊化來(lái)解決這一問(wèn)題。國(guó)內(nèi)外許多學(xué)者對(duì)模糊回歸模型的參數(shù)估計(jì)方法進(jìn)行了大量研究[2-7],并在系統(tǒng)預(yù)測(cè)、評(píng)估和決策等方面進(jìn)行了大量應(yīng)用研究[8-10]。
隨機(jī)性和模糊性是不確定性問(wèn)題中的兩個(gè)基本特征,經(jīng)典的線性回歸模型和模糊回歸模型分別對(duì)這兩種不確定性進(jìn)行了研究,但是兩種之間的關(guān)聯(lián)性研究一直沒有引起人們足夠的重視,即同時(shí)考慮隨機(jī)性和模糊性。為了處理定性概念中廣泛存在的隨機(jī)性和模糊性,李德毅等[11]首次提出云模型,利用二階的高斯分布方法,來(lái)反映定性概念的隨機(jī)性,同時(shí)又通過(guò)計(jì)算求得反映定性概念的模糊性。本文在云模型理論的基礎(chǔ)上,考慮不確定性回歸中模糊性和隨機(jī)性的關(guān)聯(lián)性,將傳統(tǒng)的線性回歸模型進(jìn)行拓展和推廣,提出正態(tài)云線性回歸模型并對(duì)參數(shù)進(jìn)行估計(jì)。最后給出一個(gè)人員績(jī)效評(píng)估的應(yīng)用實(shí)例,說(shuō)明模型的有效性。
云模型反映了隨機(jī)性和模糊性之間的關(guān)聯(lián),借助高斯概率密度分布函數(shù),通過(guò)構(gòu)造二階或者高階的云發(fā)生器形成偏離高斯分布的云滴群,用概率的方法去研究模糊性[11]。經(jīng)過(guò)幾年的發(fā)展和完善,目前云模型已成功應(yīng)用于智能控制、數(shù)據(jù)挖掘、預(yù)測(cè)和評(píng)估等領(lǐng)域[12-14]。云模型是用語(yǔ)言值表示的某個(gè)定性概念與其定量表示之間的不確定性轉(zhuǎn)換模型,它把模糊性與隨機(jī)性這二者完全集成在一起構(gòu)成定性和定量相互間的映射。
定義1:設(shè)A是論域U上的定性概念,若定量值x∈U,且x是定性概念A(yù)的一次隨機(jī)實(shí)現(xiàn),若滿足:x~N(Ex,En′2),其中,N(En,He2)且對(duì)A的確定度滿足:
則稱在論域U上的分布成為正態(tài)云模型。
正態(tài)云模型具有普適性[15],是基本的云模型。正態(tài)分布大量社會(huì)和自然科學(xué)中定性知識(shí)的云的期望曲線都近似服從正態(tài)或半正態(tài)分布。正態(tài)云的數(shù)字特征反映了定性概念和定量特性,用期望Ex(Expected Value)、熵En(Entropy)、超熵He(Hyper Entropy)三個(gè)數(shù)值來(lái)表征。由統(tǒng)計(jì)學(xué)3En規(guī)則可知,當(dāng)0<He<En/3時(shí),99.7%的云滴落在外包絡(luò)曲線[11]:
和內(nèi)包絡(luò)曲線:
圖1 正態(tài)云和包絡(luò)曲線
之間的區(qū)域內(nèi),如圖1所示。對(duì)于任意給定的確定度μ=α(0<α<1),正態(tài)云A與包絡(luò)曲線相交得到二個(gè)區(qū)間分別為:定義2:假設(shè)在同一論域U中,存在n個(gè)正態(tài)云模型Ai=(Exi,Eni,Hei)和系數(shù)ki∈R,則合成云As=(Exs,Ens,Hes)可以定義如下:
定義3:假設(shè)兩個(gè)正態(tài)云A和B,對(duì)于給定的確定度μ=α(0<α<1),則正態(tài)云A和B之間的包絡(luò)距離定義為:
特別的,取α=k/m(k=1,…,m)可得正態(tài)云A和B之間的離散化包絡(luò)距離為:
容易驗(yàn)證,式(6)和式(7)具有非負(fù)性、對(duì)稱性且滿足三角不等式,因此,D(A,B)是距離測(cè)度。包絡(luò)距離的基本思想是兩個(gè)定性概念相似,只需要它們的包絡(luò)相似,允許包絡(luò)內(nèi)部存在小的差異,這種差異反映了概念的模糊性和隨機(jī)性,這也符合人們的思維認(rèn)識(shí)。
考慮自變量和因變量都具有模糊隨機(jī)性質(zhì)的線性回歸模型,即:
其中,xi= (1,x1i,x2i,…,xpi)表示正態(tài)云自變量向量,yi表示正態(tài)云因變量,aj,j=0,1,2,…,p為回歸系數(shù)估計(jì)值。為方便起見,可令正態(tài)云xji=(Exji,Enji,Heji)(j=0,1,2,…,p;i=1,2,…,n),則式(8)的正態(tài)云數(shù)據(jù)回歸模型可改寫成:
由概率統(tǒng)計(jì)知識(shí)可知,p個(gè)相互獨(dú)立的服從正態(tài)分布的隨機(jī)變量xji(j=1,2,…p;i=1,2,…,n)滿足xji~N(Exji,則其線性組合a0+a1x1i+a2x2i+…+apxpi仍然是一個(gè)正態(tài)分布,即因變量 y(xi)滿足其中因此,正態(tài)云線性回歸模型(9)的因變量y(xi)也是一個(gè)正態(tài)云。
特別的,如果對(duì)正態(tài)云自變量xji=(Exji,Enji,Heji)中所有的i,j有Heji=0,則模型(9)就退化為正態(tài)模糊線性回歸模型,如果對(duì)所有的i,j有Enji=Heji=0,則模型(9)就退化為傳統(tǒng)的線性回歸模型,因此,云模型是經(jīng)典線性回歸模型和模糊線性回歸模型的一般形式。
由合成云的定義(5)可得正態(tài)云線性回歸模型y(xi)的合成云模型為:對(duì)于給定的確定度μ=α(0<α<1),由圖1可知正態(tài)云變量是直線μ=α上的兩個(gè)線段上的不確定性變量,只需要保證不超出包絡(luò)曲線的范圍。因此,在給定確定度α下,只需要保證回歸模型的包絡(luò)曲線相等,即模型(9)可以轉(zhuǎn)化為四個(gè)傳統(tǒng)回歸模型:
結(jié)合正態(tài)云離散包絡(luò)距離的定義(7),可將正態(tài)云因變量估計(jì)值與觀測(cè)值間的均方誤差表示為:
將式(12)代入式(7)可得均方誤差為:
根據(jù)最小二乘法令:
和
通過(guò)求解上述線性方程組(14)和(15)可得到正態(tài)云線性回歸模型(9)的回歸系數(shù)的估計(jì)值,我們稱這種基于離散距離的最小二乘參數(shù)估計(jì)方法為云最小二乘方法(CLS)。
為了有效評(píng)估正態(tài)云線性回歸模型的性能,需要對(duì)模型的誤差進(jìn)行估計(jì)。傳統(tǒng)的回歸分析是針對(duì)觀測(cè)值與擬合值的距離進(jìn)行比較,利用點(diǎn)對(duì)點(diǎn)的差距來(lái)評(píng)價(jià)擬合結(jié)果,而正態(tài)云擬合則關(guān)心的是實(shí)際的云滴與估計(jì)的云滴的差距,因此無(wú)法用衡量傳統(tǒng)回歸分析擬合效果的方法加以分析。為此,本文將擬合值與實(shí)際值之間的離散距離差E=作為誤差估計(jì)的檢驗(yàn)依據(jù),當(dāng)回歸方程擬合出來(lái)的正態(tài)云模型具有較小的E值,即包絡(luò)曲線越接近則內(nèi)部的云滴之間的差距就越小,說(shuō)明該模型應(yīng)該是不錯(cuò)的模型。為方便起見,可以考慮合成云ysi與實(shí)際值yi之間的離散距離差作為誤差估計(jì)的檢驗(yàn)依據(jù)。
為了說(shuō)明本文方法的可行性,以Chen等[2]給出的人員績(jī)效評(píng)估的例子進(jìn)行實(shí)證研究。人員績(jī)效評(píng)估是企業(yè)人力資源管理中一項(xiàng)重要的功能,顯然,由于人員績(jī)效評(píng)估的主觀性,通常采用語(yǔ)言值來(lái)描述評(píng)估值,語(yǔ)言值是一個(gè)模糊性和隨機(jī)性共存的不確定因素,科學(xué)合理的評(píng)估結(jié)果將影響到人力資源管理功能的整體表現(xiàn)。根據(jù)人力資源管理的相關(guān)理論,考慮工作績(jī)效(因變量y)的四個(gè)主要影響因素(自變量)包括[2]:工作能力(x1)、抗壓性(x2)、拖延頻率(x3)和溝通和協(xié)調(diào)能力(x4),樣本容量為30。顯然這四個(gè)因素?cái)?shù)據(jù)本身同時(shí)具有模糊性和隨機(jī)性,假定影響因素評(píng)估論域均為[0,100]。首先按照正態(tài)云數(shù)據(jù)生成方法,即:
將30個(gè)模糊樣本生成正態(tài)云數(shù)據(jù),如表1所示。
表1 績(jī)效評(píng)估自變量和因變量正態(tài)云樣本
應(yīng)用Matlab軟件,將上述數(shù)據(jù)代入線性方程組(14)和(15)可得下列線性方程組:
120a0+80400 a1+81200 a2+73280 a3+61720 a4=63640
80400 a0+5754424.4 a1+5442693 a2+4854687.7 a3+4067925.8 a4=4591220
81200 a0+5442693 a1+5.746256.8 a2+5.142517.4 a3+4.250704.6 a4=425566.5
73280 a0+4854687.7a1+5142517.4 a2+4.991726.3 a3+3716504.2 a4=3738481.6
61720 a0+4067925.91a1+4250704.6 a2+3716504.2 a3+3766932.8 a4=3277507.7
求解上述線性方程組,可得回歸系數(shù):
a0=-0.1290,a1=0.9237,a2=-0.1289,a3=-0.1120,a4=0.1305
則正態(tài)云線性回歸方程為:
y(xi)=-0.1290(1,0,0)+0.9237(Ex1i,En1i,He1i)-0.1289(Ex2i,En2i,He2i)-0.1120(Ex3i,En3i,He3i)+0.1305(Ex3i,En3i,He3i)
從上述回歸模型看到工作能力(x1)對(duì)員工工作績(jī)效的影響是最大的,溝通和協(xié)調(diào)能力(x4)對(duì)員工工作績(jī)效也存在正面影響,弱抗壓性(x2)和拖延頻率(x3)這兩個(gè)變量對(duì)工作績(jī)效產(chǎn)生負(fù)面影響但影響力度不大,這與實(shí)際情況是相一致的。為方便起見,本文以合成云(ys)表示正態(tài)云線性回歸的擬合值,圖2給出了樣本x1=(x11,x12,x13,x14)的正態(tài)云線性回歸擬合示意圖。
圖2 正態(tài)云線性回歸擬合示意圖
選取確定度α=0.1,0.2,…,1,計(jì)算合成云ysi與實(shí)際值yi之間的離散包絡(luò)距離差并將其作為誤差估計(jì)的檢驗(yàn)依據(jù),結(jié)果如表2所示。結(jié)果表明,本文的正態(tài)云線性回歸模型是可行的,而且與傳統(tǒng)線性回歸模型和模糊線性回歸模型比較誤差也相對(duì)較小,最主要的是正態(tài)云線性回歸模型的適應(yīng)性更強(qiáng),是更加一般和靈活的線性回歸模型。
表2 正態(tài)云擬合效果與距離誤差測(cè)度表
云模型方法指出,客觀上人們?cè)诓淮_定性思維中,也許并不存在一個(gè)確定又精確的隸屬度或者隸屬函數(shù)。因此,模糊線性回歸模型雖然在處理不確定性回歸分析中較傳統(tǒng)回歸模型取得了較好的效果,但是確定而又精確的隸屬度方法容易把人們對(duì)模糊現(xiàn)象的處理強(qiáng)行納入精確數(shù)學(xué)的領(lǐng)域,扼殺了事物的高階模糊本質(zhì)[11]。為此,本文將云模型方法應(yīng)用于不確定問(wèn)題的線性回歸分析領(lǐng)域,提出正態(tài)云線性回歸模型,并基于最小二乘的思想給出最小二乘包絡(luò)距離方法對(duì)正態(tài)云回歸模型的系數(shù)進(jìn)行估計(jì)。正態(tài)云線性回歸模型的優(yōu)點(diǎn)包括:①是傳統(tǒng)回歸模型和模糊回歸模型的推廣;②將數(shù)據(jù)和其估計(jì)值之間的偏差視為系統(tǒng)參數(shù)的模糊性和隨機(jī)性關(guān)聯(lián)產(chǎn)生的結(jié)果;③通過(guò)正態(tài)云的三個(gè)數(shù)字特征可以反映回歸模型的不確定性程度,更加符合自然語(yǔ)言值的內(nèi)涵。
[1]Tanaka H,Uejima S,Asai K.Linear Regression Analysis With Fuzzy Model[J],IEEETransactionsonSystemsMan,andCybernetics,1982,(12).
[2]Chen L H,Hsueh C C.Fuzzy Regression Models Using the Least-squares Method Based on the Concept of Distance[J].IEEE Transactions on Fuzzy Systems,2009,(17).
[3]Farhadinia B.Sensitivity Analysis in Interval-valued Trapezoidal Fuzzy Number Linear Programming Problems[J].Applied Mathemati?cal Modelling,2014,(38).
[4]Wan S P,Dong J Y.Possibility Linear Programming With Trapezoidal Fuzzy Numbers[J].Applied Mathematical Modelling,2014,(38).
[5]Ebrahimnejad A,Tavana M.A Novel Method for Solving Linear Pro?gramming Problems With Symmetric Trapezoidal Fuzzy Numbers[J].Applied Mathematical Modelling,2014,(38).
[6]任燕,郭嗣琮.基于結(jié)構(gòu)元最小二乘序的模糊線性回歸[J].模糊系統(tǒng)與數(shù)學(xué),2015,29(1).
[7]李俊紅,曾文藝.基于梯形模糊數(shù)的模糊最小一乘回歸模型[J].系統(tǒng)工程理論與實(shí)踐,2015,35(6).
[8]柏林,房勇.基于模糊回歸分析的投資組合選擇模型[J].系統(tǒng)工程理論與實(shí)踐,2015,35(7).
[9]張轉(zhuǎn),常安定,王媛英,王曉晨.基于正態(tài)模糊線性回歸確定河流橫向擴(kuò)散系數(shù)[J].長(zhǎng)江科學(xué)院院報(bào),2015,32(8).
[10]邵良杉,趙琳琳,溫廷新,孔祥博.基于模糊多元線性回歸模型的巖石可爆性評(píng)價(jià)[J].中國(guó)安全科學(xué)學(xué)報(bào),2015,25(7).
[11]李德毅,杜鹢.不確定性人工智能(第二版)[M].北京:國(guó)防工業(yè)出版社,2014.
[12]Li D Y,Liu C Y,Gan W Y.A New Cognitive Model:Cloud Model[J].International Journal of Intelligent Systems,2009,(24).
[13]龔艷冰,張繼國(guó).基于正態(tài)云模型和熵權(quán)的人口發(fā)展現(xiàn)代化程度綜合評(píng)價(jià)[J].中國(guó)人口·資源與環(huán)境,2012,(1).
[14]龔艷冰,劉高峰,馮蘭萍,張繼國(guó),胡娜.江蘇省水資源短缺風(fēng)險(xiǎn)的相似云評(píng)價(jià)方法研究[J].長(zhǎng)江流域資源與環(huán)境,2015,(6).
[15]李德毅,劉常昱.論正態(tài)云模型的普適性[J].中國(guó)工程科學(xué),2004,6(8).