邵曉艷,李言,李麗紅
(華北理工大學(xué) 理學(xué)院,河北 唐山 063210)
基于決策樹的三支決策中不承諾決策的轉(zhuǎn)化
邵曉艷,李言,李麗紅
(華北理工大學(xué) 理學(xué)院,河北 唐山 063210)
三支決策;不承諾決策;轉(zhuǎn)化;決策樹;PCA
三支決策是在傳統(tǒng)的二支決策中增加了不承諾決策,避免了立即做出承諾型決策所面臨的風(fēng)險(xiǎn)。不承諾決策為已知條件和最終決策之間增加了一個(gè)緩沖,但是三支決策最終還是要轉(zhuǎn)化為二支決策。提出利用PCA及決策樹作為轉(zhuǎn)化依據(jù),利用可以做出承諾型決策的數(shù)據(jù)對(duì)邊界域中的數(shù)據(jù)進(jìn)行分類,減少了轉(zhuǎn)化過程中的人為因素對(duì)結(jié)果的影響,最后用實(shí)例證明了模型的可行性和正確性。
三支決策現(xiàn)象在人類社會(huì)生活中普遍存在,但是三支決策作為一種理論出現(xiàn),卻是近年的事情。2009年,三支決策[1]的概念被姚一豫提出,自此之后,三支決策受到了國內(nèi)及國際學(xué)者的高度關(guān)注,他們對(duì)三支決策做了大量的研究,發(fā)現(xiàn)三支決策在實(shí)際中的重要作用?,F(xiàn)在的研究重點(diǎn)多集中在三支決策整體上,強(qiáng)調(diào)的了三支決策在二支決策的基礎(chǔ)上,增加不承諾決策[2],實(shí)現(xiàn)了對(duì)二支決策的改進(jìn),更傾向于把不承諾決策看作三支決策的一個(gè)重要組成部分,并沒有對(duì)三支決策中的不承諾決策進(jìn)行深入研究,但是在實(shí)際生活中,不承諾決策等同于拒絕決策,不承諾決策的風(fēng)險(xiǎn)不亞于承諾型決策,同樣需要付出代價(jià)。
李麗紅、李言及劉保相等人在《三支決策中不承諾決策的轉(zhuǎn)化代價(jià)與風(fēng)險(xiǎn)控制》[3]一文中研究了不承諾決策所存在的風(fēng)險(xiǎn),并給出了基于轉(zhuǎn)化代價(jià)最小原則的轉(zhuǎn)化模型。
該項(xiàng)研究將利用PCA及決策樹的方法實(shí)現(xiàn)三支決策中不承諾決策的轉(zhuǎn)化。首先,針對(duì)實(shí)際應(yīng)用中的連續(xù)型變量利用PCA進(jìn)行降維處理,以減少計(jì)算量;然后,利用新產(chǎn)生的屬性生成決策樹,對(duì)邊界域中的元素在各個(gè)節(jié)點(diǎn)處進(jìn)行分類,以生成確定型決策。在對(duì)邊界域中的元素進(jìn)行決策時(shí),根據(jù)條件屬性和決策屬性對(duì)對(duì)象進(jìn)行分類,由對(duì)象本身所具有的性質(zhì)來決定其所對(duì)應(yīng)的決策。若樣本本身的屬性使得最終生成的結(jié)果是接受決策,則采取接受決策,否則,采取拒絕決策。
三支決策是一種基于符合人類認(rèn)知的決策模式,它認(rèn)為人們?cè)趯?shí)際決策過程中,對(duì)于具有充分把握接受或拒絕的事物能夠立即做出快速的判斷;對(duì)于哪些不能立即做出決策的事物,人們往往會(huì)推遲對(duì)事件的判斷,即延遲決策。造成延遲決策的原因有很多,比如:所掌握的信息不夠充分、對(duì)風(fēng)險(xiǎn)的評(píng)估不夠全面、對(duì)事物的認(rèn)知不夠徹底。當(dāng)人們對(duì)信息、風(fēng)險(xiǎn)、認(rèn)知的掌握程度達(dá)到一定的水平,會(huì)做出接受或拒絕的最終判斷,從這個(gè)角度說,三支決策是最終實(shí)現(xiàn)二支決策的一個(gè)中間步驟。
定義1.1設(shè)U={x1,x2,…,xn}是非空有限實(shí)體(對(duì)象)集,C是有限條件集,基于條件集C,三支決策通過映射f將實(shí)體集U分為3個(gè)兩兩互不相交的部分,三部分分別稱為L-域(L-region)、M-域(M-region)和R-域(R-region)。即
L、M和R是U的子集,滿足U=L∪M∪R,并且L∩M=φ,L∩R=φ,R∩M=φ。
定義1.2三支決策中的實(shí)體評(píng)價(jià)函數(shù),稱為決策函數(shù)。它的值稱為決策狀態(tài)值。
定義1.3在基于全序的單評(píng)價(jià)函數(shù)三支決策中,結(jié)合閾值(α,β)(0≤βlt;α≤1)可以構(gòu)造三支決策規(guī)則如下:
(1)如果實(shí)體的決策狀態(tài)值f(x)小于或等于閾值β,則實(shí)體屬于負(fù)域,采取拒絕決策;
(2)如果實(shí)體的決策狀態(tài)值介于2個(gè)閾值之間(βlt;f(x)lt;α),則實(shí)體屬于邊界域,采取不承諾決策;
(3)如果實(shí)體的決策狀態(tài)值f(x)大于或等于閾值α,則實(shí)體屬于正域,采取接受決策。
在三支決策中,無論是接受決策、拒絕決策,還是不承諾決策,其實(shí)都是一種選擇。在某些情況下,必須要做出決策,當(dāng)不想做出接受決策,但又不能做出拒絕決策,或者不想做出拒絕決策,又不能做出接受決策時(shí),便會(huì)選擇不承諾決策,即通常所說的“拖”。而三支決策中的不承諾決策不同于這種一般意義上的不承諾決策。首先,三支決策中不承諾決策產(chǎn)生的原因是信息不足以做出承諾型決策,是一種想做出承諾決策而不能的結(jié)果,是被動(dòng)的選擇;其次,三支決策中的不承諾決策等同于拒絕決策,是有一定風(fēng)險(xiǎn)的,需要對(duì)不承諾決策進(jìn)行轉(zhuǎn)化。而對(duì)于一般意義上的不承諾決策來說,它是一種主動(dòng)的選擇,是能夠做出承諾型決策而不想的結(jié)果;并且一般意義上的不承諾決策更強(qiáng)調(diào)不承諾決策本身的收益,決策者主觀上并不想對(duì)不承諾決策進(jìn)行轉(zhuǎn)化。
首先,利用PCA將連續(xù)型變量降維,再利用決策樹依據(jù)各屬性重要程度進(jìn)行分類。
2.1 PCA的基本知識(shí)
主成分分析的基本思想是將一組具有相關(guān)性的向量,重新組合成一組不相關(guān)的向量。
2.1.1 PCA的基本思想
主成分分析,是考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法,研究如何通過少數(shù)幾個(gè)主成分來揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),即從原始變量中導(dǎo)出少數(shù)幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)。最終形式是將原來的指標(biāo)作線性組合,作為新的綜合指標(biāo)。
最經(jīng)典的做法是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即F1的方差越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來指標(biāo)的信息,再考慮選取第二個(gè)線性組合,稱F2為第二主成分,依此類推可以構(gòu)造出第3、第4,……,第P個(gè)主成分。
2.2.2 PCA的計(jì)算步驟
在實(shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。
進(jìn)行主成分分析的主要步驟如下:
(1)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行);
(2)指標(biāo)之間的相關(guān)性判定;
(3)確定主成分個(gè)數(shù);
(4)主成分Fi表達(dá)式;
(5)主成分Fi命名。
2.2 決策樹的基本知識(shí)
決策樹的基本思想是對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策分枝,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析,即通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。
計(jì)算步驟通常是:
(1)選取最重要的屬性作為第1個(gè)判斷結(jié)點(diǎn),即根結(jié)點(diǎn),依據(jù)根結(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行第1次分類;
(2)依據(jù)次重要的結(jié)點(diǎn),對(duì)第1步中不能確定的數(shù)據(jù)再進(jìn)行第2次分類;
(3)重復(fù)上一步,直至生成最終結(jié)果。
在做決策時(shí),需要依據(jù)與決策屬性相關(guān)的條件屬性做出判斷。從關(guān)系上看,各個(gè)條件屬性之間需要相互獨(dú)立;從取值上看,這些條件屬性有的只能定性,有的是可以量化的,可以量化的屬性中有的是連續(xù)值,有的是離散值。以PCA對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的降維,另一方面,可以實(shí)現(xiàn)屬性的多層次利用。
在實(shí)際應(yīng)用中,有可能影響到最終決策的因素有很多,但是由于客觀條件的限制,我們所能采集到的數(shù)據(jù)類型及數(shù)據(jù)量都是有限的,所以需要對(duì)已有數(shù)據(jù)進(jìn)行最大程度的利用。因?yàn)閷傩员旧硭赡芫哂械南嚓P(guān)性,所以首先對(duì)屬性進(jìn)行降維。對(duì)離散數(shù)據(jù)的降維通常采取的方法是屬性約簡,對(duì)連續(xù)數(shù)據(jù)常用的方法是主成分分析。屬性約簡和主成分分析是不同的。屬性約簡是將某個(gè)或某些屬性完全摒棄,但是主成分分析只是依據(jù)屬性本身的重要性對(duì)各個(gè)屬性增加權(quán)重,并不是完全放棄。
無論在什么情況下,要做出什么樣的決策,總有一些因素是必須要考慮的,在所有因素中處于不可替代的地位,即數(shù)據(jù)庫結(jié)構(gòu)中的主碼。
3.1 具體流程
設(shè)U={x1,x2,…,xn},A={a1,a2,…,am},有U1?U,以U1|U1|=llt;n作為訓(xùn)練樣本,過程如下:
(1)對(duì)各屬性分配重要性,并進(jìn)行排序;
(2)對(duì)連續(xù)屬性降維,計(jì)算新屬性的重要性;
(3)根據(jù)重要性生成決策樹。
3.2 與已有方法的對(duì)比
以轉(zhuǎn)化代價(jià)最小為原則,或者以收益最大化為原則,更加注重決策者本身的主觀感受,但是在很多情況下,決策者對(duì)決策結(jié)果并沒有明顯的好惡。并且,決策者的主觀感受有較大的不確定性,不同的決策者在不同的時(shí)間不同的地點(diǎn),有不一樣的感覺,可能會(huì)產(chǎn)生不相同甚至完全相反的決定,閾值的確定、權(quán)重的確定都受人為因素的影響。
二八定律,又名80/20定律,自19世紀(jì)在經(jīng)濟(jì)領(lǐng)域中被發(fā)現(xiàn)之后,已經(jīng)被廣泛地應(yīng)用于社會(huì)學(xué)及企業(yè)管理學(xué)中。二八原則的一個(gè)主要用途是去發(fā)現(xiàn)該關(guān)系的關(guān)鍵起因,在取得最佳業(yè)績的同時(shí)減少資源損耗;另一個(gè)主要用途是對(duì)80%的投入只產(chǎn)出20%的生產(chǎn)狀況進(jìn)行改進(jìn),使之發(fā)揮有效作用。在4P營銷理論中,place是其中的一個(gè)組成部分。在進(jìn)行銷售分析時(shí),渠道結(jié)構(gòu)分析是最常見的一種分析形式。對(duì)于現(xiàn)代企業(yè)來說,在對(duì)渠道結(jié)構(gòu)進(jìn)行分析時(shí),能夠清楚明白地知道哪些客戶是重要客戶,從而對(duì)其重點(diǎn)關(guān)注,是一個(gè)重要的問題。某企業(yè)因業(yè)務(wù)發(fā)展需要,須對(duì)現(xiàn)有客戶進(jìn)行大規(guī)模整改,請(qǐng)根據(jù)已有各客戶的歷史數(shù)據(jù),幫助該企業(yè)進(jìn)行決策并且給出最終結(jié)果及理由。
(1)因?yàn)榭蛻魯?shù)量巨大,將所有客戶依靠人工一一識(shí)別,時(shí)間成本太高。所以,參照歷史銷售記錄,首先從現(xiàn)有客戶中確定了一些表現(xiàn)較好的客戶,記為1,重點(diǎn)培養(yǎng);表現(xiàn)較差的客戶,記為0,直接放棄。然后,根據(jù)已有數(shù)據(jù)對(duì)其余客戶進(jìn)行分類。
(2) 首先確定考核指標(biāo)如下:利潤、利潤率、維護(hù)成本、知名度、銷售數(shù)量、銷售單價(jià)、還款周期7個(gè)指標(biāo)。這7個(gè)指標(biāo)中,銷售數(shù)量、銷售單價(jià)、利潤都是數(shù)值越大越好;維護(hù)成本越低越好,還款周期越短越好。
a.根據(jù)經(jīng)驗(yàn)對(duì)利潤、利潤率、維護(hù)成本、知名度、銷售數(shù)量、銷售單價(jià)、還款周期7個(gè)指標(biāo)做重要度排序,重要度取值為1~9,重要程度依次遞增,結(jié)果如表1所示。
表1 各屬性重要度
對(duì)各個(gè)屬性的重要程度做歸一化處理后,各屬性的重要度為
b.選取17個(gè)樣本,對(duì)連續(xù)屬性利潤、利潤率、維護(hù)成本、銷售數(shù)量、單價(jià)做降維處理。如表2所示。
表2 原始數(shù)據(jù)
處理后得到2個(gè)主因子:
F1=0.869x1-0.580x2-0.504x3+0.887x4+0.942x5,F2=0.368x1+0.754x2+0.807x3+0.260x4+0.311x5
各屬性重要度為:
歸一化后可得,
r(F1)=0.164,r2(F2)=0.447,r2(知名度)=0.173,r2(還款周期)=0.216
所得結(jié)果如圖1所示:
圖1 轉(zhuǎn)化流程圖
c.分類
待分類客戶各項(xiàng)指標(biāo)如表3所示。
表3 待分類客戶各項(xiàng)指標(biāo)
計(jì)算可得:
(1)F2=9 531.35,介于4 000~10 000之間,下一步;
(2) 還款周期為6個(gè)月,介于3個(gè)月至1年之間,下一步;
(3) 知名度為中,下一步;
(4)F1=27 169.20,接受。
運(yùn)用PCA及決策樹不僅可以實(shí)現(xiàn)三支決策中不承諾決策的轉(zhuǎn)化,而且可以利用已知的確定數(shù)據(jù)對(duì)未知數(shù)據(jù)做出分類,并可對(duì)多個(gè)屬性進(jìn)行多層計(jì)算。
[1] Yao Y Y. Three-way decision: An interpretation of rules in rough set theory[C]. Proceeding of Rough Sets and Knowledge Technolo gy: 4th International Conference, RSKT 2009, Gold Coast, Australia, 2009.
[2] 杜麗娜. 三支決策理論與應(yīng)用研究[D]. 新鄉(xiāng): 河南師范大學(xué), 2015.
[3] 李麗紅, 李言, 劉保相. 三支決策中不承諾決策的轉(zhuǎn)化代價(jià)與風(fēng)險(xiǎn)控制[J]. 計(jì)算機(jī)科學(xué). 2016, 43(1): 77-80.
[4] 丁春榮, 李龍澍. 一個(gè)基于粗集的決策樹規(guī)則提取算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展. 2007, 17(11): 110-113.
[5] 譚俊璐, 武建華. 基于決策樹規(guī)則的分類算法研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì). 2010, 31(5): 1017-1019.
[6] 吳順祥, 劉思峰, 辜建德. 基于粗集理論的一種規(guī)則提取方法[J]. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2004, 43(5) : 604-608.
[7] 王楊, 閆德勤, 張鳳梅. 基于粗糙集和決策樹的增量式規(guī)則約簡算法[J]. 數(shù)據(jù)庫與信息處理. 2007, 43(1): 170-172+180.
[8] 石凱. 基于粗糙集理論的屬性約簡與決策樹分類算法研究[D]. 大連: 大連海事大學(xué), 2014.
TransformationofNo-commitmentDecisioninThree-wayDecisionsBasedonDecisionTree
SHAO Xiao-yan, LI Yan, LI Li-hong
(College of Science, North China University of Science and Technology, Tangshan Hebei 063210, China)
three-way decisions; no-commitment decision; transformation; decision tree; PCA
The three-way decisions are to increase the no-commitment decision in the traditional decision making of the two decisions, to avoid the risk of making immediate commitment decisions. There is a buffer between the given condition and the final decision, but the three three-way decisions will eventually be transformed into the two decisions. Using PCA and decision tree as the basis of conversion were proposed. By using the data of making a commitment decision, the boundary domain data was classified. The influence of human factors on the results reduced in the process of transformation , and finally the feasibility and correctness of the model were proved by examples.
2095-2716(2017)04-0111-06
2017-05-12
2017-09-27
華北理工大學(xué)青年科學(xué)研究基金項(xiàng)目(Z201517)。
TP391
A