李璐,李寶霖,李麗紅
(1. 華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2. 河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210;3. 唐山市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)
粒計(jì)算理論起源于信息粒概念,1979年由Zadeh[1]提出,簡(jiǎn)化處理抽象復(fù)雜問(wèn)題,一經(jīng)提出便成為熱點(diǎn)。粒計(jì)算的確切概念是在1996年由Lin[2]提出,該理論的面世標(biāo)志了一種多角度分析處理問(wèn)題的方法產(chǎn)生,有助于更好地給出解決問(wèn)題方案。Lin[3]隨后完善了該理論,并討論了其發(fā)展前景與方向,其中指出粒計(jì)算理論中,如何劃分粒層以及粒層的選擇問(wèn)題是重中之重,國(guó)內(nèi)外專家學(xué)者也對(duì)此進(jìn)行了深入的討論。吳偉志等[4]討論了在不完備多粒度決策系統(tǒng)中如何找尋最優(yōu)粒度。劉鳳玲[5]提出了在現(xiàn)實(shí)背景下的多粒度信息系統(tǒng)如何找尋最優(yōu)粒度。李金海[6]將信息熵融合作為找尋最優(yōu)粒度標(biāo)準(zhǔn)。
三支決策思想與中國(guó)傳統(tǒng)中庸思想有著不可分割的聯(lián)系,"中"被理解為"適當(dāng)",決策思維符合人類思維方式,三支決策后樣本被分到3個(gè)域中,對(duì)不同的部分采用不同的處理策略,分別采取接受、延遲和拒絕行為。三支決策與粒計(jì)算融合發(fā)展是必然的,研究目標(biāo)是將問(wèn)題分解為多個(gè)角度、多個(gè)層次進(jìn)行思考,三支決策模型的拓展模型之一是序貫三支決策模型。序貫三支決策[7,8]從粒計(jì)算角度出發(fā),由粗粒度轉(zhuǎn)化為細(xì)粒度解決問(wèn)題,延遲域中對(duì)象進(jìn)一步被決策,在醫(yī)學(xué)、圖像、工程、屬性約簡(jiǎn)、管理等方面已有廣泛應(yīng)用[9,10]。顧沈明等[11]在多尺度信息系統(tǒng)中利用屬性及局部最優(yōu)得到廣義決策最優(yōu)粒度。Yang等[12]通過(guò)優(yōu)化得到基于代價(jià)敏感的序貫最優(yōu)粒度。Cheng等[13]基于序貫三支決策快速獲取最優(yōu)尺度組合,李敏等[14]基于代價(jià)變化,引入可拓集方法,結(jié)合三支決策思想提出最優(yōu)粒度選擇模型,張清華等[15]提出基于懲罰函數(shù)并結(jié)合序貫三支決策的最優(yōu)粒度選擇方法。
現(xiàn)有最優(yōu)粒度選擇方法大多在信息系統(tǒng)中利用靜態(tài)指標(biāo)度量信息,如利用重要度方法選擇來(lái)看,存在數(shù)據(jù)冗余或未考慮各屬性間關(guān)系的問(wèn)題。其次存在多使用一般性數(shù)據(jù)集,未能更符合實(shí)際應(yīng)用場(chǎng)景的問(wèn)題。為此,本研究提出了一種粒化空間下基于模糊曼哈頓距離加權(quán)的個(gè)性化最優(yōu)粒度選擇方法。它實(shí)際上是一個(gè)三級(jí)結(jié)構(gòu),采用三支決策的三級(jí)思維方式。具體來(lái)說(shuō),它首先結(jié)合隸屬函數(shù)與曼哈頓距離,定義了模糊曼哈頓距離來(lái)重新計(jì)算屬性間的關(guān)聯(lián)程度;然后,放棄使用手動(dòng)編輯的粒度,而利用自身屬性距離空間產(chǎn)生的數(shù)據(jù)?;?可以減少手動(dòng)編輯粒度所導(dǎo)致的隨機(jī)性、不確定性甚至冗余。最后,分析數(shù)據(jù)分類結(jié)果,以其作為粒度選擇基礎(chǔ),驗(yàn)證算法有效性,實(shí)現(xiàn)對(duì)數(shù)據(jù)的最優(yōu)粒度選擇,并以同物不同級(jí)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證算法的可行性,將為樣本選擇可優(yōu)化的最優(yōu)粒度提供一種新的思路。
三支決策是將論域通過(guò)閾值劃分為獨(dú)立的三部分,每一個(gè)部分采取相應(yīng)的行動(dòng),若樣本條件概率值大于上近似閾值,則劃分到接受域中;若其小于下近似閾值,則劃分到拒絕域中;若其在值域范圍內(nèi),需要等待更多信息對(duì)樣本做出判斷,則劃分到延遲域中。
定義1[16]給定信息系統(tǒng)S=(U,AT,V,f),U是論域,即需要處理的樣本對(duì)象,AT代表屬性集,是有限集合,C是條件屬性,D是決策屬性,V是屬性AT的值域,f:U×AT→V是一種映射,對(duì)于a∈AT,x∈U,f(x,a)∈Va,任一子集滿足φ≠H?AT,則在U上的等價(jià)關(guān)系為id(H)={(x,y)∈U×U|f(x,q)=f(y,q),?q∈H}。
定義2[17]給定信息系統(tǒng)S=(U,AT,V,f),λPP,λBP,λNP為樣本屬于決策類并且被分到正域、邊界域、負(fù)域時(shí)的決策風(fēng)險(xiǎn)代價(jià),λPN,λBN,λNN為樣本不屬于決策類并且被分到正域、邊界域、負(fù)域時(shí)的決策風(fēng)險(xiǎn)代價(jià)。當(dāng)樣本x屬于決策類時(shí),其條件概率為P(X|x)=p,此時(shí)樣本x劃分到3個(gè)域的決策風(fēng)險(xiǎn)代價(jià)分別是:
正域:λPPp+λPN(1-p),邊界域:λBPp+λBN(1-p),負(fù)域:λNPp+λNN(1-p)
定義3[17]給定信息系統(tǒng)S=(U,AT,V,f),設(shè)狀態(tài)空間Θ=(D,D),表示對(duì)象x是是否屬于集合D,樣本xi屬于決策類D的條件概率為樣本構(gòu)成的所有概率集合為P,當(dāng)P(X|xi)=pi≥α?xí)r,樣本xi∈P1,即接受域;當(dāng)β
由于P(X|x)+P(X|x)=1,λPP=λNN=0,同時(shí)λPP<λBP<λNP,λNN<λBN<λPN,(λPN-λBN)(λNP-λBP)>(λBP-λPP)(λBN-λNN),即:
(1)
(2)
廣義三支決策的概念被適時(shí)提出[18]針對(duì)的則是更加復(fù)雜、不確定和動(dòng)態(tài)的數(shù)據(jù)集,相比于狹義,后者更強(qiáng)調(diào)對(duì)原有概念更深層次、更廣范圍的詮釋。二者聯(lián)系如圖1所示。
圖1中以垂直結(jié)構(gòu)直觀地展示出了三支決策整體脈絡(luò)。從上到下,代表由廣至狹的三支決策;自下而上,由靜而動(dòng)的三支決策。在現(xiàn)實(shí)中,決策分析一開始獲得的信息往往是不充分的,決策需要信息的更新和補(bǔ)充,由此序貫三支決策的概念被提出。
曼哈頓距離中的距離計(jì)算公式是將兩點(diǎn)坐標(biāo)的 坐標(biāo)相減取絕對(duì)值, 坐標(biāo)相減取絕對(duì)值后再加和,用以度量樣本的相似程度。模糊集合描述的對(duì)象屬性邊界不分明,這一概念用于處理模糊性現(xiàn)象,被廣泛應(yīng)用到數(shù)據(jù)預(yù)處理中。
定義4[19]設(shè)U為論域,U上的一個(gè)模糊集A表示?x∈U,有指定數(shù)μA∈[0,1],則稱x對(duì)A的隸屬程度,映射μA:X→[0,1],x→μA(x)稱為A的隸屬函數(shù)。設(shè)T(X)表示X上的一切模糊子集集合,則T(X)是由μ:X→[0,1]組成的函數(shù)空間。
定義5給定一個(gè)信息系統(tǒng)S=(U,AT,V,f),其中:AT=C∪D,C代表?xiàng)l件屬性集,D代表決策屬性集。在n個(gè)樣本中,μi(m)為第m個(gè)樣本在屬性i上對(duì)應(yīng)的隸屬度,d(i,j)表示屬性i與屬性j間距離。定義屬性間模糊曼哈頓距離:
(3)
數(shù)據(jù)集所包含的有效信息如表1所示。
表1 信息系統(tǒng)
數(shù)據(jù)集中有多個(gè)指標(biāo),該算法實(shí)施以屬性權(quán)重為基礎(chǔ)?;?構(gòu)建粒層空間。下面將介紹具體步驟。
Step1:計(jì)算屬性重要度
步驟一:指標(biāo)標(biāo)準(zhǔn)化處理
由于各指標(biāo)量綱不同,且指標(biāo)有正負(fù)之分,正負(fù)代表含義不同,正向指標(biāo)數(shù)值越高越好,反之越低越好。因此為統(tǒng)一計(jì)量單位,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理。
其中,x*(i,j)為第i個(gè)樣本第j個(gè)評(píng)價(jià)指標(biāo)值,xmax(i,j)為所有樣本中第j個(gè)評(píng)價(jià)指標(biāo)最大值,xmin(i,j)為所有樣本中第j個(gè)評(píng)價(jià)指標(biāo)最小值。
步驟二:熵權(quán)法計(jì)算屬性重要度并輸出
Step2:計(jì)算屬性間關(guān)系
步驟一:對(duì)原始數(shù)據(jù)模糊化處理
(4)
a是樣本集中各屬性的最小值,得到各屬性模糊隸屬度和消除量綱的矩陣。
Step3:構(gòu)建??臻g
根據(jù)模糊矩陣R,構(gòu)建有序樣本的??臻g,即根據(jù)d(i,j)的大小依次聚類,依據(jù)屬性重要度和距離加權(quán),構(gòu)建粒層。
粒計(jì)算以粒為基本單位,可利用屬性指標(biāo)劃分得到不同粒層。該項(xiàng)研究采用模糊思想將數(shù)據(jù)模糊化處理后,構(gòu)建不同層次空間,描述屬性或樣本之間的等價(jià)關(guān)系,應(yīng)用多種算法框架分析分類結(jié)果,獲得最佳粒層空間上的優(yōu)化指標(biāo)。算法步驟
Step1:依據(jù)上述方法得到屬性模糊距離矩陣R。
Step2:構(gòu)建粒層,首先在待分屬性中選取屬性重要度最低屬性放于拒絕域;其次選取與重要度最高屬性的距離從小到大計(jì)算平均重要度,選取平均重要度最高的距離,構(gòu)建分類模型,將屬性放入接受域中;其余屬性放入延遲域。
Step3:將延遲域中屬性繼續(xù)按上述步驟構(gòu)建層次??臻g,分別用精確率、召回率及F1值檢驗(yàn)所選擇的最優(yōu)粒度,用以佐證其有效性。
仿真實(shí)驗(yàn)環(huán)境為:Python編程;
硬件環(huán)境:Intel(R) Core(TM) i5-10210U;16GB;
軟件環(huán)境:操作系統(tǒng):Windows 10 家庭中文版;
解釋器:Python3.8,使用Python編程。
以長(zhǎng)江經(jīng)濟(jì)帶省級(jí)行政區(qū)為研究區(qū),綜合分析后選取16個(gè)指標(biāo),如表2所示。其中,指標(biāo)性質(zhì)為"正"代表指標(biāo)為正向指標(biāo),指標(biāo)值越大越好;指標(biāo)性質(zhì)為"負(fù)"代表指標(biāo)為負(fù)向指標(biāo),指標(biāo)值越小越好。
表2 長(zhǎng)江經(jīng)濟(jì)帶水資源評(píng)價(jià)指標(biāo)
(1)指標(biāo)標(biāo)準(zhǔn)化處理后,根據(jù)熵權(quán)法計(jì)算屬性重要度排序,結(jié)果如表3所示。
表3 屬性重要度排序
(2)計(jì)算各屬性間模糊曼哈頓距離,建立模糊矩陣R。
(3)第一次循環(huán)時(shí)在待分屬性中選取屬性重要度最低的"建成區(qū)綠化覆蓋率"屬性放于拒絕域;選取與重要度最高屬性的距離從小到大計(jì)算平均重要度,本次選取平均重要度最高的距離為1.926,得到屬性"萬(wàn)元GDP用水"、"每萬(wàn)人擁有公共交通數(shù)量"、"新能源發(fā)電占比"、"工業(yè)固體廢物綜合利用率"、"城市污水處理率"、"工業(yè)增加值率"、"第三產(chǎn)業(yè)產(chǎn)值占比"、"森林覆蓋率"、"空氣質(zhì)量?jī)?yōu)良天數(shù)比例"放入接受域中,以不同算法為分類工具,構(gòu)建分類模型計(jì)算準(zhǔn)確率;其余屬性放入延遲域。
(4)第二次循環(huán)時(shí)在待分屬性中選取屬性重要度最低的"萬(wàn)元GDP化學(xué)需氧量排放量"屬性放于拒絕域;選取與重要度最高屬性的距離從小到大計(jì)算平均重要度,本次選取平均重要度最高的距離為3.924,得到屬性"人均GDP"、"科教投入占GDP比重"放入接受域中,以不同算法為分類工具,構(gòu)建分類模型計(jì)算準(zhǔn)確率;其余屬性放入延遲域。
(5)第三次循環(huán)時(shí)在待分屬性中選取屬性重要度最低的"萬(wàn)元GDP能耗"屬性放于拒絕域;選取與重要度最高屬性的距離從小到大計(jì)算平均重要度,本次選取平均重要度最高的距離為3.786,得到屬性"萬(wàn)元GDP二氧化硫排放量"放入接受域中,以不同算法為分類工具,構(gòu)建分類模型計(jì)算準(zhǔn)確率。
根據(jù)每一輪選擇的接受域?qū)傩?以ADABOOST、XGBOOST、隨機(jī)森林3種算法構(gòu)建分類模型計(jì)算準(zhǔn)確率,得到分類結(jié)果,證明其可行性。如圖2所示,縱坐標(biāo)為準(zhǔn)確率,橫坐標(biāo)為循環(huán)次數(shù)。
圖2 長(zhǎng)江經(jīng)濟(jì)帶水資源準(zhǔn)確率
由圖2準(zhǔn)確率可知,三個(gè)算法下整體準(zhǔn)確率達(dá)到0.8,驗(yàn)證了算法的有效性,當(dāng)t=1時(shí)3個(gè)算法分類準(zhǔn)確率均為最高值,因此選擇第一粒層作為最優(yōu)粒層,此時(shí)接受域中的屬性為待優(yōu)化屬性。
圖3直觀展示出不同粒度下所需優(yōu)化的屬性個(gè)數(shù)變化情況,黃色表示待決策屬性個(gè)數(shù),綠色表示待優(yōu)化屬性個(gè)數(shù),黑色表示拒絕域中屬性個(gè)數(shù)。
圖3 長(zhǎng)江經(jīng)濟(jì)帶水資源需優(yōu)化屬性變化情況
綜合3個(gè)學(xué)習(xí)算法反應(yīng)結(jié)果,在第一次循環(huán)后準(zhǔn)確率相對(duì)較好,此時(shí)再次通過(guò)F1值對(duì)分類結(jié)果進(jìn)行驗(yàn)證,證明其有效性。通過(guò)圖4對(duì)F1值走勢(shì)分析,XGBoost算法下F1值整體波動(dòng)不大,AdaBoost、隨機(jī)森林算法下第一輪結(jié)束后F1值最高,綜上選擇第一粒層為最優(yōu)粒層,當(dāng)前粒層屬性為待優(yōu)化屬性。
圖4 長(zhǎng)江經(jīng)濟(jì)帶水資源數(shù)據(jù)F1值
綜合圖中數(shù)據(jù)顯示,第一次循環(huán)結(jié)束后分類精度普遍較高,驗(yàn)證了算法的有效性。所以對(duì)于優(yōu)化長(zhǎng)江經(jīng)濟(jì)帶發(fā)展戰(zhàn)略在"控污"方面,可以優(yōu)化的指標(biāo)有萬(wàn)元GDP用水量、工業(yè)增加值率、人均擁有公共交通數(shù)量、新能源發(fā)電占比、工業(yè)固體廢物綜合利用率、城市污水處理率、第三產(chǎn)業(yè)產(chǎn)值占比、森林覆蓋率和空氣質(zhì)量?jī)?yōu)良天數(shù)比例。
(1)利用屬性間關(guān)系選擇粒度,結(jié)合模糊曼哈頓距離構(gòu)建層次粒層空間,可以有效節(jié)約時(shí)間成本,且可降低對(duì)分類結(jié)果的影響。
(2)基于模糊曼哈頓距離加權(quán)最優(yōu)粒度選擇算法在保證數(shù)據(jù)完整的前提下為滿足不同用戶的不同需求,針對(duì)不同類別,控制一定成本的情況下,做到對(duì)數(shù)據(jù)的全方面優(yōu)化提升,從決策系統(tǒng)中獲取最優(yōu)粒度。但該項(xiàng)研究未體現(xiàn)序貫過(guò)程中代價(jià)變化,因此如何自動(dòng)獲取決策過(guò)程代價(jià)變化確定最優(yōu)粒層是未來(lái)研究方向。