尹安琪 關(guān)世杰
摘 ?要:隨著因素空間理論的誕生和不斷完善,其為知識表示和人工智能的發(fā)展奠定了基礎(chǔ)并且得到了廣泛的應(yīng)用。該文針對因素空間進行了因素空間的展開與收攏和優(yōu)化因素兩個方面的研究,其中因素空間的展開與收攏主要體現(xiàn)了因素空間、因素和屬性之間的層次性關(guān)系,根據(jù)決策樹算法和聚類算法對因素之間的關(guān)系進行優(yōu)化,凸顯出重要的因素,可以對高維數(shù)據(jù)降維節(jié)省存儲空間和判別的時間。
關(guān)鍵詞:因素空間 ?因素 ?屬性
中圖分類號:TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)06(a)-0237-02
因素空間是汪培莊教授提出的以智能描述為主題的數(shù)學(xué)理論,曾在知識表示和人工智能領(lǐng)域發(fā)揮過重要作用,近年來,又以數(shù)據(jù)科學(xué)為重點,為大數(shù)據(jù)處理提供堅實的數(shù)學(xué)基礎(chǔ)[1]。因素將事物抽象到同一個維度上,將分析的維度命名為因素,也是分析事物的角度。將因素的取值命名為屬性,屬性是對事物分類結(jié)果的內(nèi)涵描述。當(dāng)對一個事物進行描述時,該事物就被描述為一個點,描述該事物時可以從多個角度進行分析,將每個維度的因素進行交叉綜合后,形成了事物描述的一種普適性坐標(biāo)架,即因素空間[2]。因素空間的理論不僅是應(yīng)用因素,還應(yīng)挑選因素。在分析事物過程中,在眾多因素中把真正起作用的因素凸顯出來,因此需要對因素空間中的因素進行篩選,篩選后可以將高維度的數(shù)據(jù)進行降維。該文對因素空間的展開與收攏和因素之間的關(guān)系進行了研究和說明。
1 ?因素空間的展開與收攏的研究
因素空間與因素之間的關(guān)系,因素與屬性之間的關(guān)系具有遞進的層次關(guān)系。它們之間的關(guān)系與WordNet中的名詞網(wǎng)絡(luò)的中的上位關(guān)系、下位關(guān)系和同位關(guān)系以及整體部分關(guān)系相類似。以WordNet中椅子(chair)為例,其下位詞包含的是扶手椅、理發(fā)椅、折疊椅、平板扶手椅等,這些是椅子的種類,就椅子的功能而言,扶手椅繼承了椅子的功能,即下位詞繼承了上位詞的屬性,而下位詞相比于上位詞更加具體。在整體與部分的關(guān)系中,靠背和椅子腿是組成椅子的部分,即椅子包含靠背和椅子腿,它們之間是相互包含的關(guān)系。但是整體與部分關(guān)系改變了原有的事物本身,而在上下位的關(guān)系中所表示的仍然是同一事物,事物本身并沒有發(fā)生改變。
WordNet中上下位關(guān)系與整體部分關(guān)系是等級關(guān)系,可以理解為因素空間的展開與收攏的方式。將因素空間中所有因素進行羅列,即對因素空間進行了展開,每個因素逐層向下級進行展開后,最終可以得到屬性。如圖1所示,因素空間展開后類似于樹狀結(jié)構(gòu),與中心點距離相同的是同一等級的因素。反向進行,將因素聚攏得到因素空間。在實際應(yīng)用中,將因素空間進行展開后,事物的分析結(jié)果會更加具體,將因素空間進行收攏后,事物的分析結(jié)果更加具有概括性。因此,因素的思考維度有多少之分,考慮的維度越少,區(qū)分事物的難度變大,考慮的維度越多,事物能夠彼此分離,區(qū)分的難度越小。
2 ?因素空間的優(yōu)化研究
在機器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域已經(jīng)出現(xiàn)了粗糙集的屬性約簡,這為在因素空間中篩選因素提供了參考。在分析一個事物時,可以從多個維度進行思考,這些維度即因素。但是面面俱到的考量會浪費時間和存儲空間,因此需要對因素進行篩選,選擇重要的幾個因素,這樣在比較區(qū)分兩個事物時會節(jié)省時間,并且降低的數(shù)據(jù)的維度,節(jié)省的存儲的空間。本章節(jié)將從決策樹算法和聚類算法兩個方面研究因素與因素之間的關(guān)系,對因素進行篩選,完成對數(shù)據(jù)的降維。
2.1 決策樹算法在因素空間中的應(yīng)用
決策樹算法是基于樹狀結(jié)構(gòu)進行決策判斷的,這種判斷機制與人類進行決策的機制相類似。決策樹算法的重點在于怎樣選擇數(shù)據(jù)集中起決定性作用的屬性,并且隨著不斷進行的劃分過程,盡可能地將相同類型的數(shù)據(jù)劃分在一個數(shù)據(jù)子集內(nèi),即決策樹結(jié)點的“純度”越高。
在因素空間中可以運用決策樹算法挑選出最優(yōu)的因素,使用決定度大的因素對事物進行劃分,從而化簡了多維因素,能夠快速地對事物進行分類決策。在應(yīng)用決策樹算法時需要考慮因素之間具有相互關(guān)聯(lián)性,因此篩選出的幾個最優(yōu)的劃分因素之間的冗余度要小,這樣才能達(dá)到化簡因素空間的目的。
2.2 聚類算法在因素空間中的應(yīng)用
聚類算法通過計算樣本數(shù)據(jù)之間的距離,經(jīng)過比較距離后將樣本劃分成多個不相交的子集,每個子集是一個“簇”,并且使簇中的數(shù)據(jù)的距離盡可能的?。赐淮財?shù)據(jù)之間相似度較高),不同簇之間的數(shù)據(jù)的距離盡可能的遠(yuǎn)??梢愿鶕?jù)這一原理對因素空間中的因素進行聚類,再應(yīng)用聚類后的結(jié)果對事物進行劃分,從而縮短了比較的時間。
首先將因素空間中每個因素看作一個簇,計算簇與簇之間的距離,比較距離值并將距離較近的兩個簇劃分到一起,構(gòu)成新的簇。以此類推,可以將因素空間中的因素劃分為幾個簇,再進行比較,這樣就節(jié)省了判斷的時間。
3 ?結(jié)語
該文對因素空間的展開與收攏和根據(jù)因素之間的關(guān)系對因素進行優(yōu)化兩個方面分別進行了闡述說明。在區(qū)分不同事物時可以根據(jù)因素空間逐級進行比較,同時可以對因素進行篩選,選擇重要的因素,這樣節(jié)省了比較的時間和存儲空間,為今后因素空間理論的完善和數(shù)據(jù)處理奠定了基礎(chǔ)。
參考文獻(xiàn)
[1] 曲國華,李春華,張強.因素空間中屬性約簡的區(qū)分函數(shù)[J].智能系統(tǒng)學(xué)報,2017,12(6):889-893.
[2] 汪培莊.因素空間與因素庫[J].遼寧工程技術(shù)大學(xué)學(xué)報:自然科學(xué)版,2014,32(10):1-8.
[3] 魏浩,丁要軍.一種基于屬性相關(guān)的C4.5決策樹改進算法[J].中北大學(xué)學(xué)報:自然科學(xué)版,2014,35(4):402-406.