李瑋瑤
摘 要:數(shù)據(jù)特征選擇就是從初始的數(shù)據(jù)特征中選擇指定數(shù)據(jù)進行子集篩選。目前,通常使用人工蜂群算法進行特征選擇,但由于收斂慢、尋優(yōu)差,無法滿足人們的需求。因此,本文提出一種改進人工蜂群算法,通過特征選擇繪制大數(shù)據(jù)特征選擇框架圖,建立多項搜索渠道;利用改進的人工蜂群算法提取并行特征,使用MapReduce模型降低編程難度,獲取并行特征最優(yōu)解;設(shè)計特征選擇復雜粗糙集模型,并構(gòu)建特征學習模型來實現(xiàn)大數(shù)據(jù)特征選擇。試驗結(jié)果表明,設(shè)計的特征選擇方法性能優(yōu)于傳統(tǒng)方法。
關(guān)鍵詞:改進人工蜂群算法;大數(shù)據(jù);特征選擇
中圖分類號:TP18 文獻標識碼:A 文章編號:1003-5168(2021)19-0027-03
Abstract: Data feature selection is to select specified data from the initial data features for subset filtering. Currently, artificial bee colony algorithms are usually used for feature selection, but due to slow convergence and poor optimization, it cannot meet people's needs. Therefore, this paper proposes an improved artificial bee colony algorithm, which draws the framework of big data feature selection through feature selection, and establishes multiple search channels; uses an improved artificial bee colony algorithm to extract parallel features, uses the MapReduce model to reduce programming difficulty, and obtains the optimal solution for parallel features; designs a complex rough set model for feature selection, and builds a feature learning model to realize big data feature selection. The test results show that the performance of the feature selection method designed in this paper is better than the traditional method.
Keywords: improve artificial bee colony algorithm;big data;feature selection
數(shù)據(jù)特征選擇的過程就是屬性約簡,主要是針對數(shù)據(jù)的重組優(yōu)化而產(chǎn)生的,屬于查找類型的問題,目前是一個計算難題,需要使用全局搜索、啟發(fā)式搜索和隨機函數(shù)來解決。特征選擇過濾方法的評價基準與分類器無關(guān),旨在通過構(gòu)建與分類器無關(guān)的評估指標來評估特征[1]。由于人工蜂群算法目前存在收斂慢、尋優(yōu)差的問題,不足以進行數(shù)據(jù)特征選擇,因此需要改進該算法[2]。
1 大數(shù)據(jù)特征選擇方法設(shè)計
1.1 繪制大數(shù)據(jù)特征選擇框架圖
繪制大數(shù)據(jù)特征選擇框架圖首先要明確其制約指標,即子集范圍。特征選擇的子集是特征選擇中最優(yōu)解的一部分,因此與特征選擇最優(yōu)解的屬性相同就可用于框架繪制[3]。
在數(shù)據(jù)并行層面,基于并行模型MapReduce實現(xiàn)數(shù)據(jù)的并行運算。在模型并行層面,特征選擇算法在每次迭代時都可從一組候選集中選擇最佳特征,然后根據(jù)最佳特征,使用多線程方法同時評估多個候選特征,而后進行匯總。為得到最好的選擇效果,在方法層面,基于改進人工蜂群算法的大數(shù)據(jù)特征選擇方法利用分割計算理論中的細分割原理,可在不同的信息分割表示之間快速漸進地切換。對于并行評估,需要構(gòu)建分段表達框架來計算候選特征,最后將這3個方面有機結(jié)合起來,繪制出如圖1所示的框架[4]。
1.2 基于改進人工蜂群算法提取并行特征
在特征選擇模型中,每次迭代首先產(chǎn)生一個特征子集,必須使用評估函數(shù)對所有特征子集的優(yōu)缺點進行評估。這些特征子集(也稱為評估值)的重要性可根據(jù)模型本身的特性進行確定[5-8]。它的計算公式如式(1)所示。
式中:[Q]代表特征子集;[D]、[L]、[E]為數(shù)據(jù)特征點。
傳統(tǒng)的小數(shù)據(jù)集可以實現(xiàn)很好的性能加速,但不能滿足當前不斷增長的數(shù)據(jù)量需求。GB級或TB級的數(shù)據(jù)規(guī)模使計算單個特征子集的速度變得非常緩慢,甚至會由于內(nèi)存限制和其他問題導致其計算失敗。此類問題最流行的解決方法之一是使用MapReduce模型,模型的求解式[MP]如式(2)所示。
式中:[Q]代表特征子集;[D]、[L]為數(shù)據(jù)特征點。
MapReduce模型降低了并行編程的難度,成為云計算平臺的主流并行編程模型,可靠性和容錯性高。輸入數(shù)據(jù)被自動分區(qū)并發(fā)送到其他計算節(jié)點后在Map端進行計算。映射接收輸入鍵值時,需要生成中間鍵值。MapReduce模型收集中間所有具有相同鍵值的值,并將它們傳遞給Reduce函數(shù)。Reduce函數(shù)接收數(shù)據(jù)輸入,然后將這些值組合起來形成一組新的數(shù)值,最后計算出結(jié)果并輸出。Hadoop平臺是工業(yè)界和學術(shù)界廣泛使用的MapReduce模型的重要實現(xiàn)平臺之一,主要由Hadoop內(nèi)核、MapReduce和Hadoop分布式文件系統(tǒng)組成。
匹配追蹤算法MapReduce(MP)和動態(tài)規(guī)劃算法Dynamic Programming(DP)在幾個步驟中可以并行化進行特征選擇。MP用于并行化模型層,缺點是不能處理大量數(shù)據(jù)。DP用于并行化數(shù)據(jù)層,但忽略了模型本身的并行化。本文將兩種方法有機結(jié)合,提出一種模型數(shù)據(jù)并行化方法(簡稱MDP法)來改進人工蜂群算法。簡而言之,改進算法可以為每次迭代創(chuàng)建一個搜索策略。多線程候選特征子集可以啟動所有特征子集的重要性計算模塊,其中每個特征子集的重要性計算模塊都可以使用MapReduce模型來計算。實際上,MDP法采用一種兩相并聯(lián)模式,在計算出所有特征子集的重要性后,再進行特征篩選。利用改進人工蜂群算法提取變量,可以采取式(3)進行計算。
式中:[A]代表提取的變量;[C]代表初始值;[Y]代表變化矢量;[X]代表實際曲線變化。將提取的變量與最優(yōu)解融合,利用式(4)即可提取并行特征。
式中:[P]代表最優(yōu)解;[K]代表函數(shù)變量。代入相關(guān)參數(shù),進行并行特征提取,此時提取出的數(shù)值即為最優(yōu)解。
1.3 設(shè)計特征選擇復雜粗糙集模型
實際應用中,通常有多種類型的數(shù)據(jù),如符號、數(shù)字、設(shè)置值、缺失數(shù)據(jù)等。作為數(shù)據(jù)建模和規(guī)則提取的重要方法之一,粗糙集取得了較大進步。特征選擇復雜粗糙集模型的優(yōu)勢在于可以在不使用先驗知識的情況下發(fā)現(xiàn)數(shù)據(jù)特征。當復雜數(shù)據(jù)像其他建模方法一樣高維、大容量時,數(shù)據(jù)融合法存在耗時過長甚至無法處理的缺點。因此,本方法提出有效執(zhí)行復雜數(shù)據(jù)融合的關(guān)系,設(shè)計相應的復雜粗糙集模型。基于粗糙集設(shè)計各種特征選擇算法,關(guān)鍵步驟是計算近似二元關(guān)系的計算式[CV],如式(5)所示。
式中:[CV]代表流量系數(shù);[A]代表提取的變量;[K]代表函數(shù)變量;[P]代表相關(guān)參數(shù)。根據(jù)式(5)構(gòu)建特征選擇復雜粗糙集模型。
本方法引入了復雜關(guān)系并提出了復雜的粗糙集模型。非符號數(shù)據(jù)在實際應用中非常普遍,為了解決這個問題,需要引入不同的二元關(guān)系來處理不同的數(shù)據(jù)類型,因此提出了各種擴展的粗糙集模型。
1.4 實現(xiàn)大數(shù)據(jù)特征選擇
為改進人工蜂群算法,本方法還需構(gòu)建一個特征學習模型。假設(shè)有[n]個訓練樣本,它們都采用無監(jiān)督學習法來學習高級表達式,需要建立學習主要目標,即在分類和回歸問題中估計條件分布。
所有的預訓練方法都基于這樣的假設(shè),即各個輸入數(shù)據(jù)的邊際分布包含有關(guān)條件分布的重要信息。當有大量標記數(shù)據(jù)時,采用監(jiān)督學習方法通常非常有效。但是,如果只想要輕松地獲取少量未標記數(shù)據(jù),則需要將現(xiàn)有的標記數(shù)據(jù)與大量未標記數(shù)據(jù)相結(jié)合,以提高邊緣分布估計的準確性。舉一個線性特征空間的例子,潛在表示可只從未標記的數(shù)據(jù)中學習,或可只從標記的數(shù)據(jù)中學習,也可同時從兩者中學習。不難發(fā)現(xiàn),無監(jiān)督學習方法能更好地分布數(shù)據(jù),而監(jiān)督學習方法可很好地進行分類,但不能保證與所需數(shù)據(jù)分布呈現(xiàn)一致性狀態(tài)。協(xié)作培訓有助于產(chǎn)生良好的表達能力。
2 試驗分析
在多個數(shù)據(jù)集上應用多個分類算法往往不能更直接地比較各個方法的性能,所以需要通過假設(shè)檢驗來進行驗證。本文采用顯著性檢驗方法比較兩種方法的差異性,且該方法不受條件和假設(shè)的限制。Friedman檢驗要求多個樣本間無顯著差異。
2.1 試驗準備
首先提出一種特征選擇和特征構(gòu)造方法,通過GP先構(gòu)造多特征,然后再用GP做特征選擇,最后用K最鄰近(K-Nearest Neighbor ,KNN)分類器測試分類性能。在數(shù)據(jù)集上比較兩種方法的分類效果和特征維數(shù)。使用mini-batch SGD方法,即每次使用80個訓練樣本,權(quán)重衰減因子一般設(shè)為0.000 5,Momentum因子初始為0.5,在迭代過程中線性增加到0.9,通過均勻分布進行初始化。
2.2 試驗結(jié)果與討論
對改進前后數(shù)據(jù)特征選擇方法進行檢測,試驗結(jié)果如圖2所示。
從圖2可知,改進算法的大數(shù)據(jù)特征選擇方法性能優(yōu)于未改進算法,其特征選取數(shù)目少,選取精度高。
3 結(jié)語
數(shù)據(jù)特征選擇在數(shù)據(jù)篩選與傳輸中占有重要地位,提高數(shù)據(jù)特征選擇精度對整個數(shù)據(jù)特征選擇流程優(yōu)化具有重要影響。本文對人工蜂群算法進行改進,優(yōu)化其精度和尋優(yōu)度,并通過對比試驗證明改進算法后大數(shù)據(jù)特征選擇方法性能優(yōu)于改進前。改進后特征選擇方法的特征選取數(shù)目少,選取精度高,有一定的應用價值,且具有高效性。
參考文獻:
[1]王俊,馮軍,張戈,等.基于改進灰狼優(yōu)化算法的醫(yī)學數(shù)據(jù)特征選擇應用研究[J].河南大學學報(自然科學版),2020(5):570-578.
[2]曾海亮,林耀進,王晨曦,等.利用一致性分析的高維類別不平衡數(shù)據(jù)特征選擇[J].小型微型計算機系統(tǒng),2020(9):1946-1951.
[3]李帥位,張棟良,黃昕宇,等.數(shù)據(jù)特征選擇與分類在機械故障診斷中的應用[J].振動與沖擊,2020(2):218-222.
[4]劉輝,曾鵬飛,巫喬順,等.基于改進遺傳算法的轉(zhuǎn)爐煉鋼過程數(shù)據(jù)特征選擇[J].儀器儀表學報,2019(12):185-195.
[5]劉芳.基于大數(shù)據(jù)特征選擇的深度學習算法[J].赤峰學院學報(自然科學版),2019(5):46-48.
[6]高薇,解輝.基于粗糙集與人工蜂群算法的動態(tài)特征選擇[J].計算機工程與設(shè)計,2019(9):2697-2703.
[7]吳穎,李曉玲,唐晶磊.Hadoop平臺下粒子濾波結(jié)合改進ABC算法的IoT大數(shù)據(jù)特征選擇方法[J].計算機應用研究,2019(11):3297-3301.
[8]孫倩,陳昊,李超.基于改進人工蜂群算法與MapReduce的大數(shù)據(jù)聚類算法[J].計算機應用研究,2020(6):113-116.
3246500338203