李鵬松,石 卓,劉 欣
(東北電力大學理學院,吉林吉林132012)
模糊聚類算法[1]是將模糊理論應用到硬聚類算法[2]中,為分析數據提供了模糊處理能力.模糊聚類算法給出每個樣本和各個類之間存在某種隸屬關系,把樣本對于各類的隸屬度由非0即1擴展到區(qū)間[0,1],能更有效地對各類之間有交叉的數據集聚類.由于模糊聚類算法能更準確地描述模式間的不確定關系,成為近年來研究的熱點.隨著模糊聚類分析的不斷發(fā)展,模糊聚類技術已獲得了廣泛的應用.在眾多模糊聚類算法中,模糊C均值聚類算法應用最廣泛,模糊C均值聚類算法是一種基于劃分的聚類算法,它通過優(yōu)化目標函數得到每個樣本點對所有類中心的隸屬度,從而決定樣本點的類屬以達到自動對樣本數據進行分類的目的.它的思想就是使得被劃分到同一類的對象之間相似度盡可能大,而不同類之間的相似度盡可能?。墨I[3~6]分別將其應用在煤礦生產的回采工藝選擇、油氣識別、圖像智能識別、非規(guī)則程序劃分中,取得了較好的效果.
簡單遺傳算法[7]是一種隨機搜索的全局優(yōu)化算法,以一個種群中的所有個體為對象,利用隨機化技術,在一個被編碼的參數空間進行搜索,尋找最優(yōu)解.免疫遺傳算法將免疫算法和簡單遺傳算法各自的優(yōu)點結合起來,既保留了簡單遺傳算法的搜索特性,又利用了免疫算法快速收斂于全局最優(yōu)解的特性,在很大程度上避免了“早熟”(過早陷入局部最優(yōu))現象.文獻[8~11]針對控制參數的選取、早熟收斂問題,對免疫遺傳算法進行了改進.
目前,國內外大量學者將模糊聚類算法與簡單遺傳算法相結合進行研究,文獻[12~15]分別針對傳統(tǒng)數據關聯算法存在計算量偏大或關聯精度不高的問題、逆向工程中的點云數據區(qū)域分割問題,利用簡單遺傳算法的全局優(yōu)化特征結合模糊聚類算法的局部搜索能力提高了算法的精度和效率.將免疫遺傳算法和模糊聚類算法相結合的已有研究較少,本文提出了一種基于免疫遺傳算法的模糊C均值聚類算法,充分發(fā)揮模糊聚類算法的局部搜索能力強、收斂速度快的特點,同時利用免疫遺傳算法的全局優(yōu)化特征和自適應特性,克服了模糊聚類算法迭代時容易陷入局部極小的缺陷,極大地提高算法的精度和效率.
本文主要關注以下2個問題:
(1)提出一種基于免疫遺傳算法的模糊C均值聚類算法,采用免疫遺傳算法對初始聚類中心進行優(yōu)化,然后執(zhí)行模糊C均值聚類算法.
(2)將本文算法應用于葡萄酒及鳶尾花數據集,得出分析結果,與基于簡單遺傳算法的模糊C均值聚類算法的分類結果進行比較,以說明本文算法的有效性.
基于免疫遺傳算法的模糊C均值聚類算法的流程圖,如圖1所示.
目標函數,即算出每個個體模糊聚類的Jb值.Jb值越小,個體的適應度值越高.參數設定如表1所示.
表1 參數設定表
選取葡萄酒數據集,數據個數為178,數據維數為12.將葡萄酒數據集聚為3類,在3類樣本數據中分別畫上不同記號.第1類標記為圓圈(o)、第2類標記為星號(*)、第3類標記為加號(+).
(1)基于簡單遺傳算法的模糊C均值聚類算法實現.
算法迭代22次,得到的最優(yōu)目標函數值Jb為1.791 9.每步迭代的目標函數值,如表2所示.最終分類結果,如圖2所示.
圖1 基于免疫遺傳算法的模糊C均值聚類算法流程圖
表2 基于簡單遺傳算法的模糊C均值聚類算法迭代22次目標函數值變化表
(2)基于免疫遺傳算法的模糊C均值聚類算法實現.
算法迭代20次,得到的最優(yōu)目標函數值Jb為1.7904.每步迭代的目標函數值,如表3所示.最終分類結果,如圖3所示.
表3 基于免疫遺傳算法的模糊C均值聚類算法迭代20次目標函數值變化表
基于免疫遺傳算法的模糊C均值聚類算法的迭代次數及最優(yōu)目標函數值均較基于簡單遺傳算法的模糊C均值聚類算法對應的數值?。聦嵣希诿庖哌z傳算法的模糊C均值聚類算法迭代15次的目標函數值已經優(yōu)于基于簡單遺傳算法的模糊C均值聚類算法的最優(yōu)目標函數值.
圖2 基于簡單遺傳算法的模糊C均值聚類算法對葡萄酒數據庫聚類結果展示圖
圖3 基于免疫遺傳算法的模糊C均值聚類算法對葡萄酒數據庫聚類結果展示圖
選取鳶尾花數據集,數據個數為150,數據維數為5.將鳶尾花數據集聚為3類,在3類樣本數據中分別畫上不同記號.第1類標記為圓圈(o)、第2類標記為星號(*)、第3類標記為加號(+).
(1)基于簡單遺傳算法的模糊C均值聚類算法實現.
算法迭代14次,得到的最優(yōu)目標函數值為Jb=0.014 877.每步迭代的目標函數值,如表4所示.最終分類結果,如圖4所示.
表4 基于簡單遺傳算法的模糊C均值聚類算法迭代14次目標函數值變化表
(2)基于免疫遺傳算法的模糊C均值聚類算法實現.
算法迭代12次,得到的最優(yōu)目標函數值為Jb=0.014 845.每步迭代的目標函數值,如表5所示.最終分類結果,如圖5所示.
基于免疫遺傳算法的模糊C均值聚類算法的迭代次數及最優(yōu)目標函數值均較基于簡單遺傳算法的模糊C均值聚類算法對應的數值小.事實上,基于免疫遺傳算法的模糊C均值聚類算法迭代10次的目標函數值已經優(yōu)于基于簡單遺傳算法的模糊C均值聚類算法的最優(yōu)目標函數值.
圖4 基于簡單遺傳算法的模糊C均值聚類算法對鳶尾花數據集聚類結果
圖5 基于免疫遺傳算法的模糊C均值聚類算法對鳶尾花數據庫聚類結果
將模糊C均值聚類算法和免疫遺傳算法相結合,能更有效地提高算法的效率,使獲得全局最優(yōu)解的可能性增大,克服了現有算法迭代時容易陷入局部極小的缺陷.將本文算法應用于葡萄酒和鳶尾花數據集,說明算法的有效性,實現對葡萄酒及鳶尾花數據集更客觀的分類.
當數據量較大時,免疫遺傳算法的優(yōu)越性更加明顯.其主要原因是基于免疫遺傳算法的模糊C均值聚類算法在處理大規(guī)模數據時,更加容易收斂到局部最優(yōu)解.
[1] 鄧冠男,宋蓮蓮.真域貼近模糊推理算法[J].東北電力大學學報,2015,35(5):63-70.
[2] 鄧冠男.聚類分析中的相似度研究[J].東北電力大學學報,2013,33(1/2):156-161.
[3] 孫臣良,侯旭江,宛洪順.基于模糊C-聚類分析的回采工藝選擇及MATLAB實現[J].世界科技研究與發(fā)展,2012,34(1):58-61.
[4] 李鐵軍,賀建,凌立蘇,等.油氣識別的模糊聚類與遺傳神經網絡技術[J].大慶石油地質與開發(fā),2014,33(2):31-34.
[5] 胡建平,李玲,謝琪,等.一種新的航拍玻璃絕緣子圖像分割方法[J].東北電力大學學報,2018,38(2):87-92.
[6] 李遠成,陰培培,趙銀亮.基于模糊聚類的推測多線程劃分算法[J].計算機學報,2014,37(3):580-592.
[7] 汪民樂.遺傳算法的收斂性研究[J].計算技術與自動化,2015,34(1):58-62.
[8] S.Prakash,D.P.Vidyarthi.A hybrid immune genetic algorithm for scheduling in computational grid[J].Int.J.of Bio-Inspired Computation,2014,6(6):397-408.
[9] J.A.M.Rodríguez,F.C.M.Alanís.Binocular self-calibration performed via adaptive genetic algorithm based on laser line imaging[J].Journal of Modern Optics,2016,63(13):1219-1232.
[10]郭惠勇,李正良.免疫遺傳算法在結構損傷識別中的應用與改進[J].土木建筑與環(huán)境工程,2012,34(2):7-26.
[11]姜萍,王培光,郝靖宇.自抗擾控制器參數的免疫遺傳優(yōu)化及應用[J].控制工程,2012,19(2):286-289.
[12] S.Wikaisuksakul.A multi-objective genetic algorithm with fuzzy c-means for automatic data clustering[J].Applied Soft Computing Journal,2014,24:679-691.
[13] D.D.Nguyen,L.T.Ngo,J.Watada.A genetic type-2 fuzzy C-means clustering approach to M-FISH segmentation[J].Journal of Intelligent&Fuzzy Systems,2014,27(6):3111-3122.
[14]胡傲,馮新喜,王冬旭,等.遺傳模糊聚類算法在數據關聯中的應用[J].電光與控制,2010,17(3):30-34.
[15]李海倫,黎榮,丁國富,等.應用遺傳模糊聚類實現點云數據區(qū)域分割[J].計算機應用研究,2012,29(5):1974-1976.