摘要:離群點檢測(又稱異常點檢測)是數(shù)據(jù)挖掘領域中一個重要的研究方向,其目的是找出顯著區(qū)別于其他數(shù)據(jù)的數(shù)據(jù)點. 針對基于傳統(tǒng)粗糙集理論的離群點檢測方法存在忽略樣本的模糊性和鄰域關系等問題,利用模糊鄰域粗糙集彌補經(jīng)典粗糙集的不足,并結合熵的不確定性,提出一種新的基于模糊鄰域熵的離群點檢測方法. 首先,采用模糊鄰域半徑和混合模糊相似度構造模糊鄰域近似空間;然后,定義一種特定的模糊鄰域組合熵和相對模糊鄰域組合熵來構建模糊鄰域離群度,進而定義基于模糊鄰域熵的離群因子實現(xiàn)離群點檢測,并設計了基于模糊鄰域熵的離群點檢測算法(FNEOD).最后,將FNEOD 算法與主要的離群點檢測算法進行比較. 實驗結果表明,該方法具有較好的有效性和適應性.
關鍵詞:數(shù)據(jù)挖掘,離群點檢測,模糊鄰域組合熵,相對模糊鄰域組合熵
中圖分類號:TP18 文獻標志碼:A
離群點[1]是數(shù)據(jù)集中行為特征顯著不同于其他數(shù)據(jù)對象的數(shù)據(jù)點,其出現(xiàn)往往蘊含著非常有用的信息,例如電信服務中的詐騙行為[2]和銀行中的異常業(yè)務交易. 離群點檢測已成為數(shù)據(jù)挖掘領域的研究熱點,并已廣泛應用于醫(yī)療處理[3]、公共安全[4]、圖像處理[5]和入侵系統(tǒng)檢測[6]等領域.