摘 要:數(shù)據(jù)預處理可以大大降低數(shù)據(jù)挖掘算法的成本和提高數(shù)據(jù)挖掘的效率,尤其對于海量和高維的基因表達數(shù)據(jù)更為重要。針對K-means算法對數(shù)據(jù)預處理手段敏感的問題,文章提出了一種以管家基因法初始化數(shù)據(jù)、Pearson系數(shù)度量芯片數(shù)據(jù)相似性的預處理方法。具體的實驗數(shù)據(jù)證明了該方法能很好地解決上述問題并有效地提高k-means算法的收斂速度。
關鍵詞:管家基因法;Pearson相關系數(shù);K-均值聚類;芯片數(shù)據(jù)