亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        混合數(shù)據(jù)特征選擇算法及在客戶(hù)流失預(yù)測(cè)中的應(yīng)用

        2013-11-19 09:40:56周君儀馬少輝
        關(guān)鍵詞:約簡(jiǎn)粗糙集特征選擇

        周君儀,馬少輝

        (江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 鎮(zhèn)江 212003)

        粗糙集理論是由Pawlak[1]提出的一種處理含糊和不確定性問(wèn)題的數(shù)學(xué)工具,隨著粗糙集的發(fā)展,出現(xiàn)了很多擴(kuò)展型粗糙集[2-4].在粗糙集的研究中,約簡(jiǎn)是一個(gè)核心概念.很顯然,約簡(jiǎn)是特征選擇的過(guò)程,特征選擇出的子集具有最小的數(shù)據(jù)量且最具代表性.傳統(tǒng)的粗糙集特征選擇是針對(duì)離散型數(shù)據(jù)進(jìn)行處理的,而對(duì)于連續(xù)型數(shù)據(jù),常采用的處理手段是采用離散化方法將數(shù)據(jù)進(jìn)行分割,但可能會(huì)引入量化誤差、改變數(shù)據(jù)的本質(zhì)結(jié)構(gòu),從而導(dǎo)致知識(shí)發(fā)現(xiàn)能力的下降.

        在現(xiàn)實(shí)世界中會(huì)出現(xiàn)大量數(shù)據(jù)既包含離散型數(shù)據(jù)(比如性別、職業(yè)),又包含連續(xù)型數(shù)據(jù)(比如收入、通話時(shí)長(zhǎng))的情況,這些數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,如果不進(jìn)行特征選擇可能就無(wú)法進(jìn)行進(jìn)一步的分析.文獻(xiàn)[5]引入模糊粗糙集的概念,設(shè)計(jì)了針對(duì)混合數(shù)據(jù)集的特征選擇算法.但其所定義的基于模糊等價(jià)關(guān)系的相對(duì)熵不是單調(diào)變化的,屬性的重要性會(huì)出現(xiàn)負(fù)的情況.在特征選擇時(shí),只選取大于零的值,但負(fù)值也表明將某一個(gè)屬性進(jìn)行約簡(jiǎn)的時(shí)候信息量發(fā)生了一定程度的改變,說(shuō)明這個(gè)屬性具有一定的重要性.文中針對(duì)混合型數(shù)據(jù),在文獻(xiàn)[6]所提的CEBARKNC算法的基礎(chǔ)上引入模糊粗糙集[7-9]思想,對(duì)屬性重要性進(jìn)行改進(jìn),使其結(jié)果均為正值.進(jìn)行約簡(jiǎn)時(shí),對(duì)屬性重要性選取設(shè)定閾值λ,放寬屬性約簡(jiǎn)的邊界,使特征選擇能更符合真實(shí)數(shù)據(jù)的特性.文中將經(jīng)過(guò)改進(jìn)的CEBARKNC算法用于實(shí)際客戶(hù)流失預(yù)測(cè)問(wèn)題,并與文獻(xiàn)[5]的特征選擇方法進(jìn)行了對(duì)比分析.

        1 模糊粗糙集基本概念

        1.1 模糊相似關(guān)系

        在粗糙集中,等價(jià)關(guān)系要滿(mǎn)足自反性、對(duì)稱(chēng)性、傳遞性.而在模糊系統(tǒng)中只要滿(mǎn)足自反性和對(duì)稱(chēng)性就可以稱(chēng)之為模糊相似關(guān)系.通過(guò)模糊相似關(guān)系可以構(gòu)建模糊相似矩陣.要構(gòu)建模糊相似關(guān)系矩陣,必須引入模糊相似關(guān)系的度量,即計(jì)算相似系數(shù)的方法,可以采用絕對(duì)值倒數(shù)法

        計(jì)算相似系數(shù),構(gòu)建模糊相似矩陣M(R′)

        1.2 模糊等價(jià)關(guān)系

        文中采用平方自合成法求最大值最小值傳遞閉包,通過(guò)求傳遞閉包可以將模糊相似矩陣構(gòu)建為模糊等價(jià)矩陣,它既具有傳遞性,又具有自反性和對(duì)稱(chēng)性.

        令S為一模糊相似矩陣,依次求其平方:S→S2→S4→…→S2i→…,(i=1,2,3,…).第一次出現(xiàn)Sk°Sk=Sk時(shí),Sk為所求傳遞閉包,也即為所求模糊等價(jià)矩陣

        由xi和R得到的模糊等價(jià)類(lèi)為

        1.3 基于模糊粗糙集的條件信息熵

        2 基于模糊信息熵的混合數(shù)據(jù)特征選擇算法改進(jìn)

        2.1 改進(jìn)算法

        在基于模糊粗糙集理論的基礎(chǔ)上,文中設(shè)計(jì)了一個(gè)改進(jìn)CEBARKNC啟發(fā)式算法進(jìn)行特征選擇,其算法如下:

        輸出:該決策系統(tǒng)的一個(gè)相對(duì)約簡(jiǎn)B.

        Step2.采用平方自合成法計(jì)算傳遞閉包,求得模糊等價(jià)矩陣.

        2.2 算法驗(yàn)證

        采用UCI數(shù)據(jù)庫(kù)中的數(shù)據(jù)集對(duì)算法有效性進(jìn)行驗(yàn)證.選取數(shù)據(jù)集見(jiàn)表1.同時(shí)采用文中改進(jìn)的CEBARKNC算法和胡清華提出的一個(gè)fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見(jiàn)表2.下文中“Hu′s f-r”表示胡清華提出的一個(gè)fuzzy-rough算法.

        表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experiment data sets

        表2 特征選擇屬性個(gè)數(shù)Table 2 Numbers of attribute selection of improved CEBARKNC and Hu′s f-r algorithm

        由表2可以看出,文中所改進(jìn)的CEBARKNC算法能較有效地進(jìn)行特征選擇.對(duì)于特征選擇結(jié)果的評(píng)價(jià)通常以分類(lèi)器的分類(lèi)性能來(lái)檢驗(yàn),以表2的特征選擇結(jié)果為基礎(chǔ),構(gòu)建決策樹(shù),并分別計(jì)算改進(jìn)CEBARKNC算法和胡清華提出的一個(gè)fuzzy-rough算法的準(zhǔn)確率,對(duì)比結(jié)果見(jiàn)表3.

        由表2,3可看出,采用文中改進(jìn)的CEBARKNC算法得出的準(zhǔn)確都比較高,說(shuō)明改進(jìn)的CEBARKNC算法不僅能取得較好的特征選擇結(jié)果,而且能取得較高的準(zhǔn)確率,也說(shuō)明文中改進(jìn)的算法較適合于以決策樹(shù)為模型的準(zhǔn)確率評(píng)價(jià)結(jié)果.

        表3 決策樹(shù)與特征選擇結(jié)果比較Table 3 Comparisions of attribute selection with decision tree

        3 客戶(hù)流失預(yù)測(cè)實(shí)驗(yàn)及結(jié)果

        客戶(hù)流失預(yù)測(cè)是一個(gè)重要的管理問(wèn)題,國(guó)內(nèi)外學(xué)者對(duì)此進(jìn)行了大量研究[10-12].預(yù)測(cè)模型精度是一個(gè)受數(shù)據(jù)的預(yù)處理技術(shù),分類(lèi)模型的構(gòu)建技術(shù),評(píng)價(jià)指標(biāo)等多方面因素影響的問(wèn)題.

        文中所設(shè)計(jì)的特征選擇算法在數(shù)據(jù)預(yù)處理階段對(duì)數(shù)據(jù)進(jìn)行了主要特征的選擇,極大地降低數(shù)據(jù)維度,減少模型建立的難度和時(shí)間,提高了效率.文中采用分類(lèi)性能來(lái)評(píng)價(jià)特征選擇的好壞.將處理過(guò)的數(shù)據(jù)進(jìn)一步用于客戶(hù)流失預(yù)測(cè)分類(lèi)器建模,既進(jìn)行了客戶(hù)流失預(yù)測(cè),又以預(yù)測(cè)性能檢驗(yàn)了特征選擇算法的有效性.

        3.1 數(shù)據(jù)和特征選擇

        實(shí)驗(yàn)所用原始數(shù)據(jù)為KDD CUP2009所提供的一個(gè)混合型數(shù)據(jù)集.該數(shù)據(jù)集包括50 000個(gè)客戶(hù),條件屬性有230個(gè),其中有190個(gè)屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個(gè)屬性的數(shù)據(jù)值是字符型的.

        首先對(duì)原始數(shù)據(jù)進(jìn)行清理,將屬性數(shù)據(jù)缺失率超過(guò)90%的屬性進(jìn)行刪除,剩余屬性77個(gè).然后在數(shù)據(jù)集中選取相對(duì)有效數(shù)據(jù)43 704條,再通過(guò)平均值法對(duì)數(shù)據(jù)集中仍然缺失的少量數(shù)據(jù)進(jìn)行填充,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集A.該數(shù)據(jù)集是典型的混合型數(shù)據(jù),對(duì)預(yù)處理之后的數(shù)據(jù)集,根據(jù)改進(jìn)的CEBARKNC算法,設(shè)定λ=0.000 005,對(duì)數(shù)據(jù)集A進(jìn)行特征選擇.

        3.2 結(jié)果與分析

        文中實(shí)驗(yàn)所使用數(shù)據(jù)集屬性數(shù)為230個(gè),其中有190個(gè)屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個(gè)屬性的數(shù)據(jù)值是字符型的.首先采用改進(jìn)的CEBARKNC算法進(jìn)行特征選擇,然后采用胡清華提出的一個(gè)fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見(jiàn)表4.

        表4 改進(jìn)CEBARKNC算法和Hu′s f-r算法特征選擇Table 4 Attribute selection of improved CEBARKNC and Hu′s f-r algorithm

        將特征選擇結(jié)果應(yīng)用于客戶(hù)流失預(yù)測(cè)中,在進(jìn)行客戶(hù)流失預(yù)測(cè)的同時(shí),用分類(lèi)器的性能來(lái)評(píng)價(jià)特征選擇算法的好壞.用數(shù)據(jù)集對(duì)模型訓(xùn)練以后,分別以神經(jīng)網(wǎng)絡(luò)(ANN)、邏輯回歸建模,得出訓(xùn)練集和測(cè)試集的運(yùn)算結(jié)果.對(duì)比結(jié)果見(jiàn)表5,6.

        表5 采用ANN的改進(jìn)CEBARKNC算法與Hu′s f-r算法對(duì)比Table 5 Comparison of improved CEBARKNC using ANN with Hu′s f-r algorithm

        表6 采用邏輯回歸的改進(jìn)CEBARKNC算法與Hu′s f-r算法對(duì)比Table 6 Comparison of improved CEBARKNC using logic regression with Hu′s f-r algorithm

        表5中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個(gè)fuzzy-rough算法好.

        表6中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于邏輯回歸,經(jīng)過(guò)5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個(gè)fuzzy-rough算法好.

        經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)、邏輯回歸建模之后的性能比較,可以看出改進(jìn)的CEBARKNC算法得出的數(shù)據(jù)集性能比胡清華提出的一個(gè)fuzzy-rough算法得出的數(shù)據(jù)集性能都要好.

        4 結(jié)論

        1)文中以改進(jìn)的基于模糊粗糙集CEBARKNC算法,選取了高維混合數(shù)據(jù)的主要特征,極大的減少了冗余屬性對(duì)預(yù)測(cè)模型的影響,提高了效率.

        2)文中為了檢驗(yàn)算法的有效性,將其應(yīng)用于客戶(hù)流失預(yù)測(cè)中,分別采用支持神經(jīng)網(wǎng)絡(luò)、邏輯回歸構(gòu)建客戶(hù)流失預(yù)測(cè)模型.結(jié)果表明:文中所改進(jìn)的CEBARKNC算法能有效地處理混合型數(shù)據(jù)集,且經(jīng)過(guò)文中所提特征選擇算法處理過(guò)的數(shù)據(jù)集比胡清華提出的一個(gè)fuzzy-rough算法得出的數(shù)據(jù)集的預(yù)測(cè)效果好,說(shuō)明改進(jìn)的CEBARKNC算法是有效的,且能成功應(yīng)用于客戶(hù)流失預(yù)測(cè)研究中.

        [1] Pawlak Z.Rough setstheoretical aspect of reasoning about data [M].London:Proceedings of Kluwer Academic Publishers,1991.

        [2] Mi J S,Zhang W X.An axiomatic characterization of a fuzzy generalization of rough sets[J].InformationSciences,2004,160 (1-4): 235-249.

        [3] 楊習(xí)貝,竇慧莉,宋曉寧,等.廣義不完備序值系統(tǒng)中的優(yōu)勢(shì)關(guān)系粗糙集[J].江蘇科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,25 (3): 262-267.

        Yang Xibei,Dou Huili,Song Xiaoning,et al.Dominance-based rough set in generalized incomplete ordered system[J].JournalofJiangsuUniversityofScienceandTechnology:NaturalScienceEdition,2011,25 (3): 262-267.(in Chinese)

        [4] Yang Xibei,Zhang Ming,Dou Huili,et al.Neighborhood systems-based rough sets in incomplete information system[J].Knowledge-BasedSystems,2011,24(6): 858-867.

        [5] Hu Qinghua,Yu Daren,Xie Zongxia.Information-preserving hybrid data reduction based on fuzzy-rough techniques[J].PatternRecognitionLetters,2006,27:414-423.

        [6] 王國(guó)胤,于洪,楊大春.基于條件信息熵的決策表約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.

        Wang Guoyin,Yu Hong,Yang Dachun.Decision table reduction based on conditional information entropy[J].ChineseJournalofComputers,2002,25(7):759-766.(in Chinese)

        [7] Chen Degang,Zhao Suyun.Local reduction of decision system with fuzzy rough sets[J].FuzzySetsandSystems,2010,1619(13):1871-1883.

        [8] Parthal′ain N M,Richard J.Finding fuzzy-rough reducts with fuzzy entropy [C]∥In:Proc.17thInternat.Conf.onFuzzySystems.Hongkong:IEEE,2008: 1282-1288.

        [9] 徐菲菲,苗奪謙,魏萊,等.基于互信息的模糊粗糙集屬性約簡(jiǎn)[J].電子與信息學(xué)報(bào),2008,30(6):1372-1375.

        Xu Feifei,Miao Duoqian,Wei Lai,et al.Mutual information-based algorithm for fuzzy-rough attribute reduction[J].JournalofElectronics&InformationTechnology,2008,30(6):1372-1375.(in Chinese)

        [10] Huang Bingquan,Kechadi M T,Buckley B.Customer churn prediction in telecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.

        [11] 羅彬,邵培基,羅盡堯,等.基于粗糙集理論-神經(jīng)網(wǎng)絡(luò)-蜂群算法集成的客戶(hù)流失研究[J].管理學(xué)報(bào),2011,8(2):256-272.

        Luo Bin,Shao Peiji,Luo Jinyao,et al.Customer churn research based on multiple classifier fusing rough sets-neural network-artificial bee colony algorithm[J].ChineseJournalofManagement,2011,8(2):256-272.(in Chinese)

        [12] Risselada H,Peter C V,Tammo H A B.Staying power of churn prediction models[J].JournalofInteractiveMarketing,2010,24: 198-208.

        猜你喜歡
        約簡(jiǎn)粗糙集特征選擇
        基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
        基于二進(jìn)制鏈表的粗糙集屬性約簡(jiǎn)
        實(shí)值多變量維數(shù)約簡(jiǎn):綜述
        基于模糊貼近度的屬性約簡(jiǎn)
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        多?;植诩再|(zhì)的幾個(gè)充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        兩個(gè)域上的覆蓋變精度粗糙集模型
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        亚洲国产成人久久综合| 日本女同av在线播放| 在线观看亚洲av每日更新影片| 韩国三级大全久久网站| 久久无码高潮喷水| 亚洲AV秘 无码一区二区三| 蜜桃传媒免费观看视频| 小妖精又紧又湿高潮h视频69| 日日噜噜噜夜夜爽爽狠狠视频| 91精品国产色综合久久不卡蜜| 黄色中文字幕视频网站| 欧美黑人巨大videos精品| a级大胆欧美人体大胆666| 国内精品伊人久久久久av| 国产精品高清一区二区三区人妖| 免费日本一区二区三区视频| 国产一卡2卡3卡四卡国色天香| 国产精品丝袜在线不卡| 中文字幕人妻久久一区二区三区| 国产精品天天看天天狠| 日韩精品一区二区三区免费视频| 伊人亚洲综合网色AV另类| 99视频一区二区日本| 亚洲国产美女精品久久久久∴| 国产极品久久久久极品| 级毛片无码av| 亚洲一区二区国产一区| 日韩人妻无码精品久久久不卡| 99视频在线国产| 一区二区三区日本久久| 欧美老肥婆牲交videos| 午夜无码片在线观看影院| 国产爆乳美女娇喘呻吟久久| 国产精品国产av一区二区三区| 亚洲va无码手机在线电影| 青青国产成人久久91| 国产毛片视频一区二区三区在线| 国产免费a∨片在线软件| 久久精品中文字幕第23页| 亚洲色图第一页在线观看视频| 国产精品免费一区二区三区四区|