亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合測度整合和AWCBA算法的個人信用評估研究

        2019-06-04 02:27:48黃全生
        安徽工程大學學報 2019年2期
        關(guān)鍵詞:卡方項集置信度

        趙 凱,黃全生,張 玥

        (安徽工程大學 數(shù)理學院,安徽 蕪湖 241000)

        近年來,我國信用卡業(yè)務快速發(fā)展。截至2017年底,我國信用卡累計發(fā)行7.9億張,當年新增1.6億張,同比增長25.9%,活卡率(180天)達73.1%,未償信貸余額為5.56萬億元,同比增長了36.8%。個人信用消費行為日趨增多,個人信用評估問題成為信貸行業(yè)的研究熱點。最初進行的個人信用評估主要采用經(jīng)驗判別法[1],具有較大的主觀性。為了解決這些問題,個人信用評估模型應運而生。最先被用于個人信用評估模型的是統(tǒng)計學和運籌學的方法[2-3]。隨著計算機的發(fā)展,機器學習方法[4-7]、深度學習方法[8]、數(shù)據(jù)挖掘方法[9]被不斷地運用到個人評估領(lǐng)域。關(guān)聯(lián)規(guī)則的概念于1993年被Agrawal[10]等提出,他們同時給出了相應的挖掘算法AIS,但是性能較差。1994年,他們建立了項目集格空間理論,并依據(jù)上述兩個定理,提出了著名的Apriori算法。在Apriori算法的基礎(chǔ)上,學者們不斷地對其進行了改進,CBA算法[11]、WCBA算法[12]、CMAR算法[13]等被開發(fā)出來。CBA算法作為最早出現(xiàn)的數(shù)據(jù)挖掘算法之一,是以支持度和置信度作為測度,并視所有屬性對規(guī)則的重要性一致的算法。WCBA算法是在CBA算法的基礎(chǔ)上對屬性權(quán)重進行了專家打分分析,CMAR算法則是在CBA算法的基礎(chǔ)上改進了測度,引入了卡方測度作為新的測度。文中AWCBA算法在屬性規(guī)則加權(quán)上利用支持度、置信度以及卡方測度進行標準化處理并取最大值作為權(quán)重,拋棄了傳統(tǒng)的專家打分等主觀方法;在規(guī)則剪枝上采用了利用規(guī)則權(quán)重自動化剪枝的方法,避免了傳統(tǒng)的最小支持度、最小置信度閾值設(shè)定不精確的問題;在分類預測上采用了支持度、置信度以及卡方測度的調(diào)和均值作為新的測度,解決了單一測度造成的誤差影響。在研究中,為了檢驗所提出算法的準確性,與其他算法進行了比較,最后使用了某商業(yè)銀行信用卡業(yè)務客戶的個人信息中的數(shù)據(jù)來測試所提出的AWCBA算法。

        1 AWCBA算法

        自1998年出現(xiàn)第一個基于關(guān)聯(lián)的分類算法(CBA)以來,關(guān)聯(lián)分類算法的設(shè)計及應用研究一直非?;钴S。關(guān)聯(lián)分類算法除了在個人信用評估方面有著廣泛的應用,在煤炭安全[14]、文本分類[15]、醫(yī)學圖像數(shù)據(jù)挖掘[16]的研究中,也起到了顯著的效果。在關(guān)聯(lián)分類算法中,人們最關(guān)心的問題便是分類結(jié)果的準確性,而算法的測度選擇則直接影響分類結(jié)果。在最開始的研究中,關(guān)聯(lián)分類算法是將支持度和置信度作為測度[17]。當規(guī)則的支持度和置信度滿足最小閾值時,此規(guī)則被收錄為強關(guān)聯(lián)規(guī)則。

        關(guān)聯(lián)分類是數(shù)據(jù)挖掘中一種新的分類方法,它將關(guān)聯(lián)規(guī)則挖掘和分類進行了算法集成,然而,在關(guān)聯(lián)規(guī)則的分類算法中,分類器的準確率受到支持度和置信度閾值的影響。以往的關(guān)聯(lián)分類算法都是根據(jù)經(jīng)驗人為地設(shè)置支持度和置信度的閾值,很難保證分類器總能達到較好的分類效果[18]。另外,在實際應用中,數(shù)據(jù)庫中不同的項目對規(guī)則起到不同的重要性[19]。在此基礎(chǔ)上進行了改進,提出了AWCBA算法,流程如圖1所示。

        圖1 AWCBA算法流程圖

        1.1 自適應加權(quán)

        在傳統(tǒng)的挖掘規(guī)則中,屬性是否重要取決于它在事務集中的計數(shù),并且假定所有屬性都具有同等的重要性。但是近年來,研究人員發(fā)現(xiàn),屬性是否重要不能單純依賴于數(shù)量方面,事務集中不同的屬性對規(guī)則起到不同的重要性。因此有必要加強重要屬性對規(guī)則的影響,同時減弱不重要的屬性對規(guī)則的影響。

        Jaber Alwidian[12]等提出了加權(quán)關(guān)聯(lián)規(guī)則挖掘,在數(shù)據(jù)集內(nèi),通過一個權(quán)重生成算法使用領(lǐng)域知識為項目分配權(quán)重,然后將權(quán)重輸入到算法,將權(quán)重應用到項目中,并使用加權(quán)支持度生成強關(guān)聯(lián)規(guī)則列表。它通過對數(shù)據(jù)庫中的項目賦權(quán)來進行規(guī)則挖掘,權(quán)重用于反映數(shù)據(jù)庫中項的重要性。它的優(yōu)點是可以在挖掘過程中使用加權(quán)支持度發(fā)現(xiàn)那些具有高權(quán)重的強關(guān)聯(lián)規(guī)則。然而大多數(shù)數(shù)據(jù)項不帶有預先分配的權(quán)重,權(quán)重需要受領(lǐng)域內(nèi)的專家的調(diào)整。其中專家可以分配不同的權(quán)重,從而生成不同的規(guī)則。

        對于大多數(shù)分類器來說,特征加權(quán)一直是分類的瓶頸,特征加權(quán)的效果直接影響分類器的分類性能。當數(shù)據(jù)集有大量項目時,使用領(lǐng)域知識確定所有項目的精確權(quán)重可能是不切實際的,并且在不同的類別中,同樣的屬性可能起到的重要程度也可能是不同的。在這種情況下,文中的AWCBA算法使用了一種新的方法來加權(quán),這種加權(quán)方法不再依賴于主觀的專家打分加權(quán),同時還可以把不同屬性對于不同類別的影響區(qū)分開來。

        例如,屬性a對n類的權(quán)重為:

        weight(a→n)=

        其中,sup(a→n)代表屬性a→n的支持度,

        式中,δ(a→n)是在類標簽為n的所有事物中a的出現(xiàn)頻次,T為數(shù)據(jù)總數(shù)。

        conf(ra→n)代表屬性a→n的置信度,

        ka(a→n)代表a→n的卡方測度:

        它在權(quán)重生成的過程中,通過屬性到類的支持度、置信度以及卡方測度的標準化處理,選擇3種測度標準化之后的最大正值來生成這種屬性對類的權(quán)重。這樣不需要預先給屬性分配權(quán)重,而是根據(jù)不同屬性對類的影響程度不同,自適應地進行加權(quán)。

        1.2 生成關(guān)鍵項集和重要規(guī)則

        在傳統(tǒng)的關(guān)聯(lián)分類算法中,規(guī)則的挖掘分為兩個階段:第一階段是先從數(shù)據(jù)樣本中利用支持度找出所有的大于最小支持度閾值的項集,叫做頻繁項集;第二階段是在這些頻繁項集中挖掘出所有置信度大于最小置信度的規(guī)則,叫做強關(guān)聯(lián)規(guī)則。例如,在CBA和CMAR算法中都有一個共同的步驟:尋找頻繁項集,生成強關(guān)聯(lián)規(guī)則。此外,最小支持度、最小置信度在他們的規(guī)則挖掘過程中起著關(guān)鍵的作用。在這個過程中研究人員需要根據(jù)經(jīng)驗來設(shè)置支持度和置信度的閾值,利用閾值進行規(guī)則剪枝,支持度和置信度比最小支持度和最小置信度小的規(guī)則在剪枝之后會被忽略。例如,如果最小置信度為0.6,最小支持度為0.2,那么如果有一個重要規(guī)則的置信度為0.59,則不會生成此規(guī)則。采用這種方法很難保證分類器能達到較好的分類效果。

        AWCBA算法的理念是取代傳統(tǒng)的支持度、置信度構(gòu)成的關(guān)聯(lián)規(guī)則挖掘模型的加權(quán)模型,與CBA、CMAR算法相比,AWCB算法的不同之處在于不需要尋找頻繁項集,也不需要去從頻繁項集中挖掘強關(guān)聯(lián)規(guī)則。在第一個階段,即便在不確定最小支持度、最小置信度閾值的情況下,也可以用數(shù)據(jù)樣本的自身屬性去挖掘任何一個對規(guī)則產(chǎn)生關(guān)鍵作用的項集,把它稱作關(guān)鍵項集。第二階段,同樣利用關(guān)鍵項集中的每一個子集的自身屬性來挖掘?qū)︻悩撕灝a(chǎn)生重要作用的規(guī)則,稱之為重要規(guī)則。

        對于一個規(guī)則來說,它可能包含若干屬性,例如規(guī)則r:ab→n。傳統(tǒng)的CBA算法中,如果sup(ab→n)≥minsup,則此規(guī)則放入頻繁項集中;如果conf(ab→n)≥minconf,則此規(guī)則為強關(guān)聯(lián)規(guī)則。在AWCBA算法里,在給屬性加權(quán)后,對于規(guī)則r:ab→n來說,如果它的屬性中有任何權(quán)重大于0的屬性,則此規(guī)則納入關(guān)鍵項集中;如果它的每項屬性彼岸準化之后的帶權(quán)支持度、帶權(quán)置信度、帶權(quán)卡方測度的最大值之和大于0,則此規(guī)則為重要規(guī)則。接下來,給出一個具體的示例,示例1如表1所示。

        表1示例1

        事務項屬性類標簽1ace12bd23bc24abcd15ab1事務項屬性類標簽6bc27ab18abce19abc210ace1

        在示例1中,分別按照傳統(tǒng)的關(guān)聯(lián)算法和研究中所述AWCBA算法進行了規(guī)則剪枝,其中的強關(guān)聯(lián)規(guī)則和重要規(guī)則對比如表2所示。

        表2 強關(guān)聯(lián)規(guī)則與重要規(guī)則對照

        從示例中可以看出,關(guān)鍵項集不會遺漏任何一個包含關(guān)鍵信息的非頻繁項集,重要規(guī)則包含的重要信息遠大于強關(guān)聯(lián)規(guī)則。在如今的信用評估領(lǐng)域,信用良好的客戶市場已經(jīng)趨于穩(wěn)定,面對大量信用中等的客戶,如何從中挖掘?qū)儆谖覀兊目蛻簦珹WCBA算法中的關(guān)鍵項集與重要規(guī)則能產(chǎn)生非凡的影響。

        1.3 AWCBA算法

        算法分為2個部分,分別是:尋找規(guī)則和預測。

        算法1:尋找規(guī)則

        步驟1:輸入訓練數(shù)據(jù),在訓練數(shù)據(jù)中,設(shè)置S,令S為空集;

        步驟2:令k=1,Sk為每個項目k生成的候選集,r為Sk的子集;

        步驟3:對訓練數(shù)據(jù)中的r計算支持度、置信度、卡方測度,進行標準化處理,取三者最大值作為權(quán)重,若最大值大于0,則將r加入S′;若最大值小于0,則對規(guī)則剪枝;

        步驟4:輸出S′。

        算法2:預測

        步驟1:輸入測試數(shù)據(jù);

        步驟2:用S′中的規(guī)則對測試數(shù)據(jù)進行測試,根據(jù)類值分組;

        步驟3:計算每組的HM值之和;

        步驟4:比較兩組的HM之和,取較大的一組的類值對數(shù)據(jù)進行歸類。

        2 測度整合

        在傳統(tǒng)算法的預測階段,對于任何給定的實例,首先檢查規(guī)則集中的強關(guān)聯(lián)規(guī)則。但是,使用支持度和置信度作為度量,支持度和置信度的值都傾向于支持度較大的規(guī)則。而使用卡方測度作為度量,卡方測度的值又傾向于支持度較小的規(guī)則[20]。尹輝[19]等為了解決此問題,提出了改進的CMAR算法,引入了帶權(quán)卡方測度作為新的測度。這種測度將支持度和置信度相結(jié)合,構(gòu)造統(tǒng)一度量。Jaber Alwidian[12]等也嘗試了結(jié)合支持度和置信度的調(diào)和均值作為統(tǒng)一度量。所研究AWCBA算法在此基礎(chǔ)上將支持度、置信度和卡方測度進行測度整合,構(gòu)建了整合支持度、置信度和卡方測度的調(diào)和均值(即HM)來作為統(tǒng)一的度量。其中,HM值的計算如下:

        下面針對示例1比較了各種測度的預測準確度。在示例1中剪枝之后的關(guān)鍵項集中規(guī)則的各種測度屬性如表3所示。

        表3 重要規(guī)則的支持度、置信度、卡方測度以及HM值

        分別選擇支持度、置信度、卡方測度以及HM值作為預測測度,預測結(jié)果如表4所示。

        表4 示例1的4種測度預測準確度

        從上面的例子可以看出,構(gòu)造的統(tǒng)一度量HM值作為預測測度效果優(yōu)于使用支持度、置信度以及卡方測度的效果。

        3 實驗

        3.1 數(shù)據(jù)預處理

        數(shù)據(jù)來源于某商業(yè)銀行的客戶信息,總共有1 000條客戶記錄,每條記錄有21個屬性項,首先對其進行概化處理,如表5所示。

        表5 數(shù)據(jù)的21項屬性以及概化處理結(jié)果

        3.2 實驗結(jié)果

        實驗是在Matlab 2016a上實現(xiàn)的,結(jié)果如圖2所示。圖2中采用了隨機抽樣的方法,分別抽取10次,每次遞增總樣本的10%作為訓練樣本。用4種算法對其進行了實驗。從圖2中可以看出,AWCBA算法在對某商業(yè)銀行的客戶信用信息數(shù)據(jù)集上的實驗中獲得了比CMAR算法、WCBA算法和CBA算法更高的預測準確率。隨著測試樣本取樣數(shù)量的遞增, AWCBA算法的預測準確率也在提升,并且它的準確率相較于其他3種算法隨折變化的波動相對平穩(wěn)。

        采用5次交叉驗證的方法對4種算法的預測準確率的實驗結(jié)果如表6所示。由表6可知, AWCBA算法5次交叉驗證的預測準確率均值最高,高達73.25%,WCBA算法的平均準確率次之,而CMAR算法和CBA算法的平均準確度比較低,其中CBA算法的平均準確度才66.32%;并且AWCBA算法的標準差也是這4種算法中最小的,CMAR算法和CBA算法的標準差甚至高達8.72%和8.89%。從這些數(shù)據(jù)中不難發(fā)現(xiàn),給屬性加權(quán)了的算法不管是準確率還是穩(wěn)定性都會有明顯的提升。其中AWCBA算法不但是分類效果最好的,而且是穩(wěn)定性最高的。這說明自適應加權(quán)起到了顯著的效果。

        表65次交叉驗證準確率

        算法名稱均值標準差AWCBA73.253.75CMAR68.688.72算法名稱均值標準差WCBA70.525.48CBA66.328.89

        至于測度對分類效果的影響,對數(shù)據(jù)分別隨機抽樣25%、50%、75%作為測試樣本,在AWCBA算法剪枝之后用不同測度(即支持度、置信度、卡方測度、HM值)對它們進行了實驗,結(jié)果如圖3所示。從圖3中可以看出,進行過測度整合之后的HM值的預測效果要比其他3種測度好得多。而且隨著隨機抽樣數(shù)據(jù)的增多,測度預測準確率也越來越高。而其他的測度在面臨大量數(shù)據(jù)時,效果顯然比我們的測度要差。所以說,進行測度整合也是提高分類準確度的有效手段。

        圖2 4種算法實驗結(jié)果圖3 AWCBA算法中4種測度抽樣準確度

        從上面的3個實驗可以得出,不管是測度整合還是屬性加權(quán),都可以提升算法的分類正確率。在規(guī)則的剪枝過程中,關(guān)鍵項集和重要規(guī)則隨著數(shù)據(jù)量的增多,所包含的信息也越來越完善。相比于頻繁項集和強關(guān)聯(lián)規(guī)則,關(guān)鍵項集和重要規(guī)則具有穩(wěn)定、高效、全面的特點。而且,關(guān)鍵項集和重要規(guī)則的篩選方法也至關(guān)重要。所以說,對屬性進行加權(quán)的方法是否先進、對測度進行整合的方法是否科學,也是影響個人信用評估準確率的重要因素。

        4 結(jié)論

        研究提出了一種新的基于AWCBA算法的個人信用評估模型,通過對規(guī)則的支持度、置信度以及卡方測度的標準化處理,取規(guī)則的3種測度標準化之后的最大正值來生成新的規(guī)則權(quán)重,剪枝掉標準化處理之后的3種測度最大值仍為負值的規(guī)則,并且構(gòu)建了整合支持度、置信度和卡方測度的調(diào)和均值(即HM)來作為統(tǒng)一的度量。在實際應用中,模型不需要主觀的加權(quán)和人為的設(shè)置最小閾值就可以獲得滿意的分類結(jié)果。通過實際數(shù)據(jù)實驗,獲得了良好的分類結(jié)果,同時證明了AWCBA算法在信用評分系統(tǒng)中具有良好的性能。因此,基于AWCBA算法的個人信用評估模型確實可以幫助銀行或貸款人做出正確的決策。當然,研究中的AWCBA算法還有著廣闊的提升空間,學習更先進的理論知識來完成算法的升級,是接下來需要努力的方向。

        猜你喜歡
        卡方項集置信度
        卡方檢驗的應用條件
        卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
        硼鋁復合材料硼含量置信度臨界安全分析研究
        卡方檢驗的應用條件
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        計算機應用(2018年5期)2018-07-25 07:41:26
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        基于改進卡方統(tǒng)計量的藏文文本表示方法
        計算機工程(2014年6期)2014-02-28 01:26:50
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        日本一区二区三深夜不卡| 欧美大屁股xxxxhd黑色| 品色堂永远的免费论坛| 久久99精品波多结衣一区| 蜜桃在线视频一区二区| 国产精品美女久久久网av| 性一交一乱一乱一视频| 无遮挡十八禁在线视频国产制服网站| 日美韩精品一区二区三区| 一区二区精品国产亚洲| 少妇无码吹潮| 亚洲中文字幕无码卡通动漫野外| 丁香婷婷激情俺也去俺来也| 亚洲精品在线国产精品| 情侣黄网站免费看| 99热成人精品国产免| 老熟妇嗷嗷叫91九色| 国产精品久免费的黄网站 | 亚洲人成网站色7799| 亚洲欧美日韩综合久久| 色yeye在线观看| 国产精品一区二区三区在线观看 | 国产精品原创av片国产日韩| 亚洲熟女av一区少妇| 国产a在亚洲线播放| 国产美女在线精品免费观看网址| 国产精品亚洲综合色区丝瓜 | 亚欧同人精品天堂| 国产极品大奶在线视频| 成年女人色毛片| 图图国产亚洲综合网站| 国产大片在线观看91| 麻花传媒68xxx在线观看| 人妻被黑人粗大的猛烈进出 | 精品久久有码中文字幕| 丰满人妻av无码一区二区三区| 久久亚洲成a人片| 精品中文字幕在线不卡| 精品亚洲成a人片在线观看| 亚洲AV无码精品色欲av| 日本免费看一区二区三区|