亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子銀行客戶群預測相關(guān)技術(shù)探析

        2021-08-04 01:58:32周瑞濤王曉輝
        數(shù)字通信世界 2021年7期
        關(guān)鍵詞:元組剪枝決策樹

        李 翠,周瑞濤,王曉輝

        (青島黃海學院,山東 青島 266555)

        0 引言

        客戶群分類是對銀行所開展的電子銀行業(yè)務(wù)按照客戶的使用和辦理情況進行分類,為銀行進行客戶關(guān)系管理提供依據(jù)。客戶群分類是客戶關(guān)系管理(CRM)很重要的一環(huán),可以說是必不可少的。

        銀行客戶的分類通過數(shù)據(jù)挖掘技術(shù)來對進行,具體操作可以根據(jù)事先指定的規(guī)則找到滿足規(guī)則的客戶群;也可以對客戶利用聚類方法進行自然分群;還可以根據(jù)交易行為對客戶進行分類,以確定什么樣的客戶最有可能為銀行創(chuàng)造高的利潤[1]。如何利用現(xiàn)有的銀行數(shù)據(jù),對電子銀行客戶進行識別,找到高價值的客戶并為之提供個性化的服務(wù),是留住客戶、維持與客戶良好關(guān)系的有效方法。本文主要針對電子銀行客戶的分類預測方法進行了簡述。

        1 常用的分類預測算法

        分類是一種被廣泛應(yīng)用的數(shù)據(jù)分析方式,它是描述數(shù)據(jù)結(jié)構(gòu)類的重要模型,可以用它來預測離散的、無序的數(shù)據(jù)類別。數(shù)據(jù)分類是一個兩階段的過程,包括構(gòu)造分類器的訓練階段和使用分類器預測給定數(shù)據(jù)的類別的分類階段。數(shù)據(jù)挖掘中的分類算法有很多,常用的有決策樹、基于規(guī)則的分類、貝葉斯等[2]。

        1.1 決策樹分類

        20世紀70年代后期和80年代初期J. Ross Quinlan在E.B. Hunt,J. Marin和P. T. Stone的概率學習系統(tǒng)的基礎(chǔ)上,提出了迭代的二分器方法即經(jīng)典的ID3決策樹算法[3]。后來,Quinlan又在ID3的基礎(chǔ)上進行了改進,提出了C4.5決策樹算法,并成為新的監(jiān)督學習算法的性能比較基準。1984年,多位統(tǒng)計學家出版了著作《Classification and Regression Trees》,介紹了二叉決策樹的概念,這標志著CART方法的產(chǎn)生[4]。這兩種算法大約同時間出現(xiàn)引發(fā)了決策樹歸納研究的浪潮。

        決策樹需要從標有類標號的訓練集中訓練得到。它是一種樹形的結(jié)構(gòu),類似于流程圖,其中內(nèi)部結(jié)點是對某個屬性值的判斷,每個分枝是該判斷的一個輸出,而每個樹葉結(jié)點存放一個類標號,樹的最頂層是根結(jié)點[5]。

        1.2 貝葉斯分類

        貝葉斯分類是用來表示類隸屬關(guān)系的概率大小。貝葉斯分類是基于貝葉斯定理的分類方法。樸素貝葉斯分類的思想:假設(shè)D是訓練元組的集合。其中每一個元組用一個n維向量X={x1,x2,…xn}來表示,xi表示第i個屬性值。X表示該元組在n個屬性A1,A2,…An上的測量值;假定有m個類C1,C2,…Cm。給定元組X,分類法將預測在條件X下,該元組屬于具有最高后驗概率的類的大小。也就是說,樸素貝葉斯分類法預測X屬于Ci,當且僅當

        這樣,找出使P(Ci|X)最大的類Ci,類Ci即被稱作最大后驗假設(shè)。根據(jù)貝葉斯定理

        由于P(X)為固定的常數(shù),所以只需要找到一個類Ci,使P(X|Ci)P(Ci)最大即可。

        1.3 基于規(guī)則的分類

        規(guī)則是一種表示少量信息和知識的有效方法?;谝?guī)則的分類,需要構(gòu)造一系列的IF-THEN規(guī)則,可以用如下形式的表達式來表示:

        IF 條件 THEN 結(jié)論

        其中,IF后邊的部分被稱為規(guī)則前件或簡稱為前提,THEN后邊的部分是規(guī)則的結(jié)論。在規(guī)則前件中,條件可以被分解為一個或者多個用邏輯連接詞“與”連接起來的屬性表達式,規(guī)則的結(jié)論部分是對一個類的預測。如果對于一個給定的元組,規(guī)則前件中的所有屬性表達式都成立,就可以說規(guī)則前件成立,并且規(guī)則覆蓋了該元組。

        1.4 基于人工神經(jīng)網(wǎng)絡(luò)的分類

        神經(jīng)網(wǎng)絡(luò)最先由心理學家和神經(jīng)學家提出,目的是為了找尋開發(fā)和檢測神經(jīng)的計算模型。概括的來講,神經(jīng)網(wǎng)絡(luò)是由一組相互連接的輸入、輸出單元構(gòu)成,其中每個連接都有一個權(quán)重。在神經(jīng)網(wǎng)絡(luò)的學習階段,通過調(diào)整連接的權(quán)重,使得它能夠?qū)⑤斎朐M從相應(yīng)的類標號處輸出。由于單元之間存在連接,神經(jīng)網(wǎng)絡(luò)學習又被形象的叫做連接者學習[6]。目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一BP神經(jīng)網(wǎng)絡(luò),其組成如圖1所示。

        圖1 BP神經(jīng)網(wǎng)絡(luò)

        圖1中,BP神經(jīng)網(wǎng)絡(luò)包含三層,每層由一些單元組成。每個訓練元組的屬性值測量對應(yīng)于網(wǎng)絡(luò)的輸入,這些輸入通過輸入層,然后加權(quán)輸送給稱作隱含層的神經(jīng)元,最終由輸出層發(fā)布給定元組的網(wǎng)絡(luò)預測。

        神經(jīng)網(wǎng)絡(luò)的優(yōu)點是其對噪聲的抗干擾能力強,并且不需要知道屬性和類之間聯(lián)系的知識,但是神經(jīng)網(wǎng)絡(luò)的訓練需要很長的時間,并且需要知道如網(wǎng)絡(luò)拓撲或結(jié)構(gòu)等的大量參數(shù),而這些參數(shù)又主要是靠經(jīng)驗來獲得。

        2 粗糙集理論

        粗糙集理論是由Z.Pawlak 教授在1982年提出的一種數(shù)學工具,它主要用于處理不確定性和含糊性的知識,其基本思想是在保證分類能力不降低的前提下,經(jīng)過對知識的約簡,推導出概念的分類規(guī)則。它的優(yōu)點是不需要相關(guān)數(shù)據(jù)集合外的其他先驗信息,適合發(fā)現(xiàn)那些潛在的和隱含的規(guī)則。屬性簡約作為數(shù)據(jù)挖掘的一個預處理步驟,也是粗糙集理論的核心應(yīng)用之一[7]。粗糙集理論的處理思想和算法基礎(chǔ)來源于其基本概念定義,下邊介紹幾個主要的定義。

        3 C4.5算法

        C4.5決策樹算法利用貪心的思想,采用自頂向下遞歸的分治方法構(gòu)造得來。大多數(shù)的決策樹從訓練集和其相關(guān)聯(lián)的類標號開始構(gòu)造,隨著樹深度的遞增,訓練集逐漸被劃分為較小的子集。

        構(gòu)造決策樹的核心是利用分裂準則選擇合適的分裂屬性來分裂獲得子集。如果能找到一個好的分裂準則使所有分枝上的輸出元組是純的,這就是一個最優(yōu)的分裂準則。

        決策樹C4.5算法主要步驟分兩大部分,分別為屬性選擇度量和剪枝。

        (1)屬性選擇度量。屬性選擇度量是一種啟發(fā)式學習方法,表示選擇一種分類準則,可以把指定類標記的訓練元組劃分為單獨類的方法。將該分類準則應(yīng)用于訓練元組,可以把數(shù)據(jù)分區(qū)劃分為較小的分區(qū)。最優(yōu)的情況下,落在每一個小分區(qū)的所有元組都具有相同的類標號。

        屬性選擇度量為訓練元組的屬性選擇提供了評定標準,具有最高度量值的屬性被選為訓練元組的分裂屬性。具體操作為用選擇好的屬性度量來標記新創(chuàng)建的樹結(jié)點,分枝由度量的每個輸出生長出來,進而劃分元組。常用的屬性選擇度量有信息增益、信息增益率和基尼指數(shù)等,這也是區(qū)分ID3,C4.5和CART算法的關(guān)鍵所在。

        (2)樹剪枝。在創(chuàng)建決策樹時,數(shù)據(jù)中往往存在離群點和噪聲,因此造成許多分枝表示的是訓練數(shù)據(jù)中的異常而不是正確的分枝,這種現(xiàn)象叫作過分擬合,剪枝就是處理這種現(xiàn)象的一種有效方法。通常,剪枝使用統(tǒng)計度量來減掉最不可靠的分枝。常用的剪枝方法有先剪枝和后剪枝。在先剪枝方法中,通過提前停止樹的構(gòu)建達到樹剪枝的效果。當樹構(gòu)建停止時,結(jié)點就變成了樹葉。

        在采用先剪枝方法構(gòu)造樹的過程中,可以用信息增益、統(tǒng)計顯著性、基尼系數(shù)等度量來評估劃分的優(yōu)劣。如果選擇某個結(jié)點劃分元組導致低于預定義的閾值,則停止對該結(jié)點輸出的元組進一步的劃分,樹的構(gòu)造因此停止。然而,找出合適的閾值是非常困難的。所以在實際的使用中,后剪枝的方法使用較多。后剪枝方法是在完全生長的樹中減去子樹。通過刪除結(jié)點的分枝子樹并用子樹中最頻繁的類來標記該分枝作為樹葉來實現(xiàn)。

        C4.5就是使用一種稱為悲觀剪枝的后剪枝方法,使用錯誤率決定對哪個子樹進行剪枝。悲觀剪枝不使用剪枝集,所謂剪枝集是指獨立于建立未剪枝決策樹和用于準確率評估的數(shù)據(jù)集,而是使用訓練集來估算錯誤率。然而,基于訓練集評估準確率過于樂觀,因此具有較大的偏倚。所以,悲觀剪枝通過加上一個懲罰來調(diào)節(jié)從訓練集得到的錯誤率以抵消所出現(xiàn)的偏倚。

        4 結(jié)束語

        本文主要簡述了客戶管理系統(tǒng)中電子銀行客戶群預測的相關(guān)理論方法,包括常用的分類算法如決策樹分類,貝葉斯分類,基于規(guī)則的分類等,重點介紹了粗糙集理論的相關(guān)知識和C4.5的基礎(chǔ)知識。這些內(nèi)容對客戶管理系統(tǒng)中客戶群的預測的工作起到基礎(chǔ)構(gòu)建的作用。

        猜你喜歡
        元組剪枝決策樹
        人到晚年宜“剪枝”
        Python核心語法
        電腦報(2021年14期)2021-06-28 10:46:22
        基于YOLOv4-Tiny模型剪枝算法
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于減少檢索的負表約束優(yōu)化算法
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        久久狠色噜噜狠狠狠狠97| 日本污ww视频网站| 影音先锋中文字幕无码资源站 | 一本色道久久88综合亚洲精品| 国产三级在线观看不卡| 我要看免费久久99片黄色 | 久久99人妖视频国产| 亚洲av男人电影天堂热app| 无码人妻黑人中文字幕| 91热久久免费精品99| 中文乱码字幕人妻熟女人妻| 免费日本一区二区三区视频| 97久久精品无码一区二区天美| 66lu国产在线观看| 日韩中文字幕无码av| 麻豆国产av在线观看| 中文无码伦av中文字幕| vr成人片在线播放网站| 亚洲无码美韩综合| 国产性虐视频在线观看| 丰满少妇被粗大的猛烈进出视频 | 伊人久久一区二区三区无码| 国产精品亚洲精品日韩动图| 日本一区二区三级在线观看| 日本老熟妇50岁丰满| 中文字幕大屁股熟女乱| 日本一道本加勒比东京热| 中文字幕av中文字无码亚| 亚洲最大av资源站无码av网址 | 网红极品女神精品视频在线| 人妻少妇精品视频一区二区三| 国产美女精品视频线免费播放软件 | 狼人狠狠干首页综合网| 妃光莉中文字幕一区二区| 欧洲一卡2卡三卡4卡免费网站| 伊人久久综在合线亚洲不卡| 久久熟女精品—区二区蜜臀| 18禁裸体动漫美女无遮挡网站| 国产精品你懂的在线播放| 无码午夜剧场| 人妻1024手机看片你懂的|