胡常偉,危 虎
(1.巨輪股份有限公司,廣東揭陽 515500;2.廣東工業(yè)大學(xué)廣東省計(jì)算機(jī)集成制造重點(diǎn)實(shí)驗(yàn)室,廣東廣州 510006)
基于Logistic回歸的模具行業(yè)訂單流失分析*
胡常偉1,危 虎2
(1.巨輪股份有限公司,廣東揭陽 515500;2.廣東工業(yè)大學(xué)廣東省計(jì)算機(jī)集成制造重點(diǎn)實(shí)驗(yàn)室,廣東廣州 510006)
模具行業(yè)客戶數(shù)量相對(duì)較少但訂單較多,針對(duì)用客戶人口學(xué)數(shù)據(jù)進(jìn)行客戶流失分析的不足,基于訂單信息建立模具業(yè)的訂單流失預(yù)測(cè)模型。針對(duì)模具業(yè)訂單樣本分布極不平衡及其產(chǎn)生的不同錯(cuò)分代價(jià)的問題,提出一種基于Logistic回歸的多元分類器方法,將此方法應(yīng)用于某大型模具企業(yè)的訂單流失分析,并與傳統(tǒng)的Logistic回歸預(yù)測(cè)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明該方法能有效解決模具行業(yè)的訂單流失分析問題。
模具行業(yè);訂單流失;Logistic回歸;多元分類器
模具行業(yè)產(chǎn)品更新頻繁,隨著技術(shù)的進(jìn)步客戶對(duì)產(chǎn)品要求也在不斷提高,多元化的市場(chǎng)需求使得模具企業(yè)對(duì)客戶的爭(zhēng)奪也越來越激烈[1]。對(duì)模具企業(yè)而言,開發(fā)一個(gè)新客戶的成本往往比保留一個(gè)老客戶的成本要大得多,因此減少客戶流失對(duì)模具企業(yè)至關(guān)重要。另一方面,模具產(chǎn)品大多是定制的,模具企業(yè)在實(shí)際生產(chǎn)過程中積累了大量的訂單信息(主要包括客戶的合同信息和生產(chǎn)過程中的業(yè)務(wù)數(shù)據(jù)),它們實(shí)時(shí)地反映了市場(chǎng)需求的變動(dòng)和企業(yè)的運(yùn)營情況?;谶@些數(shù)據(jù)從企業(yè)內(nèi)部挖掘出導(dǎo)致客戶流失的因素對(duì)模具企業(yè)贏得市場(chǎng)具有十分重要的意義。
數(shù)據(jù)挖掘是為了建立商務(wù)決策支持系統(tǒng),從大型數(shù)據(jù)庫中抽取以前未知的、有效的和可控的模式或知識(shí)的過程[2]。分類作為數(shù)據(jù)挖掘中的一種重要技術(shù),已被廣泛用于金融、電信等行業(yè)的客戶流失預(yù)測(cè),且都取得了較好的預(yù)測(cè)效果[3]。這類研究主要采用決策樹、Logistic回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法建立客戶流失模型。然而采用這些方法建立模具行業(yè)客戶流失模型則會(huì)存在一些不足。首先,不同于常見的金融、電信等行業(yè),模具企業(yè)客戶數(shù)量往往比較少,但一個(gè)客戶往往會(huì)帶來多個(gè)訂單;且模具客戶流失往往不會(huì)是一次性徹底終止往來,通常是逐漸減少訂單,降低訂單交易的頻率和金額,此時(shí),同一個(gè)客戶不同訂單流失的可能性往往大不相同,因而導(dǎo)致對(duì)客戶流失狀態(tài)的劃分很難準(zhǔn)確。其次,模具企業(yè)對(duì)客戶的人口學(xué)信息收集得較少,而且很多都不精準(zhǔn)(如客戶的區(qū)域分布、客戶的信譽(yù)等級(jí)等),因此,基于客戶信息來進(jìn)行數(shù)據(jù)挖掘很難找出對(duì)模具業(yè)客戶流失有著顯著影響的因素。最后,客戶流失預(yù)測(cè)是二分類問題,上述方法在追求較高預(yù)測(cè)精度的同時(shí)往往忽略兩類樣本數(shù)據(jù)分布不平衡的差異,而普適分類方法對(duì)這種不平衡數(shù)據(jù)集進(jìn)行預(yù)測(cè)時(shí)會(huì)產(chǎn)生較大的錯(cuò)分代價(jià)[4]。
考慮客戶人口學(xué)數(shù)據(jù)建立模具業(yè)客戶流失預(yù)測(cè)模型的不足,基于模具業(yè)大量的合同信息和業(yè)務(wù)數(shù)據(jù)建立訂單流失預(yù)測(cè)模型,幫助模具企業(yè)從內(nèi)部分析導(dǎo)致訂單流失的原因。另外針對(duì)模具訂單中流失樣本與非流失樣本分布極不平衡的問題,在Logistic回歸算法的基礎(chǔ)上提出一種多元分類器方法,以降低Logistic回歸模型在進(jìn)行訂單流失預(yù)測(cè)時(shí)的錯(cuò)分代價(jià),將該方法應(yīng)用于某大型模具企業(yè)的訂單流失分析,并通過與傳統(tǒng)的Logistic回歸分類方法進(jìn)行對(duì)比來驗(yàn)證此改進(jìn)方法的有效性。
模具企業(yè)客戶往往針對(duì)不同模具產(chǎn)品選擇不同的供應(yīng)商,并依據(jù)各供應(yīng)商在交貨期、質(zhì)量等方面提供的服務(wù)質(zhì)量來不斷調(diào)整訂單的分配。對(duì)模具企業(yè)而言,從企業(yè)內(nèi)部分析客戶訂單流失的原因,提高自身服務(wù)質(zhì)量對(duì)贏得訂單十分重要。模具制造業(yè)是典型的訂單式小批量生產(chǎn)行業(yè)[5],模具企業(yè)在生產(chǎn)過程中積累了大量的訂單信息,這些訂單信息實(shí)時(shí)反映了客戶的需求變化和企業(yè)本身對(duì)訂單的完成情況[6]。因此考慮基于模具企業(yè)大量訂單數(shù)據(jù)建立模具業(yè)訂單流失預(yù)測(cè)模型,基于客戶合同信息和業(yè)務(wù)數(shù)據(jù)預(yù)測(cè)訂單在未來發(fā)生流失的概率,為模具企業(yè)減少訂單流失提供決策依據(jù)。圖1為本文進(jìn)行模具業(yè)訂單流失分析的架構(gòu),包括數(shù)據(jù)輸入、模型、分類輸出和決策支持四個(gè)部分。
模具可重復(fù)性制造程度較低且產(chǎn)品種類繁多,企業(yè)通常基于產(chǎn)品特征將訂單分為若干類型,比如可將訂單類型分為全套類型、部件類型、配件類型、返修類型等,并根據(jù)實(shí)際情況可進(jìn)一步細(xì)分為若干小類。各個(gè)行業(yè)對(duì)客戶流失的定義都有所不同,結(jié)合模具業(yè)客戶的特點(diǎn),在模具專家的指導(dǎo)下,基于模具訂單的產(chǎn)品類型將訂單狀態(tài)劃分為2個(gè)類別:“未流失的訂單”和“流失的訂單”。其中流失的訂單包括:①與當(dāng)前年同比,上一年出現(xiàn)過,當(dāng)前年沒有再出現(xiàn)的訂單類型;②與上一年同比,當(dāng)前年訂單的數(shù)量減少50%以上的訂單類型。
圖1 訂單流失分析架構(gòu)
本文以國內(nèi)某大型模具企業(yè)為研究對(duì)象,采取分層抽樣的方式從其ERP系統(tǒng)中抽取某個(gè)5年期共5 000條訂單數(shù)據(jù)作為研究樣本。基于訂單屬性預(yù)測(cè)訂單發(fā)生流失的概率,因變量為訂單的流失狀態(tài),該訂單流失預(yù)測(cè)是一個(gè)二分類問題。若訂單狀態(tài)為未流失取值為1,訂單狀態(tài)為流失取值為0,則根據(jù)之前對(duì)流失訂單的定義,抽取的5 000個(gè)樣本中訂單狀態(tài)取值為1的占85.5%(共4 275條訂單),取值為0的占14.5%(共725條訂單),可以看到數(shù)據(jù)集中流失樣本與非流失樣本的分布是極不平衡的。
2.1 Logistic回歸方法
本文以訂單屬性為輸入變量來預(yù)測(cè)訂單的流失狀態(tài),因此選用分類算法來建立模型,在常用建模方法中,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)雖然預(yù)測(cè)精度較高,但其得到的規(guī)則可解釋性太差,需要借助合適的規(guī)則抽取算法才能提取易于理解的知識(shí)[7]。決策樹算法由于采取貪心算法而得到較多的規(guī)則集[8],模具訂單根據(jù)實(shí)際業(yè)務(wù)需要往往對(duì)訂單屬性進(jìn)行較多的劃分,如果用決策樹算法會(huì)基于屬性的分裂對(duì)樣本大量的劃分,而這種劃分可能對(duì)于訂單分類是沒有用的。Logistic回歸不僅能有效地處理二值因變量問題,還可以進(jìn)行模型精確度和擬合優(yōu)度的檢驗(yàn)[9]。這樣不僅可以方便了解屬性變量對(duì)訂單流失的預(yù)測(cè)能力,而且還能分析訂單流失狀態(tài)對(duì)屬性變量的響應(yīng)程度,因此本文使用Logistic回歸方法建模。
若用第1類錯(cuò)分率表示模型將流失的訂單錯(cuò)分為未流失的訂單的比例,第2類錯(cuò)分率表示模型將未流失的訂單錯(cuò)分為流失的訂單的比例。對(duì)于建立的訂單流失預(yù)測(cè)模型,如果第1類錯(cuò)分率較高,則會(huì)增加模具企業(yè)挽留具有較高流失風(fēng)險(xiǎn)訂單的機(jī)會(huì)成本,如果第2類錯(cuò)分率較高,則可能導(dǎo)致模具企業(yè)針對(duì)未流失的訂單增加一些不必要的成本。而對(duì)模具企業(yè)來說,開發(fā)一個(gè)新客戶來新增訂單和挽留一個(gè)老客戶來減少訂單流失,前者的成本要大得多。因此,從模具企業(yè)實(shí)際出發(fā),所建立的訂單流失預(yù)測(cè)模型應(yīng)該將第2類錯(cuò)分率控制在合理范圍內(nèi)的同時(shí),盡可能降低第1類錯(cuò)分率。然而,傳統(tǒng)的Logistic回歸算法在分類過程中假設(shè)這兩種分類錯(cuò)誤的代價(jià)是相等的,處理模具訂單這種樣本分布極不平衡的數(shù)據(jù)集可能會(huì)產(chǎn)生較大的錯(cuò)分代價(jià)。
2.2 多元分類器方法
針對(duì)模具行業(yè)訂單樣本分布不平衡的特點(diǎn),以及傳統(tǒng)的Logistic回歸算法在處理模具訂單流失分析問題上的不足,本文借鑒文獻(xiàn)[10]的方法,提出一種多元分類器的方法來降低流失預(yù)測(cè)模型的錯(cuò)分率以及由此產(chǎn)生的錯(cuò)分代價(jià)。該方法的描述如下。
(1)對(duì)于一個(gè)包含N個(gè)樣本的訓(xùn)練集S,若其中少數(shù)樣本與多數(shù)樣本的數(shù)量之比為1∶x,則產(chǎn)生一個(gè)期望的分類比1∶y來將多數(shù)樣本均勻、隨機(jī)的劃分為x/y個(gè)部分。此時(shí),由每個(gè)部分的多數(shù)樣本加上S中所有的少數(shù)樣本組成一個(gè)訓(xùn)練集,則可將S劃分為x/y個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集包含N/(1+x)個(gè)少數(shù)樣本和(N×y)/(1+x)個(gè)多數(shù)樣本。
(2)對(duì)于劃分后得到的每一個(gè)訓(xùn)練集,分別用分類算法建立流失預(yù)測(cè)模型。對(duì)一個(gè)新的測(cè)試樣本每個(gè)預(yù)測(cè)模型都能獨(dú)立輸出一個(gè)分類結(jié)果,再用多元分類器來組合分類結(jié)果就可實(shí)現(xiàn)對(duì)測(cè)試樣本的全面預(yù)測(cè)。由于研究旨在盡可能識(shí)別流失風(fēng)險(xiǎn)較高的訂單,因此本文考慮使用加權(quán)的策略來組建多元分類器,對(duì)于未流失的訂單C1和流失的訂單C2,給C1賦予一個(gè)權(quán)重w1,則C2的權(quán)重為w2(w2=1-w1)。用n1和n2分別表示x/y個(gè)模型中將樣本訂單狀態(tài)預(yù)測(cè)為未流失和流失的模型個(gè)數(shù),當(dāng)w1×n1>w2×n2時(shí),多元分類器將測(cè)試樣本預(yù)測(cè)為未流失的訂單,反之則為流失的訂單。
(3)隨著權(quán)重w1的不斷變化(單調(diào)遞增或遞減),多元分類器的第1類錯(cuò)分率和第2類錯(cuò)分率也將隨之變化。
本文提出的多元分類器通過調(diào)整權(quán)重w1的大小可得到不同的錯(cuò)分率,基于兩類錯(cuò)分率不斷變化的數(shù)值可以繪制一條檢測(cè)誤差權(quán)衡曲線。模具企業(yè)可根據(jù)實(shí)際錯(cuò)分代價(jià)的不同從曲線中確定合適的錯(cuò)分平衡點(diǎn),以建立更切合實(shí)際的訂單流失預(yù)測(cè)模型。
3.1 變量分析
在本文樣本數(shù)據(jù)庫中,有關(guān)訂單的屬性有近50個(gè),由于屬性過多會(huì)增加計(jì)算的復(fù)雜程度并降低模型的有效性,故屬性數(shù)量需要精減。因此應(yīng)用專家評(píng)判法來挑選最為關(guān)鍵的主要屬性,并參考其他相關(guān)研究最后確定表1所示的共12個(gè)屬性變量用于建模分析。
表1 有關(guān)的屬性變量
表1中,編號(hào)X1到X5是從客戶合同信息中挑選出來的屬性變量。其中,合同所含的產(chǎn)品類型分為全套類型(A類)、零部件類型(B類)、返修類型(C類)共3個(gè)大類;結(jié)算方式指客戶支付貨款的方式,包括現(xiàn)金、電匯和其他抵押方式等;訂單來源是指訂單對(duì)應(yīng)的客戶是來自境內(nèi)還是境外;收款類型指客戶所支付款項(xiàng)的用途,基于客戶支付款項(xiàng)中是否含質(zhì)保金來對(duì)收款類型分別取值。
X6到X12的共7個(gè)屬性來自訂單生產(chǎn)過程中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)。其中,加工方法是指根據(jù)訂單的產(chǎn)品類型和技術(shù)要求,模具企業(yè)所采取的生產(chǎn)加工手段,一般包含精鑄、電火花加工、直接雕刻等;質(zhì)量統(tǒng)計(jì)指訂單在生產(chǎn)過程中,是否出現(xiàn)了與訂單要求不相符合的不一致品(如次品、廢品等);催款次數(shù)指由于客戶沒能按合同付款,業(yè)務(wù)員對(duì)其進(jìn)行催款的頻率;客戶投訴指客戶對(duì)訂單完成情況進(jìn)行的反饋,投訴途徑主要分直接投訴和間接投訴兩種,投訴問題主要包含產(chǎn)品加工不良、圖紙信息不夠等。
3.2 數(shù)據(jù)預(yù)處理
對(duì)于挑選出來的12個(gè)屬性變量,用交叉表可進(jìn)一步分析每個(gè)屬性變量對(duì)訂單流失影響的程度。將全部樣本放在SPSS11.0上用交叉表技術(shù)進(jìn)行分析,得到每一個(gè)屬性變量各自識(shí)別流失訂單的概率大小如表2所示。表2中,“全部樣本的百分比”指在全部樣本中實(shí)際擁有某一個(gè)屬性的訂單的比重,“流失樣本的百分比”指已經(jīng)流失的訂單中由該屬性識(shí)別的訂單所占的比重。比如,在全部訂單樣本中,有16.2%的訂單沒有準(zhǔn)時(shí)交貨,而已經(jīng)流失的訂單樣本中,交貨期取值為不準(zhǔn)時(shí)的占82.7%。用各行的“流失樣本的百分比”除以“全部樣本的百分比”可以得到“比率”,這個(gè)“比率”值可以有效地反應(yīng)各屬性對(duì)流失樣本的識(shí)別能力[8]。從比率排名可以看到產(chǎn)品類型、交貨期是否準(zhǔn)時(shí)、客戶對(duì)訂單的投訴次數(shù)這三個(gè)屬性的“比率”值較高,表明這些屬性能從具有這一屬性的所有訂單中識(shí)別出很大比重的流失訂單。因此研究將這3個(gè)屬性作為能夠顯著影響訂單流失的變量,其他屬性由于不能顯著地識(shí)別將要流失的訂單而在分析中被排除。
表2 各屬性對(duì)訂單流失的影響情況
3.3 建立訂單流失預(yù)測(cè)模型
將5 000條樣本隨機(jī)分為兩部分,其中的3 500條樣本(其中508個(gè)為流失訂單)用做訓(xùn)練集,1 500條樣本(其中217個(gè)為流失訂單)用做測(cè)試集。根據(jù)Logistic函數(shù)的定義,設(shè)訂單不流失(訂單狀態(tài)取值為1)的概率為P,訂單發(fā)生流失(訂單狀態(tài)取值為0)的概率為1-P,則P與影響訂單流失的各變量Xi之間的關(guān)系可用下列Logistic回歸模型表示:
其中β0為變量無關(guān)的常數(shù)項(xiàng),β1,β2,βn是回歸系數(shù),訂單不流失與發(fā)生流失的概率之比為:
這個(gè)比就是事件的發(fā)生比,將它取自然對(duì)數(shù)可得到一個(gè)線性方程:
對(duì)于訓(xùn)練集數(shù)據(jù),將交貨期(JHQ)、產(chǎn)品類型(CPLX)、投訴次數(shù)(TSCS)作為輸入變量,訂單的流失狀態(tài)(LSZT)作為輸出變量,在SPSS軟件上使用Logistic回歸分析方法得到以下模型:
由于產(chǎn)品類型分為A、B、C三個(gè)大類,故對(duì)應(yīng)三個(gè)不同的回歸系數(shù)。此時(shí)模型輸出的卡方統(tǒng)計(jì)檢驗(yàn)值X2為12.725,顯著性值Sig=0.000 5<0.001,因此可認(rèn)為模型中這三個(gè)屬性對(duì)因變量有顯著影響。此時(shí)選用10折交叉驗(yàn)證法得到模型的分類準(zhǔn)確率為79.32%,第1類錯(cuò)分率為52.44%,第2類錯(cuò)分率為18.82%。用訓(xùn)練集數(shù)據(jù)得到模型的具體參數(shù)之后,對(duì)于測(cè)試樣本將其對(duì)應(yīng)的參數(shù)代入方程(1)或(2)便可預(yù)測(cè)每個(gè)訂單發(fā)生流失的概率,從而得到訂單流失狀態(tài)的輸出。
為解決樣本分布極不平衡的問題,研究使用多元分類器方法。數(shù)據(jù)集中流失樣本與非流失樣本的比例接近1∶6,為平衡兩類樣本分布可將期望的分類比設(shè)為1∶1。此時(shí),未流失的樣本被均勻、隨機(jī)地分成6個(gè)部分,加上流失的樣本可構(gòu)成6個(gè)訓(xùn)練集。對(duì)6個(gè)訓(xùn)練集分別建立Logistic回歸模型,將測(cè)試集的新樣本分別輸入這6個(gè)模型,則每個(gè)樣本都可得到6個(gè)分類預(yù)測(cè)結(jié)果。當(dāng)賦給未流失訂單的權(quán)重以0.01的增量從0.01增加到0.99時(shí),根據(jù)之前的多元分類器算法可得到一條基于兩種錯(cuò)分率的檢測(cè)誤差權(quán)衡曲線,如圖2所示。從圖2可以看到,隨著未流失訂單權(quán)重的增加,第1類錯(cuò)分率在不斷上升而第2類錯(cuò)分率在不斷下降。
3.4 結(jié)果與分析
將訂單的相關(guān)屬性作為輸入變量,應(yīng)用交叉表技術(shù)進(jìn)行分析,發(fā)現(xiàn)在模具企業(yè)運(yùn)營過程中交貨期、訂單的產(chǎn)品類型、客戶的投訴次數(shù)對(duì)訂單流失有著顯著的影響。研究建立的回歸分析模型反映了這些屬性與訂單流失之間的相關(guān)性,根據(jù)模型識(shí)別出的流失訂單特征,模具企業(yè)可以采取相應(yīng)的管理策略來預(yù)防訂單流失。
另外,在圖2中標(biāo)示用傳統(tǒng)單個(gè)分類器建模時(shí)獲得的第1類錯(cuò)分率和第2類錯(cuò)分率,可以看到對(duì)于多元分類器建立的模型,在第1類錯(cuò)分率為52.44%的時(shí)候第2類錯(cuò)分率為15.67%,第2類錯(cuò)分率為18.82%的時(shí)候第1類錯(cuò)分率為43.82%。由此可見本文的多元分類器方法對(duì)降低預(yù)測(cè)模型的兩類錯(cuò)分率都取得了較好的效果。通過圖2所示的檢測(cè)誤差權(quán)衡曲線,模具企業(yè)可根據(jù)實(shí)際來選取合適的錯(cuò)分率,從而得到更有效的訂單流失預(yù)測(cè)模型。
Response圖和Lift指標(biāo)可用來評(píng)價(jià)模型的性能,如圖3所示,Response圖橫軸表示抽取的樣本占訂單總數(shù)的百分比,縱軸表示所抽取樣本中的流失訂單占流失訂單總數(shù)的百分比,對(duì)角線表示不用模型隨機(jī)抽取的預(yù)測(cè)效果。用本文的Logis?tic回歸模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí)得到圖3模型1所示的Lift曲線,當(dāng)橫軸抽取10%總訂單數(shù)時(shí),Logistic回歸模型能識(shí)別出45.85%的流失訂單,此時(shí)模型的Lift指標(biāo)為:45.85%/10%= 4.585,由此可見與隨機(jī)抽取相比預(yù)測(cè)效果有了較大提升。為方便與其它普適分類方法進(jìn)行對(duì)比,研究假定預(yù)測(cè)模型的兩類錯(cuò)分代價(jià)相等,在多元分類器中給流失訂單和未流失訂單賦予相同的權(quán)重(即w1=w2),此時(shí)用多元分類器模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)得到圖3模型2所示的Lift曲線。顯然,模型2比模型1獲得了更高的Lift指標(biāo),實(shí)證結(jié)果表明,本文提出的基于Logistic回歸的多元分類器方法對(duì)模具行業(yè)的訂單流失分析取得了較好的預(yù)測(cè)效果。
針對(duì)模具行業(yè)用客戶人口學(xué)數(shù)據(jù)進(jìn)行客戶流失分析的局限性,本文基于客戶合同信息和業(yè)務(wù)數(shù)據(jù)建立了模具業(yè)的訂單流失預(yù)測(cè)模型,對(duì)模具企業(yè)的訂單流失現(xiàn)象進(jìn)行了分析。另外研究在Logistic回歸算法基礎(chǔ)上提出了一種多元分類器的建模方法,以解決模具訂單樣本分布極不平衡及其產(chǎn)生不同錯(cuò)分代價(jià)的問題。該方法在建立流失預(yù)測(cè)模型時(shí)能夠?yàn)槟P偷膬深愬e(cuò)分率找到一個(gè)平衡點(diǎn),在一定程度上彌補(bǔ)了傳統(tǒng)分類算法建模時(shí)默認(rèn)兩種錯(cuò)分代價(jià)相同的不足,提高了模型在實(shí)際應(yīng)用中的有效性。將該方法應(yīng)用于某大型模具企業(yè)的訂單流失分析問題,獲得了較好的預(yù)測(cè)效果。
[1]鮑明飛.模具企業(yè)轉(zhuǎn)型發(fā)展的挑戰(zhàn)和機(jī)遇[J].模具工業(yè),2012,38(10):1-4.
[2]Berry M J A,Linoff G.Data mining techniques:for marketing,sales,and customer support[M].New York:Wiley,1997.
[3]劉志嫵.基于決策樹算法的學(xué)生成績的預(yù)測(cè)分析[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(11):312-315.
[4] Elkan C.The foundations of cost-sensitive learning[A].Proceeding of the Seventeenth International Joint Conference on Artifi?cial Intelligence [C]. 200l:973-978.
[5]胡鈺松,胡常偉.模具制造企業(yè)備件庫存分類方法研究[J].機(jī)械設(shè)計(jì)與制造,2012(11):236-238.
[6]陳少鎮(zhèn),陳慶新,毛寧,等.考慮進(jìn)度協(xié)調(diào)的模具訂單投放控制策略[J].機(jī)電工程技術(shù),
2012(10):17-22.
[7]張旭梅,石瀚凌.基于分類挖掘方法的商業(yè)銀行個(gè)人理財(cái)業(yè)務(wù)客戶流失分析[J].工業(yè)工程,2011,14(6):126-132.
[8]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[9]蒙肖蓮,蔡淑琴,杜寬旗,等.商業(yè)銀行客戶流失預(yù)測(cè)模型研究[J].系統(tǒng)工程,2004,22(12):67-71.
[10]Chan P K,F(xiàn)an W,Prodromidis A L,Stolfo S J.Dis?tributed data mining in credit card fraud detection[J]. IEEE Intelligent Systems,1999,14(6):67-74.
Order Churn Analysis in Mold Industry Based on Logistic Regression
HU Chang-wei1,WEI Hu2
(1.Greatoo Inc.,Jieyang515500,China;2.Guangdong Provincial Key Lab of Computer Integrated Manufacturing System,Guangdong University of Technology,Guangzhou510006,China)
The number of customers in the mold industry are limit but the orders are adequate,in response to the unavailability of customer demographics while doing customer churn analysis in the mold industry,order churn prediction model of mold industry based on customer contractual information and business data was set up.To deal with the challenge of a highly skewed class distribution between churn and non-churn and different classification cost it cause,a multi-classifier approach based on logistic regression was proposed. Then,the proposed method was applied to a mold enterprise,by comparing with the model build by traditional logistic regression,results suggest that the proposed method exhibits satisfactory predictive effectiveness in the mold industry.
mold industry;order churn;logistic regression;multi-classifier
TH166
A
1009-9492(2014)08-0062-06
10.3969/j.issn.1009-9492.2014.08.018
胡常偉,男,1978年生,湖北仙桃人,博士后。研究領(lǐng)域:企業(yè)信息化、項(xiàng)目管理、智能制造。
(編輯:向 飛)
*國家科技支撐計(jì)劃項(xiàng)目(編號(hào):2012BAF12B10)
2014-06-30