摘 要:任何一個數(shù)據(jù)挖掘模型都是針對一個特定業(yè)務需求的,圍繞著一個具體的業(yè)務需求,數(shù)據(jù)挖掘模型總是可以有辦法不斷完善、不斷提升,即提升精確度、提升轉化率等。這里自然就出現(xiàn)了一個問題,模型應該怎么優(yōu)化,要優(yōu)化到什么程度才算可以?這是數(shù)據(jù)挖掘商業(yè)實踐中經(jīng)常碰到的問題。
關鍵詞:數(shù)據(jù)挖掘;優(yōu)化;建模
1 數(shù)據(jù)挖掘模型的優(yōu)化要遵循有效、適度原則
既然任何一個數(shù)據(jù)挖掘模型都是針對一個特定業(yè)務需求的,那么評價模型是否合格的一個原則性標準就是模型的結論或應用效果是否滿足當初的業(yè)務需求,即有效的原則。雖然這個原則的表述聽上去比較虛,但是具體到業(yè)務實踐和具體的分析需求中,一般都是有一系列具體、明確、可量化的指標和尺度的。比如,一個某付費產(chǎn)品的續(xù)費客戶預測模型的建模需求,必然要求所構建的預測模型能有效鎖定最可能續(xù)費的用戶群體,從而可以提升續(xù)費轉化率,是相對于不做客戶細分時的總體續(xù)費轉化率來說的,即原始轉化率,或者稱為隨機轉化率,最起碼在對最終模型進行驗證后,確實可以得出模型挑選出的優(yōu)質群體的續(xù)費轉化率顯著高于隨機轉化率這樣的結論,這時才可以稱為有效。
一旦模型滿足了有效的標準,是否還要繼續(xù)優(yōu)化呢?此時要考慮第二個原則,即適度的原則。所謂適度,是說此時模型還是可以繼續(xù)投入資源、投入精力去持續(xù)優(yōu)化的,即繼續(xù)不斷提升模型的精度和轉化率等,但是必須要考慮投入產(chǎn)出之間的性價比是否合適,是否適度。如果花了很大的力氣,投入了很多的資源,但是模型的提升不明顯,即模型優(yōu)化的投入與產(chǎn)出相比得不償失,那么就違反了適度的原則;如果花了較少的力氣,增加了不多得資源,但模型的提升很明顯,很顯著,那么可以認為這種持續(xù)性的優(yōu)化是適度的,是具有較好性價比的。
2 如何有效地優(yōu)化模型
2.1 從業(yè)務思路上優(yōu)化模型式最重要的模型優(yōu)化措施
這個也是很多數(shù)據(jù)分析師在嘗試模型優(yōu)化時最容易忽視或者根本沒有想過的方法。很多時候,這個思路和方法對于模型效用的提升是根本性的,是源頭上的突破,因而常常更有效。之所以說它常常有效果,主要是因為經(jīng)過前期的數(shù)據(jù)熟悉、分析和初步建模之后,我們對數(shù)據(jù)邏輯之間的關系更加敏銳了,而且對于需求目標的認識更加深刻了,并且前期建模過程中常常會有一些新的關聯(lián)和聯(lián)想給我們提供了新的、更加貼切的靈感,所有這些因素形成合力,拓寬了我們的業(yè)務思路,加強了我們的業(yè)務洞察力,換個角度看問題,又是一幅新的風景,通過這種方式常??梢暂p松優(yōu)化、提升模型。
從業(yè)務思路上優(yōu)化主要可以從以下幾個層面進行考慮:(1)有沒有更加明顯且直觀的規(guī)則、指標可以代替復雜的建模?通過對這些直觀的假設進行驗證、思考并增添相關的新衍生變量,有時可以有效的優(yōu)化模型。(2)有沒有一些明顯的業(yè)務邏輯(業(yè)務假設)在前期的建模階段被疏忽了呢?比如要建立一個類似于“競價排名”業(yè)務的續(xù)費用戶預測模型,那么除了直接從數(shù)據(jù)倉庫中提取相關字段、數(shù)據(jù)之外,是否考慮了用戶提前充值的行為很可能跟其當前賬戶的余額有關系,或者跟其最近月均消耗金額與余額的比例有關?這些深入的思考可以讓我們增添一些衍生的變量、字段,而這些衍生的變量常常能給模型帶來明顯的效果提升。(3)通過前期的初步建模和數(shù)據(jù)熟悉,是否有新的發(fā)現(xiàn),甚至能顛覆之前的業(yè)務推測或業(yè)務直覺呢?如果有,適時調(diào)整新的分析思路,常常就會有明顯的模型效果提升作用。比如,起初我們會猜想有佛教信仰的人應該是寺廟收入的主流目標群體,其承擔了寺廟大多數(shù)門票和捐款收入,但是仔細觀測數(shù)據(jù)我們會發(fā)現(xiàn)其實在現(xiàn)實生活中不一定信仰佛教,但是一定有愿望祈求佛菩薩保佑,即保佑發(fā)財、保佑升官、保佑平安等的香客才是寺廟收入真正的主流目標群體。這種觀察直接顛覆了之前的猜想,如果要為某寺廟尋找收入提升的方式,那么修改原先的目標群體,重新定位那些祈求佛菩薩保佑的信眾,宣傳有求必應的靈驗性,或許是提升收入的重要策略。針對這個新的目標群體構建的數(shù)據(jù)模型,理論上來說其效果會明顯的提升。(4)目標變量的定義是否穩(wěn)定,要在不同的時間點抽樣驗證。如果不穩(wěn)定,通常應該考慮一個更加合適的相關的穩(wěn)定的變量作為目標,并重新建模。通過與業(yè)務需求方的頭腦風暴,可以發(fā)掘出新的想法和思路,從更多的角度、更多的層次考慮業(yè)務邏輯,從而更全面地增加衍生字段。對于數(shù)據(jù)分析師來說,不僅自己要多視角、多層次考慮業(yè)務邏輯,更重要的是要與業(yè)務團隊充分溝通、共同探討,在大家的思維碰撞中發(fā)現(xiàn)新的火花。
2.2 從建模的技術思路上優(yōu)化
從建模的技術思路上優(yōu)化是指在建模的總體技術思路、總體技術方向上進行比較、權衡。建模的總體技術思路包括不同的建模算法、不同的抽樣方法、有沒有必要通過細分群體來分別建模等。一般來講,不同的建模算法針對不同的具體業(yè)務場景會有不同的表現(xiàn),沒有哪種算法可以永遠優(yōu)越于其他算法,所以數(shù)據(jù)分析師在具體的業(yè)務項目實踐中應該多嘗試不同的建模算法,從中比較、權衡,擇優(yōu)而用。這里的建模算法是廣義上的,包括基本的統(tǒng)計分析技術,只要是可以解決業(yè)務問題的,都是我們的候選算法。而對于不同建模算法的比較,既包括了預測響應模型思路里不同算法的比較,如綜合考慮邏輯回歸算法、決策樹算法、神經(jīng)網(wǎng)絡算法、支持向量機算法等,又有廣義上的算法比較,比如,在A產(chǎn)品付費用戶特征分析項目中,實際上有至少三種完全不同的技術思路可以應用,包括基本的統(tǒng)計分析方法,如找出有統(tǒng)計差異顯著的特征字段及組合、常規(guī)的聚類分析方法,如對付費用戶群體進行幾個重要業(yè)務變量的聚類劃分,以及預測項目模型的思路,它不僅可以找出特征字段,還可以有效預測潛在的最可能付費的目標人群。很明顯,三種不同的思路有更多不同的算法可以嘗試,究竟哪種思路和算法最適合本項目,要權衡的因素很多,包括項目的資源是否充足、現(xiàn)有數(shù)據(jù)的完整情況、項目的實踐節(jié)點、模型精度要求等,但是從模型優(yōu)化的角度來考慮,對不同的算法多嘗試、多比較,是數(shù)據(jù)挖掘常用的一種優(yōu)化思路。
2.3 從建模的技術技巧上優(yōu)化
在建模過程中,業(yè)務思路上的優(yōu)化比建模技術思路上的優(yōu)化更重要,而建模技術思路上的優(yōu)化又比單純的建模技巧的優(yōu)化更重要。在數(shù)據(jù)挖掘過程中,很多人總是非常熱衷于對技巧的掌握和應用,殊不知在真正成功的數(shù)據(jù)挖掘應用中這些建模最多只是“術”層面上的,而所謂“術”更多的是“錦上添花”而不能是“雪中送炭”。與之相對應的是,思路上的優(yōu)化,尤其是業(yè)務思路上的優(yōu)化才是真正“道”層面上的,是方向性的,是可以產(chǎn)生質變的因素和條件,所以它是可以解決根本性問題的,是最有可能顯著提升模型效果的。既然建模技巧更多起到的是“錦上添花”的作用,這倒也很符合模型優(yōu)化的初衷,如果業(yè)務思路正確了,建模技術正確了,再加上這些建模技巧,的確是可以有效優(yōu)化和提升模型質量的。
3 總結與展望
對于完成優(yōu)化的模型來說,對其的評估主要是從兩個方面來進行考慮的,一方面就是模型精度、準確度、效果、效率等;另一方面就是對模型穩(wěn)定性的評估。一個模型無論多么準確,多么有效,如果其表現(xiàn)不穩(wěn)定,也是無法投入業(yè)務落地應用的。一個模型搭建完成后,即使它在訓練集合驗證集的表現(xiàn)都令人滿意,也不能說現(xiàn)在這個模型就可以投入業(yè)務應用了,如果條件許可,最好用幾個不同時間窗口的數(shù)據(jù)分別進行觀察比較,多比較、多測試才有說服力。
參考文獻
[1]丁立言,等.供應鏈管理實用建模方法及數(shù)據(jù)挖掘[M].北京:清華大學出版社,2001,9.
[2]羅印升,李人厚,梅時春.復雜工業(yè)過程中數(shù)據(jù)挖掘模型研究[J].信息與控制,2003,32(1):32-35.
[3]楊燕,薪蕃.微粒群優(yōu)化算法研究現(xiàn)狀及其發(fā)展[J].計算機工程,2004,30(21).
作者簡介:李江鵬(1983-),男,廣西南寧人,單位:廣西金融職業(yè)技術學院,職稱:講師,學歷:研究生,研究方向:計算機。