亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異常值檢測在成品油零售客戶消費行為分析中的應用

        2020-07-27 12:15:46隋毅馮偉榮
        油氣與新能源 2020年4期
        關鍵詞:聚類交易變量

        隋毅 馮偉榮

        (中國石油天然氣股份有限公司規(guī)劃總院)

        1 異常值的發(fā)現(xiàn)

        異常值通常被稱為離群點、孤立點,其數(shù)值明顯偏離所屬樣本的其余觀測值。在大數(shù)據(jù)分析過程中,異常值檢測是非常重要的一類分析方法,是從海量、不完整、有噪聲的數(shù)據(jù)中發(fā)現(xiàn)與其他數(shù)據(jù)顯著不同或有潛在價值的信息過程[1]。

        異常值檢測最早是數(shù)據(jù)預處理的一個步驟,但是在大數(shù)據(jù)分析的研究中越來越重要,逐漸發(fā)展為一個獨立的領域。在成品油零售客戶消費行為分析中,異常值檢測亦是如此。一方面異常值可能會干擾數(shù)據(jù)分析的過程,過分夸大或縮小客戶的消費行為特征,如對客戶加油頻次、加油間隔的分析產(chǎn)生誤差,數(shù)據(jù)建模的過程通常會先剔除這些異常值,以免對數(shù)據(jù)分析的結(jié)果產(chǎn)生“反作用”,影響決策者的業(yè)務判斷;另一方面異常值可能代表著特殊的業(yè)務涵義,傳遞著具有潛在價值的信息,如通過數(shù)據(jù)分析發(fā)現(xiàn)存在個別客戶在單日單站使用同一加油卡高頻高額消費的情況,顯然不同于該客戶的消費習慣,這種不符合業(yè)務規(guī)律的特殊情況,需要深入調(diào)研其中的原因,以提升成品油零售客戶的精細化管理水平。本文重點對第二種情況進行探討,通過數(shù)據(jù)挖掘和探索,揭開數(shù)據(jù)異常波動背后的業(yè)務原因,通過數(shù)據(jù)分析輔助業(yè)務管理水平的提升。

        2 異常值檢測常用方法

        按照數(shù)據(jù)樣本的特征和分布,異常值檢測可以分為有監(jiān)督、半監(jiān)督和無監(jiān)督三種方法[2]。

        有監(jiān)督的異常值檢測,通常建立在包含有一個或多個目標變量的歷史數(shù)據(jù)基礎上,即在檢測之初,構建標記為正?;虍惓撕灥挠柧毤?。如,根據(jù)已知類別的客戶樣本數(shù)據(jù)建立客戶特征與所屬類別的映射關系,實現(xiàn)對新客戶的分類預測,識別客戶的正?;虍惓L卣?。

        半監(jiān)督的異常值檢測,通常是有標記的樣本較少,無標記的樣本較多,如只有正常樣本的標簽數(shù)據(jù),對于異常樣本的特征是未知的,這種情況可采用半監(jiān)督算法,通過正常的對象來推測異常對象的特征。

        無監(jiān)督的異常值檢測,通常無目標變量,無法構建正常或異常標簽的訓練集,只有反映客戶特征的樣本數(shù)據(jù),通過對這些未知標簽類別的數(shù)據(jù)進行探索,尋找數(shù)據(jù)內(nèi)在規(guī)律,基于樣本間距離或密度,對客戶歸類,識別客戶的異常特征。

        一般在已標記樣本量充足的情況下,可優(yōu)先選擇有監(jiān)督學習;若只有少數(shù)標記樣本,可考慮半監(jiān)督學習;若沒有標記樣本數(shù)據(jù)或以往積累樣本失效,建議先采用無監(jiān)督學習來解決異常值檢測問題,當捕獲到異常且人工核查積累樣本到一定數(shù)量后,可轉(zhuǎn)化為半監(jiān)督學習,逐步再轉(zhuǎn)化為有監(jiān)督學習。異常值可能總是在變化,還可能出現(xiàn)許多新的類型,需要反復訓練模型和調(diào)整策略。

        針對成品油零售客戶的消費特征,首先嘗試使用無監(jiān)督的異常值檢測方法,挖掘出大部分疑似異??蛻?,然后通過對數(shù)據(jù)和業(yè)務場景的洞察,對挖掘出的疑似異??蛻暨M一步篩查,找出需重點關注的疑似異??蛻?,待人工核查后,進行相應異常標記,完成異??蛻裟J教卣鞯臉嫿ā3S玫漠惓V禉z測方法如下:

        (1)基于統(tǒng)計分布的方法

        基本原理:根據(jù)先驗假設的概率分布模型,如數(shù)據(jù)服從正態(tài)分布模型,采用不一致性檢驗確定異常值,認為發(fā)生在統(tǒng)計分布低概率區(qū)域的點為異常值。典型的算法為ESD(極值學生化離差)離群檢測算法[1,3]。

        應用場景:若客戶單筆交易金額服從正態(tài)分布,偏離均值三倍標準差以外的點可以大概率認為是一個異常值,即單筆交易金額過小或過大的客戶都可判定為異常客戶。

        (2)基于鄰近性的方法

        基本原理:主要為兩種,一種是基于距離的檢測方法,即遠離正常樣本的點為異常值,典型的算法為KNN(K最近鄰分類)算法;一種是基于密度的檢測方法,即稀疏的樣本為異常值,也可選擇低密度區(qū)域且相對遠離鄰近樣本的點為異常值,典型的算法為LOF(局部異常因子)算法[1]。

        應用場景:若使用KNN算法,根據(jù)客戶特征計算當前客戶與已知類別(正?;虍惓#┑目蛻糁g的鄰近距離,若當前客戶與已知異常的客戶距離較小,則判定該客戶為異??蛻?,反之為正??蛻簦煌鞮OF根據(jù)當前客戶與周圍客戶數(shù)據(jù)的距離以及鄰域內(nèi)的密度,判斷該客戶是否為異??蛻?。

        (3)基于聚類的方法

        基本原理:按照客戶特征屬性,使類內(nèi)樣本的相似性盡可能大,類間樣本的相似性盡可能小,將客戶聚成不同的類。通過考察樣本點與類之間的關系,將不屬于任何類的點或小的偏遠類視為異常值。典型的算法為兩步聚類和K-means算法[4]。

        應用場景:使用不同算法將客戶聚類,根據(jù)設定的異常參數(shù),如異常測度指標,考察客戶與類之間的關系,若顯示該客戶不屬于任一類別或引起類內(nèi)差異較大,則判定該客戶為異??蛻簟?/p>

        (4)基于分類的方法

        基本原理:通過構建訓練集,歸納和提煉出現(xiàn)有數(shù)據(jù)所包含的分類規(guī)律,總結(jié)輸入變量與輸出變量的內(nèi)在關系,構建分類模型,再利用該分類模型對新樣本進行分類預測。典型的算法為決策樹和貝葉斯判別算法[1,4-5]。

        應用場景:根據(jù)已標記正?;虍惓5目蛻粲柧殬颖具M行分類模型的構建,得出異常客戶的特征,如在特定時間內(nèi)達到閾值以上高頻高額消費的客戶為異??蛻?,若新樣本中的客戶出現(xiàn)同一特征,則判定該客戶為異??蛻簟?/p>

        以上四類異常值檢測方法在實際應用中各有利弊,如表1所示。

        表1 異常值檢測方法比較

        3 異常值檢測應用案例

        3.1 數(shù)據(jù)源選取

        以某地市銷售公司2018年交易數(shù)據(jù)為例,選用個人記名卡汽油客戶進行分析,總客戶數(shù)4.4萬人,總交易頻次65.5萬筆。交易數(shù)據(jù)包括交易商品、交易時間、交易地點、交易量、交易金額等信息,其中交易商品包括92、95和98號油品。

        3.2 數(shù)據(jù)預處理

        選用數(shù)據(jù)挖掘軟件SPSS Modeler對數(shù)據(jù)進行收集、清洗和建模,最終選取交易狀態(tài)為正常,交易類型為消費,且交易卡號不為空的交易記錄。

        為挖掘客戶的消費行為規(guī)律,需要先構建衍生變量,建立客戶寬表。結(jié)合 5W2H(七問分析法)行為分析方法,將客戶數(shù)據(jù)從金額、頻次、時間、站點、產(chǎn)品等消費維度構建變量,并對變量進行相應轉(zhuǎn)換生成一系列衍生變量,數(shù)據(jù)更直觀,分析效果更明顯。如根據(jù)單筆交易金額衍生月交易金額,根據(jù)交易頻次、交易時間衍生深夜加油次數(shù)占比,根據(jù)交易站點衍生常去加油站等。衍生變量能更清晰地反映出客戶的特征屬性,更易于對客戶消費行為進行分析比較。

        3.3 異常值檢測

        由于目前成品油零售客戶樣本無目標變量,無法獲得正常或異??蛻舻念悇e標簽,因此采用無監(jiān)督的異常值檢測方法進行分析,主要是基于統(tǒng)計分布和聚類的方法。而異??蛻舻呐卸ㄐ杞Y(jié)合業(yè)務人員的核查結(jié)果,才能明確客戶是否為異常并進行標記,因此后續(xù)將采用基于鄰近性和分類的方法做持續(xù)探索。

        首先基于統(tǒng)計分布的方法對客戶消費行為變量進行探索,按照 3σ準則(拉依達準則)和箱線圖相結(jié)合的方法,初步篩選出發(fā)生在統(tǒng)計分布低概率區(qū)域的大部分疑似異??蛻?;再基于聚類的方法,通過兩步聚類算法進行模型構建,按照設定的異常測度指標進一步篩選,最終兩種方法相結(jié)合篩選出需重點關注的疑似異??蛻?。

        (1)基于統(tǒng)計分布的疑似異??蛻艉Y選

        首先對衍生變量進行統(tǒng)計分布的檢測,最常見的統(tǒng)計分布為正態(tài)分布。若數(shù)據(jù)不服從正態(tài)分布,可以通過對數(shù)轉(zhuǎn)換等方式,使其服從正態(tài)分布。根據(jù)正態(tài)分布的特點,采用 3σ準則進行疑似異常客戶的篩選,將均值±3倍標準差范圍以外的點認為是異常值,但在實際應用中,判斷標準(即標準差的倍數(shù))通常根據(jù)實際業(yè)務需要選取。若數(shù)據(jù)轉(zhuǎn)換后仍不服從正態(tài)分布,則采用箱線圖法進行疑似異??蛻舻暮Y選。箱線圖法認為在數(shù)據(jù)Q3(第三分位數(shù))+1.5IQR(四分位距)和 Q1(第一分位數(shù))-1.5IQR處為異常值截斷點,稱其為內(nèi)限。將內(nèi)限以外位置的點認為是異常值,實際應用中,判斷標準(即IQR的倍數(shù))通常也是根據(jù)實際業(yè)務需要確定。按照 3σ準則、箱線圖法對衍生變量進行探索,篩選出疑似異常客戶,如表2所示。表2給出各衍生變量的臨界值,將臨界值以外的客戶篩選為疑似異??蛻?,如加油時間間隔小于15 min的客戶。這里將觸發(fā)任一變量臨界值的客戶都篩選為疑似異??蛻?,按照客戶ID進行匯總和去重后合計1.6萬人,數(shù)量較大,仍需進一步聚類排查。臨界值探索結(jié)果詳見表2。

        表2 臨界值探索結(jié)果

        (2)基于聚類的重點關注疑似異常客戶篩選

        在確定疑似異??蛻舴秶螅捎脙刹骄垲愃惴?,完成異常客戶的進一步篩選。先將客戶聚成若干類,再在聚類的基礎上,計算所有樣本的異常測度指標,確定重點關注的疑似異??蛻?,并探索在哪個變量方向上導致呈現(xiàn)異常。

        兩步聚類分為預聚類和正式聚類兩個步驟。第一階段預聚類采用貫序方式將客戶粗略劃分成若干子類,第二階段正式聚類根據(jù)親疏程度決定哪些子類可以合并,最終形成K個類。關于聚類數(shù)目,算法自動計算,通常第一階段使用 BIC(貝葉斯信息準則)準則判定,BIC減少幅度最小時為聚類數(shù)目的粗略估計值;第二階段利用類合并過程中,類間差異性最小值變化的相對指標對第一階段粗略估計的聚類數(shù)目進行修正。異常測度指標包括異常指標(AI)、變量差異指標(VDI)等。對于樣本點S,AI定義如下:

        式(1)中:GDIs——樣本點S與所屬類v的對數(shù)似然距離,反映樣本點S引起的類內(nèi)差異;而——類v內(nèi)其他樣本點所引起差異的平均值,Nv為類v的樣本量。AI是一個相對指標,反映客戶所引起的類內(nèi)差異與類內(nèi)其他客戶所引起的類內(nèi)差異平均值的比值。通常認為樣本點引起類內(nèi)差異是其他樣本點引起類內(nèi)差異平均值的2倍以上時,則該樣本點為異常客戶。AI值也可根據(jù)實際業(yè)務需要設定。VDI為樣本點各變量所引起的類內(nèi)差異,反映樣本點S加入類v所引起的類v內(nèi)部差異量中各聚類變量的貢獻大小,將異常客戶的VDI按照降序排序,排在前m的變量是導致該樣本點異常的主要原因,默認為3個變量,可進行參數(shù)設定。

        按照上述分析思路,對統(tǒng)計分布篩選出的疑似異常客戶進一步聚類篩選,選取31個聚類變量,使用異常聚類節(jié)點,在節(jié)點中設置參數(shù)AI值為2,節(jié)點通過自動迭代,最終聚成四類,如表3所示。

        表3 聚類結(jié)果 單位:人

        表3給出了從各類疑似異??蛻糁蟹謩e篩選出的需重點關注的對象,合計431人,排查對象的范圍大幅縮小。從中篩選出需重點關注的疑似異??蛻?,并顯示出引起客戶異常的主要原因變量,如表4所示。

        表4 聚類1異常客戶變量貢獻

        表4以聚類1重點關注的98個疑似異??蛻魹槔?,列出各變量對異常產(chǎn)生的貢獻情況,其中有13人主要由平均加油時間間隔引起,這類客戶在該變量上出現(xiàn)顯著異常,VDI值高達0.311。表5提供了判定為重點關注的疑似異??蛻舻腁I值、引起該客戶異常的前 3位變量以及相應VDI值,以便后續(xù)人工核查。

        表5 重點關注的疑似異??蛻舴治鼋Y(jié)果

        以客戶A為例,其異常測度AI值達到22.546,遠大于設定值 2,說明該客戶異常的可能性很大,引起該客戶異常的第一主要變量為月交易頻次均值,VDI值為0.217,貢獻度最高;第二主要變量為月交易頻次最大值,VDI值為0.163;第三主要變量為月交易金額均值,VDI值為 0.154。根據(jù)客戶 A的異常原因,查看其具體變量值,分別為變量1(月交易頻次均值)為78次,變量2(月交易頻次最大值)為123次,變量3(月交易金額均值)為19 717.6元,說明客戶A在月交易頻次和月交易金額上顯著高于其他客戶,需重點關注,查明原因。通過對以上數(shù)據(jù)分析結(jié)果的解讀,可以大幅提高人工核查的效率和準確度。

        目前成品油零售客戶消費特征的異常值檢測結(jié)果可通過可視化的方式固化在客戶關系管理系統(tǒng)中,根據(jù)業(yè)務需求定期監(jiān)控排查?;谂c加油站的調(diào)研結(jié)果和監(jiān)控視頻的比對發(fā)現(xiàn),異??蛻舻漠a(chǎn)生有兩種情況。一部分情況是屬于“一卡多車”,即由加油站代管加油卡,供機構客戶的車隊司機統(tǒng)一使用,因此出現(xiàn)客戶在單日單站使用同一加油卡高頻高額消費的情況。這種情況反映出辦卡過程的規(guī)范性有待提高,不能將車隊卡辦理為個人卡,已辦理的需盡快變更卡片屬性,若同時還缺少加油卡代管協(xié)議,雙方應盡快補充簽訂。另一部分情況屬于個別加油員利用加油卡折扣套現(xiàn)套利,這種情況就會為企業(yè)帶來營銷成本的損失,應及時發(fā)現(xiàn)、及時處理。針對有加油卡代管協(xié)議的客戶將在客戶關系管理系統(tǒng)中通過添加白名單加以管理,減少無效的異常監(jiān)控,同時對于其他不符合業(yè)務管理要求的情況,將針對數(shù)據(jù)挖掘的結(jié)果詳細核查,進一步規(guī)范加油站的客戶管理,提升企業(yè)的精細化管理水平。

        4 結(jié)束語

        本文是基于大數(shù)據(jù)分析技術進行成品油零售客戶消費行為異常值檢測。 首先基于統(tǒng)計分布的方法對衍生變量進行探索,初步鎖定疑似異??蛻舻姆秶?,其次進一步基于聚類的方法,對初步篩選的疑似異??蛻暨M行細分,根據(jù)異常測度指標的設定,篩選出需重點關注的疑似異常客戶,并列出引起該客戶數(shù)據(jù)異常的原因。經(jīng)過層層篩選,最終確定的重點關注疑似異常客戶將更加精準,能夠有效輔助業(yè)務人員核查,不僅節(jié)約人力成本,更從最大限度上避免了企業(yè)不必要的損失。

        猜你喜歡
        聚類交易變量
        抓住不變量解題
        也談分離變量
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進的遺傳算法的模糊聚類算法
        交易流轉(zhuǎn)應有新規(guī)
        上海國資(2015年8期)2015-12-23 01:47:28
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        大宗交易
        《吃飯的交易》
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        驚人的交易
        科學啟蒙(2014年10期)2014-11-12 06:15:39
        色优网久久国产精品| 蜜桃av抽搐高潮一区二区| 天干天干啦夜天干天2017| 老熟妇Av| 亚洲一区二区三区视频免费 | 久久精品国产成人午夜福利| 亚洲中文久久精品无码| 国产99re在线观看只有精品| 极品少妇被后入内射视| 男女啪啪视频高清视频| 欧美牲交a欧美牲交aⅴ免费真| 91精品一区国产高清在线gif| 亚洲青青草视频在线播放| 国产情侣亚洲自拍第一页| 免费人妻无码不卡中文字幕系| 国产成人精品日本亚洲18| 视频网站在线观看不卡| 男女啪啪视频高清视频| 日本免费a级毛一片| 狠狠躁天天躁无码中文字幕图| 日韩女同一区二区三区久久| 成熟人妻换xxxx| 成人性做爰aaa片免费看| 亚洲av人妖一区二区三区| 国产日产韩国级片网站| 久久久久成人精品无码中文字幕 | 亚洲国产精品久久艾草| 久久人人爽人人爽人人片亞洲| 久久99精品久久久久久国产人妖| 成h视频在线观看免费| 成人免费xxxxx在线观看| 天天爽夜夜爽人人爽曰喷水| 一本色道亚州综合久久精品| 香蕉视频在线观看亚洲| 无码人妻丰满熟妇片毛片| 人妻无码ΑV中文字幕久久琪琪布| 午夜男女靠比视频免费| 国产精品亚洲αv天堂无码| 国产人成无码视频在线| 成人影院羞羞的视频免费观看| 日韩av激情在线观看|