亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分類回歸樹模型的商業(yè)網(wǎng)站營業(yè)數(shù)據(jù)分析與探討

        2010-04-16 09:15:32武峰
        電腦與電信 2010年6期
        關鍵詞:商家規(guī)則建模

        武峰

        (廣州大學華軟軟件學院,廣東廣州510990)

        1.引言

        我國的電子商務近年來飛速發(fā)展,尤其基于網(wǎng)絡的電子交易越來越普及,典型的C2C模式的淘寶網(wǎng)交易金額2009年上半年已經(jīng)達到1000億,每天的瀏覽量超過900萬人次,注冊淘寶網(wǎng)的用戶數(shù)目前已經(jīng)達到7200萬[1]。這樣一個龐大的購物群必然蘊含著無限商機。

        分類和回歸樹(CART Classification and Regression Trees)技術是一種用于數(shù)據(jù)集分類決策樹技術,也可稱為二元回歸分解技術[2]。它的輸入量可以是連續(xù)特征和離散特征的變量,變量之間可以是模擬非線性的關系。利用分類回歸樹可以自動探測出高度復雜數(shù)據(jù)的潛在結構、重要模式和關系;探測出的知識又可用來構造精確和可靠的預測模型,應用于分類客戶、保險詐騙和信用風險管理等。本文主要從網(wǎng)絡商家的角度研究商家店鋪信譽、商品價位、所在地域等,從而探討其與商品銷售量的關聯(lián)度及哪一些因子是影響網(wǎng)絡營銷中的關鍵因子。

        2.建立模型

        本文應用SPSS公司的商業(yè)智能分析軟件Clementine構建分類回歸樹模型,對C2C模式的淘寶家飾精品類的網(wǎng)站店鋪半年營業(yè)數(shù)據(jù)進行分析建模。

        2.1 數(shù)據(jù)采集

        利用Topfisher工具軟件將某網(wǎng)站的交易記錄采集到指定數(shù)據(jù)庫中,難點是對超鏈接網(wǎng)頁中的重要屬性及信息的選擇和自動存取的過程。這需要親自編寫腳本工具程序實現(xiàn),最后的采集結果見表1。

        表1 利用Topfisher工具從網(wǎng)上精品店采集到的銷售原始記錄

        2.2 數(shù)據(jù)預處理

        對原始數(shù)據(jù)進行篩選、分類合并、匯總及數(shù)據(jù)格式的轉換等。目的是為了讓數(shù)據(jù)挖掘軟件Clementine中的CART算法建立模式更準確。

        2.2.1 數(shù)據(jù)準備

        數(shù)據(jù)挖掘最后成功與否,是否能夠起到?jīng)Q策支持作用,關鍵在于數(shù)據(jù)預處理。由于在ACCESS數(shù)據(jù)庫中對數(shù)據(jù)篩選排序等方面操作復雜,而SPSS的Clementine軟件對Excel數(shù)據(jù)的導入有更好的支持,所以將數(shù)據(jù)導出到Excel數(shù)據(jù)表中,在數(shù)據(jù)導入SPSS的Clementine之前,可以先人工對變量進行初步處理,刪除一些明顯不必要的變量以及在數(shù)據(jù)采集過程中某些不完整的記錄,這樣有助于提高模型的運行效率及結果的精確度[3]。

        根據(jù)研究目標,進一步分析成交記錄中哪一些價位的網(wǎng)絡商品在家飾精品類屬于熱銷品或對于同樣的商品哪一些因素是影響成交量的主要因子。本文對銷售記錄中的一些屬性以及商家的有關屬性進行匯總整理出數(shù)值屬性表,如表2所示。采用分類匯總的方法將各自店鋪不同價位商品按一個價位劃分標準進行分級量化,表3定義了商品單價劃分層次,將價格統(tǒng)一化,容易比較與歸類。

        表2 分類匯總之后的數(shù)據(jù)屬性表

        表3 商品單價劃分層次定義

        2.2.2 數(shù)據(jù)轉換

        作為數(shù)據(jù)預處理的重要部分,數(shù)據(jù)轉換是應用簡單的數(shù)學公式或學習曲線變換度量方法,將數(shù)據(jù)轉換到一個統(tǒng)一的度量范圍內,達到數(shù)據(jù)分析的目的。在進行分類回歸建模時,輸入的變量既可以是連續(xù)變量,又可以是分類變量,但本文研究的是分類決策樹的問題,所以輸出變量為分類變量,所以要將輸出的每月銷售量這個連續(xù)變量轉變?yōu)榉诸愖兞?。根?jù)網(wǎng)絡家飾精口的銷售經(jīng)驗平均量對每種價位層次的商品數(shù)量進行定義:每月銷售量大于50件的為熱銷品,少于50件的定義為非熱賣品,這樣可以將連續(xù)型數(shù)據(jù)轉化為分類型數(shù)據(jù)。另外,還要將文本型的商家所在地轉化為數(shù)值類型數(shù)據(jù),從而提高模型的運行效率。圖1是數(shù)據(jù)轉換后在Clementine軟件的屬性類型節(jié)點定義。

        2.3 建模

        主要采用分類回歸樹CART算法建立數(shù)據(jù)模型,參數(shù)設置中基于樹生長的“基尼系數(shù)”(GINI)[4],后剪枝策略,評估方面采用K-折交叉驗證的方法來優(yōu)化樹,設置最大生長深度為5層,且葉子節(jié)點中的對象個數(shù)少于總對象個數(shù)的1%,父節(jié)點中的對象個數(shù)少于總對象個數(shù)的2%。建模的過程如圖2。

        圖1 C l e m e n t i n e軟件建模所用數(shù)據(jù)類型

        圖2 CART算法模型建立圖

        3.模型運行結果及分析

        3.1 CART算法模型運行結果

        通過對240條匯總的數(shù)據(jù)記錄(既作為訓練集又作為預測集)進行分析建模,運行結果如圖3:

        圖3 基于CART算法模型結果樹型圖及IF-THEN規(guī)則圖

        從CART算法的樹狀模型結果圖可以清晰看到整個模型的大致結構,整個模型有5個葉節(jié)點,總共有11個節(jié)點,從根節(jié)點向下一共有四層,即此樹模型的的深度為4,根節(jié)點以及每個內部節(jié)點下面都標明了進行分支的依據(jù)變量及其閾值,且每個節(jié)點都標明了此節(jié)點所包含熱銷品與非熱銷品的每月銷售量大于50件的個數(shù)和這些個數(shù)占總個數(shù)的百分比,以及此節(jié)點總的個數(shù)和占總數(shù)的百分比。從CART算法模型運行的IF-THEN規(guī)則圖中發(fā)現(xiàn)共生成六條規(guī)則,其中規(guī)則用于0的包含4條規(guī)則,即用于非熱銷品的規(guī)則;用于1的包含2條規(guī)則,即用于是熱銷品的規(guī)則。從根節(jié)點到葉節(jié)點的每條路徑都對應著一條(IF-THEN)語句規(guī)則,IF后指代的是影響銷售商品的一些特征屬性,例如有商品價位、商家信譽、銷售月份,THEN表示預測出該價位商品是否為熱銷品。

        3.2 CART算法模型運行結果分析

        大部分的分支都是非熱銷品的規(guī)則,只有兩條是我們想要預測的熱銷商品的規(guī)則。第一條是:假如商品價位在低于200元情況下,商家信用是四鉆等級,且在2,3,4,5月份所賣低于10元的商品則會成為熱銷品。第二條是:如果商品價位在低于200元情況下,商家信用是五鉆以上等級,且所賣介于10元到30元或介于50元到100元的商品則會成為熱銷品。其余四條是非熱銷品規(guī)則,值得注意的是有一條規(guī)則比較有參考價值,即:如果商品價格大于200元,在家飾精品類這樣的商品很難成為熱銷品。

        決策樹模型建立的過程也是參數(shù)變量重要性評定的一個過程。從圖3左圖可以看出影響銷售量的影響因子是價格、商家信用、月份,這三個因子是按重要性依次遞減。原因是商品價位在兩層分類重復出現(xiàn),說明商品價格是影響熱銷品的一個重要影響因子。其次是商家信用,從規(guī)則中可以看出低信譽度網(wǎng)絡商家賣低價位商品容易成為熱賣品,高信譽度網(wǎng)絡商家賣中、高價位的商品容易成為熱銷品。最后是月份,它是影響因子中最小影響銷售量的一個因子,但也能看出一些規(guī)則,在非熱銷品的月份中有1月和6月是屬于淡季月份。最無關因子是商家所在地,也就是網(wǎng)絡銷售量無關乎所在地域不同,不存在地域性差異,當然也許我們所選的只有三個地區(qū)來源,沒有明顯的區(qū)分性。

        3.3 CART算法模型評估

        在完成基于分類回歸樹算法的建模和結果分析后,我們將利用預測集的數(shù)據(jù)來檢驗此模型的準確度,執(zhí)行觀測集數(shù)據(jù)流的結果評估,如圖4:

        圖4 基于CART算法模型準確率分析圖

        由圖可知,用CART算法對預測集進行檢測后,此模型的準確率為84.58%,數(shù)據(jù)為203個,錯誤率為15.42%,數(shù)據(jù)為37個。從模型運行結果分析可以看出此模型對網(wǎng)絡熱銷商品的識別方面具有一定的參考意義。只有數(shù)據(jù)信息量足夠大,結果的準確率才會更高,而本文中所匯總后的銷售記錄數(shù)偏少。在現(xiàn)實生活中,銷售的記錄數(shù)要遠遠大于這些。另外,還有其它影響銷售量的主要因素,比如廣告、打折促銷等都是影響網(wǎng)絡銷售量的重要因子。由于我們所采集到的數(shù)據(jù)中缺乏這樣的信息,而且實際中影響因子也都是不同的,這些都是影響模型結果準確率的主要原因。

        4.結束語

        通過CART模型結果分析影響網(wǎng)絡銷售量的重要影響因子及得到網(wǎng)絡熱銷品的有用規(guī)則,是一次很有意義的理論結合實踐的嘗試。一方面通過建立CART模型得到一些有價值的商業(yè)營業(yè)規(guī)則,可以幫助網(wǎng)絡經(jīng)營商經(jīng)營決策;另一方面,通過數(shù)據(jù)建模也驗證了CART算法的正確性、優(yōu)越性和易用性。

        [1]2009年上半年中國網(wǎng)絡購物市場發(fā)展報告[EB/OL].http://down.iresearch.cn/Reports/Free/1306.html

        [2]Jiawei Han Micheline Kamber.數(shù)據(jù)挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業(yè)出版社,2008.

        [3]戴維·奧爾森.商業(yè)數(shù)據(jù)挖掘導論[M].石勇,呂巍等譯.北京:機械工業(yè)出版社,2007.

        [4]陳燕燕,許青松.分類回歸樹及其在個人信用評估中的應用[D].湖南:中南大學,2007.

        猜你喜歡
        商家規(guī)則建模
        The Thin Line
        漢語世界(2023年3期)2023-09-15 10:25:48
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
        商家出售假冒商品,消費者獲十倍賠償
        公民與法治(2020年9期)2020-05-30 12:45:12
        基于PSS/E的風電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        春節(jié)黃金周陜西省商家攬金二百一十億元
        日本精品免费一区二区三区| 开心五月婷婷综合网站| 国产白浆精品一区二区三区| 亚洲av永久一区二区三区| av一区二区三区在线| 人人摸人人搞人人透| 久久99精品国产麻豆| 色欲av亚洲一区无码少妇| 欧美极品美女| AV中文字幕在线视| 国产女主播在线免费观看| 日本韩国一区二区高清| 亚洲中文字幕人妻av在线| 精品国产性色无码av网站| 亚洲爱婷婷色婷婷五月| 国产激情视频在线观看首页| 中文国产成人精品久久一区| 日韩av一区二区无卡| 激情亚洲一区国产精品久久| 亚洲一区二区三区av无码| 女人夜夜春高潮爽a∨片传媒| 视频在线观看一区二区三区| 天堂a版一区二区av| 熟女人妻在线中文字幕| 熟妇人妻无码中文字幕老熟妇| 无码人妻久久一区二区三区免费| 亚洲色欲久久久久综合网| 国产精品亚洲A∨天堂| 国产一区二区精品av| 国产av一区二区毛片| 欧美多人片高潮野外做片黑人| 国产av综合影院| 91白浆在线视频| av在线男人的免费天堂| 午夜视频一区二区三区四区| 噜噜综合亚洲av中文无码| 天堂а√在线中文在线新版| 禁止免费无码网站| 免费观看国产激情视频在线观看| 亚洲av无一区二区三区久久蜜桃| 免费又黄又爽又色的视频|