亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林分類器的C2C電子商務(wù)欺詐識別模型構(gòu)建

        2018-11-06 07:57:54衛(wèi)昆李想
        中小企業(yè)管理與科技 2018年24期
        關(guān)鍵詞:分類

        衛(wèi)昆,李想

        (1.西安郵電大學(xué)經(jīng)濟與管理學(xué)院,西安 710121;2.武漢烽火國際技術(shù)有限責(zé)任公司,武漢 430000)

        1 C2C電子商務(wù)發(fā)展及其交易欺詐問題

        隨著互聯(lián)網(wǎng)的發(fā)展,C2C電子商務(wù)交易模式不斷成熟穩(wěn)定,以其不受地域時間的限制、高效率、低成本等優(yōu)勢而受到越來越多人的青睞。近年來我國電子商務(wù)消費者人數(shù)迅速增長,根據(jù)CNNIC第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計》,截至2017年12月底我國電子商務(wù)市場的交易總額高達29.16億元,較之2016年增幅約為11.7%。網(wǎng)絡(luò)購物市場總交易規(guī)模高達6.2億元,比2016年增長24%。2010年C2C市場的交易額約為4651億元,2015年C2C電子商務(wù)在中國整體網(wǎng)絡(luò)購物市場規(guī)模中增長率為19.5%,2017年天貓雙11全球狂歡節(jié)交易額高達1682億元,年增長39%,數(shù)據(jù)表明C2C電子商務(wù)模式發(fā)展空間很大。

        2 相關(guān)理論方法介紹

        2.1 分類器原理

        分類器是利用分類技術(shù)構(gòu)建的模型,主要是用來預(yù)測數(shù)據(jù)對象的離散類別,經(jīng)過對訓(xùn)練集(由類別已知的數(shù)據(jù)組成)的學(xué)習(xí)得到一個分類模型,可視作一個目標(biāo)函數(shù),待測集(所屬類別未知的數(shù)據(jù))中的每個樣本通過該目標(biāo)函數(shù)的映射,得出一個被預(yù)測的類別。

        2.2 分類器性能評價指標(biāo)

        在分類器構(gòu)建完成后,通常需要使用一系列的指標(biāo)去衡量它的分類性能,首先是混淆矩陣?;煜仃?,現(xiàn)在假設(shè)分類變量只有兩個類別,分別為正例(positive)和負例(negative),其中,True positives(TP):表示實際為正例且被分類器判斷為正例的樣本的數(shù)量;False positives(FP):表示實際為負例但被分類器判斷為正例的樣本的數(shù)量;False negatives(FN):表示實際為正例但被分類器判斷為負例的樣本的數(shù)量;True negatives(TN):表示實際為負例且被分類器判斷為負例的樣本的數(shù)量。

        2.3 決策樹與隨機森林

        決策樹可以抽象理解為一個樹形結(jié)構(gòu),樹中的每個非葉子節(jié)點代表某個屬性,每個分支代表某個屬性值,每個葉子節(jié)點對應(yīng)著從根節(jié)點到該葉子節(jié)點所經(jīng)歷的路徑表示的樣本的類別,即葉子節(jié)點代表的屬性就是該樣本的分類結(jié)果。

        隨機森林分類器是包含多個決策樹的一種組合分類器,最終的分類結(jié)果由這些決策樹共同決定。隨機森林的特點主要體現(xiàn)在它的兩個隨機性上,第一個隨機性是它在構(gòu)建每一個決策樹時,采用自助法(bootstrap)重采樣技術(shù),即有回放地從數(shù)據(jù)集中隨機抽取一定數(shù)量的樣本,第二個隨機性是在決策樹進行節(jié)點分裂時,隨機選擇若干屬性參與比較,以確定分裂節(jié)點。

        3 基于隨機森林的C2 C交易欺詐識別模型構(gòu)建

        3.1 數(shù)據(jù)收集及屬性確定

        本研究從淘寶網(wǎng)收集了真實交易數(shù)據(jù),整理后共包含41個屬性,其中屬性“is_cheat”為目標(biāo)屬性,用來表示樣本的類別(欺詐商家,非欺詐商家),由于隨機森林算法在構(gòu)建決策樹節(jié)點時,從數(shù)據(jù)集所有變量(除目標(biāo)屬性和用于標(biāo)識的屬性)中隨機選取若干屬性進行比較,所以它能夠處理擁有屬性較多的數(shù)據(jù),無需進行特征選擇[1]。如表1所示為各屬性名和它們的含義。

        該數(shù)據(jù)集含樣本1456條,類別為“欺詐賣家”的樣本數(shù)為621,類別為“非欺詐賣家”的樣本數(shù)為835,訓(xùn)練集和測試集的樣本數(shù)量。

        表1 數(shù)據(jù)集各屬性名及含義

        續(xù)表1:

        3.2 隨機森林分類器的構(gòu)建與訓(xùn)練

        3.2.1 分類器相關(guān)參數(shù)選擇

        ①mrty參數(shù)的選取

        mrty參數(shù)表示隨機森林在分類節(jié)點處選擇參考的屬性的數(shù)量,對隨機森林分類的準(zhǔn)確度有很大影響。為了確定mrty的最優(yōu)取值,本文設(shè)計如下實驗:將mrty的值分別取為50、100、150,mrty取3至10之間的整數(shù)(若數(shù)據(jù)集的屬性個數(shù)為M,則mrty的值一般取為,由于本研究中,“count_id”和“is_cheat”屬性不計算在內(nèi),則的值介于6和7之間,所以取3至10之間的整數(shù)進行實驗),以訓(xùn)練集為數(shù)據(jù)集,以F的值為評價指標(biāo),分類器的分類性能和F的值呈正相關(guān)。當(dāng)mrty=6時,F(xiàn)的值比較穩(wěn)定且普遍較高,所以選定mrty的值為6,即將要構(gòu)建的隨機森林分類器在分類節(jié)點處選擇參考的屬性的數(shù)量為6。

        ②ntree參數(shù)的選取

        ntree參數(shù)表示隨機森林中所要生產(chǎn)樹的數(shù)量,它的取值對最終的分類效果也起著至關(guān)重要的作用,所以本文也設(shè)計如下實驗來確定其最優(yōu)取值:mtry取值為6,將ntree的取值分別設(shè)定為 10、40、70、100、130、160、190、220、250,同樣以訓(xùn)練集為數(shù)據(jù)集,以F的值為評價指標(biāo)。當(dāng)mtry=6,ntree=70時,所得到的F值最大,此時分類器的分類效果也相對最好,所以我們將參數(shù)ntree的值確定為70。

        3.2.2 隨機森林分類器的訓(xùn)練

        在確定分類器構(gòu)建所需要的軟件及相關(guān)參數(shù)的取值后,分類器的運行流程

        參數(shù)值確定后,進行分類器的構(gòu)建,在R軟件中輸入如下程序:

        library(randomForest);#加載隨機森林程序包

        Data_train <-read.csv("F:/train.csv",header=TRUE);#讀入訓(xùn)練集數(shù)據(jù)

        Data_test<-read.csv("F:/test.csv",header=TRUE);# 讀入測試集數(shù)據(jù)

        RF <-randomForest(is_cheat~ ,Data_train,importance=TRUE,ntree=70,mtry=6);#運行randomForest()函數(shù)

        A=predict(RF,Data_test,type="response");#運用測試集對隨機森林分類器進行測試

        table(A,Data_test$is_cheat)#將測試結(jié)果進行展示

        4 結(jié)論

        本文在C2C電子商務(wù)交易欺詐日漸嚴(yán)重的情況下,提出以數(shù)據(jù)挖掘技術(shù)中的隨機森林算法構(gòu)建分類器模型,介紹了決策樹與隨機森林的原理、構(gòu)建過程,對二者的分類性能進行了對比,得出了隨機森林分類器分類效果好于決策樹分類器的結(jié)論。進而運用從淘寶網(wǎng)上收集的真實交易數(shù)據(jù)進行分類器模型的構(gòu)建,通過使用R軟件、確定相關(guān)參數(shù)、測試集測試等步驟,構(gòu)建了具有較高分類正確率的隨機森林分類器模型,可以對欺詐商家進行有效的識別。本文工作試圖從C2C電子商務(wù)交易賣家數(shù)據(jù)中有效地識別出欺詐賣家,以期望C2C電子商務(wù)交易欺詐問題能夠早日得到解決,人們能夠獲得更加良好更加放心的網(wǎng)上購物體驗,賣家可以在公平的環(huán)境下競爭,C2C電子商務(wù)持續(xù)健康發(fā)展。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        精品女同一区二区三区亚洲| 国精产品一区二区三区| 欧美视频第一页| 另类人妖在线观看一区二区| 亚洲色图专区在线视频| 欧美video性欧美熟妇| 久久国产精品波多野结衣av| aⅴ色综合久久天堂av色综合| 免费看av网站在线亚洲| 欧美性猛交xxxx免费看蜜桃| 开心婷婷五月激情综合社区| 伊人狠狠色j香婷婷综合| 日本一区二区三级免费| 亚州国产av一区二区三区伊在| 精品国产一区二区三区久久狼| 久久99精品波多结衣一区| 亚洲日产乱码在线中文字幕| 一女被多男玩喷潮视频| 99精品视频在线观看| 中文字幕精品亚洲无线码二区| 91精品国自产拍老熟女露脸| 欧美人与禽zozzo性伦交| 激情内射亚洲一区二区三区爱妻| 日韩偷拍视频一区二区三区| 丰满的少妇av一区二区三区| 亚洲欧美国产国产综合一区| 91精品国产91久久久无码95| 伊人久久综合狼伊人久久| 亚洲国产亚综合在线区| 国产成a人亚洲精v品无码性色| 8090成人午夜精品无码| 一道之本加勒比热东京| 国产午夜精品一区二区| 国产精品一区高清在线观看| 91中文字幕精品一区二区| 天天综合网网欲色| 亚洲国产精品特色大片观看完整版 | 国产激情小视频在线观看 | 一本久道久久综合五月丁香| 国产成人美涵人妖视频在线观看| 天天做天天摸天天爽天天爱|