亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向用戶的電商平臺(tái)刷單行為智能檢測(cè)方法

        2018-04-12 05:51:12康海燕于愛(ài)民
        計(jì)算機(jī)應(yīng)用 2018年2期
        關(guān)鍵詞:刷單分類(lèi)電商

        康海燕,楊 悅,于愛(ài)民

        (1.北京信息科技大學(xué) 信息管理學(xué)院,北京 100192; 2.中國(guó)科學(xué)院 信息工程研究所,北京 100093)(*通信作者電子郵箱kanghaiyan@126.com)

        0 引言

        隨著電子商務(wù)行業(yè)的迅猛發(fā)展,網(wǎng)絡(luò)購(gòu)物逐漸成為一種新的生活方式,但電商行業(yè)的惡性競(jìng)爭(zhēng)也愈演愈烈。2016年的3·15晚會(huì)上曝光的購(gòu)物平臺(tái)瘋狂刷單現(xiàn)象[1],揭露了時(shí)下電商平臺(tái)惡性競(jìng)爭(zhēng)的不良后果。所謂“刷單”是指網(wǎng)店經(jīng)營(yíng)者雇傭?qū)I(yè)從事網(wǎng)店信譽(yù)提升的刷單平臺(tái)或網(wǎng)站,模擬真實(shí)的網(wǎng)購(gòu)流程,僅有貨款往來(lái),不進(jìn)行商品的收發(fā),以提高店鋪的信譽(yù)度和銷(xiāo)量,實(shí)現(xiàn)流量?jī)r(jià)值轉(zhuǎn)換。電商刷單具有一定的隱蔽性,因此活躍在法律的灰色地帶,對(duì)經(jīng)濟(jì)秩序造成了嚴(yán)重威脅。但由于電商業(yè)務(wù)尚在發(fā)展之中,各種約束規(guī)范都不完善,所以電商平臺(tái)的刷單問(wèn)題暫時(shí)很難通過(guò)法律制度得到有效解決,刷單之風(fēng)盛行所帶來(lái)的不良影響體現(xiàn)在各個(gè)方面。

        為了解決刷單所帶來(lái)的信譽(yù)安全問(wèn)題,淘寶和京東一直致力于刷單檢測(cè)系統(tǒng)的開(kāi)發(fā)和完善。文獻(xiàn)[2]介紹了京東商城的“天網(wǎng)”系統(tǒng),目前已全面覆蓋京東商城數(shù)十個(gè)業(yè)務(wù)節(jié)點(diǎn),有效支撐了京東集團(tuán)旗下的京東到家及海外購(gòu)風(fēng)控的相關(guān)業(yè)務(wù),保證了消費(fèi)者的利益和京東的業(yè)務(wù)流程。京東反刷單系統(tǒng)從訂單、商品、用戶、物流等多個(gè)維度進(jìn)行統(tǒng)計(jì),分別計(jì)算每個(gè)維度下的不同特征值,能夠較精準(zhǔn)識(shí)別刷單相關(guān)的惡意行為。文獻(xiàn)[3]詳細(xì)介紹了淘寶后臺(tái)檢測(cè)刷單的第三代稽查系統(tǒng),主要包括機(jī)審和人工審核兩方面。機(jī)審的判定順序?yàn)椋号袛帱c(diǎn)擊過(guò)濾(pmcots防惡意點(diǎn)擊系統(tǒng))→判斷交易(ctu支付寶智能實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)控系統(tǒng))→檢索訂單數(shù)據(jù)(數(shù)據(jù)檢索系統(tǒng))→結(jié)果判定。先根據(jù)計(jì)算機(jī)本身的物理信息來(lái)判斷,再根據(jù)各個(gè)檢測(cè)維度判斷訂單是否在正常范圍內(nèi),綜合考慮判定商品是否有刷單嫌疑。機(jī)審主要依靠三大檢測(cè)系統(tǒng):CTU(支付寶智能實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)控系統(tǒng))、pmcots系統(tǒng)(防惡意點(diǎn)擊系統(tǒng))和數(shù)據(jù)檢索系統(tǒng)。CTU是支付寶風(fēng)險(xiǎn)管理的一個(gè)核心系統(tǒng),基于用戶行為來(lái)判斷風(fēng)險(xiǎn)等級(jí),集風(fēng)險(xiǎn)分析、預(yù)警、控制為一體,并配備風(fēng)險(xiǎn)稽核專(zhuān)家小組進(jìn)行風(fēng)險(xiǎn)稽查及處置,進(jìn)行全天候風(fēng)險(xiǎn)監(jiān)控。pmcots系統(tǒng)主要考核的是流量環(huán)節(jié),檢測(cè)技術(shù)包括IP防止作弊、Netclean防止作弊,點(diǎn)擊率對(duì)比,唯一參數(shù)識(shí)別(如MAC、硬盤(pán)序列號(hào)、瀏覽器版本、系統(tǒng)UI等),分析流量來(lái)源和流量構(gòu)成,考察點(diǎn)擊時(shí)間參數(shù)有效性、物流信息真實(shí)性,進(jìn)行瀏覽時(shí)間和深度比對(duì),記錄鼠標(biāo)值以檢測(cè)刷單軟件。數(shù)據(jù)檢索系統(tǒng)是從索引數(shù)據(jù)庫(kù)或存儲(chǔ)數(shù)據(jù)中查找和選取所需數(shù)據(jù)的過(guò)程。對(duì)于稽查系統(tǒng)難以判斷的訂單進(jìn)行人工排查得出最終結(jié)果,店家可申訴,申訴后即可進(jìn)入人工判定階段,通過(guò)查看商品評(píng)價(jià)內(nèi)容、買(mǎi)家信息等進(jìn)行判斷。

        綜合分析當(dāng)前電商平臺(tái)所研發(fā)的檢測(cè)刷單系統(tǒng),均為后臺(tái)封裝系統(tǒng),檢測(cè)結(jié)果對(duì)消費(fèi)者不公開(kāi),無(wú)法對(duì)用戶網(wǎng)購(gòu)提供直接的參考。所以在電商行業(yè)和立法部門(mén)對(duì)于刷單行為的努力遏制的同時(shí),作為刷單現(xiàn)象的直接受害者——網(wǎng)購(gòu)群體也需要有一個(gè)自行判別刷單行為的第三方工具,以此降低刷單對(duì)于消費(fèi)者所造成的財(cái)產(chǎn)損失。本文主要工作有:1)提出了面向用戶的電商平臺(tái)刷單行為智能檢測(cè)方法SVM-NB,該方法能定量計(jì)算出商品信息的可信度,有很強(qiáng)的說(shuō)服力;2)提出了構(gòu)建刷單特征值方法;3)通過(guò)K折交叉驗(yàn)證算法驗(yàn)證了SVM-NB方法的合理性和準(zhǔn)確性,實(shí)驗(yàn)條件下計(jì)算結(jié)果的準(zhǔn)確率高達(dá)95.053 6%,并與相關(guān)工作進(jìn)行了對(duì)比。

        1 關(guān)鍵技術(shù)

        1.1 支持向量機(jī)

        本文提出的面向用戶的電商平臺(tái)刷單行為智能檢測(cè)方法SVM-NB采用支持向量機(jī)(Support Vector Machine, SVM)[4-6],基于有監(jiān)督學(xué)習(xí),通過(guò)多次訓(xùn)練得出訓(xùn)練點(diǎn)和類(lèi)別之間的對(duì)應(yīng)關(guān)系,以便判斷待測(cè)點(diǎn)所對(duì)應(yīng)的類(lèi)別,它在解決小樣本、非線性以及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。

        設(shè)X為N維輸入空間的訓(xùn)練向量,令Φ(X)=[φ1(X),φ2(X),…,φM(X)]表示從輸入空間到M維特征空間的非線性變換,Φ(X)稱(chēng)為輸入向量X在特征空間誘導(dǎo)出的“像”,并且可在該特征空間構(gòu)建一個(gè)分類(lèi)超平面,數(shù)學(xué)公式[7]如下:

        (1)

        其中:wj為將特征空間鏈接到輸出空間的權(quán)值;b為偏置。

        其拉格朗日函數(shù)為:

        (2)

        其中:拉格朗日系數(shù)αp≥0,第一項(xiàng)為代價(jià)函數(shù)(W),第二項(xiàng)非負(fù)。

        (3)

        最優(yōu)判別函數(shù)為:

        (4)

        1.2 爬蟲(chóng)技術(shù)

        網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是一種“自動(dòng)瀏覽網(wǎng)絡(luò)”的程序,從一個(gè)或若干個(gè)初始網(wǎng)頁(yè)的URL開(kāi)始,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的停止條件結(jié)束。爬蟲(chóng)技術(shù)工作原理:1)首先將當(dāng)前用戶搜索的網(wǎng)頁(yè)URL放入待抓取URL隊(duì)列;2)從待抓取的URL隊(duì)列中取出URL,下載對(duì)應(yīng)的電商網(wǎng)頁(yè),存入已下載網(wǎng)頁(yè)庫(kù)中,并將這些URL放入已抓取URL隊(duì)列;3)從已抓取的URL隊(duì)列中抽取新的URL進(jìn)入下一個(gè)循環(huán)。

        2 SVM-NB方法

        SVM-NB方法的流程如圖1所示。

        圖1 SVM-NB方法流程Fig.1 Flow chart of SVM-NB method

        具體步驟如下:

        1)數(shù)據(jù)獲取階段。

        第1步通過(guò)文獻(xiàn)查詢、商家調(diào)研和網(wǎng)頁(yè)爬蟲(chóng)三種方式對(duì)不同行業(yè)的典型商品建立原始數(shù)據(jù)庫(kù),包括單一商品與行業(yè)數(shù)據(jù)的正常數(shù)據(jù)和異常數(shù)據(jù)(即疑似刷單的店鋪商品數(shù)據(jù))。

        第2步用戶有兩種方式來(lái)查詢商品:一種是地址輸入,即在網(wǎng)頁(yè)地址搜索框輸入目標(biāo)商品的網(wǎng)頁(yè)地址,確認(rèn)查詢,系統(tǒng)后臺(tái)根據(jù)用戶輸入的網(wǎng)址以及選擇的時(shí)間段,自動(dòng)獲取目標(biāo)商品的頁(yè)面、類(lèi)別、商品信息等;另一種方式是在當(dāng)前商品頁(yè)面查詢商品名稱(chēng)或者編號(hào),若數(shù)據(jù)庫(kù)中存在該商品信息,則可以直接從數(shù)據(jù)庫(kù)獲取,否則只能采用第一種方式來(lái)查找商品。

        第3步系統(tǒng)后臺(tái)先在數(shù)據(jù)庫(kù)中查詢?cè)撋唐肥欠癖粰z測(cè)過(guò)。若未檢測(cè)過(guò),則通過(guò)網(wǎng)頁(yè)爬蟲(chóng)技術(shù)和數(shù)據(jù)庫(kù)查詢,獲得其原始數(shù)據(jù)(特征量包括訪客數(shù)、咨詢數(shù)、付款數(shù)、訂單數(shù)、收藏?cái)?shù)、點(diǎn)擊次數(shù)、買(mǎi)家ID、下單時(shí)間、確認(rèn)收貨時(shí)間、付款時(shí)間、店鋪停留時(shí)間、交易時(shí)間、IP地址信息),存入數(shù)據(jù)庫(kù)對(duì)應(yīng)表中。

        2)數(shù)據(jù)預(yù)處理階段。

        第4步將刷單和不刷單兩類(lèi)商品的原始數(shù)據(jù)進(jìn)一步計(jì)算,轉(zhuǎn)化為特征率值,記入初始特征向量集。

        第5步對(duì)行業(yè)的初始數(shù)據(jù)作同等處理,建立特征值數(shù)據(jù)庫(kù)。

        第6步將優(yōu)化后的特征數(shù)據(jù)項(xiàng)進(jìn)行歸一化處理,去除極端數(shù)據(jù)。

        3)訓(xùn)練模型階段。

        第7步將經(jīng)過(guò)預(yù)處理的兩類(lèi)數(shù)據(jù)格式轉(zhuǎn)化成SVM分類(lèi)器可接受的輸入格式(類(lèi)別向量Y,特征向量Xi),作為訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。

        第8步設(shè)置SVM參數(shù),并利用K折交叉驗(yàn)證算法尋找最優(yōu)參數(shù)。

        4)算法處理階段。

        第9步將用戶輸入的目標(biāo)商品特征值作為測(cè)試樣本輸入SVM分類(lèi)模型中進(jìn)行分類(lèi)判斷。

        5)輸出結(jié)果階段。

        第10步將SVM算法得出的分類(lèi)結(jié)果代入樸素貝葉斯公式中得出刷單概率,將最終結(jié)果反饋給用戶,并將結(jié)果記錄到數(shù)據(jù)庫(kù)中,定期更新數(shù)據(jù)庫(kù),同時(shí)給出同類(lèi)商品在不同店家中的檢測(cè)結(jié)果以供參考。

        2.1 數(shù)據(jù)獲取

        電商平臺(tái)刷單行為智能檢測(cè)系統(tǒng)數(shù)據(jù)獲取主要采用了三種方法:商家調(diào)研主要是對(duì)淘寶和京東平臺(tái)上的電商采集其商品的銷(xiāo)售情況以及店鋪的信譽(yù)度等信息;網(wǎng)絡(luò)爬蟲(chóng)則是利用爬蟲(chóng)技術(shù)從商品基礎(chǔ)信息頁(yè)面進(jìn)行信息的收集;文獻(xiàn)查詢主要是通過(guò)中國(guó)知網(wǎng)等電子論文庫(kù)和線下紙質(zhì)書(shū)籍來(lái)搜集刷單檢測(cè)的相關(guān)信息。通過(guò)這三種方法獲取到刷單檢測(cè)的原始數(shù)據(jù)分為兩種類(lèi)型:店家原始數(shù)據(jù)和單一商品原始數(shù)據(jù),分別如表1和表2所示。

        表1 店家原始數(shù)據(jù)表Tab. 1 Raw data of store

        表2 單一商品原始數(shù)據(jù)表Tab. 2 Raw data of single commodity

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1構(gòu)建刷單特征值方法(率值計(jì)算)

        通過(guò)數(shù)據(jù)獲取的三種方法所得到的原始數(shù)據(jù)包括:訪客數(shù)、咨詢數(shù)、付款數(shù)、訂單數(shù)、收藏?cái)?shù)、點(diǎn)擊量、確認(rèn)收貨時(shí)間、付款時(shí)間、店鋪停留時(shí)間、IP地址信息,其中部分初始數(shù)據(jù)需要經(jīng)過(guò)進(jìn)行率值計(jì)算,經(jīng)過(guò)初步轉(zhuǎn)化構(gòu)建出刷單特征值,即得到輸入算法的特征向量的值,如表3所示。

        2.2.2歸一化處理

        將經(jīng)過(guò)初步轉(zhuǎn)化的特征值進(jìn)行歸一化。由于采集的特征項(xiàng)的數(shù)據(jù)單位不一致,需要將有量綱的表達(dá)式化為無(wú)量綱的表達(dá)式,成為純量,因而須對(duì)數(shù)據(jù)進(jìn)行歸一化處理。率值需要?dú)w一化到區(qū)間[0,1],數(shù)值需要?dú)w一化到區(qū)間[-1,1]。歸一化處理的目的:一是為了算法處理過(guò)程中更加方便,二是為了加快訓(xùn)練網(wǎng)絡(luò)的收斂。歸一化計(jì)算公式如下:

        y=(x-MinValue)/(MaxValue-MinValue)

        其中:x、y分別為轉(zhuǎn)換前、后的值,MaxValue、MinValue分別為樣本的最大值和最小值。

        2.3 模型訓(xùn)練

        本文采用了SVM的模式識(shí)別與回歸的軟件包(LIBSVM)[7]。算法數(shù)據(jù)計(jì)算過(guò)程如圖2所示。

        圖2 SVM計(jì)算過(guò)程Fig. 2 Computation process of SVM

        訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)格式為:

        :

        如:01:47.562:89.553:35.124:33.515:60.096:32.017:58:9.319:15

        其中:

        是指輸入算法的9個(gè)特征量,以1開(kāi)始的整數(shù),可以不連續(xù)。

        是每一項(xiàng)特征碼的數(shù)值,為實(shí)數(shù)。

        SVM_train實(shí)現(xiàn)對(duì)訓(xùn)練樣本的訓(xùn)練,獲得SVM模型。

        SVM_NB則根據(jù)訓(xùn)練獲得的模型對(duì)數(shù)據(jù)集合進(jìn)行分類(lèi)結(jié)果的預(yù)測(cè)。

        利用SVM_train實(shí)現(xiàn)對(duì)輸入的訓(xùn)練數(shù)據(jù)集的訓(xùn)練,獲得SVM模型文件。SVM算法將輸入的每一個(gè)訓(xùn)練樣本,即n維向量映射到高維空間中,形成多個(gè)散布的點(diǎn),并通過(guò)點(diǎn)的聚集區(qū)域模擬分類(lèi)超平面,并且不斷利用新輸入的訓(xùn)練樣本數(shù)據(jù)進(jìn)行修正,最后生成模板文件,記錄分類(lèi)特征[9]。

        表3 原始數(shù)據(jù)項(xiàng)率值計(jì)算表Tab. 3 Conversion instructions of raw data item

        本文采用著名的K折交叉驗(yàn)證方法,通過(guò)驗(yàn)證結(jié)果的準(zhǔn)確性來(lái)得到最優(yōu)參數(shù)。驗(yàn)證算法的主要思想是將數(shù)據(jù)集A分為訓(xùn)練集(training set)B和測(cè)試集(test set)C,在樣本量較少時(shí),可以將數(shù)據(jù)集A隨機(jī)分為k個(gè)包,每次將其中一個(gè)包作為測(cè)試集,剩下k-1個(gè)包作為訓(xùn)練集進(jìn)行訓(xùn)練。交叉驗(yàn)證方法主要用于防止模型過(guò)于復(fù)雜而引起的過(guò)擬合現(xiàn)象。經(jīng)過(guò)不斷地變換SVM的兩個(gè)重要參數(shù):懲罰因子C和核函數(shù)參數(shù)g,確定了最優(yōu)參數(shù)為:C=2 048,g=0.007 8,能夠?yàn)橛脩籼峁└鼮闇?zhǔn)確的購(gòu)物參考[8]。

        2.4 算法處理

        2.4.1處理過(guò)程

        輸入x={a1,a2,…,am},y={y0,y1},x表示測(cè)試樣本中每一個(gè)商品的特征項(xiàng)集合,y表示類(lèi)別0和1的集合,分別表示未刷單和刷單;

        輸出商品的刷單概率p。

        Begin

        //1)~8)為SVM算法過(guò)程,9)~13)為樸素貝葉斯算法

        1)

        對(duì)特征項(xiàng)集合進(jìn)行歸一化處理

        2)

        將數(shù)據(jù)格式轉(zhuǎn)化為分類(lèi)器可接受的輸入格式(類(lèi)別向量Y,特征向量Xi)

        3)

        設(shè)置SVM類(lèi)型0-SVM,核函數(shù)類(lèi)型為RBF

        4)

        設(shè)置懲罰因子C和核函數(shù)參數(shù)g

        //如C=2 048,g=0.007 812 5

        5)

        設(shè)置K折交叉驗(yàn)證算法的K值

        //如K=5

        6)

        利用SMO求出支持向量

        //SMO算法用于優(yōu)化對(duì)偶問(wèn)題中的二次規(guī)劃,求出

        //優(yōu)化至收斂的Lagrange乘子向量作為支持向量代入算法

        7)

        利用訓(xùn)練樣本構(gòu)建超平面模型

        8)

        輸入測(cè)試樣本進(jìn)行分類(lèi),得到分類(lèi)結(jié)果y

        9)

        計(jì)算各個(gè)特征屬性在分類(lèi)結(jié)果y中的條件概率估計(jì):P(ai|y)

        10)

        計(jì)算類(lèi)別y出現(xiàn)的概率p(y)

        11)

        計(jì)算各個(gè)特征屬性出現(xiàn)的概率p(ai)

        12)

        代入公式:

        13)

        returnP(y|x)

        End

        2.4.2算法分析

        1)SVM-NB作為分類(lèi)算法,其求得的是距離最優(yōu)解,即相對(duì)公平的分類(lèi),可以很好地解決如何判斷刷單的問(wèn)題。

        2)SVM-NB用于分類(lèi)的模型體積較小,經(jīng)優(yōu)化后的模型更是可以達(dá)到10 KB以下。因?yàn)镾VM的優(yōu)勢(shì)在于根據(jù)小樣本進(jìn)行分類(lèi),所以相比之下SVM算法在檢測(cè)時(shí)間上有優(yōu)勢(shì)。

        3)SVM-NB學(xué)習(xí)問(wèn)題可以表示為凸優(yōu)化問(wèn)題,因此可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最小值,而其他分類(lèi)方法(如基于規(guī)則的分類(lèi)器和人工神經(jīng)網(wǎng)絡(luò))都采用一種基于貪心學(xué)習(xí)的策略來(lái)搜索假設(shè)空間,這類(lèi)方法一般只能獲得局部最優(yōu)解[13]。

        4)SVM-NB算法采用樸素貝葉斯來(lái)進(jìn)行刷單概率的計(jì)算,優(yōu)點(diǎn)主要是特征項(xiàng)相關(guān)性較小,性能較優(yōu),而且利用小樣本就可以得到較為精確的概率。

        2.5 輸出結(jié)果

        SVM-NB算法通過(guò)建立分類(lèi)器得出刷單分類(lèi)的結(jié)果,然后將結(jié)果代入樸素貝葉斯公式,求出最終的刷單概率,并顯示在用戶可見(jiàn)的系統(tǒng)頁(yè)面中。檢測(cè)結(jié)果顯示頁(yè)面中用戶可以點(diǎn)擊詳細(xì)信息按鈕,進(jìn)入詳細(xì)信息顯示頁(yè)面。在此頁(yè)面中,可以顯示兩種詳細(xì)數(shù)據(jù):行業(yè)數(shù)據(jù)和商品信息,均包括已設(shè)定的用于檢測(cè)的特征值,可以使用戶更清楚地了解該商品及其同類(lèi)產(chǎn)品的詳細(xì)信息。此外,用戶可以直接選擇某一種商品進(jìn)行同類(lèi)商品檢測(cè),即系統(tǒng)可以同時(shí)檢測(cè)一種商品在多家店鋪銷(xiāo)售的刷單概率。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)基于開(kāi)源軟件LibSVM與Java平臺(tái)進(jìn)行,LibSVM是臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授2001年開(kāi)發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用且快速有效的SVM模式識(shí)別與回歸的軟件包[9-10]。利用LibSVM與Java的接口,在eclipse環(huán)境下實(shí)驗(yàn)。

        通過(guò)商家調(diào)研、網(wǎng)頁(yè)爬蟲(chóng)、文獻(xiàn)查詢和模擬方式獲得了含有16 000個(gè)刷單數(shù)據(jù)的樣本,其中包括真實(shí)數(shù)據(jù)1 600個(gè)和按照正態(tài)分布模擬的數(shù)據(jù)14 400個(gè)。數(shù)據(jù)集總共包含9個(gè)特征,記為f1~f9,分為刷單和不刷單的兩類(lèi)商品。商品詳細(xì)數(shù)據(jù)格式如表4所示。

        表4 數(shù)據(jù)特征項(xiàng)具體數(shù)值表Tab. 4 Detailed values of data characteristic items

        3.2 實(shí)驗(yàn)與分析

        第一步,數(shù)據(jù)預(yù)處理。首先對(duì)原始數(shù)據(jù)集進(jìn)行率值計(jì)算,得到9個(gè)特征向量,訓(xùn)練數(shù)據(jù)樣本如表5所示;然后對(duì)9個(gè)特征量的數(shù)值進(jìn)行歸一化處理,轉(zhuǎn)化成算法可接受的數(shù)據(jù)格式。

        第二步,SVM-NB方法處理實(shí)驗(yàn)及其他分類(lèi)方法比較,并輸出結(jié)果。

        實(shí)驗(yàn)1核函數(shù)的選擇。

        本文將刷單數(shù)據(jù)集分成兩部分,其中10 000個(gè)樣本數(shù)據(jù)作為訓(xùn)練集,另外6 000個(gè)數(shù)據(jù)作為測(cè)試集,運(yùn)用上面得到的最優(yōu)化參數(shù)訓(xùn)練模型,算法參數(shù)優(yōu)化結(jié)果如表6所示,經(jīng)過(guò)交叉驗(yàn)證算法得出的刷單檢測(cè)分類(lèi)性能比較如表7[11]所示。

        經(jīng)過(guò)對(duì)SVM-NB算法的性能分析,最終確定采用了準(zhǔn)確率較高的徑向基函數(shù)(Radial Basis Function, RBF)作為核函數(shù),該核函數(shù)將樣本非線性地映射到一個(gè)高維的空間,能夠處理分類(lèi)標(biāo)注和屬性的非線性關(guān)系,符合SVM-NB算法對(duì)于分類(lèi)結(jié)果的要求[12]。

        實(shí)驗(yàn)2SVM-NB方法實(shí)驗(yàn)及其他分類(lèi)方法比較。

        將訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù)輸入SVM-NB算法,進(jìn)行模型訓(xùn)練和結(jié)果預(yù)測(cè)。系統(tǒng)可以同時(shí)檢測(cè)一種商品在多家店鋪銷(xiāo)售的刷單概率,并在同一界面上顯示,以供用戶對(duì)比。運(yùn)行結(jié)果如表8所示。

        SVM-NB方法與其他分類(lèi)方法[13-15](包括樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò))在正確率和計(jì)算速度方面的比較結(jié)果如表9所示。

        表5 訓(xùn)練數(shù)據(jù)樣本Tab. 5 Samples of training data

        表6 各種核函數(shù)對(duì)刷單檢測(cè)的最優(yōu)參數(shù)Tab. 6 Optimal parameters of various kernel functions for click farming detection

        表7 各種核函數(shù)對(duì)刷單檢測(cè)分類(lèi)性能比較Tab. 7 Performance of various kernel functions for detection of click farming

        表8 SVM-NB方法刷單概率檢測(cè)結(jié)果Tab. 8 Detection results for click farming by SVM-NB method

        表9 SVM-NB與其他分類(lèi)方法性能比較Tab. 9 Performance comparison of SVM-NB with other classification methods

        SVM-NB算法與樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò)方法相比,特點(diǎn)如下:

        1)在三種算法中本文所采用的分類(lèi)算法得到的刷單概率正確率最高,且速度較快;BP神經(jīng)網(wǎng)絡(luò)算法的準(zhǔn)確率居中,但速度最低,計(jì)算量大;樸素貝葉斯算法速度最高但準(zhǔn)確率最低,因?yàn)闃闼刎惾~斯要求各項(xiàng)特征之間相互獨(dú)立,但本文的刷單數(shù)據(jù)特征項(xiàng)之間有一定的聯(lián)系,所以樸素貝葉斯算法并不適合本文要求。綜合三種算法來(lái)看,本文采用的分類(lèi)算法較為合適。

        2)采用了動(dòng)靜結(jié)合的方式。當(dāng)用戶檢測(cè)的商品在數(shù)據(jù)庫(kù)中已經(jīng)存在相關(guān)信息時(shí),則為靜態(tài)檢測(cè),只需將數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)化成測(cè)試樣本輸入SVM-NB算法中進(jìn)行分析,得出刷單概率并存入數(shù)據(jù)庫(kù)中,以便下次針對(duì)同一商品進(jìn)行檢測(cè)時(shí)可以節(jié)省時(shí)間;當(dāng)用戶檢測(cè)的商品在數(shù)據(jù)庫(kù)中不存在相關(guān)信息時(shí),根據(jù)用戶輸入的網(wǎng)址首先利用爬蟲(chóng)技術(shù)動(dòng)態(tài)爬取網(wǎng)頁(yè)內(nèi)容,獲取用戶選擇時(shí)間段內(nèi)的商品最新信息。

        3)本文方法有較好的完整性和閉環(huán)性,能夠?qū)λ胃怕蔬^(guò)高的店鋪提出警告信息,不僅能夠基于數(shù)據(jù)庫(kù)中已有的店鋪商品信息進(jìn)行檢測(cè),而且實(shí)現(xiàn)了動(dòng)態(tài)更新,保證了刷單概率檢測(cè)結(jié)果的可用性和準(zhǔn)確性;在給出最終的檢測(cè)結(jié)果后,用戶還能夠查看所選商品的詳細(xì)測(cè)試數(shù)據(jù)以及同行業(yè)數(shù)據(jù),直觀明了,增強(qiáng)了結(jié)果的說(shuō)服力。

        4)用戶能夠同時(shí)對(duì)多個(gè)商品進(jìn)行刷單概率的檢測(cè),最終系統(tǒng)會(huì)顯示出所選擇的多個(gè)商品的計(jì)算結(jié)果,以供用戶進(jìn)行同類(lèi)商品刷單行為檢測(cè)結(jié)果的對(duì)比,并且能夠同時(shí)顯示多個(gè)商品的數(shù)據(jù)信息。

        4 結(jié)語(yǔ)

        隨著網(wǎng)絡(luò)購(gòu)物逐漸成為一種新的生活方式,電商刷單現(xiàn)象也愈演愈烈。為了保證網(wǎng)購(gòu)環(huán)境的透明化與可信度,本文提出了面向用戶的電商平臺(tái)刷單行為智能檢測(cè)方法(SVM-NB)和構(gòu)建刷單特征值方法,基于SVM算法訓(xùn)練樣本數(shù)據(jù)并進(jìn)行分類(lèi),為用戶提供判斷刷單的商品特征項(xiàng)信息,直觀地給出系統(tǒng)計(jì)算的刷單概率,并通過(guò)K折交叉驗(yàn)證算法驗(yàn)證了SVM-NB算法應(yīng)用的合理性和準(zhǔn)確性,采用RBF函數(shù)在實(shí)驗(yàn)條件下的計(jì)算結(jié)果準(zhǔn)確率達(dá)到了95.053 6%。但本文實(shí)驗(yàn)受真實(shí)數(shù)據(jù)量所限,隨著真實(shí)數(shù)據(jù)量的增加,計(jì)算結(jié)果的準(zhǔn)確性會(huì)有所變化,不過(guò)該結(jié)果仍可以幫助消費(fèi)者較為準(zhǔn)確地鑒別店鋪資質(zhì)和商品質(zhì)量,降低消費(fèi)者由于電商刷單所帶來(lái)的財(cái)產(chǎn)風(fēng)險(xiǎn)。

        參考文獻(xiàn):

        [1]3·15曝光刷單超詳細(xì)過(guò)程曝光淘寶刷單黑產(chǎn)業(yè) [EB/OL]. [2016- 03- 16]. https://v.qq.com/x/page/a0188rpxwvn.html. {(3·15 exposure the detailed process of click farming and exposure Taobao black industry click farming [EB/OL]. [2016- 03- 16].https://v.qq.com/x/page/a0188rpxwvn.html.)

        [2]賀駿.電商刷單產(chǎn)業(yè)鏈屢禁不止京東利用大數(shù)據(jù)“捉妖”[EB/OL]. [2016- 03- 21]. http://tech.hexun.com/2016- 03- 21/182861037.html. (HE J. E-commerce industry chain of click farming repeatedly banned, Jingdong use big data “catch demon” [EB/OL]. [2016- 03- 21]. http://tech.hexun.com/2016- 03- 21/182861037.html)

        [3]新浪.詳細(xì)解讀淘寶稽查系統(tǒng)的主證與旁證系統(tǒng) [EB/OL]. [2016- 10- 11]. http://edu.yjbys.com/taobao/104994.html. (Sina. Detailed interpretation of the main symptom and circumstantial evidence system of Taobao check system [EB/OL]. [2016- 10- 11]. http://edu.yjbys.com/taobao/104994.html.)

        [4]COUELLAN N, WANG W. Uncertainty-safe large scale support vector machines [J]. Computational Statistics and Data Analysis, 2017, 109: 215-230.

        [5]高雷阜,王飛.基于混沌更新策略的蜂群算法在SVM參數(shù)優(yōu)化中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2017,39(1):199-205. (GAO L F, WANG F. Application of artificial bee colony based on chaos update strategy in support vector machine parameter optimization[J]. Computer Engineering & Science, 2017, 39(1): 199-205.)

        [6]MOKHTARI A, RIBEIRO A. A Quasi-Newton method for large scale support vector machines [C]// ICASSP 2014: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2014: 8302-8306.

        [7]CHANG C-C, LIN C-J. LIBSVM — a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): Article No. 27.

        [8]何東健.SVM支持向量機(jī)算法的詳細(xì)推導(dǎo) [EB/OL]. [2016- 05- 10]. http://www.doc88.com/p- 1905946677891.html. (HE D J. Detailed derivation of Support Vector Machine (SVM) algorithm [EB/OL]. [2016- 05- 10]. http://www.doc88.com/p- 1905946677891.html.)

        [9]熊浩勇.基于SVM的中文文本分類(lèi)算法研究與實(shí)現(xiàn)[D].武漢:武漢理工大學(xué),2008. (XIONG H Y. Research and implement of Chinese text categorization algorithm based on SVM [D]. Wuhan: Wuhan University of Technology, 2008.)

        [10]BURGES C J C. A tutorial on support vector machines for pattern recognition [J]. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167.

        [11]XIE L, LI G, XIAO M, et al. Hyperspectral image classification using discrete space model and support vector machines [J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(3): 374-378.

        [12]VOISAN E I, PRECUP R E, DRAGAN F. Facial expression recognition system based on a face statistical model and Support Vector Machines [C]// SACI 2016: Proceedings of the 2016 IEEE 11th International Symposium on Applied Computational Intelligence and Informatics. Piscataway, NJ: IEEE, 2016: 63-68.

        [13]LI J, CAO Y, WANG Y, et al. Online learning algorithms for double-weighted least squares twin bounded support vector machines [J]. Neural Processing Letters, 2017, 45(1): 319-339.

        [14]王雅玡.基于樸素貝葉斯和BP神經(jīng)網(wǎng)絡(luò)的中文文本分類(lèi)問(wèn)題研究[D].昆明:云南師范大學(xué),2008. (WANG Y Y. Researching on Chinese text classification based on naive bayes and BP neural network [D]. Kunming: Yunnan Normal University, 2008.)

        [15]AAZI F Z, ABDESSELAM R, ACHCHAB B, et al. Feature selection selection for multiclass support vector machines [J]. AI Communications, 2016, 29(5): 583-593.

        猜你喜歡
        刷單分類(lèi)電商
        電商助力“種得好”也“賣(mài)得火”
        分類(lèi)算一算
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        電商鄙視鏈中的拼多多
        教你一招:數(shù)的分類(lèi)
        網(wǎng)絡(luò)刷單行為的法律規(guī)制研究
        法制博覽(2017年8期)2017-09-01 19:59:47
        網(wǎng)絡(luò)欺詐行為分析與應(yīng)對(duì)
        “刷單”行為的舉證責(zé)任在辯方
        電商平臺(tái)刷單行為研究
        科技視界(2016年9期)2016-04-26 09:41:36
        人妻在线有码中文字幕| 日韩在线看片| 欧美精品一本久久男人的天堂| 在线小黄片视频免费播放| 国产激情久久久久影院小草| 无码人妻精品一区二区在线视频 | 成人无码一区二区三区| 精品麻豆国产色欲色欲色欲www| 亚洲国产美女在线观看| 亚洲一区二区三区久久久| 久久精品国产av一级二级三级| 在线看片免费人成视频久网下载| 婷婷丁香五月亚洲| 亚洲天堂色婷婷一区二区| 日本一区二区三级在线观看| 国产又爽又粗又猛的视频| 国产麻豆一精品一AV一免费软件 | 国产精品一区二区三区播放| 男女高潮免费观看无遮挡 | 久久亚洲道色宗和久久| 一本色道久久88综合亚精品| 尤物yw午夜国产精品视频| 丁香花在线影院观看在线播放| 中文字幕国产精品中文字幕| 蜜桃在线高清视频免费观看网址| 欧美激情在线播放| 欧美色aⅴ欧美综合色| 亚洲视频一区二区久久久| 亚洲精品第一页在线观看| 无码人妻久久一区二区三区免费 | 国产偷v国产偷v亚洲偷v| 精品在线亚洲一区二区三区| 手机在线看片| 亚洲欧洲巨乳清纯| 国产精品美女久久久久浪潮AVⅤ| 人妻少妇精品专区性色anvn| 99精品国产一区二区三区| 国产成人免费一区二区三区| 国产av国片精品| 不打码在线观看一区二区三区视频| 国产av剧情刺激对白|