亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        改進SVM算法的電商行業(yè)競爭對手識別

        2016-01-20 06:52:42孫瑞麗陳盛雙李石君

        孫瑞麗,陳盛雙,李石君

        (1.武漢理工大學 理學院,湖北 武漢 430070;2.武漢大學 計算機學院,湖北 武漢 430070)

        ?

        改進SVM算法的電商行業(yè)競爭對手識別

        孫瑞麗1,陳盛雙1,李石君2

        (1.武漢理工大學 理學院,湖北 武漢 430070;2.武漢大學 計算機學院,湖北 武漢 430070)

        摘要:針對電商行業(yè)競爭對手識別準確率偏低的問題,提出了一種改進的支持向量機(SVM)算法來優(yōu)化識別過程。該算法基于Mercer定理融合間隔因素逐步修正核函數(shù),以提高分類器的泛化能力。以ebay平臺接口抽取的Lising數(shù)據(jù)為研究對象,在滿足Mercer定理的前提下對核函數(shù)進行保形變換;然后,結合核函數(shù)的黎曼幾何分析,融合間隔因素改進核函數(shù)以構成新的分類器;最后,利用參數(shù)尋優(yōu)算法確定實例中的參數(shù)模型并進行測試。與余弦向量相似度算法及SVM算法的實驗結果相比,本文提出的方法識別競爭對手的準確度分別提高了10.2%和3.8%。

        關鍵詞:支持向量機;修正核函數(shù);競爭對手識別

        0引言

        當前,電商行業(yè)迅速發(fā)展。利用電商平臺識別競爭對手并監(jiān)控對手的動態(tài),對經(jīng)營者制定營銷策略有重要的指導意義[1]。支持向量機(support vector machine,SVM)由統(tǒng)計學習理論(statistical learning theory,SLT)發(fā)展而來,是實現(xiàn)結構風險最小化原理的一種軟計算方法。SVM被廣泛應用于Logistic回歸、垃圾郵件分類[2]和模式識別[3-4]等方面,表現(xiàn)出優(yōu)于其他算法的性能。SVM算法的分類性能受核函數(shù)選取的影響。

        針對核函數(shù)的選取問題,文獻[5]從黎曼幾何的思想出發(fā)研究了核函數(shù)的幾何性質,推導出核函數(shù)黎曼張量的表達式,為通過信息幾何的方法來研究核函數(shù)并改進SVM算法奠定了理論基礎。文獻[6]在文獻[5]的基礎上研究了兩種基于數(shù)據(jù)依賴的新保角映射,并對SVM分類器的核函數(shù)做進一步修正,減少支持向量的數(shù)目,顯著提高了分類器的泛化能力,但是卻沒有將分類間隔因素考慮進去。文獻[7]提出了一種組合核函數(shù)的思想,兼顧各核函數(shù)的優(yōu)點,提高了沙塵暴的報對率,但該方法卻沒有很好地提高分類的正確率。文獻[8]提出了一種基于相對距離的球形支持向量機分類識別算法,可有效消除冗余屬性,降低樣本輸入維數(shù),但是離散化數(shù)據(jù)有時會帶來信息的損失。針對這些不足,本文在文獻[5-6]的基礎上提出了改進方法。

        本文利用電商平臺提供的web service接口抽取的電商數(shù)據(jù)形成數(shù)據(jù)源,保證了實驗數(shù)據(jù)的精度。通過對核函數(shù)的黎曼幾何分析,在對核函數(shù)進行保形變換的基礎上融入間隔因素,使其映射到高維空間后的分類間隔盡可能地大,進一步修正核函數(shù)來優(yōu)化SVM分類過程。

        1改進的支持向量機算法

        1.1SVM算法的黎曼幾何分析

        核函數(shù)的正確選取依賴產(chǎn)生分類問題的實際問題的特點[9-10],因為在實際問題中對相似程度有著不同的度量。當測試數(shù)據(jù)的特征未知時,初步選擇泛化能力較強的高斯(Gauss)核函數(shù),它往往可以獲得較好的估計。利用高斯核函數(shù)構成的分類器進行實驗,實驗結果發(fā)現(xiàn):其分類效果跟實際結果偏差較大,分類效果不理想,有待對具體問題中選擇的核函數(shù)進行進一步的修正。

        1.2修正核函數(shù)

        為了提高SVM的分類精度,克服分類偏差問題,將兩類樣本數(shù)據(jù)集無誤地分類,文獻[11]在黎曼幾何思想的基礎上提出了修正核函數(shù)的方法以提高分類器性能。通過局部放大高維特征空間中分類面附近的區(qū)域而保持其他區(qū)域變化不大,本文在此基礎上引入分類間隔表達式來修正核函數(shù),以獲得較好的分類效果。

        設c(x)是Rn上正的可微實函數(shù),若k(x,z)是高斯核函數(shù),那么通過因子c(x)變換為式(1)仍是核函數(shù)。

        K(x,z)=c(x)k(x,z)c(z)。

        (1)

        (2)

        (3)

        ci(x)k(x,z)cj(x)+c2(x)gij(x)+c(x)[ki(x,z)cj(x)+kj(x,z)ci(x)]。

        (4)

        (5)

        (6)

        (7)

        此方法遵守Mercer定理,融合了文獻[11]的黎曼幾何思想進行核函數(shù)的保形變換;分類間隔因素的融入,使得將數(shù)據(jù)映射到高維空間時分類間隔盡可能地大,更好地將樣本分開,以降低錯誤識別率。

        圖1 競爭對手識別流程圖

        2實驗及分析

        本文提出的改進SVM分類器識別算法流程見圖1。

        2.1電商數(shù)據(jù)的獲取

        傳統(tǒng)的網(wǎng)絡爬蟲針對http協(xié)議主要用于抓取靜態(tài)web數(shù)據(jù),但卻忽略了網(wǎng)頁內部的結構信息,只能抓取網(wǎng)頁源碼中對應的信息,因此抓取的信息源不全面。動態(tài)網(wǎng)頁數(shù)據(jù)量實際上比直接可見的靜態(tài)網(wǎng)頁數(shù)據(jù)量要大,而web service形式的資源也越來越豐富。

        本實驗的數(shù)據(jù)源不同于UCI(university of California,Irvine)公共測試數(shù)據(jù)集,而是基于MyEclipse8.5開發(fā)平臺,利用Java反射機制從電商平臺ebay提供的web service接口抽取數(shù)據(jù)構成的自建數(shù)據(jù)庫。研究者可通過調節(jié)接口參數(shù)獲取相應的數(shù)據(jù)。主要包括電子商務平臺上Listing的標題、關鍵字、類別、產(chǎn)品描述等關鍵的反映產(chǎn)品屬性的特征信息。文本以某電商公司Listing產(chǎn)品數(shù)據(jù)為基準,識別其競爭對手。本文采用的數(shù)據(jù)抽取機制如圖2所示。

        圖2 基于平臺的web service接口抽取數(shù)據(jù)機制

        2.2電商數(shù)據(jù)的預處理

        首先,對訓練樣本和從平臺接口抽取的文本數(shù)據(jù)進行預處理,提取有用特征,以提高識別效率。利用正則表達式對字段進行分詞,并把提取出來的詞作為屬性向量空間的一維,這樣就把Listing信息表示成了多維向量。

        把產(chǎn)品的每個維度的屬性轉化為多維空間向量,以某個電商平臺上的Listing標題為例,其相對于自身平臺產(chǎn)品信息屬性的分公式如下:

        (8)

        其中:dim為產(chǎn)品某個屬性向量的維度,得分范圍為[0,1],也就是將樣本數(shù)據(jù)歸一化。經(jīng)過分詞處理后的數(shù)據(jù)集構建的產(chǎn)品向量空間模型表示為:

        P=(Title(xi),Category(xi),Description(xi),Price(xi),KeyWords(xi),brand(xi))。

        (9)

        2.3實驗結果分析

        實驗環(huán)境基于Matlab R2012a,使用臺灣大學林智仁教授的Libsvm-mat-2.89-3工具箱進行實驗。衡量指標準確率是由正確識別出的競爭對手數(shù)量除以提取出的競爭對手數(shù)量得到的,召回率則是用來衡量正確識別出的競爭對手數(shù)占總的樣本中所有競爭對手數(shù)的比例。鑒于極端情況下P與R有時是矛盾的,綜合考慮準確率和召回率兩個方面對構造的分類器的性能進行評估,選用式(10)作為度量標準[15]:

        (10)

        當參數(shù)α=1時,得到一個衡量指標F1=2pr/(p+r),當F1較高時則能從綜合角度說明實驗是有效的。

        圖3 ebay平臺數(shù)據(jù)分類結果對比

        使用改進的SVM分類器進行訓練,得到訓練后的結構SVMStruct。本實驗固定訓練樣本為100條,測試數(shù)據(jù)源從電商平臺接口抽取。通過Cross-validation選取核函數(shù)的參數(shù),使核函數(shù)有比較好的性能,即識別率盡可能高。針對不同數(shù)量的Listing數(shù)據(jù)進行6組分類實驗并與相應的SVM算法分類結果進行比較,如圖3所示。由圖3可看出:每一組實驗數(shù)據(jù),改進后的方法準確率都相對提高了4%左右;隨著數(shù)據(jù)量的增多,準確率相應地提升。多組實驗結果表明:本文提出的改進算法分類準確率高于基于Gauss核函數(shù)的SVM算法的分類準確率。

        為了比較不同算法識別的準確率,做3組對比實驗,每次隨機抽取ebay平臺的100條Lisitng信息為固定測試集,分別用余弦向量相似度算法和原始的SVM算法分類,最后用修正后的核函數(shù)構成的SVM算法進行分類實驗,結果見表1。由表1可以看出:改進SVM算法的平均準確率高達96.5%,相比余弦向量相似度算法和原始高斯核函數(shù)構成的SVM算法,分別提高了10.2%和3.8%;且改進算法的F1指數(shù)最高,達到了93.4%,說明此算法性能穩(wěn)定。比較3種算法的平均耗費時間,本文提出的改進算法的時間性能比初始的SVM算法要差,主要是因為引入了參數(shù)優(yōu)化和間隔因素的融合,但是仍優(yōu)于余弦向量相似度算法的時間性能。

        表1 3種算法下競爭對手識別結果

        3結論

        本文基于文獻[11]提出的核函數(shù)保形變換,融合間隔因素來逐步修正核函數(shù)的改進SVM算法,并將其應用于電商平臺抽取的Listing數(shù)據(jù)分類,實現(xiàn)了電商大數(shù)據(jù)分析的競爭對手識別。實驗結果和評價參數(shù)均表明了優(yōu)化的SVM算法識別效果良好,修正核函數(shù)在一定程度上提高了競爭對手識別的精度和效率。準確識別競爭對手有助于商家監(jiān)控競爭對手動態(tài),對電商平臺制定產(chǎn)品策略有重要意義。

        參考文獻:

        [1]王元卓,靳小龍,程學旗.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013,36(6):1125-1138.

        [2]衣治安,劉楊.基于二叉樹的多分類SVM算法在電子郵件過濾中的應用[J].計算機應用,2007,27(11):2860-2862.

        [3]PONTIL M,VERRI A.Properties of support vector machines[J].Neural computation,1998(10):955-974.

        [4]高攀,郭理,汪傳建.特征集和分類器融合技術在表情識別中的應用[J].河南科技大學學報(自然科學版),2014,35(2):48-54.

        [5]DRUCKER H,BRUGES C J C,KAUFMAN L,et al.Support vector regression machines[J].Advances in neural information processing systems,2003(9):155-161.

        [6]封筠,陳志軍,李莉蓉.基于修正核函數(shù)的SVM分類器研究[J].系統(tǒng)仿真學報,2006,18(3):570-572.

        [7]傅清秋,謝永華,湯波,等.基于組合核函數(shù)SVM沙塵暴預警技術的研究[J].計算機工程與設計,2014,35(2):646-650.

        [8]高建來,運士偉,張永勝.融合粗糙集與球形支持向量機的多分類識別[J].河南科技大學學報(自然科學版),2011,32(5):77-80.

        [9]梁禮明,馮新剛,陳云嫩,等.基于樣本分布特征的核函數(shù)選擇方法研究[J].計算機仿真,2013,30(1):323-328.

        [10]張艷萍,史巖巖,王珊珊.支持向量機初始化常模算法在MIMO系統(tǒng)中的應用[J].河南科技大學學報(自然科學版),2014,35(2):33-37.

        [11]AMARI S,WU S.Improving support vector machine classifiers by modifying kernel functions[J].Neural networks:the official journal of the international neural network society,1999,12(6):783-789.

        [12]BRERETON R G,LLOYD G R.Support vector machines for classification and regression[J].Analyst,2010,135(2):230-267.

        [13]WIDODO A,YANG B S.Support vector machine in machine condition monitoring and fault diagnosis[J].Mechanical systems and signal processing,2007,21(6):2560-2574.

        [14]王永鋒,黃思明,徐晶.一種通用的基于梯度的SVM核參數(shù)選取算法[J].數(shù)學的實踐與認識,2011,41(1):7-13.

        [15]李芳芳,葛斌,毛星亮,等.基于語義關聯(lián)的中文網(wǎng)頁主題詞提取方法研究[J].計算機應用研究,2011,28(1):105-107,123.

        文獻標志碼:A

        中圖分類號:TP391

        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        把女邻居弄到潮喷的性经历| 中文字幕人妻被公喝醉在线| 91久久综合精品久久久综合 | 国产在线视频一区二区三| 精品亚洲一区二区三区四 | 无码国产精品一区二区高潮| 久久精品—区二区三区无码伊人色| 精品亚洲视频免费观看网站 | 免费av一区二区三区无码| 日韩无套内射视频6| 亚洲国产成a人v在线观看| 国产中文字幕亚洲国产| 国产情侣真实露脸在线| 日本大片在线看黄a∨免费| 国产成人cao在线| 一本色道88久久加勒比精品| 日本一道综合久久aⅴ免费| 日本高清aⅴ毛片免费| 国产91一区二这在线播放| 亚洲av手机在线观看| 婷婷综合另类小说色区| 欧美黑人巨大xxxxx| 国产粉嫩嫩00在线正在播放| 日本一区二区三级在线| 国产农村熟妇videos| 成人伊人亚洲人综合网站222| 国产在线拍91揄自揄视精品91| 国产精品一区二区三区免费视频| 国产二级一片内射视频插放| 中文字幕大屁股熟女乱| 精品人妻一区二区三区不卡毛片 | 少妇精品无码一区二区三区| 人人狠狠综合久久亚洲婷婷| av亚洲在线一区二区| 91自拍视频国产精品| 人人爽人人爽人人爽人人片av | 欧美性狂猛xxxxx深喉| 亚洲av午夜成人片精品| 国产激情视频在线观看大全| 麻豆国产在线精品国偷产拍| 美国黄色片一区二区三区|