亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PMML的電子商務(wù)數(shù)據(jù)挖掘研究

        2015-12-14 01:51:08劉曉云焦亞琴張銀葉
        現(xiàn)代情報(bào) 2015年8期
        關(guān)鍵詞:跨平臺電子商務(wù)

        劉曉云++焦亞琴++張銀葉

        〔摘要〕隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)進(jìn)入了海量數(shù)據(jù)時(shí)代,從這些海量數(shù)據(jù)里挖掘出有用的模式具有非常高的商業(yè)價(jià)值。常規(guī)的數(shù)據(jù)挖掘模型會依賴于特定的數(shù)據(jù)挖掘平臺,而目前的數(shù)據(jù)挖掘平臺并不能做到隨時(shí)隨地跨平臺交換數(shù)據(jù)挖掘模型。文章提出基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法,只要數(shù)據(jù)挖掘平臺兼容了PMML規(guī)范就可以真正做到跨臺平交換數(shù)據(jù)挖掘模型。文章重點(diǎn)研究了PMML語言是如何表示完整數(shù)據(jù)挖掘模型,并就某電商平臺挖掘潛在客戶的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果,從而驗(yàn)證了方案的有效性。

        〔關(guān)鍵詞〕電子商務(wù);數(shù)據(jù)挖掘模型;PMML;跨平臺

        DOI:10.3969/j.issn.1008-0821.2015.08.012

        〔中圖分類號〕F71336〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2015)08-0057-04

        電子商務(wù)是互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的必然產(chǎn)物,伴隨著電子商務(wù)的快速發(fā)展,隨之而來的是電子商務(wù)、網(wǎng)絡(luò)日志、社交網(wǎng)絡(luò)以及互聯(lián)網(wǎng)搜索引擎等每天都在各類平臺上產(chǎn)生大量的數(shù)據(jù)信息。IDC最新的數(shù)字宇宙研究結(jié)果表明,預(yù)計(jì)到2020年,世界上的數(shù)據(jù)存儲總額將達(dá)到35ZB(1ZB等于1萬億GB字節(jié))。信息爆炸帶來的是無限的商機(jī),目前無論是國內(nèi)企業(yè)(例如淘寶),還是國外公司(例如Amazon、Ebay等)均已通過分析客戶購買行為并利用分析結(jié)果提高了企業(yè)的服務(wù)質(zhì)量,通過對客戶購買行為的數(shù)據(jù)進(jìn)行挖掘和分析可以幫助我們更好地理解客戶的行為模式,進(jìn)而對客戶進(jìn)行分類,從而制定更為精準(zhǔn)的營銷策略以及提高利潤率和網(wǎng)絡(luò)購物的滲透率。在這樣的大環(huán)境下數(shù)據(jù)挖掘技術(shù)得到了迅速的發(fā)展。

        數(shù)據(jù)挖掘技術(shù)自20世紀(jì)90年代被提出以來一直在電子商務(wù)領(lǐng)域得到了重點(diǎn)研究,對于如何定義數(shù)據(jù)挖掘概念目前有很多版本,本文認(rèn)為數(shù)據(jù)挖掘(又稱KDD,即數(shù)據(jù)庫知識發(fā)現(xiàn))是針對數(shù)據(jù)的一種提取隱含在其中的信息的操作,目的是為了將數(shù)據(jù)庫中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)提取出來,使之變?yōu)榭衫谩⒂幸?guī)律、能為決策提供支持的有價(jià)值的信息。目前國內(nèi)外對數(shù)據(jù)挖掘的研究主要集中在數(shù)據(jù)挖掘領(lǐng)域的關(guān)鍵技術(shù)、關(guān)鍵算法研究,數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面研究,發(fā)掘方法與用戶交互問題等。盡管數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用由來已久,但它依然存在一些亟待解決的問題。主要表現(xiàn)在數(shù)據(jù)量巨大,數(shù)據(jù)變化速度快,數(shù)據(jù)挖掘模型中數(shù)據(jù)屬性的選擇十分關(guān)鍵;對數(shù)據(jù)變化的預(yù)測至今還沒有非常成熟的技術(shù);挖掘模型的可靠性與挖掘結(jié)果的準(zhǔn)確性還沒有統(tǒng)一的標(biāo)準(zhǔn);在挖掘用戶信息的前提下如何保護(hù)客戶隱私的安全性也是一個(gè)亟待解決的問題[3]。本文主要針對海量電子商務(wù)數(shù)據(jù)的跨機(jī)構(gòu)、跨平臺數(shù)據(jù)挖掘進(jìn)行研究。

        傳統(tǒng)的小規(guī)模數(shù)據(jù)集的數(shù)據(jù)挖掘很容易在獨(dú)立平臺實(shí)現(xiàn),然而電子商務(wù)數(shù)據(jù)面臨海量、異構(gòu)、多樣、動態(tài)等問題,特別是當(dāng)前互聯(lián)網(wǎng)發(fā)展迅速,服務(wù)器會異地部署,數(shù)據(jù)分散導(dǎo)致處理過程非常復(fù)雜,在這種情況下,跨機(jī)構(gòu)、跨平臺進(jìn)行數(shù)據(jù)挖掘交互十分頻繁也十分必要。與此同時(shí),傳統(tǒng)的數(shù)據(jù)挖掘算法面臨海量數(shù)據(jù)時(shí)需要進(jìn)行改進(jìn),實(shí)際建模過程中可能出現(xiàn)重復(fù)執(zhí)行同一個(gè)數(shù)據(jù)處理操作,在帶有參數(shù)的情況下,手工執(zhí)行會比較麻煩,必須借助腳本實(shí)現(xiàn);在常規(guī)數(shù)據(jù)挖掘模型執(zhí)行過程中,默認(rèn)數(shù)據(jù)流是順序執(zhí)行,倘若存在改變執(zhí)行順序的需求,則需要使用腳本實(shí)現(xiàn);傳統(tǒng)的數(shù)據(jù)挖掘平臺是用戶首先在人機(jī)界面上調(diào)試好執(zhí)行順序,可以通過腳本語言來實(shí)現(xiàn)模型節(jié)點(diǎn)的自動執(zhí)行、自動更新和導(dǎo)出執(zhí)行結(jié)果;實(shí)際實(shí)施過程中可能面臨批量修改現(xiàn)有的數(shù)據(jù),為提高構(gòu)建模型效率,需要采用腳本語言[4]實(shí)現(xiàn)。

        實(shí)際上,傳統(tǒng)的數(shù)據(jù)挖掘平臺都有各自的一套處理流程標(biāo)準(zhǔn),要想實(shí)現(xiàn)同一數(shù)據(jù)挖掘模型的跨平臺運(yùn)行給數(shù)據(jù)挖掘研究帶來了巨大的挑戰(zhàn)。目前國內(nèi)外關(guān)于數(shù)據(jù)挖掘在跨平臺交換數(shù)據(jù)挖掘模型方面的研究還比較稀少,更沒有形成統(tǒng)一的標(biāo)準(zhǔn),即在一個(gè)平臺上運(yùn)行的數(shù)據(jù)挖掘模型還不能很輕易地遷移到另外一個(gè)平臺。IBM公司的SPSS Modeler實(shí)現(xiàn)了用腳本語言定制一些數(shù)據(jù)挖掘過程的功能,但是定制的模型有限,而且模型僅僅適用與其系列數(shù)據(jù)挖掘工具。RapidMiner開發(fā)了適用其平臺定制數(shù)據(jù)挖掘流程的腳本語言,但是這種腳本語言沒有得到業(yè)界的認(rèn)可[5],不利于推廣。VMStudio實(shí)現(xiàn)了用S語言來實(shí)現(xiàn)數(shù)據(jù)過濾與統(tǒng)計(jì)的功能,但是該平臺沒有開放源碼,不利于二次開發(fā)??缙脚_的重要性不言而喻,例如在一個(gè)平臺進(jìn)行的數(shù)據(jù)挖掘結(jié)果可以遷移到另外一個(gè)平臺進(jìn)行效果評估。所以本文提出基于跨平臺的PMML語言來定制數(shù)據(jù)挖掘模型,實(shí)現(xiàn)數(shù)據(jù)挖掘模型的真正跨平臺運(yùn)行。

        11PMML概述

        1999年DMG(Data Mining Group)在XML的基礎(chǔ)上制定出了預(yù)測模型標(biāo)記語言PMML(Predictive Model Markup Language)。PMML是一種與平臺無關(guān)的統(tǒng)計(jì)和數(shù)據(jù)挖掘(Data Mining,DM)模型表示規(guī)范,它以XML為基準(zhǔn)將數(shù)據(jù)挖掘任務(wù)規(guī)范化,可以把某平臺所創(chuàng)建的數(shù)據(jù)挖掘模型遷移到其它任何滿足PMML標(biāo)準(zhǔn)的系統(tǒng)或者產(chǎn)品中。通過定義統(tǒng)一的以及標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘模型表達(dá)方式,PMML分離了模型的構(gòu)造與應(yīng)用。PMML使得數(shù)據(jù)挖掘模型的部署不再束縛于模型開發(fā)和產(chǎn)品整合,其框架結(jié)構(gòu)圖見圖1,從而為將來的數(shù)據(jù)挖掘應(yīng)用提供了一種創(chuàng)新的方法。PMML擺脫了模型開發(fā)和部署局限于某一個(gè)特定的數(shù)據(jù)挖掘平臺,從而為電子商務(wù)系統(tǒng)、數(shù)據(jù)倉庫和云計(jì)算中的數(shù)據(jù)挖掘應(yīng)用提供了一種新的方法。目前已有許多公司或組織加入了PMML規(guī)范的制定,便于其推廣。需要PMML語言的主要原因可以簡要?dú)w納[6]為以下3點(diǎn)。

        111模型交換的需要

        數(shù)據(jù)處理的任務(wù)非常復(fù)雜,有時(shí)候甚至需要不同的數(shù)據(jù)處理工具,這些不同的數(shù)據(jù)處理工具之間必須能交換處理的結(jié)果。

        112模型部署的需要

        PMML使得模型部署跨越Internet更加容易,軟件提供商能更加容易的將數(shù)據(jù)處理結(jié)果導(dǎo)入到支持PMML標(biāo)準(zhǔn)的平臺里。endprint

        113跨平臺需要

        PMML提供了一種不定義模型的執(zhí)行方法,只定義模型的描述跨平臺方案,使得數(shù)據(jù)挖掘更具有開放性。

        12PMML結(jié)構(gòu)與模型表示

        怎樣從海量數(shù)據(jù)挖掘到事先未知具有潛在價(jià)值的信息,然后依據(jù)商業(yè)目的進(jìn)行預(yù)測和評估,是數(shù)據(jù)挖掘研究亟待解決的主要問題之一[7],PMML標(biāo)準(zhǔn)是描述數(shù)據(jù)挖掘過程的一個(gè)規(guī)范,它按照數(shù)據(jù)挖掘任務(wù)處理步驟,定義了數(shù)據(jù)挖掘各個(gè)階段的處理描述信息[8],主要包括頭部信息、數(shù)據(jù)詞典、數(shù)據(jù)預(yù)處理、模型表示、模型輸出和預(yù)測評價(jià)等部分。PMML是用XML來表示數(shù)據(jù)挖掘流程的,整個(gè)PMML文檔都是用XML的DTD進(jìn)行描述的,一個(gè)根元素為PMML類型的XML元素的文檔可以包含多個(gè)模型部分,其中數(shù)據(jù)詞典和模型表示是PMML文檔的核心部分。PMML規(guī)范里的元素主要分為兩類:描述元素和模型元素,結(jié)構(gòu)見圖2,描述元素主要用來描述一些流程基本信息,例如元素的一些屬性定義等,模型元素主要用來描述數(shù)據(jù)處理流程算法相關(guān)信息的。

        14基于PMML的可視化

        可視化就是利用簡單界面的方式來顯示數(shù)據(jù),把用戶需要的數(shù)據(jù)進(jìn)行可視化呈現(xiàn),增加了用戶對數(shù)據(jù)的掌握程度,進(jìn)而可以透徹的分析與挖掘信息的關(guān)系。PMML包含數(shù)據(jù)字典、預(yù)處理、模型等部分,非常適合進(jìn)行可視化展示[10]。目前42版本支持?jǐn)?shù)據(jù)可視化、模型可視化和驗(yàn)證結(jié)果可視化功能。其中數(shù)據(jù)可視化部分是對數(shù)據(jù)集信息的可視化,PMML文件中元素MiningSchema的屬性Importance表示數(shù)據(jù)變量的重要性,可以作為可視化的數(shù)據(jù)源。模型可視化是指利用PMML文件的信息將其結(jié)構(gòu)可視化顯示出來,方便挖掘模式進(jìn)行顯示。驗(yàn)證可視化是指對模型驗(yàn)證的結(jié)果以可視化的形式展示,例如,當(dāng)預(yù)測分類數(shù)據(jù)時(shí),混淆矩陣能夠用來說明預(yù)測精確度,PMML規(guī)范提供了ConfusionMatrix元素來配置混淆矩陣可視化信息。

        2實(shí)驗(yàn)分析

        為了驗(yàn)證本文提出的基于PMML跨平臺電子商務(wù)數(shù)據(jù)挖掘研究方法,采用某電商平臺為了挖掘潛在用戶的數(shù)據(jù)進(jìn)行驗(yàn)證,實(shí)際選取了2 000個(gè)樣本,其中每一位用戶為一個(gè)樣本點(diǎn),非潛在用戶為負(fù)樣本,用0表示,潛在用戶為正樣本,用1表示,數(shù)據(jù)存儲在數(shù)據(jù)庫的表結(jié)構(gòu)見圖3。從數(shù)據(jù)集合里隨機(jī)抽取1 500個(gè)充當(dāng)訓(xùn)練樣本,500個(gè)充當(dāng)測試樣本,實(shí)現(xiàn)對決策樹算法、貝葉斯算法、支持向量機(jī)和其改進(jìn)算法(LIBSVM)[11]進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果見表1。PMML規(guī)范里的Model Explanation元素提供了一系列的評價(jià)指標(biāo)來評價(jià)模型的結(jié)果,主要有針對分類模型的Predictive Model Quality元素和針對聚類模型的Clustering Model Quality元素。本文引入可視化技術(shù)把模型評價(jià)的結(jié)果進(jìn)行顯示,主要的形式有ROC曲線和混淆矩陣。ROC曲線是把分類模型靈敏度和特異性按照可視化方式顯示,分類模型的優(yōu)劣可以通過曲線下方的面積來評價(jià),好的分類模型應(yīng)該最大可能的靠近圖形的左上角,簡單的隨機(jī)猜測模型應(yīng)位于主對角線附件?;煜仃囍饕脕肀容^實(shí)際值與分類結(jié)果,可以把分類精度顯示在一個(gè)矩陣?yán)铮仃嚨拿恳恍写砹朔诸愋畔?,每一列代表了?shí)際的測得信息。其中部分字段的ROC曲線見圖4。

        根據(jù)圖4的實(shí)驗(yàn)效果可知,屬性Co16、Co14具有很好的預(yù)測性能,屬性Co13、Co11和Co15具有很好的隨機(jī)預(yù)測性能,屬性Co17和Co18并不適合用來預(yù)測。根據(jù)表1可知,貝葉斯和決策樹算法隨著樣本數(shù)量的增加,訓(xùn)練時(shí)間也上升得很快,然而分類準(zhǔn)確率并沒有隨著上升,LIBSVM單次訓(xùn)練時(shí)間線性度要好很多,顯然SVM改進(jìn)以后隨著樣本數(shù)據(jù)的遞增,訓(xùn)練時(shí)間得到了很好的改善,而且分類準(zhǔn)確率得到了很好的提升。

        3總結(jié)

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)進(jìn)入了海量數(shù)據(jù)時(shí)代,現(xiàn)有的數(shù)據(jù)挖掘平臺在跨機(jī)構(gòu)、跨平臺進(jìn)行數(shù)據(jù)挖掘時(shí)存在很大困難,本文提出基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法,分析了PMML如何描述數(shù)據(jù)挖掘流程與其跨平臺優(yōu)點(diǎn),在研究的基礎(chǔ)上利用某電商平臺挖掘潛在客戶數(shù)據(jù)設(shè)計(jì)了實(shí)驗(yàn)進(jìn)行驗(yàn)證,并對結(jié)果進(jìn)行了分析,從而證明了本文提出的基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法具有很好的跨平臺交換模型的功能,結(jié)合可視化技術(shù)可以把挖掘結(jié)果以更加直觀的方式展現(xiàn)給用戶。

        參考文獻(xiàn)

        陳發(fā)鴻.電子商務(wù)發(fā)展與政府應(yīng)對策略[J].管理科學(xué)研究,2011,12(5):3-4.

        Turban E,King D.Electronic Commerce:A Managerial Perspective[J].Prentice Hall,2006,4(7):11-16.

        [3]李桂華,姚唐.影響企業(yè)購買行為因素的概念化模型及其分析[J].現(xiàn)代財(cái)經(jīng),2007,11(27):110-129.

        [4]趙文,胡文蕙,張世琨,等.工作流元模型的研究與應(yīng)用[J].軟件學(xué)報(bào),2003,6(14):53-59.

        [5]方駿,方云,肖杰.數(shù)據(jù)挖掘的工業(yè)標(biāo)準(zhǔn)的現(xiàn)狀和展望[J].計(jì)算機(jī)應(yīng)用研究,2004,12(6):8-10.

        [6]Raspl S.PMML Version 30 Overview and Status[C].Seattle,WA,2004.

        [7]Haym Hirsh.Data Mining Research:Current Status and Future Opportunities[J].Statistical Analysis and Data Mining,2008,2(1).

        [8]汪加才,朱藝華.基于PMML的自組織神經(jīng)網(wǎng)絡(luò)元模型[J].計(jì)算機(jī)應(yīng)用與軟件,2006,23(11).

        [9]Wang Chao,Zhou Nan,Qiu Li-juan.Based on the java support PMML code three layer data mining systems[J].Agriculture Information Network,2004,15(8).

        [10]Donald Heam,等.計(jì)算機(jī)圖形學(xué)[M].蔡士杰,等譯.北京:電子工業(yè)出版社,2007.

        [11]Lee Y C.Application of Support Vector Machines to Corporate Credit Rating Prediction[J].Expert Systems with Applications,2007,33(1):67-74.

        (本文責(zé)任編輯:孫國雷)endprint

        猜你喜歡
        跨平臺電子商務(wù)
        跨層級網(wǎng)絡(luò)、跨架構(gòu)、跨平臺的數(shù)據(jù)共享交換關(guān)鍵技術(shù)研究與系統(tǒng)建設(shè)
        2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
        一款游戲怎么掙到全平臺的錢?
        跨平臺APEX接口組件的設(shè)計(jì)與實(shí)現(xiàn)
        《電子商務(wù)法》如何助力直銷
        電子商務(wù)
        關(guān)于加快制定電子商務(wù)法的議案
        電子商務(wù)人的核心能力
        基于QT的跨平臺輸電鐵塔監(jiān)控終端軟件設(shè)計(jì)與實(shí)現(xiàn)
        基于OPC跨平臺通信的電機(jī)監(jiān)測與診斷系統(tǒng)
        亚洲欧美另类激情综合区| 快射视频网站在线观看| 天堂网日韩av在线播放一区 | 日本最新免费二区| 国产亚洲情侣一区二区无| 国产精品久久久久孕妇| av免费在线手机观看| 精品国产一区二区三区性色| 欧美激情一区二区三区成人 | 国产精品久久久久国产a级| 精品91精品91精品国产片| 国产午夜在线观看视频| 国产免费人成视频网站在线18| 国产成人无码综合亚洲日韩| 丰满少妇被猛烈进入| 中文字幕国产精品中文字幕| 麻豆av在线免费观看精品 | 欧美性生交大片免费看app麻豆 | 无码国产一区二区色欲| 日韩精品国产精品亚洲毛片| 免费a级毛片18禁网站| 久久精品免费观看国产| 无码之国产精品网址蜜芽| 久久色悠悠亚洲综合网| 午夜国产精品视频在线观看| 亚洲欧美色一区二区三区| 亚洲人成人77777网站| 狠狠亚洲婷婷综合久久久| 91九色极品探花内射| 亚洲av无码一区东京热久久| 亚洲av成人无码网站…| 人妖另类综合视频网站| 亚洲精品一区二区三区四区| 国产高清乱码又大又圆| 国産精品久久久久久久| 日本特黄a级高清免费大片| 在线高清亚洲精品二区| 久久成人国产精品一区二区| 99精品国产一区二区三区a片| 亚洲国产一区二区三区在线视频 | 加勒比久久综合久久伊人爱|