亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類算法的電子商務(wù)日志挖掘商業(yè)智能研究

        2014-03-26 16:48:22廣西國(guó)際商務(wù)職業(yè)技術(shù)學(xué)院黃紹川
        中國(guó)商論 2014年1期
        關(guān)鍵詞:標(biāo)稱日志頁(yè)面

        廣西國(guó)際商務(wù)職業(yè)技術(shù)學(xué)院 黃紹川

        隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、智能終端等的高速發(fā)展,國(guó)外的Amazon,國(guó)內(nèi)的淘寶、騰訊拍拍等電子商務(wù)網(wǎng)站都在以前所未有的速度在壯大。2012年6月11日,蘋果公司在全球開(kāi)發(fā)者大會(huì)(WWDC)上宣布,iOS 6操作系統(tǒng)將提供名為Passbook的功能,該功能將整合來(lái)自各類服務(wù)的票據(jù),包括電影票、登機(jī)牌、積分卡和禮品卡等,這是電子商務(wù)與移動(dòng)端最新的發(fā)展成果。相對(duì)于傳統(tǒng)的商務(wù)貿(mào)易形式,網(wǎng)絡(luò)購(gòu)物憑借其足不出戶的購(gòu)物體驗(yàn)和極具競(jìng)爭(zhēng)力的價(jià)格迅速網(wǎng)絡(luò)了一大批忠實(shí)擁躉,其中既有消費(fèi)者也有商家。電子商務(wù)的異軍突起既為廣大商家提供了機(jī)會(huì)和巨大利潤(rùn)空間,也帶來(lái)了一系列技術(shù)挑戰(zhàn)[1]。商家的經(jīng)營(yíng)者希望網(wǎng)站能夠捕捉到海量訪問(wèn)數(shù)據(jù)背后蘊(yùn)藏的商機(jī),但網(wǎng)站的設(shè)計(jì)者們通常是根據(jù)店面所需和自身技術(shù)經(jīng)驗(yàn)來(lái)對(duì)網(wǎng)站進(jìn)行架構(gòu)設(shè)計(jì)與布局規(guī)劃,很少考慮到顧客本身的瀏覽行為并對(duì)其定量分析,使得所設(shè)計(jì)的網(wǎng)站并沒(méi)有“抓住”客戶,而是使其在不斷地尋找感興趣的商品的過(guò)程中失去耐心。不過(guò)在技術(shù)層面上,電子商務(wù)網(wǎng)站的Web服務(wù)器與數(shù)據(jù)庫(kù)會(huì)對(duì)訪問(wèn)與交易信息進(jìn)行記錄,以Web日志形式進(jìn)行保存,而且這些日志結(jié)構(gòu)清晰,格式規(guī)范,從而為基于Web日志進(jìn)行商務(wù)挖掘提供了絕佳的數(shù)據(jù)基礎(chǔ)與無(wú)限可能。因此,如何采用計(jì)算機(jī)技術(shù)挖掘電子商務(wù)網(wǎng)站中日志信息并提取出用戶的興趣點(diǎn),向用戶推薦商品,繼而為用戶提供個(gè)性化服務(wù),最終實(shí)現(xiàn)商家獲利,成為一個(gè)值得研究的具有理論和應(yīng)用價(jià)值的問(wèn)題。

        1 應(yīng)用于網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘與聚類分析

        聚類分析是數(shù)據(jù)挖掘中的重要方法。近年來(lái),采用標(biāo)稱數(shù)據(jù)的聚類方法成為計(jì)算機(jī)科研人員的主要研究?jī)?nèi)容。標(biāo)稱數(shù)據(jù)是指由非數(shù)值型數(shù)據(jù)所組成的數(shù)據(jù)與屬性集合。例如,工作單位就可以作為一個(gè)標(biāo)稱屬性,其狀態(tài)可以為國(guó)家機(jī)關(guān)、企事業(yè)單位、民營(yíng)經(jīng)濟(jì)實(shí)體等。類似的,Web電子商務(wù)用戶的會(huì)話也可以作為標(biāo)稱數(shù)據(jù)來(lái)處理。標(biāo)稱數(shù)據(jù)可以用整數(shù)、字母、符號(hào)來(lái)表示其屬性,但即使是用整數(shù)等數(shù)值形式,其各狀態(tài)間也不存在大小關(guān)系,因此,通常在標(biāo)稱數(shù)據(jù)上并不可以使用聚類算法中常用的距離衡量方法。

        針對(duì)Web日志的聚類包括頁(yè)面聚類和用戶聚類兩種方法。頁(yè)面聚類是對(duì)用戶訪問(wèn)瀏覽的網(wǎng)頁(yè)歷史進(jìn)行挖掘提取,提取出相似的信息并分類,挖掘出不同用戶群體最關(guān)注的產(chǎn)品和服務(wù),從而對(duì)不同興趣和愛(ài)好的用戶提供滿足其需求的信息,這將大大提高用戶的回頭率和忠誠(chéng)度。用戶聚類是根據(jù)用戶在網(wǎng)絡(luò)訪問(wèn)時(shí)產(chǎn)生的會(huì)話與行為,判斷用戶行為模式的相近程度并進(jìn)行分類。

        在Web日志文件中,用戶訪問(wèn)網(wǎng)站的原始信息得以記錄與保存,但是,通常情況下,這些數(shù)據(jù)是支離破碎的,或者含有噪聲數(shù)據(jù),即有的興趣點(diǎn)屬性缺少值,或只含有聚類數(shù)據(jù)。由于其不一致性,直接對(duì)其進(jìn)行數(shù)據(jù)挖掘是不易實(shí)現(xiàn)的。對(duì)網(wǎng)絡(luò)日志進(jìn)行挖掘產(chǎn)生的數(shù)據(jù)還需要經(jīng)過(guò)一系列數(shù)據(jù)預(yù)處理工作,包括數(shù)據(jù)分類、用戶提取、會(huì)話整理、路徑信息提取等。

        2 電子商務(wù)網(wǎng)站中用戶興趣表示的傳統(tǒng)方法

        目前,主要有兩種方法用于研究用戶訪問(wèn)網(wǎng)站的興趣判斷與分析。第一種是對(duì)用戶訪問(wèn)網(wǎng)站的URL信息進(jìn)行研究,根據(jù)訪問(wèn)興趣建立有序關(guān)系及映射;第二種研究是將URL視作整體,不再對(duì)路徑進(jìn)行拆分分析,而是直接研究用戶訪問(wèn)此URL的次數(shù)、時(shí)間、頻率等因子,并用這些因子度量該用戶對(duì)這個(gè)URL感興趣的程度。

        最近提出的一種度量用戶興趣的方法的研究對(duì)象不再僅僅參考用戶點(diǎn)擊的URL,而是汲取以上兩種精華,采用日志中的UriQuery項(xiàng)作為研究對(duì)象,主要出于以下兩種原因:

        首先,是用戶訪問(wèn)商務(wù)網(wǎng)站進(jìn)行查詢時(shí)提交的具體參數(shù)為UriQuery,通過(guò)它可以直接定位到具體的資源。

        其次,相比于用戶訪問(wèn)的參數(shù),其在網(wǎng)站上進(jìn)行搜索的信息與用戶興趣更加密切,因?yàn)樵谟脩舸蜷_(kāi)商家頁(yè)面時(shí),如果沒(méi)有發(fā)現(xiàn)其想要的信息,會(huì)通過(guò)“搜索”表單來(lái)進(jìn)行輸入并在數(shù)據(jù)庫(kù)中查詢目標(biāo)內(nèi)容,服務(wù)器會(huì)通過(guò)UriQuery屬性列保存此信息。因此,UriQuery項(xiàng)能更好地反映用戶的興趣是顯而易見(jiàn)的,適合作為Web日志挖掘的主要對(duì)象來(lái)對(duì)用戶興趣進(jìn)行度量和采集。

        3 一種新的頁(yè)面興趣度量方法

        本文中的數(shù)據(jù)來(lái)源于騰訊拍拍網(wǎng),騰訊公司建立拍拍網(wǎng)的目的也和淘寶網(wǎng)類似——建立商家與個(gè)人的C2B平臺(tái)。前文所述的頁(yè)面興趣度量算法應(yīng)用于這類復(fù)雜的C2B或者C2C模式的電商網(wǎng)站時(shí),只是用頁(yè)面訪問(wèn)、點(diǎn)擊以及搜索的歷史數(shù)據(jù)來(lái)對(duì)用戶的興趣點(diǎn)進(jìn)行衡量的話,并不能完全地作出全面準(zhǔn)確的反應(yīng)。因此,需要重新研究網(wǎng)絡(luò)日志中的各類電商用戶興趣的影響因素并設(shè)計(jì)一種可以全面、準(zhǔn)確的對(duì)用戶興趣進(jìn)行衡量與體現(xiàn)的方法。

        通過(guò)分析Web日志文件的結(jié)構(gòu)與內(nèi)容,可以發(fā)現(xiàn)對(duì)用戶頁(yè)面興趣度量的影響因素主要有:網(wǎng)絡(luò)用戶訪問(wèn)頁(yè)面所花費(fèi)的時(shí)間、服務(wù)器與接收的數(shù)據(jù)量的數(shù)據(jù)記錄(點(diǎn)擊次數(shù)不能在Web日志文件中直接以屬性列反映出來(lái)),具體數(shù)據(jù)如表1所示:

        8053 437 16566 230 8054 187 241 292 8055 15953 39249 172 8056 1250 19620 394 8057 156 380 698 8058 78 1399 876 8059 343 23700 244 8060 250 7971 291 8061 12109 26336 180 8062 265 343 438 8063 17843 20584 235 8064 234 415 661 8065 656 31823 300 8066 1968 343 706 8067 250 174 355 8068 250 174 634

        在數(shù)據(jù)分析軟件SPSS(Statistical Product and Service Solutions)里導(dǎo)入全部記錄,進(jìn)行分析,數(shù)據(jù)記錄共有75169條,經(jīng)過(guò)用SPSS軟件做數(shù)據(jù)相關(guān)性分析,通過(guò)Person Correlation分析得出如下分析結(jié)果如表2所示:

        表2 相關(guān)分析的描述統(tǒng)計(jì)表

        從以上表格與分析結(jié)果中可以發(fā)現(xiàn),用戶只需要1420.82毫秒的平均時(shí)間用于瀏覽頁(yè)面。這不到2秒鐘的極短時(shí)間里,所包含的可能行為是:(1)用戶提交搜索參數(shù),但沒(méi)有搜到所想要的興趣點(diǎn)內(nèi)容;(2)或者搜索結(jié)果呈現(xiàn)了其興趣點(diǎn)的鏈接,用戶第一時(shí)間轉(zhuǎn)至感興趣的頁(yè)面。而(2)是網(wǎng)站高效與所希冀得到的結(jié)果。

        從表格中還可以發(fā)現(xiàn),服務(wù)器平均發(fā)送19294.12字節(jié),遠(yuǎn)遠(yuǎn)大于平均接收的435.99個(gè)字節(jié)。即服務(wù)器在用戶發(fā)送請(qǐng)求后,會(huì)把相關(guān)的大量字節(jié)的數(shù)據(jù)信息反饋給用戶,其中既會(huì)有用戶所感興趣的內(nèi)容,也可能包括其他無(wú)效鏈接甚至廣告。

        通過(guò)對(duì)比Pearson相關(guān)系數(shù),可以發(fā)現(xiàn),服務(wù)器發(fā)送字節(jié)數(shù)、接收字節(jié)數(shù)以及用戶的瀏覽時(shí)間的系統(tǒng)都是在0~0.3之間,即它們是微弱相關(guān)的。換句話說(shuō),即用戶瀏覽頁(yè)面的時(shí)間幾乎不受服務(wù)器字節(jié)發(fā)送與接收的多少的影響。因此,本文在對(duì)用戶興趣度量因素進(jìn)行考慮時(shí),也不需要考慮服務(wù)器發(fā)送接收字節(jié)數(shù)的影響。

        本文定義Pm×n為頁(yè)面興趣矩陣,計(jì)算方式如下:

        其中,Pij=tij/fij;

        i=1,2,3,……,m j=1,2,3,……,n;

        tij:用戶i瀏覽頁(yè)面j的消耗時(shí)間;

        fij:用戶i點(diǎn)擊頁(yè)面j的次數(shù);

        Pij=tij/fij:用戶i瀏覽頁(yè)面j的平均時(shí)間。

        經(jīng)過(guò)上述矩陣所計(jì)算得到的頁(yè)面興趣實(shí)質(zhì)上為第i個(gè)用戶瀏覽頁(yè)面j所花費(fèi)的平均時(shí)間。此計(jì)算算法可以較好地排除用戶頁(yè)面興趣受偶然興趣的影響,因此可以較準(zhǔn)確地對(duì)用戶所感興趣的程度進(jìn)行反映。

        4 結(jié)語(yǔ)

        當(dāng)前已經(jīng)是計(jì)算機(jī)網(wǎng)絡(luò)主導(dǎo)的電子商務(wù)時(shí)代,其已經(jīng)在各行各業(yè)中得到了極為廣泛的應(yīng)用,并為廣大廠商與用戶帶來(lái)了巨大的利益與方便。而如何進(jìn)一步挖掘電子商務(wù)中所產(chǎn)生的海量數(shù)據(jù)信息,獲取到有用的隱性知識(shí),是一個(gè)具有高度價(jià)值與前景的課題。集成了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘技術(shù)一體的商業(yè)智能,則為顯性知識(shí)中的隱性挖掘提供了良好的方式,為企業(yè)提供有價(jià)值的信息以支持決策。本文針對(duì)電商網(wǎng)站的訪問(wèn)日志數(shù)據(jù),提出了一種改進(jìn)的有效指數(shù)K-Means算法,解決了傳統(tǒng)聚類算法的初始值問(wèn)題,并進(jìn)行了相關(guān)的實(shí)驗(yàn)驗(yàn)證分析。實(shí)驗(yàn)證明了算法的科學(xué)性與正確性,且具有較高的計(jì)算效率,可以較好地應(yīng)用于Web日志的挖掘分析中。

        [1] R.Cooley.Web Usage Mining:Discovery and Application of Interesting Patterns from Web data[D].PhD thesis,Dept.of Computer Science,University of Minnesota,May 2000.

        [2] 鄭先榮,湯澤瀅,曹先彬.適應(yīng)用戶興趣變化的非線性逐步遺:怎協(xié)同過(guò)濾算法[J].計(jì)算機(jī)輔助工程,2010,16(2).

        [3] 涂承勝,魯明羽,陸玉昌.Web挖掘研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10).

        [4] 陸麗娜,楊怡玲,管旭東,魏恒義.Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J].計(jì)算機(jī)工程,2000,26(4).

        [5] 陳志敏,沈潔.基于W曲日志的混合挖掘模型研究[J].揚(yáng)州大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,10(3).

        [6] 王緒林,劉培剛.基于Web使用挖掘的用戶個(gè)性化服務(wù)研究[J].情報(bào)理論與實(shí)踐,2003,26(1).

        [7] 高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(18).

        [8] 陳敏,苗奪謙,段其國(guó).基于用戶瀏覽行為聚類Web用戶[J].計(jì)算機(jī)科學(xué),2008,35(3).

        猜你喜歡
        標(biāo)稱日志頁(yè)面
        大狗熊在睡覺(jué)
        刷新生活的頁(yè)面
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        柒牌、貴人鳥(niǎo)等標(biāo)稱商標(biāo)服裝商品上不合格名單
        民航為啥“為難”充電寶
        一種基于粗集和SVM的Web日志挖掘模型
        同一Word文檔 縱橫頁(yè)面并存
        淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
        在线观看特色大片免费视频 | 国产精品毛片大尺度激情| 亚洲精彩av大片在线观看| 亚洲中文字幕精品乱码2021 | 国产哟交泬泬视频在线播放| 亚洲黄片高清在线观看| 毛茸茸的女性外淫小视频| 日韩人妻另类中文字幕| 亚洲av永久无码精品网址| 国产色综合天天综合网| 538亚洲欧美国产日韩在线精品| 亚洲精品成人久久av| 中文字幕亚洲视频一区| 国产精品久久久久高潮| 国产97在线 | 免费| 精品综合久久久久久8888| 国产一区亚洲一区二区| 久草视频这里只有精品| 欧美肥婆性猛交xxxx| 国产呦系列呦交| 在线观看av国产自拍| 少妇又紧又色又爽又刺| 中国人在线观看免费的视频播放| 精品国产av色一区二区深夜久久| 躁躁躁日日躁| 国产三级国产精品三级在专区| 亚洲精品中文字幕乱码| 欧美性猛交99久久久久99按摩| 国产在线一区二区三区av| 男女好痛好深好爽视频一区| 亚洲天堂一二三四区在线| 中文字幕一区二区精品视频| 久久精品国产精品| 国产最新AV在线播放不卡| 精品一区二区三区女同免费| 白白色发布的在线视频| 成人国产精品一区二区网站公司| 艳妇乳肉豪妇荡乳av无码福利 | 国产女女做受ⅹxx高潮| 亚洲日韩国产精品不卡一区在线| 天堂一区二区三区精品|