亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種社交電商平臺(tái)的用戶(hù)行為分析方法

        2021-07-30 00:38:02牛少彰
        新一代信息技術(shù) 2021年9期
        關(guān)鍵詞:數(shù)據(jù)挖掘聚類(lèi)社交

        高 昀,牛少彰

        (北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)

        0 引言

        近幾年來(lái),隨著我國(guó)互聯(lián)網(wǎng)行業(yè)的快速發(fā)展和消費(fèi)者網(wǎng)購(gòu)習(xí)慣的形成,網(wǎng)上購(gòu)物越來(lái)越普遍流行于大眾生活的方方面面?;ヂ?lián)網(wǎng)的高速發(fā)展為我國(guó)社會(huì)經(jīng)濟(jì)的發(fā)展和創(chuàng)新提供了基礎(chǔ),尤其是微信、微博等社交化平臺(tái)的興起,為生產(chǎn)商、銷(xiāo)售商帶來(lái)了新的發(fā)展機(jī)遇,為消費(fèi)者提供了新的選擇,社交電商應(yīng)運(yùn)而生[1]。社交電商是一種全新的前所未有的電商模式,在這種新穎的模式下,生產(chǎn)商和銷(xiāo)售商可以利用社交媒體技術(shù)和社交網(wǎng)站、社交媒介、網(wǎng)絡(luò)媒介等傳播途徑來(lái)進(jìn)行人際關(guān)系、商業(yè)信息流的互動(dòng),通過(guò)買(mǎi)家和賣(mài)家之間的交流互動(dòng)、用戶(hù)自生內(nèi)容等方式來(lái)幫助商品的營(yíng)銷(xiāo)和銷(xiāo)售行為[2]。它以十分方便快捷的銷(xiāo)售方式和較低的商品定價(jià),很快地在眾多銷(xiāo)售方式中脫穎而出,在人們的日常生活中得到了普遍的應(yīng)用,滿(mǎn)足了人們對(duì)網(wǎng)上購(gòu)物快捷、方便的要求。經(jīng)過(guò)這幾年互聯(lián)網(wǎng)經(jīng)濟(jì)的推動(dòng),社交電商的規(guī)模日漸壯大,對(duì)社會(huì)的貢獻(xiàn)程度逐步加深,社交電商逐漸在中國(guó)的經(jīng)濟(jì)社會(huì)中占有越來(lái)越重要的位置。而與社交電商日常推廣和銷(xiāo)售相適應(yīng)的各種工具平臺(tái)也如雨后春筍般相繼出現(xiàn)。社交電商在使用這些工具平臺(tái)的過(guò)程中也產(chǎn)生了大量的功能訪問(wèn)數(shù)據(jù)。通過(guò)對(duì)社交電商的行為數(shù)據(jù)進(jìn)行分析和研究,能夠較為全面地了解社交電商的行為特征,針對(duì)不同種類(lèi)的社交電商定制不同的服務(wù)。

        1 相關(guān)工作

        隨著信息技術(shù)的不斷發(fā)展,人們對(duì)各種網(wǎng)站、各種APP的使用越來(lái)越頻繁,在瀏覽網(wǎng)站和使用APP的過(guò)程中會(huì)生成許多的訪問(wèn)痕跡,這些訪問(wèn)痕跡的數(shù)據(jù)也被稱(chēng)為網(wǎng)絡(luò)日志。生成的網(wǎng)絡(luò)日志能夠間接反映用戶(hù)的行為信息,蘊(yùn)含大量的有價(jià)值的信息,需要通過(guò)數(shù)據(jù)挖掘進(jìn)行用戶(hù)行為分析才能提取出有價(jià)值的信息。前人對(duì)用戶(hù)行為分析方面做了細(xì)致的工作。

        Chen等人[3]針對(duì)電子商務(wù)網(wǎng)站中用戶(hù)瀏覽和購(gòu)買(mǎi)商品的行為數(shù)據(jù),將其進(jìn)行分布式表示,通過(guò)利用不同上下文中項(xiàng)目行為的分布式表示之間的余弦距離,借此來(lái)預(yù)測(cè)用戶(hù)什么時(shí)候會(huì)產(chǎn)生下一次點(diǎn)擊商品或者購(gòu)買(mǎi)商品的行為。

        Devineni等人[4]主要是從用戶(hù)的社交數(shù)據(jù)中提取出不同的時(shí)間間隔里用戶(hù)的社交行為特征,從而分析用戶(hù)的社交行為,基于此實(shí)現(xiàn)了一個(gè)可視化框架用來(lái)展現(xiàn)用戶(hù)的個(gè)性化行為。

        Guimaraes等人[5]采用社交中產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù),從網(wǎng)絡(luò)數(shù)據(jù)中提取用戶(hù)特征,通過(guò)深度學(xué)習(xí)算法對(duì)用戶(hù)的年齡組進(jìn)行分類(lèi)分析。

        袁興福等人[6]構(gòu)建了電商用戶(hù)訪問(wèn)會(huì)話(huà)模型,并且基于此模型中的行為序列進(jìn)行聚類(lèi)分析,可以為營(yíng)銷(xiāo)方案的制定提供理論依據(jù)。

        徐赟等人[7]基于實(shí)際的淘寶數(shù)據(jù)集做行為分析,分析了只逛不買(mǎi)的電子商務(wù)用戶(hù)行為,利用聚類(lèi)分析的方法總結(jié)出四種只逛不買(mǎi)的用戶(hù)類(lèi)型。

        毛佳昕等人[8]主要是針對(duì)新浪微博中的用戶(hù)數(shù)據(jù),考慮了社會(huì)影響力在微博網(wǎng)絡(luò)環(huán)境中的傳播情況,探究出用戶(hù)行為之間深層次的關(guān)系,提出了一種度量社會(huì)影響力的方法,該方法主要是根據(jù)預(yù)測(cè)用戶(hù)傳播信息能力大小來(lái)判定社會(huì)影響力的。

        李磊等人[9]研究了微博的熱點(diǎn)話(huà)題,對(duì)微博用戶(hù)的行為進(jìn)行聚類(lèi)分析,從而將微博用戶(hù)大致分為三類(lèi):(1)一般關(guān)注類(lèi),該類(lèi)用戶(hù)是三類(lèi)中最多的一類(lèi),所承擔(dān)的角色一般而言是信息的接收者;(2)主動(dòng)參與類(lèi),該類(lèi)用戶(hù)的表現(xiàn)是主動(dòng)發(fā)布輿論信息,該類(lèi)用戶(hù)的人數(shù)處于中等;(3)信息傳播類(lèi),該類(lèi)人數(shù)最少,主要是作為輿情領(lǐng)袖的角色,傳播重要的信息,擁有很大的話(huà)語(yǔ)權(quán)。

        從相關(guān)文獻(xiàn)可以得到結(jié)論,用戶(hù)行為分析離不開(kāi)數(shù)據(jù)挖掘以及聚類(lèi)分析。數(shù)據(jù)挖掘是通過(guò)采用一定的方法來(lái)挖掘出深藏在海量數(shù)據(jù)表面下的有價(jià)值的信息。數(shù)據(jù)挖掘經(jīng)常使用的方式多種多樣,包括分類(lèi)、聚類(lèi)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法等。而從上述的相關(guān)文獻(xiàn)也可以看出,分析用戶(hù)行為最常用的數(shù)據(jù)挖掘方法就是聚類(lèi)分析了。不少用戶(hù)行為的研究中會(huì)采用K-means這個(gè)聚類(lèi)算法,因?yàn)槠湓砗?jiǎn)單而且比較容易實(shí)現(xiàn),但是它也有自己的弊端,那就是必須提前指定初始參數(shù),比如聚類(lèi)數(shù)k值,這就會(huì)導(dǎo)致聚類(lèi)的結(jié)果隨機(jī)性比較大,容易出現(xiàn)局部最優(yōu)解以及聚類(lèi)結(jié)果不穩(wěn)定的情況。所以在本文中,采用了改進(jìn)后的K-means聚類(lèi)算法來(lái)對(duì)社交電商在工具 APP上產(chǎn)生的日志信息進(jìn)行用戶(hù)行為分析,劃分用戶(hù)群體性質(zhì)。

        2 背景知識(shí)

        2.1 大數(shù)據(jù)分析技術(shù)

        大數(shù)據(jù)分析的整個(gè)流程包含三部分,分別是數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分析和模型效果評(píng)估。

        第一步要進(jìn)行的過(guò)程是數(shù)據(jù)預(yù)處理,我們能夠獲取到的數(shù)據(jù)一般來(lái)講與所需的數(shù)據(jù)是不一致的,并沒(méi)有我們想象中的完美。我們需要的數(shù)據(jù)往往來(lái)說(shuō)是標(biāo)準(zhǔn)的,是一個(gè)二維表格,表格縱向代表的是每一條數(shù)據(jù),表格橫向代表的是每條數(shù)據(jù)的屬性。然而我們能夠獲取到的數(shù)據(jù)卻很少情況是標(biāo)準(zhǔn)的,會(huì)出現(xiàn)各種各樣的情況,比如異常值和缺失值等情況,不但如此數(shù)據(jù)格式也是多種多樣的。所以在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)預(yù)處理,以便將雜亂的數(shù)據(jù)格式轉(zhuǎn)換成為二維表格的標(biāo)準(zhǔn)數(shù)據(jù)格式,才能夠更深層次的挖掘數(shù)據(jù)潛在的價(jià)值和規(guī)律。數(shù)據(jù)預(yù)處理過(guò)程有很多步驟,最關(guān)鍵的幾個(gè)步驟有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約以及數(shù)據(jù)變換。

        處理完數(shù)據(jù)預(yù)處理的工作,緊接著要做的步驟是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘指的是對(duì)數(shù)據(jù)進(jìn)行深層次的挖掘,總結(jié)出數(shù)據(jù)深層次的價(jià)值和規(guī)律。通常會(huì)使用各種機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行數(shù)據(jù)挖掘過(guò)程,以解決實(shí)際問(wèn)題。機(jī)器學(xué)習(xí)的方法可以根據(jù)數(shù)據(jù)是否有標(biāo)簽來(lái)分為兩種:有監(jiān)督的機(jī)器學(xué)習(xí)和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)。有監(jiān)督的機(jī)器學(xué)習(xí)就是在數(shù)據(jù)標(biāo)簽的“監(jiān)督”下,訓(xùn)練過(guò)程中根據(jù)標(biāo)簽內(nèi)容不斷糾正模型。而無(wú)監(jiān)督的機(jī)器學(xué)習(xí)就是沒(méi)有數(shù)據(jù)標(biāo)簽,因?yàn)樵诂F(xiàn)實(shí)中很多情況下是不能預(yù)先知道數(shù)據(jù)的標(biāo)簽的,所以此時(shí)就要通過(guò)計(jì)算數(shù)據(jù)集樣本之間的相似性來(lái)揭示數(shù)據(jù)內(nèi)部規(guī)律。而聚類(lèi)算法是最經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法之一,有著十分廣泛的應(yīng)用。

        在大數(shù)據(jù)分析過(guò)程中得到機(jī)器學(xué)習(xí)模型后,要用一定的指標(biāo)來(lái)衡量機(jī)器學(xué)習(xí)模型的性能優(yōu)劣。只有在衡量指標(biāo)上表現(xiàn)良好的模型才具有一定實(shí)際應(yīng)用意義,才可以用來(lái)解決生活中的實(shí)際問(wèn)題。

        2.2 聚類(lèi)算法介紹

        聚類(lèi)分析是一種在數(shù)據(jù)挖掘領(lǐng)域中比較基礎(chǔ)的數(shù)據(jù)處理手段,通過(guò)聚類(lèi)算法對(duì)數(shù)據(jù)分類(lèi)能夠?qū)⒁粋€(gè)數(shù)據(jù)集劃分為若干個(gè)類(lèi)內(nèi)對(duì)象相似而類(lèi)間對(duì)象相異的類(lèi)簇[10],因此就可以在數(shù)據(jù)集中發(fā)掘出潛在的數(shù)據(jù)模式和深層次的內(nèi)在聯(lián)系[11]。聚類(lèi)的過(guò)程就是根據(jù)一組定義將一組對(duì)象劃分為多個(gè)集群的過(guò)程,其目的就是將具有相同特征的數(shù)據(jù)歸于用一個(gè)簇中。聚類(lèi)算法通常屬于無(wú)監(jiān)督學(xué)習(xí)算法,不僅可以挖掘數(shù)據(jù)之間的潛在聯(lián)系,揭示數(shù)據(jù)的分布特征,還可以作為一種預(yù)處理方式,處理結(jié)果用于后續(xù)的數(shù)據(jù)分析。聚類(lèi)算法已經(jīng)廣泛應(yīng)用在很多方面,比如電子商務(wù)、市場(chǎng)營(yíng)銷(xiāo)、信息檢索和模式識(shí)別等。

        目前,隨著機(jī)器學(xué)習(xí)的發(fā)展,已經(jīng)有很多成熟的聚類(lèi)算法。比如,基于劃分的聚類(lèi)算法、基于密度的聚類(lèi)算法、基于層次的聚類(lèi)算法,基于網(wǎng)格的聚類(lèi)算法基于模型的聚類(lèi)方法等等,但是無(wú)論哪種方法都是比較數(shù)據(jù)集中每個(gè)對(duì)象之間的性質(zhì),將性質(zhì)相似的對(duì)象歸為一簇中,將不相似的對(duì)象歸為不同的簇中[12]。

        2.3 K-means和Canopy算法概述

        K-means是機(jī)器學(xué)習(xí)研究中最經(jīng)常使用的聚類(lèi)算法,也是十大經(jīng)典的數(shù)據(jù)挖掘算法之一。它是一種基于劃分的聚類(lèi)算法,同時(shí)也是一種無(wú)監(jiān)督學(xué)習(xí)。相對(duì)于其他的聚類(lèi)算法,K-means以算法原理比較簡(jiǎn)單,收斂速度快而著稱(chēng)。K-means算法必須先提前指定聚類(lèi)數(shù)和初始聚類(lèi)中心,然后不停更新聚類(lèi)中心,一步步減少目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)值呈現(xiàn)收斂的狀態(tài)時(shí),整個(gè)過(guò)程終止,獲取到最終的聚類(lèi)結(jié)果。

        從算法原理上看,K-means也有自己的局限性。K-means這種聚類(lèi)算法需要提前設(shè)置好參數(shù),也就是需要提前設(shè)置好聚類(lèi)的個(gè)數(shù),同時(shí)會(huì)隨機(jī)初始化k個(gè)聚類(lèi)中心。這種實(shí)現(xiàn)指定的k值和隨機(jī)初始化的聚類(lèi)中心不僅會(huì)降低聚類(lèi)算法的效率,而且得到的結(jié)果也可能是局部最優(yōu)的。

        為了解決上述描述的K-means算法出現(xiàn)的問(wèn)題,通常能夠采用Canopy算法來(lái)輔助K-means算法來(lái)做聚類(lèi)分析。Canopy算法的聚類(lèi)粒度比較粗略,它采用一種簡(jiǎn)單方便的距離計(jì)算方法將數(shù)據(jù)集劃分為多個(gè)可重疊的子集 Canopy[13]。這種算法不需要指定k值、但精度較低,可以結(jié)合K-means算法一起使用:先由 Canopy算法進(jìn)行粗聚類(lèi)得到k個(gè)聚類(lèi)中心,再將這k個(gè)聚類(lèi)中心作為 K-means算法的初始聚類(lèi)中心,再進(jìn)行聚類(lèi)。

        從Canopy算法實(shí)現(xiàn)的步驟來(lái)看,Canopy算法的優(yōu)點(diǎn)明顯,同時(shí)也存在一定的缺點(diǎn),就是要事先指定合適的 T1和 T2,閾值 T1,T2的選取和確定都比較困難,閾值的大小對(duì)聚類(lèi)結(jié)果有很大的影響。根據(jù)Zhang等人[14]提出的的基于密度的Canopy算法,提出最大權(quán)重乘積法來(lái)確定聚類(lèi)中心,減少隨機(jī)性帶來(lái)的不穩(wěn)定性。

        3 基于社交電商的工具平臺(tái)行為的大數(shù)據(jù)分析

        3.1 數(shù)據(jù)預(yù)處理

        對(duì)于大數(shù)據(jù)分析,現(xiàn)實(shí)中的日志信息和我們所需要的數(shù)據(jù)差別很大,為了得到實(shí)驗(yàn)可以使用的標(biāo)準(zhǔn)數(shù)據(jù),首先要進(jìn)行的過(guò)程就是數(shù)據(jù)的預(yù)處理工作。

        從社交電商使用的某工具 APP中獲取 2020年1月的社交電商的日志數(shù)據(jù)。通過(guò)分析原日志的數(shù)據(jù)格式和字段含義,進(jìn)行元數(shù)據(jù)分割和提取得到格式化數(shù)據(jù)??紤]進(jìn)行用戶(hù)行為分析所需字段,保留必要字段部分,并且對(duì)日志數(shù)據(jù)進(jìn)行一定統(tǒng)計(jì)計(jì)算,功能名稱(chēng)映射為功能編號(hào),得到用戶(hù)id,功能編號(hào),功能圖標(biāo)點(diǎn)擊次數(shù)和功能圖標(biāo)點(diǎn)擊總次數(shù)。該工具 APP為社交電商提供了 18個(gè)功能的使用,因此功能編號(hào)范圍為1-18。數(shù)據(jù)的格式示例如表1所示。

        表1 APP 功能按鈕點(diǎn)擊信息示例表Tab.1 The sample table of click information on App function buttons

        獲取到數(shù)據(jù)后,要進(jìn)行一定的數(shù)據(jù)過(guò)濾,過(guò)濾掉功能圖標(biāo)點(diǎn)擊總次數(shù)在10以?xún)?nèi)的用戶(hù),該類(lèi)用戶(hù)一個(gè)月內(nèi)的點(diǎn)擊圖標(biāo)次數(shù)過(guò)少,不具有代表性;然后進(jìn)行數(shù)據(jù)轉(zhuǎn)換,引入偏好指數(shù)的概念,以“功能圖標(biāo)點(diǎn)擊次數(shù)/功能圖標(biāo)點(diǎn)擊總次數(shù)”表示偏好指數(shù),代表用戶(hù)對(duì)該功能的偏好,建立用戶(hù)偏好模型,構(gòu)造用戶(hù)的特征向量。用戶(hù)偏好模型為:

        ti表示第i個(gè)功能的編號(hào),wi就表示社交電商對(duì)第i個(gè)功能的“偏好指數(shù)”,即社交電商對(duì)某個(gè)功能的訪問(wèn)次數(shù)和該位社交電商對(duì)所有功能的總訪問(wèn)次數(shù)的比值,ni表示社交電商訪問(wèn)第 i個(gè)功能的次數(shù)。比如社交電商在某個(gè)時(shí)間周期內(nèi)一共訪問(wèn)了100次功能,其中訪問(wèn)功能1按鈕20次,訪問(wèn)功能2按鈕40次,訪問(wèn)功能3按鈕40次訪問(wèn)其他功能的次數(shù)均為0次,這樣就可以計(jì)算出每個(gè)功能的“偏好指數(shù)”,那么社交電商的訪問(wèn)特征就可以被表示為:{(1,0.2,20),(2, 0. 4, 40 ),(3, 0. 4, 40 ),(4, 0, 0), … ,(1 8, 0, 0) }。用戶(hù)的 i的特征向量可以表示為:

        其中:Tin表示用戶(hù)i對(duì)第n個(gè)功能的“偏好指數(shù)”。

        3.2 數(shù)據(jù)挖掘分析

        由于社交電商數(shù)量較多,特征向量的維度比較多,表示結(jié)構(gòu)比較復(fù)雜,所以數(shù)據(jù)內(nèi)部規(guī)律僅僅靠觀察是無(wú)法總結(jié)出來(lái)的,因此就需要針對(duì)社交電商的一些特征行為來(lái)使用聚類(lèi)算法對(duì)其進(jìn)行聚類(lèi)分析。本文就是針對(duì)社交電商的功能訪問(wèn)行為數(shù)據(jù)來(lái)對(duì)社交電商種類(lèi)進(jìn)行劃分。本文采用的聚類(lèi)算法是基于密度 Canopy的改進(jìn) K-means算法。

        Canopy是一種劃分粒度比較粗略的聚類(lèi)算法,它采用一種簡(jiǎn)單、快捷的距離計(jì)算方法通過(guò)計(jì)算數(shù)據(jù)之間的距離來(lái)將數(shù)據(jù)集劃分為多個(gè)可以重疊的子集,這種算法不需要指定k值、但精度較低,可以結(jié)合 K-means算法一起使用:先由Canopy算法進(jìn)行粗聚類(lèi)得到 k個(gè)質(zhì)心。然后K-means的聚類(lèi)中心可以直接指定為Canopy算法得到的 k個(gè)聚類(lèi)中心,而不是隨機(jī)指定。標(biāo)準(zhǔn)Canopy算法需要指定兩個(gè)閾值T1,T2且T1> T2;隨機(jī)選擇數(shù)據(jù)集中的一個(gè)數(shù)據(jù)作為中心。閾值T1,T2的選取和確定都比較困難,閾值的大小對(duì)聚類(lèi)結(jié)果有很大的影響??梢詫?duì)此進(jìn)行改進(jìn),采用基于密度的Canopy算法,采用最大權(quán)重乘積法來(lái)確定聚類(lèi)中心,減少隨機(jī)性帶來(lái)的不穩(wěn)定性。算法流程如圖1所示。

        圖1 基于密度Canopy改進(jìn)的K-means算法流程Fig.1 Improved k-means algorithm flow based on density canopy

        3.3 模型效果評(píng)估

        為了衡量聚類(lèi)結(jié)果的優(yōu)劣,可以考慮用輪廓系數(shù)來(lái)評(píng)估聚類(lèi)模型的效果。輪廓系數(shù)是用來(lái)評(píng)價(jià)聚類(lèi)效果好壞的一個(gè)指標(biāo)。Pete在1986年首次提出這個(gè)指標(biāo)。輪廓系數(shù)考慮了內(nèi)聚度和分離度這兩個(gè)指標(biāo)。它可以被用來(lái)在相同原始數(shù)據(jù)集的基礎(chǔ)上評(píng)價(jià)不同算法、或者算法不同運(yùn)行方式對(duì)聚類(lèi)結(jié)果所造成的影響。輪廓系數(shù)的值是處于[–1,1]之間的,它的值越大就代表內(nèi)聚度和分離度都越好,分類(lèi)的結(jié)果越好。

        針對(duì)簇中的每個(gè)向量,各自計(jì)算各個(gè)向量的輪廓系數(shù)。然后將所有點(diǎn)的輪廓系數(shù)求平均,就是該聚類(lèi)結(jié)果的輪廓系數(shù)。第 i個(gè)樣本的輪廓系數(shù)計(jì)算公式為:

        其中,a(i)代表向量與同一簇中其他向量的差異程度的平均值,被稱(chēng)為簇內(nèi)不相似度;a(i)為向量i到其他簇中的向量的平均差異程度的最小值,被稱(chēng)為簇間不相似度。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 算法改進(jìn)前后性能對(duì)比

        本次實(shí)驗(yàn)實(shí)現(xiàn)了原始的K-means算法和基于密度 Canopy改進(jìn)的 K-means算法,并首先對(duì)經(jīng)典數(shù)據(jù)集 wine進(jìn)行迭代計(jì)算,對(duì)比了改進(jìn)前后K-means算法的迭代次數(shù),運(yùn)行時(shí)間和輪廓系數(shù),實(shí)驗(yàn)結(jié)果如表2所示。

        表2 改進(jìn)前后算法聚類(lèi)效果對(duì)比Tab.2 Comparison of clustering algorithms before and after improvement

        從實(shí)驗(yàn)結(jié)果中可以看出來(lái),基于密度Canopy改進(jìn)的K-means算法消耗了更短的運(yùn)行時(shí)間并且在較少的迭代次數(shù)下就達(dá)到收斂,由此可以說(shuō)明改進(jìn)后的K-means算法性能優(yōu)于原始的K-means算法性能。不僅如此,改進(jìn)后的K-means算法的輪廓系數(shù)大于原始的K-means算法,也就是說(shuō)改進(jìn)后的算法的聚類(lèi)效果更好。總而言之,改進(jìn)后的算法能在更少的時(shí)間內(nèi)達(dá)到更優(yōu)的聚類(lèi)結(jié)果。

        4.2 社交電商聚類(lèi)結(jié)果分析

        在本次實(shí)驗(yàn)中,將基于密度的Canopy算法和K-means算法結(jié)合起來(lái)來(lái)改進(jìn)K-means算法,對(duì)本文社交電商數(shù)據(jù)集進(jìn)行迭代計(jì)算。數(shù)據(jù)集中共有2708個(gè)社交電商的數(shù)據(jù),聚類(lèi)算法的分類(lèi)情況如表3。

        表3 社交電商數(shù)據(jù)聚類(lèi)算法的分類(lèi)結(jié)果Tab.3 Classification results of the clustering algorithm based on social e-commerce data

        將每一類(lèi)的訪問(wèn)偏好向量取平均值,求得每類(lèi)的平均訪問(wèn)特征向量,為了直觀觀察,將每類(lèi)的平均訪問(wèn)特征繪圖如圖2所示。

        圖2 三類(lèi)社交電商的功能訪問(wèn)特征Fig.2 Functional access characteristics of three types of social E-commerce

        從聚類(lèi)結(jié)果可以看出,可以將社交電商分為三個(gè)大類(lèi),分別為“單一功能偏好者”、“功能使用均衡者”和“部分功能愛(ài)好者”。

        社交電商群體1:“部分功能愛(ài)好者”。該群體總共有1 959人,占總?cè)藬?shù)比例為72.23%,人數(shù)占比最大,在功能1,功能6和功能10上訪問(wèn)較多,均在10%以上,尤其是功能6可以達(dá)到30%,對(duì)其他功能的訪問(wèn)比較少,在10%以下??梢酝茰y(cè),大部分社交電商日常工作中使用最多的也就是某幾個(gè)功能。該類(lèi)APP開(kāi)發(fā)者需要對(duì)社交電商使用頻率多的功能進(jìn)行重點(diǎn)研究,不斷改進(jìn)這些功能使用的體驗(yàn)感,提供穩(wěn)定的技術(shù)支撐,才能留住大部分社交電商。

        社交電商群體2:“功能使用均衡者”。該群體總共有724人,占總?cè)藬?shù)比例為26.74%。該類(lèi)社交電商對(duì)所有功能的訪問(wèn)都比較平均,偏好程度均不超過(guò)10%,沒(méi)有特別明顯的功能訪問(wèn)偏好,但是每一功能都有一定的使用。推測(cè)該類(lèi)社交電商所需功能種類(lèi)比較多,日常工作中涉及到的需求比較多,APP的功能種類(lèi)豐富與否會(huì)影響該類(lèi)社交電商對(duì)該類(lèi)APP的選擇。

        社交電商群體3:“單一功能偏好者”。該群體總共有25人,占總?cè)藬?shù)比例為0.92%,該類(lèi)社交電商群體人數(shù)占比最少,該類(lèi)顯著特征是80%以上的功能訪問(wèn)都集中于功能12上,對(duì)其他功能的訪問(wèn)少之又少。也就是說(shuō)該群體偏向使用某一特定功能。推測(cè)該類(lèi)社交電商是為了功能12這一特定功能來(lái)特地使用該工具APP的。

        5 結(jié)論

        本文以社交電商在工具APP上產(chǎn)生的日志數(shù)據(jù)為數(shù)據(jù)集,然后利用機(jī)器學(xué)習(xí)中的聚類(lèi)算法對(duì)社交電商的行為特征進(jìn)行大數(shù)據(jù)分析,通過(guò)改進(jìn)后的K-means聚類(lèi)算法預(yù)測(cè)社交電商的分類(lèi),從功能訪問(wèn)的角度對(duì)社交電商的行為展開(kāi)分析。利用這一課題的研究為對(duì)社交電商群體進(jìn)行用戶(hù)行為分析提供新思路。

        猜你喜歡
        數(shù)據(jù)挖掘聚類(lèi)社交
        社交之城
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        社交距離
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        老熟妇乱子伦牲交视频| 亚洲AV乱码毛片在线播放| 91亚洲最新国语中文字幕| 少妇高潮精品在线观看| 久9re热视频这里只有精品| 成人综合网亚洲伊人| www.久久av.com| 蜜桃噜噜一区二区三区 | 亚洲av成人片在线观看| 久久国产精久久精产国| 国产欧美亚洲另类第一页| 国产毛片视频一区二区三区在线| 国内少妇毛片视频| 国产主播一区二区三区在线观看| 狠狠色丁香婷婷久久综合2021 | 免费观看91色国产熟女| 成人免费看片又大又黄| 97福利视频| 在线观看一区二区三区国产| 大地资源高清在线视频播放 | 国产农村妇女高潮大叫| 欧美片欧美日韩国产综合片| 蜜桃免费一区二区三区| 亚洲色欲色欲www在线观看| 欧美自拍丝袜亚洲| 亚洲天堂av中文字幕| www夜插内射视频网站| 亚洲av男人的天堂在线观看 | 亚洲最大中文字幕无码网站| aa视频在线观看播放免费| 日韩在线精品视频一区| 亚洲av麻豆aⅴ无码电影| 欧美高清视频一区| 日本午夜理论一区二区在线观看| 久久久久亚洲av无码专区喷水| 亚洲av无码专区亚洲av桃| 精品人妻一区二区久久| 可以免费看亚洲av的网站| 使劲快高潮了国语对白在线| caoporon国产超碰公开| 精品国产精品三级在线专区|