亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于迂回二次聚類的微博用戶細(xì)分研究

        2016-05-11 01:47:18陳可嘉羅曉莉
        關(guān)鍵詞:微博

        陳可嘉 羅曉莉

        (福州大學(xué)經(jīng)濟與管理學(xué)院, 福建福州 350116)

        ?

        基于迂回二次聚類的微博用戶細(xì)分研究

        陳可嘉羅曉莉

        (福州大學(xué)經(jīng)濟與管理學(xué)院, 福建福州350116)

        摘要:對于開展微博營銷的企業(yè)而言,挖掘微博用戶信息,進行用戶細(xì)分,是企業(yè)實現(xiàn)精準(zhǔn)網(wǎng)絡(luò)營銷的迫切需求。為此,首先運用API和網(wǎng)絡(luò)爬蟲技術(shù),獲取@戴爾中國的粉絲列表及相關(guān)用戶信息。通過數(shù)據(jù)預(yù)處理,得到有效數(shù)據(jù)樣本。然后對變量進行相關(guān)性分析,引入微博熱度、互粉率變量,確定性別、地域、粉絲數(shù)、關(guān)注數(shù)、等級、認(rèn)證類型、互粉率、微博熱度等8項用戶細(xì)分變量。基于迂回二次聚類,將@戴爾中國的微博粉絲用戶劃分為草根明星型、活躍女性型和默默關(guān)注型三類。在此基礎(chǔ)上,幫助戴爾針對不同的用戶群制定微博營銷策略,為戴爾開展精準(zhǔn)營銷提供參考。

        關(guān)鍵詞:微博; 用戶細(xì)分; 迂回二次聚類; 戴爾中國

        近年來,由于互聯(lián)網(wǎng)技術(shù)的發(fā)展,尤其是web2.0網(wǎng)絡(luò)應(yīng)用的興起,微博、微信等社交類應(yīng)用在短時間內(nèi)迅速崛起。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《2014年中國社交類應(yīng)用用戶行為研究報告》,我國整體網(wǎng)民中,社交網(wǎng)站覆蓋率為61.7%,其中微博覆蓋率為43.6%;微博品牌的覆蓋率,新浪微博所占網(wǎng)民比例位居第一,騰訊微博緊跟其后。

        微博的日趨流行造就了企業(yè)營銷管理的新格局。一方面,微博用戶群迅猛增長,不同地域、性格和特點的用戶群,用戶需求呈現(xiàn)差異化;另一方面,微博中存儲了海量的用戶數(shù)據(jù),這些數(shù)據(jù)蘊含著用戶潛在的行為特征,為識別用戶需求提供了可能性。當(dāng)前,微博已成為企業(yè)與用戶互動交流的重要平臺,企業(yè)非常注重在微博上進行用戶關(guān)系管理。挖掘微博用戶信息,進行微博用戶細(xì)分,是企業(yè)實現(xiàn)精準(zhǔn)化營銷的迫切需求。[1]

        基于微博用戶數(shù)據(jù)的分析研究引起了國內(nèi)外學(xué)者的廣泛關(guān)注,成為了當(dāng)前社交網(wǎng)絡(luò)研究中的熱點方向。在國外,研究者主要集中關(guān)注Twitter網(wǎng)站上的數(shù)據(jù)分析,采用不同方法對Twitter用戶及微博信息進行研究。Cha等比較分析了與Twitter用戶影響力相關(guān)的三個指標(biāo),分別為粉絲數(shù)、被轉(zhuǎn)發(fā)數(shù)和評論數(shù),發(fā)現(xiàn)用戶的粉絲數(shù)量并不能直接反映用戶的影響力,并將用戶間的轉(zhuǎn)發(fā)率作為計算用戶影響力的主要變量[2];Kwak等運用PageRank算法計算了Twitter用戶的排名,研究了微博信息傳播機制、微博影響力與用戶粉絲數(shù)量的相關(guān)性、用戶網(wǎng)絡(luò)的粉絲分布以及微博話題分布等問題[3];Shen等使用ROST軟件對微博垃圾信息進行了文本挖掘,分析了微博垃圾信息的擴散網(wǎng)絡(luò)[4];Fischer等運用歸納理論構(gòu)建法討論了Twitter的互動運行機制及其對用戶認(rèn)知和行為的有效影響,認(rèn)為通過Twitter進行社交互動的兩個主要影響因素分別是社區(qū)定位和對社區(qū)規(guī)范的遵守。[5]在國內(nèi),研究對象主要為新浪微博、騰訊微博等用戶群體多、影響力廣的微博平臺,探討較多的是微博用戶影響力、微博用戶特征、微博用戶關(guān)系以及微博信息傳播等問題。王曉光以“新浪微博”為例,對微博的基本結(jié)構(gòu)以及信息傳播模式進行了研究,考察了微博用戶的行為特征和關(guān)系特征,構(gòu)建了微博影響力回歸方程[6];何黎等運用數(shù)據(jù)挖掘技術(shù)研究了微博用戶特征,分析了通過對微博網(wǎng)絡(luò)進行核心用戶挖掘從而開展個性化營銷的可行性[7];平亮和宗利永以新浪微博為研究對象,利用社交網(wǎng)絡(luò)中心性分析方法,結(jié)合微博用戶之間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,探討了微博信息的傳播模式[8];楊小朋和何躍引入博文魅力指數(shù)和博主收聽人數(shù)兩個變量,采用K-Means聚類算法對騰訊微博用戶進行了聚類,挖掘了騰訊微博用戶的特征[9];原福永等借助用戶被關(guān)注度,計算了微博用戶的活躍度與影響力,在此基礎(chǔ)上,建立了用戶影響力指數(shù)模型。[10]

        從已有的相關(guān)文獻來看,微博數(shù)據(jù)挖掘研究大多集中于微博的網(wǎng)絡(luò)結(jié)構(gòu)、用戶特征、用戶影響力及微博信息傳播等方面,而針對微博用戶細(xì)分的研究較為缺乏。楊小鵬等運用聚類算法實現(xiàn)了對微博用戶的劃分,證明了聚類分析方法在微博用戶細(xì)分中應(yīng)用是可行的[11],但其僅僅采用單一的K-Means聚類算法。

        聚類分析起源于分類學(xué),是數(shù)據(jù)挖掘中一個重要的研究課題,被廣泛地應(yīng)用于用戶細(xì)分、識別潛在用戶等領(lǐng)域。[12]最常用的兩種聚類分析方法是K均值(K-Means)聚類和系統(tǒng)聚類。K-Means聚類在效率、精確度等方面優(yōu)于系統(tǒng)聚類,但也有一個明顯的缺陷就是需要事先確定聚類個數(shù)。

        基于此,本文選取戴爾的新浪微博作為研究對象,利用API和網(wǎng)絡(luò)爬蟲技術(shù),獲取@戴爾中國的粉絲用戶列表及用戶信息,綜合系統(tǒng)聚類和K-means聚類的優(yōu)點,提出迂回二次聚類方法,實現(xiàn)微博用戶細(xì)分,通過分析用戶分群的特征,挖掘微博用戶的差異化需求,幫助企業(yè)制定精準(zhǔn)營銷策略。

        一、微博用戶細(xì)分模型

        基于數(shù)據(jù)挖掘的微博用戶細(xì)分步驟包括微博用戶細(xì)分目標(biāo)確立、微博用戶數(shù)據(jù)預(yù)處理、微博用戶細(xì)分變量確定、微博用戶細(xì)分算法設(shè)計、微博用戶細(xì)分實現(xiàn)、微博用戶細(xì)分結(jié)果分析與精準(zhǔn)營銷指導(dǎo)等。[13]

        (一)微博用戶數(shù)據(jù)預(yù)處理

        由于微博用戶數(shù)據(jù)可能存在缺失值、異常值和數(shù)據(jù)類型多樣化等情況,在進行微博用戶細(xì)分之前,需要對微博用戶數(shù)據(jù)進行預(yù)處理,預(yù)處理步驟如圖1所示。

        (1)企業(yè)微博粉絲用戶中存在部分的虛假粉絲或活躍度極低的真實粉絲,統(tǒng)稱為“僵尸粉”。該類用戶一般表現(xiàn)為沒有粉絲或基本沒有粉絲,無微博或長期未更新微博。這類用戶對于企業(yè)微博營銷意義不大,因而在對微博用戶進行細(xì)分之前,首先對“僵尸粉”予以剔除,剔除的標(biāo)準(zhǔn)為粉絲數(shù)≤α(α≥0)或微博數(shù)≤β(β≥0)。

        (2)由于微博用戶數(shù)據(jù)可能存在缺失值、異常值、無效值等,這些都會對分析結(jié)果造成影響。為了確保分析的準(zhǔn)確性和真實性,剔除數(shù)據(jù)質(zhì)量差的變量。此外,考慮數(shù)據(jù)挖掘算法對于數(shù)據(jù)差異性的要求,對數(shù)據(jù)分布過于集中的變量,同樣予以剔除。最終將數(shù)據(jù)質(zhì)量差的標(biāo)準(zhǔn)定義為數(shù)據(jù)缺失率≥γ(γ≥0)或數(shù)據(jù)集中率≥δ(δ≥0),其中,映射在某變量上的數(shù)據(jù)缺失率=變量值缺失的樣本數(shù)/總有效樣本數(shù),映射在某變量的數(shù)據(jù)集中率=出現(xiàn)頻率最高的變量值對應(yīng)的樣本數(shù)/總有效樣本數(shù)。

        (3)對于剩余變量,可能還存在用戶樣本在變量的映射含有缺失值、異常值等,剔除這些數(shù)據(jù)異常的用戶樣本。

        (4)數(shù)值化處理。對于名義型變量,轉(zhuǎn)化為對稱數(shù)值;對于有序型變量,轉(zhuǎn)化為序數(shù)值。

        (5)數(shù)據(jù)分段處理??紤]變量數(shù)據(jù)離散性,對部分變量數(shù)據(jù)進行分段處理。

        (二)微博用戶細(xì)分變量確定

        經(jīng)過數(shù)據(jù)預(yù)處理,初步得到可用于微博用戶細(xì)分的有效用戶數(shù)據(jù)。要確定微博用戶細(xì)分變量,還需要進一步考察變量的相關(guān)性。由于相關(guān)性較強的變量會將某些因素放大而影響聚類效果,故需對變量進行相關(guān)性分析,標(biāo)識出相關(guān)性強的變量加以分析,合理去除高相關(guān)變量。通過計算變量間的Pearson相關(guān)系數(shù),將相關(guān)系數(shù)r≥ε(0≤ε≤1)的變量列出,對于相關(guān)性較高的變量,結(jié)合各變量的具體含義及對應(yīng)關(guān)系,進行合理地剔除,最終確定微博用戶細(xì)分變量。

        (三)微博用戶細(xì)分算法設(shè)計

        聚類分析能夠根據(jù)用戶屬性變量將用戶劃分為具有不同特征的用戶群,故本文選取聚類分析作為微博用戶細(xì)分的方法。聚類分析通常有兩類方法:分層方法和劃分方法,其中最常用的分別是系統(tǒng)聚類和K-Means聚類。

        1. 系統(tǒng)聚類

        系統(tǒng)聚類屬于聚類分析中的分層方法,是聚類分析中使用最多的方法,其基本步驟如圖2所示。

        系統(tǒng)聚類的基本原理是將距離近的對象先進行聚類,距離遠的后進行聚類,對數(shù)據(jù)反復(fù)進行分裂或合并,直到滿足某個條件為止,可以通過繪制聚類樹圖直觀地反映整個聚類過程。

        系統(tǒng)聚類的最大缺陷在于,分裂或合并的步驟一旦完成無法糾正,這意味著如果某個步驟的結(jié)果不好,則無法進行改正,最終將導(dǎo)致聚類效果不好。此外,系統(tǒng)聚類法主要適用于樣本量較少(通常指小于100)的樣本聚類及變量聚類,對于大數(shù)據(jù),處理性能較差。

        2. K-Means聚類

        K-Means聚類屬于聚類分析中的劃分方法,其基本步驟如圖3所示。

        K-Means聚類的基本思想是將對象在類間進行移動,通過反復(fù)迭代改變初始聚類,使得類內(nèi)對象間距離最短,類間距離最大。

        K-Means聚類具有計算速度快、伸縮性好、精確度高的優(yōu)點,但是由于不同的初始聚類中心會導(dǎo)致不同的聚類結(jié)果,使得聚類結(jié)果存在較大

        的不確定性,且算法對離群點異常敏感,離群點的存在會對聚類結(jié)果造成極大的影響。此外,K-Means聚類還有一個明顯的缺陷就是需要事先給出聚類個數(shù)k,而k值的準(zhǔn)確給出是非常困難的。

        3. 迂回二次聚類

        本文在進行微博用戶細(xì)分時,充分發(fā)揮系統(tǒng)聚類和K-Means聚類的優(yōu)點,提出了迂回二次聚類算法:

        (1)系統(tǒng)聚類方法確定。使用六種系統(tǒng)聚類方法對用戶數(shù)據(jù)進行第一次系統(tǒng)聚類,對比不同的聚類方法得到的聚類結(jié)果,確定系統(tǒng)聚類方法。

        (2)聚類個數(shù)初試。選取聚類效果最好的系統(tǒng)聚類方法,對用戶數(shù)據(jù)抽取小樣本實施第二次系統(tǒng)聚類,觀察所得聚類樹圖,判斷不同的聚類個數(shù)下,類的大小的分布,初步得出合適的聚類個數(shù)范圍。

        (3)聚類個數(shù)確定。繪制聚類個數(shù)與組內(nèi)平方和的散點折線圖,觀察得出推薦的聚類個數(shù),結(jié)合第二次系統(tǒng)聚類結(jié)果,最終確定聚類個數(shù)k。

        (4)初始中心確定。將探索確定的聚類個數(shù)k以參數(shù)形式回傳給K-Means聚類進行迭代,對隨機初始中心的選取次數(shù)進行嘗試,一般增加選取次數(shù)可以改善聚類效果,依據(jù)聚類效果最好的選取次數(shù),最終確定初始聚類中心。

        (5)K-Means聚類。根據(jù)上述步驟獲得的聚類個數(shù)及初始類中心,利用K-Means聚類對原始樣本重新劃分,最終確定聚類結(jié)果。

        二、基于迂回二次聚類的戴爾新浪微博用戶細(xì)分

        本文對于微博用戶細(xì)分的實證研究,選取戴爾的新浪官方微博@戴爾中國為例。戴爾是微博營銷中的經(jīng)典案例,對其微博用戶進行細(xì)分具有重要意義。

        (一)微博用戶數(shù)據(jù)采集與預(yù)處理

        1. 微博用戶數(shù)據(jù)采集

        目前微博數(shù)據(jù)采集主要有基于API的數(shù)據(jù)獲取和基于網(wǎng)絡(luò)爬蟲的頁面解析兩大方式。[14]新浪微博API接口共開放39項用戶變量信息,針對本文研究的需要,利用API接口獲取14項用戶變量信息,包括用戶UID,昵稱,所在省,所在城市,所在地,個人描述,性別,粉絲數(shù),關(guān)注數(shù),微博數(shù),收藏數(shù),注冊時間,微博認(rèn)證類型,互粉數(shù)。此外,借助基于網(wǎng)絡(luò)爬蟲的頁面解析技術(shù),獲取7項用戶變量信息,包括標(biāo)簽,教育信息,興趣(達人),等級,活躍天數(shù),信用等級,積分(達人)。

        本文的微博數(shù)據(jù)采集工作分兩次進行:第一次抓取時間為1月,完成了基于新浪微博API的數(shù)據(jù)采集;第二次抓取時間為3月,通過網(wǎng)絡(luò)爬蟲采集了微博用戶數(shù)據(jù)。

        由于微博用戶數(shù)量龐大,僅抽取@戴爾中國的部分用戶作為樣本,利用新浪微博API和網(wǎng)絡(luò)爬蟲兩種方式,共獲取包含21項用戶變量信息的4 856條@戴爾中國粉絲用戶數(shù)據(jù)。獲取的微博用戶數(shù)據(jù)存儲于MySQL數(shù)據(jù)庫中,作為微博用戶細(xì)分的樣本數(shù)據(jù)。

        2. 微博用戶數(shù)據(jù)預(yù)處理

        根據(jù)數(shù)據(jù)預(yù)處理步驟,具體操作如下:

        (1)根據(jù)百度百科對于“僵尸粉”的定義以及@戴爾中國微博粉絲用戶的粉絲數(shù)和微博數(shù)的分布情況,取α=5,β=5,即粉絲數(shù)≤5或微博數(shù)≤5的用戶視為“僵尸粉”予以剔除。共剔除325條用戶樣本,剩余4 531條用戶樣本。

        (2)定義變量值為空值(NULL)或空字符串‘ ’的數(shù)據(jù)為缺失值,取γ=30%,共剔除6項數(shù)據(jù)缺失率≥30%的用戶變量,包括個人描述、收藏數(shù)、標(biāo)簽、教育、興趣、達人積分,數(shù)據(jù)缺失率分別為60.8%、57.7%、45.2%、91.0%、84.1%、84.0%。此外,根據(jù)樣本數(shù)據(jù)的分布情況,取δ=90%,信用等級變量的數(shù)據(jù)分布過于集中,除去141項空值外,4693項均為“正常”,數(shù)據(jù)集中率≥90%,不符合聚類分析對于數(shù)據(jù)差異性的要求,予以剔除。

        (3)針對數(shù)據(jù)質(zhì)量滿足要求的變量,剔除在這些變量的映射中含有缺失值的樣本,共剔除143條異常樣本。針對研究問題的特定背景,將省份變量取值“其他”“海外”“香港”“臺灣”視為異常值,共剔除468條省份變量信息異常的樣本。

        (4)根據(jù)聚類分析對于數(shù)據(jù)類型的要求,對性別、用戶創(chuàng)建時間、微博認(rèn)證類型、所在地4項非數(shù)值型變量進行數(shù)值化處理。性別為名義型變量,值域為{“男”,“女”},對應(yīng)轉(zhuǎn)化為{1,-1};將用戶創(chuàng)建時間替換為與實驗時點的時間差,代表用戶的“微博年齡”,以天為計量單位;微博認(rèn)證類型為有序型變量,值域為{“普通用戶”“初級達人”“中高級達人”},相應(yīng)轉(zhuǎn)化為{0,1,2};所在地為名義型變量,形如“福建 福州”,分別與省份、城市變量相對應(yīng),且省份、城市變量均為數(shù)值型,故剔除所在地變量。

        (5)由于用戶省份變量取值的值域過大,造成聚類過程運算量大,且可能導(dǎo)致聚類結(jié)果的分辨性不夠,參照2014年中國地理區(qū)劃,對省份變量數(shù)據(jù)進行分段處理,將省份劃分為華北、華東、華中、華南、西南、西北、東北7個區(qū)域,新建數(shù)值型地域變量,分別對應(yīng)為{1,2,3,4,5,6,7}。

        經(jīng)過數(shù)據(jù)預(yù)處理,此時有效樣本數(shù)n=3920,變量數(shù)p=14。

        (二)微博用戶細(xì)分變量確定

        表1 較強相關(guān)變量

        通過變量相關(guān)性分析,最終確定8項微博用戶細(xì)分變量:性別、地域、粉絲數(shù)、關(guān)注數(shù)、當(dāng)前等級、微博認(rèn)證類型、互粉率、微博熱度,其中性別和地域?qū)儆趥鹘y(tǒng)意義的人口統(tǒng)計變量,其余則是具有社交網(wǎng)絡(luò)特性的變量。

        (三)基于迂回二次聚類的微博用戶細(xì)分實現(xiàn)

        在聚類分析中,大多數(shù)據(jù)由于不在同一數(shù)量級而存在絕對值差異,往往不能直接參與運算,需要進行中心化或標(biāo)準(zhǔn)化處理,弱化不同變量絕對值差異對于聚類結(jié)果的影響。本文對進行聚類分析的3920條樣本數(shù)據(jù)的8個細(xì)分變量進行了中心化和標(biāo)準(zhǔn)化處理,使得各變量的均值為0,標(biāo)準(zhǔn)差為1。

        1. 系統(tǒng)聚類方法確定

        對用戶數(shù)據(jù)進行第一次系統(tǒng)聚類,利用數(shù)據(jù)挖掘工具R語言中提供的聚類分析包,分別使用六種定義類間距離的方法建立系統(tǒng)聚類模型,評價六種聚類方法獲得的聚類結(jié)果,最終確定系統(tǒng)聚類方法。

        (1)計算距離矩陣。使用歐氏距離定義樣本間距離,對提取的3920條數(shù)據(jù)的8個細(xì)分變量計算距離矩陣。

        (2)系統(tǒng)聚類方法嘗試。使用hclust函數(shù)建立系統(tǒng)聚類模型,系統(tǒng)聚類首先將每個樣本作為一類,再將類間距離最近的樣本合并,合并后重新計算類間距離,重復(fù)步驟直到將所有樣本歸為一類。定義類間距離有如下六種常見的方法:最短距離法、最長距離法、中間距離法、類平均法、重心法、離差平方和法(Ward法)。為了使聚類結(jié)果更加準(zhǔn)確,分別使用六種定義類間距離的方法建立系統(tǒng)聚類模型。

        (3)確定系統(tǒng)聚類方法。使用plot函數(shù)繪制聚類樹圖,對比六種聚類方法的樹形聚類圖,根據(jù)類的大小的分布均勻性,直觀上看,最短距離法的聚類效果較差,Ward法的聚類效果較好,最終將系統(tǒng)聚類方法確定為Ward法。

        2. 聚類個數(shù)初試

        由于數(shù)據(jù)集過大,得出的聚類樹圖太密集,無法觀察判斷合適的閾值,同時考慮到系統(tǒng)聚類的特性(適用于小樣本),故取前40條用戶記錄(樣本總數(shù)的1%)作為抽樣樣本,利用Ward法對用戶抽樣數(shù)據(jù)進行第二次系統(tǒng)聚類,繪制聚類樹圖(圖4)。樹形圖中縱軸為閾值,代表類間的距離,橫軸為用戶id,代表樣本所屬的類別,對應(yīng)不同的閾值,可得到不同的聚類結(jié)果。

        取閾值為5,得到類間距離大于5的聚類結(jié)果,以類的大小、類間距離作為評價標(biāo)準(zhǔn),評價聚類效果,考察不同聚類個數(shù)下,各類的大小的分布,計算標(biāo)準(zhǔn)差。根據(jù)表2的計算結(jié)果,結(jié)合類間距離,初步得出合適的聚類個數(shù)范圍在3-6之間。

        利用Ward法重新對總體樣本進行系統(tǒng)聚類,分別得到分為3至6類的聚類結(jié)果,結(jié)果證明將用戶總體分為3至6類是比較合適的。

        3. 聚類個數(shù)確定

        根據(jù)兩次系統(tǒng)聚類結(jié)果,得出了合適的聚類個數(shù)的范圍,為了更好地確定聚類個數(shù),進行第二次聚類個數(shù)嘗試。利用R語言中的NbClust包,繪制散點折線圖(圖5),用于判斷聚類個數(shù),其中橫軸代表聚類個數(shù),縱軸代表組內(nèi)平方和(SSE)。

        根據(jù)折線圖中組內(nèi)平方和減小的趨勢可知(表3),曲線在聚類個數(shù)為3時第一次出現(xiàn)明顯的拐點,表明組內(nèi)平方和減小的趨勢變緩,綜合考慮系統(tǒng)聚類得到的聚類個數(shù)范圍,最終確定推薦的聚類個數(shù)為3。

        表3 組內(nèi)平方和隨聚類個數(shù)k變化情況

        4. 初始中心確定

        將探索確定的聚類個數(shù)k傳遞給K-Means聚類,并對選取隨機初始中心的次數(shù)進行嘗試,確定初始中心。

        在K-Means算法中,初始中心的選擇對用戶聚類結(jié)果具有很大影響。為了使用戶聚類的效果盡可能好,本次實驗利用R語言中的k-means函數(shù),嘗試用不同的初始中心進行建模,觀察組內(nèi)平方和的變化情況。結(jié)果顯示,將隨機選取初始中心的次數(shù)設(shè)定為15進行K-Means聚類時,組內(nèi)平方和最小,聚類效果最好。

        5. K-Means聚類

        利用R語言中的k-means函數(shù)建模,將聚類個數(shù)k設(shè)定為3,隨機選取初始中心的次數(shù)nstart設(shè)定為15,對用戶樣本進行聚類,獲得最終的微博用戶細(xì)分結(jié)果(表4)。

        經(jīng)過迂回二次聚類,最終將微博用戶樣本分為三類,各類的樣本數(shù)分別為697、1111、2112,由聚類結(jié)果可得到各類的中心。

        表4 微博用戶細(xì)分結(jié)果

        (四)微博用戶細(xì)分結(jié)果分析與精準(zhǔn)營銷建議

        根據(jù)用戶聚類結(jié)果,計算三類用戶各項變量的算術(shù)平均值(表2),結(jié)合用戶各項變量的取值范圍,分析得出各類用戶不同的屬性特征。可以發(fā)現(xiàn),@戴爾中國的粉絲群體中男性居多,這與男性多偏愛電子產(chǎn)品相關(guān);粉絲群主要分布在華東和華中地區(qū),這可能與戴爾的市場重心有關(guān);戴爾的粉絲用戶很大一部分為普通用戶,達人用戶所占比例較低,這也是戴爾在新浪微博營銷中需要關(guān)注的一點。

        根據(jù)微博用戶細(xì)分結(jié)果,每類用戶群在活躍度、影響力各方面均存在較大不同。針對用戶細(xì)分群體特征,向@戴爾中國提出精準(zhǔn)的個性化營銷建議。

        默默關(guān)注型。所占比例超過一半,且基本為男性,屬于@戴爾中國的堅實用戶基礎(chǔ);用戶群的關(guān)注數(shù)大于粉絲數(shù),發(fā)博數(shù)較少,導(dǎo)致粉絲數(shù)較少,此類用戶習(xí)慣接收信息,不善于主動創(chuàng)造信息。建議根據(jù)其標(biāo)簽、愛好、話題等信息,定期對其推送相關(guān)感興趣的信息,并適時邀請此類用戶參加舉辦的一些微博活動,提高用戶活躍度,增大影響力,爭取發(fā)展成為活躍用戶。

        活躍女性型。唯一的女性占大比例的用戶細(xì)分群體,微博熱度最高,發(fā)博數(shù)較多,粉絲數(shù)與關(guān)注數(shù)居中,有較高的影響力和活躍度。女性作為消費的一大主力,對于企業(yè)來說有很大價值。建議適當(dāng)在微博內(nèi)容和微博活動中添加女性關(guān)注的內(nèi)容,并在產(chǎn)品設(shè)計中添加女性元素,增強女性用戶的忠實度,擴大女性用戶群體。

        草根明星型。粉絲數(shù)與關(guān)注數(shù)均遠遠超過其他兩類,互粉率最高,發(fā)微博數(shù)遠高于其他兩類,普遍為等級較高的達人用戶;此類用戶屬于微博中的積極分子,在微博中影響力較大,屬于高質(zhì)用戶。建議主動與其進行互動,參與其發(fā)布的話題討論,通過其龐大的粉絲群,拓展自身的粉絲群;還可以通過其他途徑,如招納其進行校園代理、微博營銷代理等,增強企業(yè)微博的影響力。

        三、結(jié)語

        開展微博營銷的企業(yè)可以利用數(shù)據(jù)獲取技術(shù)和數(shù)據(jù)挖掘算法,對微博用戶信息進行聚類分析,從而實現(xiàn)微博用戶細(xì)分,并根據(jù)用戶細(xì)分結(jié)果,進行更有針對性的消息推送和互動,制定營銷策略,實現(xiàn)精準(zhǔn)營銷。本文運用數(shù)據(jù)挖掘工具中的聚類算法,對目標(biāo)企業(yè)@戴爾中國的微博粉絲實現(xiàn)了用戶細(xì)分。首先,運用API和網(wǎng)絡(luò)爬蟲技術(shù),獲取@戴爾中國的粉絲列表及相關(guān)用戶信息。通過數(shù)據(jù)預(yù)處理,得到有效數(shù)據(jù)樣本。然后,對變量進行相關(guān)性分析,引入微博熱度、互粉率變量,確定了性別、地域、粉絲數(shù)、關(guān)注數(shù)、等級、認(rèn)證類型、互粉率、微博熱度等8項用戶細(xì)分變量?;谟鼗囟尉垲悾罱K將@戴爾中國的微博粉絲用戶劃分為草根明星型、活躍女性型和默默關(guān)注型三類。針對戴爾新浪微博粉絲用戶細(xì)分結(jié)果,提出了精準(zhǔn)營銷建議。

        注釋:

        [1] 郝 玫、王道平:《面向供應(yīng)鏈的產(chǎn)品評論中客戶關(guān)注特征》,《現(xiàn)代圖書情報技術(shù)》 2014年第4期。

        [2] Cha M., Haddadi H., Benevenuto F., et al. ,MeasuringUserInfluenceinTwitter:TheMillionFollowerFallacy, Proceedings of the 4th International Conference on Weblogs and Social Media, 2010,pp.10-17.

        [3] Kwak H., Lee C., Park H., et al.,WhatisTwitter,asocialnetworkoranewsmedia?,Proceedings of the 19th International Conference on World Wide Web, 2010,pp. 591-600.

        [4] Shen Y., Li S., Ye X., et al. ,“Content mining and network analysis of microblog spam”,JournalofConvergenceInformationTechnology, vol.5,no.1(2010), pp. 135-140.

        [5] Fischer E., Reuber A. R., “Social interaction via new social media: How can interactions on Twitter affect effectual thinking and behavior?”,JournalofBusinessVenturing, vol.26,no.1(2011),pp. 1-18.

        [6] 王曉光:《 微博客用戶行為特征與關(guān)系特征實證分析——以 “新浪微博” 為例》,《圖書情報工作》 2010年第14期。

        [7] 何 黎、 何 躍、 霍葉青:《微博用戶特征分析和核心用戶挖掘》,《情報理論與實踐》2011年第11期。

        [8] 平 亮、 宗利永:《 基于社會網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例》,《 圖書情報知識》2011年第6期。

        [9][11] 楊小朋、何 躍:《騰訊微博用戶的特征分析》,《情報雜志》2012年第3期。

        [10] 原福永、馮 靜、符茜茜:《微博用戶的影響力指數(shù)模型》,《現(xiàn)代圖書情報技術(shù)》2012年第6期。

        [12] Byrne D., Uprichard E.,Clusteranalysis,London: Sage, 2012.

        [13] King R. S.,ClusterAnalysisandDataMining:AnIntroduction, Dulles: Mercury Learning & Information, 2014.

        [14] 廉 捷、 周 欣、 曹 偉等:《新浪微博數(shù)據(jù)挖掘方案》,《清華大學(xué)學(xué)報》(自然科學(xué)版) 2011年第10期。

        [責(zé)任編輯:黃艷林]

        中圖分類號:TP393

        文獻標(biāo)識碼:A

        文章編號:1002-3321(2016)01-0042-07

        作者簡介:陳可嘉, 男, 福建福州人, 福州大學(xué)經(jīng)濟與管理學(xué)院教授、 碩士生導(dǎo)師, 博士;

        基金項目:國家自然科學(xué)基金項目(61179061); 教育部新世紀(jì)優(yōu)秀人才支持計劃(NCET-11-0903)。

        收稿日期:2015-10-05

        羅曉莉, 女, 福建連城人, 福州大學(xué)經(jīng)濟與管理學(xué)院碩士研究生。

        猜你喜歡
        微博
        青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
        基于社交網(wǎng)絡(luò)的英語互動微平臺建設(shè)
        新浪微博的“語—圖”互文分析
        基于Redis的微博系統(tǒng)基本功能設(shè)計
        “985工程”高校圖書館閱讀推廣的調(diào)查與分析
        中國市場(2016年38期)2016-11-15 23:47:47
        微信與微博平臺謠言差異分析
        打造醫(yī)院里的“主流媒體”
        事實與流言的博弈
        人間(2016年26期)2016-11-03 18:19:04
        基于微博營銷的企業(yè)推廣模式研究
        重大突發(fā)事件中微博之力不微
        人民論壇(2016年27期)2016-10-14 13:08:58
        成人无码av免费网站| 亚州终合人妖一区二区三区| 美女脱了内裤洗澡视频| 中文字幕本久久精品一区| 麻花传媒68xxx在线观看| 人妻丰满熟妇av无码区| 97se亚洲精品一区| 亚洲欧美日韩高清专区一区| 午夜无码片在线观看影视| 国产裸体歌舞一区二区| 亚洲成AⅤ人在线观看无码| 人人妻人人澡av| 亚洲精品国产av成人网| 亚洲自拍偷拍色图综合| 免费人成在线观看| 久久er99热精品一区二区| 国产精品久久久av久久久| 亚洲第一区二区快射影院| 精品中文字幕久久久人妻| 亚洲av高清一区二区三区| 亚洲av日韩av天堂久久| 免费xxx在线观看| 日韩AV无码一区二区三| 成人激情视频一区二区三区| 亚洲精品中文字幕一二三四| 久久精品国产99久久久| 边喂奶边中出的人妻| 99精品视频在线观看| 久久精品国产热久久精品国产亚洲| 日韩色久悠悠婷婷综合| 麻婆视频在线免费观看| 热久久国产欧美一区二区精品 | 免费va国产高清不卡大片| 免费av在线视频播放| 六月婷婷亚洲性色av蜜桃| 国产播放隔着超薄丝袜进入| 蜜臀av 国内精品久久久| 免费视频一区二区| 激情综合网缴情五月天| 国产中文字幕亚洲国产| 精品久久久久久综合日本|