張婉君
摘 要 對(duì)新媒體用戶現(xiàn)狀進(jìn)行調(diào)研,通過(guò)問(wèn)卷調(diào)查的方式獲取新媒體用戶使用行為數(shù)據(jù)和基本數(shù)據(jù),完成了基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的新媒體用戶行為模式分析,基于所發(fā)現(xiàn)的用戶興趣偏好,可以為新媒體用戶提供更為有效的個(gè)性化服務(wù)。
關(guān)鍵詞 新媒體;用戶行為;聚類分析;自組織特征映射網(wǎng)絡(luò)
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2016)19-0030-03
1 研究背景
隨著新媒體技術(shù)的快速發(fā)展,以互聯(lián)網(wǎng)、移動(dòng)多媒體網(wǎng)絡(luò)為載體的新媒體得以廣泛應(yīng)用。新媒體具有形式豐富、互動(dòng)性強(qiáng)等特點(diǎn),其用戶規(guī)模正在迅速擴(kuò)大[1]。各類新媒體都具有其獨(dú)特的技術(shù)和傳播特點(diǎn),因而新媒體的用戶類型和結(jié)構(gòu)也不相同,不同年齡、不同性別、不同教育程度的用戶可能對(duì)同一媒體的認(rèn)知、操作等都不相同。為使新媒體更好地服務(wù)于用戶,需要了解用戶使用新媒體的規(guī)律性特點(diǎn)。
2 自組織特征映射神經(jīng)網(wǎng)絡(luò)
自組織特征映射神經(jīng)網(wǎng)絡(luò)由輸入層和競(jìng)爭(zhēng)層組成。輸入層是一維的神經(jīng)元,輸入層神經(jīng)元數(shù)與樣本維數(shù)相等[2]。競(jìng)爭(zhēng)層為輸出層,神經(jīng)元個(gè)數(shù)是變量,需要在建立網(wǎng)絡(luò)時(shí)給出,神經(jīng)元的排列呈一維線陣、二維平面和三維柵格陣等多種形式。輸出層按二維平面組織是自組織特征映射神經(jīng)網(wǎng)絡(luò)最典型的組織方式[3]。
3 新媒體用戶行為模式分析
對(duì)新媒體用戶現(xiàn)狀進(jìn)行調(diào)研,通過(guò)問(wèn)卷調(diào)查的方式調(diào)研用戶對(duì)新媒體的接觸情況,對(duì)調(diào)研階段采集到的新媒體使用行為數(shù)據(jù)進(jìn)行數(shù)據(jù)選取和預(yù)處理,得到適合分析的目標(biāo)數(shù)據(jù)集。應(yīng)用自組織特征映射算法對(duì)新媒體用戶行為模式進(jìn)行分析。
3.1 數(shù)據(jù)采集
通過(guò)問(wèn)卷調(diào)查的形式搜集用戶對(duì)博客、網(wǎng)絡(luò)視頻、論壇、即時(shí)通訊工具、SNS社區(qū)和網(wǎng)絡(luò)游戲的接觸及使用情況。調(diào)查問(wèn)卷包括兩部分,即用戶的新媒體使用行為調(diào)查和用戶基本信息調(diào)查。在用戶新媒體使用行為調(diào)查部分,針對(duì)每種新媒體的特點(diǎn)對(duì)用戶的使用方式進(jìn)行調(diào)研,如調(diào)查用戶在博客上發(fā)帖和閱讀別人博客的頻率;收看網(wǎng)絡(luò)視頻的頻率和上傳視頻的情況;在論壇上發(fā)表新帖的頻率;使用即時(shí)通訊工具的頻率;登錄SNS社區(qū)的類型及頻率;玩網(wǎng)絡(luò)游戲的頻率等。用戶基本信息的采集包括用戶的年齡、性別、教育程度等。問(wèn)卷調(diào)查選取北京地區(qū)20至49歲的490名用戶為被調(diào)查者,經(jīng)統(tǒng)計(jì)被調(diào)查者性別、年齡、教育程度分布均勻。
3.2 數(shù)據(jù)預(yù)處理
問(wèn)卷調(diào)查采集到的原始數(shù)據(jù)無(wú)法直接進(jìn)行數(shù)據(jù)挖掘,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使后面的數(shù)據(jù)挖掘過(guò)程有較高質(zhì)量的輸入數(shù)據(jù),最終得到準(zhǔn)確的挖掘結(jié)果。數(shù)據(jù)預(yù)處理的重點(diǎn)是將問(wèn)卷調(diào)查采集到的數(shù)據(jù)處理成適合用戶行為模式分析的輸入數(shù)據(jù)。
如果被調(diào)查者選擇“從不上網(wǎng)”,則該被調(diào)查者對(duì)互聯(lián)網(wǎng)沒(méi)有接觸行為,該用戶數(shù)據(jù)視為無(wú)效數(shù)據(jù)將其刪除,共統(tǒng)計(jì)出該類數(shù)據(jù)46個(gè)。原始數(shù)據(jù)以天、周、月為單位對(duì)被調(diào)查者使用新媒體的頻率進(jìn)行記錄,預(yù)處理時(shí)統(tǒng)一處理為以月為單位統(tǒng)計(jì)的頻次,涉及“是”“否”選項(xiàng)時(shí)分別以“1”和“0”表示。預(yù)處理后每位被調(diào)查者網(wǎng)絡(luò)新媒體接觸情況部分的原始數(shù)據(jù)被處理為13個(gè)屬性,分別為:
A更新博客的頻率(取值0、1、2、4、12、30、60);B閱讀別人博客的頻率(取值0、1、2、4、12、30、60);C收看網(wǎng)絡(luò)視頻的頻率(取值0、2、6、15、30);D是否上傳網(wǎng)絡(luò)視頻(取值0、1);E常使用的論壇個(gè)數(shù)(取值0、1、3、5);F論壇上發(fā)布新帖的頻率(取值0、1、2、4、12、30、60);G使用即時(shí)通訊工具的頻率(取值0、2、6、15、30);H玩網(wǎng)絡(luò)游戲的頻率(取值0、2、6、15、30);I登錄門(mén)戶網(wǎng)站的頻率(取值0、2、6、15);J登錄即時(shí)通訊軟件社區(qū)的頻率(取值0、2、6、15);K登錄電子商務(wù)網(wǎng)站的頻率(取值0、2、6、15);L登錄通信運(yùn)營(yíng)商社區(qū)的頻率(取值0、2、6、15);M登錄獨(dú)立SNS社區(qū)的頻率(取值0、2、
6、15)。
統(tǒng)計(jì)13個(gè)屬性取值全為0的被調(diào)查者,則說(shuō)明該被調(diào)查者雖然有上網(wǎng)行為,但是對(duì)博客、網(wǎng)絡(luò)視頻、論壇、即時(shí)通訊工具、SNS社區(qū)和網(wǎng)絡(luò)游戲沒(méi)有使用行為,該數(shù)據(jù)也為無(wú)效數(shù)據(jù)需要?jiǎng)h除,共統(tǒng)計(jì)出該類數(shù)據(jù)22個(gè)。采集到的原始數(shù)據(jù)記錄共有490個(gè),刪除無(wú)效數(shù)據(jù)后得到有效數(shù)據(jù)422個(gè)。
3.3 數(shù)據(jù)測(cè)試
由于對(duì)新媒體用戶媒體使用行為數(shù)據(jù)所進(jìn)行的聚類分析并不存在先驗(yàn)知識(shí),是在完全未知的狀態(tài)下進(jìn)行的預(yù)測(cè)性挖掘,所以需要通過(guò)大量實(shí)驗(yàn)來(lái)確定競(jìng)爭(zhēng)層的神經(jīng)元個(gè)數(shù)及相關(guān)參數(shù)。對(duì)UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的Iris和Wine兩個(gè)典型數(shù)據(jù)集進(jìn)行測(cè)試,得到排序階段學(xué)習(xí)率選取0.9且調(diào)整階段學(xué)習(xí)率選取0.09時(shí),能得到較好的聚類效果。當(dāng)競(jìng)爭(zhēng)層設(shè)置為16個(gè)輸出神經(jīng)元時(shí),網(wǎng)絡(luò)在不斷增加訓(xùn)練步數(shù)的情況下能夠達(dá)到穩(wěn)定狀態(tài)。創(chuàng)建一個(gè)采用4×4陣列的六角層拓?fù)浣Y(jié)構(gòu)的自組織特征映射網(wǎng)絡(luò),設(shè)置排序階段的學(xué)習(xí)率初始值為0.9,調(diào)整階段的學(xué)習(xí)率為0.09,調(diào)整階段鄰域半徑為1.0。在Pentium(R) Dual-Core 2.00GHz,內(nèi)存2G的PC機(jī)上,對(duì)新媒體用戶使用行為數(shù)據(jù)進(jìn)行訓(xùn)練。
該網(wǎng)絡(luò)訓(xùn)練步數(shù)為19 500次,總耗時(shí)2小時(shí)42分鐘,算法將422個(gè)數(shù)據(jù)聚合成16類,同一類別數(shù)據(jù)激發(fā)相同輸出神經(jīng)元,以激發(fā)的神經(jīng)元的序號(hào)作為其類別值,具體信息如下:第1類數(shù)據(jù)27個(gè);第2類數(shù)據(jù)11個(gè);第3類數(shù)據(jù)23個(gè);第4類數(shù)據(jù)16個(gè);第5類數(shù)據(jù)19個(gè);第6類數(shù)據(jù)31個(gè);第7類數(shù)據(jù)13個(gè);第8類數(shù)據(jù)88個(gè);第9類數(shù)據(jù)9個(gè);第10數(shù)據(jù)15個(gè);第11類數(shù)據(jù)20個(gè);第12類數(shù)據(jù)22個(gè);第13類數(shù)據(jù)28個(gè);第14類數(shù)據(jù)13個(gè);第15類數(shù)據(jù)42個(gè);第16類數(shù)據(jù)45個(gè)。
3.4 結(jié)果分析
引入VBA宏程序,結(jié)合用戶性別、年齡和教育程度三項(xiàng)基本信息對(duì)上述聚類結(jié)果進(jìn)行分析,統(tǒng)計(jì)出每類用戶使用每種新媒體的特點(diǎn),如表1所示。
4 總結(jié)
通過(guò)自組織特征映射算法對(duì)大量新媒體用戶的使用行為數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,使具有相似偏好的用戶以群的模式聚集起來(lái),而后分析得到不同的用戶群偏好,可以使新媒體服務(wù)提供商準(zhǔn)確預(yù)測(cè)用戶的需求,便于為用戶提供更加符合其興趣偏好的增值業(yè)務(wù),更好地滿足用戶多層次、多樣化、個(gè)性化、專業(yè)化的需求。
參考文獻(xiàn)
[1]景東,蘇寶華.新媒體定義新論[J].新聞界,2008(3):57-59.
[2]曹志勝,林和平,李迎斌.SOM人工神經(jīng)網(wǎng)絡(luò)在客戶分類中的應(yīng)用[J].信息技術(shù),2008(11):85-87.
[3]魏海坤.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的理論與方法[M].北京:國(guó)防工業(yè)出版社,2005:80-81.