鐘慶
【摘 要】提出一種基于移動互聯(lián)網(wǎng)個體用戶的實際行為得出其喜好標(biāo)簽,據(jù)此將同類信息推送給個體用戶的方法,該方法能夠?qū)崿F(xiàn)精確推送,因此推送的內(nèi)容更加容易被用戶接受,從而商業(yè)價值性價比更高。首先闡述了個體用戶實際行為數(shù)據(jù)的提取方法,比較了各方法的優(yōu)缺點;其次提出了一種固定質(zhì)心的k-means文本聚類方法,能夠快速、準(zhǔn)確地實現(xiàn)用戶喜好標(biāo)簽分類;最后分析了精確營銷模式以及后續(xù)的研究方向。
【關(guān)鍵詞】喜好標(biāo)簽 移動互聯(lián)網(wǎng) 用戶行為分析 文本聚類 精確營銷
中圖分類號:TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-1010(2016)09-0093-04
1 引言
近年來,隨著智能移動終端的基本普及,移動互聯(lián)網(wǎng)[1]發(fā)展迅猛,在人們的衣食住行中無時無刻不扮演著重要角色,可以說移動互聯(lián)網(wǎng)正在或者已經(jīng)改變了人們的生活方式。移動互聯(lián)網(wǎng)有兩個特點:一是移動通信與互聯(lián)網(wǎng)二者融合,即用戶可以通過移動終端和互聯(lián)網(wǎng)實現(xiàn)隨時互聯(lián);二是大批應(yīng)用伴隨移動互聯(lián)網(wǎng)而產(chǎn)生,這些應(yīng)用與移動終端的可移動性、可便攜性相結(jié)合,隨時為用戶提供個性化服務(wù)[2]。用戶可以通過移動互聯(lián)網(wǎng)實現(xiàn)實時的信息接收、發(fā)送和交互等。運(yùn)營商和各大電商們也充分抓住這個機(jī)會,利用移動互聯(lián)網(wǎng)通道,將大量的信息資源推送給群體用戶,而對于個體用戶而言,由于這種信息推送沒有針對性,在反復(fù)收到海量信息后,心理上會造成疲勞甚至是反感。另一方面,個體用戶在尋找自己喜歡或者希望獲得的信息資源時又很困難。因此,根據(jù)移動互聯(lián)網(wǎng)個體用戶的實際行為,分析出其喜好標(biāo)簽,從而實現(xiàn)信息精確推送,可以有效地解決這一問題,這既能為運(yùn)營商和電商們發(fā)掘潛在用戶,又能改善個體用戶的體驗,最終實現(xiàn)雙贏。
早期對互聯(lián)網(wǎng)用戶行為的分析[3]比較多,方法也比較成熟,已經(jīng)形成基本的網(wǎng)絡(luò)特性,這種用戶行為研究偏向于探究個體用戶的上網(wǎng)意圖,比如:瀏覽網(wǎng)頁的頻率、停留的時間、網(wǎng)頁的分類等。但是目前對于移動互聯(lián)網(wǎng)用戶行為的分析方法還不夠成熟,尤其是國內(nèi),對在該方面的研究成果非常有限。本文主要闡述了一種基于喜好標(biāo)簽的移動互聯(lián)網(wǎng)用戶行為分類方法,該方法從微觀角度,根據(jù)個體用戶對于移動互聯(lián)網(wǎng)的實際使用數(shù)據(jù),得到用戶的喜好標(biāo)簽,從而達(dá)到用戶分類的目的。在這個過程中,列舉了幾種典型的移動互聯(lián)網(wǎng)原始數(shù)據(jù)獲取方法,分析了各方法的優(yōu)缺點,進(jìn)而通過聚類算法,將原始數(shù)據(jù)進(jìn)行文本聚類,從而得到用戶分類的結(jié)果。最后還闡述了該方法的應(yīng)用遠(yuǎn)景以及對其商業(yè)價值的預(yù)判。
2 數(shù)據(jù)獲取
移動互聯(lián)網(wǎng)體系包括3個層面:移動終端、移動網(wǎng)絡(luò)和應(yīng)用服務(wù)。首先針對移動互聯(lián)網(wǎng)的應(yīng)用服務(wù)層進(jìn)行原始數(shù)據(jù)收集。移動互聯(lián)網(wǎng)的數(shù)據(jù)獲取方式大致分為兩種,一種是基于WAP(Wireless Application Protocol,無線應(yīng)用通訊協(xié)議)網(wǎng)關(guān)的采集,另一種是基于網(wǎng)絡(luò)交換機(jī)數(shù)據(jù)包的采集。
WAP網(wǎng)關(guān)是承載移動數(shù)據(jù)業(yè)務(wù)的關(guān)鍵網(wǎng)元,起到了數(shù)據(jù)業(yè)務(wù)統(tǒng)一接入的作用,因此WAP網(wǎng)關(guān)是移動終端連接移動互聯(lián)網(wǎng)的重要樞紐[4]?;赪AP網(wǎng)關(guān)進(jìn)行移動互聯(lián)網(wǎng)數(shù)據(jù)采集是通過WAP網(wǎng)關(guān)的自帶功能,將WAP協(xié)議下的數(shù)據(jù)分成多個詳細(xì)字段,將這些字段數(shù)據(jù)信息進(jìn)行一次日志化。由于這些都是原始數(shù)據(jù),包含很多冗余信息,這樣會使用戶行為的分類不夠準(zhǔn)確,從而導(dǎo)致最終分類錯誤,因此需要利用信息過濾程序?qū)υ紨?shù)據(jù)進(jìn)行信息過濾,形成最終具有固定模式的有效數(shù)據(jù)集,最后再將這些真正有價值的信息寫進(jìn)日志文件,即可完成數(shù)據(jù)采集。這種數(shù)據(jù)獲取方法的優(yōu)點是簡單方便,利用WAP網(wǎng)關(guān)自帶功能即可完成對原始數(shù)據(jù)的采集;另一方面,這種采集方式也是基于用戶請求的應(yīng)用層協(xié)議,不會把底層的數(shù)據(jù)全部采集過來,簡化了過濾過程。由于此處數(shù)據(jù)獲取是為最終的用戶行為分類做準(zhǔn)備,因此需要盡量多地獲取數(shù)據(jù),但無需全部獲取,對于加密型WAP協(xié)議等,可以只獲取通道途徑,無需獲取實際內(nèi)容。
網(wǎng)絡(luò)交換機(jī)是一種用于擴(kuò)大網(wǎng)絡(luò)的器材,能夠為子網(wǎng)絡(luò)提供連接的通道。隨著互聯(lián)網(wǎng)逐漸成為當(dāng)今越來越重要的局域網(wǎng)組網(wǎng)技術(shù),網(wǎng)絡(luò)交換機(jī)也成為了最普及的交換機(jī)[5]?;诰W(wǎng)絡(luò)交換機(jī)數(shù)據(jù)包的采集方法是利用網(wǎng)絡(luò)數(shù)據(jù)包捕獲應(yīng)用,將需要的網(wǎng)絡(luò)數(shù)據(jù)捕獲、過濾,從而完成數(shù)據(jù)采集。具體過程是在網(wǎng)絡(luò)交換機(jī)上放置一種數(shù)據(jù)包采集應(yīng)用,將流過該網(wǎng)絡(luò)交換機(jī)的所有數(shù)據(jù)中屬于個體用戶的數(shù)據(jù)包識別并捕獲,構(gòu)成原始數(shù)據(jù)集,然后經(jīng)過信息過濾程序、文件重組等過程,形成最終的有效數(shù)據(jù)集。這種方法的缺點是設(shè)置過濾條件比較困難,需要調(diào)用一些庫函數(shù)等工具,并且設(shè)置過程也比較復(fù)雜。
3 數(shù)據(jù)分析
在數(shù)據(jù)獲取的基礎(chǔ)上,利用文本聚類的方法,對有效數(shù)據(jù)進(jìn)行分析,最終達(dá)到用戶分類的目的。
計算機(jī)處理無結(jié)構(gòu)的詞語文本比較困難,通常采用的方法是利用VSM(Vector Space Model,向量空間模型)在預(yù)處理的基礎(chǔ)上,將詞語文本描述成為一個N維特征空間中的一個N維向量,進(jìn)而通過對向量的科學(xué)計算實現(xiàn)詞語文本的分類。文本聚類[6]的主要依據(jù)是認(rèn)為同類的文本相似度大,不同類的文本相似度小,進(jìn)而將同類文本聚集到一起,得到聚類結(jié)果。目前比較主流的文本聚類算法包括基于劃分法、基于層次法、基于密度法、基于網(wǎng)格法和基于模型法等。文本聚類被廣泛地應(yīng)用于搜索引擎、信息處理等領(lǐng)域[7]。
針對移動互聯(lián)網(wǎng)個體用戶喜好標(biāo)簽的文本分類,可以先設(shè)定K個喜好標(biāo)簽(比如社交、購物、讀書、游戲等),以這些標(biāo)簽作為聚類核心,將采集到的用戶數(shù)據(jù)進(jìn)行聚類,得到個體用戶的分類結(jié)果。本文在K-means經(jīng)典算法的基礎(chǔ)上,增加對移動互聯(lián)網(wǎng)個體用戶喜好分類的特性,提出一種固定質(zhì)心的文本聚類數(shù)據(jù)分析方法。K-means算法[8]是一種典型的基于劃分的方法,屬于一種基于質(zhì)心的聚類技術(shù),其基本原理是從n個數(shù)據(jù)對象中任意選擇k個對象作為初始的聚類點,對于其他對象,根據(jù)他們與這些聚類點的相似度(距離),將他們分配給與其最相似的簇,然后重新計算簇的平均值,更新聚類點,重復(fù)這一過程,直到簇的劃分不再發(fā)生變化。這種文本聚類方法的優(yōu)點是簡單易行并且能夠處理大規(guī)模的數(shù)據(jù)集。但同時該算法的缺點也比較明顯,即容易陷入局部最小,很難保證全局最優(yōu),而且初始聚類點的選擇和k值的設(shè)定會在很大程度上影響最終的聚類效果。因此針對個體用戶喜好分類的特性,采用固定質(zhì)心的方式,即將最終的喜好分類標(biāo)簽指定為初始的聚類點和k值,然后進(jìn)行聚類,這樣不僅可以實現(xiàn)分類最優(yōu),而且簡化了算法、提高了效率。
為驗證算法效果,采用60個原始文本集(優(yōu)酷、群聊、淘寶等),以“網(wǎng)購、影音和社交”作為初始聚類點(k值取3),利用K-means算法進(jìn)行文本聚類,效果如圖1、圖2所示:
由上述示例可以看出,本文提出的簡化K-means算法能夠較好地實現(xiàn)文本分類。
4 商業(yè)模式
人可以控制自己的消費(fèi)意圖,但是極易受到外部的影響,所以商家通過推送大量的信息來盡量引導(dǎo)用戶消費(fèi)。而通過對用戶的實際行為進(jìn)行標(biāo)簽分類,推送用戶最可能喜歡或者最想得到的信息,更容易被用戶所接受,可以更高效地產(chǎn)生商業(yè)價值。對于個體用戶的區(qū)分,實際上是精確營銷[9]的理念,精確營銷是相對于大眾營銷而言的,大眾營銷是典型的產(chǎn)品導(dǎo)向方式,就是使用同樣的營銷組合,含糊不清地針對每一個顧客。大眾營銷假設(shè)每一個人都是相同的,并且認(rèn)為每一個人都是潛在顧客,試圖把產(chǎn)品賣給每一個人。在移動互聯(lián)網(wǎng)時代,這種大眾營銷集中體現(xiàn)在群推信息,但由于沒有針對性,前期投入很大,效果卻達(dá)不到預(yù)期。而精確營銷是在充分了解顧客信息的基礎(chǔ)上,針對顧客偏好,有針對性地進(jìn)行一對一的營銷。精確營銷是由直復(fù)營銷、數(shù)據(jù)庫營銷等多種手段相互結(jié)合[10],但前提是掌握精確的營銷信息。因此,本文中闡述的利用個體用戶的具體實際行為數(shù)據(jù)進(jìn)行收集,針對這些數(shù)據(jù)進(jìn)行喜好標(biāo)簽的分類分析,得到用戶最喜歡或最有可能需要的信息進(jìn)行推送的方式,實現(xiàn)了精確營銷。這不僅可以幫助商家節(jié)省推廣成本,更能改善用戶體驗,幫助用戶擺脫海量信息轟炸的煩惱,可輕松快速地找到自己需要的信息,最終實現(xiàn)雙贏。
后續(xù)工作可以在用戶喜好分類的基礎(chǔ)上,打破單一的分類模式,對喜好標(biāo)簽做權(quán)重分配排序,得到個體用戶的喜好標(biāo)簽序列,按照權(quán)重推送用戶可能需要的信息。同時可以將信息進(jìn)行分類,用戶可以根據(jù)自身需求,自主選擇需要的信息類別,然后查找具體的信息內(nèi)容,從而充分發(fā)揮用戶的主觀能動性,提高信息采用率。
5 結(jié)束語
在移動互聯(lián)網(wǎng)時代,實現(xiàn)信息的有效推送,既可以提高用戶感知,又能夠縮減商家的推銷成本。本文通過有效的數(shù)據(jù)采集方法,獲取個體用戶的實際行為數(shù)據(jù),在此基礎(chǔ)上,對數(shù)據(jù)進(jìn)行聚類分析,得到用戶的喜好標(biāo)簽分類。后續(xù)引入精確營銷的概念,針對喜好標(biāo)簽的分類結(jié)果進(jìn)行相關(guān)信息的準(zhǔn)確推送。最后提出優(yōu)化方案,將喜好標(biāo)簽做權(quán)重分配排序,按照權(quán)重進(jìn)行信息的層次化推送,或在信息分類的基礎(chǔ)上,幫助用戶實現(xiàn)自主選擇。
參考文獻(xiàn):
[1] 吳吉義,李文娟,黃劍平,等. 移動互聯(lián)網(wǎng)研究綜述[J]. 中國科學(xué): 信息科學(xué), 2015,45(1): 30-36.
[2] 中國工業(yè)和信息化部電信研究院. 移動互聯(lián)網(wǎng)白皮書[EB/OL]. [2016-01-24]. http://wenku.baidu.com/link?url=sn5w0sXSannzh3hYnxKJoAhz7uZOpdFinanla_j26c2cpjt0ASZ3ESHCfkmWJ0mlFDBIcMrY7hs6tWHuVDKgur9NaPgJU4OqMdnvD5sueVO.
[3] 董富強(qiáng). 網(wǎng)絡(luò)用戶行為分析研究及其應(yīng)用[D]. 西安: 西安電子科技大學(xué), 2005.
[4] 鐘磊,張健. WAP網(wǎng)關(guān)在移動網(wǎng)絡(luò)業(yè)務(wù)中的應(yīng)用分析[J]. 廣西通信技術(shù), 2012(1): 6-9.
[5] 王璐. 移動互聯(lián)網(wǎng)用戶行為分析[D]. 重慶: 重慶郵電大學(xué), 2012.
[6] 吳啟明,易云飛. 文本聚類綜述[J]. 河池學(xué)院學(xué)報, 2008,28(2): 86-91.
[7] 李春青. 文本聚類算法研究[J]. 軟件導(dǎo)刊, 2015(1): 74-76.
[8] Anil K J. Data clustering: 50 years beyond K-Means[J]. Pattern Recognition Letters, 2010,31(8): 651-666.
[9] Zabin J, Brebach G. Precision Marketing[M]. Mass Marketing, 2004.
[10] 呂巍. 精確營銷[M]. 北京: 機(jī)械工業(yè)出版社, 2008.