亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社交媒體的用戶消費能力研究

        2018-10-31 07:31:28實,
        智能計算機與應(yīng)用 2018年6期
        關(guān)鍵詞:用戶能力模型

        裘 實, 劉 挺

        (哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

        引言

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速與蓬勃發(fā)展,社交網(wǎng)絡(luò)、網(wǎng)上購物等已經(jīng)成為人們?nèi)粘2豢扇鄙俚幕ヂ?lián)網(wǎng)應(yīng)用。作為社交網(wǎng)絡(luò)的衍生結(jié)果之一,微博以其易操作、傳播快等特點[1]在社交媒體中脫穎而出。越來越多的人將個人信息公布在微博上,并且通過發(fā)表少于140字的短文本來陳述自己的觀點[2]。微博極大地促進(jìn)了信息的傳播和共享,其中所包含的隱性商業(yè)價值正日益突顯。通過觀察微博用戶微博文本信息后,研究發(fā)現(xiàn)活躍用戶所發(fā)表的微博文本信息與用戶的消費能力之間可能存在某種聯(lián)系。在微博引發(fā)的強大推介態(tài)勢背景下,通過用戶的微博信息研究用戶在某一產(chǎn)品類型的消費能力這一課題將非常有意義。

        本文主要對微博用戶所發(fā)微博文本與用戶的消費能力之間的關(guān)系展開研究。通過用戶鏈指的方式獲取到微博用戶的京東賬號信息,以京東賬號會員等級將消費能力分為高、中、低3個層次。然后將微博文本向量化處理后與用戶屬性聯(lián)合在一起,經(jīng)過特征選擇后作為輸入以訓(xùn)練模型,預(yù)測用戶的消費能力。

        1 基于傳統(tǒng)分類模型的消費能力模型

        隨著社交網(wǎng)絡(luò)的興起,基于短文本的用戶屬性的研究得到學(xué)者的廣泛關(guān)注。Rao等人[3]基于國外社交網(wǎng)絡(luò)Twitter上的文本進(jìn)行了包括性別、年齡、生活地區(qū)等屬性的識別,并取得了70%以上的準(zhǔn)確率。Sun[4]提出了一種基于微博用戶簽到地點的消費能力的預(yù)測。文中將簽到地點分成數(shù)個等級,根據(jù)微博用戶的簽到地點判斷用戶消費能力,但并未對用戶基本屬性和文本信息與消費能力之間的關(guān)系提供后續(xù)分析。付博等人[5-6]基于跨社交媒體檢索對微博消費對象、消費意圖做出了評判識別。Zhao等人[7]基于微博用戶信息統(tǒng)計研發(fā)了一個產(chǎn)品推薦系統(tǒng)METIS,根據(jù)用戶的性別、年齡、婚戀狀況、教育程度、職業(yè)和興趣(微博標(biāo)簽)等用戶信息,通過Learning to Rank進(jìn)行產(chǎn)品推薦;Hollerit等人[8]通過Twitter檢測商業(yè)意圖來連接賣家和買家。

        本文用Uni-Gram單詞模型和Bi-Gram二元模型作為傳統(tǒng)分類模型的詞向量輸入。其中,Uni-Gram指單詞模型,即探究每個用戶的用詞與消費能力之間是否存在某種關(guān)系;Bi-Gram是指二元模型,即探究每個用戶的連續(xù)用語習(xí)慣是否和消費能力相關(guān)。數(shù)據(jù)集中已經(jīng)存儲了每個用戶發(fā)布的所有微博,先將每個用戶的文本分隔為一個單獨的文檔,全局文本中共有4 630個文檔。然后把每個文檔中的文本用LTP進(jìn)行分詞、去停用詞,作為每個用戶的詞典。接下來計算每個單詞的TF-IDF值,并建立無重復(fù)詞的詞典,總共統(tǒng)計出333 523個詞。最后依次選用IG、CHI和WLLR的特征選擇方法進(jìn)行特征選擇。將IG、CHI和WLLR這3種特征選擇方法擷選出來的前10 000個詞和前50 000個詞分別作為特征項,作為模型訓(xùn)練的輸入,進(jìn)行對比實驗。

        在分類器的選擇上,選擇了支持向量機(Support Vector Machine, SVM)[9]。這是一種二元分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器[10],學(xué)習(xí)的策略是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解,運行求解設(shè)計可如圖1所示。

        本文中,分類器的特征項達(dá)到了10 000維,甚至50 000維,而研究中的訓(xùn)練數(shù)據(jù)只有4 630個。所以選擇了對維數(shù)大于訓(xùn)練數(shù)據(jù)個數(shù)的最優(yōu)化SVM分類器作為分類模型。

        圖1 支持向量機模型

        2 基于LDA主題模型的用戶消費能力模型

        通過觀察用戶所發(fā)微博文本信息,發(fā)現(xiàn)各個用戶所關(guān)注以及樂于發(fā)表觀點的主題存在很大區(qū)別。因此,研究擬通過抽取每個用戶喜愛談?wù)摰闹黝}來考查其是否與消費能力相關(guān)。本文的主題詞模型的構(gòu)造采用LDA的方法來實現(xiàn)。

        LDA(Latent Dirichlet Allocation)是離線數(shù)據(jù)集合的生成概率模型,也可以稱為3層貝葉斯概率模型[11]。LDA的3層結(jié)構(gòu)分別是詞、主題和文檔。在本文中,每個用戶的微博文本分詞結(jié)果都是一個文檔,且認(rèn)為每個文檔中的詞是通過一定概率選擇了某幾個主題,并從這些主題中以一定概率選擇某個詞語。文檔與主題之間服從多項式分布,主題與詞之間服從多項式分布,模型設(shè)計則如圖2所示。LDA屬于機器學(xué)習(xí)中的非監(jiān)督學(xué)習(xí)類型,一般用來通過非監(jiān)督的方式生成文檔的主題。研究通過使用詞袋方法向量化每篇文檔中的詞,這樣每篇文檔就有了某些主題構(gòu)成的概率分布。本文將這種主題概率的分布作為預(yù)測消費能力的特征項,探究不同消費能力用戶文本信息主題概率分布的改變是否存在規(guī)律性。

        圖2 LDA主題模型

        用LDA方法選出了200個主題,每個主題下有20個詞。通過觀察這200個主題以及屬于主題的詞語,發(fā)現(xiàn)有些詞語集合主題比較明顯,但也存在一些完全無規(guī)律詞語集合,研究從200個主題中選出了包括足球、母嬰、股票、購物等57個具有明顯主題的詞集,舉例中的分類劃定可見表1。

        表1 LDA選擇出的主題及主題下的詞語舉例

        3 評價指標(biāo)與實驗結(jié)果

        3.1 評價指標(biāo)

        本文采用有監(jiān)督的學(xué)習(xí)方法,將消費能力分為高、中、低3個等級,因此選取文本分類中常用的評價指標(biāo),即:準(zhǔn)確率、精確率、召回率、以及精確率和召回率的調(diào)和平均值作為評價的標(biāo)準(zhǔn)。論述詳情可見如下。

        (1)準(zhǔn)確率(accuracy)。是指對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)的比值;另外3個評價指標(biāo)在本文中分別針對不同的類別,每一類別中以該類別為正類,其它2個類別為負(fù)類,分類器在測試數(shù)據(jù)集上的預(yù)測可判為正確或不正確,4種情況出現(xiàn)的總數(shù)分別設(shè)定為:TP表示將正類預(yù)測為正類數(shù);FN表示將正類預(yù)測為負(fù)類數(shù);FP表示將負(fù)類預(yù)測為正類數(shù);TN表示將負(fù)類預(yù)測為負(fù)類數(shù)。

        (2)精確率P。數(shù)學(xué)定義可表示為:

        (1)

        (3)召回率R。數(shù)學(xué)定義可表示為:

        (2)

        (3)精確率和召回率的調(diào)和平均值F。數(shù)學(xué)定義可表示為:

        (3)

        所以對于3個類別,每種方法將會得到一個準(zhǔn)確率和3個不同的精確率、召回率和調(diào)和值。

        3.2 實驗結(jié)果與分析

        研究選用Uni-Gram—單詞模型研究的是用戶的用詞習(xí)慣和消費能力之間是否存在關(guān)聯(lián),實驗結(jié)果可見表2。

        表2 Uni-Gram模型實驗結(jié)果

        如表2所示,研究中用CHI方法選出特征值為前50 000個詞作為特征項具有較好的預(yù)測結(jié)果,準(zhǔn)確率為62.33%,3個消費等級的F值分別為31.20%、53.57%和62.94%。

        接下來,將再次選用Bi-Gram—二元詞組模型研究用戶的用語習(xí)慣和消費能力之間是否存在關(guān)聯(lián),實驗結(jié)果可見表3。

        從表3可以看出,Bi-Gram的預(yù)測正確率明顯高于Uni-Gram,CHI方法選出的特征值前10 000個詞具有較好的實驗結(jié)果,準(zhǔn)確率達(dá)到了70.33%,3個消費等級的F值達(dá)到了45.11%、62.73%和69.07%。由此則可推斷得出:用戶的用語習(xí)慣較用詞習(xí)慣與消費能力的關(guān)聯(lián)關(guān)系更為密切。

        最后,主題模型探究的是用戶喜歡談?wù)摰闹黝}與消費能力之間的關(guān)系。研究選擇了用LDA方法得出的主題中具有明顯特點的57個主題,以每個用戶在這57個主題上的概率分布作為特征項進(jìn)行訓(xùn)練和預(yù)測,最終結(jié)果可見表4。

        表3 Bi-Gram模型實驗結(jié)果

        表4主題模型實驗結(jié)果

        Tab. 4 Experimental results of topic model%

        從表4中可以看出主題模型的預(yù)測結(jié)果并不好,由此可以得出結(jié)論,即:用戶喜愛談?wù)摰闹黝}和消費能力之間的關(guān)聯(lián)度不大。

        4 結(jié)束語

        本文研究的主要內(nèi)容是基于社交媒體的用戶消費能力。目前,基于短文本社交媒體的用戶畫像工作已經(jīng)成為自然語言處理領(lǐng)域研究的熱點。但已有工作主要是對用戶未公開的基本屬性進(jìn)行預(yù)測和對消費意圖進(jìn)行識別,而本文研究的重點是社交媒體中用戶所發(fā)文本和基本屬性與消費能力之間的關(guān)系。在此任務(wù)中,利用用戶鏈指的方式建立了社交網(wǎng)絡(luò)—微博與購物網(wǎng)站—京東的映射途徑,以京東的級別信息作為消費能力的判定標(biāo)準(zhǔn)。以用戶所發(fā)微博與用戶基本信息作為輸入,預(yù)測用戶的消費能力。本文通過對比Uni-Gram模型、Bi-Gram模型和主題模型的實驗結(jié)果,探究用戶的習(xí)慣用語和個人基本信息與消費能力之間的關(guān)聯(lián)。結(jié)果表明,用戶的用語習(xí)慣與消費能力之間的關(guān)聯(lián)度最大,其次是用詞,最后是主題,且主題與消費能力關(guān)聯(lián)度非常小。因為本文中獲取到的數(shù)據(jù)較少,且存在比例不平衡的問題,所以后期工作中可以在用戶鏈指的方向上實現(xiàn)進(jìn)一步研究,比如通過用戶名相似度匹配來獲取更多用戶,減少數(shù)據(jù)不平衡所造成的偏置;用戶屬性的信息還有繼續(xù)挖掘的可能性,未來針對特征的選擇還可以加大研究力度等。

        猜你喜歡
        用戶能力模型
        一半模型
        消防安全四個能力
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        你的換位思考能力如何
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        欧美亚洲另类国产18p| 少妇无码太爽了不卡视频在线看 | 天天干天天日夜夜操| 色妞ww精品视频7777| 狼人国产精品亚洲| 永久免费中文字幕av| 青青草国产手机观看视频| 中文字幕人妻少妇引诱隔壁| 俺也去色官网| 久久久亚洲日本精品一区| 中文字幕精品人妻在线| 久久精品无码av| 国产91精品成人不卡在线观看| 女优av福利在线观看| 可免费观看的av毛片中日美韩| a级毛片无码久久精品免费| 国产香蕉尹人在线视频播放| 免费在线观看视频专区| 娇小女人被黑人插免费视频| 国产真人性做爰久久网站| 久久久久亚洲精品天堂| 日本久久视频在线观看| 久久婷婷五月综合色丁香| 毛片在线播放a| 国产美女被遭强高潮露开双腿| 色婷婷精品午夜在线播放| 天堂中文官网在线| 91日韩高清在线观看播放| 在线视频日韩精品三区| 亚洲人成网77777色在线播放| 中国凸偷窥xxxx自由视频妇科 | 我想看久久久一级黄片| 午夜时刻免费入口| 亚洲妇女水蜜桃av网网站| 亚洲一级av大片在线观看| 精品国产一区二区三区三| 国产性生交xxxxx免费| 99久久综合国产精品免费 | 大地资源网在线观看免费官网| 97精品人妻一区二区三区香蕉| 最新在线观看精品国产福利片|