亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層次耦合聚類的用戶社區(qū)劃分方法:以主題公園社交平臺為例

        2023-10-09 09:37:34刁雅靜吳嘉輝王志英朱慶康
        關(guān)鍵詞:用戶模型

        刁雅靜,吳嘉輝,盧 健,王志英,朱慶康

        (江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院, 鎮(zhèn)江 212100)

        隨著社交媒體的快速發(fā)展,越來越多的用戶喜歡通過微博和微信等平臺發(fā)表自己的觀點.然而無限制的網(wǎng)絡(luò)信息交互導(dǎo)致了用戶無目的搜索,以及平臺商家無法實現(xiàn)服務(wù)的精準(zhǔn)推薦等問題.以主題公園社交平臺為例,主題公園商家無法準(zhǔn)確獲知游客用戶的偏好需求,同時游客用戶也無法精確了解主題公園商家提供的服務(wù)[1].究其原因是對用戶偏好識別不準(zhǔn)確,對用戶人群劃分的判斷方法存在缺陷.為了更加準(zhǔn)確識別用戶偏好和社區(qū)劃分,學(xué)者們開始研究相關(guān)算法的改進(jìn).文獻(xiàn)[2-4]將自然語言處理技術(shù)與數(shù)據(jù)科學(xué)技術(shù)相結(jié)合,設(shè)定相關(guān)領(lǐng)域的情感詞表,通過對比預(yù)處理后的文本與情感詞語實現(xiàn)對用戶情感喜好的分析研究,進(jìn)而識別用戶偏好和進(jìn)行社區(qū)劃分.文獻(xiàn)[5-6]考慮時間的因素前提下使用動態(tài)聚類算法,實時跟蹤用戶偏好需求的變化,挖掘和識別用戶需求偏好.還有學(xué)者使用數(shù)據(jù)庫存儲的大規(guī)模用戶信息數(shù)據(jù)和行為數(shù)據(jù)來合理有效的提取用戶的短期需求和長期興趣,進(jìn)而實現(xiàn)識別用戶偏好[7],以及基于Folksonomy的分布式分類系統(tǒng)中的用戶偏好識別問題研究[8-9].多數(shù)研究聚焦領(lǐng)域知識和行業(yè)經(jīng)驗,在原先基礎(chǔ)上改進(jìn)模型或者根據(jù)需要構(gòu)建新的適用性模型,探尋更優(yōu)的發(fā)現(xiàn)用戶社區(qū)的方法,進(jìn)而實現(xiàn)用戶社區(qū)劃分[10-12].上述研究中聚類方法多是對象的社區(qū)劃分聚類,較少涉及對象屬性的領(lǐng)域劃分聚類,進(jìn)行對象社區(qū)劃分與屬性領(lǐng)域劃分的層次性耦合聚類的相關(guān)研究較少;在用戶偏好識別特征選取算法中,目前的研究主要運用基于聚類以及基于遺傳算法等特征選擇方法來實現(xiàn)屬性維度的約減,這樣可能會導(dǎo)致特征選擇性能不高、精確度較低、魯棒性較差以及運算量大的現(xiàn)象發(fā)生,直接導(dǎo)致選取的屬性特征質(zhì)量較差,最終影響實驗結(jié)論的準(zhǔn)確性和實驗理論的實用性[13-15].基于此,文中基于主題公園社交媒體平臺的用戶客觀行為數(shù)據(jù),挖掘用戶及其偏好屬性之間的耦合關(guān)聯(lián)關(guān)系,構(gòu)建基于耦合聚類的用戶社區(qū)劃分模型;同時通過運用隨機(jī)森林算法實現(xiàn)特征選擇,依托模型尋找到最優(yōu)的閾值,實現(xiàn)偏好領(lǐng)域最優(yōu)劃分,進(jìn)而解決用戶偏好識別和用戶社區(qū)劃分的問題.

        1 研究設(shè)計

        1.1 數(shù)據(jù)特征及相似性計算策略

        社交媒體用戶依據(jù)自身的需求偏好或者根據(jù)其對其他社交媒體用戶生成內(nèi)容產(chǎn)生的認(rèn)同和反駁行為,進(jìn)行交流互動,主動生成用戶行為數(shù)據(jù).用戶通過社交媒體平臺積極主動表達(dá)自己的需求,進(jìn)而產(chǎn)生真實可靠歷史和實時行為數(shù)據(jù),通過分詞、去停詞等數(shù)據(jù)預(yù)處理操作實現(xiàn)行為數(shù)據(jù)中偏好主題詞的提取.以行為參與者用戶為行、偏好主題詞為列構(gòu)成“用戶—偏好主題詞”二維矩陣.該矩陣有兩個主要的數(shù)據(jù)特征:① 不同的偏好范圍可形成層次性的游客用戶社區(qū).即不同的用戶對于同種偏好范圍有著相同的喜好和關(guān)注,那么依據(jù)相同的偏好主題詞就可以將這些用戶劃分在同一個用戶社區(qū)內(nèi),實現(xiàn)用戶社區(qū)劃分.② 不同社區(qū)的用戶之間可能有多個相同的偏好主題詞,因此用戶之間所涉及到的偏好范圍具有層次性和交叉性.由于文中的數(shù)據(jù)不符合連續(xù)正態(tài)分布(排除使用皮爾遜相關(guān)性計算),同時文中數(shù)據(jù)構(gòu)建的向量為稀疏詞語空間向量,因為余弦相似度在處理詞語空間向量和稀疏向量之間有著非常好的效果,所以此處相似性策略選擇余弦相似度.

        1.2 用戶偏好識別算法

        1.2.1 基于偏好主題的用戶社區(qū)劃分

        從由用戶的主動交互生成內(nèi)容構(gòu)建起的“用戶—偏好主題詞”矩陣中,提取出用偏好主題詞構(gòu)成的用戶向量,采取余弦相似性算法策略計算用戶之間的相關(guān)性,在充分考慮用戶和偏好主題詞之間的關(guān)聯(lián)影響關(guān)系的基礎(chǔ)上,運用層次性耦合聚類的方法較為精確劃分用戶社區(qū),直到滿足耦合停止的條件,即停止耦合迭代聚類,此時耦合聚類的結(jié)果即是實驗的最終結(jié)果.基于偏好主題的用戶社區(qū)劃分算法如表1.

        表1 基于偏好主題的用戶社區(qū)劃分

        1.2.2 基于用戶的偏好主題相關(guān)性分析

        從由用戶的主動交互生成內(nèi)容構(gòu)建起的“用戶—偏好主題詞”矩陣中,提取出由用戶構(gòu)成的偏好主題詞向量,采取余弦相似性算法策略計算偏好主題詞之間的相似性,在充分考慮用戶和偏好主題詞之間的關(guān)聯(lián)影響關(guān)系的基礎(chǔ)上,運用層次性耦合聚類的方法較為準(zhǔn)確的識別用戶偏好,直到滿足耦合停止的條件,即停止耦合迭代聚類,此時耦合聚類結(jié)果即是實驗的最終結(jié)果.基于用戶偏好主題相關(guān)性分析算法如表2.

        表2 基于用戶的偏好主題相關(guān)性分析

        1.3 用戶偏好算法實驗分析

        通過典型的社交媒體用戶生成內(nèi)容平臺“百度貼吧”“百度指數(shù)”的數(shù)據(jù),對典型的主題公園企業(yè)“成都?xì)g樂谷”的用戶偏好進(jìn)行耦合聚類識別,在耦合聚類實驗中,分別以用戶社區(qū)劃分和偏好主題詞領(lǐng)域劃分為兩個起點,通過游客用戶與偏好主題詞之間的耦合聚類,實現(xiàn)用戶社區(qū)的逐層精細(xì)劃分和游客用戶偏好的逐層準(zhǔn)確識別.基于層次耦合聚類的用戶偏好識別模型驗證流程如圖1.

        圖1 基于層次耦合聚類的用戶偏好識別流程

        通過Python語言與Scrapy框架相結(jié)合的方法爬取1 045條典型社交媒體“百度貼吧”中的“成都?xì)g樂谷貼吧”的數(shù)據(jù).使用Python3.5中的Jieba模塊實現(xiàn)分詞處理,在實驗中,不斷修正Jieba模塊中的Dict文件,提高了分詞的準(zhǔn)確性,取得較好的分詞結(jié)果,進(jìn)而生成準(zhǔn)確的“游客用戶—偏好主題詞”矩陣.在二維矩陣基礎(chǔ)上,將其中意思相同特征屬性(即意思相同的偏好主題詞)組合合并,實現(xiàn)屬性維度的初步約減.最后通過相關(guān)網(wǎng)絡(luò)爬蟲和數(shù)據(jù)預(yù)處理技術(shù)獲得571條游客用戶數(shù)據(jù)和381條偏好主題詞數(shù)據(jù),構(gòu)建571×381二維矩陣.

        2 實驗結(jié)果

        (1) 基于偏好主題的游客用戶社區(qū)劃分

        游客在社交平臺“成都?xì)g樂谷貼吧”中貢獻(xiàn)的實時和歷史行為數(shù)據(jù)反映了游客用戶需求.通過耦合聚類的方法(根據(jù)偏好主題詞對游客用戶聚類→根據(jù)游客用戶對偏好主題詞聚類→再根據(jù)偏好主題詞對游客用戶聚類),選取特定類別進(jìn)行研究,從而挖掘游客用戶間的潛在聯(lián)系以及對應(yīng)的興趣偏好,實現(xiàn)用戶社區(qū)更精確的劃分:① 計算游客用戶向量相關(guān)系數(shù)矩陣.根據(jù)381個詞語構(gòu)成的游客用戶向量,計算游客用戶向量之間的余弦相關(guān)系數(shù),得到相關(guān)系數(shù)矩陣.② 根據(jù)相關(guān)系數(shù)將用戶聚類.將游客用戶聚成6類,選取其中的特定游客用戶社區(qū)為代表性研究對象.③ 計算偏好主題詞語向量相關(guān)系數(shù)矩陣.提取其中46個游客用戶,將其與原先381個偏好主題詞構(gòu)成46×381矩陣,通過計算46個游客用戶組成的381個偏好主題詞的稀疏向量之間的余弦相關(guān)度,得到詞語相關(guān)系數(shù)矩陣.④ 根據(jù)詞語相關(guān)系數(shù)實現(xiàn)偏好主題領(lǐng)域劃分.再一次進(jìn)行聚類,將381個偏好主題詞聚成5類,選取其中的特定偏好主題詞領(lǐng)域作為代表性研究對象.⑤ 最終依據(jù)上面結(jié)果再次劃分特定游客用戶社區(qū).提取其中的56個偏好主題詞,將其與之前的46個游客用戶,組成46×56矩陣.通過56個偏好主題詞構(gòu)成的46個用戶向量,計算游客用戶之間的余弦相關(guān)系數(shù),構(gòu)成相關(guān)系數(shù)矩陣,進(jìn)行第三次聚類.此時,將游客用戶聚成兩類,當(dāng)調(diào)整閾值的時候,彼此之間關(guān)聯(lián)邊依舊沒有改變,說明此時游客用戶之間的關(guān)聯(lián)性較高,符合迭代停止條件,最終實現(xiàn)更精確的用戶社區(qū)劃分.耦合聚類結(jié)果如圖2.

        圖2 第三次耦合聚類后的特定游客用戶社區(qū)(包含31位游客用戶)

        (2) 基于游客用戶的偏好主題相關(guān)性分析

        分詞處理后的詞語,即偏好主題詞,是游客用戶需求偏好的直接體現(xiàn).需求偏好的識別是關(guān)聯(lián)分析的基礎(chǔ),因此,通過耦合聚類的方法,根據(jù)游客用戶貢獻(xiàn)的實時和歷史行為數(shù)據(jù)更加精確識別游客用戶的需求偏好,就變得尤為重要.① 計算偏好主題詞向量相似性矩陣.利用余弦定理計算571個游客用戶構(gòu)成的381條偏好主題詞稀疏向量之間的余弦相似性,構(gòu)成詞語相似系數(shù)矩陣.② 根據(jù)相關(guān)系數(shù)矩陣,進(jìn)行第一次聚類,選取其中特定偏好主題詞領(lǐng)域作為研究對象.③ 提取其中34個詞語,計算34條由偏好主題詞構(gòu)成的571條游客用戶向量之間的余弦相關(guān)系數(shù).④ 根據(jù)余弦相關(guān)系數(shù),調(diào)整邊值使用戶之間達(dá)到最優(yōu)分布,通過余弦相關(guān)系數(shù)實現(xiàn)第二次聚類,選取特定游客用戶社區(qū)作為研究對象.⑤ 提取其中的45個游客用戶,計算由45個游客用戶組成的34條偏好主題詞稀疏向量,通過余弦定理計算偏好主題詞之間的相似性,構(gòu)成相關(guān)系數(shù)矩陣.⑥ 通過偏好主題詞之間的相關(guān)系數(shù),進(jìn)行第3次聚類,根據(jù)行業(yè)領(lǐng)域知識和生活經(jīng)驗得出此時的聚類結(jié)果已經(jīng)符合停止迭代條件,最終的偏好主題詞領(lǐng)域劃分更加準(zhǔn)確的展現(xiàn)用戶的需求偏好.耦合聚類包含15個偏好主題詞,如圖3.

        3 模型驗證

        在確定目標(biāo)特征屬性的前提下,通過KNN分類、logistic回歸分類、SVM分類以及隨機(jī)森林分類4種分類算法的數(shù)據(jù)處理,比較不同閾值下的十折交叉驗證的平均AUC數(shù)值,選取最優(yōu)閾值再進(jìn)行聚類分析,進(jìn)而完成最優(yōu)偏好領(lǐng)域劃分.

        根據(jù)隨機(jī)森林特征選擇方法得到貢獻(xiàn)度最大的75個偏好主題詞屬性和目標(biāo)屬性特征“享受”,共同構(gòu)建起571×76的二維二分矩陣.在二維矩陣的基礎(chǔ)上,規(guī)定偏好領(lǐng)域劃分的領(lǐng)域數(shù)量為3,偏好領(lǐng)域閾值從0.1取到0.9,隨后在分類模型中再分別對不同的閾值使用十折交叉驗證的方式計算出偏好領(lǐng)域的AUC數(shù)值,比較不同模型不同閾值下的AUC平均值,最終實現(xiàn)偏好主題詞領(lǐng)域的最優(yōu)劃分.研究選擇平均AUC數(shù)值作為選取最優(yōu)閾值的依據(jù)指標(biāo).從隨機(jī)森林特征選擇中提取出對于目標(biāo)屬性特征“享受”貢獻(xiàn)度最大的75條詞語向量.

        (1) 根據(jù)KNN分類模型算法選取最優(yōu)聚類閾值.

        由圖4可知,在KNN分類模型前提下,分別從0.1取到0.9閾值,可以計算得到10折(從左到右依次為1~10折)交叉驗證中折數(shù)對應(yīng)著的AUC平均值.依托最大AUC平均值0.79(精確到兩位小數(shù),下同)選取出最優(yōu)閾值為0.4,進(jìn)而可以達(dá)到偏好關(guān)鍵詞領(lǐng)域的最優(yōu)劃分.

        圖4 基于KNN模型的平均AUC數(shù)值

        (2) 根據(jù)logistic分類模型算法選取最優(yōu)聚類閾值.由圖5(從左到右依次為1~10折)可以看出,在logistic回歸模型前提下,依據(jù)最大的AUC平均值0.74選取出偏好領(lǐng)域劃分的最優(yōu)閾值為0.9.在閾值取0.9的情況下,因為大部分偏好主題詞之間的相關(guān)度都低于0.9,偏好關(guān)鍵詞領(lǐng)域劃分只能達(dá)到2類,無法達(dá)到3類,所以領(lǐng)域劃分的效果不好.因此本研究數(shù)據(jù)使用logistic回歸分類模型選取最優(yōu)閾值的效果較差.

        圖5 基于logistic模型的平均AUC數(shù)值

        (3) 根據(jù)SVM分類模型算法選取最優(yōu)聚類閾值.由圖6可以看出,在SVM回歸模型前提下,依據(jù)最大的AUC平均值0.81選取出偏好領(lǐng)域劃分的最優(yōu)閾值0.2(從左到右閾值依次為0.1~0.9).SVM分類模型以“享受”為分類目標(biāo)屬性特征選取0.2為最優(yōu)閾值,將詞語分成3個偏好主題詞領(lǐng)域(剔除閾值小于0.2不相關(guān)的節(jié)點),可以看出閾值降低的情況下偏好主題詞節(jié)點明顯增加.

        圖6 基于SVM模型的平均AUC數(shù)值

        (4) 根據(jù)RF(隨機(jī)森林)分類模型算法選取最優(yōu)聚類閾值.由圖7(從左到右依次為1~10折)可以看出,在隨機(jī)森林模型前提下,依據(jù)最大的AUC平均值0.82選取出偏好領(lǐng)域劃分的最優(yōu)閾值0.3.RF分類模型以“享受”為分類目標(biāo)屬性特征選取0.3為最優(yōu)閾值,將詞語分成3個偏好主題詞領(lǐng)域(剔除閾值小于0.3不相關(guān)的節(jié)點),相較于SVM分類模型結(jié)果沒有較大的變化,雖然偏好主題詞節(jié)點數(shù)變少,3個領(lǐng)域結(jié)果內(nèi)容都類似于SVM分類模型實驗結(jié)果.

        圖7 基于隨機(jī)森林模型的平均AUC數(shù)值

        綜上所述,在耦合聚類模型的驗證中,不同的分類模型可能對應(yīng)不同的閾值,需要根據(jù)更加具體的實際應(yīng)用要求決定最終的閾值選取.此外,因為文中實驗的0.9閾值的偏好領(lǐng)域劃分的效果較差,所以實驗過程中也要注意數(shù)據(jù)特征對于分類模型的適用性.

        4 結(jié)論

        (1) 通過考慮用戶偏好主題詞的層次性關(guān)聯(lián)關(guān)系和用戶社區(qū)與偏好主題詞領(lǐng)域之間的耦合關(guān)系,提出了層次耦合聚類分析方法,以特殊“迭代”的形式,實現(xiàn)了用戶社區(qū)劃分和偏好主題詞領(lǐng)域劃分的耦合性聚類,揭示了用戶社區(qū)及偏好主題的多樣性及新穎性.

        (2) 通過先分類再聚類的邏輯進(jìn)行模型驗證,以AUC作為閾值選擇的依據(jù),避免傳統(tǒng)意義上人為規(guī)定閾值出現(xiàn)的誤差,排除了部分人為因素的影響,進(jìn)而使實驗的最終結(jié)論具有更好的說服力和可信度.

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        98在线视频噜噜噜国产| 女人被男人爽到呻吟的视频| 人人摸人人操| 999国产精品999久久久久久| 最近最新中文字幕| 小12萝8禁在线喷水观看| 亚洲AV无码国产精品久久l| 在线视频免费自拍亚洲| 国产成人精品免费久久久久 | 丰满巨臀人妻中文字幕| 欧美做受又硬又粗又大视频| 越南女子杂交内射bbwxz| 久久久一本精品99久久| 偷拍视频十八岁一区二区三区| 野花香社区在线视频观看播放| 久久久精品人妻一区二区三区四| 日韩精品一区二区三区四区| 一区二区亚洲精品国产精| 亚洲一区二区三区四区五区黄| 久久人人爽人人爽人人片亞洲| 国产精品亚洲综合天堂夜夜 | av一区二区三区在线| 无码毛片视频一区二区本码| 国产一区二区三区啪| 青青草精品在线免费观看 | 99久久免费中文字幕精品| 人成综合视频在线播放| 人人妻人人妻人人片av| 亚洲 日韩 在线精品| 亚洲码专区亚洲码专区| 成视频年人黄网站免费视频| 少妇激情av一区二区| 精品日产一区2区三区| 国产99一区二区三区四区| 成熟丰满熟妇高潮xxxxx视频| 欧美日韩一线| 亚洲中文字幕一区精品| 亚洲av日韩综合一区二区三区| 91免费在线| 亚洲情久久久精品黄色| 性刺激的大陆三级视频|