陳翀旻 余泓夫 朱迪 唐超 符華 莫梁媛
摘 要:常規(guī)群體劃分模型構(gòu)建方法主要采用二分均值算法,該方法易受到數(shù)據(jù)特征項貢獻(xiàn)度的影響,使得模型的劃分結(jié)果準(zhǔn)確性較低。因此,提出基于k-means聚類算法與多維度特征融合的群體劃分模型。利用k-means聚類算法通過合理設(shè)定密度閾值與鄰域半徑,提取用戶群體的興趣區(qū)域,在興趣區(qū)域中選取貢獻(xiàn)度較大的數(shù)據(jù)特征項,并計算特征項的權(quán)值,以此為依據(jù),采用多維特征融合算法改進(jìn)最大化目標(biāo)函數(shù),以此實現(xiàn)群體劃分模型的構(gòu)建。實驗結(jié)果顯示,利用所提方法構(gòu)建的群體劃分模型,能夠得到較高的劃分準(zhǔn)確度。
關(guān)鍵詞:k-means聚類算法;多維度特征融合;群體劃分
中圖分類號:TP311.132
文獻(xiàn)標(biāo)志碼:A文章編號:1001-5922(2023)11-0193-04
Group partition model based on k-means clustering algorithm and multi-dimensional feature fusion
CHEN Chongmin,YU Hongfu,ZHU Di,TANG Chao,F(xiàn)U Hua,MO Liangyuan
(Nanning Power Supply Bureau of Guangxi Power Grid Co.,Ltd.,Nanning 530029,China
)
Abstract:The traditional population division model construction method mainly uses the dichotomy mean algorithm,which is vulnerable to the influence of the contribution of data feature items,making the accuracy of the model division result low.Therefore,a group partition model based on k-means clustering algorithm and multi-dimensional feature fusion was proposed.The k-means clustering algorithm was used to extract the interest area of th user group by reasonably setting the density threshold and neighborhood radius,select the data feature items with greater contribution in the interest area,and calculate the weight of the feature items.Based on this,the multi-dimensional feature fusion algorithm was used to improve the maximization objective function,so as to achieve the construction of the group division model.The experimental results showed that the population division model constructed by the proposed method can obtain high classification accuracy.
Key words:k-means clustering algorithm;multidimensional feature fusion;group division
群體交易行為能夠在一定程度上反應(yīng)用戶的交易特點與用戶之間的內(nèi)在相關(guān)性[1-2],更好地分析群體的行為特征,根據(jù)用戶的需求為客戶制定個性化的服務(wù)策略從而優(yōu)化用戶體驗,具有重要的現(xiàn)實意義。當(dāng)前廣泛應(yīng)用的群體交易行為劃分方法包括基于時序特征的群體劃分[3-5]和基于長短期記憶網(wǎng)絡(luò)的群體劃分[6-8],前者無法有效處理原始數(shù)據(jù)中的高維屬性數(shù)據(jù)與冗余數(shù)據(jù),使得在分析用戶行為特征時易受到噪音影響[9-10],后者缺少對用戶的細(xì)粒度數(shù)據(jù)分析,易受到數(shù)據(jù)特征項貢獻(xiàn)度的影響,上述影響因素導(dǎo)致劃分準(zhǔn)確度不高[11-12]。針對以上問題,本文提出利用k-means聚類算法與多維度特征融合相結(jié)合的方法來進(jìn)行群體劃分。應(yīng)用傾向強(qiáng)度和相似性系數(shù)計算特征項的權(quán)重,將權(quán)重計算結(jié)果作為特征項貢獻(xiàn)度,明確客戶的價值重要度。
1 基于多維度特征融合的群體劃分
1.1 基于k-means聚類算法的用戶群體興趣區(qū)域提取
設(shè)δ為以C為圓心,R為半徑的鄰域,如果用戶在一定時間內(nèi)到訪該區(qū)域的次數(shù)達(dá)到指定閾值,則稱該區(qū)域為用戶的一個興趣區(qū)域,即用戶頻繁選擇的幾個鄰近位置所構(gòu)成的一個空間區(qū)域。用戶群體的興趣區(qū)域如圖1所示,其中F1、F2 F3、F4分別表示該興趣區(qū)域中具有不同選擇頻次的4個被頻繁訪問的位置;節(jié)點的大小表征了其被選擇次數(shù)的多少;C為4個位置的質(zhì)心,也即該興趣區(qū)域的質(zhì)心。
為精準(zhǔn)提取出用戶群體的興趣區(qū)域,采用k-means聚類算法對群體的興趣區(qū)域進(jìn)行提取[13]。k-means聚類算法從密度可達(dá)區(qū)間的角度對密度閾值和鄰域半徑進(jìn)行合理設(shè)定,并且通過選取合適的聚類數(shù)將相似性較高的數(shù)據(jù)歸為一類,因此,非常適用于本文的群體興趣提取。算法所涉及的鄰域半徑與密度閾值分別對應(yīng)了興趣區(qū)域定義中的δ和ε,參數(shù)δ用來確定興趣區(qū)域的大小;參數(shù)ε用來確定用戶對該興趣區(qū)域的感興趣程度。
利用隨機(jī)選取方法在用戶數(shù)據(jù)集中獲取各類簇的聚類中心,利用下式計算數(shù)據(jù)的輪廓系數(shù)(p):
p=a0+∑MI~=1∑LJ=1aI~J+ε+k(1)
式中:a0表示待估變量;M表示概念產(chǎn)品的屬性;L表示產(chǎn)品的吸引性系數(shù);I~表示概念產(chǎn)品的實時變化狀態(tài);J表示概念產(chǎn)品的效用值;aI~J表示初始聚類處理系數(shù);ε表示用戶對該興趣區(qū)域的感興趣程度;k表示聚類中心數(shù)。
通過對用戶群體針對產(chǎn)品選擇的時間序列與頻次進(jìn)行累加處理,利用k-means聚類算法對群體興趣區(qū)域的提取,據(jù)此可以有效地進(jìn)行群體劃分特征項權(quán)重計算。
1.2 群體劃分特征項權(quán)重計算
貢獻(xiàn)度是指某個因素對整體結(jié)果或目標(biāo)的影響程度,可以用于衡量不同因素對最終結(jié)果的相對重要性,幫助理解和解釋影響因素的作用??紤]到客戶的重要程度不同,需要了解特征項對群體劃分結(jié)果的影響程度即特征項的重要性,將貢獻(xiàn)度代作為每個特征項對最終的群體劃分結(jié)果的相對重要性,通過計算特征項權(quán)重,可以量化特征對群體劃分的貢獻(xiàn)度,進(jìn)而明確客戶的價值重要度。因此,將群體劃分特征項的權(quán)重作為計算中的貢獻(xiàn)度[14-16],選擇傾向強(qiáng)度來計算特征項的權(quán)重。特征項集合(Fe):
Fe=C|(t1,t2,…,ti)(2)
式中:C表示興趣區(qū)域的質(zhì)心;t1,t2,…,ti表示特征項。
特征項間的語義相似性計算公式為:
w(ti)=∑Fe×Sti×Iti(3)
式中:Sti表示ti出現(xiàn)的頻率;Iti表示ti的強(qiáng)度系數(shù)。
在計算特征項權(quán)重時,考慮到特征項間的相似性因素,本文設(shè)置了相似度系數(shù),判斷2個特征項的相似程度。
使用s(X,Y)表示2個特征項的相似系數(shù),計算方法:
s(X,Y)=0.6,1>Sim(A,B)≥0.75
0.0.75>Sim(A,B)≥0(4)
針對群體興趣區(qū)域C在計算ti權(quán)重時,考慮到興趣區(qū)域C存在與ti相似的其他鄰域特征項cik。此時,ti權(quán)重ω(ti)的計算方法:
ω(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2(5)
式中:s(ti,cik)表示特征項與距離中心的相似度系數(shù);N表示數(shù)據(jù)總量。
綜上,在群體興趣區(qū)域中,本文提出的ti權(quán)重綜合計算公式:
ω′(ti)=ti+cik×s(X,Y)2×logNs(ti,cik)/2×I(6)
利用上述分析與計算過程,基于群體興趣區(qū)域,興趣能夠表征群體選擇傾向的特征項,并計算特征項的權(quán)重系數(shù),明確用戶的價值重要度,為后續(xù)群體劃分模型的構(gòu)建奠定基礎(chǔ)。
1.3 基于多維度特征融合的群體劃分模型構(gòu)建
在進(jìn)行群體興趣區(qū)域的提取與特征項權(quán)重計算后,利用多維度特征融合算法構(gòu)建群體劃分模型[17-18]。
(1)在獲取特征項權(quán)重后,需要分析驗證用戶行為特征數(shù)據(jù),以獲取群體劃分依據(jù)。但由于特征項權(quán)重計算主要是通過興趣空間質(zhì)心和相似系數(shù)確定的,因此原數(shù)據(jù)可能存在噪聲因素、偏倚情況,對群體交易行為劃分的準(zhǔn)確性產(chǎn)生不良影響。因此,需要根據(jù)特征項權(quán)重計算結(jié)果,對特征數(shù)據(jù)進(jìn)行預(yù)處理,濾除冗余數(shù)據(jù),獲取標(biāo)準(zhǔn)化結(jié)果,其公式為:
Q′i=ω°(ti)ω°(ti)max-ω°(ti)min(7)
式中:Q′i表示特征數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果;ω°(ti)表示特征項初始權(quán)重;ω°(ti)min、ω°(ti)max分別表示初始權(quán)重的最小值與最大值。
(2)由于數(shù)據(jù)預(yù)處理僅能濾除原數(shù)據(jù)中的冗余數(shù)據(jù)和干擾因素,但原數(shù)據(jù)中會包含大量特征或?qū)傩缘臄?shù)據(jù)集,導(dǎo)致用戶交易行為劃分的計算量較大,無法以統(tǒng)一維度進(jìn)行數(shù)據(jù)的處理,甚至還會出現(xiàn)部分?jǐn)?shù)據(jù)缺失的情況[19-20]。因此,在完成數(shù)據(jù)預(yù)處理后,需要處理原數(shù)據(jù)中的高維數(shù)據(jù),統(tǒng)一數(shù)據(jù)維度,本文對特征數(shù)據(jù)制定半局部策略,將數(shù)據(jù)按維度分類為一階數(shù)據(jù)與二階數(shù)據(jù),以保證數(shù)據(jù)的完整性。
(3)對一階數(shù)據(jù)與二階數(shù)據(jù)執(zhí)行新的融合策略,以強(qiáng)化時間序列的提取能力,計算公式為:
R=12m∑
Aij-didj2m(8)
式中:m表示鄰域邊數(shù);Aij表示鄰接矩陣;di、dj分別表示對應(yīng)連接節(jié)點的分布概率。
(4)將特征向量中異質(zhì)性的數(shù)據(jù)予以剔除,僅保留同質(zhì)性數(shù)據(jù),之后對其余數(shù)據(jù)進(jìn)行多維特征融合計算,即:
α(i)=Q′i∑R(9)
式中:Q′i表示特征項數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)果;R表示局部策略。
(5)更新數(shù)據(jù)融合目標(biāo)函數(shù)。表征多維度屬性信息與參數(shù)信息能夠同步進(jìn)行融合,則得出改進(jìn)后的最大化目標(biāo)函數(shù)為:
S=1m∑α(i)γ(ci,cj)(10)
式中:γ(ci,cj)表示節(jié)點i與節(jié)點j屬于同一個鄰域。
(6)以最大化目標(biāo)函數(shù)作為合并標(biāo)準(zhǔn),利用式(11)計算不同時段特征向量的融合結(jié)果,并將所有結(jié)構(gòu)進(jìn)行合并,得到群體劃分模型為:
Gij=Sα(i)/xa∑Sα(i)ω°(ti)max(11)
式中:xa表示特征數(shù)據(jù)的待標(biāo)定參數(shù)。
上式即為本文建立的群體劃分模型,至此,完成基于多維特征融合算法的群體劃分模型的構(gòu)建。
2 實驗論證分析
2.1 實驗準(zhǔn)備
實驗中選取的數(shù)據(jù)為某電力公司的50萬用戶在2020年10月的關(guān)于電力產(chǎn)品需求的瀏覽記錄。數(shù)據(jù)以CSV文件格式進(jìn)行存儲,共包含500萬條記錄。
2.2 實驗說明
利用本文提出的k-means聚類算法對用戶群體的興趣區(qū)域進(jìn)行提取,設(shè)定算法中的鄰域半徑與密度閾值分別為20和0.2,最優(yōu)聚類個數(shù)為5,輪廓系數(shù)值為0.5,大小比率為5.63,實驗數(shù)據(jù)維度為500×365×4,每個樣本與各初始質(zhì)心的距離均為10。基于客戶的價值需求進(jìn)行興趣區(qū)域提取,提取過程如圖2所示。
2.3 模型應(yīng)用結(jié)果分析
根據(jù)實驗數(shù)據(jù)的所屬標(biāo)簽,實驗選取3 500個用戶數(shù)據(jù)劃分為4類,分別定義為A、B、C、D類。A類表示交易頻繁用戶;B類表示高價值用戶;C類表示中價值用戶;D類表示低價值用戶。參照群體劃分模型中特征項的計算規(guī)則,以此計算不同特征數(shù)據(jù)的權(quán)重,最后通過閾值判斷用戶群體數(shù)據(jù)的所屬類別,并與真實類別進(jìn)行比較,評估本文構(gòu)建的模型的劃分準(zhǔn)確性,劃分模型的應(yīng)用結(jié)果如圖3所示。
由圖3可知,利用本文構(gòu)建的群體劃分模型對實驗數(shù)據(jù)中的用戶類別進(jìn)行劃分,其輸出值與真實值基本一致。其中對于B類的劃分得到的劃分準(zhǔn)確率為100%。由于文中所提群體劃分模型構(gòu)建方法能夠根據(jù)用戶交易行為特點對用戶群體的價值需求進(jìn)行分析,從而獲得更好的劃分結(jié)果。
2.4 模型劃分準(zhǔn)確性對比試驗分析
為體現(xiàn)本文設(shè)計的群體劃分模型構(gòu)建方法的整體優(yōu)越性,采用基于時序特征的群體劃分模型(方法1)、基于長短期記憶網(wǎng)絡(luò)的群體劃分模型構(gòu)建方法(方法2)與文中設(shè)計的方法進(jìn)行仿真對比試驗。三種模型的劃分準(zhǔn)確性結(jié)果對比如圖4所示。
由圖4可知,與另外2種劃分模型相比,本文提出的基于k-means聚類算法與多維度特征融合的劃分模型得到了最高的劃分準(zhǔn)確率,在樣本數(shù)量為50時,本文模型取得了96.8%的劃分準(zhǔn)確率。對比實驗結(jié)果表明,文中所提的群體劃分建模方法是有效可行的。
3 結(jié)語
本文利用k-means聚類算法與多維度特征融合的綜合算法對用戶群體的主體特征與行為模式進(jìn)行分析,基于用戶興趣區(qū)域與特征項權(quán)重構(gòu)建群體劃分模型,以明確不同類型用戶的行為特征,以此來確定用戶群體的類別,為企業(yè)推行個性化服務(wù)提供決策依據(jù)。
【參考文獻(xiàn)】
[1] 李金武,王清珍.基于融合云模型分析的時間序列概念劃分方法[J].河南工程學(xué)院學(xué)報(自然科學(xué)版),2022,34(3):54-60.
[2] 郭曉軍,王云峰,朱亮.基于時序特征提取的用戶群體劃分模型[J].中國電子科學(xué)研究院學(xué)報,2021,16(6):592-598.
[3] 江兵,李國榮,孫趙盟,等.基于長短期記憶神經(jīng)網(wǎng)絡(luò)和改進(jìn)型k-means聚類算法的居民峰谷時段劃分模型[J].現(xiàn)代電力,2021,38(6):620-629.
[4] 許偉佳,秦永彬,黃瑞章,等.基于DMA與特征劃分的多源文本主題模型[J].計算機(jī)工程,2021,47(7):59-66.
[5] 黃艷國,張升升,劉紅軍.基于高斯混合模型聚類算法的交通狀態(tài)劃分[J].現(xiàn)代電子技術(shù),2022,45(7):168-173.
[6] 袁健,王姍姍,羅英偉.基于圖像視野劃分的公共場所人群計數(shù)模型[J].計算機(jī)應(yīng)用研究,2021,38(4):1256-1260.
[7] 曾四鳴,李鐵成,李順,等.基于改進(jìn)型密度峰值算法的電力負(fù)荷聚類分析[J].科學(xué)技術(shù)與工程,2022,22(25):11032-11040.
[8] 張曉紅,張欣,石冠男,等.基于馬爾可夫過程的多部件系統(tǒng)劣化狀態(tài)空間劃分模型[J].控制與決策,2021,36(2):418-428.
[9] 楊資集,潘雁,祝躍飛,等.基于概率模型的二進(jìn)制協(xié)議字段劃分方法[J].計算機(jī)科學(xué),2022,49(10):319-326.
[10] 于晗,蔡鴻明,張翼飛,等.基于增量式流處理的自適應(yīng)群體劃分方法[J].計算機(jī)學(xué)報,2020,43(12):2337-2351.
[11] 孫勁光,李桃,董祥軍.屬性一致的物體輪廓劃分模型[J].電子與信息學(xué)報,2021,43(10):2985-2992.
[12] 李俊,葉楊,何世東.基于城市用地規(guī)劃的微網(wǎng)格劃分模型研究[J].廣東通信技術(shù),2021,41(7):47-49.
[13] 雷翔勝,王興華.基于變電能力提升和電源接入質(zhì)量的優(yōu)化設(shè)計[J].粘接,2022,49(10):158-160.
[14] 高虹雷,門昌騫,王文劍.一種特征值區(qū)間劃分的模型決策樹加速算法[J].小型微型計算機(jī)系統(tǒng),2021,42(6):1136-1143.
[15] 張夢瑤,朱廣麗,張順香,等.基于情感分析的微博熱點話題用戶群體劃分模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(2):43-49.
[16] 劉渝琳,司緒,宋琳璇,等.收入群體的持續(xù)期與退出風(fēng)險估計——基于EM算法的收入群體劃分[J].統(tǒng)計研究,2021,38(5):121-135.
[17] 常兵.融合多維度特征的特定領(lǐng)域新詞發(fā)現(xiàn)方法[J].自動化應(yīng)用,2023,64(8):159-162.
[18] 高云梅,張淑慧.基于信息檢索與K均值聚類的化工產(chǎn)品精準(zhǔn)推薦算法研究[J].粘接,2023,50(3):132-135.
[19] 楊長沛,廖列法.基于門控空洞卷積特征融合的中文命名實體識別[J].計算機(jī)工程,2023,49(8):85-95.
[20] 杜濤,王朝龍,朱靖,等.基于聚類算法的變壓設(shè)備運行數(shù)據(jù)監(jiān)測與異常檢測技術(shù)[J].粘接,2022,49(12):137-140.
收稿日期:2023-09-10;修回日期:2023-10-09
作者簡介:陳翀旻(1980-),男,工程師,研究方向:電力系統(tǒng)自動化;E-mail:Cchongm@163.com。
引文格式:陳翀旻,余泓夫,朱 迪,等.基于k-means聚類算法與多維特征融合的群體劃分模型[J].粘接,2023,50(11):193-196.