朱 毓
(安徽工業(yè)職業(yè)技術(shù)學(xué)院 信息工程系,安徽 銅陵 244000)
隨著社交網(wǎng)絡(luò)規(guī)模的不斷增大,社交網(wǎng)絡(luò)用戶瀏覽行為挖掘受到人們的關(guān)注,通過分析社交網(wǎng)絡(luò)用戶瀏覽行為特征,結(jié)合優(yōu)化的推薦算法,評(píng)估出社交網(wǎng)絡(luò)用戶瀏覽行為偏好性,從而進(jìn)一步促進(jìn)社交網(wǎng)絡(luò)的發(fā)展.對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為特征的挖掘過程中,受到冗余信息的干擾,導(dǎo)致對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為特征挖掘的冗余度較大,抗干擾性不好,需要構(gòu)建優(yōu)化的社交網(wǎng)絡(luò)用戶瀏覽行為特征挖掘模型,結(jié)合優(yōu)化的數(shù)據(jù)挖掘和信息融合算法,提高社交網(wǎng)絡(luò)用戶瀏覽行為檢測(cè)和推薦能力[1].傳統(tǒng)方法中,對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)分析方法主要有一種支持?jǐn)?shù)據(jù)去冗和擴(kuò)容的多媒體文件云存儲(chǔ)系統(tǒng)[2]、基于聚類的重復(fù)數(shù)據(jù)去冗算法[3]以及基于最大時(shí)間閾值與自適應(yīng)步長的時(shí)間相關(guān)性感知數(shù)據(jù)去冗余算法[4]等,其結(jié)合相應(yīng)的優(yōu)化學(xué)習(xí)算法,實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗處理,但傳統(tǒng)方法在社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗處理過程中的抗干擾性不好、特征辨識(shí)能力不強(qiáng)[5].
針對(duì)上述問題,本文提出基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗方法,采用隨機(jī)森林學(xué)習(xí)算法實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的收斂性控制優(yōu)化,實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗,展示了本文方法在提高社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗能力方面的優(yōu)越性.
為了實(shí)現(xiàn)基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗,首先構(gòu)建社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)統(tǒng)計(jì)模型[6].
設(shè)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的本體信息和關(guān)聯(lián)規(guī)則項(xiàng)為p,此時(shí)的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的關(guān)聯(lián)規(guī)則項(xiàng)特征集為
FZ=p(Z1+Z2+…+Zn),
(1)
其中,Z1+Z2+…Zn表示社交網(wǎng)絡(luò)用戶瀏覽行為特征挖掘節(jié)點(diǎn)的關(guān)聯(lián)度,為了實(shí)現(xiàn)關(guān)聯(lián)度自適應(yīng)尋優(yōu),分割社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)[7],設(shè)社交網(wǎng)絡(luò)用戶瀏覽行為特征的分割函數(shù)為
(2)
其中,a表示社交網(wǎng)絡(luò)用戶瀏覽行為特征挖掘的檢測(cè)閾值,b表示用戶瀏覽行為數(shù)據(jù)的自動(dòng)挖掘的偏移系數(shù),xc表示社交網(wǎng)絡(luò)用戶瀏覽行為特征監(jiān)測(cè)點(diǎn)c的自適應(yīng)值,實(shí)現(xiàn)關(guān)聯(lián)度自適應(yīng)尋優(yōu).以關(guān)聯(lián)度尋優(yōu)結(jié)果為輸入,進(jìn)行用戶瀏覽行為特征分塊區(qū)域融合,為辨識(shí)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的模糊度提供基礎(chǔ)[8],得到社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的統(tǒng)計(jì)量
(3)
其中,α表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的模糊度.在STARMA(1,1)網(wǎng)絡(luò)模型中,得到社交網(wǎng)絡(luò)用戶瀏覽行為特征在分布結(jié)構(gòu)空間中的行為數(shù)據(jù)統(tǒng)計(jì)結(jié)果,社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)分布集描述為
(4)
實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)統(tǒng)計(jì)模型的構(gòu)建[9].
為了挖掘社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的語義關(guān)聯(lián)特征量,采用約束代價(jià)因子作為特征泛函[10]模型泛化條件,得到社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的差異度辨識(shí)函數(shù)為
(5)
其中,β和β*分別表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的統(tǒng)計(jì)特征量和邊緣信息特征分量,K(yi)表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗挖掘的模糊核函數(shù),γ表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的推薦門限.
以模糊核函數(shù)取值范圍為約束條件,得到社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的隨機(jī)離散度特征分量,定義Ci為社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)在有向圖qi中的節(jié)點(diǎn)集合,設(shè)置
(6)
其中,r表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的特征分布長度,k表示辨識(shí)度參數(shù),l表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的瞬時(shí)時(shí)間頻率,λ表示特征辨識(shí)度[11].定義社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的可靠性特征參量為A,則t時(shí)刻得到社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)檢測(cè)的概率密度函數(shù)為
(7)
其中,j表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的特征提取結(jié)果,根據(jù)特征提取結(jié)果,挖掘社交網(wǎng)絡(luò)用戶瀏覽行為推薦的約束參數(shù),結(jié)合自相關(guān)特征匹配方法,實(shí)現(xiàn)自相關(guān)特征匹配[12].
傳統(tǒng)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗實(shí)現(xiàn)流程如圖1所示.
圖1 社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘去冗實(shí)現(xiàn)流程圖
本次研究在傳統(tǒng)標(biāo)簽式去冗方法的基礎(chǔ)上,對(duì)加粗部分進(jìn)行優(yōu)化.
采用隨機(jī)森林學(xué)習(xí)算法進(jìn)行社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗優(yōu)化時(shí),分析社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)特征分布的節(jié)點(diǎn)與語義相似度特征點(diǎn)的匹配度,在上述研究的基礎(chǔ)上,此時(shí)的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的隨機(jī)森林學(xué)習(xí)過程為
N=1+ln[Pi(t)].
(8)
為了得到社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的有向特征分量的收斂控制函數(shù),通過社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的特征映射分析結(jié)果,進(jìn)行社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗,其中,濾波函數(shù)H為:
H=u(t)exp[N(t-t0)],
(9)
其中,u(t)為收斂控制函數(shù),t0為社交網(wǎng)絡(luò)用戶瀏覽行為去冗時(shí)長,以該時(shí)長為限制性條件,計(jì)算社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的冗余節(jié)點(diǎn)與關(guān)聯(lián)詞的匹配度,得到隨機(jī)森林學(xué)習(xí)的特征映射[13],根據(jù)對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的隨機(jī)森林學(xué)習(xí)結(jié)果,實(shí)現(xiàn)數(shù)據(jù)冗余信息濾波.
以上分析結(jié)合了匹配濾波檢測(cè)方法,實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)冗余濾波處理,但是根據(jù)隸屬度與非隸屬度的相關(guān)性關(guān)系,社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)濾波的返回狀態(tài)w不確定,難以得到冗余信息輸出檢測(cè)序,因此,采用形狀相似性特征分析的方法,設(shè)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)濾出的演化特征量為ξi,根據(jù)隨機(jī)森林學(xué)習(xí)結(jié)果,得到優(yōu)化的數(shù)據(jù)濾除目標(biāo)函數(shù)為
(10)
其中,ξi表示最小的關(guān)聯(lián)度信息,根據(jù)模糊多屬性決策結(jié)果,得到社交網(wǎng)絡(luò)用戶瀏覽行為的冗余濾波的混合核函數(shù),其表達(dá)式為
(11)
其中,Kpoly表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的偏好核函數(shù),提取社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)挖掘的本構(gòu)特征量,得到隸屬度集合的決策函數(shù)為
Q=Kmin×m(z),
(12)
其中,m(z)表示社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的用戶項(xiàng)目評(píng)分值.根據(jù)上述分析,結(jié)合匹配濾波檢測(cè)方法,實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)冗余去除.
具體算法流程圖如圖2所示.
圖2 改進(jìn)算法的實(shí)現(xiàn)流程
為了驗(yàn)證本文方法在實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的應(yīng)用性能,進(jìn)行實(shí)驗(yàn)測(cè)試分析,采用Matlab實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的仿真程序設(shè)計(jì),在TwitterSentiment Analysis 中采集3000個(gè)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù),因?yàn)樯种腥我鈨煽脴渲g的相關(guān)性越高,錯(cuò)誤率越大,所以在訓(xùn)練樣本集中進(jìn)行有放回的采樣時(shí),即在盡量保留原數(shù)據(jù)間相似度的情況下,為了將測(cè)試數(shù)據(jù)集映射到最低維下,使數(shù)據(jù)間相關(guān)性越高,數(shù)據(jù)分類能力越強(qiáng),設(shè)隨機(jī)森林學(xué)習(xí)的迭代次數(shù)為60,那么此時(shí)對(duì)于類別不平衡數(shù)據(jù),為了平衡誤差,相似度系數(shù)要小于0.5,設(shè)為0.35,樣本大小規(guī)模為3000,數(shù)據(jù)冗余的干擾強(qiáng)度為-20 dB,根據(jù)上述參數(shù)設(shè)定,進(jìn)行社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)仿真,得到原始的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)如圖3所示.
圖3 原始社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)
以圖3的數(shù)據(jù)為測(cè)試對(duì)象,進(jìn)行社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗處理,得到去冗結(jié)果如圖4所示.
圖4 社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗結(jié)果
分析圖4得知,以瀏覽行為數(shù)據(jù)在實(shí)、虛軸的幅值收斂性為去冗效果表現(xiàn)形式,采用本文方法實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的性能較高,對(duì)冗余數(shù)據(jù)的去冗效果較好.
以輸出信噪比為測(cè)試指標(biāo),測(cè)試社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的效果,得到對(duì)比結(jié)果見表1.
表1 社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗的輸出信噪比(單位:dB)
由表1可知,在與文獻(xiàn)[2]和文獻(xiàn)[3]方法的對(duì)比過程中,本文構(gòu)建社交網(wǎng)絡(luò)用戶瀏覽行為推薦的約束參數(shù),結(jié)合匹配濾波檢測(cè)方法,對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為信息進(jìn)行濾波,預(yù)先濾除了信噪比較低的信息,其輸出信噪比較高,數(shù)據(jù)去冗效果得到保證.
結(jié)合優(yōu)化的數(shù)據(jù)挖掘和信息融合算法,提高社交網(wǎng)絡(luò)用戶瀏覽行為檢測(cè)和推薦能力.本文提出基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)去冗方法,根據(jù)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的特征提取結(jié)果,采用隨機(jī)森林學(xué)習(xí)算法對(duì)社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)中的冗余信息進(jìn)行過濾,并結(jié)合形狀相似性特征分析方法,實(shí)現(xiàn)了社交網(wǎng)絡(luò)用戶瀏覽行為數(shù)據(jù)的模糊信息融合,輸出峰值信噪比較高,最終去冗性能較好.