張保龍 黃海燕
摘 要: 針對整個復雜CLASS全屬性聚類的聚類算法在聚類算法中有較為復雜的實現要求,試圖對社交軟件中較為復雜的CLASS?USER進行整體聚類計算,難度在于將其復雜屬性體系整合成高維度變量進行降維處理。通過多次連續(xù)的數據整理,特別使用了二維模糊矩陣與排序算法實現快速降維,將高達13維的高維度變量進行降維處理,最終形成一維變量,最后使用常見的K?means聚類算法對該一維變量進行聚類分析。
關鍵詞: 全屬性聚類; 社交軟件; 聚類算法; 人脈分析
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)09?0126?02
Abstract: Since the whole complex CLASS full?attribute clustering algorithm in clustering algorithms has complicated implementation requirement, the overall clustering computation for the more complex CLASS?USER in social software is tried to carry out, which is difficult to integrate the complex attribute system into the high dimensional variables for dimension reduction processing. The ranking algorithm of two?dimensional fuzzy matrix is particularly used to fast reduce the dimension by means of repeatedly continuous data processing. The dimension reduction processing for the high dimensional variables with 13 dimensions is conducted to form the one?dimensional variable. And then the cluster analysis for the one?dimensional variable is conducted with common K?means clustering algorithm.
Keywords: full?attribute clustering; social software; clustering algorithm; contact analysis
0 引 言
現階段,人脈分析功能已經成為當前社交軟件中的必備功能[1]。為社交軟件設計更加科學的二度人脈推薦算法,已經成為當前人脈大數據分析的重要任務。一定程度上,人脈分析智能化程度是評價社交軟件智能化程度的重要指標[2]。本文軟件是用于在線社區(qū)系統(tǒng)的內置交互軟件。本文的設計任務是在當前社區(qū)系統(tǒng)USERMNG下設計二度人脈聚類算法,以分析用戶非主動好友關系中與其關系更密切的用戶。
1 需求分析
1.1 分析本文系統(tǒng)當前的系統(tǒng)模塊
雖然系統(tǒng)目前基于手機APP運行,但其背景數據庫來自1997年建立的BBS系統(tǒng),所以系統(tǒng)與傳統(tǒng)的交互軟件不同,系統(tǒng)由論壇部分、留言板部分、個人博客部分三個交互板塊構成交流框架。其中論壇部分所有內容都可以被所有用戶瀏覽且可以由所有用戶回復,留言板部分僅可由留言相關的雙方瀏覽和回復,個人博客部分僅可由發(fā)帖人指定的用戶瀏覽和回復[3]。
1.2 分析挖掘數據來源
本文一度人脈來源分析用戶的好友列表,分析該好友綁定的手機號碼是否存在于用戶的手機電話本中,從而對好友進行一次聚類。
本文分析好友瀏覽和回復其帖子的數量,同時分析用戶瀏覽和回復好友帖子的數量。分析每天的訪問量走勢。可挖掘數據來源如圖1所示。
2 算法設計
2.1 習慣相似性排序
因為本文系統(tǒng)已經限定每個用戶最多擁有500個好友,所以,本文算法的CPU壓力并不大[4],人脈樹結構較為單一,所以,本文并不采用神經網絡算法[5],而是采用模糊矩陣算法對用戶的二度好友進行歸類和推薦。
設計三個變量限定每日用戶使用三個功能的頻率:USER.BLOG.RATE判斷用戶使用博客功能的頻率;USER.BBS.RATE判斷用戶使用論壇功能的頻率;USER.MSGBD.RATE判斷用戶使用留言板功能的頻率。
3 總 結
本文算法是常用算法的順序組合,通過該算法,可以使用較小的CPU和RAM資源實現復雜環(huán)境下的CLASS聚類[11]。因為本文使用的CLASS?USER是一個13維度的高維度變量,本文使用8步計算將其降為[0,1]區(qū)間上的一維變量[B]值,給最后針對該[B]值的K?means聚類提供了前置條件。
參考文獻
[1] 劉婉.K?means在PHP環(huán)境中的應用實踐研究[J].電腦愛好者,2014(3):124?126.
[2] 張慶東.探索網頁腳本中實現K?means聚類的有效途徑[J].軟件學報,2013(2):66?68.
[3] 胡夏玲.老舊社區(qū)網站實現手機APP端轉化方法研究[J].系統(tǒng)仿真學報,2015(1):34?36.
[4] 胡正峰.手機APP服務器端數據挖掘方法研究[J].模式識別與人工智能,2014(6):91?93.
[5] 張啟琪.二度人脈計算方法研究[J].軟件學報,2014(5):98?99.
[6] 李旭東.神經網絡在二度人脈分析中的應用途徑研究[J].電腦愛好者,2012(1):45?46.
[7] 趙紅霞.分析K?means與神經網絡在二度人脈分析中的軟件效率差異[J].模式識別與人工智能,2014(6):77?78.
[8] 張玲.常見二度人脈分析算法的軟件效率研究[J].系統(tǒng)仿真學報,2014(4):36?37.
[9] 劉勇.二度人脈分析算法占用CPU資源的解決方案研究[J].模式識別與人工智能,2014(3):56?57.
[10] 萬紅.較大用戶群的用戶數據資源挖掘方式研究[J].電腦愛好者,2013(6):98?99.
[11] 張霞.分析有限CPU資源模式下的非神經網絡算法在大數據挖掘中的應用[J].軟件學報,2015(3):128?129.