亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向微博的多實體稀疏關(guān)系數(shù)據(jù)聯(lián)合聚類

        2016-07-18 11:49:27于淼楊武王巍申國偉
        通信學報 2016年1期
        關(guān)鍵詞:用戶

        于淼,楊武,王巍,申國偉

        ?

        面向微博的多實體稀疏關(guān)系數(shù)據(jù)聯(lián)合聚類

        于淼,楊武,王巍,申國偉

        (哈爾濱工程大學信息安全研究中心,黑龍江哈爾濱 150001)

        針對大規(guī)模微博中多實體間的稀疏關(guān)系數(shù)據(jù),提出一種面向多實體稀疏關(guān)系數(shù)據(jù)的高效聯(lián)合聚類算法。在算法中,為了充分利用多關(guān)系數(shù)據(jù),提出了一種頑健的約束信息嵌入方法構(gòu)建關(guān)系矩陣,降低了矩陣的稀疏性,進一步提高了算法的準確率。在稀疏約束的塊坐標下降框架下,關(guān)系矩陣通過非負矩陣三分解算法同時獲得不同實體的聚類指示矩陣。非負矩陣分解過程中,通過高效的投射算法實現(xiàn)快速求解,確保了聚類結(jié)果的稀疏結(jié)構(gòu)。在人工和真實數(shù)據(jù)集上的實驗表明,算法在3個指標上都具有明顯提高,特別是在極端稀疏數(shù)據(jù)上的效果更加明顯。

        微博;多實體稀疏關(guān)系;聯(lián)合聚類;非負矩陣分解;輔助信息嵌入

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,微博成為人們的信息分享和傳播平臺。為了深入理解微博平臺中的用戶行為、內(nèi)容、傳播規(guī)律等,微博已經(jīng)成為社會媒體數(shù)據(jù)挖掘、社會計算等研究領(lǐng)域中的熱點研究目標。

        在微博平臺中,用戶可以發(fā)布或者評論一條消息,消息中可以包含標簽、位置等多類特征實體。同時,用戶通過關(guān)注構(gòu)建用戶關(guān)注關(guān)系,通過轉(zhuǎn)發(fā)促進消息快速傳播。微博用戶通過上述行為產(chǎn)生大量實體及復雜的交互關(guān)系,因此,微博數(shù)據(jù)是多實體關(guān)系數(shù)據(jù)[1]。通過對微博中實體間的交互關(guān)系進行挖掘,能夠深入理解微博中實體之間的潛在結(jié)構(gòu)。

        在挖掘多實體關(guān)系數(shù)據(jù)時,通常通過聚類算法挖掘不同實體之間的潛在結(jié)構(gòu)[2,3]。聚類算法主要包括多視圖聚類和聯(lián)合聚類等。多視圖聚類算法通常建模成星型結(jié)構(gòu)[4],而真實數(shù)據(jù)中的結(jié)構(gòu)可能比星型結(jié)構(gòu)要復雜很多。聯(lián)合聚類算法能夠同時針對2類實體進行聚類分析,并且能夠快速地擴展到多階實體關(guān)系中,因此成為目前多關(guān)系挖掘中的常用算法[1]。

        在處理多關(guān)系數(shù)據(jù)時,聯(lián)合聚類分析主要包括非負矩陣分解[4~7]、信息理論[8]及譜分析算法[2]。非負矩陣分解在聯(lián)合聚類算法取得了很好的效果[9],特別是在處理大規(guī)模數(shù)據(jù)時,其能夠快速地擴展到分布式處理平臺中。但是,數(shù)據(jù)本身的幾何結(jié)構(gòu)會影響非負矩陣分解結(jié)果的準確性[10,11],特別是稀疏性結(jié)構(gòu)對算法的影響較大。Hoyer針對非負矩陣分解的稀疏問題提出了稀疏約束,進而確保結(jié)果的稀疏性[12],但該方法并沒有引入到多關(guān)系數(shù)據(jù)挖掘分析中。

        聯(lián)合聚類算法雖然能夠有效地處理多類關(guān)系數(shù)據(jù),但是在處理真實的微博數(shù)據(jù)時仍存在以下問題:由于用戶隱私保護、微博平臺API限制等因素,抽取的實體及實體關(guān)系并不完備,因此構(gòu)建的實體間關(guān)系非常稀疏。另外,在針對某些實體進行關(guān)系挖掘時,僅僅考慮關(guān)系中2類實體間的交互關(guān)系,顯然遺漏了大量的信息。

        針對上述不足,本文提出了面向多實體稀疏關(guān)系數(shù)據(jù)的聯(lián)合聚類框架??蚣軓挠脩艉拖?類最重要的實體出發(fā),通過稀疏聯(lián)合聚類算法對用戶和消息同時挖掘分析。為了進一步降低矩陣的稀疏度,充分利用實體內(nèi)部的交互關(guān)系及與其他實體間的交互關(guān)系進一步提高算法的準確率,提出了基于距離學習的輔助信息嵌入方法將用戶和消息對應的同質(zhì)關(guān)系以及消息包含的特征向量融合到用戶和消息間的關(guān)系矩陣中,進一步提高了稀疏聯(lián)合聚類算法的準確率。

        2 問題定義

        微博中包含大量的實體,且同類實體間、不同類實體間存在大量的交互關(guān)系。抽取微博中的實體及交互關(guān)系如圖1所示。

        通過對微博中多實體交互關(guān)系的分析可知,用戶和消息是微博中最重要的2類實體。同時,消息中包含大量的特征實體、特征實體集合。用戶和消息之間的交互關(guān)系可以構(gòu)建關(guān)系矩陣,用戶之間的關(guān)注關(guān)系通過矩陣表示,消息之間的轉(zhuǎn)發(fā)關(guān)系通過矩陣表示,消息中包含多類特征實體采用特征向量表示。

        微博中用戶和消息間的關(guān)系挖掘轉(zhuǎn)換成基于用戶和消息間關(guān)系矩陣的聯(lián)合聚類分析。挖掘用戶和消息的潛在關(guān)系,為主題社區(qū)、微博位置推理等提供基礎。

        3 多實體稀疏關(guān)系聯(lián)合聚類框架

        針對微博中多實體的關(guān)系挖掘,本文提出了多實體稀疏關(guān)系聯(lián)合聚類框架,如圖2所示。在該框架中,主要包括3個核心步驟,分別是關(guān)系抽取及建模、輔助關(guān)系數(shù)據(jù)嵌入、稀疏約束下的關(guān)系矩陣三分解。

        針對微博數(shù)據(jù),抽取實體及實體關(guān)系。在此基礎上,構(gòu)建關(guān)系矩陣表示實體間的交互關(guān)系。由于微博中實體較多,文中以用戶和消息2類最重要的實體為基礎,可得到用戶和消息的關(guān)系矩陣,用戶、消息對應的內(nèi)部關(guān)系矩陣、,以及消息包含的特征屬性向量。由于微博中用戶間的交互很難抽取完整的交互關(guān)系,因此,用戶與消息間的關(guān)系矩陣并不考慮交互頻次,其計算公式如下

        為了進一步降低關(guān)系矩陣的稀疏度,充分利用用戶和消息2類實體對應的矩陣和以及消息對應的特征屬性向量。

        在真實的微博數(shù)據(jù)中,即使融合了用戶和消息對應的關(guān)系矩陣、及特征屬性,用戶和消息間的關(guān)系矩陣仍然非常稀疏,因此,采用基于稀疏矩陣三分解的聯(lián)合聚類同時得到用戶和消息的聚類關(guān)系,進一步挖掘出用戶和消息的潛在關(guān)系。

        4 多實體稀疏關(guān)系聯(lián)合聚類算法

        多實體稀疏關(guān)系聯(lián)合聚類算法首先通過距離度量學習嵌入輔助信息,進一步通過非負矩陣三分解實現(xiàn)稀疏關(guān)系矩陣分解。

        4.1 基于距離學習的輔助關(guān)系嵌入

        通過對微博數(shù)據(jù)中的關(guān)系進行分析可知,用戶和消息之間的異質(zhì)關(guān)系非常稀疏。為了提高聯(lián)合聚類算法的效果,在用戶和消息之間的關(guān)系矩陣基礎上,通過距離度量學習[13]將用戶間和消息對應的關(guān)系矩陣、嵌入到異質(zhì)關(guān)系矩陣中。

        在聚類的過程中基于距離度量學習的方法融合相似性和相異性約束關(guān)系矩陣是一種基本信息嵌入方法[13]。本文中同時考慮用戶和消息2類實體的同質(zhì)關(guān)系,將分別學習2個距離度量、。為了得到2個距離度量,首先給出基于用戶和消息的關(guān)系矩陣、對應的相似性和相異性約束關(guān)系矩陣。

        基于用戶共同關(guān)注用戶構(gòu)建的用戶相似性和相異性矩陣計算為

        (3)

        基于消息傳播路徑用戶和消息特征屬性構(gòu)建的消息相似性和相異性矩陣計算為

        (5)

        為了敘述方便,以用戶同質(zhì)性關(guān)系嵌入為例進行說明。對于異構(gòu)關(guān)系矩陣中任意給定的兩行,可以定義其馬氏距離

        文獻[13]直接學習距離度量,但是直接學習的方法很難處理孤立點,而實際的數(shù)據(jù)中經(jīng)常包含大量的孤立點。因此,本文將采用新的學習算法,提高距離度量的頑健性[14]。

        由于距離度量是正半定矩陣,因此可以對進行特征值分解,即滿足。馬氏距離度量可以改寫成

        (8)

        (10)

        與用戶同質(zhì)關(guān)系距離度量求解方法類似,消息同質(zhì)性關(guān)系距離度量對應的目標函數(shù)為

        關(guān)系矩陣可通過用戶和消息2個距離度量嵌入對應的同質(zhì)性關(guān)系,形成新的異質(zhì)關(guān)系矩陣。

        4.2 基于非負矩陣三分解的稀疏聯(lián)合聚類算法

        因此,對于新的行、列的關(guān)系矩陣,在稀疏約束下,非負矩陣三分解對應的目標函數(shù)為。

        (14)

        Kim等[16]將非負矩陣分解方法都歸納到塊坐標下降的框架下進行求解,并且具有較快的收斂速度。針對目標函數(shù),對列向量塊進行稀疏約束??梢钥闯墒莻€列向量,每一個列可以看成是一個塊,因此可以采用塊坐標下降的方法進行求解。

        (16)

        式(16)可以采用列的形式表示,因此可以通過如式(16)進行求解

        在上述分析的基礎上,下面將給出本文的處理算法。在非負矩陣三分解基礎上,融合輔助信息嵌入,實現(xiàn)多實體稀疏關(guān)系聯(lián)合聚類,整體算法如算法1所示。式(17)可以分解成算法1中步驟4)和步驟5)分別進行求解。每一次迭代,對每一列進行透射處理。稀疏約束下投射函數(shù)project()的求解方法很多。Thom等[17]提出了一種高效的稀疏確保的投射算法,本文將采用其算法進行求解。由于篇幅限制,本文將省略投射函數(shù)的介紹。在步驟14)中,采用乘法更新的方法迭代求解矩陣。在步驟15)中,采用最小二乘法求解矩陣。在多次迭代之后達到收斂時算法結(jié)束,輸出指示矩陣、。

        算法1 基于非負矩陣三分解多實體稀疏關(guān)系矩陣聯(lián)合聚類算法SNMTF

        輸入 關(guān)系矩陣、、及特征向量,稀疏度,聚類數(shù)目

        輸出 用戶、消息聚類指示矩陣、

        1) 初始化矩陣、、、、

        7) repeat //迭代求解、、

        8) for=1 todo //按列投射求解

        13) end for

        16) 收斂結(jié)束循環(huán)

        17) 輸出聚類指示矩、

        5 實驗及分析

        本文所有實驗都在Matlab下實現(xiàn),硬件平臺為Intel Core I5-3470、3.2 GHz、6 GB內(nèi)存,Linux和Matlab 2011a,可視化工具為NodeXL。

        實驗中將分別對比算法ITCC[8]、SSNMF[18]、FNMTF[7]和本文算法SNMTF。每一組實驗分別運行10次,實驗結(jié)果中給出平均值。

        5.1 評估指標

        聯(lián)合聚類算法的度量指標較多,本文將采用常見的Purity[19]、NMI[20]、ARI[21]這3個指標作為度量標準。對于給定的異構(gòu)數(shù)據(jù)集,實體規(guī)模為,算法得到的聚類結(jié)果為,給定的聚類標簽為,則3個評估指標分別定義為

        (19)

        (20)

        5.2 人工數(shù)據(jù)集實驗

        本文首先在聯(lián)合聚類算法的標準測試數(shù)據(jù)集[22]上對算法進行全面評估。該數(shù)據(jù)集給出了2類實體的聚類標簽,不僅能夠針對算法的準確率等指標值進行對比分析,還能對算法在不同聚類難度等級的數(shù)據(jù)集下進行對比分析。

        數(shù)據(jù)集中共有36組數(shù)據(jù),通過貝葉斯錯誤率作為數(shù)據(jù)集的難度控制參數(shù),包括5%、12%、20%這3個難度等級,其中,5%是最容易聚類的數(shù)據(jù)集,20%是最難聚類的數(shù)據(jù)集。每一個難度等級分別對應50、100、200、500這4種規(guī)模(行和列的規(guī)模相同),可針對節(jié)點規(guī)模進行聚類算法對比分析。每一類節(jié)點規(guī)模的數(shù)據(jù)集分別對應3、5、10這3種聚類數(shù)目,可針對不同的聚類數(shù)進行對比分析。

        在同一規(guī)模的數(shù)據(jù)集下評估算法受不同聚類數(shù)目的影響情況,對比結(jié)果如圖3所示。所有的算法都隨著值的增加,準確率都有所下降,但其他2個指標影響較小。

        圖4為在不同數(shù)據(jù)規(guī)模下的對比結(jié)果。隨著規(guī)模的增加,算法的準確率等指標都隨之下降。由于該數(shù)據(jù)集中的測試數(shù)據(jù)并沒有特別稀疏的情況,因此無法發(fā)揮算法SNMTF的優(yōu)勢,其聚類結(jié)果接近于FNMTF算法。

        針對標準測試數(shù)據(jù)集中不同聚類難度等級的數(shù)據(jù)集進行算法的頑健性對比實驗,結(jié)果如圖5所示。本文算法在處理不同聚類難度等級的數(shù)據(jù)集時的頑健性都優(yōu)于其他3種算法。

        5.3 真實數(shù)據(jù)集實驗

        為了驗證SNMTF算法在真實數(shù)據(jù)集上的效果,通過微博API收集了Weibo數(shù)據(jù)集。該數(shù)據(jù)集收集了2012年“闖紅燈”、“豐田汽車回收”、“美國總統(tǒng)大選”、“莫言獲得諾貝爾獎”、“我是特種兵”、“杭州煙花大會”、“中國好聲音”7個話題的新浪微博消息。通過API進一步收集消息發(fā)布用戶的屬性信息。通過預處理得到5 403個用戶的8 023條微博、374個標簽、984條位置信息及14 500個描述詞。根據(jù)上述實體對應的關(guān)系數(shù)據(jù)構(gòu)建對應的關(guān)系矩陣。

        5.3.1 對比實驗及分析

        為了驗證算法在真實微博數(shù)據(jù)集中的聚類結(jié)果,本文以微博消息為觀察對象。4個算法的實驗結(jié)果如表1所示。由結(jié)果可知,本文算法SNMTF比其他3種算法的效果都要好。這主要得益于本文采用的是稀疏關(guān)系矩陣分解實現(xiàn)聯(lián)合聚類,確保了聚類結(jié)果的稀疏結(jié)構(gòu)。算法中通過距離度量學習嵌入了特征屬性等輔助信息,進一步提高了算法的準確率。

        表1 算法在微博數(shù)據(jù)集中的對比結(jié)果(K=7)

        4個算法在微博數(shù)據(jù)集上的運行時間對比結(jié)果如圖6所示。由圖中結(jié)果可知,本文算法SNMTF只比目前最快的FNMTF算法的運行時間稍微多一點,這主要是由于在算法SNMTF中加入了輔助信息嵌入過程。算法SSNMF采用乘法更新的迭代求解方法實現(xiàn)非負矩陣分解,因此其運行時間最長。

        本文提出的算法SNMTF需要用戶提供稀疏約束參數(shù)。為了評估稀疏參數(shù)對實驗結(jié)果的影響,本文通過改變稀疏約束參數(shù),得到算法在不同指標下的結(jié)果如圖7所示。由圖7中結(jié)果可知,在0.08到0.2之間算法對稀疏參數(shù)的影響較小,因此,在對比實驗及后續(xù)的實驗中設置稀疏約束參數(shù)為0.1。

        5.3.2 實例分析

        為了分析算法的真實應用價值,本文針對微博數(shù)據(jù)集中的“中國好聲音,梁博冠軍”的話題進行詳細分析。在該話題形成過程中,用戶發(fā)布大量的微博消息。通過本文算法對微博數(shù)據(jù)集進行聚類分析得到的可視化結(jié)果,圖8中給出了Top 10用戶、Top 5位置、Top 5描述詞。

        通過圖中的Top用戶可以分析該話題形成過程中影響力較大的用戶,并且可以分析話題主題詞及對應的位置屬性信息,為微博數(shù)據(jù)挖掘分析提供了基礎。

        5.3.3 位置預測應用

        為了說明本文算法在微博用戶發(fā)布消息時的位置預測應用中的效果,在實驗中選擇了500條帶有位置的消息作為測試數(shù)據(jù)集。由于位置標記不是很規(guī)范,因此,以行政市作為位置標簽。將測試數(shù)據(jù)集的消息按照50%、60%、70%、80%、90%的比例融合到原始數(shù)據(jù)集中。

        微博用戶預測中最常應用的有2種方法:一種是基于用戶屬性的位置預測,記為Profile-based方法[23];一種是基于用戶好友關(guān)系的位置預測,記為Group-based的方法[24]。本文選擇這2種方法作為對比方法,實驗結(jié)果如圖9所示。

        通過圖9的結(jié)果分析可知,本文提出的基于輔助信息嵌入的聯(lián)合聚類算法的效果最佳,并且隨著訓練數(shù)據(jù)規(guī)模的增加,準確率也越高。這主要得益于本文算法確保了聚類結(jié)果的稀疏結(jié)構(gòu),并且嵌入了其他輔助信息。Profile-based方法的準確率最低,這是由于微博用戶中大量的消息并沒有給出位置信息,并且用戶在現(xiàn)實世界中是動態(tài)調(diào)整的,因此,用戶屬性可能成為歷史屬性。Group-based方法的用戶位置預測準確率較高,但是并沒有將用戶關(guān)系區(qū)別對待,降低了預測的準確率。

        6 結(jié)束語

        本文針對微博數(shù)據(jù)中的多實體稀疏關(guān)系數(shù)據(jù)提出了一種多實體稀疏關(guān)系聯(lián)合聚類算法SNMTF。算法在塊坐標下降框架下,采用稀疏約束的塊向量投射算法實現(xiàn)快速的非負矩陣三分解。為了進一步降低關(guān)系矩陣的稀疏度,采用了基于距離學習的輔助關(guān)系數(shù)據(jù)嵌入,進一步提高了算法的準確率。實驗結(jié)果表明本文提出的算法在標準測試數(shù)據(jù)集和真實微博數(shù)據(jù)集中的效果都優(yōu)于現(xiàn)有的算法。

        本文只考慮了消息特征屬性的嵌入,下一步將同時考慮用戶和消息的屬性信息,進一步提高算法的聚類準確率。另外,將本文算法擴展到分布式平臺中處理大規(guī)模數(shù)目。

        [1] GAO D, ZHANG R, LI W, et al. Twitter hyperlink recommendation with user-tweet-hyperlink three-way clustering[C]//The 21st ACM International Conference on Information and Knowledge Management. ACM, c2012: 2535-2538.

        [2] LONG B, ZHANG Z, W X, et al. Spectral clustering for multi-type relational data[C]//The 23rd International Conference on Machine Learning. Pittsburgh, Pennsylvania, ACM, c2006: 585-592.

        [3] WANG H, HUANG H, DING C. Simultaneous clustering of multi-type relational data via symmetric nonnegative matrix tri-factorization[C]//The 20th ACM international Conference on Information and Knowledge Management. Glasgow. Scotland, UK, ACM, c2011: 279-284.

        [4] LIU J, WANG C, GAO J, et al. Multi-view custering via joint nonnegative matrix factorization[C]//2013 SIAM International Conference on Data Mining. SIAM. c2013.

        [5] WANG H, HUANG H, DING C. Simultaneous clustering of multi-type relational data via symmetric nonnegative matrix tri-factorization[C]// The 20th ACM International Conference on Information and Knowledge Management. ACM, C2011: 279-284.

        [6] LIU Y, SHEN C. Orthogonal nonnegative matrix factorization for multi-type relational clustering[J]. International Journal of Computer and Information Technolog, 2013, 2(2): 215-221.

        [7] WANG H, NIE F, HUANG H, et al. Fast nonnegative matrix tri- factorization for large-scale data co-clustering[C]//The 22nd International joint Conference on Artificial Intelligence, China, c2011: 1553-1558.

        [8] DHILLON I S, MALLELA S, MODHA D S. Information theoretic co-clustering[C]//The 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, c2003: 89-98.

        [9] LI T, DING C. The relationships among various nonnegative matrix factorization methods for clustering[C]//The 6th International Conference on Data Mining. Hong Kong, China, c2006: 362-371.

        [10] GU Q, ZHOU J. Co-clustering on manifolds[C]//The 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, c2009: 359-368.

        [11] LI P, BU J, CHEN C, et al. Relational co-clustering via manifold ensemble learning[C]//The 21st ACM International Conference on Information and Knowledge Management. ACM, c2012: 1687-1691.

        [12] HOYER P O. Non-negative matrix factorization with sparseness constraints[J]. The Journal of Machine Learning Research, 2004, (5): 1457-1469.

        [13] XING E P, JORDAN M I, RUSSELL S, et alDistance metric learning with application to clustering with side-information[C]//Advances in Neural Information Processing Systems. c2002: 505-512.

        [14] WANG H, NIE F, HUANG H. Robust distance metric learning via simultaneous l1-norm minimization and maximization[C]//The 31st International Conference on Machine Learning. c2014: 1836-1844.

        [15] HSIEH C-J, DHILLON I S. Fast coordinate descent methods with variable selection for non-negative matrix factorization[C]//The 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, c2011: 1064-1072.

        [16] KIM J, HE Y, PARK H. Algorithms for nonnegative matrix and tensor factorizations: a unified view based on block coordinate descent framework[J]. Journal of Global Optimization, 2013, 58(2): 285-319.

        [17] THOM M, PALM G. Efficient sparseness-enforcing projections[J]. arXiv preprint arXiv:13035259, 2013.

        [18] CHEN Y H, WANG L J, DONG M. Non-negative matrix factorization for semisupervised heterogeneous data coclustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1459-1474.

        [19] ZHAO Y, KARYPIS G. Criterion Functions for Document Clustering: Experiments and analysis[R]. City, 2001.

        [20] STREHL A, GHOSH J. Cluster ensembles-a knowledge reuse framework for combining multiple partitions[J]. The Journal of Machine Learning Research, 2003, 3: 583-617.

        [21] HUBERT L, ARABIE P. Comparing partitions[J]. Journal of Classification, 1985, 2(1): 193-218.

        [22] LOMET A, GOVAERT G, GRANDVALET Y. Design of Artificial Data Tables for Co-clustering Analysis[R]. City, 2012.

        [23] MCGEE J, CAVERLEE J, CHENG Z. Location prediction in social media based on tie strength[C]//The 22nd ACM international Conference on Information and Knowledge Management. San Francisco, California, USA, ACM. c2013: 459-468.

        [24] LI R, WANG S, DENG H, et alTowards social user profiling: unified and discriminative influence model for inferring home locations[C]//The 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Beijing, China, ACM, c2012: 1023-1031.

        Co-clustering of multi-entities sparse relational data in microblogging

        YU Miao, YANG Wu, WANG Wei, SHEN Guo-wei

        (Information Security Research Center, Harbin Engineering University, Harbin 150001, China)

        For large-scale sparse relation data of multi-entity in microblogging, an efficient co-clustering algorithm was proposed which processed sparse relation data of multi-entity. In order to take full advantage of multi-relational data when using this algorithm, a robust constraint information embedding algorithm was proposed to construct relation matrix, and the performance of relation mining was improved by reducing matrix sparsity. In the sparse constraint block coordinate descent framework, relation matrix concurrently obtained cluster indication matrix of different entities by non-negative matrix tri-factorization. In non-negative matrix factorization, to ensure sparse structure of clustering result, a quick solution was achieved through efficient projection algorithm. Experiments on synthetic and real data sets show that proposed algorithm goes beyond all the baselines on three indicators. The improvement is more significant especially when processing extremely sparse data.

        microblogging, multi-entity sparse relation, co-clustering, non-negative matrix factorization, auxiliary information embedding

        TP393

        A

        10.11959/j.issn.1000-436x.2016019

        2015-04-05;

        2015-10-20

        楊武,yangwu@hrbeu.edu.cn

        國家高技術(shù)研究發(fā)展計劃(“863”計劃)基金資助項目(No.2012AA012802);國家自然科學基金資助項目(No.61170242)

        The National High Technology Research and Development Program of China (863 Program) (No.2012AA012802), The National Natural Science Foundation of China (No.61170242)

        于淼(1987-),男,黑龍江牡丹江人,哈爾濱工程大學博士生,主要研究方向為數(shù)據(jù)挖掘、社會計算。

        楊武(1974-),男,遼寧寬甸人,博士,哈爾濱工程大學教授、博士生導師,主要研究方向為信息安全、數(shù)據(jù)挖掘、互聯(lián)網(wǎng)安全。

        王?。?974-),男,黑龍江哈爾濱人,博士,哈爾濱工程大學副教授,主要研究方向為數(shù)據(jù)挖掘、網(wǎng)絡安全。

        申國偉(1986-),男,湖南邵陽人,哈爾濱工程大學博士生,主要研究方向為數(shù)據(jù)挖掘、信息安全。

        猜你喜歡
        用戶
        雅閣國內(nèi)用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應用
        Camera360:拍出5億用戶
        100萬用戶
        无码va在线观看| 国内精品国产三级国产avx| 亚洲国产精品日韩av专区| 国产av在线观看久久| 任你躁国产自任一区二区三区 | 内射口爆少妇麻豆| 欧美日本国产va高清cabal| 久久精品国产精品亚洲婷婷| 女同亚洲一区二区三区精品久久 | 成人一区二区三区蜜桃| 日本国产亚洲一区二区| 老少配老妇老熟女中文普通话| 国产高级黄区18勿进一区二区| 精品粉嫩国产一区二区三区| 麻豆视频在线播放观看| 人妻聚色窝窝人体www一区| 欧美三级免费网站| 99精品又硬又爽又粗少妇毛片 | 亚洲日本精品一区二区三区| 国产在线无码一区二区三区视频| 18分钟处破好疼哭视频在线观看 | 欧美精品日韩一区二区三区| 日本免费看一区二区三区| 又湿又紧又大又爽a视频国产| 少妇spa推油被扣高潮| 杨幂Av一区二区三区| 日本久久精品视频免费| 三年片免费观看大全有| 亚洲夜夜骑| av在线网站一区二区| 男人国产av天堂www麻豆| 亚洲美女又黄又爽在线观看| 最新在线观看精品国产福利片| 国产一区二区黑丝美胸| 亚洲乱亚洲乱妇| 欧洲综合色| av网站一区二区三区| 国产午夜av秒播在线观看| 久久精品中文字幕一区| 中文字幕精品亚洲无线码二区| 亚洲一二三四区免费视频|