肖永磊,劉盛華,劉 悅,程學旗,趙文靜,任 彥,王宇平
(1. 中國科學院 計算技術研究所,北京 100190;2. 中國科學院大學,北京 100190;3. 西安電子科技大學計算機學院,陜西 西安 710126;4. 國家計算機網(wǎng)絡應急技術處理協(xié)調(diào)中心,北京 100029)
隨著Web2.0的發(fā)展,微博、論壇、照片分享網(wǎng)站Flicker等社會化媒體已深入人們的日常生活,其中衍生出來的標簽推薦、新聞推薦、問答、評論等應用產(chǎn)生了大量的網(wǎng)絡短文本。社會化媒體上的短文本按其時間屬性組織形成的消息流,包含著網(wǎng)民們的許多思想觀念與傾向,對其進行深入的挖掘有重大的應用價值和學術意義。然而,文本消息的不完整性、海量性和動態(tài)性導致文本消息流的話題發(fā)現(xiàn)、傾向性分析和熱點信息挖掘等數(shù)據(jù)挖掘任務變得十分困難。本文提出了一種新的短文本語義概念擴展方法,可以去除短文本的噪聲和增加短文本的內(nèi)容特征,可以作為其他數(shù)據(jù)挖掘方法的補充。由于社會化媒體短文本的多樣性,本文選擇了應用較多的微博作為實驗數(shù)據(jù)來源,來說明論文提出的方法。
微博作為新的信息交流平臺,得到快速的發(fā)展,并逐漸成為用戶群最龐大、最活躍的網(wǎng)絡媒體之一。Twitter最近幾年用戶數(shù)量突飛猛進,已經(jīng)成為最大的在線微博平臺,擁有超過6 500萬的用戶,每天超過2億條的微博。據(jù)報告[1]顯示,2011年在中國已經(jīng)有14%的互聯(lián)網(wǎng)用戶開始使用微博,并呈逐年上升的趨勢。微博傳播迅速,極大地方便了人們交流,同時也帶來信息過載問題。由于人們時間和能力有限,往往不能及時有效地獲取自己感興趣的信息。微博產(chǎn)生的海量信息已經(jīng)成為多種應用的重要信息源,比如新聞話題發(fā)現(xiàn)和追蹤[2],廣告投放,個性化內(nèi)容推薦等。Takeshi[3]等首先利用用戶tweets的關鍵詞信息,tweets長度,上下文等特征構建一個分類器,將Twitter用戶看成一個傳感器,采用了卡曼濾波算法和粒子濾波算法預測地震事件發(fā)生的地點。
不同于傳統(tǒng)的長文本,以微博為代表的社會媒體短文本具有以下特征:
1) 用語大多隨意,具有不規(guī)范性[4];
2) 長度有限,使其具有天然的極稀疏性,很難提取出有效的內(nèi)容特征[5]。
以上特征對微博信息的挖掘帶來了很大的挑戰(zhàn)。針對微博內(nèi)容的極稀疏性,將其鏈接到其他的知識庫來擴展內(nèi)容特征的研究,最近受到了越來越多的關注。Abel[6]等利用新聞信息來增加tweets的上下文,然后利用這些上下文信息來定義用戶的屬性。另外將Wikipedia作為輔助知識庫也成為一個主要的研究方向。Wikipedia作為一個互聯(lián)網(wǎng)開放式的在線百科全書,具有較廣的覆蓋面和較高的準確度。由于其包含大量的語料,具有內(nèi)容組織結構化,不需要人工搭建等特點,比較適用于網(wǎng)絡數(shù)據(jù)挖掘,可以用于自然語言處理中詞義消歧、文本分類和索引、構建和維護語義資源等領域。目前基于Wikipedia的研究工作包含了關鍵詞語義擴展[5],命名實體識別,詞義消歧[7]等方面。研究工作[5,8-9]通過利用Wikipedia的結構化信息來擴展微博或者短文本的內(nèi)容,并結合機器學習的方法訓練模型,取得了比較好的效果。文獻[8]設計了一種在線的可以將短文本鏈接到語義相關的Wikipedia頁面的系統(tǒng),它采用了一種快速、有效的基于上下文的投票機制來進行語義消歧,在短文本和長文本上都獲得了比較高的準確率,但是文獻[8]不能獲得語義相近的更多概念集合,因為它的鏈接過程是基于字符匹配的,不能找到那些不匹配但語義相近的概念。文獻[9]用圖模型描述了Wikipedia中的概念之間關系,采用了隨機游走算法來找到語義相關的概念集合,雖然可以找到那些沒有共現(xiàn)的語義相似度很高的概念,但圖節(jié)點數(shù)量巨大,計算效率成為一個瓶頸。與文獻[8-9]相比,本文提出的方法不僅可以找出語義相關的概念,而且計算效率也得到比較大的提升。與文獻[10]中基于目錄信息和文獻[11]中基于概念共現(xiàn)的方法來計算概念之間的相似度相比,本文提出的語義概念擴展方法在性能和準確率上都有較大的提升。
Wikipedia包含了大量的概念并以概念為標題的網(wǎng)絡文章,它的文章正文所包含的相關概念也以錨文本的方式顯式給出,本文中提到的概念和錨文本含有相同的意義。本文提出了一種新的方法利用Wikipedia作為輔助知識庫為微博做語義概念擴展,從而達到擴展社會媒體短文本的內(nèi)容語義特征的效果。本文選擇了有代表性的社會媒體——微博來描述提出的語義概念擴展方法。首先,生成微博所有可能的n-gram,提取n-gram的可鏈接性、詞頻、逆文檔頻率等特征,利用LR(logistic regression)進行剪枝,去掉不需要增加概念語義的n-gram。其次,采用了基于上下文相關的互信息方法將n-gram與Wikipedia中的概念對應起來。最后,利用Wikipedia的概念與文檔之間的結構化信息,構建了基于概念—文檔矩陣的非負矩陣分解(NMF)模型,有效獲取概念之間的語義相似度關系,為已關聯(lián)的概念增加更多語義相似的概念。論文的結構如下,第2節(jié)為相關工作,第3節(jié)是介紹了微博語義概念擴展的詳細方法,第4節(jié)為實驗和分析,最后第5節(jié)對本文工作做了總結和展望。
相關工作主要分為針對Twitter內(nèi)容的研究和基于NMF的文本建模的研究。
許多針對微博的應用主要是找到用戶感興趣的話題,例如,電影、產(chǎn)品、人物等,并基于這些信息進行話題追蹤、市場營銷、個性化推薦等,工作[5,8,12-13]針對不同應用采用有監(jiān)督或者無監(jiān)督的機器學習方法對大量微博進行數(shù)據(jù)挖掘。Liu[10]等集中在tweet中的命名實體識別領域,他們采用了一種基于KNN的監(jiān)督學習的框架來鑒別4種不同的實體類型。Abel[6]等先對tweet增加上下文信息,然后利用增加的上下文信息為用戶定義屬性,首先利用新聞內(nèi)容為tweet增加語義信息,其次利用增加的語義信息來對用戶屬性建模。Mendes[14]等利用微博中的鏈接數(shù)據(jù)來對tweet進行標注,他們直接利用tweet里面的hashtag標簽或者在DBpedia中利用字符串匹配查找在tweet中出現(xiàn)的實體。Edgar[15]等提出了一種自動將tweet與Wikipedia中文章對應起來的方法。他們首先提出了一種基于召回率的方法獲取與微博相關的概念集合,然后使用了多種方法對概念進行重新排序,并使用機器學習的方法來提升結果。雖然Edgar的方法能達到較高的正確率和召回率,但是計算效率不高,并且得到的概念是基于共現(xiàn)的,并不能獲取潛在語義空間上相似的概念集合。為了獲得潛在語義空間上相似的概念集合,本文提出基于NMF的方法用于計算Wikipedia中概念之間的語義相關性。
NMF(非負矩陣分解)[16-17]提出了一種新的矩陣描述的方法,對非負矩陣X,尋找一個逼近的分解X≈WH,其中W和H都是非負矩陣,非負性約束使得矩陣的表述與其它線性描述方法如ICA[18]相比更具直觀性,更符合常理。Shahmaz[19]等提出了一種基于NMF的方法,可以自動識別非結構化文檔的語義特征并進行聚類和話題發(fā)現(xiàn),與傳統(tǒng)的潛在語義發(fā)現(xiàn)方法相比,取得了比較好的效果。Ankan[20]等提出了一種動態(tài)的NMF方法,通過比較分解得到的矩陣的變化能快速地識別新出現(xiàn)的話題,并能跟蹤到話題隨著時間的變化情況。Patrik[21]等提出了基于稀疏性約束的NMF分解方法,通過對迭代產(chǎn)生的矩陣加以稀疏性約束來提升矩陣分解的效果,實驗表明,該方法具有比較快的收斂性和比較高的準確率。本次實驗主要是采用NMF計算Wikipedia中概念的語義相似性,類似普通的詞—文檔矩陣分解可以得到詞—詞的語義相似度矩陣,通過對Wikipedia中概念—文檔矩陣分解可以得到概念—概念的語義相似度矩陣,這是本文與其它鏈接到Wikipedia的研究工作中最主要的不同。
本文將Wikipedia作為知識庫,為微博信息擴展相關的語義概念。語義概念的擴展主要分為以下階段。首先,提取出微博信息的所有n-gram,并對微博的n-gram進行可鏈接性剪枝。在剪枝階段,提取所有n-gram的可鏈接性、詞頻、逆文檔頻率等特征,并利用LR(logistic regression)模型進行剪枝,去掉不需要關聯(lián)語義概念的n-gram。其次,在n-gram和Wikipedia概念關聯(lián)和消歧階段,采用了基于上下文相關的互信息方法將剪枝后的n-gram與Wikipedia中的概念對應起來。最后,在語義概念擴展階段,利用Wikipedia的概念與文檔之間的結構化信息,構建了基于概念—文檔矩陣的非負矩陣分解模型,有效獲取概念之間的語義相似度,為已關聯(lián)的概念增加更多語義相似的概念。本文用到的符號在表1中給出了具體含義的描述。
表1 本文用到的符號描述
續(xù)表
符號屬性描述LINK(t)表示t在Wikipedia中的錨文本中出現(xiàn)的次數(shù)OCR(t)表示t在Wikipedia中總的出現(xiàn)次數(shù)LOC(t)與t相匹配的Wikipedia中錨文本集合SEM(c)與c語義相關的所有錨文本集合H(x)為x的在Wikipedia的邊際熵,x為任意的n-gram或者錨文本H(x,y)為x,y的聯(lián)合熵
對于微博信息M,為了找出其中可以進行語義概念擴展的n-gram,首先提取出微博所有的n-gram集合(1≤n≤|M|)。根據(jù)文獻[9]的研究表明,當n取4時,精度不會明顯下降并且計算效率也能提升很多,因此本文的n取的最大值是4。對于微博M,設M產(chǎn)生的所有可能的n-gram組成集合GS(M) ,我們首先進行剪枝處理,因為并不是所有的n-gram都需要增加語義,對這些n-gram增加語義不僅不能幫助我們理解微博語義,反而可能會增加歧義。例如,
ObamaandKoehlerwillvisitchinatomorrow!
其中,Obama是美國總統(tǒng),Koehler是德國總統(tǒng),它們可以鏈接到Wikipedia進行語義概念擴展,and在Wikipedia中可以作為加法器出現(xiàn),如果也鏈接到Wikipedia就增加了歧義,所以要進行n-gram的剪枝。與文獻[8]中工作不同的是我們將剪枝過程提前,這樣可以減少鏈接的n-gram數(shù)目,提高語義概念擴展階段的計算效率。在這里我們提出了一種基于LR的機器學習方法來判斷這些n-gram的可鏈接性,并找出比較重要的特征。
首先對于每一個n-gram,我們通過以下方式計算它在Wikipedia中出現(xiàn)在錨文本中的概率,如式(1)所示。
其中當t含有多個詞時,對任意的ti∈t,OCR(t) = ∑OCR(ti-LINK(t)。
其次,對于每一個n-gram,計算它在Wikipedia中的逆文檔頻率IDF(t),如式(2)所示。
(2)
最后結合LR方法,確定了預測函數(shù)(3),其中OCR(t)與|C|的比值表示t出現(xiàn)的概率,如式(3)所示。
(3)
即對于給定的t,函數(shù)F(t) >ρ的時候我們就認為t可以進行鏈接處理,反之就對t進行剪枝,ρ為指定的閾值。
對于經(jīng)過剪枝后需要進行語義概念擴展的t,需要將t鏈接到Wikipedia中對應的錨文本,這時候會產(chǎn)生很多帶有歧義的錨文本。因為對于給定的t,可能在不同的上下文中存在不同的錨文本與之對應。比如Michal Jordan 可以與Wikipedia中超過20種錨文本相對應。如何從這些錨文本集合中選出與t最相關的錨文本即為語義消歧過程。這里我們采用了一種簡單有效的基于上下文互信息的方法來決定t來鏈接到哪個錨文本。利用式(4)計算t和錨文本c之間的互信息MI(t,c)。
MI(t,c=H(t+H(c-H(t,c
(4)
對任意的ci∈LOC(t,選出與t上下文CT(t)相關性最大的錨文本ci滿足式(5):
(5)
語義概念的擴展主要是為了增加更多語義相關的概念集合,主要涉及概念之間的語義相似度計算和語義概念擴展。當獲得了每一個t在Wikipedia中對應的錨文本c之后,很多的研究工作[7-8]把該錨文本的鏈接或者頁面內(nèi)容作為擴展的概念語義或者背景知識,這些方法通常是基于字符匹配或者共現(xiàn)的,不能找到與錨文本語義相關的更多錨文本信息,從而擴展的語義概念就很有限,為了擴展更多的語義相關的概念,需要采取一種有效的方法來找到與c語義相近的更多概念。比如Barack Obama,與其語義相近的錨文本有President of the United States 和U.S.Senator 等。Wikipedia中的頁面包含很多個錨文本,目前專門針對錨文本進行語義挖掘的研究并不多,文獻[9]采取了一種基于圖模型的隨機游走算法來查找語義相關的錨文本,但由于節(jié)點數(shù)據(jù)巨大計算效率比較低。我們提出了利用NMF的方法來計算錨文本之間的語義相似度的方法,在此基礎上為錨文本增加更多的語義信息。
3.3.1 語義概念相似度
如何計算概念之間的語義相似度,已經(jīng)成為采用Wikipedia進行數(shù)據(jù)挖掘工作中比較重要的一部分,不同于文獻[7,11]的計算方法和文獻[9]中的基于圖的隨機游走算法,我們采用NMF方法來計算概念之間的語義相關性。本文將文獻[7,11]中實現(xiàn)的方法作為基準與我們提出的方法進行對比。
基于NMF的語義概念建模。假設初始待分解矩陣X為m×n的概念—文檔矩陣,m為概念集合的數(shù)目,n為文檔集合的數(shù)目,則可以利用NMF算法分解得到兩個非負矩陣W和H,其中W是m×r的概念—主題矩陣,H是r×n的主題—文檔矩陣,這里r為分解矩陣W的列數(shù)和H的行數(shù),表示文檔集合中主題的數(shù)目。由相關工作中的研究可以知道,矩陣分解的方法不同,適用的領域也不同。本文實現(xiàn)的NMF方法是文獻[21]提出的基于L1,L2稀疏性約束的NMF方法,該方法實驗證明了對分解過程中矩陣W和H的稀疏性進行顯示的L1,L2約束可以加快收斂速度,提高算法的效率和結果的準確度。在矩陣分解的迭代過程中,尋找非負的矩陣W和H,使得以下目標函數(shù)最小,如式(6)所示。
E(W,H=||X-WH||2
(6)
矩陣分解主要分為兩個階段。一是投影過程,即對分解迭代過程中產(chǎn)生的矩陣加以稀疏性約束,在L1約束和L2約束不變的條件下,找到矩陣每一行或者每一列的最優(yōu)投影向量;二是分解過程,在每次迭代過程中,按照非負約束和稀疏性約束,利用第一階段得到的最優(yōu)解進行分解迭代直到滿足停止條件。算法描述如下。
投影部分算法
說明:對任意的向量x,在給定的L1約束和L2約束下尋找離x最近(歐氏距離)的非負向量s,對每一個元素分別計算,直到所有元素都非負則停止。m和s都是與x維度相同的向量
For (i=0;i 1. si:=xi+(L1-∑xi)/dim(x 2. Z:={} //Z為向量s中元素為負值的下標集合 3. while true: else mi= 0 (b) s:=m+α(s-m) //α為設定的正值 (c) if all of s are non-negative, return s //如果s的元素都為正,則返回s (d) Z:=Z∪{i;si<0} //如果si為負,則將下標i添加到集合Z (e) si=0,?i∈Z //將s中所有為負數(shù)的值設為0 (f) c:=(∑si-L1)/(dim(x)-size(Z)) (g) si:=si-c,?i?Z (h) go (a) 矩陣分解的算法 說明:基于L1和L2稀疏性約束的NMF分解 1. init W and H to random positive matrics //將W和H初始化為非負的隨機矩陣 2. If sparseness constraints on W apply, then project each column of W to be non-negative, have unchanged L2 norm, but L1 norm set to achieve desired sparseness //如果對W加稀疏性約束,將W的每一列在L1,L2約束下進行非負的投影 3. If sparseness constraints on H apply, then project each row of H to be non-negative, have unitL2 norm, andL1 norm set to achieve desired sparseness //如果對H加稀疏性約束,將H的每一行在L1,L2約束下進行非負的投影 4. while(tot (a) If sparseness constraints onW apply : //如果W加了約束 (1) set W:=W-μW(WH-X)HT (2) Project each column of W to be non-negative, have unchanged L2 norm, but L1 norm set to achieve desired sparseness //計算W的投影 Else W:=W?(XHT)(WHHT) //如果W沒有加約束 (b) If sparseness constraints on H apply: //如果H加了約束 (1) set H:=H-μH(WH-X)WT (2) Project each column of H to be non-negative, have unchanged L2 norm, but L1 norm set to achieve desired sparseness //計算H的投影 Else H:=H?(WTX)(WHWT) //如果H沒有加約束 (c) it++; tot = ||X-WH||2 3.3.2 基于語義相似度的概念擴展 在求得錨文本跟錨文本之間的相似度之后,并不能簡單的基于語義相似度選取最大的K個,因為沒有考慮上下文信息,即使有些相似度很高的錨文本也不能用來增加語義,否則只會對微博的理解產(chǎn)生更多的歧義。作為比較,在實驗過程中我們分別實現(xiàn)了基于上下文和不基于上下文的語義概念擴展方法。在基于上下文的方法中,我們提出了一種結合逆文檔頻率和互信息的方法來計算錨文本跟上下文的語義相關性。假設t對應的錨文本為m,對任意的mi∈SEM(m,上下文語義一致性SM(mi,t) 通過式(7)計算。 對于給定的K值,使得以下目標函數(shù)最大即為跟上下文最相關的K個錨文本集合。 本次試驗采用的1 000條tweet數(shù)據(jù)是基于TREC 2011數(shù)據(jù)集,從其中選取了300條tweet,對其產(chǎn)生的2 691個n-gram進行了人工標注,用來訓練和測試可鏈接剪枝中的LR模型,其余的700條用來做語義擴展。Wikipedia采用的是2011年的數(shù)據(jù)集,大概有1 200萬的網(wǎng)頁,380萬錨文本數(shù)據(jù),為了驗證本文提出方法的有效性,我們在對Wikipedia語料構建索引之后,按照與American和Obama相關的話題選擇了其中的2 078篇頁面作為此次實驗的語料,共含有117 227個錨文本。 在過濾掉語料中的非錨文本詞之后,初始化得到概念—文檔矩陣X,經(jīng)過NMF矩陣分解后得到的矩陣W為概念—主題矩陣,H為文檔—主題矩陣,得到的概念—概念相似度矩陣為W×WT,然后基于這個相似度矩陣進行上下文無關和上下文相關的語義概念擴展。作為比較,實驗實現(xiàn)了文獻[7,11]的計算概念之間相關度的方法。 (1) Silvim[7]的基于目錄信息的計算方法 c為Wikipedia中的錨文本,g(c)是Wikipedia中這個錨文本所屬于的目錄集合的向量表示。作者采用了以式(9)來計算錨文本之間的相似度。 (9) (2) Milne和Witten[11]的基于共現(xiàn)信息的計算方法 c為Wikipedia中的錨文本,g(c)為包含c的Wikipedia的頁面集合,A為所有的Wikipedia頁面集合。 (10) 剪枝階段利用LR模型的實驗的結果如表2所示。 表2 LR的結果 假設tp表示模型將樣本中標注為1的預測為1;fp表示將-1預測成1;fn表示將-1預測成0;tn表示將1預測成0,基于測試集合得到的結果數(shù)據(jù)計算方式如下。 最終發(fā)現(xiàn)在所有訓練集合中,可以進行鏈接的t總數(shù)為872個,平均每一條微博有2.91個n-gram可以進行鏈接。在選擇進行預測的三個特征中,比較重要的特征是n-gram的P(t)和IDF(t)。 利用NMF方法得到的初步結果如表3所示,例子中給出了2個概念的語義相關度最大的前5個概念。 表3 NMF分解得到的前5個最相關的概念向量 本次實驗中設置文檔主題數(shù)r = 50,迭代停止誤差為tot=0.000 001,迭代次數(shù)為8 000,針對不同計算方法得到的結果集合上,作為比較我們選取了不同的結果集合范圍。不基于上下文的語義概念擴展方法與其它兩種方法得到的準確率如圖1所示。 圖1 給定主題數(shù)r在不同范圍k的結果正確率(不基于上下文) 從圖上看出在不同的范圍K基于NMF的方法在準確率上均比其他兩種方法有比較大的提升,從曲線的趨勢可以看出,基于NMF的方法梯度下降較慢,具有比較好的擴展性。Silvim的方法由于直接采用了概念的目錄信息,而Wikipedia的目錄信息噪聲大,很多目錄的區(qū)分度較低,使結果的準確度較低。Milne 和Witten的基于共現(xiàn)的方法在候選集合比較小的時候,準確率較高,但是當集合范圍逐漸擴大,引入了更多語義不相關的概念使準確率下降很快。由于選擇的語料只是Wikipedia的一個子集,在以后的工作中可以選擇更全面的語料來更深入的評價基于NMF的相似度計算方法。 在不基于上下文的基礎上,增加了利用上下文信息擴展語義概念的結果如圖2所示。 圖2 給定主題數(shù)r在不同 k的正確率(基于上下文) 可以看出在原有方法基礎上再結合上下文語義,三種方法的實驗結果都獲得了比較大的提升,證明了基于上下文語義概念擴展方法的有效性。 圖2和圖3的實驗中文檔集合主題數(shù)目r是相同的,本次實驗中也探討了不同的主題數(shù)目r對結果正確率的影響。 圖3 不同的主題數(shù)目r的正確率 從實驗的效果看,結果的正確率跟初始設置的文檔集合主題數(shù)目r的設定有比較大的關系。由于r通常是由人為設定,跟人的經(jīng)驗相關,造成的誤差會比較大。因此,我們下一步的改進方向是針對文本的特點,自動選擇一個較優(yōu)的主題數(shù)目r,從而能提高實驗效率和準確率。 本文提出了一種基于NMF的方法來計算Wikipedia中概念語義相似度,并在此基礎上為社會媒體短文本擴展語義概念,擴展它們的內(nèi)容特征?;诓糠治⒉┱Z料的實驗表明該方法可以實現(xiàn)較好的性能。接下來我們將從以下三個方面進行改進。首先是增大Wikipedia的實驗數(shù)據(jù)集合,對該方法在大數(shù)據(jù)集合上的性能進行深入的探討。由于實驗的條件所限,本次試驗只選擇了部分Wikipedia語料,擴大語料規(guī)模,驗證該方法在大規(guī)模數(shù)據(jù)集合的性能在擁有海量數(shù)據(jù)的今天具有很強的現(xiàn)實意義和應用價值;其次,通過一種自動化尋找最優(yōu)的主題數(shù)目的方法來對NMF進行改進,減少人工設定和調(diào)試參數(shù)的工作量,提高程序的運行效率和精度。最后,社會媒體短文本有多種類型,本次實驗雖然選用的是微博數(shù)據(jù),但可以擴展到其他短文本領域如評論分析、標簽推薦等,除此之外,該方法不僅可以尋找出短文本中有意義的概念實體,而且可以進行語義概念擴展,方便在擴展的語義特征空間上進行深入的數(shù)據(jù)挖掘處理。 [1] 中國互聯(lián)網(wǎng)絡信息中心. 第28次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R]. 2011. [2] A Sitaram, A Huberman. Predicting the Future With Social Media[C]//Proceedings of the ACM, 2010. [3] S Takeshi, O Makoto, M Yutaka. Earthquake Shakes Twitter Users:Real-time Event Detection by Social Sensors[C]//Proceedings of the WWW, 2010. [4] A Mathes. Folksonomies-cooperative classification and communication through shared metadata[J]. Computer Mediated Communication, 2004, 47(10): 1-13. [5] S Banerjee, K Ramanathan, A Gupta. Clustering Short Texts using Wikipedia[C]//Proceedings of the SIGIR,ACM, 2007: 787-788. [6] A Fabian, G Qi, H Geert-Jan, et al. Semantic Enrichment of Twitter Posts for User Profile Construction on the Social Web[C]//Proceedings of the ESWC, 2011. [7] C Silvim. Large-scale named entity disambiguation based on Wikipedia data[C]//Proceedings of the EMNLP, 2006. [8] F Paolo, S Ugo.TAGME:On-the-fly Annotation of Short Text Fragments(by Wikipedia Entities)[C]//Proceedings of the CIKM,2010. [9] H Xianpei,S Le, Z Jun. Collective Entity Linking in Web Text:A Graph-Based Method[C]//Proceedings of the SIGIR, 2011. [10] L Xiaohua, Z Shaodian,W Furu,et al. Recognizing Named Entities in Tweets[C]//Proceedings of the ACL, 2011. [11] D Milne, I H Witten. Learning to link with Wikipedia[C]//Proceedings of the CIKM, 2008. [12] P Cao,S Liu, J Gao,et al. Finding Topic-related Tweets Using Conversational Thread[C]//Proceedings of the IFIP 7th International Conference on Intelligent Information Processing, 2012. [13] 莫溢,劉盛華,劉悅,程學旗. 一種相關話題微博信息的篩選規(guī)則學習算法[J]. 中文信息學報,2012,26(5):1-7. [14] P N Mendes, P Alexandre,K Pavan, et al. Linked open social signals[C]//Proceedings of the WI-IAT, 2010. [15] M Edgar,W Wouter, R Maarten. Adding Semantics to Microblog Posts[C]//Proceedings of the WSDM, 2012. [16] D D Lee, H S Seung. Learning the parts of objects by non-negative matrix factorization Nature,1999, 401(6755):788-791. [17] D D Lee, H S Seung. Algorithms for non-negative matrix factorization[C]//Proceedings of Neural Information Processing Systems, 2001. [18] A Hyvarinen,J Karhunen, E Oja. Independent Component Analysis[C]//Proceedings of the Wiley Interscience, 2001. [19] S Farial,W Berry Michael, V Paul. Document clustering using nonnegative martix factorization[J].Information Processing and Management, 2006,42(2):373-386. [20] A Saha, S Vikas. Learning Evolving and Emerging Topics in Social Media:A Dynamic NMF approach with Temporal Regularization[C]//Proceedings of the WSDM, 2012. [21] Patrik O.Hoyer.Non-negative Matrix Factorization with Sparseness Constraints[J]. Journal of Machine Learning Research, 2004,5:1457-1469.4 實驗和評價
4.1 實驗數(shù)據(jù)
4.2 候選語義概念擴展比較算法
4.3 實驗結果和評價
5 總結及展望