鄒學(xué)強,包秀國,黃曉軍,馬宏遠,袁慶升
(1.中國科學(xué)院信息工程研究所,北京 100093;2.國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;3.中國科學(xué)院大學(xué),北京100049;4.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)
基于層次分析的微博短文本特征計算方法
鄒學(xué)強1,2,3,包秀國2,黃曉軍4,馬宏遠2,袁慶升1,2,3
(1.中國科學(xué)院信息工程研究所,北京 100093;2.國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;3.中國科學(xué)院大學(xué),北京100049;4.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)
為了建立用戶精準興趣模型以有效發(fā)現(xiàn)具有相似興趣的用戶群,提出了一種針對微博的短文本特征計算方法用于聚類算法,提升聚類效果以更好地挖掘微博用戶的相似興趣集合。該方法融合了微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)等多個關(guān)鍵指標來度量微博短文本特征的重要性。同時,引入層次分析技術(shù),改進了傳統(tǒng)的tf-idf特征計算方法,并利用經(jīng)典文本聚類算法進行實驗。實驗結(jié)果表明,改進后的短文本特征計算方法與傳統(tǒng)的tf-idf特征計算方法相比,在類內(nèi)集中度和類間分散度上取得了更好的效果。
層次分析;特征計算;文本聚類;短文本
近年來,快速發(fā)展的社交網(wǎng)絡(luò)已成為人們交流信息的重要平臺。其中,微博作為主流社交平臺之一,吸引了越來越多的網(wǎng)民參與其中。隨著微博用戶規(guī)模的迅速膨脹,微博平臺上產(chǎn)生和流動的大量數(shù)據(jù)(如朋友關(guān)系、用戶發(fā)布的內(nèi)容等)具有重要的研究意義和應(yīng)用價值。其中,如何基于微博平臺中的各種信息來輔助發(fā)現(xiàn)和定位廣告目標用戶群,進而提升微博營銷服務(wù)和產(chǎn)品的有效性,已成為近年來的研究熱點之一。為實現(xiàn)精準的廣告投放,必須科學(xué)分析用戶的興趣并創(chuàng)建合理有效的推薦模型。因此,用戶興趣建模技術(shù)是實現(xiàn)精準廣告投放和產(chǎn)品推薦必不可少的前提條件和核心技術(shù)之一。
微博信息的內(nèi)容分析是用戶興趣建模的關(guān)鍵環(huán)節(jié),而有效的文本分析依賴于良好的文本表示和特征計算方法。向量空間模型中的tf-idf方法是目前廣泛使用且效果較好的一種文本特征計算方法。由于微博長度一般在100 個字左右,微博文本實際上是由海量短文本構(gòu)成的集合。相比傳統(tǒng)的文本內(nèi)容,其具有數(shù)量大、長度短、特征詞少及富含噪聲等特點,使傳統(tǒng)tf-idf方法在短文本特征計算上面臨巨大困難和挑戰(zhàn)。
為了解決信息稀疏問題,Amr[1]、David[2]和Bollegal等[3]分別從背景知識及語義解析等方面對短文本特征進行擴展,Sun[4]和Ramge[5]研究了微博的去噪問題。在前人研究的基礎(chǔ)上,本文通過分析微博短文本結(jié)構(gòu)和數(shù)據(jù)的特點,針對微博特有的轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)等屬性特征,提出了一種基于層次分析的短文本特征計算方法。實驗結(jié)果表明,本文改進后的特征計算方法的聚類效果明顯優(yōu)于傳統(tǒng)的tf-idf特征計算方法,可以提高針對微博短文本的用戶興趣建模的準確性,為實現(xiàn)個性化推薦提供技術(shù)基礎(chǔ)。
由于微博中用戶特性復(fù)雜、行為表現(xiàn)存在差異性,使微博數(shù)據(jù)中夾雜了大量的噪聲數(shù)據(jù),如何針對每個用戶建立精準的個性化模型是一個研究熱點,也是一個難點。目前,已有的研究主要是通過分析用戶的行為和屬性信息,獲取描述用戶興趣的特征或關(guān)鍵詞,從而對用戶興趣進行建模。相關(guān)工作大致分為3類:基于主題發(fā)現(xiàn)的興趣模型、基于用戶標簽的興趣模型和基于用戶關(guān)聯(lián)關(guān)系的興趣模型。
Weng等[6]把每個用戶發(fā)布的所有Twitter(加上Twitter網(wǎng)址的citation)看作一個大集合,通過在PageRank算法中引入基于用戶興趣的用戶相似度,利用主題模型生成用戶興趣,從而找出Twitter的某個話題下具有影響力的用戶。Abel等[7]提取微博中的散列標簽等與傳統(tǒng)的新聞媒體進行關(guān)聯(lián),豐富了微博的語義,進而判定出用戶的實際興趣。Welch等[8]利用用戶間的關(guān)注和轉(zhuǎn)發(fā)2種關(guān)系構(gòu)建得到興趣關(guān)系圖,發(fā)現(xiàn)用戶轉(zhuǎn)發(fā)的微博可以有效反映用戶對話題的興趣程度。Liu等[9]利用基于機器翻譯和詞頻統(tǒng)計相結(jié)合的方法,通過從微博文本中抽取關(guān)鍵詞來挖掘用戶的興趣。
邱云飛等[10]提出微博短文本重構(gòu)的概念,根據(jù)微博文本包含的特殊符號對文本內(nèi)容進行擴展,以抽象的文本向量為基礎(chǔ)進行聚類,緩解短文本帶來的信息稀疏性問題,提高了文本聚類效果,從而改善了用戶興趣集合的劃分效果。宋巍等[11]以支持向量機(SVM)作為分類模型,采取詞語層次特征與主題層次特征相結(jié)合的策略,構(gòu)建訓(xùn)練分類器特征,實現(xiàn)基于微博分類的用戶興趣識別方法。方維[12]通過統(tǒng)計相關(guān)數(shù)據(jù)以及問卷調(diào)查的方式對微博用戶的行為進行分析,采用文本分類與主題詞匹配相結(jié)合的方法,有效檢測識別了用戶興趣。張俊林等[13]利用微博用戶間的關(guān)聯(lián)關(guān)系,以用戶為節(jié)點建立圖模型,引入標簽傳播算法,根據(jù)鄰居標簽修正自身標簽,通過多次迭代最終為每個用戶推薦合適的興趣標簽。
本文提出的基于層次分析的短文本特征計算方法可以更加準確地從用戶的微博中提取用戶標簽來描述用戶的興趣。此外,由于改進后的短文本特征計算方法可以提高用戶微博短文本聚類效果,因此,可以更好地挖掘微博用戶的相似興趣集合。
3.1 文本特征表示
文本聚類的目標是使同類文檔的相似度盡量大,而不同類文檔的相似度盡量小。其首要問題是如何將文本內(nèi)容進行形式化表示,以轉(zhuǎn)換成計算機可以理解的形式,從而進行文檔的相似度度量。在眾多的文本表示方法中,由Salton等[14]于20世紀70年代提出向量空間模型(VSM,vector space model),因其較強的可計算性和可操作性而受到廣泛應(yīng)用。在該模型中,文檔的內(nèi)容被映射為多維空間中的一個點,通過向量的形式給出。其核心思想是將文檔分解為由詞條特征構(gòu)成的向量,具體做法是將文檔進行分詞,然后計算文檔中每個詞條的權(quán)值,即用特征詞條及其權(quán)值表示文檔信息。具體表示形式如下
其中,d表示一個文檔,ti表示文檔集合中的某個詞條,wi( d)表示詞條ti在d中的權(quán)值。
這種表示形式簡單直接,但是由于微博文本的特點使文檔特征向量的維數(shù)可以達到數(shù)萬甚至數(shù)十萬,從而導(dǎo)致信息稀疏問題,且如此高維向量空間使聚類算法的處理時間大大增加,并對算法的準確性產(chǎn)生不利影響。因此,對特征空間進行降維處理顯得非常必要和關(guān)鍵。最有效的特征降維方法就是通過特征選取,去掉某些表征文檔能力差的詞。具體到文檔相似度計算,就是減少詞語的數(shù)量。無監(jiān)督的特征選擇方法,如主成分分析法(PCA)、隱語義索引(LSI)、奇異值分解(SVD)等,并不能選擇出具有表征力的特征詞,并且無法得到每一維特征的實際含義。有監(jiān)督的方法通常需要類信息,常用的有監(jiān)督特征選擇方法的評估函數(shù)有文檔頻率、信息增益、期望交叉熵、互信息、卡方統(tǒng)計法等。本文將采用詞頻和文檔頻率作為特征選取的評估函數(shù),認為非常稀缺的詞或經(jīng)常在多個文檔中出現(xiàn)的詞對聚類產(chǎn)生的影響較小。
3.2 文本特征計算
在構(gòu)建文本向量空間過程中,需要為劃分好的詞條賦予適當?shù)臋?quán)值,權(quán)值代表該詞條對表征文本內(nèi)容的能力,權(quán)值越大,說明該特征項對文本的區(qū)分度或分類越好。因此,為了提高文本聚類結(jié)果,在構(gòu)建文本向量時應(yīng)該盡可能保留原有的文檔信息。常見的特征計算方法主要有布爾值、tf(term frequency)和tf-idf(term frequency-inverse document frequency)等。其中,tf-idf方法得到了廣泛的應(yīng)用,詞頻tf反映特征項在同一文本內(nèi)部的分布情況,逆文檔頻率idf反映同一特征項在不同文本上的分布情況。傳統(tǒng)的tf-idf特征計算公式如下
其中,ni,j表示詞條i在文本j中出現(xiàn)的頻次,Ni表示詞條i在整個文本空間中出現(xiàn)的頻次,N表示整個文本空間中文本的數(shù)目。
3.3 基于層次分析的短文本特征計算方法
傳統(tǒng)的tf-idf特征計算方法比較適用于長文本,無法兼顧微博文本作為短文本本身所包含有用信息少、可供抽取信息貧乏的特點。因此,需要借助微博平臺提供的其他信息來改進短文本特征的計算方法。
通過觀察分析如圖1所示的微博示例發(fā)現(xiàn),一條有價值的微博很可能被其他用戶轉(zhuǎn)發(fā)、評論和點贊,而這3種用戶互動行為能夠有效地體現(xiàn)該微博在整個微博文檔集合中的重要性。因此,本文嘗試利用微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)作為特征參數(shù)對傳統(tǒng)的tf-idf計算方法進行改進,使改進的tf-idf文本特征計算方法更加符合短文本的特點。
圖1 微博示例
每條微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)可以看作是衡量微博重要性的3個指標,但這3個指標在表示能力上有所差別。為了反映這3個指標在表征微博重要性上的差異,需要定量度量指標的權(quán)值。因此,本文引入層次分析法[15](AHP,analytic hierarchy process)以量化這3個指標在反映微博重要性時的權(quán)值,這樣進行綜合計算時得到的結(jié)果可以更好地反映實際情況。層次分析法是一種應(yīng)用廣泛且效果較好的權(quán)值確定方法,它把復(fù)雜問題中的各因素劃分成相關(guān)聯(lián)的有序?qū)哟?,形成條理化的多目標、多準則的決策方法,是一種將定量分析與定性分析相結(jié)合的有效方法。基于層次分析的短文本特征計算方法具體步驟如下。
1) 構(gòu)造判斷矩陣。判斷矩陣是層次分析法的基本信息,是進行權(quán)值計算的重要依據(jù)。本文使用Saaty提出的傳統(tǒng)1~9標度法對指標進行兩兩比較得到量化的判斷矩陣。在矩陣中,第i行、第j列所表達的含義如表1所示。在判斷矩陣中,。
表1 指標兩兩比較時權(quán)值等級及其賦值
這里使用下標i=1,2,3對應(yīng)微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)。通過對微博用戶使用特點分析可以發(fā)現(xiàn),用戶的點贊行為往往表示對微博內(nèi)容的贊賞,轉(zhuǎn)發(fā)行為往往表示用戶希望將所瀏覽的信息傳遞給其他用戶,評論行為往往表示用戶對微博信息的看法。因此,本文認為用戶點贊行為的重要性最高,轉(zhuǎn)發(fā)行為的重要性高于評論行為。綜合分析結(jié)果,本文假定了轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)的標度,根據(jù)經(jīng)驗設(shè)置判斷矩陣如下所示。
2) 計算重要性排序。根據(jù)判斷矩陣,使用方根法計算判斷矩陣的特征向量。
首先,利用式(5)計算判斷矩陣每行所有元素的幾何平均值,得到,然后,利用式(6)對進行歸一化。
通過以上求解,可以得到矩陣A的權(quán)值向量。
3) 一致性檢驗。對判斷矩陣進行一致性檢驗,以檢驗權(quán)值的分配是否合理。一致性檢驗主要使用判斷矩陣的一般一致性(CI)和隨機一致性比率(CR)2個指標。
其中,λmax是指判斷矩陣的最大特征根,RI表示判斷矩陣的隨機一致性均值,與矩陣的階數(shù)有關(guān)。1~9階判斷矩陣的RI值如表2所示。
當CR≤0.1或λmax=n,CI=0時,判斷矩陣具有滿意的一致性,認為判斷矩陣一致性可以接受;否則,必須對判斷矩陣進行修改調(diào)整,直至CR≤0.1使其具有良好的一致性。
表2 隨機一致性指標RI
按照上述方法對矩陣A進行一致性檢驗,計算得到其CR值為0.071 3,滿足判斷矩陣的一致性條件。
利用求解出的短文本特征向量w,對微博短文本的特征計算方法進行改進。由于單條微博短文本特征稀疏,可以分別將同一個用戶某個時間周期內(nèi)發(fā)布的微博文本歸納為一個文檔來進行短文本特征計算。設(shè)xjk1、xjk2、xjk3分別表示第j篇微博文檔中第k條微博歸一化后的轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)指標,對ni,j做如下改進。
其中,λ是權(quán)值影響因子,m表示第j篇微博文檔包含的微博條數(shù),Ii,k表示詞項i在第k條微博中出現(xiàn)的頻次。
4.1 實驗數(shù)據(jù)
微博用戶中存在大V用戶、普通用戶、營銷賬號、官方用戶和僵尸賬號等不同類型的用戶,這些用戶的質(zhì)量參差不齊,如果不加區(qū)分地對用戶進行興趣建模和信息推薦,必然會影響最終的推薦效果,因此,需要對有效的普通活躍(非大V)用戶進行識別。本文使用LIBSVM軟件[16]訓(xùn)練SVM分類器,利用訓(xùn)練好的分類器對未分類用戶進行識別分類,針對識別出的普通微博用戶進行興趣建模。
本文利用新浪微博提供的API接口,爬取并識別獲得1 879名普通活躍微博用戶及其發(fā)布的2 113 703條微博數(shù)據(jù)。微博數(shù)據(jù)需要進行預(yù)處理和數(shù)據(jù)清洗,包括去除噪聲信息(微博中的鏈接、轉(zhuǎn)發(fā)標志、@用戶名和表情符號等)、分詞、停用詞。由于名詞更能反映用戶的興趣偏好,這里僅針對名詞進行特征選擇,最終獲得18 686個特征詞。
4.2 評價指標
集中度和分散度是評價聚類方法常用的2個指標。其中,集中度是指簇中的成員必須盡可能靠近,分散度是指簇之間的距離,要盡可能大。文獻[17]提出的SD有效性指標可以作為對比改進前后聚類效果的指標。SD有效性指標定義如下
其中,α為加權(quán)因子,用于權(quán)衡簇平均分散度(Scat(C))和簇間總體離散度(Dis(C))之間的相對重要性。Scat(C)和Dis(C)的定義分別如下。
其中,C是聚類的簇數(shù),是整個數(shù)據(jù)集的方差向量的模,是第i個簇的方差向量的模,是各個簇中心之間的最大距離,Dmin是各個簇中心之間的最近距離,表示第k個和第z個簇中心之間的距離。
由式(10)~式(12)可得,對于相同的數(shù)據(jù)集,如果利用不同的聚類算法得到的聚類結(jié)果的平均分散度和簇間總體離散度越小,則其聚類性能會越好,當SD(C)使值最小時,此時的C為最優(yōu)的聚類個數(shù)。
4.3 實驗結(jié)果
針對微博文本數(shù)據(jù)集,分別利用傳統(tǒng)的tf-idf方法和改進的tf-idf方法進行文檔表示,利用K-means算法對微博文檔集進行聚類,對二者的聚類效果進行比較,如圖2所示。實驗參數(shù)選擇為α=0.5,λ=3。
圖2 傳統(tǒng)tf-idf特征計算方法和改進tf-idf特征計算方法聚類平均分散度對比
Scat指標用來表征聚類結(jié)果的平均簇集中度,其對應(yīng)的值越小,說明平均每個類的類內(nèi)距離越小。由圖2可知,同傳統(tǒng)的tf-idf特征計算方法相比,改進后方法的Scat指標整體上更小,當聚類個數(shù)超過42個以后,這種差距則體現(xiàn)得更為明顯。這表明改進后的tf-idf特征計算方法提高了類內(nèi)的相似性,減小了類內(nèi)文檔間的距離。
Dis指標表示簇間整體的分離程度,其對應(yīng)的值越小,說明所有類整體的分散度越大。由圖3可知,同傳統(tǒng)的tf-idf特征計算方法相比,改進后方法的Dis指標整體上更小。這表明改進后的tf-idf特征計算方法提高了不同簇之間的差異性,增大了簇間距離。
圖3 傳統(tǒng)tf-idf特征計算方法和改進tf-idf特征計算方法聚類簇間總體離散度對比
由圖4可知,當聚類個數(shù)在56左右時,2類計算方法聚類效果達到最優(yōu),并且在最優(yōu)點處,改進后方法的SD有效性指標要明顯小于傳統(tǒng)的tf-idf特征計算方法,這表明改進后的tf-idf特征計算方法具有更優(yōu)的聚類效果。
圖4 傳統(tǒng)tf-idf特征計算方法和改進tf-idf特征計算方法聚類綜合指標對比
綜上所述,同傳統(tǒng)的tf-idf特征計算方法相比,改進后的tf-idf特征計算方法在平均分散度、總體離散度和SD有效性3個指標上均有明顯提升,聚類效果更為理想。
隨著微博平臺用戶量和數(shù)據(jù)量的日益增大,微博內(nèi)容分析和挖掘具有重要的研究價值和應(yīng)用前景。由于微博短文本具有長度短、富含冗余信息等特點,已有的文本表示和特征計算方法難以適用。因此,本文針對微博提出一種基于層次分析的短文本特征計算方法,借助微博短文本以外的其他數(shù)據(jù)和特征,對不同短文本特征的重要性進行度量。實驗表明,該方法能夠很好地對微博短文本進行表示,在一定程度上提升了微博文檔的聚類效果,尤其在聚類簇數(shù)更高的設(shè)置上,本文提出的改進后的tf-idf特征計算方法表現(xiàn)出更好的性能。
本文的創(chuàng)新點在于采用層次分析法分析轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù),并根據(jù)實際經(jīng)驗設(shè)置判斷矩陣。最后通過實驗證明了融入轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)等特征和判斷矩陣的有效性,在微博文檔聚類中獲得了積極效果。后續(xù)工作將研究如何設(shè)置最優(yōu)判斷矩陣等問題。
[1]AMR A,LIANG J H,ALEXANDER J S.Hierarchical geographical modeling of user locations from social media posts[C]//The 22nd International Conference on World Wide Web,2013:25-36.
[2]DAVID J.That’s what friends are for:inferring location in online social media platforms based on social relationships[C]//The 7th International Conference on Weblogs and Social Media.2013:273-282.
[3]BOLLEGALA D,MATSUO Y,ISHIZUKA M.Measuring the similarity between implicit semantic relation using web search engines[C]//The 2nd ACM International Conference on Web Search and Data Mining WSDM’09,2009:104-113.
[4]SUN A.Short text classification using very few words[C]//The 35th International ACM SIGIR Conference on Research and Development in Information Retrieval.NewYork,USA,2012:1145-1146.
[5]RAMGE D,DUMAIS S,LIEBLINGI D.Characterizing microblogs with topic models[C]//ICWSM,2010:130-137.
[6]WENG J S,LIM E P,JIANG J,et al.TwitterRank:finding topicsensitive influential Twitterers[C]//The 3th ACM International Conference on Web Search and Data Mining.New York City,2010:261-270.
[7]ABEL F,GAO Q,HOU B G J,et al.Semantic enrichment of twitter posts for user profile construction on the social Web [C]//The 8th Extended Semantic Web Conference on the Semanic Web:Research and Pages (ESWC’11).2011:375-389.
[8]WELCH M J,SCHONFELD U,HE D,et al.Topical semantics of Twitter links [C]//The 4th ACM International Conference on Web Search and Data Mining (WSDM’11).2011:327-336.
[9]LIU Z,CHEN X,SUN M.Mining the interests of Chinese microbloggers via keyword extraction [J].Frontiers of Computer Science in China,2012,6(1):76-87.
[10]邱云飛,王琳潁,邵良杉,等.基于微博短文本的用戶興趣建模方法[J].計算機工程,2014,40(2):275-279.QIU Y F,WANG L Y,SHAO L S,et al.User interest modeling approach based on short text of micro-blog[J].Computer Engineering,2014,40(2):275-279.
[11]宋巍,張宇,謝毓彬,等.基于微博分類的用戶興趣識別[J].智能計算機與應(yīng)用,2013,3(4):80-83.SONG W,ZHANG Y,XIE Y B,et al.Identifying user interests based on microblog classification[J].Intelligent Computer and Applications,2013,3(4):80-83.
[12]方維.微博興趣識別與推送系統(tǒng)的研究與實現(xiàn)[D].華中科技大學(xué),2012.FANG W.Research and implement of micro-blog interest found and pushing system[D].Huazhong University of Science and Technology,2012.
[13]張俊林.標簽傳播算法在微博用戶興趣圖譜的應(yīng)用[J].程序員,2012,1(7):50-53.ZHANG J L,Application of label propagation algorithm in user profiles of micro-blog[J].Programmer,2012,1 (7):50-53.
[14]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing [J].Communications of the ACM CACM Homepage,1975,18(11):613-620.
[15]常建娥,蔣太立.層次分析法確定權(quán)重的研究[J].武漢理工大學(xué)學(xué)報(信息與管理工程版),2007,29(1):153-156.CHANG J E,JIANG T L,Research on determining weights by analytic hierarchy process[J].Journal of Wuhan University of Technology (Information &Management Engineering),2007,29(1):153-156.
[16]CHANG C C,LIN C J.LIBSVM:a library for support vector machines [J].ACM Transactions on Intelligent Systems &Technology,2011,2(3):389-396.
[17]HALKIDI M,VAZIRGIANNIS M,BATISTAKIS Y.Quality scheme assessment in the clustering process[J].Lecture Notes in Computer Science,2000,1910(1):265-276.
鄒學(xué)強(1978-),男,福建莆田人,中國科學(xué)院信息工程研究所博士生,主要研究方向為信息處理、信息安全、網(wǎng)絡(luò)流量分析等。
包秀國(1962-),男,江蘇如皋人,博士,中國科學(xué)院信息工程研究所教授、博士生導(dǎo)師,主要研究方向為信息網(wǎng)絡(luò)安全、音視頻處理、網(wǎng)絡(luò)空間測繪等。
黃曉軍(1990-),男,江西九江人,北京郵電大學(xué)碩士生,主要研究方向為數(shù)據(jù)挖掘、信息安全。
馬宏遠(1981-),男,遼寧朝陽人,博士,國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心高級工程師,主要研究方向為智能信息處理。
袁慶升(1980-),男,山東濟南人,中國科學(xué)院信息工程研究所博士生,主要研究方向為多媒體大數(shù)據(jù)處理、網(wǎng)絡(luò)與信息安全。
Calculating the feature method of short text based on analytic hierarchy process
ZOU Xue-qiang1,2,3,BAO Xiu-guo2,HUANG Xiao-jun4,MA Hong-yuan2,YUAN Qing-sheng1,2,3
(1.Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;2.National Computer Network Emergency Response Technical Team/Coordination Center of China,Beijing 100029,China;3.University of Chinese Academy of Sciences,Beijing 100049,China;4.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)
In order to model the accurate interest preference of microblog users and discover user groups with similar interest,a new method was proposed which considered the total amount of retweets,comments and attitudes of each microblog for text feature calculation with utilizing classic analytical hierarchy process method.The proposed method used three indicators to evaluate the importance of the text feature representation and made an improvement on traditional tf-idf feature calculation method to fit for short text.Furthermore,this method was also implemented in the traditional clustering algorithm.Experimental results show that,compared with the traditional tf-idf method,the improved approach has a better clustering effect on the average scattering for clusters and the total separation between clusters.
analytic hierarchy process,feature calculation,text clustering,short text
s:The National High Technology Research and Development Program (863 Program) (No.SS2014AA012303),The National Natural Science Foundation of China (No.61300206,No.61402123)
TP391.1
A
10.11959/j.issn.1000-436x.2016239
2016-05-05;
2016-11-24
國家高技術(shù)研究發(fā)展計劃(“863”計劃)基金資助項目(No.SS2014AA012303);國家自然科學(xué)基金資助項目(No.61300206,No.61402123)