亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征詞袋的雙聚類算法研究

2014-04-29 00:00:00黃志艷

計算機光盤軟件與應用 2014年2期

摘要：傳統(tǒng)聚類方法分析數(shù)據(jù)時，僅僅從單一角度進行分析，無法利用數(shù)據(jù)對象和其特征之間存在的協(xié)作關(guān)系，針對該問題，本文提出了基于特征詞袋的雙路聚類算法。該算法可以同時從數(shù)據(jù)對象和特征兩個方向進行數(shù)據(jù)壓縮，將特征詞壓縮袋一個詞袋里，充分的利用二者之間存在的寫作關(guān)系，對每一路數(shù)據(jù)進行分析。實驗結(jié)果表明，該雙聚類算法不僅提高了數(shù)據(jù)分析的精度，而且在動態(tài)減少的過程的數(shù)據(jù)分析，易于理解的數(shù)據(jù)分析結(jié)果。

關(guān)鍵詞：聚類；特征詞；數(shù)據(jù)分析；數(shù)據(jù)挖掘

中圖分類號：TP311.13

傳統(tǒng)聚類方法在進行數(shù)據(jù)分析時，尤其是在分析文本類數(shù)據(jù)時，僅僅從單一角度進行分析，往往忽略了能夠提高聚類精度的關(guān)鍵內(nèi)容，從而無法利用數(shù)據(jù)對象和特征之間存在的關(guān)系。為此，本文在已有的經(jīng)典聚類算法基礎上，提出了雙路聚類算法。該算法進行聚類分析時，分為兩個關(guān)鍵步驟：（1）使用某種聚類算法對特征進行聚類分析，尋找特征之間存在的潛在模式；（2）根據(jù)第一步尋找的特征模式，對數(shù)據(jù)對象進行聚類，尋找數(shù)據(jù)對象間存在的數(shù)據(jù)模式。

雙路聚類算法對數(shù)據(jù)以及特征進行分析，其能夠同時對數(shù)據(jù)以及特征進行分析，可以充分利用二者之間的協(xié)作關(guān)系。為了驗證本文算法的效果，使用了經(jīng)典的以互信息為度量的模擬退火的聚類算法[1]，該算法的實驗數(shù)據(jù)來源于Lang收集的20-Newsgroup數(shù)據(jù)集[2]。實驗結(jié)果表明，雙聚類算法不僅可以獲得更為準確的數(shù)據(jù)對象的潛在模式，提高數(shù)據(jù)分析結(jié)果的準確性，同時還存在動態(tài)降維的作用，加快了數(shù)據(jù)分析的時間精度。

本文提出了一種合理的數(shù)據(jù)分析機制，能夠發(fā)現(xiàn)數(shù)據(jù)和特征存在的協(xié)作關(guān)系，該協(xié)作關(guān)系對數(shù)據(jù)分析結(jié)果具有很大的影響。

1 背景知識

1.1 雙路聚類模型。傳統(tǒng)聚類算法分析海量數(shù)據(jù)時，其原變量、目標變量和相關(guān)變量均是單一的。為此本文在前人研究的基礎上，提出了一種雙聚類思想，該思想可以將特征詞壓縮到特征詞袋中[3]，然后對數(shù)據(jù)對象進行聚類分析，這樣既可以降低數(shù)據(jù)分析時間，又可以提高其精度。具體雙聚類模型進行聚類分析的過程可以描述如下：在壓縮的過程中，給定的變量X和變量Y作為源變量和相關(guān)變量同時存在，變量X壓縮到變量TX中盡可能保存變量Y（TY）的信息，變量Y壓縮到變量TY中盡可能保存變量X（TX）的信息。該模型存在兩個優(yōu)點：一是高維數(shù)據(jù)分析時，不是全部特征對數(shù)據(jù)分析都有作用，數(shù)據(jù)中存在很多不相關(guān)或者是相關(guān)度較低的特征，維數(shù)過高造成維度災難，雙路聚類模型提供特征選擇機制，將特征縮小到高度相關(guān)的范圍內(nèi)，該機制可稱為動態(tài)降維。二是該模型使用數(shù)據(jù)和特征之間的協(xié)作關(guān)系，同時進行數(shù)據(jù)分析，不但提高數(shù)據(jù)分析結(jié)果的精度，還使數(shù)據(jù)分析結(jié)果變的更加容易解釋。

基于以上描述可知雙路聚類模型的目標函數(shù)為：

F（p（Tx|X），p（TY|Y））=I（X；Y）+I（TX；X）+I（TY；Y）-β（I（Tx；Y）+I（TY；X）+I（TX；TY））（1）

其中I（X；Y）是常量，可以省略不寫，β是平衡因子。從雙路聚類模型的目標函數(shù)可以得知，一方面要盡可能的壓縮變量X和變量Y，另一方面也要盡可能的使TX和TY相互提供信息。

1.2 雙路聚類算法。為了驗證本文算法的效果，本文引入經(jīng)典的以互信息為度量的模擬退火的聚類算法[4]為對比，提出了基于雙聚類模型的雙聚類算法，其分析機制可以描述如下：初始變量X，Y中的數(shù)據(jù)為一個劃分，使用自底向上凝聚原則，生成一棵層次樹，每一次合并當前層的兩個劃分，使本層互信息損失最小，直到把全部數(shù)據(jù)合并到一個劃分中。雙路聚類算法對數(shù)據(jù)以及特征同時進行數(shù)據(jù)分析，與傳統(tǒng)的數(shù)據(jù)分析算法相比，該算法具有很強的可視化性和可理解性。

本文使用文本數(shù)據(jù)驗證雙路聚類算法的有效性，具體地，X、Y、TX和TY分別指文本X、特征詞Y、文本模式TX和特征詞袋TY。假設tm和tn是即將壓縮到一個變量的任意兩個變量，壓縮過程中損失的信息稱為合并代價，其被定義為：

d（tm，tn）=I（Tbefore；Y）-I（Tafter；Y）（2）

其中，I（Tbefore；Y）和I（Tafter；Y）分別代表tm和tn合并前和合并后的T和Y之間的互信息。在傳統(tǒng)聚類算法中，，雙路聚類算法為實現(xiàn)動態(tài)的降維機制，，JSП（PPQ）是概率分布p（·）和q（·）之間的Jensen-Shannon距離， ?；谏鲜鏊枷?，雙路聚類算法如表1所示。

表1 雙路聚類算法

輸入：聯(lián)合概率分布P（X，Y），平衡參數(shù)β（調(diào)節(jié)壓縮和保存之間的平衡），平衡參數(shù)α（調(diào)節(jié)合并X或者Y的次序）

初始化：

←X， ←Y，β=∞，

根據(jù)公式（2）計算所有模式對之間的合并代價 _Merge_Cost[i，j]，1

根據(jù)公式（2）計算所有模式對之間的合并代價 _Merge_Cost[m，n]，1

While （| |>1）

{

←Min _Merge_Cost[]；

if （）

{

；

根據(jù)公式（2）更新 _Merge_Cost[]；

}

else

{

；

根據(jù)公式（2）更新 _Merge_Cost[]；

}

End

2 實驗結(jié)果與分析

2.1 實驗評估方法。在本文中，數(shù)據(jù)采用Lang收集的20-Newsgroup數(shù)據(jù)集，并基于BoW工具進行預處理，從中取出九個子數(shù)據(jù)集，分別為B_1、B_2、B_3、M5_1、M5_2、M5_3、M10_1、M10_2、M10_3，每個數(shù)據(jù)集都包含500篇文章，計算每篇文章中的特征詞對聚類的貢獻，選取前2000個單詞作為特征詞。

為了有效的評估本文提出的雙聚類算法的有效性，采用的評價標準包括精確度和召回率，精確度定義為：

（3）

召回率定義為：

（4）

其中，T表示聚類算法分析結(jié)果的類標號，C表示文本正確的類標號，因此，本文定義A1（c，T）表示正確分配到類C中的文本數(shù)，A2（c，T）表示錯誤的將文檔分配到C中的文本數(shù)量，A3（c，T）表示錯誤的將文本分配到C中的文本數(shù)量。在聚類算法中，規(guī)定數(shù)據(jù)集和算法都是單類標記時，召回率和精確度是相同的，因此，本文的實驗數(shù)據(jù)集和算法都是單類標，其算法運行結(jié)果僅用精確度進行度量即可。

2.2 實驗結(jié)果分析。傳統(tǒng)聚類算法和雙路聚類算法的實驗結(jié)果如圖1所示，經(jīng)過分析，本文可以得到如下結(jié)果：（1）與傳統(tǒng)聚類算法相比，雙路聚類算法精確度更高。其中在數(shù)據(jù)集B_2上精確度提高最大，達到30.4%，在9個數(shù)據(jù)集上得到的平均精確度為73.7%，相比于傳統(tǒng)聚類算法提高達14.0%。（2）與傳統(tǒng)聚類算法相比，雙聚類算法具有較好的魯棒性。傳統(tǒng)聚類算法在B_1、B_2、B_3上精確度表明了對于同構(gòu)數(shù)據(jù)，其運行結(jié)果的精確度不夠穩(wěn)定，魯棒性較低，而雙聚類算法則表現(xiàn)很穩(wěn)定，魯棒性高。同時，該現(xiàn)象在其他6個數(shù)據(jù)集上也可以體現(xiàn)出來。

圖1 在九個數(shù)據(jù)集上，傳統(tǒng)聚類算法和雙路聚類算法運行結(jié)果精確度比較

3 結(jié)論及下一步工作

傳統(tǒng)聚類方法作為一種數(shù)據(jù)分析方法，已經(jīng)得到廣泛的應用，為了更好的適應問題需要，本文提出雙路聚類模型。該模型可以從多視角對數(shù)據(jù)進行分析，然后利用每一路數(shù)據(jù)之間的協(xié)作關(guān)系，來更好地發(fā)現(xiàn)數(shù)據(jù)中隱含的數(shù)據(jù)模式，并利用得到的數(shù)據(jù)模式解釋另一路數(shù)據(jù)模式。下一步工作是近一步完善雙路聚類算法，利用無監(jiān)督學習思想發(fā)現(xiàn)特征模式和數(shù)據(jù)模式之間的協(xié)作關(guān)系。

參考文獻：

[1]N.Slonim，N.Friedman，N.Tishby.Unsupervised document classification using sequential information maximization [C].In：Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval，2002：129-136.

[2]R.Bekkerman，R.El-Yaniv，N.Tishby，et al.Distributional word clusters vs.words for text categorization [J].Journal of Machine Learning Research，2003：1183-1208.

[3]C.Galleguillos，A.Rabinovich，S.Belongie.Object categorization using co-occurrence，location and appearance [C].IEEE Conference on Computer Vision and Pattern Recognition，2008：1-8.

[4]N.Slonim，N.Tishby.Agglomerative information bottleneck [C].In：Proceedings of 13th Annual Conference on Neural Information Processing Systems，Colorado，USA，1999：617-623.

作者簡介：黃志艷（1977.10-），女，山東泰安人，講師，主要研究方向：軟件工程、教師教育。

作者單位：泰山職業(yè)技術(shù)學院，山東泰安 271000

計算機光盤軟件與應用2014年2期

計算機光盤軟件與應用的其它文章: 淺談AIX系統(tǒng)日常維護; 計算機硬件的日常維護及故障排除探討; 整合營銷理念及計算機網(wǎng)絡技術(shù)在通訊業(yè)市場營銷中的應用; 探析減少自反饋測試硬件代價的兩種有效方法; 試論計算機網(wǎng)絡管理技術(shù)探究; 計算機軟件系統(tǒng)維護效率提升方案分析