基于微博信息數(shù)據(jù)分析研究進行系統(tǒng)梳理,提出三大研究方法,即適于演化的微博信息的數(shù)據(jù)表達模型研究;基于譜聚類的適于微博信息的大規(guī)模數(shù)據(jù)集劃分方法研究;基于多特征演化聯(lián)合聚類的在線微博信息劃分方法研究。數(shù)據(jù)表達模型微博信息數(shù)據(jù)分析微博是基于用戶關(guān)系內(nèi)部成員的心情共享與話題傳輸?shù)拿浇?,此媒介擁有包羅萬象的內(nèi)容,其中最為典型的內(nèi)容是,微博會員對社會現(xiàn)象的觀點與立場,以及涵蓋科技軍事、娛樂八卦等討論話題。所以,關(guān)于興趣愛好的話題、焦點與熱點的話題、輿情預警等方面的微博信息數(shù)據(jù)分析擁有廣闊的研究前景。而對于研究前景實踐的前提是建立標準的數(shù)據(jù)表達與數(shù)據(jù)類型劃分的方法。一、適于演化的微博信息的數(shù)據(jù)表達模型研究在當今信息大爆炸的時代,從海量的信息提取精煉的有效信息,并分析出信息間的關(guān)聯(lián)性是十分重要的。對于微博而言,一方面,從單純的架構(gòu)角度分析,微博是一種無結(jié)構(gòu)的文本;但從信息與信息傳輸角度分析,微博的實質(zhì)即為擁有廣泛內(nèi)容的結(jié)構(gòu)化網(wǎng)絡(luò)信息,信息的結(jié)構(gòu)聯(lián)系為分析信息間的關(guān)聯(lián)性起到輔助性作用。另一方面,每條微博信息為一個文本片段(一段話或一句話),攜帶的信息量比較小,多條微博信息觸及到多種話題且信息量小,這為信息的升華與分析增加了難度。通過以上兩點分析可以看出,在微博信息中提取精煉的有效信息,不能套用傳統(tǒng)的簡單文本信息提取的方法。為此,對于要分類的微博信息,首先要進行預處理,從微博中收集短信息文本集,其中可以包含部分評論、觀點描述等內(nèi)容,去除標簽后,進行中文語義、詞性、詞語分類的標注,并將禁用詞刪掉。經(jīng)過預處理之后的短信息文本集中的每一個詞需要用建構(gòu)的數(shù)學模型加以表示,過去傳統(tǒng)的文本類別劃分基本利用向量空間模型表示法,模型構(gòu)建的過程中多以關(guān)鍵詞為首要特征,該方法比較簡單、方便,但卻容易引起高維稀疏問題且通常沒有語義聯(lián)系。所以,我們采用基于語義概念的表示方法,把傳統(tǒng)的具體關(guān)鍵詞抽象的映射到概念范疇,然后對原始的關(guān)鍵詞的語義進行拓展,從而解決短信息文本集中文本數(shù)據(jù)分類中存在的概念的層次、一義多詞、一詞多義的問題。二、基于譜聚類的適于微博信息的大規(guī)模數(shù)據(jù)集劃分方法研究層次方法是在眾多聚類方法中的一種極其重要的聚類方法。它的基本思想是對數(shù)據(jù)進行遞歸分裂或合并,將數(shù)據(jù)集合劃分為嵌套式的類譜系圖類或?qū)哟谓Y(jié)構(gòu)。它具有下列優(yōu)勢:第一,建立在更合理的假設(shè)之上,考慮到了來自不同層次的變量信息和隨機誤差的多層線性模型,能提供更加有效的區(qū)間估計、更加精確的標準誤估計和假設(shè)檢驗。第二,任何水平上測量的協(xié)方差運用多層線性模型可計算。例如,可以通過計算在總變異中不同水平變異占的比率,來確定不同水平對因變量的影響及影響程度程度,例如研究者可以探討班級和學生的其他特征對因變量變異的作用到底有多大。還可以分析不同水平上變量之間的交互作用。第三,可以結(jié)合所得回歸方程形式及數(shù)值,得出截距和斜率之間的相關(guān)關(guān)系,從而更好地解釋自變量和因變量之間變化的規(guī)律?;诰W(wǎng)格的方法是眾多的聚類算法中比較常用的方法,被廣泛用于空間數(shù)據(jù)離化等問題。它是以網(wǎng)格為單位學習聚簇,具有速度快、效率高、且能很好地處理高維數(shù)據(jù)的特點。該方法的缺點是過于依賴密度閾值的選擇,并且因為整體構(gòu)造擁有的是呈現(xiàn)出鋸齒狀聚簇邊界,它不能精確地識別平滑邊界曲面。基于網(wǎng)格的聚類算法,利用統(tǒng)一大小的網(wǎng)格劃分問題的空間,數(shù)據(jù)的統(tǒng)計信息皆保存在每個網(wǎng)格中,最終以在網(wǎng)格上進行聚類操作達到目標。網(wǎng)格的數(shù)量遠遠小于數(shù)據(jù)點的數(shù)量,所以,在計算與分類過程中,運行速度非常快。網(wǎng)格的大小影響了整個指標的多少,進而決定了聚類的最終效果。網(wǎng)格聚類算法,運行速度以及計算速度主要由網(wǎng)格分割的時間決定,不是由數(shù)據(jù)集的大小來決定,所以,網(wǎng)格聚類算法適用于有限空間范圍內(nèi)的大量數(shù)據(jù)活高密度數(shù)據(jù)集中的處理,這是該方法的最大優(yōu)點。三、基于多特征演化聯(lián)合聚類的適于在線微博信息數(shù)據(jù)劃分方法研究聚類是人類認知過程中一項比較重要的活動。數(shù)據(jù)的聚類分析,即對物理或抽象的數(shù)據(jù)進行匯總與分組,將測度指標一致或者性質(zhì)相近的數(shù)據(jù)劃分并組合成多個類的分析過程。數(shù)據(jù)的聚類分析在模式識別、統(tǒng)計、生態(tài)模型以及網(wǎng)絡(luò)結(jié)構(gòu)的架構(gòu)建設(shè)等多個領(lǐng)域中都具有廣泛的應用。在微博信息數(shù)據(jù)的劃分中,文本聚類技術(shù)按照一定的關(guān)聯(lián)性將微博信息的大量文本進行自動化歸類。有助于微博會員能夠更快更好的瀏覽與查找相關(guān)的信息。但是與結(jié)構(gòu)化的數(shù)據(jù)信息不同的是,文本聚類技術(shù)是以半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本性數(shù)據(jù)為數(shù)據(jù)處理對象,文本性數(shù)據(jù)的突出特點即為其稀疏性?;谖⒉┬畔?shù)據(jù)的特殊性,文章嘗試從不同階段的聚類過程的入手,提取微博信息數(shù)據(jù)之間的關(guān)聯(lián)性以及關(guān)系,并將其作為微博信息數(shù)據(jù)聚類過程的指導。在微博信息數(shù)據(jù)預處理階段,Bag—of—words—Model模型是比較常用的一種表示方法。微博信息的每個詞句或符號均被用來表示微博信息文檔的內(nèi)容指標。為避免標準的演化算法演化速度慢,易收斂到局部極值的缺點,融合對梯度的隨機模擬,免疫算子,模擬退火算法的思想,提出多特征演化聯(lián)合聚類。多特征演化聯(lián)合聚類,第一步將在每個時間步確定聚簇數(shù)k,利用SCAM算法算出當前的聚類模型,第二步將時間步確定聚簇數(shù)k與聚類模型進行比較分析。如果在此過程中有異樣效果出現(xiàn),就說明整個過程發(fā)生了演化事件。GADEFCM算法利用完善后的掩碼方式動態(tài)來計算信息數(shù)據(jù)聚類中心數(shù)目,將數(shù)據(jù)信息的集合體劃分為兩個小群,然后分別用遺傳算法和差異演化算法對兩個小群進行計算演化,小群中的個體執(zhí)行FCM操作并按規(guī)則進一步將算法收斂速度加快。兩個小群在演化過程中處于相互協(xié)作的狀態(tài),并且基于不同的間隔遷移策略,充分利用差異演化算法的局部搜索能力與遺傳算法的全局探索能力,兩個小群之間進行優(yōu)良個體引導搜索過程的交換。四、結(jié)束語綜上所述,微博信息數(shù)據(jù)分析的應用表現(xiàn)出明顯的的時間異步、空間分散的異構(gòu)以及異質(zhì)數(shù)據(jù)流。信息數(shù)據(jù)間的演化聚類分析,將會是我們進一步進行研究的方向。我們繼續(xù)研究如何實現(xiàn)在給定一定的聚類數(shù)限制下,自動確定聚類數(shù)。基于多特征演化聯(lián)合聚類的在線微博信息劃分方法研究使其更好更準確地劃分動態(tài)的微博輿情。
參考文獻:
[1]王永恒,賈焰,楊樹強.大規(guī)模文本數(shù)據(jù)庫中的短文本分類方法[J].計算機工程與應用,2006,(22).
[2]甄彤.基于層次與劃分方法的聚類算法研究[J].計算機工程與應用,2006,42(8).
[3]曹洪其,余嵐,孫志揮.基于網(wǎng)格聚類技術(shù)的離群點挖掘算法[J].計算機工程,2006,(6).
[4]孫玉芬.基于網(wǎng)格方法的聚類算法研究[J].華中科技大學,2006.基金項目:黑龍江省2012年度科學技術(shù)研究(面上)項目“基于演化的微博輿情劃分方法研究(項目編號:12521578)”的研究成果之一。