〔摘要〕目的:在使用數(shù)據(jù)挖掘發(fā)現(xiàn)BBS熱點(diǎn)話(huà)題的過(guò)程中,標(biāo)題的重要性經(jīng)常被忽略。本文旨在論證和凸顯標(biāo)題在BBS熱點(diǎn)話(huà)題挖掘中的重要作用,同時(shí)區(qū)別在BBS熱點(diǎn)話(huà)題挖掘時(shí)標(biāo)題和文本內(nèi)容作用的不同。 方法:以南京大學(xué)小百合BBS的每日10大熱門(mén)話(huà)題帖子的標(biāo)題為數(shù)據(jù)樣本,采用凝聚式層次聚類(lèi)法進(jìn)行數(shù)據(jù)的聚類(lèi)。結(jié)果:將270條樣本數(shù)據(jù)聚為單類(lèi),選取其中有代表性的前五組進(jìn)行討論。結(jié)論:僅憑標(biāo)題內(nèi)容就能夠有效挖掘出在一段時(shí)間內(nèi)BBS上的熱點(diǎn)主題,證明了標(biāo)題在BBS熱點(diǎn)話(huà)題挖掘中的重要性。
〔關(guān)鍵詞〕BBS;熱點(diǎn)話(huà)題;數(shù)據(jù)挖掘;凝聚式層次聚類(lèi)
〔中圖分類(lèi)號(hào)〕G250.7〔文獻(xiàn)標(biāo)識(shí)碼〕B〔文章編號(hào)〕1008-0821(2013)01-0162-04
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)為我國(guó)鍛造出一個(gè)全新的輿情傳播機(jī)制,BBS是該機(jī)制中的重要元素之一。目前,幾乎所有國(guó)內(nèi)門(mén)戶(hù)網(wǎng)站都開(kāi)設(shè)有BBS論壇,全國(guó)BBS論壇數(shù)量己超過(guò)百萬(wàn)個(gè),位居全球之首[1]。大學(xué)是社會(huì)思想最先進(jìn)而集中的地方,各個(gè)大學(xué)都擁有自己的BBS,從不同的主題角度為學(xué)生提供了思想交匯和討論的平臺(tái)。例如北京大學(xué)的未名BBS,清華大學(xué)的水木清華BBS,復(fù)旦大學(xué)的日月光華BBS,南京大學(xué)小百合BBS等等。截止到2012年7月,網(wǎng)民職業(yè)中,學(xué)生占比為28.6%,遠(yuǎn)遠(yuǎn)高于其他群體[2],他們?cè)诰W(wǎng)上留下的言論和評(píng)論散布在網(wǎng)絡(luò)的各個(gè)角落,尤其集中在大學(xué)校園內(nèi)的BBS上。正是由于這些原因,導(dǎo)致在海量的BBS信息中發(fā)掘熱點(diǎn)主題成為了一個(gè)值得研究的方向;而大學(xué)的校園BBS則成為理想的樣本采集場(chǎng)所。
對(duì)于熱點(diǎn)話(huà)題挖掘(Hot Topic Mining)的研究較早出現(xiàn)在話(huà)題識(shí)別與跟蹤(TDT,Topic Detection and Tracking)領(lǐng)域 [3]。近期的研究多是對(duì)BBS進(jìn)行Web內(nèi)容挖掘,文獻(xiàn)[1,4,5]都利用這個(gè)思想開(kāi)發(fā)了管理BBS的輿情監(jiān)控系統(tǒng)。但是,他們?cè)谙到y(tǒng)設(shè)計(jì)的過(guò)程中都忽略了BBS系統(tǒng)中帖子標(biāo)題獨(dú)具的特點(diǎn)。在這個(gè)快節(jié)奏的時(shí)代,一個(gè)引人注目的標(biāo)題才是促使用戶(hù)瀏覽的關(guān)鍵。此外,BBS上想表達(dá)的主題觀點(diǎn)有時(shí)十分短小,也許只是一個(gè)問(wèn)題的提出。比如,有的發(fā)帖者會(huì)將想表達(dá)的所有內(nèi)容都集中在標(biāo)題上,而帖子內(nèi)容僅為“如題”?;蛘咛拥臉?biāo)題也可能僅僅是一個(gè)為了引起他人的關(guān)注的關(guān)鍵詞。這些特點(diǎn)更加說(shuō)明了“標(biāo)題”對(duì)于BBS內(nèi)容和觀點(diǎn)的反映程度之高。因此某些模型中將帖子內(nèi)容和標(biāo)題賦予相同的權(quán)重會(huì)影響到聚類(lèi)分析結(jié)果的準(zhǔn)確性。
本文以南京大學(xué)小百合BBS為例,以“全站十大”的標(biāo)題數(shù)據(jù)為基礎(chǔ),嘗試通過(guò)層次聚類(lèi)的方法識(shí)別熱點(diǎn)話(huà)題。
基于標(biāo)題的BBS熱點(diǎn)話(huà)題挖掘1研究方法
1.1數(shù)據(jù)獲取
南京大學(xué)小百合BBS提供了“每日十大熱門(mén)話(huà)題”的統(tǒng)計(jì)功能:通過(guò)統(tǒng)計(jì)回帖的數(shù)量找出全站前十的帖子單獨(dú)列出供用戶(hù)閱覽。其歷史保存在bbslists版中。筆者通過(guò)基于httpClient和htmlParser開(kāi)發(fā)的網(wǎng)頁(yè)數(shù)據(jù)抓取程序獲得數(shù)據(jù),數(shù)據(jù)中包括發(fā)帖人、發(fā)帖版面、發(fā)帖時(shí)間以及其他用來(lái)輔助閱讀的提示信息。圖1為原始信息的格式。首行為該歷史記錄帖子的發(fā)帖日期。統(tǒng)計(jì)信息是第二天發(fā)出的,也就是說(shuō)6月1日的“十大熱門(mén)話(huà)題”信息是在6月2日才張貼出來(lái)的。