亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文論壇內(nèi)容監(jiān)測(cè)的方法研究

2012-10-15 01:51:32郝秀蘭胡運(yùn)發(fā)

中文信息學(xué)報(bào) 2012年3期

郝秀蘭，胡運(yùn)發(fā)，申情

（1.湖州師范學(xué)院信息與工程學(xué)院，浙江湖州313000；2.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，上海200433）

網(wǎng)絡(luò)論壇中（又稱BBS）的帖子同所有的用戶生成內(nèi)容（User－generated Content，UGC）一樣，具有以下特點(diǎn)：可以為不同背景、身份的用戶所創(chuàng)建；質(zhì)量參差不齊，描述語言豐富多彩——書面語、口語、網(wǎng)絡(luò)用語等。如何對(duì)這些雜亂無章的內(nèi)容進(jìn)行監(jiān)控是安全部門所關(guān)心的重點(diǎn)之一，話題識(shí)別與跟蹤（Topic Detection and Tracking，TDT）是監(jiān)控的有效手段之一。

話題檢測(cè)與跟蹤是一項(xiàng)針對(duì)新聞報(bào)道進(jìn)行信息識(shí)別、挖掘和組織的研究［1］。話題由一個(gè)種子事件以及后續(xù)直接相關(guān)的事件或活動(dòng)組成；子話題是針對(duì)其中某一事件的相關(guān)描述；事件則定義為發(fā)生于特定時(shí)間和特定地點(diǎn)的事情。例如，“2001年9月11日針對(duì)美國(guó)世貿(mào)和五角大樓的恐怖襲擊”是話題“911”的種子事件，它與“災(zāi)后處理”、“嫌疑犯調(diào)查”和“國(guó)際社會(huì)援助”等后續(xù)相關(guān)事件構(gòu)成完整的“911”話題，其中對(duì)每個(gè)真實(shí)事件的相關(guān)描述構(gòu)成了該話題內(nèi)的不同子話題。但是，從種子事件到“災(zāi)后處理”，話題已發(fā)生了“漂移”。

在TDT評(píng)測(cè)中，話題是由Nt個(gè)描述該話題的報(bào)道定義的。跟蹤系統(tǒng)根據(jù)給定的Nt個(gè)報(bào)道進(jìn)行訓(xùn)練，并對(duì)后繼的新聞報(bào)道流判斷出他們是否與給定的話題相關(guān)。

針對(duì)BBS的特點(diǎn)先提出了一個(gè)基線模型、一個(gè)解決“話題漂移”現(xiàn)象的改進(jìn)模型、權(quán)重調(diào)節(jié)模型。從應(yīng)對(duì)BBS帖子的不規(guī)范性及提高中文TDT系統(tǒng)的處理速度出發(fā)，提出了一種新的中文特征抽取方法。實(shí)驗(yàn)結(jié)果顯示，該方法是有效的。

1 研究現(xiàn)狀

2004年TDT評(píng)測(cè)結(jié)束之后，國(guó)外文獻(xiàn)有關(guān)TDT的介紹較少。這里介紹的國(guó)外文獻(xiàn)絕大部分是2004年之前在TDT方面的研究，無論從問題定義、還是方法上，對(duì)TDT的研究都有重大影響和意義。國(guó)內(nèi)的相關(guān)研究更側(cè)重基于TDT本身的特色進(jìn)行探索，在方法上注重統(tǒng)計(jì)策略和自然語言處理技術(shù)相結(jié)合，在研究趨勢(shì)上逐步面向融入數(shù)據(jù)挖掘、信息抽取和篇章理解等相關(guān)技術(shù)。

1.1 話題跟蹤

傳統(tǒng)話題跟蹤主要基于統(tǒng)計(jì)，根據(jù)特征的概率分布，采用統(tǒng)計(jì)策略判別報(bào)道與話題模型的相關(guān)性。James Allan［2］采用Rocchio算法實(shí)施跟蹤。Franz等［3］則嘗試采用聚類方法將話題識(shí)別系統(tǒng)轉(zhuǎn)化成跟蹤系統(tǒng)。

基于統(tǒng)計(jì)策略的適應(yīng)性話題跟蹤核心思想是系統(tǒng)可以根據(jù)偽相關(guān)反饋對(duì)話題模型進(jìn)行自學(xué)習(xí)。在偽反饋過程中，所加入的話題只是種子事件的某一側(cè)面，會(huì)引起“話題漂移”。

為解決這一問題，LIMSI［4］在原有自學(xué)習(xí)過程中嵌入二次閾值截取功能，來削弱話題漂移。王會(huì)珍［5］采用增量式方法對(duì)話題跟蹤模型進(jìn)行修正，在修正時(shí)考慮話題跟蹤任務(wù)基于時(shí)間的特點(diǎn)。鄭偉［6］基于改進(jìn)的相關(guān)性模型，對(duì)跟蹤中偽相關(guān)反饋包含的新穎信息進(jìn)行檢測(cè)和建模，跟蹤話題漂移。張輝等［7］針對(duì)新聞報(bào)道的特點(diǎn)，用三個(gè)維度：標(biāo)題特征、內(nèi)容特征、實(shí)體特征來刻畫一個(gè)文檔，構(gòu)成三維文檔向量3DVM，并構(gòu)建自適應(yīng)的、基于kNN的追蹤器。

1.2 話題識(shí)別

統(tǒng)計(jì)模型的最大缺陷在于無法有效區(qū)分同一話題下的不同事件。Kumaran［8］、Yang［9］等學(xué)者使用自然語言處理（NLP）技術(shù)輔助統(tǒng)計(jì)策略解決新事件識(shí)別問題。Kumaran［8］將報(bào)道描述成三種向量空間：全集特征向量、僅包含NE的特征向量和排除NE的特征向量。Kumaran對(duì)比了三種向量空間模型對(duì)新事件識(shí)別的影響，發(fā)現(xiàn)NE在某些話題中可促進(jìn)事件之間的區(qū)分，在另一些話題中效果卻不明顯。針對(duì)這一現(xiàn)象，Zhang Kuo［10］基于χ2分布統(tǒng)計(jì)TDT2中各NE類別與各話題類別的關(guān)聯(lián)性，并將這一關(guān)聯(lián)性的量化指標(biāo)融入特征權(quán)重的再分配。

陳友等［11］提出一種基于噪音過濾的話題發(fā)現(xiàn)模型，從內(nèi)容和用戶參與度兩個(gè)角度來檢測(cè)論壇話題。

Zhang［12］提出了基于話題的 T－tf×idf權(quán)重方式來度量模型中特征的重要性，用動(dòng)態(tài)話題模型來解決兩個(gè)問題：話題漂移及話題中的噪聲。

陳友等［13］提出了一種通用的高質(zhì)量主題發(fā)現(xiàn)框架，利用基于遺傳算法、禁忌搜索與機(jī)器學(xué)習(xí)的特征選擇算法提取內(nèi)容特征，利用結(jié)構(gòu)特征去發(fā)現(xiàn)高質(zhì)量主題。

綜上所述，在TDT領(lǐng)域，為了提高識(shí)別與跟蹤性能，人們采用了統(tǒng)計(jì)與NLP相結(jié)合的方法，同時(shí)采用了多種方法并用的策略。在處理具體問題時(shí)，還考慮問題本身的特點(diǎn)。

2 話題跟蹤模型選擇

2.1 BBS帖子的特點(diǎn)

在BBS中，每一篇帖子都具有如下信息：發(fā)帖人標(biāo)識(shí)、標(biāo)題、內(nèi)容、所屬版塊（也稱為社區(qū)）、發(fā)帖人IP地址、發(fā)帖時(shí)間等。例如，復(fù)旦日月光華BBS的新聞版塊主要包括以下幾個(gè)子社區(qū)：時(shí)事、房地產(chǎn)、海峽兩岸、證券投資／財(cái)經(jīng)、軍事等。

內(nèi)容相同的帖子，可能會(huì)發(fā)表在不同的社區(qū)。如，“黎巴嫩身上的三座大山：戰(zhàn)火把它變成戰(zhàn)爭(zhēng)代名詞”，有的人喜歡把它放在時(shí)事區(qū)，而有的人則會(huì)把它放在軍事區(qū)，還有人會(huì)把它同時(shí)放在這兩個(gè)社區(qū)里。也有可能被人從一個(gè)社區(qū)轉(zhuǎn)載到另一個(gè)社區(qū)。

同一標(biāo)題下的帖子，通常第一個(gè)發(fā)帖人（樓主）的帖子較長(zhǎng)，而回帖通常較短。

中文BBS的寫法更為隨意，有的人從頭到尾一個(gè)標(biāo)點(diǎn)符號(hào)都不使用，只是使用換行；用語也更為豐富，漢語中夾雜有英文、英文縮寫、拼音、拼音縮寫，還有許多網(wǎng)絡(luò)用語，例如，“頂”、“ding”等都是常用詞匯。

2.2 基本模型

2.2.1 BBS中帖子的表示

面向BBS的話題識(shí)別與跟蹤仍然采用向量空間模型VSM來描述每一個(gè)帖子。對(duì)帖子首先進(jìn)行分詞處理，濾掉停用詞。特征權(quán)重采用增量式TFIDF。用到的標(biāo)記符號(hào)及其含義如表1所示。

表1 標(biāo)記符號(hào)及其含義

在t時(shí)刻包含w的帖子數(shù)為：

時(shí)刻t收到的帖子s表示為

特征的權(quán)重表示為

對(duì)于較長(zhǎng)的帖子，從帖子中選擇權(quán)重排在前1 000的特征來表示該帖子的內(nèi)容。1 000個(gè)詞語足以使得大部分帖子的所有特征都包含進(jìn)來，特別長(zhǎng)的帖子用更為集中的特征來表示。

2.2.2 帖子的相似度計(jì)算

仍然采用余弦法來計(jì)算兩個(gè)帖子之間的相似度：

2.2.3 識(shí)別與跟蹤過程

整個(gè)識(shí)別與跟蹤過程采用TOD＋類心（Centroid）法。TOD算法即閾值順序依賴聚類算法，顧名思義，與閾值及數(shù)據(jù)的輸入順序密切相關(guān)，是一種單遍（Single－pass）聚類算法。在沒有話題可跟蹤時(shí)，只執(zhí)行話題識(shí)別任務(wù)：

○ 首先按時(shí)間順序?qū)μ舆M(jìn)行排序；

○第一個(gè)話題：將出現(xiàn)最早的、由樓主發(fā)出的帖子及其跟帖組成的所有帖子，看作是一個(gè)類，形成偽類心，然后計(jì)算每個(gè)帖子與類心的相似度：

如果相似度小于一定閾值t1，則把這個(gè)帖子剔除出去；

否則，保留該帖；

最后再用保留的帖子計(jì)算真實(shí)類心；

○ 以后的每個(gè)話題都按第一個(gè)話題的方法，先產(chǎn)生偽類心，再產(chǎn)生真實(shí)類心，與前面的話題的真實(shí)類心進(jìn)行相比：

如果與所有的話題相比，相似度都小于一定的閾值t2，則產(chǎn)生一個(gè)新的話題；

否則，歸入與它相似度最高的話題。

整個(gè)過程，可看作是兩個(gè)算法的嵌套，外層用的是TOD算法，內(nèi)層用的是類心法。

對(duì)話題識(shí)別任務(wù)稍作修改，即可用于跟蹤任務(wù)：

對(duì)于每一待處理的話題，首先與需要跟蹤的話題進(jìn)行相比，

如果相似度大于一定閾值t2，那么就認(rèn)為是on－topic；

否則，用與話題識(shí)別相同的方法進(jìn)行處理。

算法采用的是雙閾值方法，一個(gè)是計(jì)算同一標(biāo)題下的跟帖是否與樓主討論的話題一致的閾值t1——標(biāo)題內(nèi)相似度閾值；另外，是后續(xù)話題與前面已產(chǎn)生話題進(jìn)行比較的閾值t2，即判斷該話題是否是一個(gè)新話題——新話題閾值。

我們假設(shè)大多數(shù)的回帖都與樓主的帖子相關(guān)，所以標(biāo)題內(nèi)相似度閾值t1的設(shè)置較小。而進(jìn)行跟蹤時(shí)所用到的閾值t2相對(duì)t1來說要大得多，可以通過它來控制所能跟蹤到的帖子的數(shù)量。

2.3 改進(jìn)的識(shí)別與跟蹤過程

為了應(yīng)對(duì)“話題漂移”現(xiàn)象，對(duì)上面的基準(zhǔn)模型進(jìn)行了修改，每個(gè)模型用兩個(gè)向量表示：

（1）種子向量

其中，s1表示關(guān)于某話題的首次帖子，即相應(yīng)話題的樓主的帖子。由于標(biāo)題是對(duì)帖子內(nèi)容的概括，其中的詞含有表示帖子話題的詞。對(duì)于s1中出現(xiàn)的標(biāo)題title中的詞，我們對(duì)其權(quán)重進(jìn)行加重處理，即

（2）后續(xù)話題向量

假設(shè)話題Ti有N 個(gè)帖子，也就是有N－1個(gè)是跟蹤到的帖子，那么可用Trcaked向量來表示跟蹤到的后續(xù)話題向量：

其中，weight（Ti，N－1，wx）表示話題Ti后續(xù)帖子有N－1個(gè)時(shí)，后續(xù)話題向量中特征wx的權(quán)重。在時(shí)刻t，若又有一個(gè)帖子sk跟蹤到，那么Ti中將有N個(gè)跟蹤到的帖子，此時(shí)，后續(xù)話題向量權(quán)重的更新公式為

其中，sim（sk，Ti）表示話題Ti與帖子sk的相似度。也就是說，后續(xù)話題中出現(xiàn)的詞的權(quán)重已經(jīng)按其與話題的相似度進(jìn)行了加權(quán)，在一定程度上可以抑制與它相近而與原話題相差較遠(yuǎn)的帖子的加入。

帖子s與話題Ti的相關(guān)度計(jì)算公式為：

2．4 權(quán)重改進(jìn)模型

在這里我們借鑒Zhang Kuo［10］的思想，引入基于詞類及文本類別的權(quán)重調(diào)節(jié)。

詞類包括命名實(shí)體（人名、地名、組織名、日期、貨幣）、名詞、動(dòng)詞、形容詞、副詞。不同的詞類在不同的話題間的作用是不同的，對(duì)特征權(quán)重按下式進(jìn)行更新：

其中，type（w）為 w 的詞類，class（s）為s所屬文本類別，αck是類c、詞類為k的詞的權(quán)重調(diào)節(jié)參數(shù)。對(duì)于BBS的輿情監(jiān)督而言，較重要的信息有以下幾類：丑聞、犯罪、災(zāi)害、軍事、財(cái)經(jīng)等。參照Zhang Kuo［10］，αck的取值如表2所示。

表2 詞類在不同文本類別中的加權(quán)值

在本模型中，由于用到了文本類別，所以在實(shí)施話題識(shí)別與跟蹤前，需要對(duì)時(shí)事區(qū)中的帖子進(jìn)行分類。因樓主的帖子所包含的信息量較大，先對(duì)樓主的帖子進(jìn)行分類，跟帖的類別設(shè)置與樓主的帖子一致。我們使用kNN文本分類方法對(duì)樓主的帖子進(jìn)行處理。動(dòng)詞的加權(quán)值與名詞一樣，副詞的加權(quán)值與形容詞一樣。

3 特征選擇

常用的文檔特征有詞、短語和N－gram項(xiàng)，詞語是最直觀的表征文檔語義特征的方法。對(duì)于中文來說，需要借助于詞典和使用分詞技術(shù)。

為了在分類過程擺脫復(fù)雜的分詞程序，周［14－15］用N－gram項(xiàng)作為文檔的特征。但是，N－grams項(xiàng)的語義顯然沒有真正的詞那么明顯；同時(shí)，N－gram項(xiàng)的數(shù)目遠(yuǎn)遠(yuǎn)大于詞典中詞的數(shù)目，使算法的時(shí)間和空間消耗大大增加。

詞性也常常與其他種類的特征一起使用。例如，2．4節(jié)中與文本類別結(jié)合，對(duì)特征的權(quán)重進(jìn)行調(diào)節(jié)。

在構(gòu)建BBS話題識(shí)別與跟蹤系統(tǒng)中，考慮到帖子的不規(guī)范性及TDT系統(tǒng)的處理效率，我們嘗試使用了一種新的特征抽取方法——基于二元的準(zhǔn)詞匯抽取方法。使用了以下幾個(gè)詞表：普通的準(zhǔn)二字詞表（由二字詞、多字詞處理而成）、地名詞表。

3．1 普通詞表

由機(jī)器可讀詞典《現(xiàn)代漢語詞典》中的詞匯整理而成。一方面，由于單字詞的歧義很大，對(duì)區(qū)分話題的貢獻(xiàn)不大；另一方面，隨著抽取的2－grams的數(shù)目的增加，分類性能在不斷增加［15］，所以在普通詞表中，我們只收錄了二字及二字以上的詞匯。對(duì)于二字以上詞匯，進(jìn)行如下處理：

設(shè)wordm＝τi1…τin，n＞2，那么可以把它拆分成n－1個(gè)二元項(xiàng)，即

例如，“精益求精”經(jīng)過處理后，變成三個(gè)字串“精益”、“益求”、“求精”；而“計(jì)算機(jī)”經(jīng)過處理，變成兩個(gè)字串“計(jì)算”、“算機(jī)”。最后，我們得到一個(gè)包含47 909個(gè)長(zhǎng)度為兩個(gè)漢字的準(zhǔn)詞匯表general＿bigram。

定義1 如果tf（s，w）＞1，那么詞w 在報(bào)道s中的出現(xiàn)次數(shù)是頻繁的。

定義2 如果dft（w）＞2，那么詞w在時(shí)刻t是頻繁的。

定理1 如果wordin在文檔s中是頻繁的，公式（11）的分解保證了τi1τi2，…，τi，n－1τin的頻繁性質(zhì)。

證明：由Apriori性質(zhì)證明，證明過程略。

定理2 在文檔s中，如果τi1…τi，n－1，τi2…τin是頻繁的，那么可以用它來生成1個(gè)長(zhǎng)度為n的候選頻繁串。

定理3 在文檔s中，如果wordin是頻繁的，那么按式（11）分解之后的二元串不會(huì)破壞wordin的n元頻繁性，即wordin是可恢復(fù)的，且恢復(fù)后仍是頻繁的。

定理4 在文檔s中，對(duì)所有的長(zhǎng)度大于2的頻繁普通詞按式（11）分解之后得到的二元串不會(huì)損失原有的詞信息。

由于篇幅所限，我們省略了以上定理的證明。

3.2 地名詞表

對(duì)于中國(guó)地名，我們收集了縣、區(qū)以上的地名共2 834個(gè)，并對(duì)其進(jìn)行了縮寫處理。例如，“吉林省延邊朝鮮族自治州”縮寫為“延邊”等，這樣的特征更符合BBS發(fā)帖人的習(xí)慣。處理后得到的地名分布見表3。

表3 中國(guó)縣級(jí)以上地名長(zhǎng)度及其分布

由表3可以得知，中國(guó)90%以上的縣級(jí)以上地名都可用兩個(gè)漢字來標(biāo)識(shí)。對(duì)于三字及以上地名，我們也將其拆分為二元串，經(jīng)過處理后，得到了3 039個(gè)二元字串。

對(duì)于外國(guó)地名，我們收集了240個(gè)國(guó)家和地區(qū)及其首都的名稱，長(zhǎng)度及分布見表4。按式（11）分別拆分為二元串，得到了978個(gè)二元字串。

將中國(guó)地名二元字串及外國(guó)地名二元字串合并，最后得到一個(gè)包含3 981個(gè)二元字串的地名詞表place＿bigram。

表4 世界各國(guó)、首都地名長(zhǎng)度及其分布

3.3 未登錄詞表

對(duì)于帖子標(biāo)題，我們采用2－grams方法進(jìn)行處理，以識(shí)別到gengeral＿bigram、place＿bigram 中未收錄的地名、人名、組織機(jī)構(gòu)名等未登錄詞，將其放入unknown＿bigram中。

例1俄羅斯無法確認(rèn)車臣匪首巴薩耶夫尸體

在例1里共有16個(gè)二元串，其中：俄羅、羅斯、無法、確認(rèn)、匪首、尸體六個(gè)二元串可以由gengeral＿bigram、place＿bigram表確定為有意義的二元串。對(duì)于其他的二元串，可采用以下規(guī)則來修剪無意義的二元串。

R1對(duì)于字符串τi－2τi－1τiτi＋1τi＋2τi＋3，如果τi－2τi－1、τi＋2τi＋3是有意義的二元串，而τi－1τi、τiτi＋1、τi＋1τi＋2不能確定是否有意義，那么將τi－1τi、τi＋1τi＋2當(dāng)作無意義的子串丟棄。

在例1里，斯無、法確、認(rèn)車、首巴、臣匪、夫尸可用此規(guī)則修剪掉。最后可以得到以下四個(gè)未登錄的二元串：車臣、巴薩、薩耶、耶夫。

R2如果未登錄的二元串τiτi＋1出現(xiàn)在樓主的帖子s1中，那么保留；否則，修剪。

由于帖子標(biāo)題的長(zhǎng)度有限，用此方法進(jìn)行處理既不耗時(shí)，又可以識(shí)別潛在的有意義的詞。

3.4 單字名詞表

包括地名的簡(jiǎn)稱表abbr＿place、化學(xué)元素表chem＿element等。

有了以上詞表，我們就可以構(gòu)造如圖1所示的基于二元的準(zhǔn)詞匯抽取過程。與純2－grams相比，本方法在抽取二元特征的過程中避開了大量的無意義的二元串，從而提高了算法的時(shí)間效率和空間效率。由于避免了復(fù)雜分詞技術(shù)的使用，所以本特征抽取算法的時(shí)間效率要好于分詞算法。所抽取到的特征接近分詞程序（不會(huì)損失二字及二字以上的詞信息）。

圖1 基于二元的準(zhǔn)詞匯抽取過程

4 實(shí)驗(yàn)設(shè)置

4.1 數(shù)據(jù)集

由于沒有規(guī)范的語料，項(xiàng)目組從復(fù)旦大學(xué)日月光華BBS站上下載了一部分帖子，共有9 397篇帖子，進(jìn)行了實(shí)驗(yàn)。

4.2 評(píng)測(cè)

從漏檢和誤檢兩個(gè)角度進(jìn)行評(píng)測(cè)，公式如下：

其中，PMiss和PFA分別表示系統(tǒng)的漏檢率和誤檢率，漏檢即為系統(tǒng)未識(shí)別出新話題，誤檢則是系統(tǒng)將舊話題的后續(xù)相關(guān)報(bào)道誤判為新話題；CMiss和CFA分別代表漏檢和誤檢的代價(jià)系數(shù)；Ptarget和Pnon－target是先驗(yàn)?zāi)繕?biāo)概率。檢測(cè)錯(cuò)誤代價(jià)CDet的規(guī)范化形式 Norm（CDet）如式（13）。

NIST面向TDT研究提供了可視化的評(píng)測(cè)工具，即檢測(cè)錯(cuò)誤權(quán)衡圖（Detection Error Tradeoff，DET）。由于系統(tǒng)漏檢與誤檢的概率越低，其性能越好，因此DET曲線越靠近坐標(biāo)系的左下角代表系統(tǒng)性能更優(yōu)。DET曲線上的最小規(guī)范化指標(biāo)代表檢測(cè)系統(tǒng)的最佳性能，簡(jiǎn)寫為Min Norm（Cost）。

計(jì)算時(shí)，設(shè)CMiss＝1，CFA＝0.1；Ptarget＝0.1①通常Ptarget設(shè)為0.02。在面向BBS的話題識(shí)別與跟蹤中，主要識(shí)別當(dāng)前熱門討論的話題，因而目標(biāo)出現(xiàn)的概率較高，我們采用了常用的10～90原則，即經(jīng)常出現(xiàn)的話題占10%，另外一些不常見的話題占90%。。

4.3 閾值設(shè)置

人工對(duì)9 397篇帖子中的兩個(gè)話題：“黎巴嫩正式對(duì)以宣戰(zhàn)”、“朝鮮拒絕安理會(huì)導(dǎo)彈問題決議”進(jìn)行了標(biāo)注。經(jīng)過對(duì)這兩個(gè)話題的識(shí)別與跟蹤進(jìn)行分析，發(fā)現(xiàn)t2設(shè)為0.2時(shí)效果較好。t2值太大，發(fā)現(xiàn)不了新的相關(guān)話題，即漏報(bào)率PMiss太大；t2太小，則引入過多的噪聲，即誤報(bào)率PFA太大。

相似度計(jì)算中的α與鄭［6］一樣，設(shè)置為0.5。

4.4 實(shí)驗(yàn)結(jié)果

4.4.1 模型比較

為了對(duì)本文所提的方法進(jìn)行測(cè)試，我們?cè)O(shè)計(jì)并測(cè)試了三個(gè)系統(tǒng)?；€模型：實(shí)現(xiàn)了2.2節(jié)所介紹的基本模型；改進(jìn)模型：實(shí)現(xiàn)了2.3節(jié)所介紹的改進(jìn)的話題識(shí)別與跟蹤過程；

權(quán)重調(diào)節(jié)：在改進(jìn)模型的基礎(chǔ)上，加入了zhang［10］所述的權(quán)重調(diào)節(jié)過程。

如圖2所示，改進(jìn)模型優(yōu)于基線模型，而權(quán)重調(diào)節(jié)的改進(jìn)模型又優(yōu)于單純的改進(jìn)模型。

各模型的最小規(guī)范化代價(jià)為：

基線模型 Min（CDet）Norm＝0.307 5

改進(jìn)模型 Min（CDet）Norm＝0.280 2

權(quán)重調(diào)節(jié)的改進(jìn)模型

權(quán)重調(diào)節(jié)加改進(jìn)模型較原來的基線系統(tǒng)上升了0.053 9。

4.4.2 特征比較

用純2－grams提取到的特征中無意義的字串比較多，以GB 2312－80國(guó)家標(biāo)準(zhǔn)為例，兩級(jí)字庫中共包括6 763個(gè)漢字，它們的二元組合數(shù)為6 763×6 763＝45 738 169，有四千五百多萬。所以，用純2－grams提取特征，其特征數(shù)會(huì)不斷上升。本文提到的基于二元的準(zhǔn)詞匯抽取中，普通名詞和地名合起來，只有51 890個(gè)詞匯，所以普通詞和地名合起來的上限就是51 890?；诙臏?zhǔn)詞匯抽取中的無意義的詞匯主要在標(biāo)題的2－grams劃分過程中引入，通常標(biāo)題的信息都是有用詞匯，所以在此引入的無意義詞匯是非常有限的。圖3顯示了用純2－grams方法、基于二元的準(zhǔn)詞匯抽取方法抽到的特征數(shù)?？梢钥吹?，隨著帖子數(shù)的上升，純2－grams的特征數(shù)上漲很快。

圖2 面向BBS的DET圖

圖3 不同特征抽取方法所抽到的特征數(shù)比較

4.4.3 時(shí)間比較

受抽取到的特征數(shù)的影響，由圖4可以看到，隨著帖子數(shù)的上升，純2－grams的處理時(shí)間明顯變慢，基于二元準(zhǔn)詞匯的處理時(shí)間變化不大。

圖4 不同特征抽取方法的處理時(shí)間比較

用分詞法取特征的實(shí)驗(yàn)數(shù)據(jù)是經(jīng)過分詞軟件預(yù)處理的，無法與其他兩個(gè)實(shí)驗(yàn)進(jìn)行比較。由于BBS文檔不規(guī)范，加工了近一周時(shí)間，才完成9 397篇語料的分詞及詞性標(biāo)注。

5 討論

在對(duì)現(xiàn)有的話題識(shí)別與跟蹤方法進(jìn)行研究的基礎(chǔ)上，我們提出了三個(gè)面向BBS的話題識(shí)別與跟蹤模型，實(shí)驗(yàn)結(jié)果顯示，所提的模型可以較好地完成識(shí)別與跟蹤任務(wù)。

在實(shí)現(xiàn)面向BBS的話題識(shí)別與跟蹤系統(tǒng)過程中，我們的感受是語料太不規(guī)范。例如，有的人發(fā)表言論時(shí)，不使用標(biāo)點(diǎn)符號(hào)，這就使得依賴于標(biāo)點(diǎn)符號(hào)進(jìn)行文本塊分割的分詞程序顯得無能為力。所以，語料的規(guī)范是面向應(yīng)用時(shí)首先需要解決的問題。

另外，BBS中有“掛羊頭，賣狗肉”現(xiàn)象，看標(biāo)題在說一件事情，但實(shí)際上內(nèi)容與標(biāo)題是不一致的，也是一種變相的“話題漂移”。怎么樣識(shí)別同一標(biāo)題下，內(nèi)容不屬同一話題的帖子，也是一個(gè)值得研究的問題。

［1］Yang Y，Carbonell J，Brown R，et al.Learning Approaches for Detecting and Tracking News Events［J］.In IEEE Intelligent Systems Special Issue on Applications of Intelligent Information Retrieval，14（4），1999：32－43.

［2］J.Allan，R.Papka，V.Lavrenko.On－line New Event Detection and Tracking ［C］／／Proceedings of SIGIR'98.University of Massachussetts：Amherst，1998，37－45.

［3］M.Franz，J. S. McCarley. Unsupervised and supervised clustering for topic tracking ［C］／／Proceedings of the 24th annual international ACM SIGIR，New Orleans，Louisiana，USA：ACM，2001：310－317.

［4］Y.Lo，J.L.Gauvain.The LIMSI Topic Tracking System for TDT 2002 ［C］／／Topic Detection and Tracking Workshop，Gaithersburg，USA，2002.

［5］王會(huì)珍，朱靖波，季鐸，等.基于反饋學(xué)習(xí)自適應(yīng)的中文話題跟蹤［J］.中文信息學(xué)報(bào)，2006，20（3）：92－98.

［6］鄭偉，張宇，鄒博偉，等.基于相關(guān)性模型的中文話題跟蹤研究［C］／／全國(guó)第九屆計(jì)算語言學(xué)學(xué)術(shù)會(huì)議，2007：558－563.

［7］張輝，周敬民，王亮，等.基于三維文檔向量的自適應(yīng)話題追蹤器模型［J］.中文信息學(xué)報(bào)，2010，24（5）：70－76.

［8］G.Kumaran，J.Allan.Text classification and named entities for new event detection ［C］／／Proceedings of the SIGIR Conference on Research and Development in Information Retrieval.Sheffield，South Yorkshire：ACM，2004：297－304.

［9］Y.Yang，J.Carbonell，etc.Topic－conditioned novelty detection ［C］／／Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York：ACM Press，2002：688－693.

［10］Zhang Kuo，Li Juan Zi， Wu Gang.New Event Detection Based on Indexing－tree and Named Entity［C］／／Proceedings of the SIGIR 2007， ACM：Amsterdam，2007：215－222.

［11］陳友，程學(xué)旗，楊森，等.面向網(wǎng)絡(luò)論壇的突發(fā)話題發(fā)現(xiàn)［J］.中文信息學(xué)報(bào)，2010，24（3）：29－36.

［12］X.Zhang，T.Wang.Topic Tracking with Dynamic Topic Model and Topic－based Weighting Method［J］.Journal of Sofware，2010，5（5）：482－489.

［13］陳友，程學(xué)旗，楊森，等.面向網(wǎng)絡(luò)論壇的高質(zhì)量主題發(fā)現(xiàn)［J］.軟件學(xué)報(bào)，2011，22（8）：1785－1804.

［14］周水庚，關(guān)佶紅，俞紅奇，等.基于N－gram信息的中文文檔分類研究［J］.中文信息學(xué)報(bào)，2001，15（1）：34－39.

［15］周水庚，關(guān)佶紅，胡運(yùn)發(fā)，等.一個(gè)無需詞典支持和切詞處理的中文文檔分類系統(tǒng)［J］.計(jì)算機(jī)研究與發(fā)展，2001，38（7）：839－844.