亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文論壇內(nèi)容監(jiān)測的方法研究

        2012-10-15 01:51:32郝秀蘭胡運發(fā)
        中文信息學報 2012年3期
        關(guān)鍵詞:帖子文檔權(quán)重

        郝秀蘭,胡運發(fā),申 情

        (1.湖州師范學院 信息與工程學院,浙江 湖州313000;2.復旦大學 計算機科學與技術(shù)學院,上海200433)

        網(wǎng)絡論壇中(又稱BBS)的帖子同所有的用戶生成內(nèi)容(User-generated Content,UGC)一樣,具有以下特點:可以為不同背景、身份的用戶所創(chuàng)建;質(zhì)量參差不齊,描述語言豐富多彩——書面語、口語、網(wǎng)絡用語等。如何對這些雜亂無章的內(nèi)容進行監(jiān)控是安全部門所關(guān)心的重點之一,話題識別與跟蹤(Topic Detection and Tracking,TDT)是監(jiān)控的有效手段之一。

        話題檢測與跟蹤是一項針對新聞報道進行信息識別、挖掘和組織的研究[1]。話題由一個種子事件以及后續(xù)直接相關(guān)的事件或活動組成;子話題是針對其中某一事件的相關(guān)描述;事件則定義為發(fā)生于特定時間和特定地點的事情。例如,“2001年9月11日針對美國世貿(mào)和五角大樓的恐怖襲擊”是話題“911”的種子事件,它與“災后處理”、“嫌疑犯調(diào)查”和“國際社會援助”等后續(xù)相關(guān)事件構(gòu)成完整的“911”話題,其中對每個真實事件的相關(guān)描述構(gòu)成了該話題內(nèi)的不同子話題。但是,從種子事件到“災后處理”,話題已發(fā)生了“漂移”。

        在TDT評測中,話題是由Nt個描述該話題的報道定義的。跟蹤系統(tǒng)根據(jù)給定的Nt個報道進行訓練,并對后繼的新聞報道流判斷出他們是否與給定的話題相關(guān)。

        針對BBS的特點先提出了一個基線模型、一個解決“話題漂移”現(xiàn)象的改進模型、權(quán)重調(diào)節(jié)模型。從應對BBS帖子的不規(guī)范性及提高中文TDT系統(tǒng)的處理速度出發(fā),提出了一種新的中文特征抽取方法。實驗結(jié)果顯示,該方法是有效的。

        1 研究現(xiàn)狀

        2004年TDT評測結(jié)束之后,國外文獻有關(guān)TDT的介紹較少。這里介紹的國外文獻絕大部分是2004年之前在TDT方面的研究,無論從問題定義、還是方法上,對TDT的研究都有重大影響和意義。國內(nèi)的相關(guān)研究更側(cè)重基于TDT本身的特色進行探索,在方法上注重統(tǒng)計策略和自然語言處理技術(shù)相結(jié)合,在研究趨勢上逐步面向融入數(shù)據(jù)挖掘、信息抽取和篇章理解等相關(guān)技術(shù)。

        1.1 話題跟蹤

        傳統(tǒng)話題跟蹤主要基于統(tǒng)計,根據(jù)特征的概率分布,采用統(tǒng)計策略判別報道與話題模型的相關(guān)性。James Allan[2]采用Rocchio算法實施跟蹤。Franz等[3]則嘗試采用聚類方法將話題識別系統(tǒng)轉(zhuǎn)化成跟蹤系統(tǒng)。

        基于統(tǒng)計策略的適應性話題跟蹤核心思想是系統(tǒng)可以根據(jù)偽相關(guān)反饋對話題模型進行自學習。在偽反饋過程中,所加入的話題只是種子事件的某一側(cè)面,會引起“話題漂移”。

        為解決這一問題,LIMSI[4]在原有自學習過程中嵌入二次閾值截取功能,來削弱話題漂移。王會珍[5]采用增量式方法對話題跟蹤模型進行修正,在修正時考慮話題跟蹤任務基于時間的特點。鄭偉[6]基于改進的相關(guān)性模型,對跟蹤中偽相關(guān)反饋包含的新穎信息進行檢測和建模,跟蹤話題漂移。張輝等[7]針對新聞報道的特點,用三個維度:標題特征、內(nèi)容特征、實體特征來刻畫一個文檔,構(gòu)成三維文檔向量3DVM,并構(gòu)建自適應的、基于kNN的追蹤器。

        1.2 話題識別

        統(tǒng)計模型的最大缺陷在于無法有效區(qū)分同一話題下的不同事件。Kumaran[8]、Yang[9]等學者使用自然語言處理(NLP)技術(shù)輔助統(tǒng)計策略解決新事件識別問題。Kumaran[8]將報道描述成三種向量空間:全集特征向量、僅包含NE的特征向量和排除NE的特征向量。Kumaran對比了三種向量空間模型對新事件識別的影響,發(fā)現(xiàn)NE在某些話題中可促進事件之間的區(qū)分,在另一些話題中效果卻不明顯。針對這一現(xiàn)象,Zhang Kuo[10]基于χ2分布統(tǒng)計TDT2中各NE類別與各話題類別的關(guān)聯(lián)性,并將這一關(guān)聯(lián)性的量化指標融入特征權(quán)重的再分配。

        陳友等[11]提出一種基于噪音過濾的話題發(fā)現(xiàn)模型,從內(nèi)容和用戶參與度兩個角度來檢測論壇話題。

        Zhang[12]提出了基于話題的 T-tf×idf權(quán)重方式來度量模型中特征的重要性,用動態(tài)話題模型來解決兩個問題:話題漂移及話題中的噪聲。

        陳友等[13]提出了一種通用的高質(zhì)量主題發(fā)現(xiàn)框架,利用基于遺傳算法、禁忌搜索與機器學習的特征選擇算法提取內(nèi)容特征,利用結(jié)構(gòu)特征去發(fā)現(xiàn)高質(zhì)量主題。

        綜上所述,在TDT領(lǐng)域,為了提高識別與跟蹤性能,人們采用了統(tǒng)計與NLP相結(jié)合的方法,同時采用了多種方法并用的策略。在處理具體問題時,還考慮問題本身的特點。

        2 話題跟蹤模型選擇

        2.1 BBS帖子的特點

        在BBS中,每一篇帖子都具有如下信息:發(fā)帖人標識、標題、內(nèi)容、所屬版塊(也稱為社區(qū))、發(fā)帖人IP地址、發(fā)帖時間等。例如,復旦日月光華BBS的新聞版塊主要包括以下幾個子社區(qū):時事、房地產(chǎn)、海峽兩岸、證券投資/財經(jīng)、軍事等。

        內(nèi)容相同的帖子,可能會發(fā)表在不同的社區(qū)。如,“黎巴嫩身上的三座大山:戰(zhàn)火把它變成戰(zhàn)爭代名詞”,有的人喜歡把它放在時事區(qū),而有的人則會把它放在軍事區(qū),還有人會把它同時放在這兩個社區(qū)里。也有可能被人從一個社區(qū)轉(zhuǎn)載到另一個社區(qū)。

        同一標題下的帖子,通常第一個發(fā)帖人(樓主)的帖子較長,而回帖通常較短。

        中文BBS的寫法更為隨意,有的人從頭到尾一個標點符號都不使用,只是使用換行;用語也更為豐富,漢語中夾雜有英文、英文縮寫、拼音、拼音縮寫,還有許多網(wǎng)絡用語,例如,“頂”、“ding”等都是常用詞匯。

        2.2 基本模型

        2.2.1 BBS中帖子的表示

        面向BBS的話題識別與跟蹤仍然采用向量空間模型VSM來描述每一個帖子。對帖子首先進行分詞處理,濾掉停用詞。特征權(quán)重采用增量式TFIDF。用到的標記符號及其含義如表1所示。

        表1 標記符號及其含義

        在t時刻包含w的帖子數(shù)為:

        時刻t收到的帖子s表示為

        特征的權(quán)重表示為

        對于較長的帖子,從帖子中選擇權(quán)重排在前1 000的特征來表示該帖子的內(nèi)容。1 000個詞語足以使得大部分帖子的所有特征都包含進來,特別長的帖子用更為集中的特征來表示。

        2.2.2 帖子的相似度計算

        仍然采用余弦法來計算兩個帖子之間的相似度:

        2.2.3 識別與跟蹤過程

        整個識別與跟蹤過程采用TOD+類心(Centroid)法。TOD算法即閾值順序依賴聚類算法,顧名思義,與閾值及數(shù)據(jù)的輸入順序密切相關(guān),是一種單遍(Single-pass)聚類算法。在沒有話題可跟蹤時,只執(zhí)行話題識別任務:

        ○ 首先按時間順序?qū)μ舆M行排序;

        ○第一個話題:將出現(xiàn)最早的、由樓主發(fā)出的帖子及其跟帖組成的所有帖子,看作是一個類,形成偽類心,然后計算每個帖子與類心的相似度:

        如果相似度小于一定閾值t1,則把這個帖子剔除出去;

        否則,保留該帖;

        最后再用保留的帖子計算真實類心;

        ○ 以后的每個話題都按第一個話題的方法,先產(chǎn)生偽類心,再產(chǎn)生真實類心,與前面的話題的真實類心進行相比:

        如果與所有的話題相比,相似度都小于一定的閾值t2,則產(chǎn)生一個新的話題;

        否則,歸入與它相似度最高的話題。

        整個過程,可看作是兩個算法的嵌套,外層用的是TOD算法,內(nèi)層用的是類心法。

        對話題識別任務稍作修改,即可用于跟蹤任務:

        對于每一待處理的話題,首先與需要跟蹤的話題進行相比,

        如果相似度大于一定閾值t2,那么就認為是on-topic;

        否則,用與話題識別相同的方法進行處理。

        算法采用的是雙閾值方法,一個是計算同一標題下的跟帖是否與樓主討論的話題一致的閾值t1——標題內(nèi)相似度閾值;另外,是后續(xù)話題與前面已產(chǎn)生話題進行比較的閾值t2,即判斷該話題是否是一個新話題——新話題閾值。

        我們假設大多數(shù)的回帖都與樓主的帖子相關(guān),所以標題內(nèi)相似度閾值t1的設置較小。而進行跟蹤時所用到的閾值t2相對t1來說要大得多,可以通過它來控制所能跟蹤到的帖子的數(shù)量。

        2.3 改進的識別與跟蹤過程

        為了應對“話題漂移”現(xiàn)象,對上面的基準模型進行了修改,每個模型用兩個向量表示:

        (1)種子向量

        其中,s1表示關(guān)于某話題的首次帖子,即相應話題的樓主的帖子。由于標題是對帖子內(nèi)容的概括,其中的詞含有表示帖子話題的詞。對于s1中出現(xiàn)的標題title中的詞,我們對其權(quán)重進行加重處理,即

        (2)后續(xù)話題向量

        假設話題Ti有N 個帖子,也就是有N-1個是跟蹤到的帖子,那么可用Trcaked向量來表示跟蹤到的后續(xù)話題向量:

        其中,weight(Ti,N-1,wx)表示話題Ti后續(xù)帖子有N-1個時,后續(xù)話題向量中特征wx的權(quán)重。在時刻t,若又有一個帖子sk跟蹤到,那么Ti中將有N個跟蹤到的帖子,此時,后續(xù)話題向量權(quán)重的更新公式為

        其中,sim(sk,Ti)表示話題Ti與帖子sk的相似度。也就是說,后續(xù)話題中出現(xiàn)的詞的權(quán)重已經(jīng)按其與話題的相似度進行了加權(quán),在一定程度上可以抑制與它相近而與原話題相差較遠的帖子的加入。

        帖子s與話題Ti的相關(guān)度計算公式為:

        2.4 權(quán)重改進模型

        在這里我們借鑒Zhang Kuo[10]的思想,引入基于詞類及文本類別的權(quán)重調(diào)節(jié)。

        詞類包括命名實體(人名、地名、組織名、日期、貨幣)、名詞、動詞、形容詞、副詞。不同的詞類在不同的話題間的作用是不同的,對特征權(quán)重按下式進行更新:

        其中,type(w)為 w 的詞類,class(s)為s所屬文本類別,αck是類c、詞類為k的詞的權(quán)重調(diào)節(jié)參數(shù)。對于BBS的輿情監(jiān)督而言,較重要的信息有以下幾類:丑聞、犯罪、災害、軍事、財經(jīng)等。參照Zhang Kuo[10],αck的取值如表2所示。

        表2 詞類在不同文本類別中的加權(quán)值

        在本模型中,由于用到了文本類別,所以在實施話題識別與跟蹤前,需要對時事區(qū)中的帖子進行分類。因樓主的帖子所包含的信息量較大,先對樓主的帖子進行分類,跟帖的類別設置與樓主的帖子一致。我們使用kNN文本分類方法對樓主的帖子進行處理。動詞的加權(quán)值與名詞一樣,副詞的加權(quán)值與形容詞一樣。

        3 特征選擇

        常用的文檔特征有詞、短語和N-gram項,詞語是最直觀的表征文檔語義特征的方法。對于中文來說,需要借助于詞典和使用分詞技術(shù)。

        為了在分類過程擺脫復雜的分詞程序,周[14-15]用N-gram項作為文檔的特征。但是,N-grams項的語義顯然沒有真正的詞那么明顯;同時,N-gram項的數(shù)目遠遠大于詞典中詞的數(shù)目,使算法的時間和空間消耗大大增加。

        詞性也常常與其他種類的特征一起使用。例如,2.4節(jié)中與文本類別結(jié)合,對特征的權(quán)重進行調(diào)節(jié)。

        在構(gòu)建BBS話題識別與跟蹤系統(tǒng)中,考慮到帖子的不規(guī)范性及TDT系統(tǒng)的處理效率,我們嘗試使用了一種新的特征抽取方法——基于二元的準詞匯抽取方法。使用了以下幾個詞表:普通的準二字詞表(由二字詞、多字詞處理而成)、地名詞表。

        3.1 普通詞表

        由機器可讀詞典《現(xiàn)代漢語詞典》中的詞匯整理而成。一方面,由于單字詞的歧義很大,對區(qū)分話題的貢獻不大;另一方面,隨著抽取的2-grams的數(shù)目的增加,分類性能在不斷增加[15],所以在普通詞表中,我們只收錄了二字及二字以上的詞匯。對于二字以上詞匯,進行如下處理:

        設wordm=τi1…τin,n>2,那么可以把它拆分成n-1個二元項,即

        例如,“精益求精”經(jīng)過處理后,變成三個字串“精益”、“益求”、“求精”;而“計算機”經(jīng)過處理,變成兩個字串“計算”、“算機”。最后,我們得到一個包含47 909個長度為兩個漢字的準詞匯表general_bigram。

        定義1 如果tf(s,w)>1,那么詞w 在報道s中的出現(xiàn)次數(shù)是頻繁的。

        定義2 如果dft(w)>2,那么詞w在時刻t是頻繁的。

        定理1 如果wordin在文檔s中是頻繁的,公式(11)的分解保證了τi1τi2,…,τi,n-1τin的頻繁性質(zhì)。

        證明:由Apriori性質(zhì)證明,證明過程略。

        定理2 在文檔s中,如果τi1…τi,n-1,τi2…τin是頻繁的,那么可以用它來生成1個長度為n的候選頻繁串。

        定理3 在文檔s中,如果wordin是頻繁的,那么按式(11)分解之后的二元串不會破壞wordin的n元頻繁性,即wordin是可恢復的,且恢復后仍是頻繁的。

        定理4 在文檔s中,對所有的長度大于2的頻繁普通詞按式(11)分解之后得到的二元串不會損失原有的詞信息。

        由于篇幅所限,我們省略了以上定理的證明。

        3.2 地名詞表

        對于中國地名,我們收集了縣、區(qū)以上的地名共2 834個,并對其進行了縮寫處理。例如,“吉林省延邊朝鮮族自治州”縮寫為“延邊”等,這樣的特征更符合BBS發(fā)帖人的習慣。處理后得到的地名分布見表3。

        表3 中國縣級以上地名長度及其分布

        由表3可以得知,中國90%以上的縣級以上地名都可用兩個漢字來標識。對于三字及以上地名,我們也將其拆分為二元串,經(jīng)過處理后,得到了3 039個二元字串。

        對于外國地名,我們收集了240個國家和地區(qū)及其首都的名稱,長度及分布見表4。按式(11)分別拆分為二元串,得到了978個二元字串。

        將中國地名二元字串及外國地名二元字串合并,最后得到一個包含3 981個二元字串的地名詞表place_bigram。

        表4 世界各國、首都地名長度及其分布

        3.3 未登錄詞表

        對于帖子標題,我們采用2-grams方法進行處理,以識別到gengeral_bigram、place_bigram 中未收錄的地名、人名、組織機構(gòu)名等未登錄詞,將其放入unknown_bigram中。

        例1俄羅斯無法確認車臣匪首巴薩耶夫尸體

        在例1里共有16個二元串,其中:俄羅、羅斯、無法、確認、匪首、尸體六個二元串可以由gengeral_bigram、place_bigram表確定為有意義的二元串。對于其他的二元串,可采用以下規(guī)則來修剪無意義的二元串。

        R1對于字符串τi-2τi-1τiτi+1τi+2τi+3,如果τi-2τi-1、τi+2τi+3是有意 義的二 元串,而τi-1τi、τiτi+1、τi+1τi+2不能確定是否有意義,那么將τi-1τi、τi+1τi+2當作無意義的子串丟棄。

        在例1里,斯無、法確、認車、首巴、臣匪、夫尸可用此規(guī)則修剪掉。最后可以得到以下四個未登錄的二元串:車臣、巴薩、薩耶、耶夫。

        R2如果未登錄的二元串τiτi+1出現(xiàn)在樓主的帖子s1中,那么保留;否則,修剪。

        由于帖子標題的長度有限,用此方法進行處理既不耗時,又可以識別潛在的有意義的詞。

        3.4 單字名詞表

        包括地名的簡稱表abbr_place、化學元素表chem_element等。

        有了以上詞表,我們就可以構(gòu)造如圖1所示的基于二元的準詞匯抽取過程。與純2-grams相比,本方法在抽取二元特征的過程中避開了大量的無意義的二元串,從而提高了算法的時間效率和空間效率。由于避免了復雜分詞技術(shù)的使用,所以本特征抽取算法的時間效率要好于分詞算法。所抽取到的特征接近分詞程序(不會損失二字及二字以上的詞信息)。

        圖1 基于二元的準詞匯抽取過程

        4 實驗設置

        4.1 數(shù)據(jù)集

        由于沒有規(guī)范的語料,項目組從復旦大學日月光華BBS站上下載了一部分帖子,共有9 397篇帖子,進行了實驗。

        4.2 評測

        從漏檢和誤檢兩個角度進行評測,公式如下:

        其中,PMiss和PFA分別表示系統(tǒng)的漏檢率和誤檢率,漏檢即為系統(tǒng)未識別出新話題,誤檢則是系統(tǒng)將舊話題的后續(xù)相關(guān)報道誤判為新話題;CMiss和CFA分別代表漏檢和誤檢的代價系數(shù);Ptarget和Pnon-target是先驗目標概率。檢測錯誤代價CDet的規(guī)范化形式 Norm(CDet)如式(13)。

        NIST面向TDT研究提供了可視化的評測工具,即檢測錯誤權(quán)衡圖(Detection Error Tradeoff,DET)。由于系統(tǒng)漏檢與誤檢的概率越低,其性能越好,因此DET曲線越靠近坐標系的左下角代表系統(tǒng)性能更優(yōu)。DET曲線上的最小規(guī)范化指標代表檢測系統(tǒng)的最佳性能,簡寫為Min Norm(Cost)。

        計算時,設CMiss=1,CFA=0.1;Ptarget=0.1①通常Ptarget設為0.02。在面向BBS的話題識別與跟蹤中,主要識別當前熱門討論的話題,因而目標出現(xiàn)的概率較高,我們采用了常用的10~90原則,即經(jīng)常出現(xiàn)的話題占10%,另外一些不常見的話題占90%。。

        4.3 閾值設置

        人工對9 397篇帖子中的兩個話題:“黎巴嫩正式對以宣戰(zhàn)”、“朝鮮拒絕安理會導彈問題決議”進行了標注。經(jīng)過對這兩個話題的識別與跟蹤進行分析,發(fā)現(xiàn)t2設為0.2時效果較好。t2值太大,發(fā)現(xiàn)不了新的相關(guān)話題,即漏報率PMiss太大;t2太小,則引入過多的噪聲,即誤報率PFA太大。

        相似度計算中的α與鄭[6]一樣,設置為0.5。

        4.4 實驗結(jié)果

        4.4.1 模型比較

        為了對本文所提的方法進行測試,我們設計并測試了三個系統(tǒng)?;€模型:實現(xiàn)了2.2節(jié)所介紹的基本模型;改進模型:實現(xiàn)了2.3節(jié)所介紹的改進的話題識別與跟蹤過程;

        權(quán)重調(diào)節(jié):在改進模型的基礎(chǔ)上,加入了zhang[10]所述的權(quán)重調(diào)節(jié)過程。

        如圖2所示,改進模型優(yōu)于基線模型,而權(quán)重調(diào)節(jié)的改進模型又優(yōu)于單純的改進模型。

        各模型的最小規(guī)范化代價為:

        基線模型 Min(CDet)Norm=0.307 5

        改進模型 Min(CDet)Norm=0.280 2

        權(quán)重調(diào)節(jié)的改進模型

        權(quán)重調(diào)節(jié)加改進模型較原來的基線系統(tǒng)上升了0.053 9。

        4.4.2 特征比較

        用純2-grams提取到的特征中無意義的字串比較多,以GB 2312-80國家標準為例,兩級字庫中共包括6 763個漢字,它們的二元組合數(shù)為6 763×6 763=45 738 169,有四千五百多萬。所以,用純2-grams提取特征,其特征數(shù)會不斷上升。本文提到的基于二元的準詞匯抽取中,普通名詞和地名合起來,只有51 890個詞匯,所以普通詞和地名合起來的上限就是51 890。基于二元的準詞匯抽取中的無意義的詞匯主要在標題的2-grams劃分過程中引入,通常標題的信息都是有用詞匯,所以在此引入的無意義詞匯是非常有限的。圖3顯示了用純2-grams方法、基于二元的準詞匯抽取方法抽到的特征數(shù)??梢钥吹剑S著帖子數(shù)的上升,純2-grams的特征數(shù)上漲很快。

        圖2 面向BBS的DET圖

        圖3 不同特征抽取方法所抽到的特征數(shù)比較

        4.4.3 時間比較

        受抽取到的特征數(shù)的影響,由圖4可以看到,隨著帖子數(shù)的上升,純2-grams的處理時間明顯變慢,基于二元準詞匯的處理時間變化不大。

        圖4 不同特征抽取方法的處理時間比較

        用分詞法取特征的實驗數(shù)據(jù)是經(jīng)過分詞軟件預處理的,無法與其他兩個實驗進行比較。由于BBS文檔不規(guī)范,加工了近一周時間,才完成9 397篇語料的分詞及詞性標注。

        5 討論

        在對現(xiàn)有的話題識別與跟蹤方法進行研究的基礎(chǔ)上,我們提出了三個面向BBS的話題識別與跟蹤模型,實驗結(jié)果顯示,所提的模型可以較好地完成識別與跟蹤任務。

        在實現(xiàn)面向BBS的話題識別與跟蹤系統(tǒng)過程中,我們的感受是語料太不規(guī)范。例如,有的人發(fā)表言論時,不使用標點符號,這就使得依賴于標點符號進行文本塊分割的分詞程序顯得無能為力。所以,語料的規(guī)范是面向應用時首先需要解決的問題。

        另外,BBS中有“掛羊頭,賣狗肉”現(xiàn)象,看標題在說一件事情,但實際上內(nèi)容與標題是不一致的,也是一種變相的“話題漂移”。怎么樣識別同一標題下,內(nèi)容不屬同一話題的帖子,也是一個值得研究的問題。

        [1]Yang Y,Carbonell J,Brown R,et al.Learning Approaches for Detecting and Tracking News Events[J].In IEEE Intelligent Systems Special Issue on Applications of Intelligent Information Retrieval,14(4),1999:32-43.

        [2]J.Allan,R.Papka,V.Lavrenko.On-line New Event Detection and Tracking [C]//Proceedings of SIGIR'98.University of Massachussetts:Amherst,1998,37-45.

        [3]M.Franz,J. S. McCarley. Unsupervised and supervised clustering for topic tracking [C]//Proceedings of the 24th annual international ACM SIGIR,New Orleans,Louisiana,USA:ACM,2001:310-317.

        [4]Y.Lo,J.L.Gauvain.The LIMSI Topic Tracking System for TDT 2002 [C]//Topic Detection and Tracking Workshop,Gaithersburg,USA,2002.

        [5]王會珍,朱靖波,季鐸,等.基于反饋學習自適應的中文話題跟蹤[J].中文信息學報,2006,20(3):92-98.

        [6]鄭偉,張宇,鄒博偉,等.基于相關(guān)性模型的中文話題跟蹤研究[C]//全國第九屆計算語言學學術(shù)會議,2007:558-563.

        [7]張輝,周敬民,王亮,等.基于三維文檔向量的自適應話題追蹤器模型[J].中文信息學報,2010,24(5):70-76.

        [8]G.Kumaran,J.Allan.Text classification and named entities for new event detection [C]//Proceedings of the SIGIR Conference on Research and Development in Information Retrieval.Sheffield,South Yorkshire:ACM,2004:297-304.

        [9]Y.Yang,J.Carbonell,etc.Topic-conditioned novelty detection [C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:688-693.

        [10]Zhang Kuo,Li Juan Zi, Wu Gang.New Event Detection Based on Indexing-tree and Named Entity[C]//Proceedings of the SIGIR 2007, ACM:Amsterdam,2007:215-222.

        [11]陳友,程學旗,楊森,等.面向網(wǎng)絡論壇的突發(fā)話題發(fā)現(xiàn)[J].中文信息學報,2010,24(3):29-36.

        [12]X.Zhang,T.Wang.Topic Tracking with Dynamic Topic Model and Topic-based Weighting Method[J].Journal of Sofware,2010,5(5):482-489.

        [13]陳友,程學旗,楊森,等.面向網(wǎng)絡論壇的高質(zhì)量主題發(fā)現(xiàn)[J].軟件學報,2011,22(8):1785-1804.

        [14]周水庚,關(guān)佶紅,俞紅奇,等.基于N-gram信息的中文文檔分類研究[J].中文信息學報,2001,15(1):34-39.

        [15]周水庚,關(guān)佶紅,胡運發(fā),等.一個無需詞典支持和切詞處理的中文文檔分類系統(tǒng)[J].計算機研究與發(fā)展,2001,38(7):839-844.

        猜你喜歡
        帖子文檔權(quán)重
        有人一聲不吭向你扔了個文檔
        權(quán)重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        為黨督政勤履職 代民行權(quán)重擔當
        人大建設(2018年5期)2018-08-16 07:09:00
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        暴力老媽
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        層次分析法權(quán)重的計算:基于Lingo的數(shù)學模型
        河南科技(2014年15期)2014-02-27 14:12:51
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        情事圈點
        女性天地(2012年11期)2012-04-29 00:44:03
        日本一区二区三区视频免费在线| 人妻无码中文专区久久综合| 亚洲AV秘 片一区二区三区 | 国产高清一区二区三区视频| 日本av天堂一区二区三区| 挺进邻居丰满少妇的身体| 欧美国产日本高清不卡| 日韩中文字幕精品免费一区| 在线亚洲精品中文字幕美乳色| 久久国产劲爆∧v内射-百度| 国外精品视频在线观看免费| 精品久久久久中文字幕APP| 亚洲一区视频中文字幕| 亚洲成av人片一区二区密柚| 东京热加勒比无码少妇| 成人不卡国产福利电影在线看| 加勒比一区二区三区av| 一本到在线观看视频| 成人性做爰aaa片免费看| 日本成人字幕在线不卡| 亚洲性感毛片在线视频| 日本一道综合久久aⅴ免费| 亚洲精品人成无码中文毛片| 午夜无码亚| 亚洲国产精品国自拍av| 日产学生妹在线观看| 色丁香在线观看| av天堂一区二区三区| 亚洲av无码精品无码麻豆| 国产成人亚洲精品无码mp4| 456亚洲人成在线播放网站| 伊人久久亚洲精品中文字幕| 国产色在线 | 日韩| 麻豆成人在线视频| 毛片色片av色在线观看| 亚洲综合国产成人丁香五月激情| 风韵饥渴少妇在线观看| 国产亚洲欧美另类第一页| 在线观看视频免费播放| 一区二区三区人妻无码| 毛片无码高潮喷白浆视频|