亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于話題檢測(cè)的自適應(yīng)增量K-means算法

        2014-02-28 00:45:10李勝東呂學(xué)強(qiáng)施水才
        中文信息學(xué)報(bào) 2014年6期
        關(guān)鍵詞:檢測(cè)

        李勝東,呂學(xué)強(qiáng),施水才,孫 軍

        (1. 廊坊燕京職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)工程系,河北 廊坊 065200;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;3. 北華航天工業(yè)學(xué)院,河北 廊坊 065000)

        1 引言

        互聯(lián)網(wǎng)的出現(xiàn),使信息急劇膨脹。這些信息包含有用的信息、無(wú)用的信息、感興趣的信息、不感興趣的信息等。在這種情況下,人們最關(guān)注的是如何快速而又準(zhǔn)確地得到感興趣的信息。目前,各種信息檢索、信息抽取和信息過(guò)濾技術(shù)也都圍繞這個(gè)目的展開(kāi)[1]。但是,這些技術(shù)返回的信息冗余度過(guò)高,例如,僅僅因?yàn)樾畔⒅泻兄付ǖ年P(guān)鍵詞,許多不相關(guān)的信息就被作為結(jié)果返回了,其中,即使是相關(guān)的信息,也沒(méi)有進(jìn)行有效地組織。在這種背景下,研究者開(kāi)始關(guān)注一種新的技術(shù),它就是話題檢測(cè)技術(shù)[2]。該技術(shù)就是研究如何檢測(cè)新發(fā)生的事件,并幫助人們把分散的信息有效地組織起來(lái)。

        在話題檢測(cè)與跟蹤研究中,話題檢測(cè)[3~4]被定義為將輸入的新聞報(bào)道歸入不同的話題簇,并且在需要的時(shí)候建立新的話題簇。從定義可以看出,話題檢測(cè)研究在本質(zhì)上等價(jià)于一種無(wú)監(jiān)督的聚類研究,即它的關(guān)鍵技術(shù)就是文本聚類算法。文本聚類算法[5]一般可以分為基于層次的聚類算法、基于平面劃分的聚類算法、基于密度的聚類算法等,其中,最常用的是基于層次的聚類算法和基于平面劃分的聚類算法?;趯哟蔚木垲愃惴╗6]可以達(dá)到很高的精確度,但是時(shí)間復(fù)雜度較高;以K-means算法為代表的基于劃分的聚類算法,具有很高的效率,適合處理海量文本數(shù)據(jù)。

        2 話題檢測(cè)任務(wù)的特點(diǎn)

        話題檢測(cè)任務(wù)[4]的關(guān)鍵技術(shù)是文本聚類算法,這決定了它除了具有文本聚類的相似性,還有一些自己的特點(diǎn)。傳統(tǒng)的文本聚類算法從全局的角度處理靜態(tài)的對(duì)象,而話題檢測(cè)任務(wù)從局部的角度以增量的方式處理動(dòng)態(tài)的對(duì)象。這是話題檢測(cè)任務(wù)的特點(diǎn),也是話題檢測(cè)與文本聚類算法的本質(zhì)區(qū)別。

        3 聚類算法

        3.1 傳統(tǒng)的增量聚類算法

        傳統(tǒng)的增量聚類算法處理話題檢測(cè)問(wèn)題時(shí),其基本思想[7]是一次處理一篇報(bào)道。對(duì)于每一篇報(bào)道,先與每個(gè)已知話題進(jìn)行比較,如果相似度大于閾值,則把該報(bào)道歸入相似度最高的話題,如果對(duì)所有話題的相似度都低于閾值,則創(chuàng)建一個(gè)新話題,并更新話題數(shù)。

        這種算法非常簡(jiǎn)單且易于實(shí)現(xiàn),但缺點(diǎn)也很明顯: 一篇報(bào)道只能做一次決策,早期根據(jù)很少信息作出的錯(cuò)誤判斷,累計(jì)到最后的錯(cuò)誤量可能很大。針對(duì)這個(gè)缺點(diǎn),本文對(duì)比了國(guó)內(nèi)外常用的聚類算法,分析了傳統(tǒng)的K-means算法,發(fā)現(xiàn)傳統(tǒng)的K-means算法和增量聚類算法具有優(yōu)缺點(diǎn)互補(bǔ)的可能性,能夠彌補(bǔ)傳統(tǒng)的增量聚類算法的缺陷。

        3.2 傳統(tǒng)的K-means算法

        K-means聚類[8]的算法思想簡(jiǎn)單,易于實(shí)現(xiàn),能夠快速有效地處理大規(guī)模數(shù)據(jù),已經(jīng)成為數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用最廣泛的聚類算法之一。它的核心思想[9]是通過(guò)迭代過(guò)程把數(shù)據(jù)劃分到不同的聚類中,以使目標(biāo)函數(shù)(1)最小化。

        (1)

        在公式(1)中,Ci是語(yǔ)料中的第i類話題;x是話題Ci中的數(shù)據(jù)對(duì)象;xi是話題中Ci的均值;K為初始化的聚類數(shù),也是算法認(rèn)定的話題數(shù)。

        定義1根據(jù)兩層閾值的話題/報(bào)道表示模型[10],報(bào)道i和報(bào)道j之間的余弦相似度函數(shù)Sim(di,dj)的定義為[11]式(2)。

        (2)

        在公式(2)中,di表示報(bào)道i的特征向量;dj表示報(bào)道j中的特征向量;參數(shù)M是基于兩層閾值的話題/報(bào)道表示模型的特征空間維數(shù)。

        定義2報(bào)道向量間的余弦距離Dis(di,dj)被定義為式(3)。

        Dis(di,dj)=1-Sim(di,dj)

        (3)

        從定義1和定義2可知,報(bào)道i與報(bào)道j之間的余弦相似度越大,它們?cè)较嗨?,因此,這兩個(gè)報(bào)道之間的余弦距離越小,傳統(tǒng)的K-means算法越有可能把它們作為同一個(gè)話題。

        傳統(tǒng)的K-means算法通過(guò)迭代過(guò)程能夠得到全局最優(yōu)解,但初始化K值影響它的性能。

        4 自適應(yīng)的增量K-means算法

        傳統(tǒng)的K-means聚類算法可以通過(guò)迭代過(guò)程得到全局最優(yōu)解,但初始化聚類數(shù)K制約著該算法的性能;而傳統(tǒng)的增量聚類算法對(duì)一篇報(bào)道只做一次決策,能夠得到局部最優(yōu)解,很難得到全局最優(yōu)解,但該算法不需要初始化聚類數(shù)K。

        通過(guò)分析傳統(tǒng)增量聚類算法和K-means聚類算法的優(yōu)缺點(diǎn),發(fā)現(xiàn)它們的優(yōu)缺點(diǎn)有互補(bǔ)的可能性;在此基礎(chǔ)上,用傳統(tǒng)的增量聚類得到初始聚類中心,產(chǎn)生自適應(yīng)的K值,解決K-means算法對(duì)K值初始化敏感的問(wèn)題;然后用傳統(tǒng)K-means算法的迭代過(guò)程得到全局最優(yōu)解,解決傳統(tǒng)增量聚類中的局部最優(yōu)問(wèn)題,提出了自適應(yīng)的增量K-means算法作為話題檢測(cè)算法。

        自適應(yīng)的增量K-means算法把所有中文新聞報(bào)道語(yǔ)料劃分為r個(gè)增量,每個(gè)增量報(bào)道的規(guī)模為Ni(i=1,2,…,r)。對(duì)于每一個(gè)增量,先按傳統(tǒng)增量聚類處理所有報(bào)道,得到K個(gè)聚類,接著對(duì)當(dāng)前增量按照傳統(tǒng)K-means算法進(jìn)行迭代操作,每一次迭代都按要求進(jìn)行適當(dāng)?shù)母淖?,直到聚類中心不變?yōu)橹梗缓筇幚硐乱粋€(gè)增量的報(bào)道。詳細(xì)算法過(guò)程如下:

        ? Step1 對(duì)于每一個(gè)增量,設(shè)它的報(bào)道規(guī)模為Ni(i=1,2,…,r),判定報(bào)道S是否是第一篇報(bào)道,如果是,使用報(bào)道S建立第一個(gè)話題,如果不是,計(jì)算報(bào)道S與其他話題中心的相似度;

        ? Step2 根據(jù)S與各個(gè)話題的相似度,找到與S相似度最高的話題T1;

        ? Step3 判定報(bào)道S與話題T1的相似度是否大于閾值θ。如果相似度大于閾值θ,就把報(bào)道S歸入話題T1,否則,使用S建立一個(gè)新話題,并更新話題數(shù)K;

        ? Step4 判定報(bào)道規(guī)模Ni是否為0。如果Ni為0,則輸出話題數(shù)K和聚類結(jié)果,并轉(zhuǎn)到Step5;否則,轉(zhuǎn)到Step1,處理下一篇報(bào)道;

        ? Step5 根據(jù)傳統(tǒng)增量聚類的結(jié)果,計(jì)算K個(gè)話題的均值,作為傳統(tǒng)K-means算法的初始聚類中心;

        ? Step6 根據(jù)式(2)和式(3),計(jì)算每個(gè)聚類中心與其余所有新聞報(bào)道之間的余弦距離。根據(jù)余弦距離的大小,把每個(gè)報(bào)道分配到余弦距離最小的聚類中心,也就是把每個(gè)報(bào)道分配到最近的聚類中心;

        ? Step7 重新計(jì)算每個(gè)聚類的均值,作為該話題類的新聚類中心;

        ? Step8 如果所有的聚類中心不發(fā)生變化,這說(shuō)明目標(biāo)函數(shù)收斂到最小值,轉(zhuǎn)向Step9;否則,修改聚類中心,按照Step6和Step7迭代;

        ? Step9 判斷增量數(shù)i是否為0。如果i為0,算法終止,并輸出話題數(shù)K和聚類結(jié)果;否則,轉(zhuǎn)到Step1,處理下一個(gè)增量的報(bào)道。

        5 實(shí)驗(yàn)結(jié)果與分析

        根據(jù)傳統(tǒng)增量聚類算法、傳統(tǒng)K-means算法和基于話題檢測(cè)的自適應(yīng)的增量K-means算法的算法思想,分別把它們作為話題檢測(cè)算法設(shè)計(jì)話題檢測(cè)實(shí)驗(yàn),得到相應(yīng)的話題檢測(cè)與跟蹤評(píng)測(cè)結(jié)果,對(duì)比評(píng)測(cè)結(jié)果評(píng)估基于話題檢測(cè)的自適應(yīng)的增量K-means算法作為話題檢測(cè)關(guān)鍵技術(shù)的性能。

        5.1 實(shí)驗(yàn)結(jié)果

        在實(shí)驗(yàn)中,分詞程序是中科院計(jì)算所軟件室提供的ICTCLAS[12];語(yǔ)料是中科院計(jì)算所譚松波博士提供14 150篇中文新聞報(bào)道[13-14],第一層是12個(gè)主題,第二層是60個(gè)話題。對(duì)每個(gè)話題檢測(cè)算法,在實(shí)驗(yàn)參數(shù)和實(shí)驗(yàn)環(huán)境相同的條件下,分別用60個(gè)話題進(jìn)行測(cè)試,得到60個(gè)測(cè)試結(jié)果,對(duì)這60個(gè)結(jié)果進(jìn)行歸一化后,得到能夠反映話題檢測(cè)性能的話題檢測(cè)與跟蹤評(píng)測(cè)結(jié)果,即: 歸一化檢測(cè)開(kāi)銷(xiāo)(CDet)Norm[15-16]。最后,根據(jù)實(shí)驗(yàn)的話題檢測(cè)與跟蹤評(píng)測(cè)結(jié)果分別評(píng)估傳統(tǒng)的增量聚類、傳統(tǒng)的K-means算法和自適應(yīng)的增量K-means算法的性能。實(shí)驗(yàn)的評(píng)測(cè)結(jié)果如表1所示。

        為了便于分析這個(gè)新算法對(duì)話題檢測(cè)性能的影響,用Excel 2003中的圖表向?qū)Чぞ甙驯?中的數(shù)據(jù)映射成圖1。

        圖1 話題檢測(cè)關(guān)鍵技術(shù)與話題檢測(cè)性能之間的變化趨勢(shì)圖

        5.2 實(shí)驗(yàn)分析

        在實(shí)驗(yàn)中,根據(jù)評(píng)測(cè)結(jié)果評(píng)測(cè)話題檢測(cè)性能,然后根據(jù)話題檢測(cè)性能評(píng)估聚類算法作為話題檢測(cè)關(guān)鍵技術(shù)的性能。在同等條件下,評(píng)測(cè)結(jié)果越小,說(shuō)明話題檢測(cè)性能越好,也表明該聚類算法作為話題檢測(cè)關(guān)鍵技術(shù)的性能越好。

        根據(jù)表1和圖1,傳統(tǒng)的增量聚類作為話題檢測(cè)關(guān)鍵技術(shù)時(shí),TDT評(píng)測(cè)結(jié)果為0.425 7;傳統(tǒng)的K-means算法作為話題檢測(cè)關(guān)鍵技術(shù)時(shí),TDT評(píng)測(cè)結(jié)果為0.397 2;自適應(yīng)的增量K-means算法作為話題檢測(cè)關(guān)鍵技術(shù)時(shí),TDT評(píng)測(cè)結(jié)果為0.378 9。因此,在同等條件下,基于自適應(yīng)的增量K-means算法的評(píng)測(cè)結(jié)果比基于傳統(tǒng)的增量聚類的評(píng)測(cè)結(jié)果減少了10.994%,即自適應(yīng)的增量K-means算法的性能比傳統(tǒng)的增量聚類提高了10.994%;基于自適應(yīng)的增量K-means算法的評(píng)測(cè)結(jié)果比基于傳統(tǒng)的K-means算法的評(píng)測(cè)結(jié)果減少了4.607%,即自適應(yīng)的增量K-means算法的性能比傳統(tǒng)的K-means算法提高了4.607%。除此之外,傳統(tǒng)的K-means算法需要對(duì)K值初始化,而且K的初始化值對(duì)該算法性能的影響很大,而自適應(yīng)的增量K-means算法用傳統(tǒng)增量聚類的思想自適應(yīng)地調(diào)節(jié)K值,在很大程度上減少了K初始化值對(duì)該算法性能的影響;傳統(tǒng)的增量聚類能夠得到局部最優(yōu)解,但很難得到全局最優(yōu)解,而自適應(yīng)的K-means算法通過(guò)迭代過(guò)程能夠得到全局最優(yōu)解,很好地解決了傳統(tǒng)的增量聚類所面臨的問(wèn)題。

        6 結(jié)論

        本文分析了話題檢測(cè)任務(wù)的定義和特點(diǎn),對(duì)比了傳統(tǒng)的增量聚類和K-means算法的優(yōu)缺點(diǎn),然后通過(guò)傳統(tǒng)的K-means算法改進(jìn)了傳統(tǒng)的增量聚類,提出了基于話題跟蹤的自適應(yīng)增量K-means算法。在同等條件下,經(jīng)過(guò)廣泛而深入地研究和分析可知,新算法作為話題檢測(cè)關(guān)鍵技術(shù)具有良好的性能。

        [1] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1): 138-141

        [2] 張闊,李涓子,吳剛,等. 基于關(guān)鍵詞元的話題內(nèi)事件檢測(cè) [J]. 計(jì)算機(jī)研究與發(fā)展,2009,46(02): 245-251.

        [3] 李忠俊.基于話題檢測(cè)與聚類的內(nèi)部輿情監(jiān)測(cè)系統(tǒng)[J].計(jì)算機(jī)科學(xué),2012,39(12): 241-244.

        [4] Nist. The 2004 Topic Detection and Tracking (TDT2004) Task Definition and Evaluation Plan. http://www.itl.nist.gov/iad/mig/tests/tdt/2004/TDT04.Eval.Plan.v1.2.pdf.

        [5] 馬慧芳,王博. 基于增量主題模型的微博在線事件分析[J]. 計(jì)算機(jī)工程, 2013, 39(3): 191-196.

        [6] 駱衛(wèi)華,于滿泉,許洪波,等. 基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 中文信息學(xué)報(bào),2006,20(1): 29-36.

        [7] 洪宇,張宇,劉挺,等. 話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 中文信息學(xué)報(bào),2007,21(6): 71-87.

        [8] 呂明磊,劉冬梅,曾智勇.一種改進(jìn)的K-means聚類算法的圖像檢索方法[J]. 計(jì)算機(jī)科學(xué),2013,40(8): 285-288.

        [9] 毛嘉莉. 基于K-means的文本聚類算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2009,(10): 85-87.

        [10] 李勝東,呂學(xué)強(qiáng),魏震等.基于兩層閾值的話題報(bào)道表示模型[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(S2): 117-120.

        [11] Li Xinwu. Research on Text Clustering Algorithm Based on K_means and SOM[C]//Proceedings of ShangHai: International Symposium on Intelligent Information Technology Application Workshops, 2008: 341-344.

        [12] 中科院計(jì)算所. 基于多層隱馬模型的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS. http://www.nlp.org.cn/project/project.php?proj_id=6.

        [13] 譚松波,王月粉. 中文文本分類語(yǔ)料庫(kù)-TanCorpV1.0. http://www.searchforum.org.cn/tansongbo/corpus.htm.

        [14] Tan S B, et al. A Novel Refinement Approach for Text Categorization[C]//Proceedings of ACM CIKM, 2005.

        [15] Tim Leek, Richard Schwartz, Srinivasa Sista. Probabilistic Approaches to Topic Detection and Tracking [J]. Data Mining and Knowledge Discovery. 2003, 7(3): 67-83.

        [16] Yiming Yang, Jaime Carbonell, Ralf Brown, et al. Multi-Strategy Learning for Topic Detection and Tracking: a joint report of CMU approaches to multilingual TDT[C]//Proceedings of TDT 2002 Workshop. 2002: 85-114.

        猜你喜歡
        檢測(cè)
        QC 檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        “有理數(shù)的乘除法”檢測(cè)題
        “有理數(shù)”檢測(cè)題
        “角”檢測(cè)題
        “幾何圖形”檢測(cè)題
        杨幂Av一区二区三区| 成人免费看片又大又黄| 亚洲成a人v欧美综合天堂麻豆 | 国产精品日韩av一区二区| 久久亚洲精品成人无码| 欧美国产成人精品一区二区三区| 亚洲第一区二区快射影院| 侵犯了美丽丰满人妻中文字幕| 亚洲av永久无码精品古装片| 中国猛少妇色xxxxx| 国产成人精品免费视频大全| 大陆少妇一区二区三区| 亚洲av日韩综合一区久热| 久久婷婷国产剧情内射白浆| 中文一区二区三区无码视频| 东风日产车是不是国产的 | 亚洲日韩精品欧美一区二区| 加勒比日本东京热1区| 女主播国产专区在线观看| 蜜臀av在线播放一区二区三区| 九九99无码精品视频在线观看 | 国产av一区二区制服丝袜美腿| 国产一区二区精品久久岳| 18无码粉嫩小泬无套在线观看| 亚洲无码中文字幕日韩无码| 深夜一区二区三区视频在线观看| 亚洲av片在线观看| 国产中文制服丝袜另类| 亚洲天堂av中文字幕| 国产大屁股视频免费区| 国产又色又爽无遮挡免费| 精品无码人妻久久久一区二区三区 | 亚洲av色香蕉一区二区三区老师| 国产亚洲日韩欧美一区二区三区| 亚洲中文字幕在线第二页| 懂色av一区二区三区尤物| 国产农村乱子伦精品视频| 国产成人精品日本亚洲直播| 中文字幕人妻久久久中出| 午夜福利一区二区三区在线观看| 日韩中文字幕不卡网站|