亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析文本聚類(lèi)有效性評(píng)價(jià)的方法

        2018-05-30 11:50:08金濤戴玉剛
        中文信息 2018年5期
        關(guān)鍵詞:標(biāo)準(zhǔn)評(píng)價(jià)

        金濤 戴玉剛

        摘 要:文本聚類(lèi)技術(shù)是一種對(duì)文本信息進(jìn)行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類(lèi)技術(shù)得到了廣泛的研究,文本聚類(lèi)技術(shù)的算法眾多,標(biāo)準(zhǔn)眾多,但是沒(méi)有一個(gè)標(biāo)準(zhǔn)的評(píng)價(jià)體系,無(wú)法準(zhǔn)確的、科學(xué)的評(píng)價(jià)文本聚類(lèi)結(jié)果。因此本文通過(guò)對(duì)文本聚類(lèi)的評(píng)價(jià)方法進(jìn)行了一定的探討。

        關(guān)鍵詞:文本聚類(lèi) 評(píng)價(jià) 標(biāo)準(zhǔn)

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2018)05-000-01

        當(dāng)今是一個(gè)信息爆炸的時(shí)代,互聯(lián)網(wǎng)信息種類(lèi)繁多、內(nèi)容豐富,如何能夠在這樣繁雜的互聯(lián)網(wǎng)信息中提取有價(jià)值的、人們感興趣的信息是現(xiàn)階段的主要問(wèn)題。目前,人們對(duì)于文本聚類(lèi)技術(shù)的研究非常之多,但是目前研究中對(duì)于文本聚類(lèi)分析結(jié)果的有效性評(píng)價(jià)方法機(jī)制比較混亂,文本聚類(lèi)的算法不斷地涌現(xiàn),各說(shuō)各的好處,但是當(dāng)我們應(yīng)用到實(shí)際過(guò)程中的時(shí)候,這么多的算法中我們應(yīng)該選擇哪一個(gè)算法呢?因此,本文在通過(guò)大量研究前人的文獻(xiàn)中,總結(jié)了一些觀點(diǎn)與想法。

        一、評(píng)價(jià)標(biāo)準(zhǔn)

        在傳統(tǒng)的聚類(lèi)研究當(dāng)中,大致可以分為三個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是外部評(píng)價(jià)標(biāo)準(zhǔn)、內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)和相對(duì)評(píng)價(jià)標(biāo)準(zhǔn),本文在過(guò)大量分析研究這些標(biāo)準(zhǔn)后,總結(jié)出了兩個(gè)評(píng)價(jià)的標(biāo)準(zhǔn),一是在聚類(lèi)結(jié)果分析研究中,團(tuán)內(nèi)越緊密、團(tuán)外越分離越好,另一種標(biāo)準(zhǔn)是聚類(lèi)分析的結(jié)果與人工評(píng)價(jià)的結(jié)果越接近越好。本文認(rèn)為,在不同的場(chǎng)合應(yīng)該使用不同的評(píng)價(jià)標(biāo)準(zhǔn),在某些情況下不能使用單一的標(biāo)準(zhǔn),必須將兩個(gè)或者幾個(gè)標(biāo)準(zhǔn)結(jié)合來(lái)使用才能達(dá)到更好地效果。首先是在更加緊密結(jié)合人工判定結(jié)果當(dāng)中,基于人工判定的結(jié)果表現(xiàn)更好,另外,基于人工判定的方法還能對(duì)不同的算法進(jìn)行橫向的比較,同時(shí)能夠?qū)λ惴ǖ男阅苓M(jìn)行分析,最重要的是能夠在我們?cè)O(shè)定算法參數(shù)時(shí)給予一定的指導(dǎo)作用,讓聚類(lèi)的結(jié)果更加的符合人工的判定結(jié)果。其次,函數(shù)指標(biāo)本身就可以作為算法的一部分,能夠更好地適用于計(jì)算目標(biāo)的選擇當(dāng)中去。實(shí)際在評(píng)價(jià)機(jī)制上,并不是直接使用這兩個(gè)指標(biāo),而是在這兩個(gè)指標(biāo)的指導(dǎo)下,衍生出來(lái)的一系列評(píng)價(jià)標(biāo)準(zhǔn)與方法?;诖藰?biāo)準(zhǔn)的判定,本文通過(guò)研究發(fā)現(xiàn)以下兩種評(píng)價(jià)標(biāo)準(zhǔn)在傳統(tǒng)評(píng)價(jià)當(dāng)中結(jié)果最好。

        1.基于文檔的準(zhǔn)確率、召回率和F-Measure值的評(píng)價(jià)標(biāo)準(zhǔn)

        2.熵的評(píng)價(jià)標(biāo)準(zhǔn)

        針對(duì)語(yǔ)料X上的聚類(lèi)結(jié)果C={C1,C2,…,Cm},單獨(dú)衡量每一個(gè)簇Ci,計(jì)算簇Ci的熵 (人工判定結(jié)構(gòu)為 P={P1,P2,…,Ps}):

        熵是一個(gè)非常好的指標(biāo),不僅能應(yīng)用到單獨(dú)一個(gè)簇的評(píng)價(jià),同時(shí)也可以利用簇的大小進(jìn)行加權(quán)計(jì)算,然后通過(guò)加權(quán)值對(duì)整個(gè)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià),該指標(biāo)具有很好的可比性,并且可以用于評(píng)價(jià)一個(gè)文檔屬于多個(gè)簇的聚類(lèi)結(jié)果。但是在實(shí)際的運(yùn)用過(guò)程中,單單一個(gè)熵是不能很好的評(píng)價(jià)的,必須與F值相結(jié)合使用,才能更加準(zhǔn)確的對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。

        二、基于目標(biāo)函數(shù)的指標(biāo)

        在我們上述的兩個(gè)標(biāo)準(zhǔn)中,我們提出了團(tuán)間越分離越好的觀點(diǎn),基于這個(gè)大的指標(biāo),可以衍生出的指標(biāo)可以稱(chēng)為是基于目標(biāo)函數(shù)的指標(biāo),在算法的設(shè)計(jì)當(dāng)中,函數(shù)的指標(biāo)是可以作為算法的其中一部分的,該指標(biāo)融入算法當(dāng)中,可以通過(guò)該指標(biāo)來(lái)判斷在聚類(lèi)算法當(dāng)中下一步的最優(yōu)的迭代方向,與此同時(shí),我們可以根據(jù)該指標(biāo)來(lái)判斷我們的算法是否滿(mǎn)足要求,得到結(jié)果是否達(dá)標(biāo)。

        1.誤差平方和

        K-means算法的目的就是通過(guò)自身的迭代去尋找一個(gè)能搞滿(mǎn)足誤差平方和最小的聚類(lèi)的方法。在上述公式當(dāng)中S表示的是一個(gè)聚類(lèi)的結(jié)果,我們可以用S={s1,s2…sk}表示聚類(lèi)的結(jié)果,其中的Sr表示的是一個(gè)簇,Cr表示的是簇的中心,應(yīng)用這個(gè)標(biāo)準(zhǔn),我們可以最小化簇與簇之間的內(nèi)部距離,使得聚類(lèi)文本當(dāng)中內(nèi)部之間的距離最小,獲得更好地聚類(lèi)結(jié)果。

        從前面的討論我們可以知道,在實(shí)際運(yùn)用過(guò)程中,基于人工判定的指標(biāo)更加適合分析文本聚類(lèi)分析結(jié)果的質(zhì)量,基于函數(shù)的指標(biāo)有很多,這里只是簡(jiǎn)單提出了一種方法,函數(shù)指標(biāo)更加適用于作為算法的一部分。如果在算法設(shè)計(jì)過(guò)程中,遇到了難以設(shè)定的參數(shù),這時(shí)候我們就需要不斷的改變參數(shù)的值來(lái)獲得不同的試驗(yàn)及結(jié)果,然后利用例如K-Means算法中的方法,對(duì)結(jié)果進(jìn)行分析,選擇最優(yōu)的參數(shù)。

        結(jié)語(yǔ)

        隨著時(shí)代的發(fā)展,文本聚類(lèi)技術(shù)的研究也越來(lái)越重視,作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類(lèi)文本技術(shù)具有一定的靈活性和自動(dòng)性,可以被廣泛的應(yīng)用到引擎搜索、自然語(yǔ)言處理等相關(guān)領(lǐng)域,這也是未來(lái)人工智能的一個(gè)重要的研究方向。

        參考文獻(xiàn)

        [1]周昭濤. 文本聚類(lèi)分析效果評(píng)價(jià)及文本表示研究[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2005.

        [2]曹曉.文本聚類(lèi)研究綜述[J].情報(bào)探索,2016(01):131-134.

        [3]劉務(wù)華,羅鐵堅(jiān),王文杰.文本聚類(lèi)算法的質(zhì)量評(píng)價(jià)[J].中國(guó)科學(xué)院研究生院學(xué)報(bào),2006(05):640-646.

        作者簡(jiǎn)介:金濤,(1991.10-),男,漢族,安徽省合肥人,學(xué)歷:在讀碩士研究生,研究方向:云計(jì)算。

        猜你喜歡
        標(biāo)準(zhǔn)評(píng)價(jià)
        2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評(píng)價(jià)再評(píng)價(jià)
        忠誠(chéng)的標(biāo)準(zhǔn)
        美還是丑?
        你可能還在被不靠譜的對(duì)比度標(biāo)準(zhǔn)忽悠
        一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
        2015年9月新到標(biāo)準(zhǔn)清單
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        關(guān)于項(xiàng)目后評(píng)價(jià)中“專(zhuān)項(xiàng)”后評(píng)價(jià)的探討
        亚洲人成综合网站在线| 天天摸天天做天天爽水多 | 日韩亚洲欧美中文在线| 亚洲成a人片在线看| 亚洲精品中文字幕尤物综合| 性生大片免费观看性少妇| 国内精品久久久人妻中文字幕| 欧美日韩中文国产一区| www久久久888| 青青草视频是针对华人| 亚洲人成人无码www影院| 国产免费破外女真实出血视频| 中文字幕一区二区网站| 男奸女永久免费视频网站| 少妇高潮流白浆在线观看| 午夜性刺激免费视频| 日韩国产自拍成人在线| 麻豆精品国产专区在线观看| 六月婷婷久香在线视频| 综合激情网站| 日韩激情视频一区在线观看| а√天堂8资源中文在线| 少妇的肉体k8经典| 国产人成视频免费在线观看| 亚洲精品有码日本久久久| 中文字幕亚洲乱码熟女在线| 国产成人精品亚洲午夜| 日本免费三片在线视频| 国产麻豆剧果冻传媒一区| 亚洲日韩欧美国产另类综合| 东风日产系列全部车型| 国产人成精品免费久久久| 亚洲第一无码xxxxxx| 手机色在线| 亚洲丰满熟女一区二亚洲亚洲| 大地资源在线观看官网第三页| 午夜性刺激免费视频| 亚洲精品综合久久国产二区| 久久久噜噜噜久久中文福利| 五十路熟妇亲子交尾| 日本黑人人妻一区二区水多多|