亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義計(jì)算的聚類算法

        2014-12-05 12:49:55郭紅建
        電腦知識(shí)與技術(shù) 2014年31期

        郭紅建

        摘要:該文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。

        關(guān)鍵詞:語(yǔ)義計(jì)算;語(yǔ)義相關(guān)性;聚類

        中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7432-02

        Abstract: This paper proposes clustering algorithm based on semantic computing. By calculating word semantic information, and generating probability of word from semantic knowledge database, constructing semantic representation, the cosine angle and Kullback-Leibler Divergence is introduced to calculate semantic similarity of text units. Experiments showed that the proposed clustering algorithm is effective.

        Key words: semantic computing, semantic relatedness, clustering

        聚類算法是數(shù)據(jù)挖掘的一個(gè)重要方法,它的應(yīng)用非常廣泛。例如在審計(jì)數(shù)據(jù)分析時(shí),審計(jì)人員運(yùn)用查詢、驗(yàn)證、挖掘等方式進(jìn)行數(shù)據(jù)的觀察和分析,從而達(dá)到把握總體、突出重點(diǎn)、精確延伸的審計(jì)目標(biāo)。以海量數(shù)據(jù)為基礎(chǔ)的深層次數(shù)據(jù)分析方式支持審計(jì)人員從不同的角度,靈活快捷地對(duì)被審計(jì)單位的電子數(shù)據(jù)進(jìn)行挖掘,并以直觀易懂的形式展示分析結(jié)果。

        聚類算法可分為采用劃分的方法、采用層次的方法、采用密度的方法和采用網(wǎng)格的方法。常用的文本聚類算法是基于詞語(yǔ)的統(tǒng)計(jì)信息,很難表述文檔的語(yǔ)義信息,中文文檔中多義詞和同義詞的現(xiàn)象相當(dāng)普遍,這就很容易造成聚類結(jié)果不準(zhǔn)確,而且自然語(yǔ)言中由多個(gè)詞語(yǔ)所構(gòu)成的短語(yǔ)往往包含比組成它的詞語(yǔ)更加精確的語(yǔ)義,如“太空計(jì)劃”就比其各組成名詞“太空”和“計(jì)劃”的語(yǔ)義更加明確。該文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。

        第二部分是基于語(yǔ)義計(jì)算的聚類算法,第三部分是實(shí)驗(yàn)與結(jié)果分析。

        1 基于語(yǔ)義計(jì)算的聚類算法

        3 結(jié)束語(yǔ)

        本文提出了一種基于語(yǔ)義計(jì)算的聚類算法。通過(guò)計(jì)算詞語(yǔ)的語(yǔ)義信息,從語(yǔ)義知識(shí)庫(kù)獲取詞語(yǔ)的生成概率,構(gòu)建文本的語(yǔ)義表征,將余弦夾角和相對(duì)熵等方法引入進(jìn)行文本單元的語(yǔ)義相似度計(jì)算對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該文提出的算法效果較好。下一步我們會(huì)進(jìn)一步分析和提高該聚類算法的準(zhǔn)確度。

        致謝 :

        本文受到江蘇省自然科學(xué)基金項(xiàng)目(NO.BK2012472) 、江蘇省教育廳人文社會(huì)科學(xué)研究項(xiàng)目(NO.2013SJB870005) 、江蘇省公共工程審計(jì)重點(diǎn)實(shí)驗(yàn)室2012年開放課題資助,在此表示感謝。

        參考文獻(xiàn):

        [1] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining(KDD) [C]. 2000:495-501, Portland, OR, AAAI Press,1996:226-231.

        [2] Ankerst M, Breunig M M, Kriegel H P, et al. OPTICS: Ordering Points to Identify the Clustering Structure., in Proc. ACM SIGMOD Int. Conf. on Management of Data(SIGMOD99) [C], Philadelphia,1999:49-60.

        [3] Wang W, Yang J. Muntz M. STING: A statistical information grid approach to spatial data mining., in Proc. 1997 Int. Conf. on Very Large Data Bases (VLDB97) [C], 1997:186-195.

        [4] Sheikholeslami G, Chatterjee S. and Zhang A., WaveCluster: A wavelet-based clustering approach for multidimensional data in very large databases[J]. The VLDB Journal,2000,8(4):289-304.

        日本在线一区二区免费| 久久尤物AV天堂日日综合| 日韩av中出在线免费播放网站| 四虎在线中文字幕一区| 日本在线精品一区二区三区| 影音先锋中文字幕无码资源站| 豆国产95在线 | 亚洲| 国产精品国产三级国产在线观 | 风流老熟女一区二区三区| 久久亚洲欧洲无码中文| 国内自拍第一区二区三区| 91久久偷偷做嫩模影院| 中文字幕人妻少妇引诱隔壁| 欧美喷潮系列在线观看| 色婷婷久久99综合精品jk白丝 | 亚洲午夜久久久精品国产| 亚洲日本一区二区三区四区| 久久综合丝袜日本网| 国产精品视频牛仔裤一区| 女同国产日韩精品在线| 操风骚人妻沉沦中文字幕| 久久久久久国产精品无码超碰动画| 纯肉无遮挡H肉动漫在线观看国产 国产精品自产拍在线观看免费 | 精品亚洲一区二区三区四 | 欧美自拍视频在线| 日韩丝袜人妻中文字幕| 精品一区二区av天堂色偷偷| 国产成人综合久久亚洲精品| 亚洲三区二区一区视频| 日本妇女高清一区二区三区| 少妇伦子伦精品无吗| 少妇的丰满3中文字幕| 免费啪啪av人妻一区二区| 亚洲av无码专区国产乱码4se| 国产精品jizz视频| 亚洲Av无码专区尤物| 人妻少妇精品视中文字幕免费| 亚洲一卡2卡3卡4卡5卡精品| 国产xxxxx在线观看免费 | 中文字幕高清无码不卡在线| 精品国产中文字幕久久久|