亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法

        2017-03-23 20:37:08田曉艷
        科技創(chuàng)新與應(yīng)用 2017年6期
        關(guān)鍵詞:聚類算法

        田曉艷

        摘 要:提出一種基于詞嵌入與密度峰值策略的文本聚類算法,并將其應(yīng)用于大數(shù)據(jù)網(wǎng)絡(luò)文本數(shù)據(jù)中。通過對文本數(shù)據(jù)進行預(yù)處理轉(zhuǎn)化為詞嵌入表示的實數(shù)向量,并進一步采用密度峰值聚類算法實現(xiàn)文本聚類。實驗表明該方法在準(zhǔn)確率、召回率以及F值等指標(biāo)上均優(yōu)于傳統(tǒng)文本聚類算法。

        關(guān)鍵詞:詞嵌入;密度峰值;大數(shù)據(jù)文本;聚類算法

        1 密度峰值聚類算法

        密度峰值聚類算法的主要思想是認(rèn)為聚類中心是密度大的數(shù)據(jù)點,它周圍圍繞著比自身密度小的數(shù)據(jù)點。同時,聚類中心與其它的高密度數(shù)據(jù)點之間的距離較大。假設(shè)μi為目標(biāo)空間中的任意數(shù)據(jù)點,算法為其初始化兩個參數(shù)。一個參數(shù)為數(shù)據(jù)點密度ρi,另一個參數(shù)是該數(shù)據(jù)點到其它高密度數(shù)據(jù)點的距離δi,則聚類中心就是ρi與δi都大的數(shù)據(jù)點μi,對于其它的數(shù)據(jù)點則根據(jù)相同的規(guī)則分配到其它的距離最近的類簇中。

        1.1 數(shù)據(jù)點密度與距離的計算方法

        任意數(shù)據(jù)點μi的密度計算公式如公式(1)所示, 它表示數(shù)據(jù)點μi周圍某截斷距離內(nèi)的點的個數(shù)。

        1.2 聚類中心的選擇策略

        對于數(shù)據(jù)點集S中的任意數(shù)據(jù)點都可以通過公式(1)與公式(2)計算數(shù)據(jù)點的密度與距離,以密度為橫坐標(biāo),距離為縱坐標(biāo)可以得到聚類選擇的決策圖,從決策圖上可以直觀的選擇出密度與距離都大的點作為聚類中心。

        2 基于詞嵌入的文本聚類算法

        為了更好的將該算法應(yīng)用到文本聚類中,采用詞嵌入表示文作為文本的初始化方法。詞嵌入(Word embedding)是一種表示自然語言的特征學(xué)習(xí)方法。文本語料中的單詞或者短語甚至是語句都可以映射為低維實數(shù)向量。詞嵌入有效的改善了One-hot Representation的詞匯鴻溝現(xiàn)象(詞匯之間是孤立的,沒有語義關(guān)聯(lián))。利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞嵌入表示的典型工作是由Bengio等人[1]提出的。Collobert等人[2]系統(tǒng)的提出了詞嵌入的訓(xùn)練方法,并利用其模型同時解決了詞性標(biāo)注、命名實體識別以及語義識別等自然語言處理任務(wù)。word2vec是2013年Google提供的開源詞嵌入工具,通過該工具獲得的詞嵌入可以直接用于聚類分析。因此本文實現(xiàn)的文本聚類算法采用word2vec工具進行詞嵌入的預(yù)訓(xùn)練。在文本聚類算法實現(xiàn)過程中,首先將目標(biāo)語料利用word2vec工具訓(xùn)練為實數(shù)向量來表示每一個數(shù)據(jù)點,通過計算詞嵌入之間的相似性來表示數(shù)據(jù)點的密度與距離,實現(xiàn)文本聚類?;谠~嵌入與密度峰值策略的文本聚類算法基本流程如下。首先,利用word2vec工具對語料進行預(yù)處理,將文本數(shù)據(jù)轉(zhuǎn)變?yōu)閷崝?shù)向量;利用余弦相似度計算數(shù)據(jù)點之間的相似度;根據(jù)數(shù)據(jù)點之間的相似度計算數(shù)據(jù)點的密度以及距離;根據(jù)決策圖選擇聚類中心。

        3 實驗結(jié)果及分析

        本文實驗包括對基于詞嵌入的密度峰值聚類算法性能與DBSCAN聚類算法對比測試,以及對文本聚類效果的比較分析。實驗語料采用搜狗試驗室的標(biāo)注文檔(http://www.sogou.com/labs/dl/c.html)。包含財經(jīng)、計算機、健康等9個分類的網(wǎng)絡(luò)文本數(shù)據(jù),每個分類都包含約2000條的新聞數(shù)據(jù)。在實驗前的數(shù)據(jù)預(yù)處理中,將每一類新聞的數(shù)據(jù)隨機提取出來,重新構(gòu)造S-500與S-1500兩個數(shù)據(jù)集,分別包括500與1500條新聞數(shù)據(jù)。

        3.1 實驗設(shè)置

        本文選擇準(zhǔn)確率(Precision)、召回率(Recall)以及F值(F-Measure)作為算法評價指標(biāo)。準(zhǔn)確率可以反映出算法對語料內(nèi)容分類的能力;召回率能夠判斷算法分類與人工分類的相似程度高低;F值是準(zhǔn)確率與召回率的綜合指標(biāo),取值在0~1之間,值越高說明算法性能越好。DBSCAN算法通過多次實驗來確定參數(shù),將eps值設(shè)置為0.68;minPts值設(shè)為14.32。

        3.2 實驗結(jié)果與分析

        實驗結(jié)果如表1所示,本文算法的準(zhǔn)確率、召回率與F值等指標(biāo)均優(yōu)于DBSAN算法。這是因為本文算法通過密度與距離共同判斷聚類中心,并非只依靠密度這個單一特征來判斷,因此與DBSCAN相比能夠更加準(zhǔn)確的區(qū)分出不同的類簇。并且,本文算法需要考察的是數(shù)據(jù)點之間的距離(文本相似性),與數(shù)據(jù)的輸入順序無關(guān),因此可以更快速的劃分類簇。

        4 結(jié)束語

        本文在研究了詞嵌入技術(shù)與密度峰值聚類算法的基礎(chǔ)上提出了一種基于詞嵌入的密度峰值大數(shù)據(jù)文本聚類算法。該算法結(jié)合了詞嵌入能夠表示語義特征與密度峰值聚類算法能夠快速準(zhǔn)確劃分類簇的優(yōu)點,對當(dāng)前大數(shù)據(jù)環(huán)境中的海量文本數(shù)據(jù)進行高效挖掘。通過實驗表明,本文算法對于較大數(shù)據(jù)量的文本依然能夠快速準(zhǔn)確的進行聚類,與傳統(tǒng)方法相比魯棒性更強。在下一步研究中,將深度學(xué)習(xí)技術(shù)與本文聚類算法相結(jié)合,以獲取更加有效的語義分類方法。

        參考文獻

        [1]Bengio Y, Ducharme R, jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research,2006,3(6):1137-1155.

        [2]Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch[J]. Journal of Machine Learning Research,2011,12(1):2493-2537.

        猜你喜歡
        聚類算法
        基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類方法分析張學(xué)文治療肝熱血瘀證用藥規(guī)律
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
        K—Means聚類算法在MapReduce框架下的實現(xiàn)
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        數(shù)據(jù)挖掘技術(shù)在識別可疑金融交易中的應(yīng)用
        基于改進的K_means算法在圖像分割中的應(yīng)用
        大規(guī)模風(fēng)電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        用戶行為分析分類模型的研究
        計算機時代(2016年2期)2016-02-19 22:04:17
        基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
        基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)
        亚洲综合久久久中文字幕| 午夜精品久久久久久中宇| 国产精品一区二区在线观看99| 第九色区Aⅴ天堂| av在线播放亚洲天堂| 国产欧美日韩精品丝袜高跟鞋 | 欧美成人高清手机在线视频| 国产成人一区二区三区影院免费| 亚洲av高清一区二区| 婷婷五月六月激情综合色中文字幕| 福利体验试看120秒| 综合色天天久久| 亚洲大胆美女人体一二三区| 国产成人无码精品久久久免费| 国产精品18久久久久久麻辣| 亚洲国产精品线观看不卡| 国产自拍精品在线视频| 曰韩无码av一区二区免费| 国产欧美日韩综合精品二区| 国产女人成人精品视频| 国产一区,二区,三区免费视频| 精品人妻av一区二区三区麻豆| 亚洲熟妇无码一区二区三区导航| 激情五月婷婷综合| 黄页国产精品一区二区免费| 九一精品少妇一区二区三区 | 丰满少妇人妻无码专区| 最近高清中文在线字幕观看 | 久久婷婷国产精品香蕉| 亚洲综合久久中文字幕专区一区 | 亚洲精品久久久久一区二区| 免费a级毛片无码a∨免费软件| 久久亚洲午夜牛牛影视| 国产激情一区二区三区成人| 欧美成人精品第一区| 真人无码作爱免费视频禁hnn| 天啦噜国产精品亚洲精品| 久久精品中文字幕免费| 免费一区二区三区女优视频| 国产美女精品一区二区三区| 国产黑色丝袜一区在线|