亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于增量式模糊聚類算法的文本挖掘

        2022-11-15 05:39:50耿新青王正歐
        關(guān)鍵詞:信息熵文檔準(zhǔn)確率

        耿新青,王正歐

        (1.鞍山師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,遼寧 鞍山 114007;2.天津大學(xué) 系統(tǒng)工程研究所,天津 300072)

        網(wǎng)頁文本挖掘是對網(wǎng)頁文檔的內(nèi)容進(jìn)行分析,從網(wǎng)頁文檔內(nèi)容中發(fā)現(xiàn)知識(shí)的過程。網(wǎng)頁文本挖掘的對象可以是無結(jié)構(gòu)的平面自由文本、半結(jié)構(gòu)化的超文本和結(jié)構(gòu)化的文本數(shù)據(jù)[1-3]。聚類是網(wǎng)頁文本挖掘中一個(gè)重要方面[5]。模糊C均值聚類(Fuzzy C-means,FCM)[6,7]算法是一種經(jīng)典的聚類算法,其應(yīng)用到模式識(shí)別、圖像處理、分類和聚類等領(lǐng)域[8-10]。FCM算法性能受初始聚類中心,權(quán)重指數(shù)等因素影響[11,12],一些學(xué)者對其進(jìn)行了改進(jìn)[13-15],但FCM算法仍存在3個(gè)問題:(1)聚類數(shù)事先是未知的,需采用有效的聚類標(biāo)準(zhǔn)獲得聚類數(shù)。(2)初始化聚類中心是人為設(shè)定的。(3)模糊聚類算法受數(shù)據(jù)點(diǎn)分布的影響。Cobweb算法是一種增量式分層聚類算法,然而Cobweb聚類結(jié)果會(huì)受實(shí)例出現(xiàn)的順序影響。文本聚類特征提取使用向量空間模型(Vector space model,VSM),每一個(gè)特征向量包含關(guān)鍵詞權(quán)重,傳統(tǒng)詞頻-逆向文件頻率(Term frequency-inverse document frequency,TF-IDF)不能處理語義之間的依賴性和子主題結(jié)構(gòu)。近年來,主題模型獲得了關(guān)注,如David Blei提出隱含狄利克雷分布(Latent Dirichlet allocation,LDA)主題模型,以概率分布的形式表示文檔集中的每篇文檔的主題,用于文本分類的前期處理[16]。主題模型對于分析大文本集是有效的,能夠?qū)卧~自動(dòng)聚類到主題并找到文件集中文本之間的關(guān)系[18,19]。網(wǎng)頁是一種特殊的文本,LDA在文本挖掘中存在網(wǎng)頁文本挖掘涉及語義問題[20,21]。

        針對當(dāng)前文本挖掘方法存在缺陷,本文提出了基于增量式模糊聚類算法(Incremental fuzzy clustering algorithm,FCLDA)的文本挖掘方法,對文本集中的關(guān)鍵詞的出現(xiàn)次數(shù)排序,優(yōu)先選擇出現(xiàn)次數(shù)多的關(guān)鍵詞作為文本集的主題,利用LDA模型獲得文檔—主題概率分布,該分布組成的矩陣作為FCM算法的隸屬度矩陣,在FCM迭代過程中采用模糊信息熵作為聚類數(shù)確定的標(biāo)準(zhǔn),并對隸屬度值調(diào)整,降低孤立點(diǎn)對聚類準(zhǔn)確率的影響。隨著主題詞的增加,模糊信息熵達(dá)到最小值時(shí),聚類數(shù)確定下來,即實(shí)現(xiàn)了增量式模糊聚類。本文隸屬度矩陣是文檔和主題構(gòu)成的概率分布,不需要降維,因此本文算法在效率方面具有很大的優(yōu)勢。

        1 相關(guān)工作

        1.1 LDA模型

        LDA模型是一種無監(jiān)督技術(shù),用于在多個(gè)文本文件中發(fā)現(xiàn)主題,由于主題抽象,一段文本可能含有多種主題,因此將主題模型理解成一個(gè)黑箱,LDA模型的工作原理如圖1所示。

        圖1 LDA模型框架

        1.2 FCM算法

        在FCM算法中[22,23],設(shè){xi|i=1,2,…,n},n個(gè)樣本組成的樣本集合,假設(shè)c1,c2,…,ck是k個(gè)聚類中心,目標(biāo)函數(shù)為

        (1)

        在模糊C均值的迭代過程中,還用到以下計(jì)算聚類中心的公式

        (2)

        在不同的隸屬度定義方法下最小化的目標(biāo)函數(shù),得到不同的模糊聚類方法。

        (3)

        1.3 Cobweb分層聚類算法

        Cobweb算法使用了分類樹用來指導(dǎo)分類[24],構(gòu)建分類樹。在分類樹中實(shí)現(xiàn)概念分層,完成概念聚類。

        (1)建立一個(gè)類(簇),使用第一個(gè)實(shí)例作為它唯一的成員。

        (2)對于每個(gè)剩余實(shí)例,在每個(gè)樹層次(概念分層)上用一個(gè)評價(jià)函數(shù)決定選擇以下兩個(gè)動(dòng)作之一執(zhí)行。

        ①將新實(shí)例放到一個(gè)已存在的簇中。

        ②創(chuàng)建只具有這個(gè)新實(shí)例的新概念簇。

        在Cobweb中,評價(jià)函數(shù)是一種對概念分類質(zhì)量測量的指標(biāo)。Cobweb算法使用了一種啟發(fā)式評價(jià)方法—分類效用(category utility,CU)來指導(dǎo)分類。CU定義了聚類的好壞,值越小聚類較差,值越大聚類質(zhì)量越好。

        CU的計(jì)算公式如下

        (4)

        式(4)中包含3個(gè)概率。式中:

        I.P(Au=Vuq|Cj)表示在類Cj的全體成員中,屬性Ap為Vuq的條件概率;

        II.P(Au=Vuq)表示在整個(gè)數(shù)據(jù)集中屬性Au取值為Vuq的概率;

        III.P(Cj)表示每個(gè)類Cj的概率。

        2 基于FCLDA的文本挖掘方法

        2.1 主題詞確定

        首先數(shù)據(jù)預(yù)處理將無關(guān)字符過濾,文本分詞、去掉停用詞,數(shù)據(jù)歸一化處理;然后統(tǒng)計(jì)文本集中單詞的出現(xiàn)頻率,對單詞出現(xiàn)的頻率作降序。單詞出現(xiàn)的頻率高低與聚類關(guān)系密切,優(yōu)先選單詞出現(xiàn)頻率高的作為主題詞,根據(jù)主題詞個(gè)數(shù)確定主題詞。

        2.2 文本的特征表示

        (5)

        2.3 聚類數(shù)的確定

        在信息論中,信息熵是信息的不確定程度的度量。當(dāng)信息熵越大,信息就越不清楚。信息熵達(dá)到最小值時(shí),聚類的結(jié)果確定下來。模糊聚類是以隸屬度的形式表示類別的歸屬,當(dāng)數(shù)據(jù)點(diǎn)的隸屬度值越大,聚類劃分的越明確。模糊信息熵將模糊的隸屬度和信息熵相結(jié)合,本文采用的模糊信息熵公式如下所示

        (1-uij)×log2(1-uij)]/N}

        (6)

        式中:uij是樣本i屬于類j的程度,H達(dá)到最小值時(shí)所對應(yīng)的聚類數(shù)就是最佳聚類數(shù)。

        2.4 隸屬度的改進(jìn)

        對FCM算法的隸屬度值加一個(gè)權(quán)值,使孤立點(diǎn)對聚類準(zhǔn)確率的影響降低。隸屬度改進(jìn)公式為

        (7)

        2.5 本文算法-FCLDA

        本文經(jīng)過分詞和特征選取得到的特征向量,確定主題詞,模糊信息熵作為聚類數(shù)確定的標(biāo)準(zhǔn),當(dāng)?shù)Y(jié)束,聚類數(shù)確定。算法如下:

        步驟1設(shè)定初始聚類數(shù)k為2,迭代次數(shù)為p=1,并選擇指數(shù)權(quán)重m和迭代停止閾值ε。

        一松了口氣,她渾身疲軟像生了場大病一樣,支撐著拿起大衣手提袋站起來,點(diǎn)點(diǎn)頭笑道:“明天?!庇值吐曕f道:“他忘了有點(diǎn)事,趕時(shí)間,先走了?!?/p>

        步驟2LDA模型的主題數(shù)與聚類數(shù)一致,α取值為0.1,根據(jù)式(5)得到的文檔—主題概率分布θ,構(gòu)成向量矩陣A。

        步驟3將矩陣A作為FCM算法的隸屬度矩陣U(0)和H(0)。

        步驟4根據(jù)式(2),計(jì)算聚類中心C(p)。

        步驟5根據(jù)式(3),計(jì)算隸屬度矩陣U(p)。

        步驟6根據(jù)式(7),改進(jìn)隸屬度。

        步驟8根據(jù)式(6),計(jì)算H(p),如果H(p)

        2.6 FCLDA算法在文本挖掘中的應(yīng)用

        將從網(wǎng)上獲得的文檔進(jìn)行分詞預(yù)處理,得到文本的特征向量,利用LDA模型得到文檔的主題-概率分布,該分布構(gòu)成向量矩陣作為FCM算法的輸入,并對FCM算法的隸屬度做了改進(jìn)調(diào)整。隨著主題詞的增加,當(dāng)模糊信息熵達(dá)到最小值時(shí),聚類結(jié)果確定下來。本文算法文本挖掘過程如圖2所示。

        圖2 文本挖掘完成過程

        3 試驗(yàn)與結(jié)果分析

        3.1 試驗(yàn)環(huán)境設(shè)置

        硬件試驗(yàn)環(huán)境:CPU為Intel(R)Core(TM)i5-6267U,內(nèi)存8G。軟件試驗(yàn)環(huán)境:操作系統(tǒng)為Windows 10(64位),python3.9。本文試驗(yàn)主要使用python語言的python-jieba庫和scikit-learn庫實(shí)現(xiàn),參數(shù)m指數(shù)權(quán)重m控制聚類結(jié)果的模糊度,一般取值為2;ε控制算法的迭代收斂,一般取值為0.01;α取值為0.1。γ為0.2的運(yùn)行效率高于γ為0.8,γ為0.2的聚類準(zhǔn)確率低于γ為0.8,本文共做了3個(gè)試驗(yàn)來驗(yàn)證FCLDA算法的有效性和優(yōu)越性。

        3.2 數(shù)據(jù)來源

        為了測試FCLDA的文本挖掘方法的通用性,選擇標(biāo)準(zhǔn)數(shù)據(jù)集和一些網(wǎng)站的數(shù)據(jù)進(jìn)行仿真試驗(yàn)。標(biāo)準(zhǔn)數(shù)據(jù)集為:UCI數(shù)據(jù)庫中選取3個(gè)數(shù)據(jù)集,分別是iris,class和wine。網(wǎng)站的數(shù)據(jù)為:知網(wǎng)上的數(shù)據(jù)和網(wǎng)易上的數(shù)據(jù)。

        3.3 定義評估標(biāo)準(zhǔn)

        (8)

        表1 混淆矩陣

        (2)查準(zhǔn)率和查全率。機(jī)器歸入文檔數(shù)是指算法運(yùn)行后得到的分類結(jié)果。機(jī)器歸入文檔數(shù)包括正確分類結(jié)果和錯(cuò)誤分類結(jié)果。

        (9)

        (10)

        3.4 結(jié)果與分析

        3.4.1 UCI數(shù)據(jù)的試驗(yàn)結(jié)果

        γ取值為0.2,將本文算法FCLDA,FCM算法進(jìn)行對比試驗(yàn),結(jié)果如圖3所示。從試驗(yàn)結(jié)果來看,數(shù)據(jù)集iris的聚類效果比數(shù)據(jù)集class和數(shù)據(jù)集wine準(zhǔn)確率高,本文FCLDA算法在數(shù)據(jù)集iris準(zhǔn)確率為97%,在數(shù)據(jù)集class和wine的聚類準(zhǔn)確率分別為89%和86%??傮w上來說模糊聚類算法的聚類準(zhǔn)確率要高于K近鄰(K-nearest neighbor,KNN)算法。

        圖3 3種算法在3種數(shù)據(jù)集上的聚類準(zhǔn)確率對比圖

        3.4.2 網(wǎng)易上的數(shù)據(jù)結(jié)果

        本文取自網(wǎng)易新聞2016年5月1日至2016年5月14日的新聞文本,每個(gè)文件為一個(gè)新聞文本,對原始數(shù)據(jù)進(jìn)行處理,生成便于處理的文本文件。處理過程采用如下步驟:數(shù)據(jù)清洗完成抽取語料文件中的正文內(nèi)容,剔除空格、回車等空白字符。這些文章經(jīng)過分詞處理和特征選取后,有2 513個(gè)特征詞,分為新聞、娛樂、體育、財(cái)經(jīng)、汽車5大類。設(shè)定LDA模型的主題個(gè)數(shù),利用文檔-主題分布公式得到θ,θ作為FCM算法的隸屬度矩陣,在FCM算法的迭代過程,對隸屬度值做調(diào)整。當(dāng)模糊信息熵達(dá)到最小值時(shí),聚類數(shù)確定下來。當(dāng)K為5時(shí),完成聚類。FCM算法、KNN算法、FCLDA算法、KNN算法的對比結(jié)果如圖4~6所示。隨著迭代次數(shù)的增加,所有算法的聚類準(zhǔn)確率在提高,當(dāng)?shù)螖?shù)為30次時(shí),算法的聚類準(zhǔn)確率達(dá)到最高。從表2結(jié)果來看,隨著迭代次數(shù)的增加,FCLDA算法聚類準(zhǔn)確率高于FCM算法和KNN算法。

        圖4 FCM算法的網(wǎng)易文本聚類準(zhǔn)確率(%)

        圖5 FCLDA算法的網(wǎng)易文本聚類準(zhǔn)確率(%)

        圖6 KNN算法的網(wǎng)易文本聚類準(zhǔn)確率(%)

        3.4.2 知網(wǎng)上的數(shù)據(jù)結(jié)果

        本試驗(yàn)數(shù)據(jù)來自于http://www.cnki.net。文本集包括數(shù)學(xué)、農(nóng)學(xué)、天文學(xué)、材料科學(xué)、化學(xué)工程5大類。聚類結(jié)果如表3~4所示。從聚類的結(jié)果來看,將LDA模型與模糊均值相結(jié)合得到FCLDA算法,由于該算法不需要降維,主題-文檔概率分布作為FCM算法的隸屬度矩陣,解決了語義模糊性的問題;在FCM算法迭代過程,逐漸增加主題詞,并對隸屬度進(jìn)行改進(jìn)調(diào)整,模糊信息熵作為聚類評價(jià)標(biāo)準(zhǔn),完成增量式模糊聚類。克服了傳統(tǒng)模糊算法需預(yù)先指定初始隸屬度矩陣的缺陷,本文算法具有很大的優(yōu)越性。在相同試驗(yàn)條件下,本文FCLDA算法執(zhí)行時(shí)間約為10 min;由于FCM算法和KNN算法需要降維,FCM算法執(zhí)行時(shí)間約為15 min,KNN算法執(zhí)行時(shí)間約為20 min。FCLDA算法效率高于FCM算法和KNN算法,3種算法的聚類結(jié)果如表2~4所示。

        表2 KNN算法的聚類結(jié)果

        表3 FCM算法的聚類結(jié)果

        表4 FCLDA算法的聚類結(jié)果

        4 結(jié)束語

        本文采用LDA模型的文檔-主題概率分布作為FCM算法的隸屬度矩陣,逐漸增加主題詞,模糊信息熵確定文本聚類的聚類數(shù),完成增量式模糊聚類,解決了傳統(tǒng)模糊聚類需預(yù)先確定隸屬度矩陣的問題。本文算法不需要降維,在算法迭代過程中對隸屬度做了改進(jìn)調(diào)整,仿真結(jié)果表明FCLDA算法的聚類結(jié)果精度高于FCM算法和KNN算法,模糊聚類解決了中文語義的多樣性和歸屬的模糊性問題,本文算法更適宜于解決一般的文本聚類問題。下一步研究重點(diǎn)放在多源異構(gòu)大數(shù)據(jù)的表示與語義理解,并將提出的算法與傳統(tǒng)模糊文本聚類算法做比較研究。

        猜你喜歡
        信息熵文檔準(zhǔn)確率
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        有人一聲不吭向你扔了個(gè)文檔
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        基于信息熵的IITFN多屬性決策方法
        国产亚洲成性色av人片在线观| 精精国产xxxx视频在线播放器| av在线免费播放网站| 在线成人影院国产av| av免费不卡国产观看| 国产精品视频一区二区三区四| 国产精品激情综合久久| 国产精品女丝袜白丝袜美腿| 精品亚洲a∨无码一区二区三区| 国产人妻人伦精品1国产盗摄| 国产精品区一区二区三在线播放| 国产一级av理论手机在线| 极品美女一区二区三区免费| 亚洲av午夜福利精品一区二区| 亚洲丁香婷婷综合久久小说| 日韩在线中文字幕一区二区三区| av日韩高清一区二区| 国内精品卡一卡二卡三| 在线不卡av天堂| 日本高清一区二区三区色| 色翁荡熄又大又硬又粗又动态图| 性色av无码久久一区二区三区| 亚洲AV成人无码久久精品四虎| 性色av一区二区三区四区久久| 无套内谢孕妇毛片免费看| 亚洲日韩欧洲无码av夜夜摸| 欧美色资源| 一个人午夜观看在线中文字幕| √天堂中文官网在线| 无遮挡亲胸捏胸免费视频| 国产在线精品亚洲视频在线 | 国产精品一区一区三区| 亚洲精品宾馆在线精品酒店| 熟妇的荡欲色综合亚洲| 久久精品成人免费观看97| 成人国产高清av一区二区三区| 国产精品精品自在线拍| 国产欧美日韩专区| 国产精品亚洲在钱视频| 久久婷婷国产综合精品| 台湾佬综合网|