亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)K-medoids算法的科技文獻(xiàn)特征選擇方法

        2015-03-22 02:05:42李俊州
        關(guān)鍵詞:特征詞項(xiàng)集中心點(diǎn)

        李俊州, 武 瑩

        (1.開(kāi)封大學(xué) 藝術(shù)設(shè)計(jì)學(xué)院, 河南 開(kāi)封 475004; 2.開(kāi)封大學(xué) 軟件職業(yè)技術(shù)學(xué)院, 河南 開(kāi)封475004)

        ?

        基于改進(jìn)K-medoids算法的科技文獻(xiàn)特征選擇方法

        李俊州1*, 武 瑩2

        (1.開(kāi)封大學(xué) 藝術(shù)設(shè)計(jì)學(xué)院, 河南 開(kāi)封 475004; 2.開(kāi)封大學(xué) 軟件職業(yè)技術(shù)學(xué)院, 河南 開(kāi)封475004)

        根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點(diǎn)搭建了一個(gè)四層挖掘模式,并結(jié)合K-medoids算法提出了一個(gè)特征選擇方法.該選擇方法首先依據(jù)科技文獻(xiàn)的結(jié)構(gòu)將其分為4個(gè)層次,然后通過(guò)K-medoids算法聚類(lèi)對(duì)前3層逐層實(shí)現(xiàn)特征詞提取,緊接著再使用Aprori算法找出第4層的最大頻繁項(xiàng)集,并作為第4層的特征詞集合.同時(shí),由于K-medoids算法的精度受初始中心點(diǎn)影響較大,為了改善該算法在特征選擇中的效果,論文又對(duì)K-medoids算法的初始中心點(diǎn)選擇進(jìn)行優(yōu)化.實(shí)驗(yàn)結(jié)果表明,結(jié)合優(yōu)化K-medoids的四層挖掘模式在科技文獻(xiàn)分類(lèi)方面有較高的準(zhǔn)確率.

        文本分類(lèi); 特征選擇;K-medoids算法

        隨著文獻(xiàn)檢索能力的提高,越來(lái)越多的用戶(hù)習(xí)慣于從中國(guó)知網(wǎng)和數(shù)字圖書(shū)館進(jìn)行快速檢索,獲取所需的文獻(xiàn)資料.但是在知識(shí)更新不斷加快的今天,新主題、新事物、新學(xué)科大量涌現(xiàn),信息種類(lèi)和數(shù)量激增.使得科技文獻(xiàn)的數(shù)量每年近似指數(shù)的速度增長(zhǎng),如此海量的科技文獻(xiàn),往往需要消耗讀者大量的時(shí)間,如何對(duì)其進(jìn)行高效組織,滿(mǎn)足廣大讀者的需求,已經(jīng)成為該領(lǐng)域的一個(gè)研究熱點(diǎn).

        文本特征向量的高維性是文本分類(lèi)的瓶頸,特征選擇是文本特征向量降維的一種方式,它是實(shí)現(xiàn)文本高效分類(lèi)前提,是文本自動(dòng)分類(lèi)的一個(gè)重要環(huán)節(jié),特征選擇算法的性能將直接影響分類(lèi)系統(tǒng)的最終效果.目前用于文本特征選擇的方法主要由以下幾種:互信息方法(Mutual Information)[1],信息增益方法(Information Gain)[2],x2統(tǒng)計(jì)量方法[3],期望交叉熵方法(Expected Cross Entropy)[3],文檔頻次方法(Document Frequency)[4].

        科技文獻(xiàn)主要以文本的形式存在,由標(biāo)題、摘要,關(guān)鍵字,正文等組成,其中最能代表文章主題的是標(biāo)題和關(guān)鍵字,其次是摘要部分,再次是正文的引言和總結(jié)部分,最后是正文的其他部分.為了更加精準(zhǔn)的提取特征詞,本文組建四層挖掘模式,逐層對(duì)科技文獻(xiàn)進(jìn)行特征選擇.本文首先對(duì)K-medoids算法進(jìn)行改進(jìn),然后結(jié)合改進(jìn)后的K-medoids算法和Apriori算法提出一種新的文本特征選擇方法,來(lái)對(duì)科技文獻(xiàn)進(jìn)行分類(lèi)處理.

        1 相關(guān)基礎(chǔ)知識(shí)

        1.1 K-medoids算法

        K-medoids算法是聚類(lèi)分析常用的一種方法,其基本思想[5]是:隨機(jī)選擇K個(gè)初始聚類(lèi)中心點(diǎn),其余數(shù)據(jù)點(diǎn)根據(jù)其與中心點(diǎn)的距離將其分配給最近的代表的簇,反復(fù)從聚類(lèi)的非代表樣本中選取數(shù)據(jù)點(diǎn)來(lái)代替原質(zhì)點(diǎn),如果某數(shù)據(jù)點(diǎn)成為質(zhì)點(diǎn)后,絕對(duì)誤差能小于原質(zhì)點(diǎn)所造成的絕對(duì)誤差,那么該數(shù)據(jù)點(diǎn)可取代原質(zhì)點(diǎn),絕對(duì)誤差最小的數(shù)據(jù)樣本將成為簇中心點(diǎn).算法描述:

        輸入:K為初始中心點(diǎn)個(gè)數(shù),D為包含N個(gè)對(duì)象的數(shù)據(jù)集合.

        輸出:K個(gè)結(jié)果簇.

        Step1:從D中選出K個(gè)初始中心點(diǎn);

        Step2:將其余對(duì)象依據(jù)距離分配到與其最近的中心點(diǎn);

        Step3:隨機(jī)選擇一個(gè)非中心點(diǎn)Oi;

        Step4:計(jì)算用Oi代替原中心點(diǎn)Oj所造成的絕對(duì)誤差;

        Step5:計(jì)算Oi造成的絕對(duì)誤差與原中心點(diǎn)Oj造成的絕對(duì)誤差的差值,當(dāng)新中心點(diǎn)的造成的絕對(duì)誤差小于原中心點(diǎn)時(shí),Oi替換Oj,形成新的K個(gè)代表對(duì)象集合;

        Step6:轉(zhuǎn)向step3,直至算法收斂;

        Step7:結(jié)束,得到K個(gè)結(jié)果簇.

        1.2 Apriori算法

        Apriori算法是一種逐層迭代挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)尋找數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系[6].Apriori算法使用如下性質(zhì)來(lái)找到K維最大頻繁項(xiàng)集:

        性質(zhì)1XK是K維頻繁項(xiàng)集,若所有K-1維頻繁項(xiàng)集集合XK-1中包含XK的K-1維子項(xiàng)集的個(gè)數(shù)小于K,那么XK不可能為K維最大頻繁項(xiàng)集.

        K的值每增加1就需要掃描一次數(shù)據(jù)庫(kù),為了提高頻繁項(xiàng)集的搜索效率,Apriori算法使用下述性質(zhì)用于壓縮搜索空間:

        性質(zhì)2若K維數(shù)據(jù)項(xiàng)集XK中有一K-1維子集不是頻繁項(xiàng)集,那么X不是頻繁項(xiàng)集.

        算法描述:

        Step1:掃描數(shù)據(jù)庫(kù),產(chǎn)生頻繁的1-項(xiàng)集;

        Step2:由頻繁1-項(xiàng)集經(jīng)過(guò)兩兩結(jié)合生成頻繁的2-項(xiàng)集;

        Step3:通過(guò)頻繁K-1-項(xiàng)集產(chǎn)生K-項(xiàng)集候選集;

        如果在兩個(gè)頻繁的K-1-項(xiàng)集只有最后一個(gè)元素不同,其他都相同,那么這兩個(gè)K-1-項(xiàng)集項(xiàng)集可以“連接”為一個(gè)K-項(xiàng)集.如果不能連接,將其舍棄;

        Step4:從候選集中剔除非頻繁項(xiàng)集;

        如果候選集中某個(gè)K-項(xiàng)集的子項(xiàng)集不在頻繁的K-1-項(xiàng)集中,將其刪除;

        Step5:計(jì)算候選項(xiàng)集的支持度,將其與最小支持度比較,得到K維頻繁項(xiàng)集.直至生成最大項(xiàng)集,否則轉(zhuǎn)向Step3;

        Step6:結(jié)束,獲取最大頻繁項(xiàng)集.

        2 改進(jìn)的K-medoids算法

        K-medoids算法首先要任選K個(gè)數(shù)值點(diǎn)初始聚類(lèi)的簇中心,在此基礎(chǔ)進(jìn)行迭代計(jì)算.如果初始中心不同,相應(yīng)的聚類(lèi)結(jié)果就會(huì)有差異.在理論上,隨機(jī)選取初始點(diǎn)最理想情況是選取了K個(gè)簇的中心點(diǎn),此種情況下的聚類(lèi)效果為最佳,但是也有可能將一簇中的K個(gè)元素選為初始點(diǎn),此時(shí)的聚類(lèi)效果較差,為此,需對(duì)初始值的選取應(yīng)該制定一個(gè)標(biāo)準(zhǔn),使其盡可能地接近各個(gè)簇的中心.

        設(shè)在訓(xùn)練集中特征項(xiàng)ti的權(quán)重向量為:wi=(wi1,wi2,…,win),任意兩個(gè)權(quán)重向量差值的模的最大值為:

        vi=max|wis-wit|

        (s,t=1,2,…,n;s≠t;i=1,2,…,m),

        (1)

        其中,m為特征個(gè)數(shù),n為文本數(shù).

        一般情況下,類(lèi)屬性特征詞在其所屬類(lèi)別文本中出現(xiàn)的頻率高而在其它類(lèi)別文本中出現(xiàn)的概率較小,而非類(lèi)屬性特征詞則不然,因此類(lèi)屬性特征詞的vi值大于非類(lèi)屬性特征詞的vi值,即vi值較大的特征項(xiàng)對(duì)文本類(lèi)屬性的標(biāo)引能力更強(qiáng).

        改進(jìn)的K-medoids算法對(duì)數(shù)據(jù)集合進(jìn)行聚類(lèi)分析的步驟描述如下:

        輸入:數(shù)據(jù)對(duì)象集A,聚類(lèi)種子初始中心點(diǎn)個(gè)數(shù)K.

        輸出:K個(gè)結(jié)果簇,使每個(gè)聚類(lèi)中心點(diǎn)不再發(fā)生改變.

        Step2:設(shè)定劃分區(qū)間的單位長(zhǎng)度p,將區(qū)間d=[min{vi},max{vi}]劃分為K個(gè)小區(qū)間,p值的計(jì)算公式[8]為:

        (2)

        其中,K為聚類(lèi)的簇?cái)?shù);

        Step3:判斷特征項(xiàng)ti的vi值是否滿(mǎn)足vi∈lr,如果滿(mǎn)足,則將ti劃分為相應(yīng)的特征子集Sr,lr的計(jì)算公式為:

        lr=[min{vi}+(r-1)p,min{vi}+rp]

        (r=1,2,…,K);

        (3)

        (4)

        則將特征項(xiàng)to作為第o簇的初始值;

        Step5:將其余對(duì)象依據(jù)距離分配到與其最近的中心點(diǎn);

        Step6:隨機(jī)選擇一個(gè)非中心點(diǎn)Oi;

        Step7:計(jì)算用Oi代替原中心點(diǎn)Oj所造成的絕對(duì)誤差,公式為[9]:

        (5)

        其中,p為空間中的數(shù)據(jù)點(diǎn),Oj為簇Cj的中心點(diǎn);

        Step8:計(jì)算Oi造成的絕對(duì)誤差與原中心點(diǎn)Oj造成的絕對(duì)誤差的差值,計(jì)算公式為:

        e=Ei-Ej,

        (6)

        當(dāng)e<0時(shí),Oi替換Oj,形成新的K個(gè)代表對(duì)象集合;

        Step9:轉(zhuǎn)向Step6,直到所有類(lèi)簇的中心點(diǎn)不再發(fā)生變化;

        Step10:算法結(jié)束,得到K結(jié)果簇.

        此種作為選擇聚類(lèi)初始值的條件具有以下優(yōu)點(diǎn):

        1)初始值的選取基本上位于或接近位于各個(gè)聚類(lèi)簇的幾何中心,這更符合聚類(lèi)要求;

        2)由于本文研究的是文本特征選擇,因此這種以vi值的大小為標(biāo)準(zhǔn)的簇初始值選擇模式通過(guò)聚類(lèi)得到的位于各個(gè)簇的“核心區(qū)域”內(nèi)的那些特征項(xiàng)更具有文本的類(lèi)別標(biāo)引能力.

        3 結(jié)合改進(jìn)K-medoids和Apriori算法的四層挖掘模式

        本文根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點(diǎn)提出4層挖掘模式,將K-medoids聚類(lèi)分析方法應(yīng)用于該模式的前3層,將Apriori方法應(yīng)用于第4層,逐層實(shí)現(xiàn)特征選擇.其基本思想:首先將挖掘過(guò)程分為如下4層,標(biāo)題與關(guān)鍵字為第1層,摘要為第2層,文獻(xiàn)引言與總結(jié)部分為第3層,正文的其他部分為第四層;然后將第1層的一級(jí)特征詞的個(gè)數(shù)來(lái)確定K值,依據(jù)特征項(xiàng)對(duì)文本類(lèi)屬性的標(biāo)引能力選出初始中心點(diǎn),將樣本集中的樣本按照歐式距離原則分配到最鄰近的簇中,反復(fù)從聚類(lèi)的非代表樣本中選取數(shù)據(jù)點(diǎn)來(lái)代替原質(zhì)點(diǎn),如果某數(shù)據(jù)點(diǎn)成為質(zhì)點(diǎn)后,絕對(duì)誤差能小于原質(zhì)點(diǎn)所造成的絕對(duì)誤差,新數(shù)據(jù)點(diǎn)可取代原質(zhì)點(diǎn),絕對(duì)誤差最小的數(shù)據(jù)樣本將成為簇中心點(diǎn),直到算法收斂,得到K個(gè)結(jié)果簇;在每個(gè)簇中選擇一個(gè)或多個(gè)代表詞作為二級(jí)特征詞,并根據(jù)二級(jí)特征詞的數(shù)量來(lái)確定第3層K值.步驟相同,待算法收斂時(shí)得到三級(jí)特征詞.正文部分屬于四層挖掘模式中的第4層,由于該部分?jǐn)?shù)據(jù)量大,且所含有效信息量較少,本文采用Apriori算法對(duì)其進(jìn)頻繁項(xiàng)集的挖掘.將提取出的頻繁項(xiàng)集和三級(jí)特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.

        對(duì)科技文獻(xiàn)標(biāo)題、關(guān)鍵字用漢語(yǔ)分詞系統(tǒng)進(jìn)行切分,經(jīng)去停用詞處理,得出一級(jí)特征詞,獲取K值.對(duì)文獻(xiàn)的摘要部分用漢語(yǔ)分詞系統(tǒng)進(jìn)行分詞處理,經(jīng)過(guò)去停用詞處理得到文獻(xiàn)語(yǔ)料庫(kù)(一).采用本文提出的改進(jìn)的K-medoids算法對(duì)其進(jìn)行特征選擇,然后對(duì)每個(gè)簇選擇一個(gè)或多個(gè)代表詞作為二級(jí)特征詞,獲取下一次聚類(lèi)的K值.同樣的方法對(duì)科技文獻(xiàn)的引言和總結(jié)部分進(jìn)行處理,形成文獻(xiàn)語(yǔ)料庫(kù)(二).選擇過(guò)程同二級(jí)特征詞選擇的方法類(lèi)似.用相同的方法對(duì)正文部分?jǐn)?shù)據(jù)處理得到文獻(xiàn)語(yǔ)料庫(kù)(三),由于科技文獻(xiàn)的正文部分?jǐn)?shù)據(jù)量較大,特征詞的密度相對(duì)較小.適合采用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法進(jìn)行頻繁項(xiàng)的挖掘.最后將選擇出的頻繁項(xiàng)集和三級(jí)特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.

        下面以二級(jí)特征詞的選擇為例,對(duì)其過(guò)程進(jìn)行描述:

        Step1:根據(jù)一級(jí)特征詞的數(shù)量確定獲取二級(jí)特征詞聚類(lèi)的K值;

        Step2:使用文本分類(lèi)中常用的tf-idf因子對(duì)第i個(gè)特征項(xiàng)ti進(jìn)行賦權(quán).tf-idf的計(jì)算公式為:

        (7)

        Step3:用本文提出的改進(jìn)的K-medoids算法獲取相應(yīng)的類(lèi)簇C1,C2,…,Ck;

        Step4:計(jì)算類(lèi)簇C1,C2,…,Ck的簇內(nèi)向量的算術(shù)平均向量(類(lèi)別中心向量)X1,X2,…,XK;

        Step5:計(jì)算簇內(nèi)各特征與類(lèi)別中心向量的相似度,相似度計(jì)算公式:

        (8)

        其中,w1i,w2i代表兩個(gè)不同的向量,n為向量?jī)?nèi)的參數(shù)個(gè)數(shù).按從大到小的順序分別取前f個(gè)特征值對(duì)應(yīng)的特征,將這f×K個(gè)特征項(xiàng)構(gòu)成特征集S的子集用于文本表示[11].

        4 仿真實(shí)驗(yàn)與結(jié)果

        4.1 仿真實(shí)驗(yàn)

        在中國(guó)知網(wǎng)上搜集1 320篇屬于計(jì)算機(jī)行業(yè)的科技文獻(xiàn),660篇作為實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練集,其余作為測(cè)試集.其中160篇主題為“離散化”的文獻(xiàn),440篇主題為“綠色網(wǎng)絡(luò)”的文獻(xiàn),720篇主題為“特征選擇”的文獻(xiàn),對(duì)660篇訓(xùn)練集均采用以上的方法對(duì)其進(jìn)行特征選擇.前三級(jí)特征詞的數(shù)量如表1所示.

        表1 前三級(jí)特征詞數(shù)量Tab.1 The Number of Before Three-Level Feature Words

        本文以80篇主題為“離散化”的科技文獻(xiàn)作為Apriori算法的實(shí)驗(yàn)數(shù)據(jù).設(shè)最小支持度為40%,文獻(xiàn)語(yǔ)料庫(kù)如表2所示.

        表2 文獻(xiàn)語(yǔ)料庫(kù)Tab.2 Literature Corpus

        80篇主題為“離散化”的文獻(xiàn),經(jīng)過(guò)Apriori算法處理,最終得到39450維最大頻繁項(xiàng)集52組,將52組數(shù)據(jù)全部組合得到39608個(gè)特征詞.

        4.2 實(shí)驗(yàn)結(jié)果

        本實(shí)驗(yàn)采用空間向量模型(VSM)[15]進(jìn)行文本表示,經(jīng)過(guò)KNN(這里取K=30)文本分類(lèi)算法的訓(xùn)練,形成文本分類(lèi)器,以此作為實(shí)驗(yàn)測(cè)試的工具.

        分類(lèi)評(píng)估的效果使用查全率、查準(zhǔn)率和F-score值進(jìn)行刻劃:

        Recall=正確分類(lèi)的文本數(shù)/應(yīng)有文本數(shù);

        Precision=正確分類(lèi)的文本數(shù)/實(shí)際分類(lèi)的文本數(shù);

        F-score=(2*recall*precision)/(recall+precision).

        實(shí)驗(yàn)中,把本文特征提取方法與文獻(xiàn)[1]中的IACA方法作比較,其實(shí)驗(yàn)對(duì)比結(jié)果如表3所示.

        表3 各特征提取方法實(shí)驗(yàn)對(duì)比結(jié)果Tab.3 Experiment Comparison Results of Feature Extraction Methods %

        通過(guò)以上的比較,可以看出本文所提出方法的查全率、查準(zhǔn)率都優(yōu)于IACA方法,說(shuō)明本文提出的特征選擇方法在科技文獻(xiàn)特征選擇方面有著較好的挖掘性能.

        5 結(jié)束語(yǔ)

        特征選擇是特征降維的一種方式,是文本信息處理的核心步驟,本文針對(duì)科技文獻(xiàn)分類(lèi)提出一種基于改進(jìn)K-medoids方法,該方法與四層挖掘模式相結(jié)合,不僅解決了K-medoids聚類(lèi)算法不能自動(dòng)確定K值的問(wèn)題,而且避免了初始聚類(lèi)中心點(diǎn)對(duì)算法聚類(lèi)的影響,使得特征選擇的精度有了較為明顯的提升.但該方法也受到一定因素的影響,如K-medoids算法對(duì)孤立點(diǎn)數(shù)據(jù)很敏感,孤立點(diǎn)會(huì)使聚類(lèi)中心偏離從而影響聚類(lèi)結(jié)果;由于Apriori算法在計(jì)算項(xiàng)集支持度時(shí),需對(duì)文獻(xiàn)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行掃描,隨著文獻(xiàn)語(yǔ)料庫(kù)記錄的增加,這種掃描將使計(jì)算機(jī)系統(tǒng)的I/O開(kāi)銷(xiāo)呈現(xiàn)出幾何級(jí)數(shù)增加.這些都是進(jìn)一步研究應(yīng)該考慮的問(wèn)題.

        [1] 劉海燕, 王 超, 牛軍鈺. 基于條件互信息的特征選擇改進(jìn)算法[J].計(jì)算機(jī)工程, 2012, 14(38): 36-42.

        [2] 潘 果. 基于正則化互信息改進(jìn)輸入特征選擇的分類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用, 2014, 50(15): 25-29.

        [3] 劉海峰, 蘇 展, 劉守生. 一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J].計(jì)算機(jī)工程與應(yīng)用, 2013, 49(22): 110-114.

        [4] Orakoglu F E, Ekinci C E. Optimization of constitutive parameters of foundation soilsK-means clustering analysis[J]. Sciences in Cold and Arid Regions, 2013, 5(5) :0626-0636.

        [5] Dernoncourt D. Analysis of feature selection stability on high dimension and small sample data[J]. Computational Statistics and Data Analysis, 2014, 71(3):681-693.

        [6] SinaT, Parham M, Fardin A. An unsupervised feature selection algorithm based on ant colony optimization[J].Engineering Applications of Artificial intelligence, 2014, 32(6): 112-123.

        [7] Salwani A. An exponential Monte-Carlo algorithm for feature selection problems[J]. Computers and Industrial Engineering, 2014, 67(1): 160-167.

        [8] Wu X. Online feature selection with streaming features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5): 1178-1192.

        [9] Han J, Kamber M. Date Mining: Comcepts and Techniques[M]. 北京:機(jī)械工程出版社,2001.

        [10] 朱顥東, 吳懷廣. 基于論域劃分的無(wú)監(jiān)督文本特征選擇方法[J].科學(xué)技術(shù)與工程, 2013, 13(7): 1836-1839.

        [11] 傅德勝, 周 辰. 基于密度的改進(jìn)K均值算法及實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(2): 432-434.

        [12] 劉海峰, 劉守生,張學(xué)仁. 聚類(lèi)模式下一種優(yōu)化的K-means文本特征選擇[J]. 計(jì)算機(jī)科學(xué), 2011, 38(1):195-197.

        Feature selection method of scientific literatures based on optimizedK-medoids algorithm

        LI Junzhou1, WU Ying2

        (1.College of Art and Design, Kaifeng University, Kaifeng, Henan 475004;2.College of Software Technology, Kaifeng University, Kaifeng, Henan 475004)

        According to the structural characteristics of the scientific literature, the paper set up a four-level mining mode, and combinedK-medoids algorithm to propose a feature selection method of scientific literatures.The proposed feature selection method firstly divided scientific literature into four layers according to its structure, and then selected features progressively for the former three layers byK-medoids algorithm, finally found out the maximum frequent itemsets of fourth layer by Aprori algorithm to act as a collection of Features fourth layer. Meanwhile, because the clustering accuracy ofK-medoids algorithm is influenced by the initial centers, in order to improve the effect of feature selection, the paper also optimizedK-medoids algorithm which it firstly used information entropy empower the clustering objects to correct the distance function, and then employed empowerment function value to select the optimal initial clustering center. Experimental results show that the four-level mining mode combined optimizedK-medoids has higher accuracy in scientific literature classification.

        text classification; feature selection;K-medoids algorithm

        2015-01-17.

        1000-1190(2015)04-0541-05

        TP392< class="emphasis_bold">文獻(xiàn)標(biāo)識(shí)碼: A

        A

        *E-mail: lijunzhou0724@163.com.

        猜你喜歡
        特征詞項(xiàng)集中心點(diǎn)
        Scratch 3.9更新了什么?
        如何設(shè)置造型中心點(diǎn)?
        電腦報(bào)(2019年4期)2019-09-10 07:22:44
        基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫(huà)應(yīng)緊奏
        尋找視覺(jué)中心點(diǎn)
        大眾攝影(2015年9期)2015-09-06 17:05:41
        面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        關(guān)于“方言特征詞”理論的回顧及思考
        精品人妻一区二区蜜臀av| 性久久久久久久| 男女一级毛片免费视频看| 抖射在线免费观看视频网站| 国产av一区二区毛片| 一本色道久久88亚洲精品综合| 无码人妻品一区二区三区精99| av无码一区二区三| 白嫩少妇高潮喷水av| 婷婷综合另类小说色区| 中国一 片免费观看| 亚洲高清中文字幕精品不卡| 色视频不卡一区二区三区| 国产精品无码无卡无需播放器| 欧美成a人片在线观看久| 国产精品无码不卡在线播放| 国产内射一级一片内射高清视频1| 少妇被粗大的猛进出69影院| 亚洲欧美日韩在线一区| 亚洲AV无码一区二区三区精神| 日本不卡一区二区三区久久精品| 亚洲av无码专区在线观看成人| 成年女人永久免费看片| 久久国产高潮流白浆免费观看| 伊人青青草综合在线视频免费播放| 中文字幕日韩人妻不卡一区| 青青在线精品2022国产| 日韩中文字幕一区二十| 国产日产欧产精品精品蜜芽| 亚洲av伊人久久综合密臀性色| 无码中文字幕av免费放| 国产视频激情视频在线观看| 久久精品国产久精国产果冻传媒| 麻豆国产成人精品午夜视频| 少妇裸淫交视频免费看| 国产性自爱拍偷在在线播放| 五月天激情婷婷婷久久| 久久久精品2019免费观看| 国产性虐视频在线观看| 4hu四虎永久在线观看| 国产成人亚洲精品电影|