亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于資源分配網(wǎng)絡(luò)和語義特征選取的文本分類*

        2014-09-14 01:24:45何曉亮梁久禎
        計算機工程與科學 2014年2期
        關(guān)鍵詞:新穎性語義聚類

        何曉亮,宋 威,梁久禎

        (1.江南大學物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122;2.公安部交通管理科學研究所,江蘇 無錫 214151)

        基于資源分配網(wǎng)絡(luò)和語義特征選取的文本分類*

        何曉亮1,2,宋 威1,梁久禎1

        (1.江南大學物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122;2.公安部交通管理科學研究所,江蘇 無錫 214151)

        針對資源分配網(wǎng)絡(luò)(RAN)算法存在隱含層節(jié)點受初始學習數(shù)據(jù)影響大、收斂速度低等問題,提出一種新的RAN學習算法。通過均值算法確定初始隱含層節(jié)點,在原有的“新穎性準則”基礎(chǔ)上增加RMS窗口,更好地判定隱含層節(jié)點是否增加。同時,采用最小均方(LMS)算法與擴展卡爾曼濾波器(EKF)算法相結(jié)合調(diào)整網(wǎng)絡(luò)參數(shù),提高算法學習速度。由于基于詞向量空間文本模型很難處理文本的高維特性和語義復雜性,為此通過語義特征選取方法對文本輸入空間進行語義特征的抽取和降維。實驗結(jié)果表明,新的RAN學習算法具有學習速度快、網(wǎng)絡(luò)結(jié)構(gòu)緊湊、分類效果好的優(yōu)點,而且,在語義特征選取的同時實現(xiàn)了降維,大幅度減少文本分類時間,有效提高了系統(tǒng)分類準確性。

        RAN學習算法;徑向基函數(shù);語義特征選取;擴展卡爾曼濾波器算法;最小均方算法;文本分類

        1 引言

        文本是當前最主要的非結(jié)構(gòu)化信息資源。文本自動分類技術(shù)TC(Text Categorization)能夠有效地將文本信息組織起來,極大地提高文本檢索的效率。目前文本自動分類已經(jīng)成為一個研究熱點,并在國內(nèi)外出現(xiàn)了一系列與之相關(guān)的分類方法。其中,較為著名的文檔分類方法有支持向量機(SVM)[1]、K最近鄰(KNN)[2]、神經(jīng)網(wǎng)絡(luò)[3]、貝葉斯(Bayes)算法[4]和決策樹[5]等。

        人工神經(jīng)網(wǎng)絡(luò)具有極強的自學習和分類能力,在模式識別領(lǐng)域[6~10]得到廣泛應(yīng)用。與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)相比,徑向基函數(shù)RBF(Radial Basis Function)網(wǎng)絡(luò)以其簡單的結(jié)構(gòu)、優(yōu)良的全局逼近性能[11]引起了學者們的廣泛關(guān)注。構(gòu)造RBFNN(RBF Neural Networks)的關(guān)鍵是網(wǎng)絡(luò)隱含層單元數(shù)的確定[12],隱含層節(jié)點過多或過少將直接影響到網(wǎng)絡(luò)的決策能力。但是,目前仍沒有一種有效的方法來確定適當?shù)碾[含層節(jié)點個數(shù)。比較常用的學習方法是在學習過程中根據(jù)某種準則動態(tài)地添加或刪除隱節(jié)點,以達到網(wǎng)絡(luò)結(jié)構(gòu)適當?shù)囊?。其中最著名的方法是Platt[13]提出的資源分配網(wǎng)絡(luò)RAN(Resource Allocating Network)學習算法。

        RAN學習算法是基于徑向基的單隱含層神經(jīng)網(wǎng)絡(luò)模型,它通過判斷“新穎性準則”來動態(tài)地增加隱含層節(jié)點的數(shù)目。而“新穎性準則”受初始化數(shù)據(jù)的影響非常大,這就極易增加網(wǎng)絡(luò)的學習時間和計算復雜度,而且易導致檢驗效果降低的狀況[14];其次,RAN算法參數(shù)調(diào)整時采用了最小均方LMS(Least Mean Squares)算法,使網(wǎng)絡(luò)存在收斂速度過慢的缺點。Kadirkamanathan V和Niranjan M[15]提出利用擴展的卡爾曼濾波器EKF(Extended Kalman Filter)算法代替最小均方算法進行參數(shù)調(diào)整,從而提高了收斂速度,但EKFRAN算法增加了網(wǎng)絡(luò)的復雜性與計算負擔。針對上述問題,本文提出一種改進的RAN算法:首先,采用基于均值聚類的方法確定隱含層初始中心;其次,在原始RAN的“新穎性準則”中加入RMS滑動窗口RMSSW(Root Mean Squaer Sliding Window)[16]后,利用LMS算法使RAN網(wǎng)絡(luò)進行初步學習,得到初始網(wǎng)絡(luò)(如網(wǎng)絡(luò)隱含節(jié)點數(shù)、網(wǎng)絡(luò)初始參數(shù)等);最后,在初始網(wǎng)絡(luò)參數(shù)的基礎(chǔ)上運用擴展卡爾曼濾波器再進行參數(shù)優(yōu)化。該模型能有效地提高網(wǎng)絡(luò)精度以及RAN網(wǎng)絡(luò)的性能。改進后的RAN算法具有學習速度快、網(wǎng)絡(luò)結(jié)構(gòu)緊湊的優(yōu)點。

        對文本進行預(yù)處理時,目前廣泛使用向量空間模型VSM(Vector Space Model)來表示文本,由文獻[17]可知,它是基于文本特征間相互獨立的前提假設(shè),對每個特征進行獨立評估并計算權(quán)值,按權(quán)值大小排序,然后根據(jù)預(yù)定的閾值或特征數(shù)目選取最佳特征子集。但是,由于自然語言中存在大量一詞多義和多詞同義現(xiàn)象,詞與詞之間很多時候存在著一定的相關(guān)性,導致由向量空間模型得到的文本特征向量具有高維度、復雜相關(guān)性和非線性等特性。本文采用一種基于語義特征選取SFS(Semantic Feature Selection)[18]的方法對文本預(yù)處理過程進行優(yōu)化,達到對文本矩陣降維且消減詞和文檔之間語義模糊度的目的,以便更有利于文本分類。

        2 原始RAN學習算法

        RAN學習算法啟動時面對的是一個無隱含層神經(jīng)元的RBF網(wǎng)絡(luò),通過第一對輸入樣本(x0,y0)初始化網(wǎng)絡(luò)參數(shù),然后對每一對訓練數(shù)據(jù)都進行新穎性判定,若滿足新穎性則增加隱含節(jié)點,否則利用LMS算法對當前網(wǎng)絡(luò)調(diào)整網(wǎng)絡(luò)參數(shù)(包括隱含層神經(jīng)元中心和網(wǎng)絡(luò)權(quán)值)。RAN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        Figure 1 Three-tier structure of RAN neural network圖1 RAN神經(jīng)網(wǎng)絡(luò)的三層結(jié)構(gòu)

        RAN神經(jīng)網(wǎng)絡(luò)采用三層結(jié)構(gòu)模型,設(shè)輸入向量為n維,輸出向量為m維,整個網(wǎng)絡(luò)相當于一個由n維輸入空間向m維輸出空間的一個映射。在該網(wǎng)絡(luò)中,輸入層為X=(x1,x2,…,xn),隱含層為C=(c1,c2,…,ch),b=(b1,b2,…,bm)則為輸出層偏置項,輸出層為Y=(y1,y2,…,ym)。隱含層神經(jīng)元采用的是高斯函數(shù),輸出層對隱含層神經(jīng)元的輸出進行線形加權(quán)組合,可表示為:

        (1)

        其中,h和m分別表示隱含層和輸出層神經(jīng)元個數(shù),x為樣本輸入,wij為隱含層第i個神經(jīng)元和輸出層第j個神經(jīng)元之間的連接權(quán)值,Φ(xi)為隱含層高斯函數(shù)。

        (2)

        其中,ci、σi分別為隱含層第i個神經(jīng)元的中心和中心寬度。

        3 改進的RAN學習算法

        3.1 初始隱含層中心的選取

        對于給定的文檔數(shù)據(jù)集:D=(d1,d2,d3,…,dl),聚類后簇的集合定義為:C=(c1,c2,c3,…,ck),l為文檔的總數(shù),k為文檔聚類個數(shù)。本文采用改進之后的K-means算法求得隱含層中心ci和中心寬度σi,算法流程如下:

        步驟1采取r次取樣,盡量使得取樣后的數(shù)據(jù)樣本集中的數(shù)據(jù)既不失真,又能體現(xiàn)數(shù)據(jù)的原始分布特性。樣本大小為l/r,其中,l為文本集中文本的個數(shù),r的取值為每次抽取的樣本大小,應(yīng)該能裝入主存,并盡可能滿足r次提取的樣本之和等于原始文本集。r個樣本向量可表示為:S=(s1,s2,s3,…,sr),對每個樣本集采用K-means算法進行聚類分析,產(chǎn)生一組k′(k′>k)個聚類中心的文本簇,較大的k′值可以使得孤立點附近無初值依附,本文算法中取k′=1.5×k,即k′值為實際聚類個數(shù)的1.5倍。對于r次取樣操作,共生成r×k′個聚類中心。

        步驟2利用凝聚的層次聚類算法average-linkage算法對新生成的m×k′個聚類中心進行聚類。凝聚的層次聚類是一種自底向上的策略,首先將每個對象作為一個簇,將最相似的兩個簇合并為一個簇,直到剩下只有k′個簇為止,作為聚類中心。

        步驟3將步驟2中獲得的k′個聚類中心作為RAN算法隱含層初始神經(jīng)元,通過式(3)獲取相應(yīng)的σi,該值表示為ci與屬于該類的各訓練樣本之間的距離之和的均值,即:

        (3)

        其中,Ni為所屬類ci的樣本總數(shù)。

        3.2 新穎性準則

        整個RAN網(wǎng)絡(luò)是否增加隱含層節(jié)點,Platt提出的RAN算法利用“新穎性準則”來判斷,該準則同時考慮了輸入與輸出空間的特征,并通過以下公式進行描述:

        (4)

        (5)

        其中,h為當前第i個樣本輸入時網(wǎng)絡(luò)隱含層節(jié)點的數(shù)目,di為當前mi個隱含層節(jié)點中距離xi最近的隱含層節(jié)點的歐氏距離。δi=max{γiδmax,δmin},其中δmax與δmin分別為輸入數(shù)據(jù)xi之間的最大與最小距離。γi為衰減系數(shù),取值為0~1,其值隨著輸入數(shù)據(jù)的增加成指數(shù)級減小,直至滿足以下條件:γiδmax≤δmin。

        在“新穎性準則”控制隱節(jié)點個數(shù)的前提下,為了減少噪聲信息對整個網(wǎng)絡(luò)的影響,本文引入了RMS滑動窗方法,將M記為滑動窗的寬度(M一般取40~50),該變化等價于在輸入樣本的“新穎性準則”中新增了如下約束:

        (6)

        其中,Ei為第i個樣本和之前M個樣本的輸出誤差的均方根,ξ為事先設(shè)定的誤差閾值。

        “新穎性準則”引入公式(6)之后,使得輸入樣本在進入網(wǎng)絡(luò)時,必須同時滿足公式(4)~公式(6),才進行隱含層節(jié)點的添加,否則利用LMS算法對當前網(wǎng)絡(luò)調(diào)整網(wǎng)絡(luò)參數(shù)。公式(6)的引入能有效防止那些受突發(fā)噪聲影響嚴重的輸入樣本點成為隱含層神經(jīng)元,從而大大提高了所訓練網(wǎng)絡(luò)的泛化性能。

        3.3 LMS算法進行參數(shù)調(diào)整

        當輸入樣本滿足公式(4)~公式(6)時,說明該輸入樣本滿足“新穎性準則”,即該樣本與各輸入中心均不相似,則需要給此網(wǎng)絡(luò)增加一個隱含層神經(jīng)元,其參數(shù)設(shè)置如下:

        (7)

        其中,κ為0~1的比例系數(shù),cnearest是距離xi最近的隱含層中心。當xi不滿足式公(4)~公式(6)時,則采用下式對隱含層中心及寬度進行調(diào)整:

        (8)

        其中,cj(i)為cj的第i個分量,Φ(xi)為高斯基公式,wsj為網(wǎng)絡(luò)第j個隱含層節(jié)點到第s個輸出節(jié)點的連接權(quán)值,n、h、m分別為當前神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點、隱含層節(jié)點和輸出節(jié)點的個數(shù),Nj為各類樣本的個數(shù),η為學習速率,αj是一個表征與cj相似度的參數(shù)。αj的定義如下:

        (9)

        其中,cfarthest為距離輸入樣本xi最遠的中心,而cnearest為距離xi最近的中心。

        權(quán)值bj與wj的調(diào)整如下式:

        (10)

        3.4 EKF算法進行參數(shù)調(diào)整

        (11)

        其中,Ki為卡爾曼增益向量,計算方式如下:

        (12)

        (13)

        其中,Q0為比例因子,Ri為測量噪聲方差,di為函數(shù)f(x)相對于參數(shù)向量?在?i-1上的梯度,如下式:

        (14)

        Pi是估計誤差方差陣,是一個p×p維的正定對稱矩陣,p的值與參數(shù)個數(shù)相關(guān)。

        根據(jù)上述探討,本文改進的RAN學習算法如下:

        步驟1利用多次取樣數(shù)據(jù)集二次聚類獲得訓練文檔的一個初始聚類,利用聚類的結(jié)果得到隱含層初始中心和寬度,對網(wǎng)絡(luò)結(jié)構(gòu)進行初始化。

        步驟2輸入訓練數(shù)據(jù),計算神經(jīng)網(wǎng)絡(luò)的輸出。

        步驟3利用公式(4)~公式(6)進行“新穎性準則”判斷,若滿足“新穎性準則”,則利用公式(7)添加一個新的隱含層節(jié)點;若不滿足“新穎性準則”,則利用公式(8)~公式(10)對網(wǎng)絡(luò)參數(shù)進行調(diào)整,跳轉(zhuǎn)到步驟2。

        步驟4得到網(wǎng)絡(luò)的初始結(jié)構(gòu)以及網(wǎng)絡(luò)參數(shù)之后,利用擴展卡爾曼濾波器對神經(jīng)網(wǎng)絡(luò)的參數(shù)進行進一步調(diào)整。

        4 語義特征選取

        4.1 向量空間模型

        對文本進行分類,首要工作是把文本表示成計算機可識別的形式。

        目前對文本信息處理使用較多的方法是基于向量空間模型的表示方法。在這個模型中,文本空間被看作是由一組正交詞條向量組成的向量空間,每個文本表示為其中一個范化特征向量。給定文本,即:Di={(ti,1,wi,1),(ti,2,wi,2),…,(ti,n,wi,n)},其中,ti,j為某一特征詞條,wi,j為文本Di中特征詞條ti,j的權(quán)重。

        4.2 語義特征向量

        (15)

        本文中采用的語義特征提取是利用矩陣A的轉(zhuǎn)置矩陣D與Uk相乘,結(jié)構(gòu)如下所示:

        即得到新的語義特征向量模型表示的文本矩陣,即:

        C=D×Uk

        (16)

        通過語義特征選取得到的文檔矩陣不僅僅在維數(shù)上得到了很大的降低,同時也使詞和文檔之間的語義關(guān)系更加清晰。

        5 實驗結(jié)果與分析

        5.1 實驗數(shù)據(jù)集

        為了驗證本文算法的有效性,我們采用了兩個文本語料數(shù)據(jù)集:reuters-21578標準語料庫(數(shù)據(jù)集1)以及20-newsgroup語料集(數(shù)據(jù)集2)。在數(shù)據(jù)集1中,本文選取了1 500篇文章用于實驗,其中包含了10個類別,分別為:Acq、Coffee、Crude、Earn、Grain、Interest、Money-fx、Ship、Sugar和Trade;在數(shù)據(jù)集2上,本文選取了1 200篇文章,其中所取的文章分別來自于以下10個類別:Alt.atheism、Comp.windows.x、Sci.crypt、Rec.motorcycl-es、Rec.sporthockey、Misc.forsale、Talk.politics.guns、Talk.politics.mideast、Sci.space和Sci.med。對于兩個數(shù)據(jù)集的文檔,本文均采用2/3用于訓練,剩余1/3用于測試。

        在進行驗證實驗前,為了使文本數(shù)據(jù)數(shù)學化表示,需要對數(shù)據(jù)樣本進行預(yù)處理加工。其一般化的做法是:去除停用詞,計算詞頻,并利用向量空間算法將文檔集用文本特征矩陣表示。經(jīng)過預(yù)處理之后,數(shù)據(jù)集1包含7 856個特征詞,可表示為D1j=〈Fj,1,Fj,2,…,Fj,7856〉 ,數(shù)據(jù)集2則含13 642個特征詞,可表示為d2j=〈Fj,1,Fj,2,…,Fj,13642〉 。其中Fj,i表示第i個特征詞在文檔j中的權(quán)重。權(quán)值計算公式采用okapi公式[20]:

        wij=tfij/(tfij+0.5+1.5·dl/avgdl)·idfj

        (17)

        idfj=log(N/q)

        (18)

        然后分別對新的文本特征矩陣再用語義特征選取的方法進行處理,維度k的值分別取40、50、60、80、100、120、150、200、250、300、350、400、450、500、550和600。

        5.2 評估標準

        為了對本文算法性能進行評價,文本分類系統(tǒng)的評價標準包含兩個指標:準確率(precision) 和查全率(recall),其中:

        precision(i,r)=nir/nr

        (19)

        recall(i,r)=nir/ni

        (20)

        其中,nir是類別r包含類別i中的文本的個數(shù),nr是分類類別r中實際對象的數(shù)目, ni是原來預(yù)定義類別i應(yīng)有的文本數(shù)。

        公式(19)、(20)反映了分類質(zhì)量的兩個不同方面,為了將兩者加以綜合考慮,本文采用F-measure來評估分類效果,其值越大,說明分類效果越好。F-measure計算方法是:

        (21)

        同時,本文還采用了誤差平均值MAE(Mean Absolute Error)作為一個評判標準,如下式所示:

        (22)

        其中,q為文本數(shù)量,m為輸出層節(jié)點個數(shù)。

        5.3 實驗結(jié)果分析

        圖2的橫坐標是利用語義特征選取、對實驗數(shù)據(jù)集1進行處理之后產(chǎn)生的不同維度下的文本特征空間,對本文改進的RAN算法、IRAN算法、EKFRAN學習算法、LMSRAN學習算法、Clustering RBF算法、BPNN算法所得到的F-measure值進行對比實驗。對于數(shù)據(jù)集1,在文本維度達到300維之前,六種分類算法的F-measuer值都在逐漸增大,當300維的時候分別都達到極值點,而300維之后F-measure值有所下降。

        Figure 2 F-measure of data set 1圖2 數(shù)據(jù)集1的F-measure值

        圖3是六種神經(jīng)網(wǎng)絡(luò)分類算法通過數(shù)據(jù)集2語義特征選取所獲得的不同維度下的分類結(jié)果,在200維之前的維度,F(xiàn)-measure值都在不斷增大;在200維的時候,六種分類算法的F-measure值都達到極值點;在200維之后,F(xiàn)-measure值曲線下滑。從圖2、圖3中不難看出,本文改進的RAN算法,在選取的每個文本向量維度,F(xiàn)-measure值都要比其他的五種RAN算法的好,這充分說明了本文改進的RAN算法的有效性。

        Figure 3 F-measure of data set 2圖3 數(shù)據(jù)集2的F-measure值

        本文改進的RAN算法在數(shù)據(jù)集1下的向量空間模型1 000維中的運行時間為331.2 s,而原始的LMSRAN算法的運行時間為522.5 s;在語義特征選取300維中,改進RAN運行時間為61.8 s,LMSRAN算法運行時間為140.9 s。同樣地,在數(shù)據(jù)2向量空間模型1 200維和語義特征選取200維中,本文算法運行時間為312.8 s和45 s;LMSRAN算法運行時間為545.5 s和98.2 s。由此可得出,本文改進RAN算法提高了網(wǎng)絡(luò)的學習速度。

        對于圖2和圖3中F-measure曲線的變化趨勢,當采用語義特征選取算法進行降維時,如果維度過低,會造成文本原始特征集信息丟失,造成文本表示不充分,難以達到有效描述文本內(nèi)容的目的,進一步地,則對分類效果產(chǎn)生干擾。但是,當文本維度過高之后F-measure值反而下降,原因是過高的維度使得表示文本的語義特征又會產(chǎn)生過多的冗余特征,造成一定的噪聲干擾,使得文本的相關(guān)性又變得復雜。所以,對于本文采用的實驗數(shù)據(jù)集1,k值取300最佳,數(shù)據(jù)集2的k值取200最有效。

        結(jié)合圖2、圖3與表1可以看出,當數(shù)據(jù)集1用的文本向量維度為語義特征選取的300維的時候,六種分類算法的分類效果都要比各自在向量空間模型中選取的1 000維的效果好;同樣地我們也發(fā)現(xiàn),數(shù)據(jù)集2的文本向量維度采用語義特征選取后的200維時,六種分類算法的分類效果要高于各自在向量空間模型中選取的1 200維的效果。由此可以說明,采用語義特征選取方法進行降維,不僅僅可以降低文本向量的維度和文本分類的時間,而且還提高了文本分類的效果。從表1中還發(fā)現(xiàn),通過對比六種分類算法的MAE值,也說明了本文改進的RAN算法所得分類效果較之于其余五種經(jīng)典算法的分類效果有著本質(zhì)的提升。

        Table 1 Experiments results comparison between data set 1 vs data set 2in vector space model and semantic feature and selection model表1 數(shù)據(jù)集1、2在向量空間模型與語義特征選取模型下的實驗效果對比

        6 結(jié)束語

        本文提出了一種新的RAN學習算法。通過采用多次取樣數(shù)據(jù)集二次聚類確定初始隱含層節(jié)點數(shù)目,然后在原有的“新穎性準則”的基礎(chǔ)上,增加了RMS滑動窗口作為新穎性判斷條件來確定是否增加隱含層節(jié)點,并且通過LMS算法和EKF算法的先后優(yōu)化,確定RAN算法的網(wǎng)絡(luò)最終結(jié)構(gòu)。實驗結(jié)果表明了改進RAN算法的分類有效性。另外,本文采用的語義特征選取方法,不僅解決了文本數(shù)據(jù)維數(shù)過高的問題,初步實現(xiàn)根據(jù)語義進行分類,而且減少了整個分類算法的時間,提高了分類精度。實驗表明,語義特征選取和改進RAN學習方法相結(jié)合能有效提高文本分類效果。

        [1] Lin H T, Lin J C, Weng R C. A note on platt’s probabilistic outputs for support vector machines[J]. Machine Learning, 2007, 68(10):267-276.

        [2] Plakua E K, Avraki L. Distributed computation of the KNN graph for large high-dimensional point sets[J]. Journal of Parallel and Distributed Computing, 2007, 67(3):346-359.

        [3] Guo Zhao-hui,Liu Shao-han,Wu Gang-shan. Feature selection for neural network-based Chinese text categorization[J].Application Research of Computers, 2006,23(7):161-164.(in Chinese)

        [4] Chen Jing-nian, Huang Hou-kuan, Tian Feng-zhan, et al.Method of feature selection for text categorization with Bayesian classifiers[J].Computer Engineering and Application,2008,44(13):24-27.(in Chinese)

        [5] Wang Yu,Wang Zheng-ou. Text categorization rule extraction based on fuzzy decision tree[J].Computer Applications,2005,25(7):1634-1637.(in Chinese)

        [6] Mao J, Jain K. Artificial neural networks for feature extraction and multivariate data projection[J]. IEEE Transactions on Neural Networks, 1995, 6(2):296-317.

        [7] Song H H, Lee S W. A self-organizing neural Ttree for large-set pattern classification[J]. IEEE Transactions on Neural Networks, 1998, 9(5):369-380.

        [8] Yuan J L, Fine T L. Neural-network design for small training sets of high dimension[J]. IEEE Transactions on Neural Networks, 1998, 9(1):266-280.

        [9] Mukhopadhyay S, Roy A, Kim L S. A polynomial time algorithm for generating neural networks for pattern classification:Its stability properties and some test results[J]. Neural Computation, 1993, 5(2):317-330.

        [10] Chen Q Y. Generating-shrinking algorithm for learning arbitrary classification[J]. Neural Networks, 1994, 7(9):1477-1489.

        [11] Poggio T, Girosi F. Networks for approximation and learning[J]. Proceedings of the IEEE, 1990, 78(9):1481-1497.

        [12] Parekh R, Yang J. Constructive neural-network learning algorithms for pattern classification[J]. IEEE Transactions on Neural Networks, 2000, 11(2):436-451.

        [13] Platt J. A resource allocating network for function interpolation[J]. Neural Computation, 1991, 3(2):213-225.

        [14] Manolis W, Nicolas T, Stefanos K. Intelligent initialization of resource allocating RBF networks[J]. Neural Networks, 2005, 18(2):117-122.

        [15] Kadirkamanathan V,Niranjan M.A function estimation approach to sequential learning with neural networks[J]. Neural Computation, 1993, 5(6):954-975.

        [16] Li Bin.An Improvement of the RAN learning algorithm[J].Pattern Recognition and Artificial Intelligence,2006,19(2):220-226.(in Chinese)

        [17] Su Jin-shu, Zhang Bo-feng, Xu Xin.Advances in machine learning based text categorization[J].Journal of Software, 2006,17(9):1848-1859.(in Chinese)

        [18] Song Wei , Wang Shi-tong, Li Cheng-hua. Parametric and nonparametric evolutionary computing with a content-based feature selection approach for parallel categorization[J]. Expert System with Application, 2009, 36(9):737-743.

        [19] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. Journal of the American Society of Information Science, 1990, 41(6):391-407.

        [20] Li C H, Park S C. Combination of modified BPNN algorithms and an efficient feature selection method for text categorization[J]. Information Processing and Management, 2009, 45(3):329-340.

        附中文參考文獻:

        [3] 郭昭輝,劉紹翰,武港山.基于神經(jīng)網(wǎng)絡(luò)的中文文本分類中的特征選擇技術(shù)[J].計算機應(yīng)用研究,2006,23(7):161-164.

        [4] 陳景年,黃厚寬,田鳳占,等.一種用于貝葉斯分類器的文本特征選擇方法[J].計算機工程與應(yīng)用, 2008, 44(13):24-27.

        [5] 王煜,王正歐.基于模糊決策樹的文本分類規(guī)則抽取[J].計算機應(yīng)用,2005,25(7):1634-1637.

        [16] 李彬.一種改進的RAN學習算法[J].模式識別與人工智能,2006,19(2):220-226.

        [17] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術(shù)研究進展[J].軟件學報, 2006,17(9):1848-1859.

        HEXiao-liang,born in 1988,MS,his research interests include information retrieval, and data mining.

        Textcategorizationbasedonresourceallocatingnetworkandsemanticfeatureselection

        HE Xiao-liang1,2,SONG Wei1,LIANG Jiu-zhen1

        (1.School of IoT Engineering,Jiangnan University,Wuxi 214122;2.Traffic Management Research Institute,Ministry of Public Security,Wuxi 214151,China)

        Confronted with the existence of hidden nodes affected by the initial learning data and the low convergence rate of RAN learning algorithm, a new Resource Allocating Network (RAN) learning algorithm is proposed. The initial hidden layer node, determined through K-means algorithm, adding the 'RMS window’ based on the novelty rule, can better judge whether to increase hidden layer nodes or not. Meanwhile, the network parameters are adjusted by combining Least Mean Squares algorithm and Extended Kalman Filter algorithm, thus improving the learning rate. Since it is rather difficult to deal with the high dimension characteristics and complex semantic character of texts through words space text categorization method, we reduce the dimension and extract the semantic character space to the text input space through the semantic feature selection method. The experimental results show that the new RAN algorithm has the advantage of high-speed learning, compact network structure and good classification. Moreover, semantic feature selection can not only achieve the reduction of dimension and categorization time, but also raise the accuracy of the categorizing system effectively.

        RAN learning algorithm;radial basis function;semantic feature selection;extended Kalman filter algorithm;least mean squares algorithm;text categorization

        2012-08-13;

        :2012-10-08

        國家自然科學青年基金資助項目(61103129);博士點新教師專項研究基金資助項目(20100093120004);中央高校基本科研業(yè)務(wù)費專項資金資助項目(JUSRP11130);江蘇省自然科學基金資助項目(SBK201122266)

        1007-130X(2014)02-0340-07

        TP391

        :A

        10.3969/j.issn.1007-130X.2014.02.024

        何曉亮(1988-),男,浙江金華人,碩士,研究方向為信息檢索和數(shù)據(jù)挖掘。E-mail:slbhxl@163.com

        通信地址:214151 江蘇省無錫市濱湖區(qū)公安部交通管理科學研究所Address:Traffic Management Research Institute,Ministry of Public Security,Wuxi 214151,Jiangsu,P.R.China

        猜你喜歡
        新穎性語義聚類
        外觀新穎性對消費者購買意愿的影響:自我建構(gòu)與產(chǎn)品類型的調(diào)節(jié)效應(yīng)
        心理學報(2020年11期)2020-11-13 05:41:28
        語言與語義
        日本計劃將新穎性寬限期延長至12個月
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        “上”與“下”語義的不對稱性及其認知闡釋
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        認知范疇模糊與語義模糊
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        《國防專利條例》新穎性標準應(yīng)當及時進行修改
        男女射黄视频网站在线免费观看| 亚洲一区二区懂色av| 亚洲久热无码av中文字幕| 俺去啦最新地址| 亚洲av日韩精品一区二区| 久久国产免费观看精品| 国产精品18久久久久久麻辣| 白嫩人妻少妇偷人精品| 国产熟女乱综合一区二区三区 | 国产女主播福利一区二区| 亚洲A∨无码国产精品久久网| 久久99精品国产麻豆宅宅| h视频在线播放观看视频| 国产亚洲午夜高清国产拍精品不卡| 国产精品国语对白露脸在线播放| av大全亚洲一区二区三区| 日韩精品成人一区二区在线观看| 国产成年无码V片在线| 少妇久久久久久被弄到高潮 | 蜜桃在线观看免费高清| 国产一级黄色录像| 亚洲国产高清在线一区二区三区| 免费无码精品黄av电影| 国产精品亚洲av高清二区| 亚洲av中文字字幕乱码| 国内自拍偷拍亚洲天堂| 欧美国产成人精品一区二区三区| a级毛片100部免费观看| 美利坚日韩av手机在线| 日本成人中文字幕亚洲一区 | 午夜精品射精入后重之免费观看| 国产精品午夜夜伦鲁鲁| 三级特黄60分钟在线观看| 日日噜噜夜夜狠狠va视频v| 风韵犹存丰满熟妇大屁股啪啪| 亚洲综合偷拍一区二区| 成人特黄特色毛片免费看| 91亚洲国产成人aⅴ毛片大全 | 一性一交一口添一摸视频| 成人在线免费电影| 亚洲综合精品中文字幕|