亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的RBF文本分類算法

        2011-08-04 06:37:18王欣欣賴惠成
        通信技術(shù) 2011年12期
        關(guān)鍵詞:隱層神經(jīng)元聚類

        王欣欣,賴惠成

        (新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)

        0 引言

        目前國內(nèi)外基于內(nèi)容信息過濾的研究主要集中在核心算法上,基本上可以概括用戶模板的構(gòu)建及其算法研究和用戶模板與文本的匹配技術(shù)兩個方面,這兩個方面是文本信息過濾的兩大關(guān)鍵技術(shù)。

        很多分類技術(shù)應(yīng)用到文本分類中,取得了良好的效果,包括神經(jīng)網(wǎng)絡(luò)、支持向量機[1]以及決策樹方法等,而其中利用神經(jīng)網(wǎng)絡(luò)方法的文本分類,關(guān)鍵是提取出既能比較全面地反映文檔類別的信息,又有利于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征;其次對應(yīng)著選取的特征,需要設(shè)計合適的網(wǎng)絡(luò)結(jié)構(gòu)來分類,因此提出一種基于互信息的特征提取[1],結(jié)合聚類算法的思想,采用基于樣本中心的 RBF分類算法進行分類實驗,并給出仿真結(jié)果。

        1 文本分類系統(tǒng)

        簡單地說,文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動地確定與文本關(guān)聯(lián)的類別。自動文本分類即根據(jù)統(tǒng)計模式識別思想,將文本表示成特征向量,然后用訓(xùn)練文本對事先選定的分類器進行訓(xùn)練,直接或間接地提取出蘊涵在訓(xùn)練文本中有關(guān)各個文本類的統(tǒng)計特性,并根據(jù)這些特性確定出分類準(zhǔn)則,最后依據(jù)這些準(zhǔn)則對未知文本進行分類決策。一個典型的文本分類系統(tǒng)如圖1所示。

        圖1 文本分類系統(tǒng)

        2 聚類算法

        典型的聚類過程主要包括數(shù)據(jù)(或稱之為樣本或模式)準(zhǔn)備、特征選擇和特征提取、接近度計算、聚類或分組、對聚類結(jié)果進行有效性評估等步驟[3]。

        K-means聚類算法是聚類分析中使用最為廣泛的算法之一[4],算法步驟如下:

        ②對每個樣本 xi找到離它最近的聚類中心 zv,并將其分配到 zv所標(biāo)明的類 uv;

        ③采取平均的方法計算重新分類后的各類心;

        3 基于KPCA的RBF神經(jīng)網(wǎng)絡(luò)分類算法

        比較常見的文本分類算法有:類中心向量、樸素貝葉斯、支撐向量機、決策樹、神經(jīng)網(wǎng)絡(luò)、k最近鄰、動態(tài)聚類等[5]。

        核主成分分析(KPCA)是一種對多元數(shù)據(jù)進行統(tǒng)計分析的技術(shù),利用輸入空間中預(yù)先定義的核函數(shù)直接計算特征空間中的向量點積,可以對特征空間實施降噪、降維和去相關(guān)性。

        RBF神經(jīng)網(wǎng)絡(luò)是由輸入層、隱層和輸出層3層神經(jīng)元構(gòu)成的典型前向神經(jīng)網(wǎng)絡(luò)。

        RBF神經(jīng)網(wǎng)絡(luò)中隱層和輸入層之間權(quán)值(中心點 cj和中心寬度σj)的選擇是影響整個網(wǎng)絡(luò)性能優(yōu)劣的關(guān)鍵。

        (1) cj的確定

        采用K-均值聚類算法[6]確定 cj,找到具有代表性的樣本點作為RBF神經(jīng)網(wǎng)絡(luò)隱層神經(jīng)元中心,從而可以極大地減少隱層神經(jīng)元數(shù)目,降低網(wǎng)絡(luò)復(fù)雜度。

        (2)σj的確定

        σj決定了RBF神經(jīng)網(wǎng)絡(luò)隱層神經(jīng)元感受域的大小,對網(wǎng)絡(luò)的精度有很大影響。通常應(yīng)用K-均值聚類算法后,對每個cj,可以令相應(yīng)的σj為cj與屬于該類的訓(xùn)練樣本之間的距離的平均值,即:cj和σj確定之后,采用梯度下降算法來獲取權(quán)值wij。RBF神經(jīng)網(wǎng)絡(luò)的輸出層對隱層神經(jīng)元的輸出進行線性加權(quán)組合,并增加一個偏移量 w0,可表示為:

        式中H和J分別表示隱層和輸出層神經(jīng)元個數(shù),nxR∈表示輸入向量,ijw為隱層第 j個神經(jīng)元和輸出層第i個神經(jīng)元之間的連接權(quán)值。

        4 實驗設(shè)置

        4.1 預(yù)處理模塊

        實驗語料集的預(yù)處理采用中科院的ICTCLAS分詞系統(tǒng)進行。目前,在文本信息處理問題上,文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量的形式來表示文本。

        4.2 特征表示模塊

        常用的特征提取方法有:潛在語義索引,文檔頻數(shù),信息增益,期望交叉熵,互信息,文本證據(jù)權(quán),CHI統(tǒng)計等[7]。采用詞和類別的互信息量作為特征項抽取的判斷標(biāo)準(zhǔn)。其中:

        為詞條W在類別 Cj中占的比重,Dj為 Cj類的訓(xùn)練文本數(shù),N (W ,di)為詞W在 di中的詞頻,V為 Cj類的總詞數(shù),為所有詞在該類的詞頻和。

        而P(W)與上面的計算公式相同,只是把所有的訓(xùn)練樣本組成一個“總類”,就是計算詞條在總類中的比重,即:

        4.3 特征降維模塊

        考慮到輸入空間mR 線性不可分,要在映射得到的特征空間F中變得線性可分,或者以較高的概率線性可分,核函數(shù)形式采用多項式核函數(shù):其中θ取0,q取大于等于1的正整數(shù)。

        實驗驗證,q取3時RBF神經(jīng)網(wǎng)絡(luò)分類器取得較好的分類性能.

        4.4 分類算法模塊

        分類算法是文本分類系統(tǒng)的關(guān)鍵所在,除RBF神經(jīng)網(wǎng)絡(luò)外,還對BP神經(jīng)網(wǎng)絡(luò)分類算法進行了試驗。對10個分類只建立一個網(wǎng)絡(luò),其中輸入層神經(jīng)元數(shù)和輸入向量的特征維數(shù)一致,輸出層神經(jīng)元數(shù)等于總類別數(shù),為10,隱層神經(jīng)元取64,η取0.05,minE取0.1,maxT 取3 000,徑向基函數(shù)采用高斯核函數(shù),即:

        5 實驗與分析

        對581個文本樣本進行信息編碼,得到10維文本的信息編碼向量581個,其中140個作為訓(xùn)練樣本,其余441個作為測試樣本,在matlab環(huán)境下分別進行BP和RBF神經(jīng)網(wǎng)絡(luò)的分類算法實現(xiàn),再利用K-means聚類方法作為RBF神經(jīng)網(wǎng)絡(luò)分類算法的核心思想,進行RBF分類,并與BP分類算法比較。進一步改變高斯函數(shù)寬度參數(shù)進行試驗,觀察其對分類結(jié)果的影響。

        文本分類系統(tǒng)的最主要的兩個指標(biāo)是查準(zhǔn)率和查全率,所謂的分類正確就是指自動分類結(jié)果與人工分類結(jié)果吻合。取其中3類的統(tǒng)計結(jié)果見表1。

        表1 分類中3類的統(tǒng)計結(jié)果

        由表 1可以看出,RBF網(wǎng)絡(luò)分類結(jié)果不如 BP網(wǎng)絡(luò)的好,但使用給定樣本特征值的平均值作為聚類中心的徑向基網(wǎng)絡(luò)分類結(jié)果較好,且訓(xùn)練時間很短。

        對以上 3類樣本在利用結(jié)合聚類的 RBF文本分類算法時,修改高斯函數(shù)寬度參數(shù),查全率與查準(zhǔn)率難以同步改善,寬度參數(shù)變大時,高斯函數(shù)區(qū)分能力降低,誤差減小速度變快,最終誤差變小。

        6 結(jié)語

        以基于核主成分分析的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),借鑒了聚類算法的思想,采用樣本中心作為 RBF分類算法的核心,并和 BP神經(jīng)網(wǎng)絡(luò)分類算法進行了比較,從實驗得出的誤差曲線圖和統(tǒng)計表格可以看出,在收斂速度和分類效果上,結(jié)合聚類的 RBF文本分類算法要好于 BP神經(jīng)網(wǎng)絡(luò)分類算法,充分體現(xiàn)了改進后 RBF分類算法的簡潔和時效性。徑向基函數(shù)的寬度參數(shù)會影響分類的準(zhǔn)確程度和實驗誤差,查全率和查準(zhǔn)率不能同時提高,隨著寬度參數(shù)的增大,誤差會變小。實驗結(jié)果表明,通過結(jié)合聚類算法和基于核主成分分析的特征抽取算法,RBF神經(jīng)網(wǎng)絡(luò)分類算法能有效地對輸入空間進行特征降維,并能改善 RBF神經(jīng)網(wǎng)絡(luò)分類算法的分類性能。

        [1] KUFIK T, BOGER Z, SHOVAL P. Filtering Search Results Using an Optimal Set of Terms Identified by an Artificial Neural Network[J].Information Processing and Management, 2006(42):469-483.

        [2] HUANG J J, CAI Y Z, XU X M. A Hybrid Genetic Algorithm for Feature Selection Wrapper based on Mutual Information[J].Pattern Recognition Letters,2007,28(13):1825-1844.

        [3] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(01):49-52.

        [4] 蔣盛益,鄭琪,張倩生.基于聚類的特征選擇方法[J].電子學(xué)報,2008,36(12A):157.

        [5] 楊俊. 基于核主成分分析和徑向基神經(jīng)網(wǎng)絡(luò)的文本分類研究[D].安徽: 中國科學(xué)技術(shù)大學(xué), 2009.

        [6] 李燕, 張月國, 李生紅. 基于蟻群算法的文本分類和聚類[J]. 信息安全與通信保密,2009(10):57-58.

        [7] 朱杰,劉功申,陳卓.中文文本傾向性分類技術(shù)比較研究[J].信息安全與通信保密,2010(04):56-58.

        猜你喜歡
        隱層神經(jīng)元聚類
        《從光子到神經(jīng)元》書評
        自然雜志(2021年6期)2021-12-23 08:24:46
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
        人民珠江(2019年4期)2019-04-20 02:32:00
        躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進的遺傳算法的模糊聚類算法
        基于二次型單神經(jīng)元PID的MPPT控制
        毫米波導(dǎo)引頭預(yù)定回路改進單神經(jīng)元控制
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點數(shù)優(yōu)化
        計算機工程(2014年9期)2014-06-06 10:46:47
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
        校花高潮一区日韩| 亚洲热妇无码av在线播放| 伊伊人成亚洲综合人网香| 精品国产国产AV一区二区| 一本久久a久久精品综合| 亚洲av一区二区三区蜜桃| 熟女少妇精品一区二区| 亚洲精品夜夜夜| 国产亚洲av人片在线播放| 亚洲一区二区三区免费网站| 国产精品综合色区在线观看| 在线观看av永久免费| 无码精品一区二区三区免费16| 一区二区三区乱码专区| 国产激情综合在线观看| 亚洲最大天堂无码精品区| 国产精品一区二区三密桃| 国产tv不卡免费在线观看| 久久国产亚洲高清观看| 国产精品一区二区在线观看99 | 久久无码潮喷a片无码高潮 | 狠狠躁夜夜躁人人爽超碰97香蕉| 中文字幕亚洲区第一页| a黄片在线视频免费播放| 久久青青草原亚洲av无码麻豆| 国产乱人视频在线看| 亚洲全国最大的人成网站| 久久精品国产成人午夜福利| 97se亚洲精品一区| 亚洲国产精品中文字幕日韩| 丝袜美腿亚洲综合在线播放| 色欲网天天无码av| 99精品视频69V精品视频| 99久久国产综合精品女图图等你 | 人妻无码aⅴ中文系列久久免费| 久久最黄性生活又爽又黄特级片| 香蕉成人伊视频在线观看| 野花社区www高清视频| 人妻无码中文专区久久AV| 一区二区三区午夜视频在线| 久久超碰97人人做人人爱|