亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        過程神經元網絡在網頁自動分類中的應用研究

        2008-12-31 00:00:00隋長富
        電腦知識與技術 2008年12期

        摘要:針對信息挖掘中的網頁自動分類問題,提出了一種基于向量空間模型和過程神經元網絡的分類方法。網絡由輸入層、隱層和輸出層組成。輸入層完成分類樣本的輸入,隱層提取輸入樣本所隱含的模式特征,將分類結果在輸出層表現出來。以因特網上旅游網頁分類為例驗證了該方法的有效性。

        關鍵詞:數據挖掘;網頁分類;神經網絡;學習算法

        中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)12-20ppp-0c

        Process Neural Network and its Application in Web Document Automatic Classification

        SUI Chang-fu

        (Teaching Administration Office of Daqing Petroleum Institute at Qinhuangdao,Hebei 066004 China)

        Abstract: Aiming to web document classification in data mining, a classification method is presented in this paper. The method is based on vector space model and process neural network. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The availability of model and algorithms is proved by classification of some web documents in Internet.

        Key words: Data mining; Web document classification; Neural network; Learning algorithm

        1 引言

        目前,數字圖書館及與之相關的數據倉庫和數據挖掘技術研究已成為全球性的一個熱點。這是Internet和萬維網發(fā)展的必然結果。文檔自動分類在數據挖掘中是一項非常重要的任務。分類的目的是根據若干已知的規(guī)則,構造一個分類函數或分類模型(也常稱作分類器),把數據庫中的數據項映射到給定類別中的某一個。分類器的構造有統(tǒng)計方法、機器學習方法等[1]。統(tǒng)計方法包括貝葉斯法和非參數法;機器學習方法包括決策樹法和規(guī)則歸納法。人工神經網絡理論(Artificial Neural Network)是80年代中后期世界范圍內迅速發(fā)展起來的一個前沿研究領域。該理論作為人工智能的一個重要分支領域,已顯示了它活躍的生命力。除了在語言識別、自動控制等領域應用外,已有實踐證明,在文檔分類、聚類分析等信息挖掘領域也有著相當高的實用價值。近幾年來,有關人工神經網絡理論的新的研究成果不斷涌現,目前我國人工智能及其他相關學科領域的專家、學者在人工神經元網絡理論和應用研究方面做出了許多可喜的成績。過程神經元網絡就是很有代表性的一例。該網絡模型誕生于2000年,是傳統(tǒng)神經元網絡在時域上的擴展。目前該網絡基本理論已比較成熟。

        基于向量空間模型的文檔分類方法,文檔特征向量維數一般較高(從幾十維到上百維),雖然理論上三層反傳播神經網絡能夠逼近任意非線性映射,但普通反傳播神經網絡對于高維映射問題往往收斂很慢,且容易發(fā)生過擬合現象,使泛化能力受到影響。在過程神經網絡中,將文檔特征向量看作若干個與各個類別對應的過程,將這些過程作為網絡輸入,從而大大降低了文檔特征向量的維數。本文嘗試將該網絡用于基于特征向量描述的Web文檔分類。

        2 文檔特征提取

        特征提取是文檔分類系統(tǒng)中十分關鍵的問題,文檔分類特征選取恰當與否對文檔分類的正確性和分類效率有重要影響。一個有效的特征項集,必須具備以下兩個特征:(1)完全性,特征項能夠體現全部文檔內容;(2)可區(qū)分性,根據特征項集,能將目標文檔同其它文檔相區(qū)分。特征項集的構造可從構造每篇文檔的模糊特征項集開始。如何根據正文的語義提取可近似表示正文語義的特征項集是一個復雜問題,嚴格講除了要求理解正文的含義之外,尚需有總結概括的能力乃至有較深的領域知識才能較好地解決這個問題,這是難以用現有計算機技術來實現的。因此最好與語言學家們結合根據人類在抽取正文特征項時所遵循的一般原則進行手工抽取。

        2.1 特征項集的構造

        假設有P篇待分類文檔,特征項集的構造可描述如下:

        step 1:首先對P篇文檔,進行手工抽取特征項,并記錄特征項的文檔頻數(特征項在文檔中出現的次數),構造特征項集:?C1,C2,…,Cp;然后對各特征項集進行篩選,除去頻數過低的特征項。即根據給定閾值λ,濾除各篇文檔中頻數低于λ的特征項,此時可以得到每篇文檔的特征項集合:C1,C2,…,Cp

        step 2:在以上集合中,將特征項的同義詞、轉義詞、近義詞看作同一特征項,計算P個集合的并集:C=C1∪C2∪…∪Cp={T1,T2, …,TN},得到全部文檔的特征項集{T1,T2,…,TN}。具體算法:令C=C1,對?Tji∈Cj(i=1,2, …Nj;j=2,3, …,p),若(Tji?C)且(?Tji?C),則C=C∪{Tji},其中,?Tji為Tji的同義詞、轉義詞或近義詞。

        2.2 特征向量的構造

        以特征項集{T1,T2, …,TN}為論域,根據每個特征項在某一文檔中出現的頻數構造該篇文檔的特征向量。另外,構造特征向量時還應考慮特征項的專指度。特征項的專指度可用文檔總數與含有該特征項的文檔數的比值表示。專指度過低的特征項會抑制分類的精確性。因此對于專指度較高的特征項,應適當增加其文檔頻數;而對于專指度較低的特征項,則應適當減小其文檔頻數。具體構造過程可描述如下:

        step 1:分別對P篇文檔,計算特征項集{T1,T2, …,TN}中每個特征項在該篇文檔中出現的文檔頻數;

        step 2:按下式構造P篇文檔的特征向量{fT(Tp1), fT(Tp2), …, fT(TpN),}{ };(p=1,2, …,P)。

        其中:VTFpk表示特征項Tk在文檔p中的出現頻數,N表示全部訓練集中的文檔數,Nk表示含有特征項Tk的文檔數目。

        step 3:對以上特征向量歸一化,可得p篇文檔的特征向量?Tp={T(Tp1), T(Tp2), …, T(TpN),};(p=1,2, …,p)。

        3 過程神經元網絡

        3.1 過程神經元

        過程神經元由加權、聚合和激勵三部分組成。與傳統(tǒng)神經元不同之處在于過程神經元的輸入和權值都是可以時變的,即可以是依賴于時間的函數。其聚合運算既有對空間的多輸入聚合,也有對時間過程的積累。因此它是傳統(tǒng)神經元在時域上的擴展,傳統(tǒng)神經元可以看成是過程神經元的特例[1]。單個過程神經元的結構如圖1所示。輸入輸出關系見(1)式。

        3.2 過程神經元網絡模型

        過程神經元網絡是由若干個過程神經元按一定的拓撲結構組成的網絡。其拓撲結構如圖2所示[2]。

        其中,中間層(隱層)各單元由圖1所示神經元組成,并設有m個單元。輸出層為一非時變神經元。

        3.3 學習算法

        過程神經元網絡的學習可借鑒梯度下降法,如BP算法[3]。若假設輸出層中g(u)=u, θ=0,則:

        將xj(t)、wji(t)用沃爾什基函數展開[4](在保證展開精度的前提下只取前L項):

        由基函數的正交性,(2)式可簡化為:

        網絡誤差函數可取為:

        由梯度下降法,網絡權值學習規(guī)則為:

        其中i=1,2, …,m;j=1,2,,m;l-1,2, …,L;;α、β、γ為學習速度。

        4 文檔分類實施方案

        假設有P篇已知類別的文檔,分類實施方案的構造過程可描述如下:

        (1)實施特征抽取,構造特征向量;

        假設待分類模式共有n類,每類抽取m個特征項,則模式空間為n維。記xkij為第i類中第j個特征項第k篇文檔中的文檔頻數,編碼后的輸入向量如(9)式:

        (2)對(9)式實施離散沃爾什基函數展開,構造展開后的系數向量:

        其中:scf15.tif

        (3)初始化網絡參數:層數;各層單元數;誤差精度ε;學習速度α;慣性系數η;累計學習迭代次數s;最大學習迭代次數Max;

        (4) 初始化過程神經元隱層權值(設有q個神經元),采用沃爾什基函數,初始化系數:

        (5)初始化其他隱層及輸出層權值及閥值(同傳統(tǒng)BP網絡);

        (6) 按(4)式計算輸出,按(5)式計算誤差E;

        (7)若(E<ε)或(s>Max)轉(9);

        (8)按(6)-(8)式修正各層權值及閥值,s=s+1,轉(6);

        (9)輸出結果,訓練結束。

        上述經過訓練的網絡即可用于對未知類別文檔的分類識別。

        5 實際應用分析

        我們以Internet上旅游網頁作為分類文檔源,參考《中國分類主題詞表》中的分類情況,將旅游網頁分為如下八個子類別:1.旅游景點;2.旅游指南;3.旅行社;4.賓館飯店;5.租車服務;6.旅游交通;7.海外旅游;8.旅游綜合信息??紤]評價與測試文檔自動分類算法需要兩個重要指標:查全率和查準率,按下面公式計算類別Ci的查全率recall(Ci)和查準率precision(Ci):

        (1)recall(Ci)=Tn/N,Tn為通過分類算法被正確分類為Ci類的文檔的數目;N為未分類文檔之前屬于Ci類的文檔的數目。

        (2)precision(Ci)=Tn/Cn,Tn為通過分類算法被正確分類為Ci類的文檔的數目;Cn為通過分類算法被分類為Ci類的文檔的數目。

        對以上8個子類別通過Google.com網站搜索簡體中文網頁,構造出規(guī)模為1200個旅游類網頁的自動分類樣本集,其中800個用作訓練集,400個用作測試集。綜合考慮全部網頁的特征及類屬,共提取特征項64個(每類8個)。每類的第一個特征項為類屬名稱。對全部1200個網頁實施編碼處理。部分網頁編碼結果見表1。

        網絡輸入節(jié)點為模式類別數,本例為8個;因樣本數目較多,過程神經元隱層節(jié)點取30個;輸出層用二進制數表示樣本類別,取3個節(jié)點。誤差精度ε=0.05,學習速度α=0.1,慣性系數η=0.5,限定迭代次數Max=5000。實際迭代3815次收斂。對訓練集自身的平均查全率和平均查準率均達到了90%,網絡的分類結果如表2所示。

        將訓練好的網絡應用于測試集400個網頁的分類,平均查全率和查準率也均達到86%以上,與訓練集分類結果較為相近,說明所抽取出的文檔類特征和類模式具有普遍性和有效性。關于此方法的有效性,我們與BP算法作了對比。采用三層BP網絡結構,輸入層64個節(jié)點,輸出層3個節(jié)點。當隱層為80節(jié)點時,迭代11038次收斂,對測試集網頁的識別率僅為73%;當隱層為100節(jié)點時,迭代9687次收斂,對測試集網頁的識別率降為62%。說明BP網絡對于高維樣本的分類問題,不僅收斂速度慢,而且容易產生過擬合現象,影響了網絡的泛化推廣能力。而應用本文提出的方法就能較好的克服這些問題。

        6 結束語

        過程神經網絡是神經網絡領域最近提出的新模型,其輸入不再是幾何式的單點輸入,而將輸入看作一個過程,在這一點上,過程神經元網絡較好的模擬了生物神經元特性。幾何點式的瞬間輸入只能在理論上存在,過程式輸入放寬了傳統(tǒng)神經元網絡模型對輸入的同步瞬時控制。使問題更為一般化?,F實中很多應用可歸結為此問題。過程神經元網絡的輸入為信息矩陣,在向量空間模型中,這為高維的文檔特征向量的處理提供了可行之路。本文嘗試將該模型應用于網頁正文分類,達到了預期效果。今后,對過程神經元網絡的理論和應用研究必將受到越來越多學者的關注。

        參考文獻:

        [1] 何新貴,梁久禎.過程神經元網絡的若干理論問題[J].中國工程科學,2000,2(12):40-44.

        [2] 何新貴,梁久禎,許少華.過程神經元網絡的訓練及其應用[J].中國工程科學,2000,3(4).

        [3] 王偉.人工神經網絡原理——入門與應用[M]. 北京:北京航空航天大學出版,1995.

        [4] 柳重堪.正交函數及其應用[M].北京:國防工業(yè)出版社,1982.

        收稿日期:2008-03-14

        注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”

        久久一区av蜜桃人妻| 欧美肥胖老妇做爰videos| 粗了大了 整进去好爽视频| 免费va国产高清不卡大片 | 在线a免费观看| 国产自产21区激情综合一区| 中文字幕乱码亚洲在线| 中文字幕无码av波多野吉衣| 无码aⅴ在线观看| 中日无码精品一区二区三区| 干出白浆视频在线观看| 曰韩无码无遮挡a级毛片| 国产成人av一区二区三区在线| 无码国产精品色午夜| 一区二区三区观看视频在线| 人人做人人爽人人爱| 国产精品视频亚洲二区| 激情综合色综合啪啪五月丁香 | 无码的精品免费不卡在线| 日本一区二区在线播放观看| 国产精品国三级国产a| 久久黄色视频| 天天综合网在线观看视频| 久久aⅴ无码一区二区三区| 男子把美女裙子脱了摸她内裤| 黄片小视频免费观看完整版| 色噜噜av亚洲色一区二区| 日韩AV有码无码一区二区三区| 国产精品黄色av网站| 国产成人精品免费视频大全软件| a级毛片内射免费视频| 中文字幕不卡在线播放| 精品国精品自拍自在线| 国产黑丝美女办公室激情啪啪| 国产精品美女久久久久av超清| 日韩亚洲av无码一区二区不卡| 亚洲av高清在线观看三区| 国产一级内射一片视频免费| 日本肥老妇色xxxxx日本老妇| 亚洲中文字幕乱码| 国产内射视频免费观看|