陳先福,李石君,曾 慧
武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072
隨著互聯(lián)網(wǎng)的快速發(fā)展,Web信息呈現(xiàn)出海量化的趨勢(shì)。人們需要一個(gè)快速、智能化的工具有效地進(jìn)行信息處理。網(wǎng)頁(yè)分類是Web信息挖掘的重要研究?jī)?nèi)容之一,與普通文本分類不同,網(wǎng)頁(yè)中存在多種噪音信息,例如廣告、導(dǎo)航等,分類的難度更大。目前國(guó)內(nèi)外研究者進(jìn)行了許多相關(guān)研究,提出了一些效果較好的網(wǎng)頁(yè)分類方法。國(guó)內(nèi)方面,2001年,李曉黎等提出基于支持向量機(jī)與無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類方法[1];范焱等提出了使用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁(yè)方法[2];2007年,張茂元等提出了一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁(yè)分類方法[3];2010年,張乃洲等[4]在使用聯(lián)合鏈接相似度評(píng)估爬取Web資源過(guò)程中使用樸素貝葉斯分類器和支持向量機(jī)分別對(duì)普通頁(yè)面和結(jié)果頁(yè)面進(jìn)行分類。從以上的研究現(xiàn)狀中可以看出,Web頁(yè)面自動(dòng)分類的共同特點(diǎn)是采用基于機(jī)器學(xué)習(xí)模型(有監(jiān)督或者無(wú)監(jiān)督)學(xué)習(xí)網(wǎng)頁(yè)分類模式,然后進(jìn)行自動(dòng)分類。因此新的機(jī)器學(xué)習(xí)方法的提出,必然導(dǎo)致新的網(wǎng)頁(yè)分類方法。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,多層前向神經(jīng)網(wǎng)絡(luò)獲得廣泛應(yīng)用,特別是成功地應(yīng)用于復(fù)雜的模式識(shí)別和函數(shù)逼近問(wèn)題。一般地,多層前向神經(jīng)網(wǎng)絡(luò)采用BP算法進(jìn)行學(xué)習(xí)。Funahashi,Cybenko等雖然證明含隱層的前向BP網(wǎng)絡(luò)具有任意連續(xù)函數(shù)到任意精度的能力,但該算法收斂速度很慢且易陷入局部極小點(diǎn)。為了有效解決算法所帶來(lái)的問(wèn)題,最近提出一個(gè)新的學(xué)習(xí)算法,稱為極限學(xué)習(xí)機(jī)(ELM),其中廣義單隱層前饋網(wǎng)絡(luò)(SLFNs)的所有隱藏節(jié)點(diǎn)參數(shù)隨機(jī)地和分析地決定了SLFNs輸出權(quán)重。其只需要設(shè)置隱藏層節(jié)點(diǎn)個(gè)數(shù),而在算法學(xué)習(xí)過(guò)程中不需要更新網(wǎng)絡(luò)中神經(jīng)節(jié)點(diǎn)的輸入權(quán)值以及隱元的偏置,卻能產(chǎn)生唯一的最優(yōu)解,因此具有學(xué)習(xí)速度快且泛化性能好的優(yōu)點(diǎn)。
本文將極限學(xué)習(xí)機(jī)應(yīng)用到中文Web網(wǎng)頁(yè)分類過(guò)程中,首先對(duì)中文網(wǎng)頁(yè)進(jìn)行預(yù)處理,然后根據(jù)極限學(xué)習(xí)機(jī)輸入編碼定長(zhǎng)的特征,提出一種新穎的定長(zhǎng)特征向量編碼來(lái)表示網(wǎng)頁(yè)特征,最終給出一個(gè)基于極限學(xué)習(xí)機(jī)的中文網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)模型,稱為ELMWebC2S。下面在對(duì)極限學(xué)習(xí)機(jī)進(jìn)行簡(jiǎn)介之后,對(duì)基于極限學(xué)習(xí)機(jī)的中文網(wǎng)頁(yè)自動(dòng)分類方法進(jìn)行詳細(xì)介紹。
在應(yīng)用神經(jīng)網(wǎng)絡(luò)到具體的應(yīng)用場(chǎng)景當(dāng)中時(shí),需要首先使用有效訓(xùn)練集對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)進(jìn)行訓(xùn)練,這個(gè)過(guò)程由學(xué)習(xí)算法來(lái)完成。后向傳播(BP算法)是前饋神經(jīng)網(wǎng)絡(luò)最常用的學(xué)習(xí)算法。但是BP學(xué)習(xí)算法的學(xué)習(xí)過(guò)程時(shí)間消耗過(guò)長(zhǎng),因此限制了其應(yīng)用范疇。2004年新加波南洋理工大學(xué)的黃廣斌教授[5]針對(duì)單隱層前饋網(wǎng)絡(luò)(SLFNs)首次提出了極限學(xué)習(xí)算法,稱之為極限學(xué)習(xí)機(jī)。該算法首先對(duì)神經(jīng)網(wǎng)絡(luò)中的輸入權(quán)值和隱層節(jié)點(diǎn)偏置進(jìn)行隨機(jī)賦值,只通過(guò)一步計(jì)算即可解析地求出網(wǎng)絡(luò)的輸出權(quán)值,極大地提高了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度,并以較強(qiáng)的泛化性能實(shí)現(xiàn)機(jī)器學(xué)習(xí)任務(wù)。其算法可簡(jiǎn)單描述如下:
已知訓(xùn)練樣本 (xi,yi),i=1,2,…,M,隱層節(jié)點(diǎn)個(gè)數(shù)為N,且激勵(lì)函數(shù)為f(x)的標(biāo)準(zhǔn)單隱層前饋神經(jīng)網(wǎng)絡(luò):
的ELM學(xué)習(xí)算法[6]過(guò)程分為三步:
步驟1隨機(jī)設(shè)置輸入權(quán)值wi以及偏置bi,i=1,2,…,N。
步驟2計(jì)算隱層輸出矩陣H;其中H是一個(gè)關(guān)于wi,xj和bi的N×M矩陣,表示如下:
步驟3根據(jù)公式:
計(jì)算輸出權(quán)值β。其中,為隱層輸出矩陣H的Moore-Penrose廣義逆解[7]。β不僅可使訓(xùn)練誤差最小,而且由文獻(xiàn)[7]可知β模最小。
可見(jiàn),相比于傳統(tǒng)的SLFNs,ELM 在訓(xùn)練的過(guò)程中不需要調(diào)整輸入權(quán)值wi以及偏置bi,只需根據(jù)相應(yīng)算法來(lái)調(diào)整β值,便可獲得一個(gè)全局最優(yōu)解,參數(shù)選擇的過(guò)程相對(duì)容易,訓(xùn)練速度顯著提升。
本章給出基于極限學(xué)習(xí)機(jī)的中文網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)模型ELMWebC2S,如圖1所示,詳細(xì)介紹分類過(guò)程中涉及到的關(guān)鍵技術(shù),包括中文網(wǎng)頁(yè)的預(yù)處理、特征詞選擇、特征權(quán)重的計(jì)算和極限學(xué)習(xí)機(jī)輸入編碼的結(jié)構(gòu)設(shè)計(jì)等。
整個(gè)中文網(wǎng)頁(yè)分類過(guò)程分為訓(xùn)練過(guò)程和實(shí)際分類過(guò)程。因此,整個(gè)系統(tǒng)通過(guò)存放網(wǎng)頁(yè)的文件夾名字來(lái)區(qū)分訓(xùn)練網(wǎng)頁(yè)的類別和待分類網(wǎng)頁(yè)。例如:將已經(jīng)分類的手機(jī)類網(wǎng)頁(yè)放入到以“手機(jī)”命名的文件夾內(nèi);將體育類網(wǎng)頁(yè)放入到以“體育”命名的文件夾內(nèi);將待分類網(wǎng)頁(yè)放入到以“待分類”命名的文件夾內(nèi),等等。將這些文件夾統(tǒng)一到一個(gè)目錄下,例如“ELMWEB”,這樣便于實(shí)現(xiàn)本文提出的基于極限學(xué)習(xí)機(jī)的中文網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)。ELMWebC2S將非“待分類”文件夾內(nèi)的網(wǎng)頁(yè)作為訓(xùn)練網(wǎng)頁(yè),然后對(duì)“待分類”文件夾內(nèi)的網(wǎng)頁(yè)進(jìn)行分類,放入到“ELMWEB2”文件夾內(nèi),同樣以子文件夾的名字為分類結(jié)果,供用戶檢查。檢查合格后可以將這些分類正確的網(wǎng)頁(yè)放入到文件夾“ELMWEB”內(nèi),作為新的訓(xùn)練集。具體分類過(guò)程如圖1。
圖1 分類系統(tǒng)模型的結(jié)構(gòu)圖
文本分類的關(guān)鍵是如何提取特征信息,考慮到腳本結(jié)構(gòu)與網(wǎng)站的風(fēng)格有一定的聯(lián)系,同時(shí)網(wǎng)頁(yè)內(nèi)容信息內(nèi)嵌在網(wǎng)頁(yè)腳本當(dāng)中。因此,預(yù)處理過(guò)程也大致分為兩類,一是綜合衡量腳本結(jié)構(gòu)信息和內(nèi)容信息[1-2],二是只衡量?jī)?nèi)容信息[3-4,8-9]。本文采用綜合衡量網(wǎng)頁(yè)結(jié)構(gòu)信息、文本內(nèi)容信息和鏈接信息。下面詳細(xì)介紹所涉及到的具體問(wèn)題。
3.1.1 文本內(nèi)容特征提取
通過(guò)網(wǎng)頁(yè)特征樹(shù)表示后的網(wǎng)頁(yè)文本內(nèi)容只存在于特征樹(shù)下的葉子節(jié)點(diǎn)中。對(duì)于一個(gè)葉子節(jié)點(diǎn)中的文本由一組中文單詞向量表示。網(wǎng)頁(yè)文本內(nèi)容提取主要提取網(wǎng)頁(yè)中的中文信息,并不包含阿拉伯?dāng)?shù)字、英文和其他符號(hào)。通過(guò)去除停用詞、分詞和詞性標(biāo)注,選擇名詞和動(dòng)詞構(gòu)成的向量作為網(wǎng)頁(yè)特征樹(shù)葉子文本,其定義如下:
定義1(節(jié)點(diǎn)文本向量) 集合T={w1/v1,w2/v2,…,wi/vi},其中wi為葉子文本中出現(xiàn)的中文詞,vi為wi在節(jié)點(diǎn)文本中的權(quán)重。
為了減少計(jì)算復(fù)雜度,在計(jì)算節(jié)點(diǎn)文本時(shí)采用一元模型假設(shè),即不考慮詞在文檔中的順序關(guān)系,詞與詞在文檔中的出現(xiàn)是相互獨(dú)立的。vi值的計(jì)算公式如下:
其中tfwi為節(jié)點(diǎn)文本中單詞wi出現(xiàn)的次數(shù),N為文檔總個(gè)數(shù),ni為包含單詞wi的文檔個(gè)數(shù),D為節(jié)點(diǎn)文本分詞后的所有單詞集合。該公式是經(jīng)驗(yàn)公式,但實(shí)踐表明它是特征表示方法中的一個(gè)簡(jiǎn)單、費(fèi)用較低的工具[1]。
3.1.2 鏈接特征提取
鏈接特征包含兩個(gè)部分,http超鏈接和描述該超鏈接的文本。定義如下:
定義2(鏈接特征向量)為一個(gè)二元組L=(URL,T),其中URL為超鏈接,T為超鏈接文本向量,其處理方法同第3.1.1節(jié)。
例1 <a href=http://tech.sina.com.cn/geo/science/news/2011-09-08/0953893.shtml target=_blank> 人 與 機(jī)器人:人機(jī)嫁接技術(shù)或把人類引向永生</a>
假設(shè)鏈接文本向量為{人/0.5,機(jī)器人/0.3,技術(shù)/0.25}。則使用鏈接特征向量表示后為:(http://tech.sina.com.cn/geo/science/news/2011-09-08/0953893.shtml,{人/0.5,機(jī)器人/0.3,技術(shù)/0.25})。
實(shí)際上網(wǎng)頁(yè)中包含的大量鏈接信息,既有與自身主題相關(guān)的相似網(wǎng)頁(yè)鏈接,也有毫不相干的廣告鏈接。因此,將鏈接特征提取出來(lái)后必然也導(dǎo)致噪音信息的引入。為了減少噪音對(duì)分類準(zhǔn)確性的影響,需要對(duì)鏈接節(jié)點(diǎn)與包含該鏈接節(jié)點(diǎn)網(wǎng)頁(yè)進(jìn)行相似性比較,以確定是否為該網(wǎng)頁(yè)的相關(guān)鏈接。
sim(,Tj)表示鏈接節(jié)點(diǎn)文本向量與宿主網(wǎng)頁(yè)中文本節(jié)點(diǎn)特征向量Tj的相似程度。該相似度計(jì)算公式如下:
公式(7)表示鏈接文本向量中相同單詞的個(gè)數(shù)與單詞總數(shù)的比值。
另外,網(wǎng)頁(yè)的文本信息和鏈接信息都是內(nèi)嵌于網(wǎng)頁(yè)的結(jié)構(gòu)編碼中的,那么如果能夠有效地表示網(wǎng)頁(yè)的結(jié)構(gòu)特征,將更有助于網(wǎng)頁(yè)特征的描述,更進(jìn)一步有助于網(wǎng)頁(yè)的分類。
3.1.3 頁(yè)面結(jié)構(gòu)特征提取
網(wǎng)頁(yè)的頁(yè)面結(jié)構(gòu)更能體現(xiàn)網(wǎng)頁(yè)的風(fēng)格,而風(fēng)格與網(wǎng)站的類型、網(wǎng)頁(yè)的內(nèi)容有著密切關(guān)聯(lián)。因此,有效地提取重要網(wǎng)頁(yè)特征信息將有助于網(wǎng)頁(yè)主題的分類。在網(wǎng)頁(yè)結(jié)構(gòu)特征提取方面,文獻(xiàn)[10]提出了一種Style樹(shù)來(lái)移除網(wǎng)頁(yè)中的噪音信息的方法,但是需要多個(gè)網(wǎng)頁(yè)比較計(jì)算才能得到,這不適合于單個(gè)網(wǎng)頁(yè)的分類任務(wù)。使用學(xué)習(xí)機(jī)可以自動(dòng)獲得蘊(yùn)含在網(wǎng)頁(yè)中的結(jié)構(gòu)信息,并且具有一定的魯棒性。因此,本文將文檔樹(shù)進(jìn)行精簡(jiǎn)、改進(jìn)來(lái)描述網(wǎng)頁(yè)的結(jié)構(gòu)特點(diǎn)。改進(jìn)后的文檔樹(shù)稱之為網(wǎng)頁(yè)特征樹(shù),定義如下:
定義3(網(wǎng)頁(yè)特征樹(shù)T-Tree)一種精簡(jiǎn)Dom樹(shù),其滿足以下條件:
(1)該樹(shù)的葉子節(jié)點(diǎn)類型只有兩種,非空節(jié)點(diǎn)文本向量和非空鏈接特征向量。
(2)該樹(shù)的每個(gè)非終結(jié)點(diǎn)只包含兩種信息,節(jié)點(diǎn)類型和節(jié)點(diǎn)權(quán)重。其中節(jié)點(diǎn)類型為Dom樹(shù)中關(guān)于該節(jié)點(diǎn)類型的描述;節(jié)點(diǎn)權(quán)重為該非終結(jié)點(diǎn)包含的所有葉子節(jié)點(diǎn)中單詞權(quán)重的總和。
之所以非葉子節(jié)點(diǎn)權(quán)重采用其所有葉子節(jié)點(diǎn)權(quán)重總和的方式主要基于以下考慮:首先,依據(jù)非葉子節(jié)點(diǎn)和其葉子節(jié)點(diǎn)的層次關(guān)系,非葉子節(jié)點(diǎn)的重要性由其葉子節(jié)點(diǎn)的重要性來(lái)決定。其次,越上層的非葉子節(jié)點(diǎn),其權(quán)重越大,有利于網(wǎng)頁(yè)結(jié)構(gòu)特征的刻畫(huà);并且該特征通過(guò)其節(jié)點(diǎn)權(quán)重與網(wǎng)頁(yè)內(nèi)容信息相關(guān)聯(lián)。此外,該方法便于實(shí)現(xiàn)。
網(wǎng)頁(yè)特征樹(shù)的具體構(gòu)建可參考文獻(xiàn)[11]。需要注意的是本文所定義的特征樹(shù)只有兩類節(jié)點(diǎn);并且在構(gòu)造中需要根據(jù)本文所定義的權(quán)重計(jì)算方法為節(jié)點(diǎn)賦值。
例2 以下html來(lái)自于http://tech.sina.com.cn/mobile/n/2011-09-08/10576040001.shtml腳本。這里只列出部分代碼,說(shuō)明網(wǎng)頁(yè)特征樹(shù)。
那么以上代碼產(chǎn)生如圖2所示的特征樹(shù)。
圖2 特征樹(shù)
網(wǎng)頁(yè)特征樹(shù)包含文本信息、超鏈接和超鏈接文本。雖然圖片內(nèi)容也有助于網(wǎng)頁(yè)主題的理解,但是由于解析圖片技術(shù)較為困難,暫不加入到網(wǎng)頁(yè)特征樹(shù)信息中。
鑒于極限學(xué)習(xí)機(jī)的本質(zhì)是神經(jīng)網(wǎng)絡(luò)的特點(diǎn),網(wǎng)頁(yè)特征樹(shù)是不能作為極限學(xué)習(xí)機(jī)的輸入。因此需要將網(wǎng)頁(yè)特征樹(shù)轉(zhuǎn)化為定長(zhǎng)的編碼,以對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)節(jié)點(diǎn)。假設(shè)極限學(xué)習(xí)機(jī)的輸入端有N個(gè)神經(jīng)節(jié),那么網(wǎng)頁(yè)特征編碼最大由N個(gè)數(shù)字組成。另一方面,希望網(wǎng)頁(yè)特征樹(shù)的葉子節(jié)點(diǎn)數(shù)據(jù)放到編碼的前端,以防N值過(guò)小時(shí)主要的內(nèi)容信息數(shù)據(jù)被裁掉。因此,在特征樹(shù)向特征編碼轉(zhuǎn)換的過(guò)程中,本文采用樹(shù)的后序遍歷方法來(lái)產(chǎn)生特征編碼。
定義4(特征編碼)由網(wǎng)頁(yè)特征樹(shù)后序遍歷得到長(zhǎng)度為L(zhǎng)的實(shí)數(shù)編碼,每個(gè)實(shí)數(shù)可以看成網(wǎng)頁(yè)的特征屬性。其中漢字和字母使用16位Unicode編碼;權(quán)重為實(shí)數(shù),放在相應(yīng)節(jié)點(diǎn)后面。如果后序遍歷編碼總長(zhǎng)度小于L則補(bǔ)零,反之剪枝。
由于特征編碼是由本文所定義的特征樹(shù)轉(zhuǎn)換而來(lái),因此,特征編碼包含網(wǎng)頁(yè)結(jié)構(gòu)的特征信息、文本內(nèi)容特征信息和鏈接特征信息。
例3圖2中的特征樹(shù)按照后序遍歷后的部分特征編碼如圖3所示。
圖3 特征編碼
本文的中文網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)模型,ELMWebC2S采用Java和MATLAB相結(jié)合的方式來(lái)實(shí)現(xiàn)。使用java來(lái)完成頁(yè)面的抓取、頁(yè)面特征的提取和頁(yè)面特征編碼;MATLAB使用現(xiàn)有的ELM算法[12]。需要說(shuō)明的是文獻(xiàn)[12]中的算法包對(duì)輸入數(shù)據(jù)有一定的要求,輸入數(shù)據(jù)介于[-1,1]之間。因此在使用頁(yè)面特征編碼作為ELM算法[11]輸入之前,需要對(duì)編碼進(jìn)行規(guī)范化處理。將16位的Unicode編碼看成無(wú)符號(hào)整型,規(guī)范化公式如下:
另外,考慮到網(wǎng)頁(yè)包含信息較多的特點(diǎn),設(shè)置單個(gè)特征編碼長(zhǎng)度L=1 000,以保證足夠的網(wǎng)頁(yè)特征信息被輸入。ELM 輸入端神經(jīng)元數(shù)量選擇分別為N=50、100、150、200、250、300。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于多個(gè)網(wǎng)站的不同類別欄目,具體如表1所示。
表1 數(shù)據(jù)來(lái)源及類別
實(shí)驗(yàn)評(píng)估方法為文本分類系統(tǒng)常用的指標(biāo),準(zhǔn)確率(Precision)和召回率(Recall),其數(shù)學(xué)定義可參見(jiàn)文獻(xiàn)[9]。首先,使用十折交叉驗(yàn)證(10-fold cross-validation)檢驗(yàn)ELMWebC2S模型在各個(gè)N值情況下準(zhǔn)確率情況;此時(shí)訓(xùn)練樣本個(gè)數(shù)M=420。然后,采用文獻(xiàn)[13]中SVM多類別分類算法作為比較算法,在N=300時(shí)進(jìn)行分類比較。實(shí)驗(yàn)結(jié)果如圖4、圖5所示。
圖4 各種N值情況下準(zhǔn)確率
圖5 各種N值情況下召回率
圖6 兩種算法準(zhǔn)確率比較(N=300)
圖7 兩種算法召回率比較(N=300)
從圖4中可以看出隨著N值的增加,分類精度逐步提高;與此同時(shí),從圖5中可以看到網(wǎng)頁(yè)的召回率也在逐漸提高。這說(shuō)明隨著N值的增加,編碼所包含的網(wǎng)頁(yè)信息就越多,更有利于分類任務(wù)。圖6、圖7將本文提出的ELMWebC2S與傳統(tǒng)的SVM進(jìn)行比較,可以看出本文算法在分類精度和召回率上均略有提高。
本文提出了提取網(wǎng)頁(yè)特征方法、特征編碼方法以及基于極限學(xué)習(xí)機(jī)的網(wǎng)頁(yè)分類方法,并且在此基礎(chǔ)上將極限學(xué)習(xí)機(jī)的高效學(xué)習(xí)能力、神經(jīng)網(wǎng)絡(luò)的容錯(cuò)能力應(yīng)用到含有噪音數(shù)據(jù)的網(wǎng)頁(yè)分類任務(wù)中。實(shí)驗(yàn)結(jié)果表明該方法具有一定的有效性。
[1]李曉黎,劉繼敏.基于支持向量機(jī)與無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類器[J].計(jì)算機(jī)學(xué)報(bào),2001,24(1):62-68.
[2]范焱,鄭誠(chéng).用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁(yè)[J].軟件學(xué)報(bào),2001,12(9):1386-1392.
[3]張茂元,鄒春燕,盧正鼎.一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁(yè)分類方法研究[J].計(jì)算機(jī)研究與發(fā)展,2007,44(1):99-104.
[4]張乃洲,李石君,余偉,等.用聯(lián)合鏈接相似度評(píng)估爬取Web資源[J].計(jì)算機(jī)學(xué)報(bào),2010,33(12):2267-2280.
[5]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:a new learning scheme of feedforward neural network[C]//Proc of Int’l Joint Conf on Neural Networks,2004.
[6]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1/3):489-501.
[7]Serre D.Matrices:theory and applications[M].New York:Springer-Verlag,2002.
[8]魯明羽,沈抖,陸玉昌,等.面向網(wǎng)頁(yè)分類的網(wǎng)頁(yè)摘要方法[J].電子學(xué)報(bào),2006,34(8).
[9]許世明,武波,馬翠,等.一種基于預(yù)分類的高效SVM中文網(wǎng)頁(yè)分類器[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(1):125-128.
[10]Yi L,Liu B,Li X.Eliminating noisy information in web pages for data mining[C]//Proc of KDD2003.Washington,USA:ACM Press,2003:296-305.
[11]Ji X,Zeng J,Zhang S,et al.Tag tree template for Web information and schema extraction[J].Expert Systems with Applications,2010,37(12):8492-8498.
[12]MATLAB codes of EML algorithm[EB/OL].[2013-10-11].http://www.ntu.edu.sg/home/egbhuang/ELM_Codes.htm.
[13]朱慕華,朱靖波,陳文亮.面向文本分類的多類別SVM組合方式的比較[C]//全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議,2005:435-441.