陳芊希,范磊
?
基于深度學(xué)習(xí)的網(wǎng)頁分類算法研究
陳芊希,范磊
摘 要:網(wǎng)頁分類可將信息準(zhǔn)確篩選與呈現(xiàn)給用戶,提高信息檢索的準(zhǔn)確率。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)全新的領(lǐng)域,其本質(zhì)是一種多層的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,通過逐層初始化的方法來達(dá)到極高的準(zhǔn)確率,被多次使用在圖像識(shí)別、語音識(shí)別、文本分類中。提出了基于深度學(xué)習(xí)的網(wǎng)頁分類算法,實(shí)驗(yàn)數(shù)據(jù)證明該方法可有效提高網(wǎng)頁分類的準(zhǔn)確率。
關(guān)鍵詞:網(wǎng)頁分類;深度學(xué)習(xí);棧式自動(dòng)編碼器;TFIDF
范 磊(1975-),男,上海交通大學(xué),電子信息與電氣工程學(xué)院,副教授,博士,研究方向:數(shù)據(jù)挖掘、信息安全,上海,200240Abstract:Webpage classification can be used to select accurate webpage for users, which improves the accuracy of information retrieval. Deep learning is a new field in machine learning world. It’s a multi-layer neural network learning algorithm, which achieves a very high accuracy by initializing the layer by layer. It has been used in image recognition, speech recognition and text classification. This paper uses the deep learning algorithm in webpage classification. With the experiments, it finds out that the deep learning has obvious advantages for webpage classification.
Webpage Classification Based on Deep Learning Algorithm
Chen Qianxi, Fan Lei
(Information Content Analysis Technology National Engineering Laboratory, Shanghai Jiaotong University, Shanghai 200240, China)
Key words:Webpage Classification; Deep Learning; Stacked Auto Encoder; TFIDF
隨著21世紀(jì)互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,網(wǎng)絡(luò)上的信息也急速膨脹,從如此復(fù)雜多樣的網(wǎng)絡(luò)中迅速、準(zhǔn)確的找到用戶所真正感興趣的網(wǎng)頁信息已經(jīng)成為了一項(xiàng)挑戰(zhàn)。由此,對(duì)網(wǎng)頁的分類也逐漸被人們所看重。
現(xiàn)有的網(wǎng)頁分類技術(shù)主要有3個(gè)方向:
1)使用文本分類算法。
一個(gè)網(wǎng)頁最基礎(chǔ)的部分就是文本,提取出該文本信息就可以使用文本分類算法來做網(wǎng)頁分類。在文本分類領(lǐng)域中,向量空間模型已成為最廣泛的表示方式。它將文檔表示為一系列無序特征詞的向量,通過將這些文檔表示成具有不同權(quán)重的向量再使用傳統(tǒng)的分類算法如類中心向量算法、KNN或支持向量機(jī)(SVM)等來分類。不同的特征項(xiàng)對(duì)文檔的重要性和區(qū)分度是不同的,將文檔形式化成向量時(shí),需要對(duì)各個(gè)特征詞匯賦予不同的權(quán)重。最常用的特征加權(quán)算法為TFIDF方法。
TFIDF算法即詞頻-逆向文件頻率,它的主要思想是如果一個(gè)詞匯在一篇文檔中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞匯很可能反映了這篇文章的特性,因此它就具有很好的類區(qū)分能力,適合用于分類。對(duì)于一個(gè)詞匯w和某一文檔d,w在d中的權(quán)重計(jì)算公式如公式(1):
(1)
其中,TF(d,w)表示詞w在文檔d中出現(xiàn)的頻率,|D|是文檔總數(shù),DF(w)是在所有文檔詞w出現(xiàn)的次數(shù)。由這個(gè)公式也可以看出,一個(gè)詞匯在一個(gè)文檔中出現(xiàn)的次數(shù)越多,它越能代表該文檔,則它的權(quán)重就越高,而它在越多的文檔中出現(xiàn),它區(qū)分該文檔和其他文檔的能力就越低,則權(quán)重也就越低。
但是網(wǎng)頁分類與文本分類又有極大的不同點(diǎn),第一,傳統(tǒng)的文本分類具有結(jié)構(gòu)化的創(chuàng)作方式,而網(wǎng)頁中通常包含大量的噪音。網(wǎng)頁的設(shè)計(jì)比較隨意,通常包含各類廣告、設(shè)計(jì)人員的注釋以及一些與網(wǎng)頁內(nèi)容無關(guān)的信息等。第二,網(wǎng)頁中包含大量的HTML標(biāo)簽和超鏈接。因此傳統(tǒng)的文本分類方法無法完全滿足網(wǎng)頁分類的要求,從而產(chǎn)生了下面兩種網(wǎng)頁分類技術(shù)。
2)網(wǎng)頁特征分類。使用網(wǎng)頁中文本信息分類雖然方便,但由于網(wǎng)頁的復(fù)雜性和其附帶的噪音之多,將所有文本內(nèi)容用于分類并不能達(dá)到最好的分類效果。因此,必須利用網(wǎng)頁中其他特征信息來篩選其文本內(nèi)容來提高分類準(zhǔn)確度。一方面,在網(wǎng)頁中,HTML的標(biāo)簽是與文本內(nèi)容的一大不同,研究證明,使用來自這些標(biāo)簽的信息可以有效提高分類器的性能。另一方面,網(wǎng)頁中除了在HTML中的文本內(nèi)容,網(wǎng)頁還有由瀏覽器所呈現(xiàn)出來的視覺展示,提供了對(duì)網(wǎng)頁的不同視圖,利用這些生成的頁面視覺信息比分析文檔的HTML標(biāo)簽更通用。如文獻(xiàn)[7]中提出了一種改進(jìn)的基于視覺特征利用分塊重要度進(jìn)行中文主題網(wǎng)頁分類的方法。實(shí)驗(yàn)結(jié)果證明,利用網(wǎng)頁分割和分塊重要度來將網(wǎng)頁中的主題信息和噪聲信息分隔開,只使用用主題信息對(duì)網(wǎng)頁進(jìn)行分類,顯著提高了主題網(wǎng)頁分類的質(zhì)量。
3)利用鄰網(wǎng)頁信息。雖然網(wǎng)頁中包含很多有用的特征,但有時(shí)那些特征不一定存在或者很可能是無法識(shí)別的。為了克服這個(gè)問題,可以從一些鄰近的網(wǎng)頁中提取與原網(wǎng)頁有關(guān)的特征作為補(bǔ)充信息使用。直觀的,可以利用超鏈接來找到這些鄰網(wǎng)頁。我們認(rèn)為這些鄰居網(wǎng)頁具有一些相似的特征,或更強(qiáng)地,我們認(rèn)為這些網(wǎng)頁更傾向于是屬于同一類別的。通過挑選適當(dāng)?shù)泥従泳W(wǎng)頁,并使用網(wǎng)頁合適的部分可以使用鄰居網(wǎng)頁來對(duì)原網(wǎng)頁分類提供幫助。如文獻(xiàn)[6]中,將鏈接圖所到的鄰居網(wǎng)頁信息來用于對(duì)原頁面的網(wǎng)頁分類,通過對(duì)不同種類鄰居的研究,發(fā)現(xiàn)兄弟頁面信息對(duì)原網(wǎng)頁的分類效果具有最大的提高。
本文將在圖像處理和語音識(shí)別領(lǐng)域中有廣泛應(yīng)用的深度學(xué)習(xí)算法應(yīng)用到網(wǎng)頁分類中,該分類算法可有效提高分類的準(zhǔn)確率。
1.1 深度學(xué)習(xí)概念
深度學(xué)習(xí)的概念自2006年由Hinton等人提出以后,使機(jī)器學(xué)習(xí)領(lǐng)域取得了突破性的進(jìn)展,在語音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功。深度學(xué)習(xí)是一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法,它通過模擬人腦進(jìn)行分析學(xué)習(xí),明確突出了特征學(xué)習(xí)的重要性,通過逐層特征變換,每次都是訓(xùn)練一個(gè)單層網(wǎng)絡(luò),將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測更加容易。
1.2 深度學(xué)習(xí)常用模型之棧式自動(dòng)編碼器模型
深度學(xué)習(xí)的常用模型有自動(dòng)編碼器,深度置信網(wǎng)和卷積神經(jīng)網(wǎng)絡(luò)等。本文算法采用棧式自動(dòng)編碼器算法處理網(wǎng)頁數(shù)據(jù),棧式自動(dòng)編碼器是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上作出改進(jìn),使每一層都盡可能重現(xiàn)輸入信號(hào)。自動(dòng)編碼器具體過程如下:
1)非監(jiān)督方法學(xué)習(xí)特征:
第一步,使用無標(biāo)簽數(shù)據(jù)進(jìn)行逐層訓(xùn)練。在神經(jīng)網(wǎng)絡(luò)中,輸入的樣本是有標(biāo)簽的,利用輸出與標(biāo)簽的差值來調(diào)整參數(shù),直到收斂。而在自動(dòng)編碼器中,無標(biāo)簽數(shù)據(jù)無法得到輸出與標(biāo)簽的差值,因此,需要對(duì)神經(jīng)網(wǎng)絡(luò)做些修改,將輸入傳送到一個(gè)編碼器中,得到該輸入的表示編碼,為了衡量該輸入和編碼之間的差值,增加一個(gè)解碼器,將編碼輸入到該解碼器后可以得到一個(gè)重構(gòu)信號(hào),為了使該重構(gòu)信號(hào)與輸入之間的誤差盡可能小,我們調(diào)節(jié)編碼器參數(shù)得到一個(gè)更為準(zhǔn)確的編碼,最后當(dāng)誤差最小時(shí),就可以將該編碼當(dāng)做輸入信號(hào)的一個(gè)表示了。這就組成了一個(gè)自動(dòng)編碼器。
2)逐層訓(xùn)練:
棧式自動(dòng)編碼器是在自動(dòng)編碼器的基礎(chǔ)上加上深度學(xué)習(xí)的思想,即“逐層初始化”的概念。棧式自動(dòng)編碼器由多層的自動(dòng)編碼器組成,前一層的自動(dòng)編碼器的輸出作為其后一層自動(dòng)編碼器的輸入,同樣最小化重構(gòu)誤差來得到其后一層的參數(shù)。在訓(xùn)練每一層參數(shù)時(shí),固定其它各層參數(shù)保持不變。通過這么多層的編碼器,最后我們便得到了輸入信號(hào)的一個(gè)非常抽象又近似的表達(dá)了。
3)有監(jiān)督微調(diào):
經(jīng)過上面的方法,得到多層的自動(dòng)編碼器,每一層都是原始輸入的不同表達(dá)。最終,需要用這么多層的自動(dòng)編碼器來分類數(shù)據(jù),因此需要它去學(xué)習(xí)如何連結(jié)一個(gè)輸入和一個(gè)類。為了實(shí)現(xiàn)分類,在最頂層的編碼層添加一個(gè)分類器(例如logistic回歸、SVM等),將最后一個(gè)隱層的編碼輸入到最后的分類器,通過帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,基于第一步得到的各層參數(shù)進(jìn)一步微調(diào)整個(gè)多層模型的參數(shù),誤差自頂向下傳輸。至此,該網(wǎng)絡(luò)就可以用來分類了。
2.1 網(wǎng)頁獲取與預(yù)處理
良好的網(wǎng)頁歸類是實(shí)現(xiàn)正確網(wǎng)頁分類的前提和基礎(chǔ)。本文選取了第一分類目錄(http://www.dir001.com/category)網(wǎng)站上的數(shù)據(jù)作為我們的數(shù)據(jù)集,該網(wǎng)站包含了大量網(wǎng)頁的人工分類結(jié)果。實(shí)驗(yàn)中使用Scapy網(wǎng)絡(luò)爬蟲工具將該分類目錄下帶類別標(biāo)簽的各網(wǎng)頁信息抓取出來。
對(duì)網(wǎng)頁的處理包括3個(gè)部分:網(wǎng)頁預(yù)處理、特征抽取和權(quán)重分配。
首先,使用HTML解析來抽取出文本。HTML解析的目的在于去掉與網(wǎng)頁分類無關(guān)的HTML源碼來抽取需要的文本數(shù)據(jù)。在HTML頭部信息中,包括了對(duì)整個(gè)網(wǎng)頁的概要描述,其中我們提取出<title>、<keywords>、<description>這3個(gè)標(biāo)簽中的文本部分,它們分別代表網(wǎng)頁的標(biāo)題、關(guān)鍵字及描述。這3個(gè)部分的文本組成了對(duì)網(wǎng)頁的整體描述。
在網(wǎng)頁預(yù)處理后得到了一系列網(wǎng)頁的文本數(shù)據(jù),需要將這些文本序列切分成單獨(dú)的詞匯來作為特征使用。本實(shí)驗(yàn)使用的中文分詞技術(shù)是基于字典、詞庫匹配的機(jī)械分詞方法,這類方法簡單、分詞效率高。分詞后,網(wǎng)頁的文本成為一系列詞匯的集合。在文本分類中,一個(gè)文檔具有大量的詞匯會(huì)導(dǎo)致特征空間維度過高而造成存儲(chǔ)代價(jià)過高且影響分類效果。但在網(wǎng)頁分類中,提取出來的文本遠(yuǎn)沒有文檔的多,因此,本實(shí)驗(yàn)不考慮特征選擇的問題,將網(wǎng)頁中出現(xiàn)的詞匯全部保留下來作為特征使用。
將網(wǎng)頁表示成這些特征的向量以后,還必須對(duì)這些特征賦予不同的權(quán)重來顯示不同詞匯對(duì)網(wǎng)頁的重要性和區(qū)分度。在深度學(xué)習(xí)算法中,我們使用簡單直觀的布爾模型來賦予權(quán)重,即若這個(gè)特征出現(xiàn)在該文本中標(biāo)記為1,否則標(biāo)記為0。在TFIDF對(duì)比實(shí)驗(yàn)中的權(quán)重,使用修改后的TFIDF值作為特征的權(quán)重。
2.2 傳統(tǒng)的網(wǎng)頁分類算法
采用改進(jìn)的TFIDF算法來做對(duì)比實(shí)驗(yàn)。使用該算法分類時(shí),計(jì)算每個(gè)特征詞匯的TFIDF值作為該特征的權(quán)重。原本計(jì)算TFIDF的方式應(yīng)該是對(duì)每個(gè)網(wǎng)頁計(jì)算它所包含詞匯的TFIDF值。但由于網(wǎng)頁中這3個(gè)字段所包含的詞匯較少,具有重復(fù)的特征詞匯更是寥寥無幾,與文檔所含詞匯多不同,因此,采用改進(jìn)的TFIDF算法,對(duì)訓(xùn)練集中所有網(wǎng)頁以類別為單位分別計(jì)算,即對(duì)每個(gè)類別來分別計(jì)算它具有的特征詞匯的TFIDF值,公式描述如公式(2):
其中,TF(c,w)表示詞w在大類c中出現(xiàn)的頻率,|C|是該類別總的網(wǎng)頁個(gè)數(shù),TF(w)是包含該詞w的網(wǎng)頁個(gè)數(shù),|D|是類別總數(shù),即|D|=8,DF(w)是在所有大類中詞w出現(xiàn)的次數(shù)。
對(duì)測試集中網(wǎng)頁詞匯,我們無法使用上述公式來計(jì)算其TFIDF值,因此,我們也用布爾權(quán)重來表示網(wǎng)頁向量,對(duì)網(wǎng)頁中出現(xiàn)的詞匯權(quán)重為1,未出現(xiàn)詞匯權(quán)重為0。
分類方法為:計(jì)算每個(gè)測試集中網(wǎng)頁向量與各個(gè)類別特征向量的相似度,將網(wǎng)頁分到與其相似度最大的類別中去,向量的相似度計(jì)算方法如公式(3):
cos值越高表示夾角越小,向量相似度越高。
2.3 基于深度學(xué)習(xí)的網(wǎng)頁分類
通過網(wǎng)頁預(yù)處理后,網(wǎng)頁成為這些特征詞匯的向量,以0、1為向量元素。本實(shí)驗(yàn)使用的深度學(xué)習(xí)算法為棧式自動(dòng)編碼器,原理如上述。所使用的深度學(xué)習(xí)算法工具為基于Matlab的Deeplearningtoolbox工具,它包含了棧式自動(dòng)編碼器(SAE)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度置信網(wǎng)絡(luò)(DBN)、卷積自動(dòng)編碼器(CAE)等幾種深度學(xué)習(xí)算法。我們使用其中的SAE即棧式自動(dòng)編碼器來實(shí)現(xiàn)對(duì)網(wǎng)頁的分類。該工具中的棧式自動(dòng)編碼器算法首先使用無監(jiān)督學(xué)習(xí)來逐層初始化,將每一層當(dāng)做一個(gè)BP(反向傳播)神經(jīng)網(wǎng)絡(luò)來更新參數(shù)。通過不斷迭代修改這個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值來達(dá)到每層的輸入和重構(gòu)輸入的誤差最小,使神經(jīng)網(wǎng)絡(luò)的輸出不斷逼近原始輸入。最后使用有標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。在每一層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中一個(gè)重要的參數(shù)是訓(xùn)練的迭代次數(shù)。迭代次數(shù)過小會(huì)導(dǎo)致網(wǎng)絡(luò)的預(yù)測誤差過大,對(duì)輸入無法充分學(xué)習(xí),導(dǎo)致最終多層的深度學(xué)習(xí)算法的分類準(zhǔn)確度過低,而迭代次數(shù)過大又會(huì)導(dǎo)致計(jì)算時(shí)間過長而得到的準(zhǔn)確率卻只有微小的提升。
本實(shí)驗(yàn)使用的深度學(xué)習(xí)模型都是四層系統(tǒng),包括一層輸入層、兩層隱層和一層輸出層,且兩個(gè)隱層中節(jié)點(diǎn)個(gè)數(shù)都為100個(gè),通過調(diào)節(jié)其編碼器參數(shù)來得到最好的分類效果。在實(shí)驗(yàn)中,通過修改棧式編碼器中每個(gè)神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)發(fā)現(xiàn),當(dāng)?shù)螖?shù)足夠大時(shí),準(zhǔn)確率會(huì)趨于穩(wěn)定,并最終收斂。為了降低實(shí)驗(yàn)的計(jì)算時(shí)間,我們?cè)趯?shí)驗(yàn)中取迭代次數(shù)為4次,此時(shí)的準(zhǔn)確率效果較好且計(jì)算時(shí)間也較短。
3.1 數(shù)據(jù)集說明
本實(shí)驗(yàn)基于第一分類目錄這個(gè)網(wǎng)站,該網(wǎng)站將各網(wǎng)站信息系統(tǒng)地分類整理,提供了一個(gè)按類別區(qū)分的網(wǎng)站目錄。總共包括休閑娛樂、網(wǎng)上商城、網(wǎng)絡(luò)服務(wù)、商業(yè)經(jīng)濟(jì)、生活服務(wù)、教育文化、博客論壇、以及綜合其他等八大類,剔除掉一些停用的網(wǎng)頁,隨機(jī)挑選一些網(wǎng)頁作為數(shù)據(jù)集。選取的網(wǎng)頁共有1600個(gè),每個(gè)類別有200個(gè)網(wǎng)頁。
4.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)
本論文實(shí)驗(yàn)是在Windows XP操作系統(tǒng)的環(huán)境下,利用Python2.7工具和Matlab R2007a開發(fā)工具,并通過Python 和Matlab語言實(shí)現(xiàn)的。TFIDF實(shí)驗(yàn)使用Python實(shí)現(xiàn),深度學(xué)習(xí)算法使用基于Matlab的Deeplearningtoolbox工具實(shí)現(xiàn)。對(duì)于實(shí)驗(yàn)所需的中文網(wǎng)頁都是使用網(wǎng)頁爬蟲Scrapy從網(wǎng)上抓取,對(duì)于中文分詞使用Python工具里的結(jié)巴分詞得到。
為對(duì)比分類效果,我們采用最通用的性能評(píng)價(jià)指標(biāo):召回率Recall、精確度Precision及F1值,其定義如表1所示:
表1 混淆矩陣(YES代表屬于類Ci,NO代表不屬于類Ci)
對(duì)于某一特定的類別Ci,精確度代表分類器作出預(yù)測正確的概率,召回率代表該類中被分類器正確預(yù)測的概率。這兩個(gè)指標(biāo)相互制約,其一值高會(huì)導(dǎo)致另一值低。F1值是精確度和召回率的加權(quán)調(diào)和平均,使用F1值可以綜合查看這兩個(gè)指標(biāo)。
3.3 實(shí)驗(yàn)結(jié)果
為了更有效得對(duì)比深度學(xué)習(xí)算法和TFIDF算法的優(yōu)劣,進(jìn)行多次對(duì)比實(shí)驗(yàn),采用k層交叉檢驗(yàn)的方式,將原始的數(shù)據(jù)隨機(jī)分成k個(gè)部分,完成k次實(shí)驗(yàn),每次實(shí)驗(yàn)取一個(gè)部分作為測試數(shù)據(jù),其他k-1個(gè)部分作為訓(xùn)練數(shù)據(jù),這樣能保證每個(gè)數(shù)據(jù)都被作為測試數(shù)據(jù)一次,作為訓(xùn)練數(shù)據(jù)k-1次。本實(shí)驗(yàn)中,取k=10。我們從1600個(gè)網(wǎng)頁中隨機(jī)抽取160個(gè)網(wǎng)頁作為測試網(wǎng)頁,剩余1440個(gè)網(wǎng)頁作為訓(xùn)練數(shù)據(jù),重復(fù)做10次實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖1~圖3所示:
圖1 深度學(xué)習(xí)精確度與TFIDF精確度對(duì)比
圖2 深度學(xué)習(xí)召回率與TFIDF召回率對(duì)比
圖3 深度學(xué)習(xí)F1值與TFIDF F1值對(duì)比
上面3張圖分別給出了深度學(xué)習(xí)算法和TFIDF算法分類結(jié)果的精確度、召回率及F1值的比較。其中橫軸表示第1次到第10次的實(shí)驗(yàn)序號(hào),縱軸表示計(jì)算得到的精確度、召回率和F1值。對(duì)比看出:深度學(xué)習(xí)算法的網(wǎng)頁分類結(jié)果無論在精確度、召回率和F1值上的評(píng)估都要優(yōu)于傳統(tǒng)的TFIDF算法的分類效果。深度學(xué)習(xí)算法F1值大部分都能達(dá)到90%以上,且10次實(shí)驗(yàn)的效果比較穩(wěn)定,F(xiàn)1值最高能達(dá)到96%的高度。而TFIDF算法在這10次實(shí)驗(yàn)的效果偏差較大,最高的F1值只有85%左右。
同時(shí),我們?nèi)〉谝淮螌?shí)驗(yàn)的結(jié)果,通過對(duì)比每類的精確度、召回率和F1值情況,來查看這兩次實(shí)驗(yàn)分別對(duì)各類別的分類效果,結(jié)果如表2所示:
表2 每類分類效果對(duì)比
從表2我們可以看出TFIDF實(shí)驗(yàn)對(duì)類別的分類效果浮動(dòng)較大,F(xiàn)1值最大差值在24%左右。但深度學(xué)習(xí)對(duì)每個(gè)類別的分類效果都較好,F(xiàn)1值都達(dá)到了90%以上,且最大差值也只有7%左右,這表明深度學(xué)習(xí)對(duì)每個(gè)類別的數(shù)據(jù)都能很好的學(xué)習(xí)到每類的特征。
以上我們對(duì)比了使用傳統(tǒng)的文本分類的方法來對(duì)網(wǎng)頁分類,即引言中的第一類網(wǎng)頁分類方法。以下我們對(duì)比其他兩類分類方法的實(shí)驗(yàn)效果。
文獻(xiàn)[7]中采用了網(wǎng)頁分類的第二類方法,它的實(shí)驗(yàn)結(jié)果如圖4所示:
圖4 采用KNN分類器傳統(tǒng)方法與分塊方法的F1值對(duì)比
文獻(xiàn)7中,對(duì)網(wǎng)頁利用視覺特征將網(wǎng)頁分割成塊,對(duì)每個(gè)分塊賦予不同的權(quán)值進(jìn)而用于分類。圖4是文獻(xiàn)7中將傳統(tǒng)的全文網(wǎng)頁分類方法和基于視覺特征的利用分塊重要度的網(wǎng)頁分類法進(jìn)行比較。從圖4我們可以看出,利用視覺特征確實(shí)對(duì)網(wǎng)頁分類有所提高,但其分類效果遠(yuǎn)不如深度學(xué)習(xí)算法的分類效果,F(xiàn)1值最高只有81%。且它對(duì)每個(gè)類別的分類效果趨勢與傳統(tǒng)方法相似,如類別‘軍事’的分類效果最差,類別‘體育’的分類效果最好,而本文使用的深度學(xué)習(xí)算法對(duì)每個(gè)類別的分類效果都近似,F(xiàn)1值浮動(dòng)較小。
文獻(xiàn)[6]采用了網(wǎng)頁分類的第三類方法,利用網(wǎng)頁上的鄰居頁面信息來對(duì)原網(wǎng)頁進(jìn)行分類。文獻(xiàn)中采用ODP(開放式分類目錄搜索系統(tǒng))中的網(wǎng)頁,ODP是目前互聯(lián)網(wǎng)上最大的人工編制的分類檢索系統(tǒng)。實(shí)驗(yàn)結(jié)果表明該方法能夠提高傳統(tǒng)的分類方法的分類效果,準(zhǔn)確度從70%提升到了大約90%。分類效果也差于本文的深度學(xué)習(xí)算法的分類效果。
本文使用深度學(xué)習(xí)算法對(duì)網(wǎng)頁進(jìn)行分類,對(duì)比傳統(tǒng)的TFIDF分類方法,使用深度學(xué)習(xí)算法具有更好的分類效果,能將網(wǎng)頁分類的準(zhǔn)確性提升到另一個(gè)高度。網(wǎng)頁中還包含很多不同于文檔的頁面信息,本文只使用了網(wǎng)頁中文本的3個(gè)字段就達(dá)到比較好的效果,今后可以使用更多的網(wǎng)頁信息例如標(biāo)簽信息并結(jié)合深度學(xué)習(xí)算法對(duì)網(wǎng)頁分類的精確度進(jìn)一步提升。
參考文獻(xiàn)
[1] Qi X, Davison B D. Web page classification: Features and algorithms[J]. ACM Computing Surveys (CSUR), 2009, 41(2): 12.
[2] de Boer V, van Someren M, Lupascu T. Classifying Web Pages with Visual Features[C].WEBIST (1). 2010: 245-252.
[3] Kan M Y, Thi H O N. Fast webpage classification using URL features[C].Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 325-326.
[4] Ong W K, Hong J L, Fauzi F, et al. Ontological based webpage classification[C].Information Retrieval & Knowledge Management (CAMP), 2012 International Conference on. IEEE, 2012: 224-228.
[5] Asirvatham A P, Ravi K K, Prakash A. Web page classification based on document structure[C].IEEE National Convention. 2001.
[6] Qi X, Davison B D. Knowing a web page by the company it keeps[C].Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006: 228-237.
[7] 段昕. 基于視覺特征中文網(wǎng)頁分類方法的研究[D]. 山東大學(xué), 2007.
[8] 王美方, 劉培玉, 朱振方. 基于TFIDF的特征選擇方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2007, 第23期:5795-5796. DOI:doi:10.3969/j.issn.1000-7024.2007.23.070.
[9] 孫建濤, 沈抖,陸玉昌, 等. 網(wǎng)頁分類技術(shù)[J]. 清華大學(xué)學(xué)報(bào): 自然科學(xué)版, 2004, 44(1): 65-68.
[10] 單松巍, 馮是聰, 李曉明. 幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J]. 計(jì)算機(jī)工程與應(yīng)用, 2003, 39(22): 146-148.
[11] 蘇峰. 基于深度學(xué)習(xí)的文本分類研究[D]. 內(nèi)蒙古民族大學(xué), 2014.
收稿日期:(2015.05.13
作者簡介:陳芊希(1991-),女,上海交通大學(xué),電子信息與電氣工程學(xué)院,碩士研究生,研究方向:數(shù)據(jù)挖掘,上海,200240
基金項(xiàng)目:上海市基礎(chǔ)研究重大重點(diǎn)項(xiàng)目 (NO.13JC1403500)
文章編號(hào):1007-757X(2016)02-0025-04
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A