亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于頁面標簽的網(wǎng)頁分類研究

        2009-12-31 00:00:00陳笑筑陳笑蓉
        商場現(xiàn)代化 2009年19期

        基金項目:國家自然科學基金(the National Natural Science Foundation of China under Grant No.10671045)

        [摘 要] 針對Html網(wǎng)頁結(jié)構(gòu)的特點,網(wǎng)頁的不同標記信息所轄的特征項包含不同的類別信息,通過抽取網(wǎng)頁不同標記信息內(nèi)的特征項并賦予不同權(quán)重來表明其重要程度。實驗證明該方法比單獨依賴網(wǎng)頁內(nèi)容信息的分類在效果上有所提高。

        [關(guān)鍵詞] 網(wǎng)頁分類 特征項 權(quán)重計算

        一、引言

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,web網(wǎng)已經(jīng)成為一個巨大的信息源,成為人們獲取信息的重要來源。由于Web網(wǎng)頁中蘊藏的信息資源內(nèi)容廣泛,形式各異,有效組織和管理這些資源尤為重要,通過網(wǎng)頁的自動分類可以更好地對其進行組織和管理,加快信息檢索的速度。然而,web頁面中存在著大量的HTML格式的無結(jié)構(gòu)數(shù)據(jù)和少量XML格式的半結(jié)構(gòu)數(shù)據(jù)。一方面,這些結(jié)構(gòu)性信息常是頁面中包含的非主題信息的內(nèi)容,網(wǎng)頁必須剔除這些無用的信息后才能形成有用的文本信息。另一方面,這些結(jié)構(gòu)性信息又包含著重要的分類信息,利用好這些信息能有效提高分類效果。

        本文對網(wǎng)頁的標記進行了分類,對位于不同標記內(nèi)的特征項賦予不同的權(quán)重系數(shù),在分類過程中重新調(diào)整其權(quán)值,以期改善分類器的性能。

        二、網(wǎng)頁特征分析

        與純文本數(shù)據(jù)不同,網(wǎng)頁數(shù)據(jù)是一種半結(jié)構(gòu)化的數(shù)據(jù)。在HTML文檔中,正文信息是嵌入在HTML標記中的,HTML文檔的標記具有嵌套結(jié)構(gòu)。仔細分析HTML文件的格式,可以發(fā)現(xiàn)其中有一些標記信息對分類是有益的。(1)頁面的標題,無論哪種類型的文本,一般都會有標題,通常標題部分特征信息的量都比文章其余部分要大,標題一般是網(wǎng)頁內(nèi)容的精煉概括,字數(shù)較少,除很少的一些虛詞外基本上都是網(wǎng)頁的特征詞;(2)分級標題,分級標題是網(wǎng)頁內(nèi)容的基本框架,是網(wǎng)頁局部內(nèi)容的概括和提煉,在一定程序上強調(diào)了網(wǎng)頁內(nèi)容;(3)字體格式,在一些網(wǎng)頁上,常對重要的文本加以修飾,突出其重要性,如將關(guān)鍵詞句的字號加大,對其加粗、加下劃線及加斜,或者附以不同的顏色。

        為了精確表示網(wǎng)頁的結(jié)構(gòu),定義標記集S={TL,HD,F(xiàn)S,F(xiàn)L,F(xiàn)C,UR}。

        TL:標記為TL的特征項是文中的標題部分;

        HDi:標記為HD的特征項是文中的分級標題;

        FSi:標記為FS的特征項為非基準字號;

        FL:標記為FL的特征項被字體格式化處理;

        FC:標記為FC的特征項為非基準顏色。

        說明:標題部分可以看成是零級標題,因此TL和HDi的權(quán)重系數(shù)可統(tǒng)一處理;FSi的權(quán)重系數(shù)為字號減去基準字號的絕對值,其中,基準字號l是文本長度最長的標簽部分所用的字號;FL權(quán)重系數(shù)為3;FC的顏色值為非基準值u時取2,其中,基準值u為文本長度最長的標簽部分所用的顏色值。

        三、關(guān)鍵技術(shù)

        1.特征項抽取

        本文的特征提取分兩步進行,第一步按常規(guī)方法去除結(jié)構(gòu)性標簽,獲取純文本內(nèi)容,用成熟的特征選擇方法互信息MI得到一個初始特征集合T?;バ畔I公式為:(1)

        其中:A為t和c同時出現(xiàn)的次數(shù);B為t出現(xiàn)而c沒有出現(xiàn)的次數(shù);C為c出現(xiàn)而t沒有出現(xiàn)的次數(shù)。N為所有文檔數(shù)。如果t和c不相關(guān),則MI(t,c)值為0。如果有m個類,于是對于每個t會有m 個值,取它們的平均,就可得到特征選取所需的一個線性序?;バ畔⒅荡蟮奶卣鞅贿x取的可能性大。

        第二步對格式化文本進行提取,抽取格式特征項集合,并按表1模板對特征項進行標記,以備后續(xù)處理。

        2.特征權(quán)重計算

        (1)特征表示

        文本分類中的文本表示主要采用向量空間模型(vector space mode,VSM)。向量空間模型的基本思想是以(W1,W2,W3,…,Wm)向量來表示文本,其中Wi為第i個特征項的權(quán)重 。n個文本組成的文本集合D={d1,d2,…,dn}被m個特征項W1,W2,W3,…,Wm索引,可表示成一個m×n的特征項文本矩陣A,A={d1,d2,…,dn},其中di=(W1,W2,W3,…,Wm),如下所示: (2)

        其中:每一列di代表一個文本;一行Yj 代表特征項在各個文本中的權(quán)值.特征項權(quán)重的計算方法主要運用TF-IDF公式: (3)

        式中:W(t,d)表示特征詞t在文本d中的權(quán)重,tf(t,d)為特征詞t在文本d中的詞頻,N為訓練集中文本的總數(shù),nt為訓練文本集中出現(xiàn)詞t的文本數(shù),分母為歸一化因子。

        (2)特征加權(quán)

        考慮Web網(wǎng)頁的描述信息中出現(xiàn)的關(guān)鍵字包含網(wǎng)頁的重要信息,對分類有較大的作用。因此,對這部分特征項進行加權(quán)處理。依此權(quán)值信息表,我們對特征詞t在文檔d的權(quán)重計算公式(1)做如下改進。

        (4)

        其中,表示特征項t被k個HTML標記修飾權(quán)重之和。

        3.特征選擇算法描述

        Step One:對網(wǎng)頁預處理,進行分詞及分詞后的預處理,獲取初始特征集;對網(wǎng)頁進行格式特征抽取,獲取格式特征集合;

        Step Two:對于初始特征集中的每個詞,利用式(6)計算特征項和類別的互信息值;

        Step Three:對互信息值進行排序, 根據(jù)設(shè)定閾值T對每個類別提取若干個貢獻最大的特征項,刪除大部分對分類意義不大的特征項,得到特征項的最終集合T=(t1,t2,……,tm)(m

        Step Four:根據(jù)式(4)計算每個特征項的權(quán)值wi;

        Step Five:生成特征向量表,每篇文檔表示為向量(tl,wl;t2,w2;……;tn,wn),ti為特征項,wi為對應的權(quán)值。

        四、試驗分析與結(jié)果

        1.分類算法

        本文采用KNN分類算法進行實驗,該算法的是在給定新文本后,考慮在訓練文本集中與該新文本距離最相近的K篇文本,根據(jù)這K篇文本所屬文本所屬的類別判定新文本所屬的類別。計算公式為: (5)

        其中,相似度計算公式為:(6)

        為類別屬性函數(shù),定義為:(7)

        2.實驗結(jié)果

        實驗數(shù)據(jù)是從新浪網(wǎng)、雅虎網(wǎng)等多個網(wǎng)站上采集的中文網(wǎng)頁數(shù)據(jù)集,從中選取了政治、交通、環(huán)境、經(jīng)濟、藝術(shù)、娛樂等六個類別共1800篇文章,其中每個類別300篇文章;每類選取200個網(wǎng)頁作為訓練集,其余100個網(wǎng)頁作為測試集。

        在相同環(huán)境下,我們分別對兩種特征選擇方法進行了對比實驗,結(jié)果見表1。其一是采用傳統(tǒng)TF-IDF特征選擇方法直接進行訓練,計算權(quán)重;其二是考慮網(wǎng)頁結(jié)構(gòu)特征的重要性,將位于網(wǎng)頁某些結(jié)構(gòu)標簽的特征項進行加權(quán),并將加權(quán)處理融合到TF-IDF方法中。實驗結(jié)果表明,第二種方法能取得良好的分類效果。

        五、結(jié)束語

        網(wǎng)頁的自動分類在信息檢索領(lǐng)域中均占有十分重要的意義。然而,網(wǎng)頁分類不同于普通文本的分類,網(wǎng)頁中包含大量的網(wǎng)頁標記信息,這些標記信息包含重要的分類信息,充分挖掘這些信息有利于提高網(wǎng)頁的可分性。本文正是在對這些標記對信息研究的基礎(chǔ)上實現(xiàn)正文信息的選取和表示的。實驗已表明所用方法的有效性和可用性。在后續(xù)的研究中,將對網(wǎng)頁特殊描述信息中的特征項權(quán)值系數(shù)確定方法進行研究,以求更加合理的加權(quán)方法。

        參考文獻:

        [1]Wang Lian,David Wai-lok Cheung.An efficient and scalable algorithm for clustering XML documents by structure [J].IEEE Trans on Knowledge and Data Engineering,2004,16(1):82~96

        [2]初建崇 劉培衛(wèi) 王衛(wèi)玲:Web文檔中詞語權(quán)重計算方法的改進[J].計算機工程與應用,2007,43(19): 192~194,198

        [3]呼聲波 劉希玉:網(wǎng)頁分類中特征提取方法的比較與改進[J].山東師范大學學報(自然科學版),2008,23(3): 35~37

        [4]胡 健 陸一嗚 馬范援:基于HTML文檔結(jié)構(gòu)的向量空間模型的改進[J].情報學報,2005(4):433~437

        [5]何中市 劉 里:基于上下文關(guān)系的文本分類特征描述方法[J].計算機科學,2007,34(5):183~186

        国产一级一区二区三区在线播放| 日本污视频| 免费国产调教视频在线观看 | 中文亚洲日韩欧美| 久久91精品国产91久久麻豆| 午夜视频在线观看国产19| 中文精品久久久久人妻不卡| 欧美日韩精品一区二区在线观看 | 无码人妻人妻经典| 狠狠噜天天噜日日噜| 中文字幕日韩人妻高清在线| 99久久精品人妻少妇一| 偷国产乱人伦偷精品视频| 久久精品国产9久久综合| 高跟丝袜一区二区三区| 少妇又紧又爽丰满在线视频| 极品白嫩的小少妇| chinese国产乱在线观看| 国产日产久久福利精品一区| 在线观看国产激情视频| 国产乱码一区二区三区爽爽爽| 亚洲91av| 天堂av在线播放观看| 国产黑丝美腿在线观看| 国产精品久久久久影院嫩草| 国产精品一区二区三区精品| 国产黄色一区二区三区av| 精品久久久bbbb人妻| 四虎影视在线观看2413| 免费美女黄网站久久久| 一区二区三区天堂在线| 日本爽快片18禁免费看| 久久精品国产亚洲Av无码偷窍| 国产一区二区三区在线av| 中文字幕精品一区二区精品| 色妺妺视频网| 国产精品一区二区三区蜜臀| 亚洲天堂丰满人妻av| 午夜福利麻豆国产精品| 91网红福利精品区一区二| 美女脱掉内裤扒开下面让人插|