摘 要:網(wǎng)頁分類存在著新詞多、特征維數(shù)高的問題,提出了一種新的網(wǎng)頁分類方法。首先利用橋本體對分類領(lǐng)域本體進(jìn)行集成,建立多本體語義標(biāo)注模型,對文本特征進(jìn)行降維。在此基礎(chǔ)上,對不同類標(biāo)號的關(guān)鍵詞進(jìn)行聚類,解決新詞無法識別的問題,同時考慮網(wǎng)頁標(biāo)簽的不同權(quán)重,用改進(jìn)的SVM模型對中文網(wǎng)頁進(jìn)行分類。實驗結(jié)果表明,上述方法改進(jìn)了傳統(tǒng)SVM分類器的性能。
關(guān)鍵詞:文本分類; 本體集成; 支持向量機; 維數(shù)約簡; 聚類
中圖分類號:TN911-34; TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-373X(2012)14-0093-04