摘要:隨著計算機網(wǎng)絡(luò)的發(fā)展,各種文本資源以驚人的速度增長,導(dǎo)致信息搜尋困難和信息利用率低下。而快速高質(zhì)量的Web文本聚類技術(shù)可以滿足用戶方便快捷地從互聯(lián)網(wǎng)獲得所需要的信息資源。文章對Web文本聚類如網(wǎng)頁采集、去噪、分詞、特征表示等關(guān)鍵技術(shù)進行研究,對常用的Web文本聚類算法進行了分析比較,所給出的分析比較結(jié)果對文本聚類算法的應(yīng)用有現(xiàn)實意義。
關(guān)鍵詞:文本挖掘;文本挖掘;web文本聚類;web文本預(yù)處理;聚類算法