摘要:構(gòu)建了關(guān)于Web表格特征信息知識的領(lǐng)域本體,提出并設(shè)計(jì)了一種用于Web文本分類的二次分類模型。該模型使用支持向量機(jī)方法對測試樣本進(jìn)行第一次分類;由于設(shè)定了較高的分類閾值,一次分類后部分測試樣本未確定所屬類別,對于這些測試樣本,抽取樣本中的Web表格特征信息,與基于領(lǐng)域本體的分類模板進(jìn)行相似度匹配,進(jìn)行第二次分類。最后通過實(shí)驗(yàn)驗(yàn)證了該方法的可行性。
關(guān)鍵詞:Web文本分類;特征信息;領(lǐng)域本體;相似度匹配