摘 要:基于結(jié)構(gòu)風(fēng)險最小化的SVM(支持向量機(jī))統(tǒng)計(jì)學(xué)習(xí)理論隨著樣本數(shù)量的增加,不僅訓(xùn)練模型的時間開銷會非線性地增長,而且分類的時間開銷也會隨著支持向量個數(shù)的增加而增大。為了使語言分析模型涵蓋足夠的語言現(xiàn)象并能快速完成模型訓(xùn)練和句子分析,采用了先將組塊識別看成文本切分的二分類問題的辦法,通過SVM對語料中不同類別詞語分別建模,再從組塊的構(gòu)成知識進(jìn)一步判定組塊類型。實(shí)驗(yàn)結(jié)果表明,這種方法的分析速度和準(zhǔn)確率都有一定的提高。
關(guān)鍵詞:中文信息處理; 組塊識別; 組塊特征; 支持向量機(jī)
0 引 言
完全句法分析是自然語言處理應(yīng)用的一個難點(diǎn)與瓶頸,于是“分而治之”的組塊分析思想被提了出來[1]。即將句子劃分成功能相對獨(dú)立的片斷,用組塊間的關(guān)系代替完全句法分析中的詞間關(guān)系。句子組塊分析作為自然語言處理的預(yù)處理手段,在一定程度上能簡化句子結(jié)構(gòu)、降低句法分析的難度和復(fù)雜度,為后續(xù)的完全句法分析提供輔助信息,在信息檢索、文本分類、機(jī)器翻譯和信息抽取中得到廣泛的應(yīng)用。