摘 要:基于結構風險最小化的SVM(支持向量機)統(tǒng)計學習理論隨著樣本數(shù)量的增加,不僅訓練模型的時間開銷會非線性地增長,而且分類的時間開銷也會隨著支持向量個數(shù)的增加而增大。為了使語言分析模型涵蓋足夠的語言現(xiàn)象并能快速完成模型訓練和句子分析,采用了先將組塊識別看成文本切分的二分類問題的辦法,通過SVM對語料中不同類別詞語分別建模,再從組塊的構成知識進一步判定組塊類型。實驗結果表明,這種方法的分析速度和準確率都有一定的提高。
關鍵詞:中文信息處理; 組塊識別; 組塊特征; 支持向量機
0 引 言
完全句法分析是自然語言處理應用的一個難點與瓶頸,于是“分而治之”的組塊分析思想被提了出來[1]。即將句子劃分成功能相對獨立的片斷,用組塊間的關系代替完全句法分析中的詞間關系。句子組塊分析作為自然語言處理的預處理手段,在一定程度上能簡化句子結構、降低句法分析的難度和復雜度,為后續(xù)的完全句法分析提供輔助信息,在信息檢索、文本分類、機器翻譯和信息抽取中得到廣泛的應用。