摘要:漢語(yǔ)詞性標(biāo)注技術(shù)在中文信息處理領(lǐng)域中占有十分重要的地位,本文主要對(duì)基于統(tǒng)計(jì)的詞性標(biāo)注技術(shù)進(jìn)行了研究,所實(shí)現(xiàn)的詞性標(biāo)注系統(tǒng)主要通過(guò)隱馬爾科夫模型對(duì)訓(xùn)練語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),獲取詞性和詞匯概率信息,并采用Viterbi算法進(jìn)行標(biāo)注,實(shí)驗(yàn)結(jié)果表明Bigram模型對(duì)不同領(lǐng)域具有一定的適應(yīng)性,取得了較好的標(biāo)注正確率。
關(guān)鍵詞:漢語(yǔ)詞性標(biāo)注隱馬爾科夫模型Bigram模型詞性排歧
“注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”。