房敏
摘要:最大分詞方法是一種基于統(tǒng)計的分詞方法,一個待分割的字符串有多種分詞結果,最大概率分詞的原則是將其中可能性的最大的那個詞語作為該字符串的分詞結果。本文主要圍繞最大概率分詞法,詳述了最大分詞法的算法思想,并且對算法的性能進行分析。
1 現(xiàn)有分詞方法概述
漢字的表達式以字為單位的,但是在自然語言處理中,詞是最小的,有意義的語言成分。中文分詞就是將沒有分割標志的字符串轉(zhuǎn)化為具有實際意義的詞串。由于漢字自動分詞在文本分類,信息檢索,信息過濾,文獻自動標引,摘要自動生成等中文信息處理中的關鍵技術,故對分詞算法的研究是十分有必要性的。
現(xiàn)有的分詞方法主要可以分為以下四類:基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計的分詞方法和基于語義的分詞方法。
2 簡述最大概率分詞方法
隨著近年來大規(guī)模語料庫的建立,機器學習方法的蓬勃發(fā)展,基于統(tǒng)計的中文分詞方法逐漸成為了主流分詞方法。最大概率分詞是一種最基本的統(tǒng)計分詞方法,假設Z=z1z2…zn是輸入的漢子串,W=w1w2…wn,是與之對應的可能的詞串,那么,漢語自動分詞可以看作是是概率P(W|Z)的最大的詞串。
3 最大概率分詞算法
1)得到一個待分詞的字符串,按照從左到右的順序取出全部候選詞 w1,w2…wn
2)在所建立的語料庫中查找每個候選詞的概率P(wi)
3)計算每個候選詞的累計概率(累積概率為前一個節(jié)點的累積概率與該節(jié)點的概率的乘積的最大者),同時保存得到每個候選詞的最佳的左鄰詞。
4)按照動態(tài)規(guī)劃的方法依次計算每個詞的最大累積概率,直到找到尾詞wn。
5)從wn開始,依次找尋其最佳左鄰詞,并按照從右到左的順序依次輸出這些詞匯,即S的分詞結果。
4 算法示例
對“結合成分子時”從左到右進行掃描,統(tǒng)計每個候選詞的累計概率值,并且記錄其最佳左鄰詞。
5 算法性能
最大概率法能夠發(fā)現(xiàn)切分歧義,但是很大程度上取決于統(tǒng)計語言模型的精度和決策算法,而且需要大量的標注材料。
參考文獻:
[1]自然語言處理基本理論和方法[M].哈爾濱工業(yè)大學出版社,2013.8.
[2]基于最大概率分詞算法的中文分詞方法研究[J].科技信息,2010
[3]李家福,張亞非一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學報,2002,14(5):544一550.