敬 星
(貴州師范大學 大數(shù)據與計算機科學學院,貴州 貴陽 550001)
基于詞向量與CRF的命名實體識別研究
敬 星
(貴州師范大學 大數(shù)據與計算機科學學院,貴州 貴陽 550001)
文章提出了一種基于詞向量與CRF中文命名實體。核心觀點為:命名實體識別任務本質上為序列標注任務。常見的序列標注模型有HMM,MEMM,CRF。HMM模型是對轉移概率和表現(xiàn)概率建立模型。MEMM模型為將轉移概率與表現(xiàn)概率構建為聯(lián)合概率,統(tǒng)計為條件概率。MEMM經常為局部最優(yōu),原因是MEMM歸一在部分。CRF模型計算了整體概率,當歸一時,顧及信息在整體的出現(xiàn),所以避免了MEMM標記偏移的出現(xiàn)。
CRF 標注;轉移概率;條件概率
在統(tǒng)計自然語言處理領域,經常要面對的是序列標注問題:根據觀察值序列來確定其狀態(tài)序列。例如在詞性標注任務中,需要對每個詞標注其詞性。在這里,詞就是觀察值,而詞性就是觀察值的狀態(tài)。一個觀察值可能有多個狀態(tài),這個狀態(tài)是隱藏在觀察值下面不可見的。如何對整個觀察值序列進行建模,來求出最佳的觀察值序列,是統(tǒng)計自然語言處理經常要面對的一個決策問題。
在本文的命名實體識別實驗中,筆者將文本內容采用單字分割的方法。結合前人的研究成果,基于單個字的識別效果擁有很多的好處。第一,對文本內容的處理方便,只需要把文本進行字符分割就行。第二,實驗效果好,在命名實體識別系統(tǒng)中[1],將使用采用單個字的模型。采用詞的模型與采用類的模型進行了對比。把采用字的模型整體性能比另外兩種方法好。最后,可以防止不正確的分詞造成的錯誤。在實際的實驗過程中,采用B(開始),I(中間),E(結束),N(空),對每個處理字符進行表述,所以對人名、地名、機構名識別的任務定義了10種字符串的集合,L={BPER,I-PER,E-PER ,B-LOC ,I-LOC,E-LOC,B-ORG,I-ORG,E-ORG,N}。對于每個字符串的含義為:中文人名起始,中文人名中間,中文人名末,中文地名起始,中文地名中間,中文地名末,中文機構名起始,中文機構名中間,中文機構名末,空。
例如下面的一句話,“巴菲特是美國的慈善家”,依據前文描述筆者把它分割為原始字符,打標隊列:“巴……B-PER, 菲……I-PER,特……E-PER,是……O,美……B-LOC,國……E-LOC,的……O,慈……O,善……O,家……O。”此時的輸入序列為:
X={巴,菲,特,是,美,國,的,慈,善,家}
對應的標注序列為:
把人民日報1998年的文本資料通過上述方法處理就能得到可使用的訓練文本,文本由原始字符,打標隊列{i(x),j(y)}組成。
2.1 函數(shù)集合
函數(shù)集合在條件隨機場中作為一個關鍵的概念。筆者先通過訓練文本獲得函數(shù)fj=(yi-1,yi,x,i),接著再給不同的函數(shù)相應的權重。fj=(yi-1,yi,x,i)為狀態(tài)與轉移函數(shù)相結合的表達。該函數(shù)只有兩個函數(shù)值,為0或1。為了構建該函數(shù)的需要,筆者先定義原始文本上觀察特征b(x,i)的集合。該函數(shù)如公式1表示。
公式中b(x,i)代表實際值,出現(xiàn)某種情況是1,其余是0。
公式中wi="b"代表i的實際值是“b”,如果獲得了所有i位置的實際值的b(x,i),就能得到模型的函數(shù)集。對于i位置的實際值,在具體應用中會給合適的窗口。
2.2 條件隨機場的特征模板
特征模板是用來配置特征的。在CRF中,使用的特征函數(shù)是已知的,模型訓練的參數(shù)只是各特征的權重。因此你配置的是特征的位置關系,在訓練預料中出現(xiàn)的符合這個位置的,成為一個特征。根據你的特征模板,CRF++從訓練語料中得到了好多特征函數(shù),然后訓練得到各特征函數(shù)的權重。
每個模板都只考慮一種因素。
Y[-3,1],Y[-1,0],Y[1,1],Y[1,0],Y[-2,1],在括號內的首個數(shù)字代表窗口位置,末位數(shù)字代表特征種類。
2.3 確認模型參數(shù)
獲得CRF模型分為兩個階段,首先獲取特征函數(shù)集,最后確認模型里面的參數(shù)。
確認模型參數(shù)本質上就是獲取λ,λ是相應特征函數(shù)的權重,極大似然估計(MLE)通過似然函數(shù)獲取λ。
2.4 參數(shù)估計的訓練算法
本文實驗使用L-BFGS算法[2]進行模型訓練。
如GIS和IIS的迭代梯度算法為經典學習算法[3]。CRF模型符合最大熵原理,所以迭代梯度算法能夠適用CRF模型訓練,然而采用了L-BFGS算法,基于該算法獲取CRF模型比傳統(tǒng)方法迅速,并且比變化斜率方法效果更好[4]。
詞向量是深度學習的產物,它包含了豐富的句法、語義特征,同時由于詞向量的連續(xù)性,使得它能夠在原本離散的無關聯(lián)的詞與詞之間建立關系,更重要的是,在產生詞向量時,可以使用各種領域的語料來一起訓練,因而,詞向量具有領域獨立性,所以將詞向量特征使用到模型訓練中,可以讓模型具有更強適用性。
4.1 原始文本來源
該實驗選擇1998年1月《人民日報》公開文本用作原始數(shù)據。把該文本劃分為訓練文本和測試測試,其文本長度比例為4∶1。訓練文本的句子數(shù)目共21 569。
4.2 工具的選擇
word2vec 是一個使用比較廣泛的開源的詞向量生成工具包,它可以將輸入的分好詞的文本中的詞語轉換成向量的形式。條件隨機場的訓練和測試使用CRF++。CRF++可用于各種自然語言處理的問題,如命名實體識別、信息抽取、文本分塊等等。
4.3 實驗結果
實驗結果如表1所示,其中P,R,F(xiàn)分別表示精確率,召回率和F值。
表1 實驗結果數(shù)據
通過實驗發(fā)現(xiàn),使用條件隨機場進行命名實體識別實驗時準確率較高,但召回率比較低,認為是條件隨機場模型對訓練數(shù)據產生了一定程度的過擬合造成的。
[1]郭家清.基于條件隨機場的命名實體識別研究 [D].沈陽:沈陽航空工業(yè)學院,2007.
[2]WALLACH H. Conditional Random Field: An Introduction[D]. University of Pennsylvaania CIS Technical Report MS-CIS-04-21,2004 .
[3]ANDREWB A. Maximum Entrop Approach to Natural Language Processing[J].Computation Linguistics,1996(1):39-72.
[4]JAYNES E T.Information Theory and Statistical Mechanics[J].Physics Reviews,1957(106):620-630.
Research on named entity recognition based on word vector and CRF
Jing Xing
(Data and Computer Science College of Guizhou Normal University, Guiyang 550001, China)
In this paper, a Chinese named entity based on word vector and CRF is proposed. The key point of this paper is: named entity recognition task is essentially a sequence tagging task. Common sequence annotation models includes HMM, MEMM, CRF. HMM model is a model of the transition probability and performance probability. The MEMM model is a model for the transition probability and the performance probability. The MEMM model is to construct the transition probability and the probability of expression as the joint probability, which is statistics of the conditional probability. Often MEMM is the local optimum, for MEMM is part normalization. CRF model calculated the overall probability, when normalization, taking into account the emergence of information in the whole, so avoid the emergence of MEMM mark offset.
CRF annotation; transition probability; conditional probability
敬星(1990— ),男,四川南部,碩士;研究方向:自然語言處理。