周 云,王 挺,易綿竹,張祿彭,王之元,4
(1. 國防科技大學 計算機學院,湖南 長沙 410073; 2. 解放軍外國語學院 國防語言文化研究所,河南 洛陽 471003;3. 解放軍外國語學院 歐亞語系,河南 洛陽 471003; 4. 國防科技大學 并行與分布處理國家重點實驗室,湖南 長沙 410073)
詞義消歧,即在特定的上下文中確定歧義詞的詞義。根據(jù)詞義消歧的范圍,可將其分為詞樣消歧(Lexical-Sample WSD)和全詞消歧(All-Words WSD)。詞樣消歧對給定文本中的某些指定詞進行消歧,而全詞消歧對給定文本中的所有開放詞(包括名詞、動詞、形容詞和副詞)進行消歧。詞樣消歧是一個典型的分類問題,可使用各種成熟的有監(jiān)督分類算法,如樸素貝葉斯[1]、最大熵算法[2]和支持向量機[3]等。對于全詞消歧,目前通常的做法是將其當作詞樣消歧,對句中出現(xiàn)的每個開放詞逐個進行消歧,各個詞之間的消歧是獨立的。但是,全詞消歧中前后兩個詞的消歧實際上是相互關聯(lián)的,全詞消歧可以看作一個序列標注問題。
序列標注指的是對觀察值序列的每個成員指定一個類別標簽,因此序列標注可視為一系列的分類任務。由于序列標注利用相鄰元素的依賴性對整個序列進行全局優(yōu)化,一次性為所有觀察值給出標簽,因而標注性能通常會得到提升。常用的序列標注算法有隱馬爾可夫模型(Hidden Markov Model, HMM)[4]、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)[5]和條件隨機域[6]等。雖然HMM等序列標注方法在一些自然語言處理任務中取得了突出的成績,如詞性標注[7]和語音識別[8]等,但在詞義消歧中的結果卻并不理想[9-13]。這可能是由于:第一,HMM的觀察值只能是詞形,難以有效利用各類語言學特征;第二,全詞消歧是一個超大狀態(tài)問題,序列標注方法存在嚴重的數(shù)據(jù)稀疏問題,并且具有很高的時間復雜度。
針對上述問題,本文提出兩種基于序列標注的全詞消歧方法,主要貢獻如下:(1)提出了一種基于HMM的全詞消歧方法;(2)將基于HMM的方法推廣為基于MEMM的全詞消歧方法,將觀察值由詞形擴展為特征向量,引入了大量的語言學特征;(3)通過柱狀搜索和平滑策略解決上述模型中存在的數(shù)據(jù)稀疏問題,在解決數(shù)據(jù)稀疏問題的同時,柱狀搜索還顯著降低了解碼的時間復雜度;(4)在Senseval數(shù)據(jù)集上對序列標注方法進行了系統(tǒng)的評測。
本文結構安排如下。第二節(jié),我們給出一種基于HMM的全詞消歧方法。第三節(jié),我們將模型推廣為MEMM模型,將觀察值擴展為若干特征構成的向量,這些特征包括鄰近詞詞性、局部搭配關系、依存句法關系、WordNet上位詞鏈、WordNet語義標簽、WordNet動詞框架和詞袋等。針對序列標注方法存在的數(shù)據(jù)稀疏和很高的時間復雜度等問題,在第四節(jié)我們設計了平滑策略和柱狀搜索Viterbi算法加以解決。第五節(jié),我們在Senseval-2和Senseval-3上對HMM和MEMM方法進行了評測,并與以往的序列標注方法的性能進行了對比。第六節(jié),我們總結全文并討論下一步工作。
HMM是一個經(jīng)典的數(shù)學模型[4],它一般用以解決評估、序列標注(也稱為解碼)和學習等三個問題,這三個問題分別可用前向算法(或后向算法)、Viterbi算法和前向—后向算法解決。在本文中我們主要關心序列標注問題和Viterbi算法。
HMM包含兩個隨機過程Qt,Qt,1≤t≤T,和五個模型參數(shù)S,V,A,B,π除特殊說明外,本文均沿用文獻[4]中的符號)。其中,(1)S={s1,s2,…,sN}為狀態(tài)集合;(2)V={v1,v2,…,vM}為觀察值集合;(3)A={aij},aij=P(Qt+1=sj|Qt=st),1≤1,j≤N為狀態(tài)轉移概率矩陣;(4)B={bj(k)},bj(k)=P(Qt=vk|Qt=sj),1≤j≤N,1≤k≤M為狀態(tài)—觀察值發(fā)射概率矩陣;(5)π={πi},πi=P(Q1=si),1≤i≤N為狀態(tài)初始分布概率向量。
(1)
這個問題可通過稱為Viterbi算法的動態(tài)規(guī)劃方法加以解決,其時間復雜度為O(TN2)。
基于HMM的全詞消歧模型需要選擇合適的狀態(tài)集合S和觀察值集合V。狀態(tài)集合S的選擇有多種,我們直接取訓練集中出現(xiàn)過的synset作為狀態(tài)集S的一部分。由于封閉詞的個數(shù)是有限的,我們令每個封閉詞為一個狀態(tài)。另外,對于某些特殊的詞類(子類),我們認為它們的成員對于詞義消歧而言是等價的,因而將它們整體作為一個狀態(tài),這有利于緩解數(shù)據(jù)的稀疏性,這包括人名、地名、組織名、其他專有名詞、序數(shù)詞、屬格代詞、聯(lián)結詞和情態(tài)動詞。觀察值集合V的選擇也有多種,我們以詞條(lemma)和詞性的字符串連接作為觀察值??捎米饔^察值的有:詞、詞條、詞與詞性的字符串連接或詞條與詞性的字符串連接等。文獻[13]的實驗結果表明,詞與詞性的字符串連接作為輸入效果較好,我們沿用這一作法。A,B,π均由訓練集作最大似然估計得到。
McCallum等人在文獻[5]中將HMM改造為MEMM,其不同之處在于:(1)觀察值的擴充。HMM的觀察值集合一般只能為一個有限的詞表;而MEMM對原始觀察值抽取若干個非獨立特征,構成特征向量,然后根據(jù)特征向量計算給定觀察序列的狀態(tài)序列的條件概率; (2)由生成模型到條件模型。在HMM中,當前狀態(tài)僅依賴于前一狀態(tài)(馬爾可夫性);在MEMM中,當前狀態(tài)不僅依賴于前一狀態(tài),還依賴于當前特征向量。
在MEMM中,狀態(tài)轉移概率和狀態(tài)—觀察值發(fā)射概率被一個統(tǒng)一的新的概率Pqt-1(Qt-qt+Ot=ot)=P(Qt=qt|Ot=ot,Qt-1=qt-1)所代替,即在前一狀態(tài)為qt-1且當前特征向量為ot時,當前狀態(tài)為qt的概率。Pqt-1(Qt=qt|Ot=ot)可用某些帶概率輸出的機器學習算法進行訓練得到,如最大熵算法、樸素貝葉斯算法和支持向量機等。最早提出該模型的文獻[5]采用了最大熵算法,MEMM模型因此得名。
MEMM模型的要素為S,V,M,π。其中,(1)S={s1,s2,…,sN}為狀態(tài)集合;(2)V={v1,v2,…}為由觀察值抽取的特征向量構成的集合;(3)M={Pqt-1(Q1=qt|Ot=ot},qt∈S,ot∈V},qt-1∈S為概率模型集合;(4)π={PBegin(Q1=q1|O1=o1),q1∈S,o1∈V}為初始概率模型。在MEMM中,序列標注問題為也可通過Viterbi算法加以解決,它與HMM的Viterbi算法是十分類似的。
在基于MEMM的全詞消歧模型中,狀態(tài)集合S與HMM的狀態(tài)集合S相同。特征向量集合V中的元素為由原始觀察值抽取的特征向量構成的集合。我們以文獻[2,14]中的特征為基礎,設計了以下七類特征:(1)鄰近詞的詞性;(2)局部詞形搭配關系;(3)依存句法關系;(4)特定范圍內的WordNet上位詞(hypernym)鏈;(5)特定范圍內的WordNet語義標簽;(6)特征范圍內的WordNet動詞框架;(7)句中的各個單詞構成的詞袋。上述特征的詳細解釋及例子見附錄A。對于每一個概率模型Pqt-1(Qt=qt|Ot=ot),我們通過將訓練集中緊接在qt-1后面的所有狀態(tài)-特征向量對(qt,ot)收集起來,然后用最大熵算法進行訓練,就得到了模型Pqt-1(Qt=qt|Ot=ot)。對于初始概率模型PBegin(Q1=q1|O1=o1),我們則收集句首的狀態(tài)—特征向量對即可。
如前所述,序列標注一般通過Viterbi算法解決。全詞消歧作為一個超大狀態(tài)問題,上述兩個模型均存在嚴重的數(shù)據(jù)稀疏問題,同時還具有過高的時間復雜度。下面提出的柱狀搜索Viterbi算法和平滑策略,解決了數(shù)據(jù)稀疏的問題。另外,柱狀搜索在解決數(shù)據(jù)稀疏問題的同時,還顯著地降低了解碼的時間復雜度。
在全詞消歧的HMM模型中,發(fā)射概率矩陣是十分稀疏的。狀態(tài)空間S的非常大,包括訓練集中出現(xiàn)過的synset及封閉詞等,其規(guī)模約為數(shù)萬。然而,一個觀察值ot(lemma)對應的狀態(tài)數(shù)(synset數(shù))卻是十分有限的,至多為數(shù)十個。為解決這個問題,我們采用柱狀搜索Viterbi算法進行解碼。我們將觀察值ot對應的狀態(tài)集合記為stateSet(ot),在Viterbi算法迭代的每一步,只搜索stateSet(ot),而不是整個狀態(tài)空間,即
這不僅有效地解決了發(fā)射概率矩陣稀疏問題,還顯著地降低了解碼的時間復雜度。通常,Viterbi算法的時間復雜度為O(TN2),其中,T為待消歧句子的長度,N為狀態(tài)空間S的大小。在HMM方法中,由于N的值非常大,該算法的實際運行時間是難以承受的。使用柱狀搜索后,Viterbi算法的時間復雜度由O(TN2)降為其中Smax為一個lemma最多可能對應的synset數(shù)。MEMM的柱狀解碼與此十分類似,本文從略。
在全詞消歧的HMM模型中,轉移概率矩陣也是稀疏的。Viterbi算法計算概率的乘積,若轉移概率為0,則乘積結果為0,無法比較結果的大小。為了避免整個乘積的結果為0,我們必須采用某種平滑策略。在HMM中,轉移概率矩陣A中元素aij的極大似然估計為其中C(sisj)表示在訓練集中sisj出現(xiàn)的次數(shù)。我們令aij平滑后的值為:
其中,I(·)為指示函數(shù),表示觀察值v(lemma)對應的狀態(tài)(synset)數(shù),F(xiàn)(sj)表示sj對應的synset在WordNet中出現(xiàn)的頻數(shù)。上述公式的直觀含義是,我們假設si的轉移概率中有1-γ出現(xiàn)在訓練集中,有γ未出現(xiàn)在訓練集中;對于未出現(xiàn)在訓練集中的sj,若sj∈Synsets(v),我們令其概率與其對應的synset在WordNet中出現(xiàn)的頻數(shù)F(sj)成正比;對于所有未出現(xiàn)在訓練集中的sj,若sj?Synsents(v),我們令其概率均相等。在我們的實驗中,γ=0.999。
對于MEMM模型,我們令Psi(sj|v)平滑后的值為:
式(3)的直觀含義與式(2)類似。
在Senseval/Semeval出現(xiàn)之前,曾有少數(shù)學者嘗試用HMM等序列標注方法進行全詞消歧,如Segond等人[9]采用HMM進行全詞標注,其標記為WordNet的45個語義標簽;Loupy等人[10]采用一種集成了語義標簽和詞義的混合HMM進行全詞標注。但由于上述研究并未使用通用測試集,其結果并不具有可比性。
Senseval/Semeval(2007年之前稱為Senseval)是目前國際上最權威的詞義消歧評測,我們的測試集來自Senseval-2(2001)[15]、Senseval-3(2004)[16]的English All Words任務,表1給出了這些任務的基本信息。
English All Words為開放測試,只提供測試集,對訓練集沒有限制。我們僅使用了SemCor[17]的Brown1和Brown2作為訓練集,包含359 732個詞(不含標點),其中192 639個詞有詞義標注。對于訓練集中不存在的觀察值,我們使用WordNet中的最常用詞義進行標注。MEMM方法采用GIS算法訓練最大熵模型,迭代次數(shù)為100。表2給出了參加英語全詞消歧任務系統(tǒng)的性能(F1值)。
表1 英語全詞消歧任務基本信息
English All Words對訓練集沒有限制,因此對不同系統(tǒng)的比較是十分困難的,下面我們試圖對實驗結果作出一些說明。
首先,本文提出的MEMM方法的性能顯著高于相同數(shù)據(jù)集上的其他序列標注方法,包括本文提出的HMM方法。這證明了將簡單觀察值擴展為復雜的特征向量確實是有效的, 這得益于大量語言學特征的引入。
表2 參加英語全詞消歧任務的系統(tǒng)性能(F1值)
其次,在僅采用SemCor作為訓練集的情況下,本文提出的MEMM方法也超過了Senseval-2的第2名和Senseval-3的第1名。其中,Senseval-2的第2名[19]采用了基于記憶的方法,并使用多個分類器進行投票;Senseval-3的第1名[20]也采用了基于記憶的方法,它的訓練集包括SemCor,Senseval-2的數(shù)據(jù)以及WordNet中的例子。這說明序列標注方法完全可以用于全詞消歧,并且性能與最好的有監(jiān)督方法相當。我們看到,本文MEMM方法與Senseval-2的第1名[18]還有一定的差距,部分原因是文獻[18]采用了很多SemCor以外的數(shù)據(jù),如WordNet中的定義和互聯(lián)網(wǎng)收集的數(shù)據(jù)等。
在Senseval-2中,Crestan等人[11]采用兩階段HMM進行全詞消歧。第一階段先通過HMM確定詞形的語義標簽,第二階段再用HMM確定詞形+語義標簽的詞義,另外還對高頻詞采用詞樣消歧的方法進行消歧。就性能而言,這種兩階段HMM方法與與單一HMM方法相當[10],在本實驗中也得到了證實。
在Senseval-2和Senseval-3中,Molina等人[12-13]采用HMM進行全詞消歧,其狀態(tài)為SemCor中的lex_sense[17]。這相當于對synset進行了壓縮,其好處在于使狀態(tài)數(shù)減少,從而緩解矩陣稀疏的問題。但是,我們認為這種壓縮并不具備語言學基礎,有可能造成算法的不穩(wěn)定性,而且難以將HMM擴展為MEMM。實驗表明,本文的HMM方法以synset為狀態(tài)是合適的,其性能要略好于以lex_sense為狀態(tài)的文獻[12-13],且具備良好的可擴展性。
全詞消歧可以看作一個序列標注問題。然而,現(xiàn)有序列標注方法在全詞消歧上的表現(xiàn)卻不盡如人意,主要原因在于特征的有效利用和數(shù)據(jù)稀疏問題。本文從全詞消歧的特點出發(fā),針對上述不足,提出了兩種基于序列標注的全詞消歧方法,并采用柱狀搜索和平滑策略解決了數(shù)據(jù)稀疏和高時間復雜度等問題,其中基于MEMM的全詞消歧方法的性能較大幅度地超過了文獻中已有的基于序列標注的方法。由于本文僅使用了基本的訓練語料,本文提出的方法的實際性能還有進一步提高的空間。實際上,本文提出的方法可適用于一般的超大狀態(tài)序列優(yōu)化問題。
無論是一般的分類問題還是序列標注,特征選擇都是至關重要的,下一步我們將研究各種特征對整體性能的影響,以便更好地改進算法。另外,條件隨機域(CRF)是近來出現(xiàn)、在多個領域均有突出表示的序列標注方法。CRF是HMM和MEMM的推廣,一般認為CRF的效果要比HMM和MEMM好。但是,CRF訓練的時間復雜度比HMM和MEMM要高得多,一般只用于狀態(tài)數(shù)較少(一般數(shù)百個狀態(tài)以內)的場合。對于全詞消歧這類含有數(shù)萬個狀態(tài)的問題,即使在采用柱狀搜索算法后,CRF的訓練仍然不可能在普通的工作站上完成,我們下一步將嘗試采用集群計算的方式來解決這個問題。
[1] Mooney R. J. Comparative experiments on disambiguating word senses: An illustration of the role of bias in machine learning [C]//Proceedings of the 1996 Conference on Empirical Methods in Natural Language Processing (EMNLP). 1996. 82-91.
[2] Tratz S., Sanfillippo A., Gregory M., et al.PNNL: A supervised maximum entropy approach to word sense disambiguation [C]//Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007). Stroudsburg, PA, USA, 2007. 264-267.
[3] Escudero G., M rquez L., Rigau, G. On the portability and tuning of supervised word sense disambiguation [C]//Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP). 2000. 172-180.
[4] Lawrence R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [C]//Proceedings of the IEEE. 1989. 257-286.
[5] Andrew McCallum, Dayne Freitag, Fernando Pereira. Maximum Entropy Markov Models for Information Extraction and Segmentation [C]//Proceedings of the 17th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2000. 591-598.
[6] John Lafferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2001. 282-289.
[7] El-B ze M., M rialdo B.. HMM Based Taggers [C]//H. Van Halteren eds. Syntactic Wordclass Tagging. Kluwer Academic Publishers, 1999.
[8] F. Jelinek. Statistical Methods for Speech Recognition [M]. Cambridge: MIT Press, 1998.
[9] Segond F., Schiller, A., Grefenstette, G., et al. An Experiment in Semantic Tagging using Hidden Markov Model Tagging [C]//Proceedings of the Joint ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources. Stroudsburg, PA, USA, 1997. 78-81.
[10] Claude de Loupy, MarcEl-Beze, Pierre-Fran ois Marteau. Word Sense Disambiguation using HMM Tagger [C]//Proceedings of the 1st International Conference on Language Resources and Evaluation (LREC). Granada, Spain, 1998. 1255-1258.
[11] E. Crestan, M. El-Beze, C. De Loupy. Improving WSD with Multi-Level View of Context Monitored by Similarity Measure [C]//Proceedings of the 2nd International Workshop on Evaluating Word Sense Disambiguation Systems. Toulouse, France, 2001. 67-70.
[12] Antonio Molina, Ferran Pla, Encarna Segarra. A Hidden Markov Model Approach to Word Sense Disambiguation [C]//Proceedings of the 8th Ibero-American Conference on AI: Advances in Artificial Intelligence. Longdon, UK: Springer-Verlag. 2002. 655-663.
[13] Antonio Molina, Ferran Pla, Encarna Segarra. WSD system based on Specialized Hidden Markov Model [C]//Proceedings of the Third International Workshop on the Evalution of Systems for the Semantic Analysis of Text, 2004.
[14] Yoong Keok Lee, Hwee Tou Ng. An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA, 2002. 41-48.
[15] Edmonds P., Cotton S. Senseval-2: Overview [C]//Proceedings of the 2nd Internationnal Workshop on Evaluating Word Sense Disambiguation Systems. 2001. 1-6.
[16] Benjamin Snyder, Martha Palmer. The English All-Words Task [C]//Proceeding of Senseval-3: The 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona, Spain, 2004. 41-43.
[17] Miller G.A., Chodorow M., Landes S., et al. Using a Semantic Concordance for Sense Identification [C]//Proceedings of the ARPA Workshop on Human Language Technology. Stroudsburg, PA, USA, 1994. 240-243.
[18] Mihalcea R. Word sense disambiguation with pattern learning and automatic feature selection [J]. Natural Language Engineering, 2002,8(4):348-358.
[19] Hoste V., Hendrickx I., Daelemans W., et al. Parameter optimization for machine learning of word sense disambiguation [J]. Natural Language Engineering, 2002,8(4):311-325.
[20] Decadt B., Hoste V., Daelemans W., et al. GAMBL, genetic algorithm optimization of memory-based WSD [C]//Proceedings of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. 2004. 108-112.
[21] Mihalcea R., Faruque E. Senselearner: Minimally supervised word sense disambiguation for all words in option text [C]//Proceedings of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. 2004. 155-158.
MEMM模型與一般HMM的最大不同,就是語言學特征的使用。相對于lemma而言,特征的引入可以捕獲目標詞的上下文中的各類語言學特征,有利于對目標詞義的消歧。這些特征主要包括七類: 鄰近詞的詞性、局部搭配關系、依存句法關系、特定范圍內的上位詞(hypernym)鏈、特定范圍內的WordNet語義標簽、特征范圍內的WordNet動詞框架和句中的各個單詞。
我們用Pi(P-i)表示當前詞w右(左)邊第i個詞的詞性,使用以下七個特征:P-3,P-2,P-1,P0,P1,P2,P3。所有的詞不能跨越句子的邊界。例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”,當前詞為bars,則它的鄰近詞詞性特征為
我們用Ci,j表示當前詞的從第i個詞到第j個詞的詞條的字符串連接,使用以下11個特征:C-1,-1,C1,1,C-2,-2,C2,2,C-2,-1,C-1,1,C1,2,C-3,-1,C-2,1,C-1,2,C1,3。 例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”,當前詞為bars,則它的C-2,1特征為the_iron_bar_.。
該特征假設當前詞的語義與和其有直接依存關系的詞有關,這在某種程度上反映了語義的長距離(句法)依賴關系。依存句法假設,句法結構是用非對稱的二元關系將詞連接而成的。這種二元關系稱為依存關系,被支配的詞稱為依賴詞(dependent),另一個詞則稱為頭詞(head)。我們使用以下特征: 當前詞w的頭詞h的詞條,h與w的依存關系類型,h的詞性,h與w的相對位置(h在w的左邊還是右邊);當前詞w左邊最近的依賴詞l的詞條,l與w的依存關系類型,l的詞性;當前詞w右邊最近的依賴詞r的詞條,r與w的依存關系類型,r的詞性。例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”, 其依存關系見圖A1,當前詞為looking,則它的依存句法關系特征為
圖A1 依存關系
特定范圍,指目標單詞的前后三個鄰近詞及依存關系鏈三步以內的詞,下同。上位詞從WordNet中抽取,我們包含給定范圍內的詞的最常用詞義(MFS, Most Frequent Sense)的整個上位詞鏈。例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”,當前詞為looking.looking的前后三個鄰近中具有上位詞的詞有saw和iron,而looking的三步以內依存關系鏈中具有上位詞的詞有iron和bars,則共有saw,iron和bars三個單詞具有上位詞鏈,他們分別為
語義標簽從WordNet中抽取,我們包含給定范圍內的詞的最常用詞義的語義標簽。例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”,當前詞為looking。特定范圍內具有語義標簽的詞為saw,iron和bars,則語義標簽特征為
動詞框架從WordNet中抽取,我們包含給定范圍內的詞的最常用詞義的動詞框架。例如,句子”Reid/NNP saw/VBD me/PRP looking/VBG at/IN the/DT iron/NN bars/NNS ./.”,當前詞為looking。特定范圍內具有動詞框架的詞為,則動詞框架特征為<2,8,9>。在WordNet中框架號2表示句式”Somebody——s”,框架號8表示句式”Somebody——s something”,框架號9表示句式”Somebody——s somebody”。
我們直接將句中的每個單詞作為當前觀察值的一個特征。