鄭敏潔,雷志城,廖祥文,陳國龍
(1. 福州大學 物理與信息工程學院,福建 福州 350108;2. 福州大學 數(shù)學與計算機科學學院, 福建 福州 350108)
近年來,隨著博客、論壇、微博等網(wǎng)絡媒介的迅猛發(fā)展,文本主觀信息的抽取[1-2]逐步成為自然語言處理和信息檢索等領域中的一個熱點問題,而評價對象的抽取作為信息抽取中重要的一個研究課題,在電子商務、信息安全等領域具有重要的實用價值,引起了廣泛關注。評價對象是指評論所針對的對象或對象的屬性,如“筆記本電腦很方便?!边@個觀點句的評價對象是“筆記本電腦”,“方便”則是修飾“筆記本電腦”這一評價對象的評價短語(opinion expression)。如何準確全面地識別出中文句子的評價對象是一個難點問題。
關于評價對象抽取,國內(nèi)外已經(jīng)開展了很多的研究工作。其中Li等[3]、Xu等[4]和Zhu[5]等均通過構造啟發(fā)式關聯(lián)規(guī)則進行抽取。該方法由領域專家構造抽取規(guī)則,以進行模式匹配。構造的規(guī)則易于理解,但是很難保證規(guī)則的完備性和系統(tǒng)性,而且規(guī)則的領域相關性較高,系統(tǒng)的移植性較差。
此外,另外一種很重要的方法是基于自然語言處理(natural language processing, NLP)的方法。Hu等[6-7]、劉鴻宇等[8]、Lu等[9]、Ma等[10]通過對語料進行語法分析進行抽取,Kim等[11]在抽取句子成分時采用了語義角色標注的方法。NLP的方法對于大規(guī)模的結構化文本測試效果較好,但在缺少語法結構或者語法結構復雜的非結構化文本和半結構化文本中表現(xiàn)則略顯不足。
與以上兩種方法相對的是基于統(tǒng)計模型的方法,該方法通過對抽取問題建立相應的數(shù)學模型進行抽取,根據(jù)所建立模型的自動化程度可分為非監(jiān)督和監(jiān)督兩種。其中Jin等[12]通過自舉方法實現(xiàn)語料的半自動標注,并使用Lexical-HMM分類器進行“觀點實體”和“產(chǎn)品特征實體”的抽??;而宋曉雷等[13]則在模糊匹配并剪枝之后通過自舉、聚類等方法等進行抽?。籕iu等[14]采用雙向傳播(Double Propagation)的方法進行觀點詞的擴充和評價對象的抽取。非監(jiān)督的方法無需人工標注大量語料,但是準確率有待提高。與非監(jiān)督的機器學習方法相對的,監(jiān)督的機器學習方法雖然需要事先對語料進行標注,但準確率較高,泛化能力較好。其中Kim等[15]、Somprasertsri等[16-17]、章劍峰等[18]在抽取中采用了最大熵模型,Xia等[19]則提出一種意見目標網(wǎng)絡的方法用于提取名詞術語。除此之外,評價對象抽取中經(jīng)常采用條件隨機場(Conditional Random Fields, CRFs)模型[20],該模型解決了最大熵等模型普遍存在的標記偏置問題(label bias problem),而且作為條件模型相對HMM等生成模型無需非常嚴格的獨立性假設,可以靈活地引入多種特征。Jakob等[21]在英文評價對象抽取中采用線性鏈結構的CRFs模型;針對中文的語料,徐冰等[22-23]、王中卿等[24]、張莉等[25]、Ding等[26]均采用了線性鏈結構的條件隨機場模型,并融合了詞、詞性、句法結構、本體知識等特征,取得了較好的結果。
綜上所述,目前國內(nèi)外研究中基于線性鏈CRFs模型的評價對象抽取方法取得較好的效果,但對于中文評價對象的抽取仍存在以下問題:
1) 當中文句子的評價對象是復合短語時,無法有效識別。復合短語是指評價對象經(jīng)常嵌套多個名詞、代詞或動名詞。評價對象是復合短語時,抽取較為困難。一方面,中文的詞與詞之間沒有明顯的邊界標記符,這些被嵌套的詞可能與上下文的詞組合成復合詞,造成抽取出的評價對象的邊界不準確;另一方面,詞性是判斷評價對象的一個重要的特征,而中文的語法特點導致某些詞的詞性被誤判,從而干擾評價對象抽取的效果。對于復合詞評價對象的情況,線性鏈條件隨機場無法準確地進行判斷,經(jīng)常只抽取出正確評價對象的一部分。
2) 評價對象中的未登錄詞情況無法很好處理。由于中文的特點及語料規(guī)模的限制,某些評價對象在語料中較少出現(xiàn),導致在抽取過程中該詞串判定為評價對象的權重低,無法有效抽取,導致部分句子無法識別出任何的評價對象。
針對以上問題,本文提出基于層疊條件隨機場的中文句子評價對象抽取方法, 以有效抽取中文復合名詞評價對象及未登錄評價對象。首先通過低層線性鏈條件隨機場模型得到候選的評價對象集;然后針對候選評價對象集中復合詞識別錯誤等問題通過降噪模型過濾處理,利用補充模型對因詞語未登錄等原因缺失候選任務評價對象的句子標識出一些可靠的候選評價對象,并通過合并模型對復合詞候選評價對象進行合并;最后將處理之后得到的候選評價對象集輸入到高層條件隨機場模型,由高層模型識別出最終的評價對象。
本文主要結構如下: 第2節(jié)介紹基于層疊條件隨機場的評價對象抽取方法,第3節(jié)為實驗結果與分析,第4節(jié)是結論。
條件隨機場模型CRFs是John Lafferty和Andrew McCallum[20]提出的一種無向圖的模型,在中文分詞、命名實體識別(Named Entity Recognition)、歧義消解等漢語自然語言處理任務中都有應用,并有著良好表現(xiàn)。但是對于復合詞評價對象識別精度差,對于未登錄詞識別效果存在缺陷。層疊條件隨機場模型(Cascaded CRFs, CCRFs)按層疊加建立起多個層次的條件隨機場模型,多個模型之間呈線性組合。通過低層模型識別出初步結果,進行過濾和整合,處理初步結果中存在的復合詞識別錯誤、未登錄詞等情況,將處理后的識別結果輸入到高層,為高層條件隨機場提供決策支持。其中劉康等[27]將層疊條件隨機模型用于句子褒貶性的分析,而周俊生等[28]、楊曉東等[29]、郭劍毅等[30]在命名實體識別任務中也采用了該模型。層疊條件隨機場模型如圖1所示。
圖1 層疊條件隨機場的無向圖結構
其中tk(yi-1,yi,x,i),sk(yi,x,i)是特征函數(shù),λk,μk是其對應的權重,由訓練樣本學習得到,Z(x)是歸一化因子,定義如下:
Z(x2)是其對應的歸一化因子。
條件隨機場模型一個重要的特點就是可以靈活地定義各種特征,用特征集合及其權重擬合樣本的規(guī)律,以構建相應的模型。評價對象抽取的構成方式非常復雜,從評價對象的詞性來看,大多數(shù)的評價對象是名詞、代詞或者名詞短語,但也存在動詞、從句等各種情況,因此本文考慮了詞性特征。另一方面,在一些句子中,評價對象與相應的評價短語經(jīng)常成對出現(xiàn),而且通常存在著語法的依賴關系,如“諾基亞N96很炫”,評價對象“諾基亞N96”與評價短語“炫”存在著語法上的依賴關系,故本文在引入上下文名詞特征的同時考慮了語法依賴特征。針對上述特點,本文定義了如下的特征,如表1所示。
表1 評價對象抽取采用的特征
詞性特征有助于識別出名詞、代詞,為評價對象抽取提供詞串之外的更多幫助信息。引入語法依賴特征可以識別與評價短語存在依賴的短語。實驗過程中,由于語料中存在一個句子包含多個評價短語的情況,有些評價短語較長,包含多個Token,造成與評價短語存在直接語法依賴的詞串較多,產(chǎn)生噪聲,所以本文在使用該特征時對一些情況進行了過濾,如連詞、助詞等較不可能是評價對象中的詞。對于語法依賴特征本文進行如此表示: Ex表示該Token是評價短語,Dln表示該Token與評價短語存在直接語法依賴,no_Dln表示不存在直接的語法依賴。語法依賴可以有效引入某些評價短語與評價對象之間存在的關系,但由于很多情況評價短語與評價對象無直接依賴關系,因此利用評價對象有較大可能是名詞、代詞或復合名詞這一特點,將離評價短語最近的名詞、代詞或名詞短語標識出來作為一個特征Wrd,本文使用O_E表示評價短語,nn_Noun表示的是評價短語上下文中最為接近的名詞(包含復合名詞),other表示其他。
對于層疊條件隨機場,本文在低層模型和高層模型中采用同樣的特征窗口,窗口大小均是[-3, 3],根據(jù)之前已開展的針對詞、詞性、句子傾向性、語法依賴關系、鄰近名詞等特征在中文評價對象抽取效用的研究,采用Token+Pos+Dln+Wrd的特征組合抽取出的結果在準確率和召回率上都是最優(yōu)的。因此,本文在低層模型中使用Token+Pos+Dln+Wrd特征組合以獲取候選評價對象,在高層模型中除了以上4個特征,本文將經(jīng)過中間層處理的候選評價對象的識別結果作為一個特征輸入。表2是模型采用的特征模板,其中Tn代表詞串本身特征,Pn代表詞串的詞性特征,Dn表示詞串的Dln特征,Wn表示詞串的上下文特征, Ln表示詞的標簽。
表2 評價對象抽取特征模板
本文在低層和高層模型中使用的是相同的訓練語料,選擇不同的特征,由此可能產(chǎn)生過擬合問題,因此我們在底層與高層模型中增加了中間層模型。由低層條件隨機場識別出來的候選評價對象集,在復合詞識別等方面存在錯誤,如果不進行處理,這些錯誤將輸入到高層條件隨機場模型中,經(jīng)過高層模型擴散和傳播,形成噪聲,影響抽取的準確率。同時,低層條件隨機場并未能完全抽取出全部的候選評價對象,而高層模型又依賴候選評價對象的抽取結果,這將導致高層模型無法抽取出更多正確的評價對象,影響抽取的召回率?;谏鲜隹紤],本文提出以下3個中間層的處理模型:
2.3.1 降噪模型
該模型主要針對低層CRFs輸出的候選評價對象集中復合詞識別錯誤等進行過濾和調(diào)整,防止錯誤的擴散和傳播。該模型主要基于以下規(guī)則:
1) 過長候選評價對象的過濾: 通過對語料的觀察發(fā)現(xiàn),評價對象的長度大部分在1~3個Token之間(分完詞的結果),因此對于低層模型識別出的候選評價對象中長度超過一定閾值(4個(不含4個)的Token)的,統(tǒng)計其在語料中出現(xiàn)的次數(shù),如其出現(xiàn)頻率過低,則刪除;否則保留。
2) 過遠候選評價對象的過濾: 對于中文的句子,評價短語經(jīng)常與評價對象存在一定關聯(lián),如評價對象一般與評價短語出現(xiàn)在同一個分句中,或者在相鄰分句相近位置,雖然有時評價對象和評價短語距離較遠,但這種情況較少。因此計算候選評價對象離評價短語的距離(有多個評價短語情況下取最近的一個),如果距離大于句子長度的一半,且該候選評價對象出現(xiàn)的次數(shù)小于一定閾值,則判定其為錯誤的候選評價對象,進行過濾。
3) 標點的過濾: 評價對象包含的標點主要有書名號,引號等,如《哈利波特》等電影名字等,對于除書名號、引號等之外的標點符號,如該標點符號單獨出現(xiàn)(非小數(shù)點等情況),則進行過濾。
4) 停用詞的過濾: 在中文句子中,有一些詞成為評價對象的可能性極小,如“而且”、“了”(單獨作為詞串出現(xiàn))等。本文構建了一個停用詞表,將包含這些停用詞的候選評價對象作為噪聲過濾。
5) 評價短語的過濾: 在標注時,評價短語與評價對象是獨立存在的,因此評價短語作為候選評價對象的情況也作為噪聲過濾。
2.3.2 補充模型
該模型主要針對某些句子中未識別出任何候選評價對象的情況,按照一定的規(guī)則自動標識出可能的候選評價對象。由于低層模型無法識別出所有句子的候選評價對象,同時經(jīng)過降噪模型的處理,某些候選評價對象又被作為噪聲排除,導致許多句子未能標識出任何候選評價對象,而候選評價對象的識別結果作為高層模型的一部分輸入,又很大程度上影響了最后的識別結果,因此需要對無候選評價對象的句子進行處理。實驗中對于分詞后句子所包含的詞數(shù)(token)進行統(tǒng)計得出句子的長度,對于長度不同的句子采取相應的處理規(guī)則,規(guī)則如下:
1) 對于長度較長的句子(詞數(shù)>50),句中的名詞短語較多,如果全部作為候選評價對象,勢必引入不必要的噪聲,因此將句子中重復出現(xiàn)的名詞短語標識為候選評價對象;如果不存在重復出現(xiàn)的名詞短語,則將頻率最高的名詞短語標識為候選評價對象;
2) 對于長度偏短的句子(詞數(shù)<10),句中可能的候選評價對象較少,甚至沒有,但它作為正確的候選評價對象的可能性也較高,因此將句子中所有的名詞、短語均標識為候選評價對象,如果其中未含任何名詞、代詞和短語,則將與評價短語存在依賴關系且非評價短語的詞串標記為候選評價對象;
3) 對于其他句子(10<詞數(shù)<50),將與評價短語存在依賴關系而且離評價短語最近的名詞、代詞或名詞性短語標識為候選評價對象,如果不存在同時滿足這兩種關系的名詞、代詞或名詞性短語,則標識出評價短語最近的名詞、代詞或名詞性短語,如果仍不存在,則標識出存在依賴的,否則置空。
2.3.3 合并模型
評價對象經(jīng)常出現(xiàn)嵌套的現(xiàn)象,一個評價對象可能嵌套多個名詞、代詞或短語,即評價對象經(jīng)常以復合詞的形式出現(xiàn)。由于中文詞與詞之間無明顯邊界,加上分詞工具本身存在誤差,分詞之后評價名詞很可能與上下文的其他名詞或短語形成復合詞,出現(xiàn)分界錯誤,影響識別的準確率,而且復合詞合并存在的錯誤很可能導致該復合詞無法被識別為評價對象。因此,將識別出的候選評價對象進行Token之間的合并,即對于復合詞的候選評價對象,將其詞串組合成復合詞,形成新的詞串,對于新的詞串,其詞性為名詞(n),語法依賴特征及上下文名詞特征則與合并前的一致。
本文實驗采用第三屆中文傾向性分析評測(COAE2011)任務3評價搭配抽取標注語料中所有帶有傾向性的句子作為實驗語料,每個句子含0至4個評價搭配(評價對象+評價短語+評價傾向性),語料的具體情況如表3所示。
表3 語料分領域統(tǒng)計表
實驗中先對語料集進行分句、分詞、詞性分析、語法依存分析等預處理工作,經(jīng)過低層條件隨機場模型得到候選評價對象集,候選評價對象經(jīng)過中間層處理之后的結果作為高層條件隨機場模型的一部分輸入,輸入到高層條件隨機場模型,得到最終的評價對象。本文分詞和詞性標注使用是中國科學院計算技術研究所提供的ICTCLAS,評價短語直接使用答案中存在的評價短語,而候選評價對象的答案則由人工標注完成,語法依賴關系的分析使用的是Stanford parser*http://nlp.stanford.edu/software/tagger.shtml分析工具。
本文中使用的是CRF++ 0.53工具,其中的模型參數(shù)值,如-c -f -a等,根據(jù)人工經(jīng)驗設定。實驗中,為了減少人為因素的影響,采取是三倍交叉驗證的方式,共進行5組對比實驗: 線性CRFs,CCRFs(未經(jīng)過中間層處理直接輸入到高層模型),CCRFs_降噪,CCRFs_降噪_補充,CCRFs_降噪_補充_合并。對于評價對象抽取的結果,本文采取嚴格的評價標準,只有抽取出的評價對象與答案完全匹配才認為其是正確的,如評價對象答案是“筆記本電腦”,則“電腦”或“聯(lián)想筆記本電腦”均被認為是錯誤的評價對象。本文的實驗結果如表4所示。
表4 評價對象抽取評測結果對比/%
1) 對比實驗結果可以看出CCRFs相對于線性CRFs在召回率方面大概提升了4%左右,但由于中間層沒有規(guī)則過濾合并,造成低層CRFs模型的識別錯誤經(jīng)過高層CRFs模型進一步放大,影響了抽取的準確性,使得準確率相對線性CRF降低了4.5%左右;
2) CCRFs_降噪在CCRFs的候選評價對象識別的基礎上,對識別出的候選評價對象進行了基于一定規(guī)則的降噪過濾,相對于沒有進行降噪處理的CCRFs雖然召回率有2.2%的下降,但準確率提高了6.66%左右,取得了60.94%的準確率,相對于線性CRF 準確率提升了2.24%,召回率提升了1.95%,表5中為一些降噪模型過濾后的實例:
表5 降噪模型實例
在第一個句子,“賓得 的 單鏡頭 套 機”是抽取出來的復合短語候選評價對象,因含5個token,被當作噪聲過濾,雖然CCRFs_降噪未識別出“單鏡頭套機”這一評價對象,但避免了抽取出“賓得的單鏡頭套機”這一錯誤的評價對象。在第二個例子中,由于“2710”離評價短語“存在一定的差距”太遠,依照規(guī)則進行了過濾,有效防止錯誤傳入高層模型中。降噪模型可以有效地處理復合詞評價對象識別存在的錯誤及其他處理對于提升準確率有著積極的作用;
3) CCRFs_降噪_補充相對于沒有經(jīng)過補充模型的CCRFs_降噪 提高了識別的召回率約3.8%,而準確率僅下降0.6%左右,雖然補充模型引入了一定的噪聲,但其對召回率的提升作用是十分明顯的。表6是經(jīng)過補充模型處理的一些實例。
在第一個句子 “外音喇叭保真度很差?!敝袥]有識別出任何的候選評價對象,導致未能抽取出評價對象,按照補充規(guī)則將“外音喇叭保真度”標識出來后,高層模型順利地抽取出這一評價對象。第二個句子中同樣沒有識別出任何的候選評價對象,而因為“體驗”與評價短語“暢快”依賴,將“體驗”標識為候選評價對象,最后由高層模型準確抽取出這一評價對象。補充模型有效地補足了因未登錄詞及其他原因未識別出的候選評價對象,對于更全面更好地抽取出未判別出來的候選評價對象是有積極意義的;
4) CCRFs_降噪_補充_合并相對CCRFs_降噪_補充多了合并候選評價對象的處理,但準確率并無提升,召回只上升0.2%,針對復合詞評價對象的合并模型并未取得很好的結果,分析可能的原因如下:
表6 補充模型實例
a.合并候選評價對象時可以防止某些復合詞的識別錯誤,但同時可能導致該復合詞的候選評價對象的出現(xiàn)頻率低,訓練時權重過低,影響了抽取效果;
b.合并候選評價對象之前雖然經(jīng)過過濾,但候選評價對象本身仍存在一些分界的錯誤,而合成則造成錯誤的傳播,造成一定的影響;而且不同的句子評價對象標注的不一致,如“諾基亞N96手機”在一些句子中評價對象是“諾基亞N96”,而在另外的句子中可能是“諾基亞N96手機”,合并時“諾基亞N96手機”合并為一個復合詞,造成一定程度上的影響;
c.語料規(guī)模的影響,本文僅處理了7 452個觀點句,訓練不夠充分,對抽取的結果造成影響;
綜上所述,經(jīng)過中間層降噪模型、補充模型和合并模型處理的CCRFs_降噪_補充_合并取得了F1值55.18%的結果,相對于線性鏈條件隨機場模型提高了4.17%。層疊條件隨機場模型有效地處理了線性鏈條件隨機場在復合詞評價對象及未登錄詞等方面存在的問題,能夠很好地應用于中文句子評價對象抽取任務。
針對線性鏈條件隨機場模型存在的不足,本文采用層疊條件隨機場模型進行中文句子評價對象的抽取。通過采用降噪模型、補充模型和合并模型等中間層模型的過濾后,相對于線性鏈條件隨機場準確率提升了1.62%,召回率提升了5.75%,F(xiàn)1值提升了4.17%,有效地抽取出了評價對象。
致謝
感謝中國科學院計算技術研究所為本文提供ICTCLAS分詞工具。
[1] James R Cowie, Wendy G Lehnert. Information extraction[J]. Communications of the ACM, 1996, 39(1): 80-91.
[2] Fuchun Peng, Andrew McCallum. Information extraction from research papers using conditional random fields[J]. Information Processing and Management, 2006, 42(4): 963-979.
[3] Li Zhuang, Feng Jing, Xiao-Yan Zhu. Movie review mining and summarization[C]//Proceedings of the ACM 15th Conference on Information and Knowledge Management. Arlington, Virginia, USA, 2006: 43-50.
[4] Ruifeng Xu, Chunyu Kit. Incorporating Feature-based and Similarity-based Opinion Mining-CTL in NTCIR-8 MOAT[C]//Proceedings of NTCIR-8 Workshop Meeting. Tokyo, Japan, 2010: 276-281.
[5] Shanzong Zhu, Yuanchao Liu, Ming Liu, et al. Research on Feature Extraction from Chinese Text for Opinion Mining[C]//Processing of 2009 International Conference on Asian Languages. Singapore, 2009: 7-10.
[6] Minqing Hu, Bing Liu. Mining Opinion Features in Customer Reviews[C]//Proceedings of 19th National Conference on Artificial Intelligence (AAAI-2004). California, USA, 2004: 755-760.
[7] Minqing Hu, Bing Liu. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, Washington, USA, 2004: 168-177.
[8] 劉鴻宇,趙妍妍,秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學報,2010,24(1): 84-88.
[9] Bin Lu. Identifying Opinion Holders and Targets with Dependency Parser in Chinese News Texts[C]//Proceedings of the NAACL HLT 2010 Student Research Workshop. Los Angeles, California, USA, 2010: 46-51.
[10] Tengfei Ma, Xiaojun Wan. Opinion Target Extraction in Chinese News Comments[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Poster Volume. Beijing, China, 2010: 782-790.
[11] Soo-Min Kim, Eduard Hovy. Extracting opinions, opinion holders, and topics expressed in online news media text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. Sydney, Australia, 2006: 1-8.
[12] Wei Jin, Hung Hay Ho, Rohini K Srihari. OpinionMiner: A Novel Machine Learning System for Web Opinion Mining and Extraction[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France, 2009: 1195-1204.
[13] 宋曉雷,王素格,李紅霞. 面向特定領域的產(chǎn)品評價對象自動識別研究[J]. 中文信息學報,2010,24(1): 89-93.
[14] Guang Qiu, Bing Liu, Jiajun Bu, et al. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics, 2011, 37(1): 9-27.
[15] Soo-Min Kim, Eduard Hovy. Identifying Opinion Holders for Question Answering in Opinion Texts[C]//Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains. Pennsylvania, USA, 2005.
[16] Gamgarn Somprasertsri, Pattarachai Lalitrojwong. Automatic Product Feature Extraction from Online Product Reviews Using Maximum Entropy with Lexical and Syntactic Features[C]//Processing of The 2008 IEEE International Conference on Information Reuse and Integration. Las Vegas, Nevada, USA, 2008: 250-255.
[17] Gamgarn Somprasertsri, Pattarachai Lalitrojwong. A Maximum Entropy Model for Product Feature Extraction in Online Customer Reviews[C]//Processing of IEEE International Conference on Cybernetics and Intelligent Systems(CIS 2008). Chengdu, China, 2008: 575-580.
[18] 章劍鋒,張奇,吳立德,等. 中文觀點挖掘中的主觀性關系抽取[J]. 中文信息學報,2008,22(2): 55-59.
[19] Yun-Qing Xia, Bo-Yi Hao, Liu-Ling Dai. Term Extraction from Web Reviews with Opinion Heuristics[C]//Proceedings of the Eighth International Conference on Machine Learning and Cybernetics. Baoding, China, 2009: 3516-3521.
[20] John D Lafferty, Andrew McCallum, Fernando C N Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. Williamstown, MA, USA, 2001: 282-289.
[21] Niklas Jakob, Iryna Gurevych. Extracting Opinion Targets in a Single- and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Vancouver, British Columbia, Canada, 2010: 1035-1045.
[22] 徐冰,王山雨.句子級文本傾向性分析評測報告[C]//第二屆中文傾向性分析評測會議(COAE2009) 論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 69-73.
[23] 徐冰,趙鐵軍,王山雨,等. 基于淺層句法特征的評價對象抽取研究[J]. 自動化學報,2011,37(10): 1241-1247.
[24] 王中卿,王榮洋,龐磊等. Suda_SAM_OMS情感傾向性分析技術報告[C]//第三屆中文傾向性分析評測會議(COAE2011) 論文集.北京: 第三屆中文傾向性分析評測委員會,2011: 25-32.
[25] 張莉,錢玲飛,許鑫. 基于核心句及句法關系的評價對象抽取[J]. 中文信息學報,2011,25(3): 23-29.
[26] Shengchun Ding, Ting Jiang. Comment Target Extraction Based on Conditional Random Field & Domain Ontology[C]//Processing of 2010 International Conference on Asian Language. Harbin, Heilongjiang, China, 2010: 189-192.
[27] 劉康,趙軍. 基于層疊CRFs模型的句子褒貶度分析研究[J]. 中文信息學報,2008,22(1): 123-128.
[28] 周俊生,戴新宇,尹存燕,等. 基于層疊條件隨機場模型的中文機構名自動識別[J]. 電子學報,2006,34(5): 804-809.
[29] 楊曉東,晏立,尤慧麗. CCRF與規(guī)則相結合的中文機構名識別[J]. 計算機工程,2011,37(8): 169-174.
[30] 郭劍毅,薛征山,余正濤,等.基于層疊條件隨機場的旅游領域命名實體識別[J]. 中文信息學報,2009,23(5): 47-52.