張永平,朱艷輝,朱道杰,王天吉,李 飛
(湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007)
基于本體特征的汽車領(lǐng)域命名實(shí)體識(shí)別
張永平,朱艷輝,朱道杰,王天吉,李 飛
(湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007)
針對(duì)汽車領(lǐng)域命名實(shí)體識(shí)別中汽車屬性名識(shí)別的準(zhǔn)確率和召回率較低的問(wèn)題,提出了一種基于本體特征的汽車領(lǐng)域命名實(shí)體識(shí)別方法。通過(guò)擴(kuò)展現(xiàn)有敘詞表,基于敘詞表構(gòu)建汽車領(lǐng)域本體,提取語(yǔ)料中的本體特征,利用CRFs模型對(duì)汽車領(lǐng)域命名實(shí)體進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,本體特征能夠有效地識(shí)別出汽車屬性實(shí)體,準(zhǔn)確率、召回率和F值分別為75.60%, 66.12%和70.54%。
命名實(shí)體識(shí)別;汽車領(lǐng)域;CRFs;本體;敘詞表
隨著計(jì)算機(jī)的快速普及,互聯(lián)網(wǎng)的迅猛發(fā)展,各式各樣的信息呈爆炸式增長(zhǎng),如何從海量的數(shù)據(jù)中精準(zhǔn)地抽取用戶所需信息已成為研究者關(guān)注的課題。信息抽取的主要目的是將非結(jié)構(gòu)化的自然語(yǔ)言文本轉(zhuǎn)化成半結(jié)構(gòu)化或者結(jié)構(gòu)化數(shù)據(jù),以便人們準(zhǔn)確快速地獲取信息。命名實(shí)體識(shí)別[1]作為信息抽取的子任務(wù),已經(jīng)成為研究的熱點(diǎn)。其研究方法分別有基于規(guī)則[2]、基于統(tǒng)計(jì)[3]以及基于規(guī)則和統(tǒng)計(jì)[4]相結(jié)合的方法,研究領(lǐng)域從通用領(lǐng)域擴(kuò)展到專業(yè)領(lǐng)域。在專業(yè)領(lǐng)域中,由于語(yǔ)料缺乏和屬性名難以識(shí)別的特點(diǎn),使其成為命名實(shí)體識(shí)別中的難點(diǎn)。
本文針對(duì)汽車領(lǐng)域命名實(shí)體進(jìn)行識(shí)別,選擇COAE會(huì)議[5]提供的汽車類語(yǔ)料,通過(guò)對(duì)汽車語(yǔ)料的深入分析,發(fā)現(xiàn)汽車屬性具有以下特點(diǎn):1)數(shù)量多,汽車的結(jié)構(gòu)、零部件、內(nèi)飾和動(dòng)力總成等名稱都是汽車的屬性;2)口語(yǔ)化,比如句子“這車皮薄”中的實(shí)體“皮薄”,句子“20寸大腳太霸氣”中的實(shí)體“大腳”等,這使得汽車命名實(shí)體中屬性名的抽取難度較大。針對(duì)這些問(wèn)題,本文通過(guò)基于敘詞表[6-7]的方法構(gòu)建汽車領(lǐng)域本體[8],并以本體為特征,采用條件隨機(jī)場(chǎng)(conditional random fields,CRFs)模型[9]對(duì)汽車領(lǐng)域命名實(shí)體進(jìn)行識(shí)別,有效提高識(shí)別的準(zhǔn)確率。
本研究選用的敘詞表是《汽車工程敘詞表》,但由于這個(gè)敘詞表發(fā)行時(shí)間較早,沒(méi)有進(jìn)行更新修訂,有很多新概念及屬性都沒(méi)有,所以首先要對(duì)敘詞表進(jìn)行升級(jí)優(yōu)化,優(yōu)化算法如下。
Step 1 從《汽車工程敘詞表》中取出“汽車結(jié)構(gòu)”概念為新敘詞表,其中包括“汽車結(jié)構(gòu)”和“汽車零部件”的概念、定義以及等級(jí)關(guān)系。
Step 2 從汽車百科網(wǎng)上獲取關(guān)于汽車的所有名詞以及釋義。
Step 3 把Step1和Step2得到的內(nèi)容組合去重。
Step 4 按照老敘詞表中概念的等級(jí)關(guān)系框架,逐個(gè)把Step 3的概念和釋義添加到新敘詞表中。
基于敘詞表構(gòu)建汽車領(lǐng)域本體,基本思路是:1)根據(jù)敘詞表確定核心概念集;2)確定概念間關(guān)系;3)添加汽車領(lǐng)域概念屬性;4)為本體添加實(shí)例。具體算法如下。
Step 1 選擇敘詞表中“汽車種類”和“汽車結(jié)構(gòu)”下的名稱為父親概念,然后添加敘詞表中相應(yīng)的子概念,得到核心概念集。
Step 2 確定概念間關(guān)系:確定了核心概念集后,利用中間展開(kāi)[10]的方法,在敘詞表中逐步抽取概念間的關(guān)系。
Step 3 添加概念屬性,把敘詞表中對(duì)概念的釋義當(dāng)作屬性。
Step 4 添加實(shí)例,實(shí)例是對(duì)概念的舉例,可以從“太平洋汽車”網(wǎng)中“分類”板塊獲得,添加到本體相應(yīng)的概念中。
條件隨機(jī)場(chǎng)模型是給定一組輸入隨機(jī)變量,求另外一組具有隱馬爾可夫性質(zhì)的輸出隨機(jī)變量的條件概率分布的無(wú)向圖。在自然語(yǔ)言處理任務(wù)中,很多地方都用到了條件隨機(jī)場(chǎng),例如新詞識(shí)別、中文分詞、依存關(guān)系等?;跅l件隨機(jī)場(chǎng)的主要實(shí)現(xiàn)工具有CRF++,F(xiàn)lexCRF等,本文使用的模型訓(xùn)練和測(cè)試工具為CRF++。
本文提出的基于領(lǐng)域本體的汽車命名實(shí)體識(shí)別方法的基本流程圖如圖1所示。
圖1 汽車領(lǐng)域命名實(shí)體識(shí)別流程圖Fig.1 Named entity recognition process in the automotive field
2.1 特征抽取
汽車領(lǐng)域本體特征表示的是詞匯單元所具備的領(lǐng)域及其語(yǔ)義特征,反映領(lǐng)域?qū)傩怨沧R(shí)。汽車命名實(shí)體識(shí)別最大的難度是汽車屬性名的識(shí)別,課題組利用汽車本體可以對(duì)汽車屬性名和其它實(shí)體之間的關(guān)系進(jìn)行描述,從而建立起了屬性名和其它實(shí)體之間的關(guān)系。通過(guò)這種“關(guān)系”,可以對(duì)汽車屬性進(jìn)行有效的識(shí)別。為了進(jìn)行對(duì)比,除了本體特征外,本文還提取了詞和詞性、指示詞、情感傾向這3個(gè)特征,并組成特征模板。
1)詞和詞性特征
詞特征為實(shí)驗(yàn)語(yǔ)料經(jīng)過(guò)分詞后的詞匯單元本身,即將分詞后的結(jié)果作為一類特征,可以表示詞在句子中的位置;詞性特征表示詞在句子中的詞性標(biāo)注,利用NLPIR[11]分詞工具可以獲得這2個(gè)特征。詞和詞性特征模板如表1所示。
表1 詞和詞性特征模板Table 1 A feature template for words and its part of speech
2)指示詞特征
指示詞是指在命名實(shí)體周圍具有指示性的詞語(yǔ),如:“新款馬自達(dá)阿特茲在性能方面很可靠”中的“性能”、“進(jìn)口的A4和國(guó)產(chǎn)的A4L有啥區(qū)別?”中的“進(jìn)口”和“國(guó)產(chǎn)”就是指示詞。本文提出的指示詞抽取算法如下。
Step 1 建立一個(gè)空的指示詞庫(kù)。
Step 2 依次讀取已經(jīng)經(jīng)過(guò)分詞處理的詞匯。
Step 3 若當(dāng)前詞是命名實(shí)體,則轉(zhuǎn)到Step 4,否則轉(zhuǎn)到Step 2。
Step 4 以命名實(shí)體為中心,選擇窗口大小N,即取當(dāng)前詞的前N個(gè)詞和后N個(gè)詞共同組成集合boundary。
Step 5 把集合boundary中的詞和指示詞庫(kù)中的詞一一對(duì)比,若有相同的詞,則該詞的詞頻加1;若無(wú)相同的詞,則把該詞加入到指示詞庫(kù),并將詞頻設(shè)為1。
Step 6 判斷當(dāng)前詞是否為語(yǔ)料的最后一個(gè)詞,是則轉(zhuǎn)到Step 7,否則轉(zhuǎn)到Step 2。
Step 7 設(shè)置一個(gè)閾值,將指示詞庫(kù)中的詞頻小于閾值的詞移出指示詞庫(kù)。
指示詞特征模板如表2所示。
表2 指示詞特征模板Table 2 A feature template for demonstratives
3)情感傾向特征
文本的情感傾向是指文本中的用戶所表達(dá)的態(tài)度,通過(guò)對(duì)情感傾向的分析可以看出評(píng)論者對(duì)事物態(tài)度是積極還是消極,其中評(píng)論者和評(píng)論對(duì)象很有可能是命名實(shí)體。本文采用文獻(xiàn)[12]的方法抽取情感特征,情感特征模板如表3所示。
表3 情感特征模板Table 3 A feature template for affective words
4)本體特征
領(lǐng)域本體中的類別有概念、屬性和實(shí)例,本體特征是指分詞后的詞語(yǔ)是否屬于本體類別中的種類,提取過(guò)程是將分詞后的詞匯在構(gòu)建的本體系統(tǒng)中進(jìn)行等級(jí)關(guān)系的判定,返回詞匯所屬的類別。本體特征模板如表4所示。
表4 本體特征模板Table 4 Ontology template
2.2 特征轉(zhuǎn)換
本次實(shí)驗(yàn)所使用的工具是CRF++0.54[13],使用時(shí)須把具體特征轉(zhuǎn)變?yōu)闃?biāo)注符,稱為特征標(biāo)記取值,結(jié)合2.1節(jié)所介紹特征,為各個(gè)特征制定一個(gè)轉(zhuǎn)換標(biāo)注,具體如表5所示。
表5 特征標(biāo)記取值Table 5 Characteristic marks
2.3 結(jié)果標(biāo)注集
在利用CRFs進(jìn)行訓(xùn)練和測(cè)試時(shí),要指定一個(gè)標(biāo)注集,本文采用的標(biāo)注集如表6所示。
表6 結(jié)果標(biāo)注集Table 6 Result annotation set
3.1 實(shí)驗(yàn)語(yǔ)料
本次實(shí)驗(yàn)選取了從COAE2008至COAE2015所有的汽車類語(yǔ)料,從中篩選出22 303句,其中14 000句為訓(xùn)練語(yǔ)料,剩下的句子為測(cè)試語(yǔ)料。
3.2 實(shí)驗(yàn)工具介紹
本實(shí)驗(yàn)采用CRF++外部開(kāi)發(fā)包來(lái)完成CRFs模型的訓(xùn)練和測(cè)試。CRF++是目前綜合性能最佳的條件隨機(jī)場(chǎng)開(kāi)源工具,其對(duì)訓(xùn)練語(yǔ)料的格式要求是:訓(xùn)練語(yǔ)料的列為特征,并且至少有兩列。使用CRF++工具包還需要定義一個(gè)特征模板文件,也就是特征的組合方式,本文的特征組合方式總共有6種,在下一節(jié)詳細(xì)介紹。訓(xùn)練過(guò)程中只要把訓(xùn)練語(yǔ)料和特征模板作為輸入,利用CRF++工具訓(xùn)練,輸出就是訓(xùn)練好的模型,這個(gè)模型可以用來(lái)做測(cè)試。
3.3 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)采用CRF++外部開(kāi)發(fā)包來(lái)完成CRFs模型的訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表7所示。
表7 實(shí)驗(yàn)對(duì)比結(jié)果Table 7 Contrast of experimental results %
在表7中,特征組合②、③、④的對(duì)比實(shí)驗(yàn)表明,本體特征要優(yōu)于情感傾向特征和指示詞特征,其中準(zhǔn)確率比②高4.75%;特征組合④、⑤的對(duì)比實(shí)驗(yàn)表明,雖然⑤在特征數(shù)量上比④更多,但識(shí)別效果卻并不比其好,說(shuō)明本體特征要優(yōu)于同時(shí)擁有指示詞和情感傾向特征的模板,并且在模型訓(xùn)練時(shí)效上特征組合④也優(yōu)于⑤;特征組合⑤、⑥的對(duì)比實(shí)驗(yàn)表明,在⑤的基礎(chǔ)上加入本體特征,準(zhǔn)確率、召回率和F值分別高出3.09%, 15.12%和10.66%,特別在召回率上大幅領(lǐng)先;以上幾組對(duì)比數(shù)據(jù)表明,本體特征能夠?qū)ζ嚸麑?shí)體進(jìn)行有效的識(shí)別。
本文提出了基于本體特征的汽車領(lǐng)域命名實(shí)體識(shí)別方法,首先通過(guò)敘詞表構(gòu)建了汽車領(lǐng)域本體,并選擇本體作為特征,基于CRFs模型進(jìn)行汽車命名實(shí)體識(shí)別。通過(guò)與指示詞特征、情感特征進(jìn)行對(duì)比,實(shí)驗(yàn)表明,基于本體特征的識(shí)別效果最好,特別是在屬性名的識(shí)別上。雖然本文研究取得了一定成果,但不足之處是本體的構(gòu)建方法偏于簡(jiǎn)單,導(dǎo)致命名實(shí)體識(shí)別效果整體偏低,因此構(gòu)建一個(gè)質(zhì)量較優(yōu)的本體是將來(lái)要進(jìn)一步研究的工作。
[1]張曉艷,王 挺,陳火旺. 命名實(shí)體識(shí)別研究[J]. 計(jì)算機(jī)科學(xué),2005,32(4):44-48. ZHANG Xiaoyan,WANG Ting,CHEN Huowang. Research on Named Entity Recognition[J]. Computer Science,2005,32(4):44-48.
[2]周 昆. 基于規(guī)則的命名實(shí)體識(shí)別研究[D]. 合肥:合肥工業(yè)大學(xué),2010. ZHOU Kun. Research on Named Entity Recognition Basd on Rules[D]. Hefei:HeFei University of Technology,2010.
[3]俞鴻魁,張華平,劉 群,等. 基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 通信學(xué)報(bào),2006,27(2):87-94. YU Hongkui,ZHANG Huaping,LIU Qun,et al. Chinese Named Entity Identification Using Cascaded Hidden Markov Model[J]. Journal of Communications,2006,27(2):87-94.
[4]向曉雯,史曉東,曾華琳. 一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用,2005,25(10):2404-2406. XIANG Xiaowen,SHI Xiaodong,ZENG Hualin. Chinese Named Entity Recognition System Using Statistics-Based and Rules-Based Method[J]. Computer Application,2005,25(10):2404-2406.
[5]廖祥文,許洪波,孫 樂(lè),等. 第三屆中文傾向性分析評(píng)測(cè)(COAE2011)語(yǔ)料的構(gòu)建與分析[J]. 中文信息學(xué)報(bào),2013,27(1):56-63. LIAO Xiangwen,XU Hongbo,SUN Le,et al. Construction and Analysis of the Third Chinese Opinion Analysis Evaluation (COAE2011) Corpus[J]. Journal of Chinese Information Processing,2013,27(1):56-63.
[6]常 春,盧文林. 敘詞表編制歷史、現(xiàn)狀與發(fā)展[J]. 農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2002(5):25-28.CHANG chun,LU Wenlin. The History,Current Situation and Development of Compilation of the Thesaurus [J]. Journal of Library and Information Science in Aricultural,2002(5):25-28.
[7]楊秋芬,陳躍新. Ontology方法學(xué)綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2002,19(4):5-7. YANG Qiufen,CHEN Yuexin. A Survey of Ontology Methodology[J]. Computer Application Research,2002,19 (4):5-7.
[8]BORST W N. Construction of Engineering Ontologies for Knowledge Sharing and Reuse[J]. Universiteit Twente,1997,18(1):44-57.
[9]LAFFERTY J D,Mccallum A,Pereira F C N. Conditional Random Fields:Probabilistic Models For Segmenting And Labeling Sequence Data[C]// ICML 2001 Proceedings of the Eithteenth International Conference on Machine. San Francisco:Morgan Kaufmann Publishers,2001:282-289.
[10]唐愛(ài)民,真 溱,樊 靜. 基于敘詞表的領(lǐng)域本體構(gòu)建研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(4):1-5. TANG Aimin,ZHEN Zhen,F(xiàn)AN Jing. Thesaurus-Based Approach to Build Domain Ontology[J]. New Technology of Library and Information Service,2005(4):1-5.
[11]ZHOU L,ZHANG D. NLPIR:A Theoretical Framework for Applying Natural Language Processing to Information Retrieval[J]. Journal of the American Society for Information Science & Technology,2003,54(2):115-123.
[12]朱艷輝,栗春亮,徐葉強(qiáng),等. 一種基于多重詞典的中文文本情感特征抽取方法[J]. 湖南工業(yè)大學(xué)學(xué)報(bào),2011,25(2):42-46. ZHU Yanhui,LI Chunliang,XU Yeqiang, et al. A Method of Emotional Feature Extraction in Chinese Text Based on Multiple Lexicons[J]. Journal of Hunan University of Technology,2011,25(2):42-46.
[13]Source Forge. CRF++[EB/OL]. [2016-07-19]. https:// sourceforge.net/projects/crfpp/.
(責(zé)任編輯:申 劍)
An Ontology-Based Named Entity Recognition in Automotive Industry
ZHANG Yongping,ZHU Yanhui,ZHU Daojie,WANG Tianji,LI Fei
(School of Computer,Hunan University of Technology,Zhuzhou Hunan 412007,China)
In view of a low accuracy rate and recall rate of named entity recognition in the automotive industry, a new method of named entity recognition based on ontology has thus been proposed. By extending the existing thesauri, and constructing an automobile domain ontology, the ontology features are to be extracted from the corpus, and a named entity recognition based on a CRFs model can be achieved. The experimental results show that the ontology features can effectively identify the vehicle attribute entities, with its accuracy rate as high as 75.60%, a recall rate as high as 66.12% and aF-value as high as 70.54% respectively.
named entity recognition;automotive field;CRFs;ontology;thesaurus
TP391.4
A
1673-9833(2016)06-0039-05
10.3969/j.issn.1673-9833.2016.06.08
2016-10-13
國(guó)家自然科學(xué)基金資助項(xiàng)目(61170102),國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(12BYY045),湖南省教育廳基金資助重點(diǎn)項(xiàng)目(15A049)
張永平(1989-),男,貴州習(xí)水人,湖南工業(yè)大學(xué)碩士生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,E-mail:780235260@qq.com
朱艷輝(1968-),女,湖南湘潭人,湖南工業(yè)大學(xué)教授,碩士生導(dǎo)師,主要從事自然語(yǔ)言處理方面的研究,E-mail:swayhzhu@163.com