李路標 張寅生 王惠臨
(中國科學(xué)技術(shù)信息研究所,北京 100038)
TimeML在文本時間關(guān)系解析中的應(yīng)用
李路標 張寅生 王惠臨
(中國科學(xué)技術(shù)信息研究所,北京 100038)
TimeML是在自然語言文本中標注事件和時間表達的一種規(guī)范語言。本文介紹了TimeML標準及其語料庫TimeBank,從其起源英文文本事件時間表達標注開始,分析TimeML在文本時間關(guān)系解析研究中的發(fā)展,并探討了TimeML在漢語文本時間關(guān)系解析研究中的應(yīng)用。
TimeML;TimeBank;時序推理;事件識別;時間信息;文本時間關(guān)系解析
文本時間關(guān)系解析(TRR)是自然語言處理領(lǐng)域的一個重要研究內(nèi)容,主要目的是識別事件及其時間信息的特定關(guān)系,并進行事件時間表達關(guān)系之間的推理等。它在信息檢索系統(tǒng)、問答系統(tǒng)、機器翻譯等人工智能領(lǐng)域有著重要的作用。
較好的事件和時間表達式的識別是文本時間關(guān)系解析的基礎(chǔ)。以往,對事件和時間表達式的識別主要集中在對詞法信息的研究上,而忽略了句子的結(jié)構(gòu)信息和語義信息。隨著計算機技術(shù)的發(fā)展以及大眾信息需求的變化,計算機語言學(xué)研究者們對文本時間關(guān)系中結(jié)構(gòu)信息和語義信息的問題關(guān)注增多,而較好的文本事件時間表達標注規(guī)范是識別文本事件時間表達關(guān)系的基礎(chǔ)與進行文本時間關(guān)系解析的重要前提。其中最具代表性的是TimeML規(guī)范[1]。它是在自然語言文本中表示事件和時間表達的一種規(guī)范語言[2],是為提升自然語言問答系統(tǒng)的處理性能而提出的,現(xiàn)已成為事件時間表達標記的一種ISO標準規(guī)范。它被設(shè)計用來解決以下4個問題:(1)事件的時間標記;(2)事件之間的相互順序;(3)根據(jù)上下文特定時間表達式對事件進行推理;(4)推理事件的持續(xù)時間。TimeML將事件定義為在事件時間關(guān)系網(wǎng)中的一個節(jié)點,用時間信息來標記和索引事件,從而進行事件在其時間方面的推理等工作[3]。這不僅解釋了句子的含義,更實現(xiàn)了使計算機理解句子邏輯結(jié)構(gòu)這一語義理解的關(guān)鍵步驟[4]。
該標準經(jīng)過了十幾年的發(fā)展,基本具有了較為具體和成熟的理論思想。目前,已有不少學(xué)者和研究人員從不同的角度基于TimeML標準進行英文文本時間關(guān)系解析的研究。在其他外文中也有針對TimeML的嘗試性的實踐研究,并有一定進展。但在中文研究領(lǐng)域,并沒有深入的展開,相關(guān)研究及規(guī)范化程度仍然處于初級階段,無法從句法關(guān)系和語義關(guān)系的角度對文本中事件及其時間表達關(guān)系進行識別分析,也不能實現(xiàn)相關(guān)的推理等工作。因此,總結(jié)分析前人經(jīng)驗,在前人的基礎(chǔ)上將TimeML應(yīng)用到漢語文本時間關(guān)系解析研究的工作上來,服務(wù)于中文的問答系統(tǒng)、機器翻譯等人工智能領(lǐng)域,將是一項非常有意義的嘗試。
TimeML是在一個關(guān)于問答系統(tǒng)的AQUAINT項目里首次被提出來的。從2002年開始,該標準先后經(jīng)歷了3次專題研討會的討論和確定。第一次是TERQAS,研究者們以提高自然語言問答系統(tǒng)的性能,以便處理新聞文章中基于時間問題的事件為目的,在這次會議上第一次定義TimeML標準并且創(chuàng)建了相應(yīng)英文文本的語料庫TimeBank[5]。在接下來的TANGO會議中發(fā)布了界面化的標注工具。最后一次會議是TARSQI,在這次會議中參與者們開發(fā)了在自然語言文本中表示事件和時間表達的算法,并利用TimeML標準進行了相關(guān)的英文文本時間關(guān)系解析實驗。
TimeML標注形式就是先將待標注文本組織成XML形式,然后用不同的標簽來代表不同的元素類別,從而進行文本標注。在TimeML中使用的標簽主要有<EVENT><SIGNAL><TIME X3><MAKEINSTANCE>和<LINKS>。其中,<EVENT>標簽是用來標注在文本中“事件”類型的元素。在TimeML標注系統(tǒng)中,Boguraev等人認為事件是涵蓋“發(fā)生”情況的術(shù)語[6],既可以是瞬時事件,也可以是持續(xù)事件。從語言學(xué)角度看,事件可以是動詞、名詞、形容詞等。<TIMEX3>標簽是用來標注時間表達式的。<SIGNAL>標簽是標注存在于兩個實體(事件和事件之間、事件和時間之間、時間和時間之間)之間的具體關(guān)系。<MAKEINSTANCE>標簽是用來詳細描述一個事件的具體實例。<LINKS>標簽共有3種類型,分別是<TLINK>、<SLINK>和<ALINK>。<TLINK>(Temporal Link)標簽描述的是事件之間、時間之間或者一個事件和時間之間的一種時序關(guān)系。<SLINK>(Subordination Link)標簽用來描述文本中兩個事件之間的關(guān)系。<ALINK>(Aspectual Link)標簽描述的是一個體態(tài)事件和另一個事件之間的聯(lián)系。
<EVENT>標簽和<TIMEX3>標簽的BNF表示形式分別如圖1和圖2,其他標簽的BNF表示形式見參考文獻[1]。
圖1
圖2
在圖3中表示的是英文句子“Bill wants to teach on Monday.”的TimeML語言標記結(jié)果。
通過TimeML語言的標記,不難發(fā)現(xiàn)事件“wants”和“teach”分別標上了<EVENT>標簽,時間表達式“Monday”標上了<TIMEX3>標簽,時間介詞“to”和“on”標上了<SIGNAL>標簽,同樣還有<TLINK>和<SLINK>等標簽。通過這樣的標記,不僅可以快速定位到事件及其相關(guān)的時間信息,也更便于進行下一步時序推理等研究工作。
隨著TimeML在文本時間關(guān)系解析研究中的應(yīng)用,其自身也得到了不斷的更新與發(fā)展。2004年TimeML1.2版標準發(fā)布,不僅對原來1.0版標準進行大幅度的調(diào)整,還對相關(guān)標簽職能分工更加明確,方便進一步處理研究。其后又在此基礎(chǔ)上細化了相關(guān)屬性,擴大了標注范圍,發(fā)布了TimeML 1.2.1版標準。與之前的事件時間表達標注規(guī)范相比,TimeML 1.2.1版標準具有如下特征。
(1)在TIMEX2基礎(chǔ)上擴大了標注的特征及相關(guān)屬性值范圍。
(2)推出時序功能以便有目的地識別指定的表達式,例如three years ago、last month。
(3)識別決定時間表達的SIGNALS。①時間介詞:例如for、during on、at等;②時間連詞:例如before、after、while等。
(4)識別所有事件表達的類別。
①時態(tài)動詞:例如has left、was captured、will resign等;②狀態(tài)形容詞和其他修飾詞:例如sunken、stalled、on board等;③事件名詞:例如merger、Military Operation、Gulf War等。
(5)創(chuàng)建事件和時間的依存關(guān)系。①固定:例如John left on Monday;②排序:例如The party happened after mi-dnight;③嵌入:例如John said Mary left。
圖3 TimeML語言標記實例
可以看出TimeML標準明確了3個在文本事件時間表達標記的不同現(xiàn)象:(1)系統(tǒng)地將一個事件謂詞固定在一個廣泛的時間表達式范圍內(nèi)。(2)對文本中的事件相對于另一個時間表達式進行排序標記。(3)允許部分表示時間表達式有一個相對延遲的不規(guī)范的解釋。也正是憑借著較高的表達能力、較大的標注語義范圍、較強的模糊問題解釋能力以及開源的程序支持,TimeML標準已被廣泛應(yīng)用到問答系統(tǒng)、機器翻譯、信息檢索系統(tǒng)等人工智能領(lǐng)域。
英文的文本時間關(guān)系解析研究起步較早。在上世紀90年代,由于缺少成熟的語料庫,文本時間關(guān)系解析研究大多是基于規(guī)則的方法建立起來的事件時間表達關(guān)系識別模型,并進行簡單地分析工作。1992年,Lascarides、Asher和Oberlander提出了兩個事件的時序關(guān)系與話語結(jié)構(gòu)有關(guān)[7],他們對多種語言環(huán)境進行了分析,并對應(yīng)到narration、elaboration、explanation、background和result等5種話語關(guān)系中。以此,他們根據(jù)話語關(guān)系和時序關(guān)系之間的對應(yīng)關(guān)系,就可以找到事件之間的時序關(guān)系。1995年,Hitzeman基于HPSG在分析話語的時序結(jié)構(gòu)時著重考慮了時態(tài)(tense)、體態(tài)(aspect)、事件副詞和修飾關(guān)系等因素[8]。在2002年,Dorr等人采用基于約束的方法對時態(tài)、體態(tài)以及連接詞進行分析,確定了識別時序關(guān)系的約束語言理論模型CONGEN[9]。
雖然采用基于規(guī)則的方法進行文本時間關(guān)系解析研究準確度較高,但是其適用范圍小,只能適用較小規(guī)模、可形式化的研究內(nèi)容。隨著TimeML標準的明確與完善,尤其是出現(xiàn)了以英文新聞為語料來源的語料庫Timebank,同時機器學(xué)習(xí)的方法也逐漸應(yīng)用在事件時間表達關(guān)系識別上,文本時間關(guān)系解析研究有了較為快速的發(fā)展,同時也大大推動了相關(guān)分析研究工作的進展。
在TimeML標準發(fā)布之后,陸續(xù)發(fā)布了一些用于后續(xù)實驗研究的基于TimeML標準創(chuàng)建的語料庫,其中應(yīng)用最多、具有廣泛影響力的當屬以英文新聞為語料來源的語料庫TimeBank。語料庫TimeBank 1.1是在TimeML標準誕生的早期、遵循TimeML 1.1 版標準創(chuàng)建的。較新的語料庫TimeBank 1.2在2006年創(chuàng)建,它不僅遵循TimeML 1.2.1 版標準,而且包含了超過6.1萬個標記的共計183篇相關(guān)新聞文章。語料庫TimeBank代表了最為精細的、具有廣泛時序標注的語料庫。它不僅是那些對時間和語言感興趣的語料庫語言學(xué)家的一份寶貴資源,也是那些對問答系統(tǒng)、信息抽取等自然語言應(yīng)用領(lǐng)域感興趣的語言工程師們的一份寶貴資源。它為今后的研究提供了堅實的基礎(chǔ),為語義學(xué)以及事件時間表達關(guān)系推理等研究提供了強有力的支持[10-11]。
在2003年,Mani等為了驗證機器學(xué)習(xí)方法的可行性,他在語料庫Timebank中抽取時態(tài)、時間介詞、話語連接詞等預(yù)設(shè)的特征詞,采用監(jiān)督的方式來訓(xùn)練決策樹分類器模型,不僅達到了75.4%的準確率[12],還進行了初步的新聞事件推理分析研究。2006年,Mani等以語料庫Timebank和語料庫Opinion為語料來源,抽取完美特征詞,即tense、aspect、modality、signal、event class、event string、negation、same tense和same aspect,來訓(xùn)練最大熵分類器模型[13],并得到了62.5%的準確率。他也提出了用時序推理的方法來擴大訓(xùn)練語料中<TLINK>等標簽的數(shù)量來解決語料庫數(shù)據(jù)稀疏的問題。在2007年,Chambers等在Mani的研究基礎(chǔ)上,擴大了特征空間,加入了詞性等特征,提升了分類器的準確率,使之達到了67.57%[14]。在此之中,他發(fā)現(xiàn)兩個事件之間的依賴關(guān)系特征對分類器有著重要的影響,并提出了一種基于純文本的事件時間表達關(guān)系識別的方法,分為兩個階段——自動標注事件屬性階段和事件時間表達關(guān)系識別階段,這大大解決了在事件時間表達關(guān)系識別研究中的數(shù)據(jù)稀疏問題。
在2008年,Chambers等又提出了解決分類器測試結(jié)果后的事件時間表達關(guān)系沖突問題來提高文本時間關(guān)系分析模型性能的觀點[15]。這與之前通過提高分類器的準確率來提高文本時間關(guān)系分析模型性能的普遍做法做了調(diào)整,他們用ILP(Integer Linear Programming)來限制結(jié)果,如果發(fā)現(xiàn)沖突則用推理的方法重新進行事件時間表達關(guān)系識別與分析,但是這一方法是比較繁瑣的。Yoshikawa在2009年提出了用馬爾科夫模型來進行事件時間表達關(guān)系識別的觀點[16],并有效避免了用ILP模型檢測的繁瑣。
針對TimeML中<TIMEX3>標簽的升級,在2011年,Saquete和Pustejovsky實現(xiàn)了在TIDES中從<TIMEX2>標簽到<TIMEX3>的自動轉(zhuǎn)化,并達到了將近90%的準確率[17]。2012年,Derczynski Leon和Gaizauskas Robert利用TimeML中<SIGNAL>標簽對時序關(guān)系分類問題進行了研究,并提升了其準確率[18]。Chang A X和Manning C按照TimeML標準,開發(fā)了英文文本中時間表達式的識別和規(guī)范化處理的SUTime[19],SUTime有著較高的識別準確率,現(xiàn)在已經(jīng)納入斯坦福大學(xué)自然語言處理項目。就在2013年剛剛結(jié)束的關(guān)于詞法和計算語義學(xué)第二次聯(lián)合會議上,眾多自然語言處理領(lǐng)域的學(xué)者和研究人員聚集在一起,深入研討了基于TimeML的文本時間關(guān)系解析研究情況。這次不僅進行了新一輪的評估工作,更重要的是實現(xiàn)了更進一步的解析研究。Chambers N實現(xiàn)了從生語料文件中對事件和時間表達式的排序處理,NavyTime在對時間表達式進行識別與分析時超越了SUTime,使得文本時間關(guān)系解析研究更加向前推進了一步[20]。Wartena Christian利用支持向量機對詞和短語進行了語義相似度的評估[21]。Lau Jey Han、Cook Paul和Baldwin Timothy基于主題模型進行了詞義歸納研究[22]。
國內(nèi)也有一些基于TimeML標準進行英文文本時間關(guān)系解析的研究。2010年,孫輝結(jié)合機器學(xué)習(xí)的方法和計算語言學(xué)的知識構(gòu)造了基于OTC語料庫的英文事件時序關(guān)系識別模型,不僅解決了語料庫數(shù)據(jù)稀疏問題,也嘗試性地應(yīng)用在其他大規(guī)模的語料庫中[23]。在2012年,王鳳玲提出了使用CRF模型結(jié)合多種特征方法對英語時間表達式進行識別與分析的觀點[24],并采用TimeBank1.1為評測語料進行實驗,不僅驗證了其觀點,也得到了一些理想的效果。
基于TimeML進行英文文本時間關(guān)系解析的研究已經(jīng)較為成熟,從最初僅僅依靠規(guī)則進行事件、時間表達等單方面的識別分析,到結(jié)合語料庫TimeBank、利用機器學(xué)習(xí)的方法進行時序推理等全方面、深層次的研究,英文文本時間關(guān)系解析研究已遙遙領(lǐng)先。針對具體的研究任務(wù),其研究方法也不盡相同,即便是相同或者相似的研究任務(wù),也會有不少新意??傮w來說,針對英文事件、時間表達等識別與分析的研究方法已基本成型,即通過構(gòu)建分類器模型,訓(xùn)練已標注好的文本,進而對生語料進行識別與分析。但是,在進一步的時序推理研究中并沒有一致的方法:一是針對不同的研究內(nèi)容,具體的方法不同;二是在TimeML標準發(fā)展的短短10來年的時間里,研究工作者的研究內(nèi)容不是十分集中,比較分散,相應(yīng)的研究方法也不統(tǒng)一。
隨著應(yīng)用TimeML標準進行時間關(guān)系解析研究熱度的上升,越來越多的學(xué)者和研究人員開始探索將TimeML標準應(yīng)用在其他語言上。2007年,F(xiàn)rank在英德平行語料基礎(chǔ)上,應(yīng)用詞對齊技術(shù)實現(xiàn)了德語的TimeML時間表達標注[25]。他利用現(xiàn)有的標注工具及平臺,標注英德平行語料中的英語部分,然后利用詞對齊技術(shù),自動將這些標注映射到德語文本。在2009年,Caselli T等成功地開發(fā)出基于TimeML的規(guī)范化的意大利語言文本事件時間表達關(guān)系的標注規(guī)范[26]。他們采用的是在時間表達之間基于WordNet的語義關(guān)系模型,并達到了86.41%的準確率。在2010年,Saur Roser給出了基于TimeML標準涵蓋加泰羅尼亞語和西班牙語時序關(guān)系的標注規(guī)范[27]。2011年,Bittar André等在語言現(xiàn)象等問題上對TimeML標準進行了修改和提升,構(gòu)建了法語的語料庫(French TimeBank)[28]。同樣還有將TimeML標準應(yīng)用在其他語言來進行文本時間關(guān)系解析的研究[29-31],這些無不說明了TimeML標準強大的適用性及應(yīng)用前景。
近幾年,基于TimeML進行其他外文文本時間關(guān)系解析的研究熱度呈上升趨勢。由于不同語種的語言結(jié)構(gòu)不同,使得TimeML并不能完全直接應(yīng)用在其語言上。但是,通過其他外文的成功應(yīng)用可以看出,借助詞對齊的映射方法是一個不錯的選擇,一方面詞對齊技術(shù)作為一較為成熟的方法已經(jīng)被廣泛應(yīng)用在雙語語料的實踐應(yīng)用中,另一方面可以充分利用現(xiàn)有的平臺及相應(yīng)的英文資源。無論在實現(xiàn)基于TimeML進行目標語言的標注上,還是在構(gòu)建目標語言相應(yīng)的語料庫上,借助詞對齊的映射模型方法都起到了重要作用。
中文的文本時間關(guān)系解析研究起步較晚,由于中文與英文語法結(jié)構(gòu)的差異性及漢語現(xiàn)象的繁多性,甚至到現(xiàn)在也沒有基于TimeML的中文語料庫。
Li Wenjie和Wong Kam-Fai是中文文本時間關(guān)系解析研究的先驅(qū)者。他們在2002年提出了基于規(guī)則的事件時間表達關(guān)系識別與分析的方法[32]。他們以同一個句子中的兩個事件為研究對象,僅僅考慮像before、after這樣的連接詞,設(shè)計了一系列從時序關(guān)系連接詞到時序關(guān)系的映射方案。這種方法雖然簡單,但效率不高,難以推廣。鑒于上述方法的各種缺陷,他們在2004年提出了用機器學(xué)習(xí)的方法來進行漢語文本時間關(guān)系解析的研究[33]。他們從香港中文報紙的金融板塊上抽取了700個句子,手工標注其中的600個句子,在標注的600個句子中,用400個句子來進行模型的訓(xùn)練,100個句子用來測試,100個句子留存。他們采用了很多像時態(tài)(tense)、體態(tài)(aspect)等與英文事件時間表達關(guān)系識別相似的特征,并用貝葉斯分類器進行實驗,達到了82.25%的準確率。但是他們的語料構(gòu)建和特征的選取全部是通過手工進行的,也沒有進行事件與時間表達式之間的相關(guān)分析。
2007年,Cheng Yuchang等在TimeML標準基礎(chǔ)上提出了用詞語間的依賴關(guān)系來進行事件時間表達關(guān)系識別的方法,并建立了用于中文的事件時間表達關(guān)系識別的“語料庫”[34]。為了減少人工標注的工作量,他優(yōu)化了一些規(guī)范,不僅限制了事件只能是動詞,而且也限制了時間聯(lián)系的相關(guān)事件。他認為只有符合“相鄰的事件”“語法樹中具有父子關(guān)系的事件”和“兄弟節(jié)點的事件”這3種依賴關(guān)系之一,才認為事件可能發(fā)生時間上的聯(lián)系。依照這種標注規(guī)則,2008年他采用統(tǒng)計機器學(xué)習(xí)的方法對從Penn Chinese TreeBank中抽取的10%數(shù)據(jù)構(gòu)建的語料庫進行實驗與分析,并提出了包括RLP(Relation to Linear Proceding event)、RTA(Relation to Tree Ancestor event)和RTP(Relation to Tree Preceding event)的事件類型這一屬性來完善語料庫信息[35]。實驗結(jié)果表明,加入的事件類型信息提高了分類器支持向量機(Support Vector Machine, SVM)的準確率,但遺憾的是實驗中并沒有涉及語義等屬性。
TimeML 1.2.1 版標準的發(fā)布,給從事文本時間關(guān)系解析研究的學(xué)者和研究人員帶來了新的生機。在2011年,Llorens H等基于語義角色來進行中文事件時間表達關(guān)系識別的初步研究,并證明了此方法的可行性[36]。2012年,Entrikin R在對漢語文本中體態(tài)問題進行研究時,探索了基于語料庫語言學(xué)技術(shù)來進行漢語文本中結(jié)構(gòu)語法的檢查,并且采用基于語料庫的機器學(xué)習(xí)方法分別訓(xùn)練了漢語文本體態(tài)標注用法的最大熵分類器和條件隨機域模型,成功地將其應(yīng)用在漢語文本體態(tài)標注中[37]。但是,由于過度集中在對模型的訓(xùn)練上,而忽視了對構(gòu)建模型的評價以及標注策略的優(yōu)化。在2013年,Zhang Xujie等針對TimeML中定義的事件類型,利用支持向量機對中文的事件進行分類研究,達到了81.16%的準確率。但是他們在構(gòu)建事件抽取規(guī)則時只選取了POS和位置信息(position information)等屬性,并沒有涉及更多的語義屬性[38]。
基于TimeML進行中文文本時間關(guān)系解析研究才剛剛起步,相關(guān)研究以及平臺的支持還在進一步的探索中。從現(xiàn)有的工作進展中,可以看到,在對漢語事件、時間表達等識別與分析中還存在一些不足,比如:嚴格限制漢語事件類型的識別;不能實現(xiàn)漢語事件時間表達關(guān)系的自動標注,也不能很好地進行深層次的時序推理研究等。但是,前人的研究工作也給了繼續(xù)探索TimeML在漢語上應(yīng)用的很好的指示:一是確定了基于TimeML標準進行漢語文本時間關(guān)系解析研究的可行性,二是堅定了后來人繼續(xù)探索、繼續(xù)前進的信心。
(1)從TimeML在文本時間關(guān)系解析研究中的發(fā)展來看,各個工作之間都有著緊密的聯(lián)系和延續(xù)性。TimeML 1.1版標準提供了標注文本中事件時間表達信息的框架,為事件時間表達識別研究提供了一種新的方法。TimeML 1.2 及1.2.1版本標準細化了使用的標簽及其相關(guān)屬性,擴大了標注范圍,提高了文本標注精度,詮釋了TimeML更加強大的標注能力,為文本時間關(guān)系解析研究提供了更好的標注規(guī)范及相關(guān)平臺支持。
(2)語料庫TimeBank 1.1和TimeBank 1.2不管是在基于規(guī)則方法進行文本時間關(guān)系解析研究的初始階段,還是在基于機器學(xué)習(xí)方法進行文本時間關(guān)系解析研究的發(fā)展階段,都給予了強有力的資源支持。
(3)利用現(xiàn)有英文研究的相關(guān)平臺及資源,借鑒德語、法語研究的映射方法及技術(shù),可以找到TimeML更加契合中文文本時間關(guān)系解析的研究方法,使其服務(wù)于中文的問答系統(tǒng)、機器翻譯等人工智能領(lǐng)域。
(4)具體說來,結(jié)合語料庫TimeBank,借助機器學(xué)習(xí)的方法訓(xùn)練合適的分類器引擎,實現(xiàn)對英漢平行語料中英文部分的自動標注;利用詞對齊技術(shù),構(gòu)建英漢映射模型,將其映射到漢語部分,實現(xiàn)漢語文本事件時間表達關(guān)系的識別與分析,并構(gòu)建漢語文本事件時間表達關(guān)系語料庫;基于漢語單語料構(gòu)建漢語文本時間關(guān)系解析引擎,從而進行漢語時序分析等研究。
(5)在今后的研究工作中,可以嘗試通過英漢平行語料,基于詞對齊的映射方法和技術(shù),構(gòu)建符合TimeML標準的事件時間表達關(guān)系的漢語語料庫,并結(jié)合機器學(xué)習(xí)的方法,訓(xùn)練漢語文本時間關(guān)系解析引擎,從而進行漢語文本時間關(guān)系解析實驗研究。
[1] Saurii R, Littman J, Knippen B, et al. TimeML Annotation Guidelines[J/OL]. [2014-03-22]. http://www. cs.brandeis.edu/~cs112/cs112-2004/annPS/annguide-12wptoc.pdf.
[2] Pustejovsky J, Castano J M, Ingria R, et al. TimeML: Robust Specification of Event and Temporal Expressions in Text[J]. New Directions in Question Answering, 2003(3): 28-34.
[3] Boguraev B, Ando R K. TimeML-Compliant Text Analysis for Temporal Reasoning[C]. IJCAI, 2005, 5: 997-1003.
[4] Kumari G V, Sanampudi S K. Temporal Reasoning in Natural Language Processing: A Survey[J]. International Journal of Computer Applications, 2010(4): 68-72.
[5] Pustejovsky J, Hanks P, Sauri R, et al. The Timebank Corpus[C]. Corpus Linguistics, 2003: 40.
[6] Boguraev Branimir, Casta?o Jose, Gaizauskas, et al. TimeML 1.2.1 Specifications[J/OL]. [2014-03-22]. http://timeml.org/site/publications/timeMLdocs/ timeml_1.2.1.html.
[7] Lascarides A, Asher N, Oberlander J. Inferring Discourse Relations in Context[C]//Proceedings of the 30th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 1992: 1-8.
[8] Hitzeman J, Moens M, Grover C. Algorithms for Analyzing the Temporal Structure of Discourse[C]. Proceedings of the Seventh Conference on European Chapter of the Association for Computational Linguistics. Burlington: Morgan Kaufmann Publishers Inc., 1995: 253-260.
[9] Dorr B J, Gaasterland T. Constraints on the Generation of Tense, Aspect, and Connecting Words from Temporal Expressions[J]. Journal of Artificial Intelligence Research (JAIR), 2002.
[10] Boguraev B, Ando R K. TimeBank Driven TimeMLAnalysis[J]. Annotating, Extracting and Reasoning about Time and Events, 2005.
[11] Boguraev B, Pustejovsky J, Ando R, et al. Timebank Evolution as a Community Resource for Timeml Parsing[J]. Language Resources and Evaluation, 2007, 41(1): 91-115.
[12] Mani I, Schiffman B, Zhang J. Inferring Temporal Ordering of Events in News[C]// Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: Companion Volume of the Proceedings of HLT-NAACL 2003--Short Papers-Volume 2. Association for Computational Linguistics, 2003: 55-57.
[13] Mani I, Verhagen M, Wellner B, et al. Machine Learning of Temporal Relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 753-760.
[14] Chambers N, Wang S, Jurafsky D. Classifying Temporal Relations between Events[C]// Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics, 2007: 173-176.
[15] Chambers N, Jurafsky D. Jointly Combining Implicit Constraints Improves Temporal Ordering[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 698-706.
[16] Yoshikawa K, Riedel S, Asahara M, et al. Jointly Identifying Temporal Relations with Markov Logic[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 405-413.
[17] Saquete E, Pustejovsky J. Automatic Transformation from TIDES to TimeMLannotation[J]. Language Resources and Evaluation, 2011, 45(4): 495-523.
[18] Derczynski L, Gaizauskas R. Using Signals to Improve Automatic Classif l cation of Temporal Relations[J/OL]. arXiv e-print, 2012[2014-03-22].http://arXiv.org/ pdf/1203.50551.pdf.
[19] Chang A X, Manning C. SUTime: A Library for Recognizing and Normalizing Time Expressions[C]. LREC. 2012: 3735-3740.
[20] Chambers N. Navytime: Event and Time Ordering from Raw Text[C]. Second Joint Conference on Lexical and Computational Semantics (* SEM), 2013, 2: 73-77.
[21] Wartena C. HsH: Estimating Semantic Similarity of Words and Short Phrases with Frequency Normalized Distance Measures[C]// Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013).Atlanta, Georgia, USA, 2013: 48.
[22] Lau J H, Cook P, Baldwin T. Unimelb: Topic Modelling-based Word Sense Induction[C]. Second Joint Conference on Lexical and Computational Semantics (* SEM), 2013, 2: 307-311.
[23] 孫輝.事件時序關(guān)系識別的研究與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2010.
[24] 王鳳玲.基于條件隨機域模型的英語時間表達式識別研究[J].電子技術(shù),2012, 39(5): 8-10.
[25] Frank P D D A. Projecting Temporal Annotations Across Languages[D]. Saarbrücken, Germany: Universit?t des Saarlandes, 2007.
[26] Caselli T, Prodanof I. TETI: A TimeML Compliant TimEx Tagger for Italian[C]// Computer Science and Information Technology, 2009. IMCSIT'09. International Multiconference on. IEEE, 2009: 185-192.
[27] Saur? R. Annotating Temporal Relations in Catalan and Spanish.TimeML Annotation Guidelines (Version TempEval-2010)[J/OL]. [2014-03-22]. http://comunicacio.barcelonamedia.org/technical_reports/BM2010_04. pdf.
[28] Bittar A, Amsili P, Denis P, et al. French TimeBank: An ISO-TimeML Annotated Reference Corpus[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (Short Papers), 2011: 130-134.
[29] Spreyer K, Frank A. Projection-based Acquisition of a Temporal Labeller[C]. IJCNLP, 2008: 489-496.
[30] Saur? R, Badia T. Spanish TimeBank 1.0 Corpus documentation[J/OL]. [2014-03-22]. https://catalog. ldc.upenn.edu/docs/LDC2012T12/README_spanish-TimeBank.pdf.
[31] Jarz?bowski P, Przepiórkowski A. Temporal Information Extraction with Cross-Language Projected Data[M]// Advances in Natural Language Processing. Berlin, Germany: Springer Berlin Heidelberg, 2012: 198-209.
[32] Li W, Wong K F. A Word-based Approach for Modeling and Discovering Temporal Relations Embedded in Chinese Sentences[J]. ACM Transactions on Asian Language Information Processing (TALIP), 2002(3): 173-206.
[33] Li W, Wong K F, Cao G, et al. Applying Machine Learning to Chinese Temporal Relation Resolution[C]// Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 582.
[34] Cheng Y, Asahara M, Matsumoto Y. Constructing a Temporal Relation Tagged Corpus of Chinese Based on Dependency Structure Analysis[C]//Temporal Representation and Reasoning, 14th International Symposium on. IEEE, 2007: 59-69.
[35] Cheng Y, Asahara M, Matsumoto Y. Use of Event Types for Temporal Relation Identif l cation in Chinese Text[C]. IJCNLP, 2008: 31-38.
[36] Llorens H, Saquete E, Navarro B, et al. Data-driven Approach Based on Semantic Roles for Recognizing Temporal Expressions and Events in Chinese[M]// Natural Language Processing and Information Systems. Berlin, Germany: Springer Berlin Heidelberg, 2011: 88-99.
[37] Entrikin R. Applying Machine Learning to Usage of Aspect Markers in Chinese Text[D]. Massachusetts: Brandeis University, 2012.
[38] Zhang X, Liu Z, Liu W, et al. Chinese Event Classif lcation for Event Ontology Construction[J]. Journal of Computational Information Systems, 2013, 9(9): 3511-3519.
Application of TimeML in the Text Time Relation Resolution
Li Lubiao, Zhang Yinsheng, Wang Huilin
(Institute of Scientiflc and Technical Information of China, Beijing 100038)
TimeML is a robust specifi cation language for event and temporal expressions in natural language text. In recent years, many scholars and researchers have carried on the TRR research from diff erent viewpoints, but not much in Chinese text. In this paper, we give a brief overview of TimeML and TimeBank. Then, from its origin—the annotation of event and temporal expressions in English text, we give a summary and analysis on the previous researches, and provide a new idea for the TRR research in Chinese text.
TimeML, TimeBank, temporal reasoning, event identifi cation, temporal information, text TRR
G355
:A
10.3772/j.issn.1674-1544.2014.05.016
李路標*(1990- ),男,中國科學(xué)技術(shù)信息研究所碩士研究生,研究方向:自然語言處理;張寅生(1962- ),男,中國科學(xué)技術(shù)信息研究所研究員,博士,主要研究方向:人工智能,科學(xué)哲學(xué);王惠臨(1948- ),男,中國科學(xué)技術(shù)信息研究所研究員,博士生導(dǎo)師,主要研究方向:多語言信息服務(wù),機器翻譯,自然語言處理。
“十二五”國家科技支撐計劃課題“基于多源信息的電動汽車數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究” (2013BAG06B01);國家國際科技合作專項“面向科技文獻的日漢雙向?qū)嵱眯蜋C器翻譯合作研究”(2014DFA11350);中國科學(xué)技術(shù)信息研究所“自然語言處理”學(xué)科建設(shè)項目(XK2014-6)。
2014年5月12日。