金璐鈺 姚建民
1.蘇州托普信息職業(yè)技術(shù)學(xué)院;2.蘇州市科學(xué)技術(shù)情報研究所;3.蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院
無論一個句子中顯式地指明時間,還是事件中人的語言動作隱式地蘊含時間,自然語言中事件描述總是在一定的時空之中。理解時間詞的語義表達,對解析事件抽取中特定的人、物在特定時間和特定地點相互作用具有重要意義。本文以獲得事件在時間軸上的位置為出發(fā)點,從語義上研究漢語時間在計算機中的表達。通過抽取事件中的時間詞,并構(gòu)建漢語時間本體,從而理解事件間的時間關(guān)系。
事件信息普遍包含時間、地點、人物3個基本元素。其中,時間元素決定了事件內(nèi)部的邏輯關(guān)系以及事件間的時間聯(lián)系,是事件信息中極為重要的部分。事件的時間信息可以是顯式或隱式的。顯式的時間元素由時間詞或時間短語構(gòu)成,直接指明動作或狀態(tài)發(fā)生的時間。隱式的時間元素將時間信息暗含在用于描述事件的動詞之中,通過行為動作側(cè)面襯托出事件的前后關(guān)系。
從語法詞性上來看,漢語時間的主要分類有:時間名詞,如“秒、分鐘、今天、上午”等;時間副詞,如“馬上、曾經(jīng)”等;數(shù)量短語,如“一分鐘、一年”等;介詞短語,如“今天起、截止上周六”等。
關(guān)于時間詞分類,從時間的表現(xiàn)形式上來看,學(xué)術(shù)上統(tǒng)一將其分為時點與時段[1]。其中,時點是持續(xù)時間為零的特殊時段,表達了一個瞬間的概念。從時間的組成形式來看,李向農(nóng)的《現(xiàn)代漢語時點時段研究》提出,將時間分為本體時間與代體時間[2]。本體時間是指本身具有時間屬性的詞,如“春節(jié)”;代體時間需要時間輔助詞加上行為動作來表示時間語義,如“上課鈴響起時”。此分類方法對于時間語義在計算機中的表達具有借鑒意義。
關(guān)于時間詞的信息提取,現(xiàn)有的提取漢語時間詞的語義信息分為兩種方案[3]。第一種方案是基于時間要素的分解,通過對“著”“了”“過”等時間輔助標記,對動作所經(jīng)歷的時段進行結(jié)構(gòu)化的分析。這一方法的貢獻在于使用簡單的公式便完成了事件間時間關(guān)系的推理,為之后更為深入的研究提供了理論基礎(chǔ)。缺點在于,該方案將注意力集中在時間助動詞的處理,從而忽略了時間詞本身的語義表達,不利于計算機對時間詞的語義進行解析。第二種方案是基于時間認知窗口的表達,時間認知窗口是一系列參照點結(jié)構(gòu)構(gòu)成的時間鏈條。例如“去年春節(jié)”被表達為“現(xiàn)在→今年→去年→春節(jié)”。在這種表達下,一個時間或時間短語所包含的全部時間信息以及信息之間的關(guān)系都能被顯式地表達,為時間信息在計算機中的表達提供了可行的方法,也是本文所參考的方法之一。
隨著自然語言處理技術(shù)不斷深入,計算機領(lǐng)域的時間信息處理也有了初步成果。
杜津的《自然語言時間語義處理》中,以本體論為基礎(chǔ)提出了時間的概念網(wǎng)絡(luò)模型[4],構(gòu)建了一個比較完全的時間表達模型,其本質(zhì)是對漢語言文學(xué)信息提取研究中的第一方案進行了實現(xiàn),取得了一定進展。
2017年萬維網(wǎng)聯(lián)盟正式發(fā)布了OWL時間本體標準[5],為時間本體的構(gòu)建提供了參考。在該標準中,明確地將時間分為Instant(時點)與Interval(時段),并給出了時間之間的13種關(guān)系(如Before、After等),為時間語義在計算機中的計算奠定了基礎(chǔ)。除此之外,標準引入以日歷參考系統(tǒng)為基礎(chǔ)的時間表達方法,證明了時間語義結(jié)構(gòu)化表達的可行性。
本文將漢語時間詞的識別視為實體識別問題,嘗試條件隨機場(Conditional Random Field,CRF)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)+CRF兩種方法[6,7]。借鑒OWL時間本體標準,將時間表達轉(zhuǎn)化為本體文件。
作為識別問題,漢語時間詞的識別同大多數(shù)自然語言處理問題一樣,可以采用序列標注的方法解決。漢語時間詞語,在理論上是可以窮舉的,而時間短語則擁有固定的搭配形式。因此,可以預(yù)見,漢語時間詞的識別將會收獲一個良好的效果。本文采用CRF與LSTM-CRF兩種方法。
條件隨機場CRF是一種無向圖模型,結(jié)合了最大熵模型和隱馬爾可夫模型的特點,在實體識別等序列標注的領(lǐng)域中擁有突出表現(xiàn)。對于一個輸入句子s,CRF在所有的可選標注序列中,給出一個最有可能的標注序列作為結(jié)果。其中,對于每一個標注序列l(wèi),其對應(yīng)于輸入句子的評分如公式(1)所示。
公式(1)中,f表示特征函數(shù),λ表示特征函數(shù)的權(quán)值。對這個分數(shù)進行指數(shù)化和標準化,就可以得到標注序列l(wèi)的概率值p(l|s),如公式(2)所示。
由此,CRF返回一個評分最高的序列標注作為結(jié)果。
作為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種特殊類型,LSTM通過刻意的設(shè)計來避免長期依賴的問題,在自然語言處理中得到廣泛的應(yīng)用。將LSTM與CRF相結(jié)合,可以在實體識別上獲得更好的效果。LSTM-CRF模型的基本結(jié)構(gòu)是在LSTM后添加一層CRF層。LSTM提取句子的特征,并且會在每一步返回一個字w對應(yīng)每個標簽j的分值向量,如圖1所示。
圖1 LSTM-CRF模型和結(jié)果分值(概率)的反饋Fig.1 Feedback of the LSTM-CRF model and result score(probability)
在LSTM層我們已經(jīng)可以得到最高概率的標簽,但是仍然需要CRF層的輔助,原因是CRF可以進行句子級的標注,從訓(xùn)練數(shù)據(jù)中獲得約束性的規(guī)則,保證預(yù)測的標簽是合法的。由此,對于每一個標注序列y,其對應(yīng)于輸入句子x的評分如公式(3)所示。
歸一化后,最終概率如公式(4)所示為返回預(yù)測標簽結(jié)果。
訓(xùn)練集采用人民日報語料。其中語料中每行一句,句子分詞,且詞后跟有屬性標簽,時間詞以標簽“/t”表示。將原始語料的80%劃分入訓(xùn)練集,20%劃分入測試集。以單字切割,打上標簽:時間詞開始TB、時間詞中間TM、時間詞結(jié)束TE、時間單字TS、其他O。特別的,在使用CRF模型時,需要給出模板與分詞特征標簽,S表示單字為一個詞,B表示詞開始,M表示詞中間,E表示詞結(jié)束。CRF與LSTM-CRF的訓(xùn)練測試結(jié)果如表1所示。結(jié)果數(shù)據(jù)表明,模型的召回率相比于準確率略低,其中一些專有的表示時間的名詞,如朝代、秦朝等;如表示年的,虎年,牛年,這些詞往往不能夠被準確識別出來??赡艿脑蚴菍τ趯S械臅r間名詞,沒有足夠多的語料將它們?nèi)堪?,?dǎo)致識別失敗,召回率下降。為了提升召回率,我們構(gòu)建了專門的時間詞表,收入朝代、天干地支、節(jié)日和一些描述季節(jié)的詞匯,構(gòu)建漢語時間詞專有詞表[8]與LSTM-CRF模型結(jié)合。結(jié)果如表1所示。
表1 CRF、LSTM-CRF模型及結(jié)合時間詞表的模型測試結(jié)果Tab.1 Test results of CRF, LSTM-CRF, and combination with time expressions
三次模型測試結(jié)果對比如圖2所示。
圖2 CRF、LSTM-CRF模型及結(jié)合時間表的模型測試結(jié)果對比Fig.2 Comparison of test results of CRF, LSTM-CRF, and combination with time expressions
從結(jié)果可以看出,對于漢語時間詞這一詞類的識別,使用序列標注的方法可以獲得可觀的結(jié)果,相信在足量的數(shù)據(jù)和完善的時間詞表的支持下,現(xiàn)有的模型性能可以滿足時間詞識別與提取的需要。
本文的最終目的是用RDF的方法來描述時間本體,如圖3所示展示了對北京奧運會(2008.8.8-2008.8.24)這一時間段利用Turtle語法進行的文字形式描述。
圖3 使用Turtle語法描述北京奧運會的時間本體Fig.3 Time ontology of Beijing Olympics under Turtle grammar
在Turtle語法中,“@prefix”的作用是聲明前綴,“@base”的作用是聲明基本域。為了減少與結(jié)果無關(guān)的實例的數(shù)量,Turtle允許實例缺省表達,例如圖3的右半部分,這樣,在整個本體描述的過程中,只需要用到“BJOlympic”這一個時間實例,同時它也是我們所要表達的原始時間,因此,本文希望利用這種方法完成漢語時間詞的本體文件輸出。需要注意的是,為了簡便,最終只將實例的類型分為“Instant”或“Interval”,借助歸一化后的Time類區(qū)分,“Begin”與“End”項相同的為“Instant”,反之為“Interval”。最后的輸出內(nèi)容以Time中的Format為依據(jù)。
本文從漢語時間詞入手,對漢語時間表達進行識別并最終生成對應(yīng)的本體文件。在時間的識別上,使用了CRF與LSTM-CRF兩種方法,并利用漢語專有時間詞表進一步提高模型的召回率。時間本體的構(gòu)造利用OWL時間本體的內(nèi)容,采用Turtle語法將歸一化后Time類型實例轉(zhuǎn)變?yōu)闀r間本體文件。
本文研究限于漢語時間詞以及由時間詞和介詞、動詞等輔助詞組成的時間短語。事實上,許多事件型時間表達,即代體時間,例如“吃飯時、下課鈴打響的時候”等同樣具有重要意義,完善的時間解析系統(tǒng)會推動事件抽取、事件理解的發(fā)展,為自然語言處理帶來更多可能。
引用
[1]余東濤.現(xiàn)代漢語時間詞研究[D].武漢:華中師范大學(xué),2006.
[2]李向農(nóng).現(xiàn)代漢語時點時段研究[M].武漢:華中師范大學(xué)出版社,2003.
[3]陳振宇.現(xiàn)代漢語時間系統(tǒng)的認知模型與運算[D].上海:復(fù)旦大學(xué),2006.
[4]杜津.自然語言時間語義信息處理[D].北京:中科院自動化所,2005.
[5]陳世祺,張俊,曾敏,等.基于時態(tài)本體的時態(tài)數(shù)據(jù)表示研究[J].計算機技術(shù)與發(fā)展,2019,29(12):33-39.
[6]郭軍成,萬剛,胡欣杰,等.基于BERT的中文簡歷命名實體識別[J].計算機應(yīng)用,2021,41(S1):15-19.
[7]HUANG Z H,XU W,YU K.Bidirectional LSTM-CRF Models for Sequence Tagging[A].Computer Science,2015.
[8]曾婉.漢語時間詞研究綜述[J].現(xiàn)代語文,2018(5):22-26.