亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文本的事件時空信息標(biāo)注

        2016-05-04 00:41:56張春菊張雪英王曙廖建平陳曉丹
        中文信息學(xué)報 2016年3期
        關(guān)鍵詞:語料庫時空語義

        張春菊,張雪英,王曙,廖建平 ,陳曉丹

        (1. 合肥工業(yè)大學(xué) 土木與水利工程學(xué)院,安徽 合肥,230009;2. 南京師范大學(xué) 虛擬地理環(huán)境教育部重點實驗室,江蘇 南京,210046)

        中文文本的事件時空信息標(biāo)注

        張春菊1,張雪英2,王曙2,廖建平2,陳曉丹2

        (1. 合肥工業(yè)大學(xué) 土木與水利工程學(xué)院,安徽 合肥,230009;2. 南京師范大學(xué) 虛擬地理環(huán)境教育部重點實驗室,江蘇 南京,210046)

        基于文本數(shù)據(jù)源的地理空間信息解析研究側(cè)重于地名實體、空間關(guān)系等空間語義角色的標(biāo)注和抽取,忽略了豐富的時間信息、主題事件信息及其時空一體化信息。該文通過分析中文文本中事件信息描述的語言特點和事件的時空語義特征,基于地名實體和空間關(guān)系標(biāo)注研究成果,制定了中文文本的事件時空信息標(biāo)注體系和標(biāo)注模式,并以GATE(General Architecture for Text Engineering)為標(biāo)注平臺,以網(wǎng)頁文本為數(shù)據(jù)源,構(gòu)建了事件時空信息標(biāo)注語料庫。研究成果為中文文本中地理信息的語義解析提供標(biāo)準(zhǔn)化的訓(xùn)練和測試數(shù)據(jù)。

        中文文本;時空信息;事件;標(biāo)注體系;標(biāo)注語料庫

        1 研究背景

        地理信息是指與空間地理分布有關(guān)的信息,既包括空間定位和幾何信息,也包括時間、時空關(guān)系、物理、化學(xué)和生物等屬性和語義信息[1]。文本是人們時空認(rèn)知結(jié)果的自然語言表現(xiàn)形式,已成為一種重要的地理信息來源[2]。特別是隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人類信息的主要載體和交流平臺,其所匯聚的信息已經(jīng)覆蓋到人類社會、經(jīng)濟、生活等各個角落,網(wǎng)絡(luò)文本成為地理空間信息的重要收藏地[3],如新聞、博客、論壇、統(tǒng)計表格、Wiki等。事件是人們認(rèn)識和理解世界的基本單位,包括時間、空間和主題三個基本特征,是文本(特別是網(wǎng)絡(luò)文本)信息表達的基本粒度和主要形式。事件成為文本數(shù)據(jù)源中地理信息表達的紐帶。實現(xiàn)文本中時空和主題事件信息的語義解析不僅可以為泛在時空信息動態(tài)關(guān)聯(lián)更新,時空信息實時挖掘分析提供數(shù)據(jù)源;而且可以建立自然語言與GIS計算模型之間的語義映射關(guān)系,將時間維、空間維和主題維數(shù)據(jù)有機地、交互地組織,推動地理信息檢索、智能導(dǎo)航、LBS等地理信息服務(wù)向動態(tài)化、多維化、主題化方向發(fā)展。

        在文本描述中,事件時空信息采用特定類型的詞匯和定性的模式進行表達,具有非結(jié)構(gòu)化、語義不確定性、定量與定性描述相結(jié)合的特點。語料庫是帶有特定語言信息的知識庫,是語言定性、定量分析的金本位,支持特定領(lǐng)域的應(yīng)用系統(tǒng)開發(fā)[4]。標(biāo)注體系構(gòu)建的任務(wù)是對語言中特定信息進行分析,發(fā)現(xiàn)文本中特定領(lǐng)域信息的語言結(jié)構(gòu)(例如,詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[5]。不同層次標(biāo)注的語料庫是文本信息解析系統(tǒng)的必備資源,為其提供標(biāo)準(zhǔn)化的訓(xùn)練和測試數(shù)據(jù)[4,6]。GUM(Generalized Upper Model)、TRML(Toponym Resolution Markup Language)、GeoTagger和TESLA(The Geospatial Language Annotator)等典型標(biāo)記語言,側(cè)重于文本中空間語義(特別是地名實體)角色的標(biāo)注[7-9]。SpatialML(Spatial Markup Language)和NaturalGML(Natural Geography Markup Language)研究了文本中地名實體標(biāo)注和空間關(guān)系的結(jié)構(gòu)化表達方法[10-12],但是忽略了文本中豐富的時間信息、時空一體化信息、主題事件信息,及其之間的時空語義關(guān)系,且尚未形成較為系統(tǒng)的標(biāo)注體系和規(guī)范。語言學(xué)領(lǐng)域研究了主題事件信息標(biāo)注和語料庫構(gòu)建方法,包括事件相關(guān)的實體、時間表達、論元角色、句法、語義等,但是沒有從地理空間概念的角度進行時空語義信息的表達,特別是缺少時空一體化信息[13-15]。

        2 中文文本中事件時空信息描述的特點

        每個事件系統(tǒng)都存在一個從萌芽、前兆、發(fā)生、演化、控制、衰減、直到最后消亡的生命周期,時空與屬性語義信息貫穿于生命周期的各個階段。時空語義表達事件發(fā)生位置、影響范圍、發(fā)生時刻,持續(xù)時間長短等信息;屬性特征表達事件在某個維度上的屬性信息,如強度、規(guī)模,經(jīng)濟損失、人員傷亡等。在文本描述中,事件與地名、空間關(guān)系、時間、屬性等信息之間的關(guān)聯(lián)關(guān)系,特別是事件時空演化過程信息的語義關(guān)系是一個復(fù)雜的語義不確定性和模糊性的過程,包括同一事件的演化過程和不同事件之間的關(guān)聯(lián)。

        人們基于一定的詞匯系統(tǒng)和句法結(jié)構(gòu),可以組織各種各樣的語句對認(rèn)知空間世界的事件信息進行描寫、敘述或說明[16]。一個事件實例一般包括名稱、時間信息、空間位置信息、屬性信息等語言單元,事件的語義表達通過一定的句法結(jié)構(gòu)來鏈接各個語言單元。漢語中事件時空信息描述詞匯較為豐富,部分詞匯在一定程度上直接觸發(fā)事件時空語義信息。時間描述通常與表達時間單位的詞匯緊密結(jié)合,如“2013年1月1日”中的年、月、日,以及傍晚、去年、周六、五點等。省、山、湖等地名特征字,以及南邊、北郊、靠近、以東等空間關(guān)系詞匯對空間位置信息的表達具有強烈的指示作用。地震、暴雨、泥石流等事件類型詞匯,以及死亡、失蹤、震級、解救、降雨量、重傷等屬性信息詞匯均能夠在一定程度上指示事件的發(fā)生。此外,發(fā)生、爆發(fā)、突發(fā)等動詞,以及基本上、很大程度、嚴(yán)重等程度副詞可以輔助于事件時空信息的判斷。

        作為時空認(rèn)知外在表現(xiàn)的另一載體,GIS中事件時空與屬性信息存儲在專題數(shù)據(jù)庫中或者以專題地圖的形式展現(xiàn)。圖1為互聯(lián)網(wǎng)地圖和文本兩種形式對汶川地震時空信息表達的示例。

        3 事件時空信息標(biāo)注體系

        3.1 標(biāo)注體系的基本框架

        側(cè)重于事件實體在文本中的時空語義表達,同時考慮信息的兼容、共享與交換性能,本文以XML為標(biāo)記元語言,設(shè)計了事件時空信息標(biāo)注體系。由于事件實體、時間信息、空間信息、屬性信息及其語義關(guān)系在文本中描述具有各自的特征,其標(biāo)注的基本策略是對事件描述的相關(guān)語言單元和語義結(jié)構(gòu)分別進行表達,標(biāo)注框架如圖2所示。其中,地名實體采用標(biāo)簽,包括地名實體id(標(biāo)注序號)、type(要素類型)、typecode(分類代碼)、form(具名和不具名特性)和mod(修飾性詞匯)等屬性[11]??臻g關(guān)系標(biāo)注包括空間關(guān)系實例的id(標(biāo)注序號)、TLINK(拓?fù)潢P(guān)系)、DLINK(方向和距離關(guān)系)、SIGNAL(空間關(guān)系詞匯)、MOD(修飾性詞匯)等屬性[12]。在文本描述中,事件信息的時空要素及時序關(guān)系表達具有稀疏性、分散性,甚至與表述中心存在一定距離,特別是省略和指代形式的事件信息描述涉及到句子、段落,甚至篇章等不同層次的上下文信息。在保證語義基本完整、事件時空信息標(biāo)注具有可操作性與一致性的前提下,本文以句子為單位,對時間、空間位置和事件實體進行最小語義單元的標(biāo)注;以段落為單位標(biāo)注事件之間的指代關(guān)系和事件單元;事件時序關(guān)系標(biāo)注則以篇章為單位。

        圖1 互聯(lián)網(wǎng)地圖(數(shù)據(jù)來源: http: //map.baidu.com/)和文本中汶川地震時空信息表達示例

        圖2 事件時空信息標(biāo)注基本框架

        3.2 時間信息標(biāo)注模式

        時間信息告訴人們某事何時發(fā)生、持續(xù)多長時間、發(fā)生頻率等。中文文本中包含大量的相對時間和時間段信息,如昨天、去年、五周等,需要借助于上下文參考時間才能確定其準(zhǔn)確的時間信息。結(jié)合中文文本中時間信息描述特點,將時間短語分類如表1所示。根據(jù)能否直接定位到時間軸上判斷各時間類型是絕對時間或相對時間。絕對時間可以直接與日歷時間相對應(yīng),如“2007年3月5日”。具體時間、周或星期時間、段時間、時間詞和參照時間,由于缺少“年”時間單位的約束,而無法定位到時間軸上,稱為相對時間。相對時間基于參考時間進行推理后,可與日歷時間對應(yīng)轉(zhuǎn)換。

        表1 中文文本中時間信息分類

        時間信息采用

        (1) 日歷型時間標(biāo)注

        日歷型時間信息描述較為具體、完整,標(biāo)注內(nèi)容包括時間值、時間類型和類型代碼。

        截至2013年7月19日,漳州、廈門地區(qū)因強降雨造成死亡1人、失蹤1人。

        (2) 日歷型時間與具體時間的組合

        日歷型時間與具體時間的組合,如“2010年的春天”、“2008年5月的星期五”。為了保持時間信息的完整語義和推理的準(zhǔn)確性,按照時間單元分別進行標(biāo)注,并標(biāo)注所參照的日歷型時間信息。同理,日歷型時間與時間詞、周/星期時間組合時,其標(biāo)注方法相同。

        2008年5月12日 14時28分04秒,四川汶川、北川,8級強震猝然襲來,大地顫抖,山河移位,滿目瘡痍,生離死別。

        (3) 具體時間標(biāo)注

        尋找具體時間的上下文信息,若包含日歷型時間且具有參照關(guān)系,則按照日歷型時間與具體時間標(biāo)注規(guī)則進行標(biāo)注。若無參照關(guān)系的日歷型時間,則參照時間設(shè)置為缺省。

        截止16時35分,最大的降雨量地區(qū)是202.3毫米。

        (4) 參照時間標(biāo)注

        參照時間的標(biāo)注,不僅要標(biāo)注其值,還要標(biāo)注其參照的絕對時間,以便于時間值的推理。特別是當(dāng)其參照的絕對時間不是日歷型時間時,應(yīng)尋找其上下文中最近距離的日歷型時間。

        發(fā)表于南京日報2013年9月2日。8月23日,華潤蘇果發(fā)生搶劫案,在此前一天發(fā)生了盜竊事件。 注: 經(jīng)過推理,“前一天”具體時間值為“2013年8月22日”

        (5) 段時間標(biāo)注

        點時間和段時間是由文本表述的時間尺度決定的。一般情況下,時間表達多為點時間,如“11月30日下午19: 00左右”。如果強調(diào)“多長時間”則為段時間,如“9天”、“l(fā)月14日至22日”。段時間需要標(biāo)注其起點(StartID)、終點(EndID)和時間類型。對于非日歷型時間的段時間表達,需要標(biāo)注其參照時間關(guān)系。

        青海省玉樹縣于2010年4月14日晨發(fā)生地震,大小余震不斷,持續(xù)到4月25日。

        (6) 時間修飾成分

        例如,“昨天上午10時45分左右”、“截至昨天下午2時”、“2008年底前”等時間描述中,詞匯“左右、截止、前”均是對時間的修飾成分。

        “昨天 上午 10時45分 左右”。

        (7) 不可標(biāo)注時間

        部分文本描述與時間有緊密的聯(lián)系,但無法確定其值,如“在、從、自、到、至、才、然后、其次、后來、經(jīng)常、偶爾、多次、通常、反復(fù)、有時、從來”等。在上下文中不指示一定時間的時間詞匯,如“這里的冬天很冷”中的“冬天”。此類時間描述不予標(biāo)注。

        3.3 事件實體標(biāo)注模式

        時間、空間和屬性是事物本身固有的三個基本特征,是反映事物狀態(tài)和演變過程的重要構(gòu)件[17],是事件客觀性判斷的依據(jù)。本文事件分類參照《突發(fā)公共事件分類(國發(fā)〔2005〕11號)》中分類標(biāo)準(zhǔn)。事件實體標(biāo)注采用標(biāo)簽,包括事件實體的id、type(事件類型)、typecode(分類代碼)、form(具名和不具名特性)、signal(預(yù)測性事件的指示詞匯)、描述指代關(guān)系事件Refevent、TargetEvent(指代關(guān)系中目標(biāo)事件)、SourceEvent(指代關(guān)系中參照事件)、Attribute(屬性信息)、AttributeID(屬性信息的id)。

        (1) 事件名稱標(biāo)注

        對于蘊含具體地理位置、時間和屬性信息,或通過上下文能夠判斷其具有確定的時空與屬性信息的事件,則為具名事件,否則視為不具名事件。使用標(biāo)簽form進行區(qū)分,NAM表示具體事件,NOM表示非事件。

        汶川地震的8度區(qū)面積約27787平方公里。 汶川地震紀(jì)念碑是一座具有強烈震撼力的紀(jì)念碑!

        (2) 事件觸發(fā)詞匯標(biāo)注

        當(dāng)事件名稱缺失時,觸發(fā)詞匯在一定程度上標(biāo)志事件的發(fā)生,包括描述事件概念類型的詞匯(如地震、暴雨、泥石流等)和屬性信息詞匯(如7.8級地震)。根據(jù)時空約束信息判斷觸發(fā)詞匯是否指示具體事件,并使用標(biāo)簽form進行區(qū)分。事件描述中經(jīng)常出現(xiàn)“爆發(fā)”、“發(fā)生”等動詞,本規(guī)范不對其標(biāo)注。

        從本月12日開始,四川部分地方降大暴雨,引發(fā)多處特大泥石流災(zāi)害。 地震又稱地動、地振動,是地殼快速釋放能量過程中造成振動。

        (3) 事件觸發(fā)詞匯出現(xiàn)多個或者缺省

        一個句子可能出現(xiàn)多個不同的事件觸發(fā)詞匯。當(dāng)該觸發(fā)詞匯指示不同事件,則分別標(biāo)注;若指示同一事件,則任選其一進行標(biāo)注。若描述具體事件的句子中,沒有出現(xiàn)事件名稱和相關(guān)觸發(fā)詞匯,則標(biāo)記為事件詞缺省NONE。

        北京強暴雨事件引發(fā)房山地區(qū)山洪暴發(fā),據(jù)馬河上游洪峰下泄,不到24小時,已致37人遇難,190萬人受災(zāi)。 經(jīng)過行竊者和老板一番搏斗,書店中一片狼藉,兩個人躺在地上,遍地是血。

        (4) 事件昵稱的標(biāo)注

        部分事件描述出現(xiàn)“稱為××”、“視為××”等評價、程度信息,不做標(biāo)注。

        1998年洪水,是本世紀(jì)發(fā)生的又一次全流域型的特大洪水,稱為“百年不遇之洪水”。

        (5) 事件名稱與地名實體組合

        地名實體經(jīng)常與事件名稱或觸發(fā)詞匯描述連接在一起,或者作為事件名稱的組成部分,表示事件及其發(fā)生位置兩層語義信息。為了保證語義信息的完整性,本文分別標(biāo)注地名實體、事件名稱或觸發(fā)詞匯,可以存在交叉標(biāo)注現(xiàn)象。

        截至2008年9月25日12時,四川汶川地震已確認(rèn)69227人遇難,374643人受傷,失蹤17923人。

        (6) 指代事件的標(biāo)注

        文本中,經(jīng)常出現(xiàn)上文中描述的事件信息,下文中省略事件的具體名稱或者觸發(fā)詞匯,以“該事件”、“此次災(zāi)難”等指代形式表達。以段落為單位,對指代事件及其參照事件和目標(biāo)事件進行標(biāo)注。當(dāng)指代事件跨段落時,只標(biāo)注其觸發(fā)詞匯和事件類型,不標(biāo)注其指代關(guān)系。

        2008年5月12日14時28分04秒,汶川地震爆發(fā)。截至2008年9月25日12時,此災(zāi)難已確認(rèn)69227人遇難,374643人受傷,失蹤17923人。

        (7) 預(yù)測性事件

        文本中經(jīng)常出現(xiàn)預(yù)測性事件的描述,如詞匯“預(yù)測”、“預(yù)報”、“將”、“未來”等。本文只標(biāo)注已經(jīng)發(fā)生的客觀性事件,對于預(yù)測性事件不予標(biāo)注,或者標(biāo)注為NOM并標(biāo)注預(yù)測性的指示詞匯。

        天氣預(yù)報顯示,17到18日晚、21日至23日,四川包括廣元、綿陽、成都等8個地區(qū)將有兩次強降雨過程,尤其是21日至23日,局部地區(qū)降雨量甚至將超過200毫米。

        (8) 屬性信息標(biāo)注

        文本中蘊含豐富的事件屬性信息描述。在事件實體標(biāo)注的基礎(chǔ)上,增加其屬性信息描述。本文中事件的屬性信息標(biāo)注采用最大粒度,不對其進行細(xì)化。

        震中位于北緯35.5°、東經(jīng) 99.5°,震源深度10 千米。

        3.4 事件單元標(biāo)注模式

        事件實體和時空信息及其語義關(guān)聯(lián)關(guān)系構(gòu)成完整的事件單元。在時間信息、地理位置信息(地名、空間關(guān)系)、事件實體、屬性各個要素單元標(biāo)注的基礎(chǔ)上關(guān)聯(lián)完整的事件單元。事件單元的判斷與標(biāo)注以段落為單位。事件單元采用標(biāo)簽,包括事件實體(EVEntity)、“事件-時間”關(guān)聯(lián)(TimeLINK)和“事件-空間”關(guān)聯(lián)(LocLINK)。

        (1) 事件-時間關(guān)聯(lián)

        包括EVEntity(事件實體)、TIME(時間信息)和TimeLINK(事件-時間關(guān)聯(lián))標(biāo)簽信息。

        2008年5月12日,四川汶川、北川,8級強震。

        (2) 事件-空間關(guān)聯(lián)

        包括標(biāo)簽EVEntity(事件實體)、GNE(地名實體)、TLINK(拓?fù)潢P(guān)系)、DLINK(方向和距離關(guān)系)和LocLINK(事件-空間關(guān)聯(lián))。

        北京時間2008年5月12日,四川省汶川縣發(fā)生里氏8.0級強震,地震烈度達到9度,嚴(yán)重破壞地區(qū)超過10萬平方千米。

        在“事件-時間”、“事件-空間”關(guān)聯(lián)的基礎(chǔ)上,進行事件單元的標(biāo)注。

        2008年5月12日,四川省汶川縣發(fā)生8.0級強震,地震烈度達到9度,嚴(yán)重破壞地區(qū)超過10萬平方千米。

        3.5 事件時序關(guān)系標(biāo)注模式

        事件與事件之間,以及事件與某個時間點之間存在時間上的先后順序關(guān)系,即時序關(guān)系。事件組成要素和事件單元作為單獨孤立的事件節(jié)點存在,而時序關(guān)系將孤立的事件節(jié)點在時間上進行關(guān)聯(lián)。為了保證事件時序關(guān)系的描述粒度較為適中,時間邊界較為清晰,本文將事件的時序關(guān)系分為前(Before)、后(After)和同時(Simultaneous)三種類型,分別表示一個事件發(fā)生在另一事件之前、之后、同時發(fā)生。事件時序關(guān)系標(biāo)注采用標(biāo)簽,包括描述事件時序關(guān)系的id號、RelationType(時序關(guān)系類型)、SourceEvent(參照事件)、TargetEvent(目標(biāo)事件)和signals(語氣詞匯)。通常情況下,多個事件之間形成復(fù)雜的時序關(guān)系,本文將其簡化為二元時序關(guān)系進行標(biāo)注。

        2008年5月12日,四川汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災(zāi)害。

        上例中完整的事件時空信息標(biāo)注結(jié)果如下:

        2008年5月12,汶川特大地震爆發(fā)后,隨著降雨的發(fā)生,北川部分地區(qū)多次發(fā)生泥石流災(zāi)害。

        4 語料庫構(gòu)建和應(yīng)用分析

        4.1 語料庫標(biāo)注

        語料標(biāo)注工作是在標(biāo)注規(guī)范的約束下,人工進行文本識別和語義解析的過程。GATE是一個開源自然語言處理軟件,可接受XSD格式的schema文件,使用戶按照一定標(biāo)注框架對文本進行標(biāo)注,同時提供標(biāo)注數(shù)據(jù)管理方案,經(jīng)過GATE處理的語料可統(tǒng)一存儲為XML格式。通過大規(guī)模新聞網(wǎng)頁語料的收集獲取、網(wǎng)頁去重與解析,以及分詞、詞性標(biāo)注等預(yù)處理,形成網(wǎng)頁文本源數(shù)據(jù)(約200萬字)。以GATE為標(biāo)注平臺,參考本文設(shè)計的事件時空信息標(biāo)注體系,建立事件時空信息標(biāo)注語料庫(見圖3)。

        圖3 基于GATE的事件時空信息標(biāo)注界面

        實驗中隨機抽取流感、南海軍事演習(xí)、中國東盟會議、地震、暴雨、干旱六類事件的350個文件進行統(tǒng)計,共有事件單元標(biāo)注實例1 057個。各類事件及其要素單元數(shù)量分布情況為: 流感事件330個(GNE為974個、Time為672個、Attribute為532個、Eventy為521個),南海軍事演習(xí)事件151個(GNE為1 031個、Time為312個、Attribute為688個、Eventy為330個),中國東盟會議事件78個(GNE為445個、Time為142個、Attribute為257個、Eventy為152個),暴雨事件139個(GNE為767個、Time為296個、Attribute為368個、Eventy為285個),地震事件171個(GNE為841個、Time為237個、Attribute為367個、Eventy為318個),干旱事件137個(GNE為538個、Time為333個、Attribute為262個、Eventy為244個)。事件單元描述與地名、時間、屬性和事件實體單個要素通常呈現(xiàn)一對多的關(guān)系,一方面因為事件本身存在時空語義的變化,涉及多個地理位置和時間信息;另一方面文本描述中也存在部分時空信息與事件實體不相關(guān)聯(lián)的情況??傮w上來講,語料庫語言描述特征帶有一定的普遍性,具有作為標(biāo)準(zhǔn)數(shù)據(jù)的研究和應(yīng)用能力。

        4.2 事件時空信息抽取實驗

        (1) 基于規(guī)則模型的時間信息抽取

        基于本文時間信息語料庫,構(gòu)建時間詞匯詞典和時間信息描述模式庫,設(shè)計時間信息匹配算法,采用觸發(fā)詞和規(guī)則模型相結(jié)合的方式進行時間信息的抽取[18]。實驗結(jié)果發(fā)現(xiàn),準(zhǔn)確率、召回率和F值分別為75.00%、88.24%和81.08%。同時,針對中文文本中時間信息描述的模糊、省略、指代等常見現(xiàn)象,設(shè)計了相對時間、特定時間和時間段的推理和規(guī)范化算法,進行中文文本中時間信息的語義解析。由于網(wǎng)頁文本中時間信息描述較為靈活,存在跨段落的省略和指代現(xiàn)象,標(biāo)注者對時間信息的參照關(guān)系可能漏標(biāo)或者標(biāo)注錯誤,導(dǎo)致時間表達模板的數(shù)量和覆蓋性受到限制,從而在一定程度上影響時間信息的解析效果。

        (2) 基于支持向量機模型的事件分類

        事件分類是指判斷文本中描述的事件類型。觸發(fā)詞匯是事件判斷的必要條件,但包含了觸發(fā)詞匯的句子可能是事件,也可能不是事件。例如,“地震是一種正常的自然現(xiàn)象?!?,只是對地震的一種常識性描述。同時,部分事件描述文本不包含觸發(fā)詞匯,卻傳遞具體的事件信息,如“9月20日,映秀鎮(zhèn)死亡人數(shù)已經(jīng)達到30人”。時間、空間和屬性是事物本身固有的三個基本特征,是事件客觀性判斷的依據(jù)。根據(jù)事件的時空表達特性,基于事件時空信息標(biāo)注語料,以時間信息、空間信息、屬性信息、事件名稱等標(biāo)注結(jié)果作為上下文約束特征,采用支持向量機模型,進行中文文本中事件的分類[18]。實驗結(jié)果發(fā)現(xiàn),在封閉和開放測試中,分類的準(zhǔn)確率分別為92.30%和80.60%。可以看出,本文標(biāo)注語料具有較好的平衡性,機器學(xué)習(xí)效果較好。

        5 結(jié)語

        探討中文文本中事件時空信息的標(biāo)注體系和語料庫標(biāo)注方法,充分考慮中文文本的語言描述特點和事件信息的時空語義特征,對事件的各要素單元及其語義關(guān)聯(lián)進行標(biāo)注。以網(wǎng)頁文本為源數(shù)據(jù)的標(biāo)注語料庫,充分考慮語言描述的多樣性、自由性、普遍性,而且達到較大規(guī)模和較高標(biāo)注質(zhì)量,對文本中地理信息的語義解析有重要意義。未來研究工作主要包括以下方面:

        (1) 主題事件的發(fā)生往往會引發(fā)后續(xù)的系列次生事件,事件之間存在廣泛的時序語義關(guān)系。例如,暴雨事件發(fā)生在山區(qū)或者溝谷深壑地區(qū),會引發(fā)山體滑坡、泥石流等事件。事件之間的時序關(guān)系描述是一個復(fù)雜的語義不確定性和模糊性的過程。未來將進一步完善事件時空信息標(biāo)注體系和規(guī)范,特別是事件之間時序關(guān)系的標(biāo)注。

        (2) 我國地域遼闊、歷史悠久,各個歷史時期、不同地域范圍的人們對事件時空信息有不同的描述方式。本論文研究主要針對簡體中文文本描述中的突發(fā)公共事件,尚未考慮地域方言,香港、澳門、臺灣地區(qū)的語言表達,以及歷史事件的時空信息結(jié)構(gòu)化表達。

        (3) 本文構(gòu)建的標(biāo)注語料庫為中文文本中事件時空信息解析提供標(biāo)準(zhǔn)化的訓(xùn)練和測試數(shù)據(jù)。未來將基于該語料庫,探索事件時空信息的結(jié)構(gòu)化表達和可視化重構(gòu)方法,搭建事件時空信息的定性描述與GIS定量表達之間的橋梁。

        [1] 閭國年,袁林旺,俞肇元. GIS技術(shù)發(fā)展與社會化的困境與挑戰(zhàn)[J].地球信息科學(xué)學(xué)報,2013,15(4): 483-490.

        [2] Palkowsky B,MetaCarta I. A New Approach to Information Discovery—Geography Really Does Matter[C]//Proceedings of the SPE Annual Technical Conference and Exhibition,United States,2005: 3231-3234.

        [3] Goodchild M F. Twenty Years of Progress: GIScience in 2010[J]. Journal of Spatial Information Science,2013,1: 3-20.

        [4] 俞士汶,朱學(xué)鋒,段慧明. 大規(guī)?,F(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J]. 中文信息學(xué)報,2000,14(6): 58-65.

        [5] 馮志偉. 標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用[J]. 當(dāng)代語言學(xué)(試刊),1998,4: 1-11.

        [6] 俞士汶,段慧明,朱學(xué)鋒等. 北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學(xué)報,2002,16(5): 1-23.

        [7] Kim J D,Ohta T,Tsujii J I. Multilevel Annotation for Information Extraction Introduction to the GENIA Annotation[J].Linguistic Modeling of Information and Markup Languages,2010,41: 125-142.

        [8] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names [D]. Edinburgh: University of Edinburgh,2008.

        [9] Blaylock N,Swain B,Allen J. TESLA: A Tool for Annotating Geospatial Language Corpora[C]//Proceedings of the 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009: 45-28.

        [10] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names[J]. University of Edinburgh,2007,41(2): 124-126.

        [11] 張雪英,朱少楠,張春菊.中文文本的地理命名實體標(biāo)注[J].測繪學(xué)報,2012,41(1): 115-120.

        [12] 張雪英,張春菊,朱少楠.中文文本的地理空間關(guān)系標(biāo)注[J].測繪學(xué)報,2012,41(3): 468-474.

        [13] 鄒紅建. 突發(fā)事件信息的標(biāo)注研究[D]. 碩士論文: 北京語言大學(xué),2008.

        [14] 張永奎,張晴,王磊.面向信息處理的突發(fā)事件新聞?wù)Z料庫建設(shè)與應(yīng)用研究[J]. 山西大學(xué)學(xué)報(自然科學(xué)版),2009,32(4): 546-551.

        [15] 仲兆滿,劉宗田,周文等. 事件關(guān)系表示模型[J]. 中文信息學(xué)報,2009,23(6): 56-60.

        [16] 方經(jīng)民. 空間方位參照的認(rèn)知結(jié)構(gòu)[J]. 世界漢語教學(xué),1999,50 (4): 32-38.

        [17] 吳信才,曹志月.時態(tài)GIS的基本概念、功能及實現(xiàn)方法[J].中國地質(zhì)大學(xué)學(xué)報,2002,27(3): 241-250.

        [18] 張春菊.中文文本中事件時空與屬性信息解析方法研究[D].南京師范大學(xué)博士學(xué)位論文,2013.

        Annotation of Spatial-Temporal Information of Event in Chinese Text

        ZHANG Chunju1,ZHANG Xueying2,WANG Shu2,LIAO Jianping2,CHEN Xiaodan2

        (1. School of Civil Engineering,Hefei University of Technology,Hefei,Auhui 230009,China;2. Key Laboratory of Uirtual Geographic Environments,Nanjing Normal University, Nanjing, Jiangsu 210046,China)

        Text has become an important data source of geo-spatial information. Currently,researches on structured geo-spatial information expression focused on extraction of spatial information,such as place names and spatial relations in text. However,abundant temporal information,event information and spatial-temporal information are ignored. In this paper,annotation of spatial-temporal information of event in Chinese text is proposed. Firstly,the linguistic characteristics of spatial-temporal information of event in Chinese text are analyzed. Then,an annotation schema is presented,and the annotation specification is decribed in detail.Finally,GATE (General Architecture for Text Engineering) is introduced as the annotation platform,and a large-scale annotated corpus based on the Web data source is developed and evaluated. This study effectively addresses the current lack of related specification and standard data for interpretation of event and spatial-temporal information in Chinese text.

        Chinese text; spatial-temporal information; event; annotation schema; annotated corpus

        張春菊(1984—),博士,講師,主要研究領(lǐng)域為地理信息智能處理與服務(wù)。E?mail:zcjtwz@sina.com張雪英(1970—),博士,教授,主要研究領(lǐng)域為地理信息理論與應(yīng)用研究。E?mail:zhangsnowy@163.com王曙(1989—),碩士,博士研究生,主要研究領(lǐng)域為地理信息形式化與空間化方法。E?mail:shuwang8951@hotmail.com

        2014-05-09 定稿日期: 2014-12-23

        國家自然科學(xué)基金(41401451,40971231),國家863項目(2012AA12A403-3),中央高?;究蒲袠I(yè)務(wù)項目(JZ2014HGBZ0064),江蘇省測繪地理信息科研項目(JSCHKY201502)

        1003-0077(2016)03-0213-10

        TP391

        A

        猜你喜歡
        語料庫時空語義
        跨越時空的相遇
        鏡中的時空穿梭
        語言與語義
        《語料庫翻譯文體學(xué)》評介
        玩一次時空大“穿越”
        把課文的優(yōu)美表達存進語料庫
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        時空之門
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        認(rèn)知范疇模糊與語義模糊
        亚洲一区二区三区18| 国产午夜av一区二区三区| 日产无人区一线二线三线乱码蘑菇| 少妇下面好紧好多水真爽| 亚洲网站免费看| 国产精品r级最新在线观看| 久久一区二区国产精品| 色欲AV成人无码精品无码| 内谢少妇xxxxx8老少交| 麻豆文化传媒精品一区观看| 加勒比一本大道大香蕉| 国产欧美成人| 插b内射18免费视频| 性色视频加勒比在线观看| 亚洲一区二区三区乱码在线| 欧美视频在线观看一区二区| wwww亚洲熟妇久久久久| 国产亚洲精品品视频在线 | 日本不卡在线视频二区三区| 欧洲乱码伦视频免费| 国产精品毛片一区二区三区| 2021久久精品国产99国产| 国产在线精品一区二区三区不卡| 色狠狠色狠狠综合天天| 亚洲av狠狠爱一区二区三区| 国产免费午夜福利蜜芽无码| 亚洲一级毛片免费在线观看| 暖暖视频在线观看免费| 亚洲综合网站久久久| 国产剧情一区二区三区在线| 天堂精品人妻一卡二卡| 无码AV无码免费一区二区| 欧美日韩亚洲国产千人斩| 影视先锋av资源噜噜| 国产啪亚洲国产精品无码| 夜夜爽夜夜叫夜夜高潮| 亚洲av色av成人噜噜噜| 国产在线观看免费不卡视频| 高潮社区51视频在线观看| 久久久久久国产精品免费网站| 亚洲精品国精品久久99热一|