亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GATE的中文時間信息抽取方法

        2021-01-08 11:40:30宋國民張三強(qiáng)賈奮勵
        測繪工程 2021年1期
        關(guān)鍵詞:詞表分詞組件

        宋國民,張三強(qiáng),2,賈奮勵

        (1.信息工程大學(xué),河南 鄭州 450001; 2.69340部隊,新疆 伊犁 835000)

        隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)的飛速發(fā)展,人類正逐漸步入信息社會。如何快速、自動地從各類紛繁復(fù)雜的媒體數(shù)據(jù)中獲取用戶關(guān)注的信息,已成為人類有效利用海量數(shù)據(jù)的關(guān)鍵。信息抽取(Information Extraction)作為從文本中自動獲取信息的一種重要手段[1],已成為自然語言處理領(lǐng)域的重要研究內(nèi)容。它是指從自然語言文本中識別并抽取出用戶感興趣的信息[2],多以結(jié)構(gòu)化的形式對抽取結(jié)果進(jìn)行描述和存儲,以便用戶查詢和分析使用。信息抽取利用自然語言處理技術(shù),通過對文本進(jìn)行一系列處理,從中抽取出相關(guān)信息。信息抽取是與領(lǐng)域密切相關(guān)的,只能抽取系統(tǒng)預(yù)先定義的有限種類的信息[3]。

        時間信息抽取是事件信息抽取的一項重要工作,在時空泛在信息、地理空間情報等信息獲取與處理、關(guān)聯(lián)、聚合和內(nèi)容服務(wù)中具有重要作用。其作為信息抽取的一個重要研究內(nèi)容,一直受到國內(nèi)外學(xué)者的關(guān)注。常用抽取方法主要有基于規(guī)則匹配的方法和基于機(jī)器學(xué)習(xí)的方法兩種[3-9]。基于規(guī)則匹配的方法是指在掌握各種時間信息表達(dá)規(guī)律的基礎(chǔ)上,通過人工或半自動方式編制時間信息抽取規(guī)則,并基于這些規(guī)則實現(xiàn)時間信息的抽取。這種方法使用簡便,易于理解和擴(kuò)展,且抽取效率及準(zhǔn)確率很高,但這些規(guī)則往往只面向特定語言和文本形式,人工工作量較大;基于機(jī)器學(xué)習(xí)的方法是指通過對標(biāo)注時間信息的語料庫的學(xué)習(xí),訓(xùn)練各種機(jī)器學(xué)習(xí)模型,并基于該訓(xùn)練模型實現(xiàn)時間信息的抽取。這種方法可以充分利用語料庫中己標(biāo)注的上下文信息,獲得較高的召回率,但該方法過分依賴標(biāo)注語料的質(zhì)量,受訓(xùn)練語料的范圍和規(guī)模限制。

        本文在分析時間信息抽取常用方法特點的基礎(chǔ)上,提出利用GATE軟件(General Architecture for Text Engineering)進(jìn)行中文文本的時間信息抽取。介紹GATE的基本框架及各部分的功能作用;分析GATE用于中文時間信息抽取存在的不足,提出具體的改進(jìn)措施;圍繞基于GATE進(jìn)行時間信息抽取的主要步驟,具體闡述各項改進(jìn)內(nèi)容;利用已標(biāo)注時間信息的實驗數(shù)據(jù),對中文時間信息抽取進(jìn)行實踐檢驗,并對實驗結(jié)果進(jìn)行分析和總結(jié)。

        1 GATE簡介

        GATE是英國謝菲爾德大學(xué)于1995年開始開發(fā)的、基于JAVA的、開源的自然語言處理框架,現(xiàn)已廣泛應(yīng)用于多語言信息抽取。其作為一個自然語言處理框架,將其框架內(nèi)所有的自然語言處理資源劃分為不同功能類型組件。CREOLE(Collection of REusable Objects for Language Engineering)作為GATE的核心組件之一,將可重用的處理資源進(jìn)行了組合。CREOLE組件主要有三種樣式:語言資源組件(Language Resources,LRs)、處理資源組件(Processing Resources,PRs)和可視化資源組件(Visual Resources,VRs)。語言資源組件是指與信息抽取有關(guān)的各種資源,如語料庫、文檔、詞表和本體等;處理資源組件是指信息抽取過程中的不同數(shù)據(jù)處理模塊,如分詞模塊、分句模塊、詞性標(biāo)注模塊和命名實體識別模塊等;可視化資源組件是指構(gòu)成GATE可視化操作界面的各種資源。

        GATE除了提供CREOLE組件之外,還提供了一些專項功能組件,如用于英文信息抽取的ANNIE(A Nearly-New Information Extraction system)組件,用于建立信息抽取規(guī)則庫的語法工具JAPE(a Java Annotation Patterns Engine)組件,用于支持不同語言文本(如中文、法語、德語、印度語,等等)信息抽取的組件。ANNIE是一個基于規(guī)則的、用于英文文本資源信息抽取和實體標(biāo)識的組件,使用JAPE語言及其它處理資源來實現(xiàn)各種不同的信息抽取任務(wù)。其按照分詞(tokeniser)、詞表查詢(gazetteer lookup)、分句(sentence splitter)、詞性標(biāo)注(POS tagger)、語義標(biāo)注(semantic tagger)、命名實體識別(named entity recognition)、共指消解(ortho matcher)等信息處理順序,實現(xiàn)英文文本的信息抽取[10]。JAPE是GATE的信息抽取規(guī)則定義語言??山Y(jié)合不同語言特點編寫JAPE規(guī)則,利用GATE自帶的編譯器,將其編譯成可實現(xiàn)命名實體識別的數(shù)據(jù)處理模塊。一個JAPE文件由若干條語法句子組成,每條語法句子又由一條或若干條規(guī)則構(gòu)成。

        2 基于GATE的中文時間信息抽取

        GATE提供了中文信息抽取組件,用于中文文本信息的處理和抽取。但直接利用該組件進(jìn)行中文時間信息抽取,其抽取效果并不理想,主要表現(xiàn)在:①對中文文本分詞處理不夠?qū)I(yè),無法實現(xiàn)真正意義上的中文分詞;②中文時間領(lǐng)域詞表不夠完善,其定義的時間類型不完整,收集的時間詞匯數(shù)量較少;③基于英文語法特點編寫的JAPE規(guī)則沒有結(jié)合中文時間表達(dá)特點進(jìn)行改造,不能有效支持中文時間信息的識別和抽取。

        為此,利用GATE進(jìn)行中文時間信息抽取,需要針對以上三個方面問題分別開展工作:①引入優(yōu)秀的中文分詞軟件,解決中文文本分詞不專業(yè)的問題;②梳理中文時間類型,收集中文時間詞匯,形成專業(yè)、完備的中文時間領(lǐng)域詞表;③圍繞擴(kuò)展后的中文時間領(lǐng)域詞表,結(jié)合中文時間表達(dá)特點,重新編寫JAPE抽取規(guī)則,提高中文時間的識別和抽取準(zhǔn)確率。

        2.1 抽取流程

        基于GATE 的中文時間信息抽取流程如圖1所示,其主要步驟包括:①利用NLPIR/ICTCLAS 2015分詞軟件對原始中文文本進(jìn)行分詞和詞性標(biāo)注;②在第一步文本處理的基礎(chǔ)上,刪除中文文本的詞性標(biāo)注項;③擴(kuò)展并完善GATE中的中文時間領(lǐng)域詞表;④針對中文時間信息表達(dá)規(guī)律,重新編寫GATE的中文時間信息抽取規(guī)則(JAPE);⑤將處理后的中文文本導(dǎo)入GATE中,利用修改后(擴(kuò)展詞表、抽取規(guī)則)的中文抽取組件(Chinese NE),識別并抽取中文時間信息。

        圖1 基于GATE的中文時間信息抽取流程

        2.2 分詞及詞性標(biāo)注

        對文本進(jìn)行信息抽取,首要工作是對其進(jìn)行分詞和詞性標(biāo)注。英文以單詞為基本單元組織的,不存在分詞問題。中文文本的詞匯之間并無明確的分割標(biāo)識,必須進(jìn)行分詞處理。詞性標(biāo)注是指對分詞后的每一個詞增加詞性標(biāo)記,說明其詞性類型,如名詞、動詞、副詞等,為后續(xù)的命名實體識別和共指消解打下基礎(chǔ)。但GATE對中文分詞處理不夠?qū)I(yè),無法實現(xiàn)真正意義上的中文分詞,故需利用專業(yè)的中文分詞軟件對原始中文文本進(jìn)行分詞處理。

        本文利用張華平博士團(tuán)隊的NLPIR/ICTCLAS 2015分詞軟件,對中文文本進(jìn)行分詞與詞性標(biāo)注處理。NLPIR/ICTCLAS是張華平博士團(tuán)隊在自然語言處理領(lǐng)域十多年研究工作積累的基礎(chǔ)上研制出的分詞軟件,具備中英文混合分詞、詞性標(biāo)注、命名實體識別、新詞識別、關(guān)鍵詞提取等功能,同時支持用戶專業(yè)詞表與微博分詞。系統(tǒng)支持多種字符編碼、多種操作系統(tǒng)、多種開發(fā)語言及平臺。2006年推出的ICTCLAS 3.0分詞正確率就高達(dá)98.13%。

        基于GATE進(jìn)行中文信息抽取時并沒有用到詞語的詞性信息。利用NLPIR/ICTCLAS分詞軟件對中文文本進(jìn)行分詞與詞性標(biāo)注后,需將文本中的詞性信息刪除,只保留用空格隔開的分詞信息,這樣就與英文的分詞形式保持一致。GATE中文信息抽取組件的chinese tokeniser(中文分詞器)可將分割后的詞語作為一個Token(標(biāo)記),以進(jìn)行后續(xù)的信息抽取工作。

        2.3 擴(kuò)展時間領(lǐng)域詞表

        詞表是GATE進(jìn)行信息抽取的基本語言資源,詞表類型的完整性及詞表內(nèi)容的完備性直接影響著命名實體的識別效果[11-12]。GATE的詞表由兩類文本文件組成:一類是以lst作為后綴的詞典文件,每個文件代表著一個實體類型,在文件中列舉了該實體類型的各種概念形式[1],如day.lst文件列舉了星期的表達(dá)形式;另一類是以def作為后綴的索引文件,其記錄了詞典文件中定義的實體主類(majortype)、子類(minortype)及相互間的關(guān)系。

        GATE 8.0提供的中文時間詞表文件主要由century(世紀(jì))、decade(年代)、year(年)、season(季度)、month(月)、date(日期)、day(星期)、festival(節(jié)日)等8個詞典文件及相關(guān)附屬文件組成,每個詞典文件分別對應(yīng)1個時間類型。將其直接用于中文時間信息抽取存在兩方面的問題:一是時間類型不完整,GATE 8.0只能識別上述8種時間類別,無法識別時鐘時間、模糊時間、周期時間、時間段、農(nóng)歷時間、我國朝代及帝王年號時間等比較常用的時間類型;二是時間內(nèi)容不完備,詞典文件中提供的中文時間詞匯較少。為此,在充分分析現(xiàn)有時間詞典文件的基礎(chǔ)上,圍繞其存在的兩方面問題有針對性地開展了以下工作:一是通過調(diào)整、增加中文時間詞典文件,豐富時間類型。GATE 8.0自帶8個中文時間詞典文件,對應(yīng)了8類中文時間類型。本文在其基礎(chǔ)上,調(diào)整、拆分了個別時間類型,將原有的年、月、日、節(jié)日等4種時間類型分別拆分為公歷和農(nóng)歷兩種形式,形成8種中文時間類型;增加了時鐘時間、模糊時間、周期時間、時間段、我國朝代及帝王年號時間等時間類型及對應(yīng)的中文時間詞典文件。通過調(diào)整與補(bǔ)充,使得系統(tǒng)可識別的時間類型達(dá)到20種,表1是調(diào)整、擴(kuò)展以后的主要的時間詞典文件及對應(yīng)的時間類型;二是擴(kuò)充現(xiàn)有詞典文件的時間詞匯,補(bǔ)充新增加時間詞典文件的時間詞匯,完善了中文時間詞表文件。對于GATE 8.0已有的中文時間類型,通過補(bǔ)充其時間詞匯,豐富了時間詞典文件內(nèi)容,如“月份”這一時間類型,原中文時間詞典文件收錄詞匯75個,通過拆分為公歷月和農(nóng)歷月兩個時間類型,并擴(kuò)充其時間詞匯后,收錄了與公歷月相關(guān)的時間詞匯297個,與農(nóng)歷月相關(guān)的時間詞匯204個。對于新增加的中文時間類型,通過收集、分析、整理資料,形成其對應(yīng)的中文時間詞典文件,如中國朝代詞典文件收錄我國朝代詞匯70個、我國帝王年號詞典文件收錄中國帝王年號詞匯600余個,等等。通過補(bǔ)充與新增,使得中文時間詞典文件收錄的時間詞匯由原來的365個擴(kuò)充到2 400余個。

        2.4 編寫時間信息抽取規(guī)則

        GATE是基于JAPE規(guī)則進(jìn)行命名實體識別的。如果規(guī)則設(shè)置合理、完備,則可有效提高信息抽取的準(zhǔn)確性。GATE的JAPE規(guī)則在后綴為jape的文本文件中進(jìn)行定義。每個文件定義了一個實體類型的抽取規(guī)則,列舉了在領(lǐng)域詞表中定義的該類實體主類、子類及附屬信息的抽取規(guī)則,如location.jape文件定義了地點的抽取規(guī)則,person.jape文件定義了人物的抽取規(guī)則。

        GATE中文信息抽取組件自帶的date.jape文件定義了中文日期的抽取規(guī)則,基于該文件可抽取出世紀(jì)、年代、年、季度、月、日期、星期、節(jié)日等日期實體的信息。但該規(guī)則編寫較為簡單,無法有效支持中文時間的命名實體識別,主要存在兩方面的問題:一是因GATE8.0自帶的時間領(lǐng)域詞表所對應(yīng)的時間類型有限(只有8種),故只能支持該部分類型的時間實體識別;二是因編寫的時間實體抽取規(guī)則較為簡單,只能對由這8種時間類型定義的基本時間單元實體進(jìn)行識別(如“2019年9月2日”,系統(tǒng)將其識別為“2019年”“9月”“2日”三個獨立的時間實體,而無法作為一個整體加以識別),且對系統(tǒng)自帶時間領(lǐng)域詞表所定義的時間實體識別率也不高。因此,本文在擴(kuò)展時間領(lǐng)域詞表、分析中文時間信息表達(dá)規(guī)律的基礎(chǔ)上,對GATE中文信息抽取組件自帶的日期抽取規(guī)則文件(date.jape)進(jìn)行了修改和擴(kuò)展,主要包括:一是針對擴(kuò)展的時間類型,增加識別這些時間類型實體的抽取代碼,使得系統(tǒng)可以識別時鐘時間、農(nóng)歷時間、我國朝代及帝王年號時間等各種新增時間類型的時間實體;二是修改、擴(kuò)展完善原有時間抽取代碼,使其不僅能夠識別由表1所列舉的各種基本時間單元及多個時間單元組合的時間實體,還能識別時間段、周期時間、模糊時間等復(fù)雜類型的時間信息。圖2是識別時間段的JAPE規(guī)則節(jié)選,通過該段抽取規(guī)則的定義,系統(tǒng)可識別諸如“今年1到3季度(月)”“2019年5~8月”等多種形式的時間段實體。

        表1 主要的時間詞典文件及時間類型

        Rule: DateSpan( (({Lookup.majorType == date_pre } // 時間前綴,如“前”“后”“最近的” |{Lookup.minorType == year_spec} // 相對時間(年),如“今年”“前年” |{Lookup.minorType == season_spec}// 相對時間(季度),如“上季度”“本季度” |{Lookup.minorType == month_spec} // 相對時間(月),如“當(dāng)月”“次月” |((YEAR_DIGITS)(YEAR)) // 年 |{Lookup.minorType == month})? // 月 ({Lookup.majorType == number })? // 數(shù)字 {Lookup.majorType == to } // 時間連接詞,如“至”“到”“-” {Lookup.majorType == number } // 數(shù)字 {Lookup.majorType == time_unit} // 時間單位,如“年”“季度”“月” ) … …) :tag→ :tag.DateSpan = {kind = DateSpan, rule = DateSpan}

        3 實驗與分析

        3.1 實驗數(shù)據(jù)

        本文實驗數(shù)據(jù)采用了2010年SemEval-2010測評TempEval-2任務(wù)提供的中文訓(xùn)練語料,該任務(wù)訓(xùn)練語料包含了44篇中文文章和766個中文時間詞,時間詞基本涵蓋表1列舉的時間類型。

        3.2 實驗測評標(biāo)準(zhǔn)

        采用常用的準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值(F-measure)作為時間信息抽取的評測標(biāo)準(zhǔn),三者的計算式如下:

        3.3 實驗結(jié)果與分析

        實驗按照圖1所示的流程,對44篇中文文章進(jìn)行了分詞處理,在對GATE 8.0進(jìn)行中文時間領(lǐng)域詞表擴(kuò)展及重寫中文時間信息抽取規(guī)則后,基于修改后的中文抽取組件(Chinese NE),識別并抽取文章中的中文時間信息(圖3)。通過對實驗數(shù)據(jù)中的時間信息抽取結(jié)果進(jìn)行統(tǒng)計分析,可以計算得到準(zhǔn)確率P、召回率R和F1值分別為94.9%、93.1%、94%,可見該方法具有較好的時間信息識別和抽取能力。同時,發(fā)現(xiàn)影響時間信息抽取及識別準(zhǔn)確率的主要原因有:①時間領(lǐng)域詞表沒有記載的時間詞類型或樣式,系統(tǒng)將無法識別;②時間信息抽取規(guī)則中沒有定義到的、復(fù)雜的、特殊的時間表達(dá)式,系統(tǒng)可能會將其識別成多個獨立時間詞,如“星期五(四月五日)上午八時”;③對于沒有時間單位的時間詞,系統(tǒng)將無法識別,如歌曲“我的一九九七”中的“一九九七”;④一些即可以作時間詞、又可以作副詞的多義詞語(如一直、同時),被系統(tǒng)錯誤識別為時間詞,如“加工貿(mào)易在廣東外經(jīng)貿(mào)發(fā)展中占有舉足輕重的地位,同時也是粵港澳臺經(jīng)貿(mào)合作的重要內(nèi)容”中的“同時”;⑤語料中將時間段標(biāo)注為兩個獨立時間詞,本文通過制定時間段抽取規(guī)則,將其標(biāo)識為時間段,如“一九九六至二○○○年”。

        圖3 中文時間信息抽取示例

        4 結(jié)束語

        利用GATE的自然語言處理框架,通過引入外部工具進(jìn)行中文分詞、擴(kuò)展中文時間領(lǐng)域詞表、重新編寫中文時間抽取規(guī)則,實現(xiàn)了中文時間信息的識別和抽取,達(dá)到較好地抽取效果。由于時間和精力的原因,對事件時間、外國歷史朝代及年號等領(lǐng)域時間尚未建立詞表,也沒有利用中文詞性標(biāo)注信息抽取時間信息。后續(xù)可圍繞這些方面開展工作,以提高時間命名實體識別、抽取的準(zhǔn)確率和召回率。

        猜你喜歡
        詞表分詞組件
        無人機(jī)智能巡檢在光伏電站組件診斷中的應(yīng)用
        能源工程(2022年2期)2022-05-23 13:51:50
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
        英語世界(2021年13期)2021-01-12 05:47:51
        新型碎邊剪刀盤組件
        U盾外殼組件注塑模具設(shè)計
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        值得重視的分詞的特殊用法
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        風(fēng)起新一代光伏組件膜層:SSG納米自清潔膜層
        太陽能(2015年11期)2015-04-10 12:53:04
        高考分詞作狀語考點歸納與疑難解析
        國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
        成人午夜特黄aaaaa片男男| 亚洲日本精品一区久久精品| 久久人与动人物a级毛片| 在线观看国产精品日韩av| 欧美精品久久久久久三级| 色哟哟精品中文字幕乱码| 亚洲综合中文字幕日韩| 丰满熟妇乱又伦精品| 国产女人高潮视频在线观看| 无码电影在线观看一区二区三区| 成人av天堂一区二区| 日本一区二区三级免费| 国产午夜激无码av毛片不卡| gv天堂gv无码男同在线观看| 國产一二三内射在线看片| 日韩偷拍视频一区二区三区| 日韩精品一区二区三区影音视频 | 又紧又大又爽精品一区二区| 好屌草这里只有精品| 国产va精品免费观看| 久久国产亚洲av高清色| 亚洲精品偷拍自综合网| 国产免费无遮挡吸奶头视频 | 综合亚洲二区三区四区在线| 亚洲精品一区二区国产精华液| 99久久99久久久精品齐齐| 性色av无码久久一区二区三区| 国产成人8x视频网站入口| 亚洲国产不卡免费视频| 国产一品二品精品在线| 亚欧中文字幕久久精品无码| 亚洲丁香五月激情综合| 中文字幕日韩人妻高清在线| 日韩av免费一区二区| 午夜时刻免费入口| 一本大道色婷婷在线| 无码中文字幕久久久久久| 日韩极品在线观看视频| 美国少妇性xxxx另类| 无码精品国产va在线观看| 男人天堂AV在线麻豆|