亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        航行通告信息抽取方法研究

        2022-04-14 03:27:12潘正宵羅銀輝李榮枝
        現(xiàn)代計算機 2022年2期
        關(guān)鍵詞:文本信息

        潘正宵,羅銀輝,李榮枝

        (中國民用航空飛行學院計算機學院,四川 618300)

        0 引言

        航行通告是以電信方式發(fā)布,告知飛行人員與飛行業(yè)務相關(guān)人員關(guān)于航空設施、服務、程序等的建立、情況或者變化,以及對航空有危險的出現(xiàn)和變化的通知。一份標準的航行通告報文應包括航行通告標志、Q項(限定行)、A項(發(fā)生地)、B項(生效時間)、C項(失效時間)、D項(分段時間)、E項(航行通告正文)、F項(下限)和G項(上限)。以上各項內(nèi)容除E項外,均有標準的發(fā)布規(guī)范,而航行通告的E項報文屬于自由文本,采用明語的形式編寫來表達豐富的內(nèi)容,故E項中的內(nèi)容難以采用統(tǒng)一的格式進行處理。因此,如何自動化提取E項中所包含的重要信息一直是業(yè)界的難題。

        文本信息抽取是自然語言處理任務中的一項。信息抽?。╥nformation extraction),即從自然語言文本中,抽取出特定的事件或事實信息,用于從海量的信息中,將內(nèi)容自動分類,提取關(guān)鍵信息和重構(gòu)。抽取出的信息通常包括命名實體(entity),關(guān)系(relation)和事件(event)。

        基于神經(jīng)網(wǎng)絡模型進行建模的CNN和LSTM等方法廣泛應用于信息抽取,然而神經(jīng)網(wǎng)絡的訓練,依賴大量數(shù)據(jù),這阻礙了它在小數(shù)據(jù)集上的運用。而符號主義,是一種將符號系統(tǒng)和有限合理性原理知識系統(tǒng)整合起來,形成公理體系的一種方式。利用符號進行知識表達的規(guī)則系統(tǒng),及模式匹配系統(tǒng),在少量數(shù)據(jù)集或需要明確解釋性的場景中廣泛使用。

        由于航行通告信息沒有公開的標注集,沒有制定航行通告中實體的依存關(guān)系的關(guān)系圖譜,故而在當前條件下無法使用深度學習等方法,只能在模式匹配技術(shù)的基礎之上,實現(xiàn)信息抽取任務。

        文本信息的抽取,具有較強的目的性,要求提取出來的信息具有一定的邏輯關(guān)聯(lián),能以指定的框架進行展示。本文根據(jù)識別出來的命名實體之間的位置,分析其依存關(guān)系,形成邏輯框架,并依照此框架,采用模式匹配的方法,抽取出航行通告中實體間的關(guān)系。本文的研究課題源于實習期間公司的航行通告信息處理同事的痛點,旨在促進航行通告信息的高效利用,開展對航行通告信息抽取的方法研究,提高航行通告信息處理的效率。該方法實現(xiàn)了航行通告中實體和關(guān)系的標注及抽取,并生成格式統(tǒng)一的標注數(shù)據(jù)集,具有工程實用價值與學術(shù)研究價值。

        1 理論基礎

        1.1 令牌化

        分詞是NLP(nature language processing)的基礎,分詞的準確度直接影響了后續(xù)的詞性標注,以及文本分析的質(zhì)量。本項目主要處理AIP文件中的航行通告E項,以英文的形式呈現(xiàn)。英文語句使用空格將單詞進行分隔,具有分詞效果。但在航行通告中,存在諸如連詞符等特殊字符,需要重新自定義分詞邏輯。

        在分詞的工作中,采用令牌化思想。令牌化的作用在于處理的過程中,標記文本,基于某些預定義規(guī)則將文本轉(zhuǎn)換為較小子文本,把句子拆分成單詞、標點符號等元素。

        令牌化分為詞級標記,字符級標記與子字級標記。本文采用子字符級標記,屬于前兩種方式的綜合形式。由于航行通告中大部分都是縮寫且意義不連貫的單詞,故采取詞級標記,能取得較為良好的效果。但在有特殊字符的情況下,對特定字符采用字符級標記,可更精準地對所有詞進行標記并分隔。

        1.2 詞嵌入與相似度

        文本匹配是NLP中常見的一個問題,本文中命名體的識別,實際上就是一個文本匹配的過程,通過判斷兩個令牌之間的相似度,來判斷這兩個令牌是否屬于同一個類別信息。

        在識別特定的命名實體時,采取了詞嵌入(word embedding)的方法。首先通過詞向量算法,得到每個經(jīng)由分詞后單詞的詞向量,然后將已訓練好的詞嵌入模型遷移至任務中來,讓原本的維度較高的詞向量降維成維度較低的詞嵌入向量,每一個詞就是詞嵌入模型空間中的一個點。這時,命名體識別的任務,就轉(zhuǎn)變?yōu)榱宋谋局忻恳粋€詞嵌入向量v,與提取出來的每個類別的命名實體的樣例詞嵌入向量v之間的距離關(guān)系判別任務。計算其相似度的相似值sim(v,v)采用余弦相似度公式,如公式(1)所示。

        sim(v,v)越接近1則說明兩個詞越相似,文本中的詞與樣例間的相似值超過一個設定的閾值后,即可認為該部分文本屬于此類別的命名實體。

        1.3 模式匹配與改進KMP算法

        由于命名體之間的距離及順序是天然具有一定關(guān)系的,這就意味著,可以通過歸納一定距離內(nèi)的命名實體的順序,從而分析它們之間的關(guān)系,形成一種特定的邏輯關(guān)聯(lián),并將信息重新組合成一套固定的框架。

        在匹配的過程中,相較于普通的遍歷匹配,本文采用了字符串匹配中用的KMP算法并加以改進。KMP算法主要通過消除主串指針的回溯來提高匹配的效率,其核心思路是提取并運用了加速匹配的信息,即在模式串中加入next標簽。采用這種方式,在每次匹配失敗的時候,不需要回退到模式串開始匹配的位置往后一位重新匹配,而是往后k-1位開始重新匹配。

        而改進的KMP算法是在此基礎之上,將匹配串中也加入類似于next數(shù)組的標簽。采用此改進方式,則可在原本的減少模式串回退的基礎之上,進一步減少匹配串的回退過程,加快匹配速度。本文中由于匹配的是標簽順序,因此參考KMP算法匹配字符串的思想,匹配標簽列表。

        1.4 評價指標

        在評估相似值是否符合預期要求時,引入精確率和召回率進行評估。其中精準率是針對預測結(jié)果而言,它表示預測為正的樣本中有多少是真正的樣本,用P來表示。P的計算如公式(3)所示。其中TP是準確地將正類預測為正類的數(shù)量,F(xiàn)P是錯誤地把負類預測為正類的數(shù)量。

        而召回率是針對樣本而言,它表示樣本中有多少正類被成功預測了,用R來表示,R的計算如公式(4)所示。其中FN表示把錯誤地把正類預測為負類的數(shù)量。

        在評判實體間距離與關(guān)系抽取準確率之間的關(guān)系時,引入F值作為評估標準,F(xiàn)的計算如公式(5)。

        2 實現(xiàn)方法

        針對航行通告數(shù)據(jù)的特點,使用自定義的規(guī)則對通告內(nèi)容進行分詞。采用詞向量算法對分詞進行向量化處理,并由詞嵌入的方法,標記自定義分類的命名實體并抽取。從航行通告的實際意義出發(fā),結(jié)合命名實體的位置關(guān)系,總結(jié)歸納出實體間的關(guān)系模式,采用改進的KMP算法,進行模式匹配,抽取航行通告中的重要信息。文章中的研究流程如圖1所示。

        圖1 信息抽取流程

        2.1 分詞過程

        (1)定義標記規(guī)則。未經(jīng)處理的文本會被以空格進行分割。在標記之前,可以加入自定義的需要進行特殊標記的符號,如“-~”等,或是其余的基于詞綴的標記規(guī)則。

        (2)將文本從左到右根據(jù)定界符進行標記,初步形成子字符串。

        (3)每一個子字符串需要再進行兩個檢測:該字符串是否匹配其他的特殊標記規(guī)則;該字符串是否有前綴、后綴或中綴。

        (4)輸出所有經(jīng)由標記化后的令牌。

        圖2是標記化規(guī)則的示例,分詞工作完成之后,將獲得一段文本S,文本S如公式(6)所示,其中w為文本S中的第i個分詞。

        圖2 分詞示例

        2.2 命名實體識別

        本文主要提取了航行通告中五類信息,分別為空域關(guān)閉,危險區(qū)域開放,限制區(qū)開放,跑道啟停,導航臺航路點。在系統(tǒng)性分析航行通告信息后,從中劃分出了六類命名體并自定義其標簽,標簽及其代表的意義如表1。

        阿里知道他們在說他。他吃著飯,一忽兒偏頭看看阿東,一忽兒又偏頭看看父親。突然就冒一句:“姆媽說了,阿里蠻乖?!?/p>

        表1 自定義標簽

        每個命名實體可由如公式(7)所示的向量E來表示,其中E為該命名實體的詞向量,E表示該向量的起始字符位置,E表示該向量的中止字符位置。

        在獲取到向量E之后,根據(jù)自定義的標簽,將E轉(zhuǎn)換為根據(jù)規(guī)則匹配上的標簽E,隨后將新的向量E′放入T命名體集合中,T如公式(8)所示,其中E′表示的第i個向量。

        2.3 關(guān)系抽取

        結(jié)合航行通告的實際意義,本文提出了五種類型的邏輯,如表2。其中action類別中的實體間距離無特殊關(guān)聯(lián),故忽略其距離關(guān)系。其他類別的關(guān)系中,關(guān)系的界定范圍與命名實體間的距離有嚴格的關(guān)系,需要在匹配的過程中,加入對于距離的判斷。

        表2 邏輯關(guān)聯(lián)意義

        在提取出命名實體之后,根據(jù)設定的模式串,可以進行關(guān)系抽取,一個類別的關(guān)系,具有多個模式串,如表3中,展示的是抽取圓形區(qū)域和導航臺區(qū)域時,出現(xiàn)的不同的模式串。

        表3 模式串

        采用模式匹配,可以將標簽列表與模式串進行匹配,獲取標簽之間的關(guān)系,即形成三元組關(guān)系串<主體,客體,關(guān)系>。在航行通告中,一個關(guān)系串常常有多個客體,需要將對應的多個客體轉(zhuǎn)換成一個向量來進行存儲。

        在2.2中獲得輸入T后,結(jié)合詞間距信息,運用改進的KMP算法,與表2中的五類框架所形成的模式串進行匹配,從而實現(xiàn)關(guān)系抽取。

        3 實驗驗證

        實驗基于Windows 10環(huán)境,編程語言為Python版本3.7,其中spaCy庫的版本為2.3.5。實驗的數(shù)據(jù)源于2020年航行通告。提取其中航行通告的E項信息213851條作為實驗的數(shù)據(jù)。

        3.1 命名實體抽取方法驗證

        項目共提取六類命名實體,其中subject和act這兩個類別的對象根據(jù)實際經(jīng)驗總結(jié),需要更為精準的匹配,其余類別因文本差異較大,不用過于精準。

        使用人工標注命名實體的數(shù)據(jù)進行實驗,精準率、召回率與匹配值的關(guān)系如圖3所示。

        從圖3中可以看出,隨著相似值的上升,精準率得到了提高但召回率明顯下降。根據(jù)不同命名實體類別的要求,subject和act類對精準度的要求更高,而其他類要求在保證精確率的情況下,提高召回率,因此對于這兩種要求,分別采用了不同的相似值,前兩類的相似值為90%,其余類的相似值為85%。

        圖3 精準率與召回率

        對于出現(xiàn)的FP,如表4所示,可通過正則匹配或人工篩查的方式對數(shù)據(jù)進一步地篩選,精準率得以進一步的提高。最終提取出的內(nèi)容如表5所示。

        表4 錯誤樣例

        表5 命名實體提取

        在實驗結(jié)果樣例中,需要被識別的信息被//包裹、分割開來用以展示,提取出來的命名實體按照類別分別儲存展示。從結(jié)果可以看出,所有應該被識別的信息都得到了有效的識別,分別打上了標簽,且都記錄了字符串在原文中所處的位置,為后續(xù)的關(guān)系識別提供了輸入文本基礎。

        3.2 關(guān)系抽取方法驗證

        在本文中,采用了改進的KMP算法替代傳統(tǒng)遍歷,在遍歷速度上得到了提升,時間對比如表6所示。

        表6 運行時間對比

        在實驗過程中,發(fā)現(xiàn)航行通告中命名實體之間的距離,與它們是否產(chǎn)生關(guān)系具有較強的關(guān)系,定義命名實體之間的距離為D,定義當距離大于D時,兩命名實體之間不再產(chǎn)生關(guān)系。根據(jù)2.2中E的值,可計算出D。使用人工標注了關(guān)系的數(shù)據(jù)進行試驗,

        由圖4可以看出,當D等于5時,F(xiàn)1值最高,在后續(xù)的關(guān)系抽取實驗中,引入?yún)?shù)D,對關(guān)系自動抽取進行約束。

        圖4 F1值與距離的關(guān)系

        關(guān)系抽取后,根據(jù)工程需求對信息進一步提取重組,信息重組之后的內(nèi)容如表7所示。

        表7 關(guān)系提取

        將被標識出的命名實體經(jīng)由它們之間的關(guān)系,進行信息重組之后,邏輯性大大加強,能夠快速對重組后的信息進行理解。

        4 結(jié)語

        本文研究了航行通告信息提取的方法,由于航行通告E項中的信息不具備嚴格語法特征,且在此之前,無任何公開的標注數(shù)據(jù)集,相比基于標注數(shù)據(jù)集進行訓練的模型,本文所使用的方法更具實用性。

        本文實現(xiàn)了對于航行通告信息之間的關(guān)系抽取,實現(xiàn)了在該領(lǐng)域內(nèi),關(guān)系標注從無到有的突破,可為后續(xù)無監(jiān)督條件下的信息提取技術(shù)奠定基礎。其余類型的航信通告信息需要重新建立關(guān)系邏輯框架,這是本文所使用的方法的局限性所在。如何針對航行通告信息弱語法的特征建立更好的關(guān)系抽取模型,需要繼續(xù)深入研究。

        猜你喜歡
        文本信息
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        av影片手机在线观看免费网址| 国产精品亚洲A∨天堂| 最新国产美女一区二区三区| 一区二区三区四区午夜视频在线| 寂寞人妻渴望被中出中文字幕| 狠狠色狠狠色综合| 日韩高清亚洲日韩精品一区| av天堂吧手机版在线观看| 在线观看午夜视频国产| 少妇人妻在线无码天堂视频网| 久热在线播放中文字幕| 欧美日韩国产乱了伦| av天堂亚洲另类色图在线播放| 国产欧美va欧美va香蕉在 | 97久久精品无码一区二区天美 | 操国产丝袜露脸在线播放| 妺妺窝人体色777777 | 欧美激情αv一区二区三区| 97人妻蜜臀中文字幕| 国产亚洲人成在线观看| 久久久久久国产精品mv| 2021年国产精品每日更新| 青青草绿色华人播放在线视频| 亚洲国产精品无码久久一线| 国产96在线 | 欧美| 亚洲a人片在线观看网址| 麻豆成人久久精品一区| 日韩人妻无码一区二区三区久久| 色婷婷日日躁夜夜躁| 在线一区二区三区视频观看| 国产精品网站91九色| 国产精品爽黄69天堂a| 中文字幕亚洲无线码高清| 亚洲综合中文日韩字幕| 欧美老妇多毛xxxxx极瑞视频| 亚州国产av一区二区三区伊在| 日本老熟欧美老熟妇| Jizz国产一区二区| 久久狼精品一区二区三区| 成片免费观看视频大全| 国产av一区二区三区区别|