亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞性標注和規(guī)則相結合的信息抽取方法

        2021-10-28 04:42:36潘興明張海波薄佳男秦小龍
        計算機技術與發(fā)展 2021年10期
        關鍵詞:分詞結構化規(guī)則

        張 偉,潘興明,張海波,何 霄,薄佳男,秦小龍

        (1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京 102206; 2.中國人民大學 信息學院,北京 100872)

        0 引 言

        在大數(shù)據(jù)時代,數(shù)據(jù)作為重要生產(chǎn)要素[1],對企業(yè)發(fā)展的重要性日益顯著。加速推動企業(yè)數(shù)字化建設勢在必行,如何有效地從多種類型的無結構或半結構化文本中獲取有效的信息并形成結構化數(shù)據(jù),成為該企業(yè)數(shù)字化建設過程中面臨的一大挑戰(zhàn)[2]。傳統(tǒng)企業(yè)日常經(jīng)營活動過程中會產(chǎn)生大量文本數(shù)據(jù),早期對這些文本中信息的收集只能依靠人工整理的方式,再匯總給企業(yè)信息管理部門進行處理,形成結構化數(shù)據(jù)并保存,完成這些工作常常需要專人專職花費大量時間精力、效率低下[3]。近年來,隨著自然語言處理技術的快速發(fā)展,文本信息抽取已經(jīng)在情報收集、科技文獻監(jiān)控、醫(yī)療保健服務、商業(yè)信息抽取等許多領域得到了有效應用[4-6]。李雪駒等提出一種基于規(guī)則和SVM相結合的論文抽取方法,該方法先以SVM模型得到論文抽取特征及分類結果,再根據(jù)論文中元數(shù)據(jù)對規(guī)則和機器學習方法的不同適用性,結合規(guī)則抽取方法去修正,最終得到了想要的抽取結果[7]。余晨根據(jù)抽取任務本身及其常見觸發(fā)詞構建自定義海事詞庫,提出一種基于規(guī)則的海事信息抽取方法,將海事自由文本轉化為結構化的數(shù)據(jù)[8]。吳歡提出針對醫(yī)療領域具有一定的規(guī)范性的乳腺癌病理文本進行結構化處理,實現(xiàn)對非結構化文本的結構化信息提取方法,以輔助臨床科研人員進行下一步醫(yī)學研究[9]。

        但在企業(yè)實際應用中,文本中每一個目標信息都事關企業(yè)業(yè)務經(jīng)營,每一個錯誤值都會引起不良后果,所以希望模型在滿足絕對精確率的基礎上召回率越高越好。以上研究方法在具體實際應用中還有欠缺,因此設計一個更加高效的、精準的、能滿足企業(yè)實際應用需求的信息抽取方法具有重要實際意義。文中提出一種基于詞性標注和規(guī)則相結合的信息抽取方法,對文本分別采用基于詞性標注和基于規(guī)則的信息抽取方法進行信息抽取并得到抽取結果,再對結果信息進行合規(guī)判斷和沖突避免,最后引入人工識別。經(jīng)實驗測試驗證,該方法相比于單一信息抽取方法具有更好的效果,能有效滿足企業(yè)實際應用需求。

        1 相關理論基礎

        1.1 信息抽取

        信息抽取(information extraction,IE)[10],指從自然語言文本中抽取指定類型的實體(entity)、關系(relation)、事件(event)等事實信息,并形成結構化數(shù)據(jù)輸出的文本處理技術[4]。信息抽取更側重文檔中顆粒度更小的關系或事件,滿足用戶更深層和更細粒度的信息需求,是其他信息獲取手段的一種有益補充,可以為進一步的自然語言信息處理技術如文檔檢索、文本分類、文本摘要、情感分析、問答系統(tǒng)等提供支持。國際ACE(automatic content extraction)會議定義了信息抽取的五個子任務,分別為實體的檢測與識別、關系的檢測與識別、事件的檢測與識別、值的檢測與識別和時間的檢測與識別[11]。

        1.2 常用信息抽取方法

        1.2.1 基于規(guī)則的信息抽取方法

        基于規(guī)則的信息抽取方法常用正則表達式法,是一種字符串匹配的模式,可以對字符串進行操作的邏輯公式。該方法需要人工事先定義好一些特定字符及這些特定字符的組合,組成一個“規(guī)則字符串”,通過這個“規(guī)則字符串”實現(xiàn)從字符串中提取特定子字符串的功能。該方法具有較好的靈活性,抽取過程簡單易操作,但抽取效果高度依賴制定的“規(guī)則字符串”,可移植性較差,適用于對抽取精度較高,表達規(guī)范的半結構化文本[12]。

        1.2.2 基于統(tǒng)計機器學習的信息抽取方法

        基于統(tǒng)計機器學習的信息抽取方法是從大量原始自然語言語料出發(fā),通過已有的統(tǒng)計學、數(shù)學原理計算文本不同的特征組合,進行機器學習模型訓練,達到預測語言標簽、辨識語義狀態(tài)和規(guī)律的目的。與基于規(guī)則的方法相比較,基于統(tǒng)計機器學習的方法不需要人工編寫規(guī)則,具備較好的可移植性。在復雜的任務下,基于統(tǒng)計機器學習的方法比基于規(guī)則的方法能取得更好的效果,但存在訓練過程依賴大量標注訓練語料、訓練時間長等問題[13]。

        1.3 詞性標注

        詞性標注(POS tagging),又稱詞類標注或者簡稱標注,與命名實體識別(NER)、依存句法分析(dependency parsing)一起都是自然語言處理中最常用的基礎任務[14]。詞性標注是指為分詞結果中的每個單詞標注一個正確的詞性的程序,即確定每個詞是名詞、動詞、形容詞還是其他詞性的過程[15],常見的詞性標注算法包括隱馬爾可夫模型(HMM)[16-17]、條件隨機場(CRF)[18]等。

        2 石油設備日常監(jiān)控文本的信息抽取

        2.1 數(shù)據(jù)來源及評價指標

        文中使用石油設備日常監(jiān)控文本信息2 029條,對每條文本中10個不同數(shù)據(jù)值進行信息抽取實驗。文本是半結構化形式[19],文本結構基本相同、關鍵詞比較統(tǒng)一、目標信息類型容易事先判斷。石油設備日常監(jiān)控文本每日由現(xiàn)場服務工程師上傳至企業(yè)業(yè)務與檔案管理系統(tǒng),以供相關人員查閱。

        文本信息抽取結果包含4種情況,TP表示文本中有數(shù)據(jù),成功抽取到了數(shù)據(jù)數(shù);FN表示文本中有數(shù)據(jù),但沒有成功抽取到數(shù)據(jù)數(shù);FP表示文本中缺失數(shù)據(jù),但錯誤抽取到了數(shù)據(jù)數(shù);TN表示文本中缺失數(shù)據(jù),也沒有抽取到數(shù)據(jù)數(shù);一般以精確率P、召回率R和F值作為其性能的評價指標,計算公式分別如下[20]:

        (1)

        (2)

        (3)

        式中,P(precision)為精確率,表示在所有數(shù)據(jù)的樣本中成功抽取到正確數(shù)據(jù)的概率;R(recall)為召回率,表示在所有抽取到的數(shù)據(jù)中是正確值的概率;F值即為精確率和召回率的調(diào)和平均值。

        2.2 信息抽取過程

        本實驗編程語言使用Python 3.6;主要運行環(huán)境包括Jupyter Noetbook軟件、Win10系統(tǒng)、8 GB內(nèi)存;哈工大語言技術平臺(LTP)提供的自然語言處理技術,包括中文分詞、詞性標注、命名實體識別、依存句法分析等;使用正則表達式作為規(guī)則模式匹配,具體實驗流程如下文所述。

        2.2.1 構建專用詞庫

        自定義詞庫包含石油行業(yè)和觸發(fā)抽取任務的關鍵詞[21],石油行業(yè)有較多不常用的專業(yè)術語、特殊詞匯,文本中觸發(fā)抽取任務的關鍵詞也各有不同。單獨使用LTP提供的通用詞庫對文本進行分詞,分詞效果不夠理想。事先自定義專用詞庫,再通過LTP提供加載外部詞典庫方法segmentor.load_with_lexicon(model_path,user_dict),將自定義專用詞庫與LTP通用詞庫合并形成專用詞庫,確保文本分詞效果和關鍵詞定位的準確率。其過程如圖1所示。

        圖1 構建專用詞庫流程

        2.2.2 分詞效果

        筆者分別使用加入了自定義詞庫和只使用通用詞庫的模型對樣本中某一段文本進行分詞和詞性標注測試,結果如圖2所示。

        單使用通用詞庫分詞:井 深 3 458 m , 旋轉 導向 儀器 在 下 鉆 過程 中 遇阻 , 井 隊 詞性: n d v wp v n n p nd v n nd v wp n n 分詞:循環(huán) 泥漿 , 準備 起 鉆 。詞性: v n wp v v v wp加入自定義詞庫分詞:井深 3 458 m , 旋轉導向 儀器 在 下鉆 過程 中 遇阻 , 井隊 詞性: n ws wp n n p v n nd v wp n 分詞:循環(huán)泥漿 , 準備 起鉆 。詞性: n wp v v wp

        通過測試結果對比,發(fā)現(xiàn)加入自定義詞庫的分詞測試中可以更準確地識別石油行業(yè)一些特殊詞,例如:起鉆、下鉆、井深、旋轉導向等,取得了更好的分詞和詞性標注效果。

        2.2.3 通過關鍵詞定位要抽取的信息位置

        對文本進行分句、分詞和詞性標注,再根據(jù)對文本中目標信息的提取要求確定關鍵詞,循環(huán)遍歷每句、每詞查找關鍵詞所在句,定位要抽取的信息所在位置。關鍵詞主要是選取一些不常用但一定會在目標句子中出現(xiàn)的特定詞,多與自定義詞庫相關。例如:當前井深、服務人員等,因此使用合理的自定義詞庫,可以更加精準地定位到目標信息所在句。

        2.2.4 完成信息抽取

        (1)基于詞性標注的信息抽取方法設計。

        定位了目標信息所在句,再通過判斷要被抽取的目標信息的詞性,在關鍵詞附近查找是否有滿足要求的詞。例如:原文本中有包含服務人員信息的句子:“服務人員:李艷敏 李雙成”,通過在關鍵詞“服務人員”后面查找屬于“nh”詞性的詞,判斷是否為需要被抽取的信息。LTP提供的詞性對應表如表1所示。

        表1 LTP提供的詞性對應表

        續(xù)表1

        (2)基于規(guī)則的信息抽取方法設計。

        定位了目標信息所在句,使用正則表達式進行規(guī)則匹配,直接抽取句子中符合要求的信息。基于規(guī)則匹配的信息抽取效果非常依賴“規(guī)則字符串”質(zhì)量,每一種類別目標信息都需要特定的“規(guī)則字符串”,要求使用者對正則表達式語法使用非常熟練,部分正則表達式語法如表2所示。

        表2 部分正則表達式語法

        (3)基于詞性標注和規(guī)則匹配相結合的信息抽取方法設計。

        定位了目標信息所在句,對目標句分別采用基于詞性標注的信息抽取方法和基于規(guī)則的信息抽取方法進行信息抽取,得到抽取結果R1和R2。對結果信息進行合規(guī)判斷,①如果R1=R2,判斷結果都為真,輸出結果R1或R2;②如果R1=空且R2≠空,判斷結果R2為真,輸出結果R2;③如果R1≠空且R2=空,判斷結果R1為真,輸出結果R1;④如果R1≠空且R2≠空且R1≠R2,說明兩種抽取方法結果出現(xiàn)沖突,輸出結果標記為-1,標記需要加入后期人工識別。流程如圖3所示,圖中平行四邊形表示目標數(shù)據(jù),矩形表示必須處理的過程,橢圓形表示注釋。

        3 實驗結果與分析

        選取10項文本中需要抽取的目標信息:時間、井名、服務人員、服務總進尺、當前井深、當前井斜、剩余井深、日進尺、總起鉆數(shù)、儀器原因起鉆數(shù)。目標信息包含時間、數(shù)值、字符串3種不同類型,結構化信息抽取結果如表3所示。

        表3 結構化信息抽取結果

        圖3 基于詞性標注和規(guī)則匹配相結合的 信息抽取方法流程

        3.1 實驗結果

        分別采用詞性標注信息抽取方法、規(guī)則匹配信息抽取方法、詞性標注和規(guī)則匹配相結合的信息抽取方法進行文本信息抽取實驗,結果中不同項對應的信息缺失數(shù)如圖4所示。

        圖4 不同項對應的信息缺失數(shù)

        經(jīng)過統(tǒng)計,實驗共抽取2 029*10個目標數(shù)據(jù),其中原文本中就缺失的數(shù)據(jù)有139個。使用詞性標注信息抽取方法得到結果中缺失的數(shù)據(jù)有695個,使用規(guī)則信息抽取方法得到結果中缺失的數(shù)據(jù)有371個,使用詞性標注和規(guī)則相結合的信息抽取方法得到結果中數(shù)據(jù)缺失有160個。

        3.2 評 價

        通過評價指標公式分別計算出不同方法下的精確率P、召回率R和F值,如表4所示。

        表4 效果評價

        3.3 結果分析

        (1)單使用詞性標注方法精確率P達到99.95%,召回率R達到97.28%;單使用規(guī)則方法精確率P達到99.90%,召回率R達到98.9%;使用相結合的方法精確率P達到100%,召回率R達到99.87%。實驗結果顯示相結合的信息抽取方法相比于其他單一信息抽取方法在精確率P、召回率R、F值上都有明顯提升;

        (2)使用詞性標注信息抽取方法在目標信息為“時間”、“井名”、“服務人員”等字符型的抽取任務中,相比于規(guī)則信息抽取方法效果更好。使用規(guī)則信息抽取方法在目標信息為“當前井斜”、“日進尺”、“總起鉆數(shù)”等數(shù)值型的抽取任務中,相比于詞性標注信息抽取方法效果更好;

        (3)混合信息抽取方法中文本中有數(shù)據(jù),但沒有成功抽取到數(shù)據(jù)的有26個,其中20個是因為文本中出現(xiàn)的關鍵詞是選取的關鍵詞的同義詞,例如:當前井深和目前井深;1個是文本中關鍵詞書寫錯誤,所以未能識別出關鍵詞和定位到包含信息的句子;5個數(shù)據(jù)出現(xiàn)結果沖突,需要引入人工識別。

        4 結束語

        基于詞性標注和規(guī)則匹配相結合的信息抽取方法通過對文本分別采用基于詞性標注和基于規(guī)則的信息抽取方法進行信息抽取并得到抽取結果,再對結果信息進行合規(guī)判斷和沖突避免,實現(xiàn)對抽取結果的重復確認,保證了抽取結果的精確率。最后再對發(fā)生沖突和結果缺失的信息抽取結果進行人工識別并補全,可大幅提高傳統(tǒng)信息收集的工作效率。有效滿足企業(yè)實際應用需求,但仍還有提升空間:

        (1)針對實驗中因未能識別出關鍵詞同義詞和書寫錯誤導致的信息抽取缺失問題,在模型中加入對關鍵詞的同義詞識別和文本糾錯,可進一步提升模型召回率。

        (2)本次實驗使用的企業(yè)日常經(jīng)營活動文本屬于半結構化類型,信息抽取任務比較簡單,所以效果較好。在面對自由文本等復雜信息抽取任務時可以再融合基于統(tǒng)計學習的信息抽取方法得出更為準確的結果。

        猜你喜歡
        分詞結構化規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        促進知識結構化的主題式復習初探
        結構化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        值得重視的分詞的特殊用法
        基于圖模型的通用半結構化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        基于軟信息的結構化轉換
        成美女黄网站18禁免费| 中国农村妇女hdxxxx| 久久亚洲精品ab无码播放| 亚洲熟女av超清一区二区三区| 日韩精品久久伊人中文字幕| 日本视频二区在线观看| 亚洲成a v人片在线观看| 中文字幕少妇AV| 久久深夜中文字幕高清中文| 国产日本精品视频一区二区| 人妻av鲁丝一区二区三区| 一级片久久| 国产自产在线视频一区| 日韩人妻无码精品一专区二区三区 | 亚洲国产精品成人久久久| 久久国产热这里只有精品| 一区二区韩国福利网站| 国产精品一区二区三区三| 久久久久亚洲av无码专区首| 无码国产一区二区三区四区| 国产亚洲精品不卡在线| 在线国产丝袜自拍观看| 日产精品久久久一区二区| 久久99精品久久久久久野外| 日本av一区二区播放| 日本一区二区在线高清观看| 麻豆成人精品国产免费| 国产在线视频国产永久视频| 人妻少妇被猛烈进入中文| 国产夫妇肉麻对白| 国产精品亚洲五月天高清| 蜜臀av国内精品久久久人妻| 久久精品国产91精品亚洲| 亚洲av无码潮喷在线观看| 午夜福利不卡无码视频| 永久中文字幕av在线免费| 亚洲精品久久一区二区三区777| 天天狠狠综合精品视频一二三区| 亚洲精品国产第一区三区| 天天躁夜夜躁av天天爽| 中文字幕亚洲无线码|