亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種挖掘文本中實體間關系的方案設計

        2021-04-09 01:44:53中國煤炭科工集團
        電子世界 2021年14期
        關鍵詞:監(jiān)督模型

        中國煤炭科工集團 于 澄

        企業(yè)在多年的運營過程中會留存大量的電子文檔,這些文檔多以非結構化形式存儲在文件服務器,里面蘊含了大量的有價值信息。如何能夠把可利用的信息從這些文檔中挖掘出來并加以利用,是一個有價值的課題。本文論述了基于自然語言處理、弱監(jiān)督學習等人工智能技術,設計一種可行的提取文本內實體關系信息的軟件方案。

        1 文本中實體關系識別的應用場景及主要內容

        隨著信息化、數(shù)字化技術的發(fā)展與應用,大部分企業(yè)基本實現(xiàn)了紙質文件向電子化文檔的過渡。在企業(yè)中,大量電子文檔作為企業(yè)運營的歷史留存,形成了企業(yè)的知識庫、經驗庫。而電子文檔在企業(yè)中通常是以非結構化的電子文件形式存放在文件服務器或數(shù)據(jù)庫中。企業(yè)管理者可以通過文本檢索工具,設定搜索關鍵字,獲取所需的相關信息。然而,使用檢索工具的前提是,檢索者須事先知曉所要檢索的對象的稱謂信息,如要檢索“某某公司”相關的內容,則需要知道“某某公司”的全稱作為關鍵字信息進行檢索。但是面對海量的文檔內容,檢索者如何能夠盡可能多的提取其中有價值的信息,包括已知檢索對象和未知檢索對象的信息,并把這些信息進行結構化的存儲,以便后續(xù)更好的利用其價值,就成為了一個值得探究的課題。進一步講,在商業(yè)領域應用較多的場景是,在海量文檔庫中識別出公司、機構等實體單位名稱,并根據(jù)語境提取實體之間可能存在的關系,如股權關系、債券關系、客戶關系等。

        2 方案設計中應用的主要技術

        隨著計算機算法的發(fā)展,尤其是人工智能技術的逐步成熟,使得以往需要大量的時間成本和人工成本才能處理的文檔信息提取工作,可以應用計算機軟件輔助處理。本設計應用自然語言處理算法和監(jiān)督學習算法以及其他較為成熟的軟件工具組合,意圖構建一個軟件實現(xiàn)方案,一是能夠替代人工操作,從文本中提取公司、組織機構名稱等實體名稱;二是通過軟件算法,對一個句子中出現(xiàn)兩個或兩個以上實體的情況,根據(jù)上下文語境判斷實體之間是否存在某種特定關系;三是將識別出的實體以及實體之間的關系,以結構化數(shù)據(jù)的方式存儲在數(shù)據(jù)庫中。這種用結構化的方式存儲對象以及對象之間關系的方法,本質上就是在構建企業(yè)的知識圖譜,是將來進一步挖掘信息價值的重要基礎。

        本方案的實現(xiàn)涉及到幾個關鍵的技術。首先是需要在文本中對詞語進行識別和提取,并對詞語的性質進行識別和標注。例如“公司”一詞需要被識別出來,并標注成名詞詞性,再如“收購”一詞,需要被識別出來并標注成動詞詞性。其次,在識別出的名詞基礎上,要能夠識別出名詞組合,并判斷出該名詞組合是否是一個公司的名稱。例如,“上海某某某新材料股份有限公司”,“北京某某科技集團有限公司”等。這個課題屬于自然語言處理范疇,在行業(yè)內有多種NLP方案可以選擇,如國外的有斯坦福大學的NLP,國內的有HanLP,清華、北大、復旦等大學研發(fā)的NLP等。這些NLP在分詞、詞性標注等方面總體來講準確率和召回率不相上下,在對中文文本的處理上,各有優(yōu)缺點,可以根據(jù)實際處理的文本的特點,經過實驗對比后進行選型,本方案選用HanLP,可以達到良好的準確率與召回率,并提供友好的接口方便調用。

        NLP可以解決分詞和詞性標注的問題,通常也自帶組織機構名稱的識別和標注功能,但是對于公司、機構名稱識別的準確率和召回率普遍偏低,無法達到使用要求,因此需要另行設計方案,對公司、機構名稱的進行識別。本方案采用規(guī)則表達式引擎和在線匹配技術,提高實體名稱識別的準確率。前述提到,NLP的處理結果是把一個句子拆分成詞的集合,并給每個詞標注了詞性。此外,公司、機構的名稱,通常是以“公司”、“有限公司”、“集團公司”、“大學”、“研究院”等可以枚舉的有限后綴作為結尾。因此,可以采用規(guī)則表達式技術對實體名稱進行初步識別,例如,N(名詞)+集團公司,也即截取“集團公司”向前直到第一個非名詞為一個實體名稱,再如,北京+N(名詞)+研究院,則表示“北京”為前綴,“研究院”為后綴,中間部分是名詞的字符串,為一個實體名稱。如果此處規(guī)則條件限定的較為嚴格,則準確率較高,召回率會偏低。如果條件限定的較為寬松,則準確率較低,召回率提升。本方案中,采取較為寬松的規(guī)則設定提高召回率,用在線匹配的方式進一步識別、提取實體的完整名稱。經過規(guī)則表達式技術處理后,產生出的候選實體名稱,通常是不完整的,或者由于規(guī)則條件設定的較為寬松實際上并不是實體名稱。如“某某某某科技集團有限公司”可能僅僅提取了“某某科技集團有限公司”。因此,本方案進一步引入在線匹配技術來提高完整提取實體名稱的準確率。具體方法是,用候選實體名稱通過在線接口,提交給在線企業(yè)查詢平臺或搜索引擎進行查詢,在返回的結果頁面中,如發(fā)現(xiàn)與候選實體名稱相匹配的字符串,則繼續(xù)匹配候選實體名稱與該字符串前面的字符,直到字符不一致為止,則該字符串與前面若干相同的字符組合在一起就作為該實體的完整名稱。如無法在頁面中找到候選實體名稱相同的字符串,則判定該候選實體名稱不是公司、機構名稱。通過上述方法,可以基本識別出文本中出現(xiàn)的公司、機構等實體名稱,作為構建知識圖譜的基礎。

        方案中第三個需要解決的技術問題是在一個句子中識別兩個實體之間是否存在某類特定關系。解決這個問題需要用到機器學習算法,有幾種可行的方案可供選擇。首先是有監(jiān)督學習算法方案,有監(jiān)督學習算法,主要是通過特征工程識別、提取出影響判別結果的因素,然后通過大量的樣本訓練該模型,使其能夠建立影響因素與判別結果之間的映射關系,再把這種映射關系模型應用到實際案例中去。但在實體關系識別方案中,應用監(jiān)督學習算法存在較大的障礙。一是監(jiān)督學習需要大量人工標注的樣本進行訓練,在樣本文檔數(shù)量有限,人工成本預算有限,而項目時間不充裕的情況,模型訓練取得的效果不佳。因此本方案不采用傳統(tǒng)的有監(jiān)督學習算法,而考慮采用在其基礎上進化改良的方案,即遠程監(jiān)督學習或弱監(jiān)督學習算法。遠程監(jiān)督學習,主要利用知識圖譜中已有的知識,對于訓練樣本進行標注,然后用該樣本集對模型進行訓練。但應用遠程監(jiān)督學習也存在較大的限制條件和缺點,在不具備較為完善的知識圖譜的條件下,無法應用遠程監(jiān)督學習。此外知識圖譜中的已有知識也可能對樣本數(shù)據(jù)不適用,甚至產生誤導的情況。因此,在缺乏完善知識圖譜的前提下,應采取與弱監(jiān)督學習算法相結合的方案提高識別的準確率與召回率。弱監(jiān)督學習是有監(jiān)督學習的另一個改良變種算法,它主要適用于缺乏訓練樣本的場景。弱監(jiān)督學習首先是通過一定的規(guī)則產生樣本數(shù)據(jù)(包括樣本及其標記結果),這個規(guī)則可以是像遠程監(jiān)督學習一樣通過從現(xiàn)有的知識庫中獲取樣本的標記結果,也可以是通過由程序(標注函數(shù))實現(xiàn)的若干條檢驗規(guī)則進行判別并對結果進行標記。用這些標注函數(shù)標記過的樣本數(shù)據(jù)訓練一個生成模型,令該模型學習標注函數(shù)的輸出。生成模型訓練完成后,可以用來標注大量的樣本數(shù)據(jù),接下來用這些樣本數(shù)據(jù)訓練一個強大的判別模型。最終就可以使用訓練好的判別模型在生產環(huán)境中對真實數(shù)據(jù)中的實體關系進行判斷識別。本方案使用斯坦福大學發(fā)布的弱監(jiān)督學習框架Snorkel,進行數(shù)據(jù)處理和模型訓練。

        3 方案的具體設計及實現(xiàn)步驟

        首先如果有已存在的實體關系的知識庫,要把知識庫導入數(shù)據(jù)庫做結構化處理形成三元組形式,為后續(xù)標注樣本數(shù)據(jù)做準備,如(x,y,M),x、y即指某實體,M即指它們之間存在的某類特定關系。第二步,對樣本文檔進行預處理,預處理是把文檔拆分成一個個完整的句子,并給句子進行編號后存入數(shù)據(jù)庫中。接下來,針對每一個句子,用NLP工具對其進行分詞和詞性標注。NLP的處理結果是針對每個句子生成兩個有序集合,一個是詞的集合,一個是相對應的詞性的集合。這里不推薦使用NLP自帶的實體名稱識別功能,通常識別準確率和召回率都偏低。第四步,基于分詞和詞性標注的基礎上,應用前述技術方案中描述的規(guī)則表達式和在線匹配的方法,識別句子中的實體名稱。這一步的輸出是,針對每個句子產生一個實體對,存入數(shù)據(jù)庫中,如果句子中存在多個不同實體,則應用笛卡爾積的方式產生多個實體對,并關聯(lián)該句子。第五步,針對每個實體對,提取實體前后若干詞語以及相關的詞性標注作為判別實體關系的特征,并將這些特征詞集合存入數(shù)據(jù)庫中。第六步,編寫標注函數(shù),并給樣本打標。標注函數(shù)可以有多個,每個標注函數(shù)實現(xiàn)一種判定規(guī)則。規(guī)則可以是領域專家的知識的體現(xiàn),也可以是現(xiàn)有知識庫里關于相關實體對的已存在標注。使用標注函數(shù)給樣本打標后,產生一組帶標記結果的樣本數(shù)據(jù)。接下來,基于標記過的樣本數(shù)據(jù),使用Snorkel框架數(shù)據(jù)編程構建因子圖模型,也即構建生成模型。應用生成模型,對足夠數(shù)量的樣本數(shù)據(jù)進行打標。最后一步,使用標記過的樣本數(shù)據(jù),訓練判別模型。判別模型主要是應用神經網絡模型,尤其針對實體關系識別的上下文相關的特點,使用BLSTM,即雙向長短期記憶模型,效果更好。模型訓練完成后,就可以應用到生產環(huán)境中對真實數(shù)據(jù)進行實體關系識別的工作。

        結語:本方案是通過若干步驟的組合,逐步從文本中識別出實體以及實體之間的關系。每一步對于整個方案提高準確率和召回率都起著至關重要的作用。在實際應用過程中,應根據(jù)文檔的特點,對方法、規(guī)則、模型進行相應調整,從而達到最優(yōu)效果。

        猜你喜歡
        監(jiān)督模型
        一半模型
        重要模型『一線三等角』
        突出“四個注重” 預算監(jiān)督顯實效
        人大建設(2020年4期)2020-09-21 03:39:12
        重尾非線性自回歸模型自加權M-估計的漸近分布
        監(jiān)督見成效 舊貌換新顏
        人大建設(2017年2期)2017-07-21 10:59:25
        夯實監(jiān)督之基
        人大建設(2017年9期)2017-02-03 02:53:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        績效監(jiān)督:從“管住”到“管好”
        浙江人大(2014年5期)2014-03-20 16:20:28
        監(jiān)督宜“補”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        又色又污又爽又黄的网站 | 国产91福利在线精品剧情尤物| 国产av91在线播放| 二区三区日本高清视频| 无码人妻丰满熟妇区bbbbxxxx| 99久久婷婷国产综合亚洲| 极品av麻豆国产在线观看| 亚洲成人中文| 在线播放中文字幕一区二区三区| 国产黄色一区二区三区,| 久久人人爽人人爽人人片av高请| 国产做a爱片久久毛片a片| 久久国产乱子伦精品免费强| 欧美在线Aⅴ性色| 成人高清在线播放视频| 亚洲乱亚洲乱妇无码麻豆| 国产成年无码v片在线| 久久精品国产6699国产精| 亚洲少妇一区二区三区老| 中文有码无码人妻在线| 欧美巨大巨粗黑人性aaaaaa| 国产目拍亚洲精品一区二区| 亚洲av色香蕉一区二区三区潮| 久久天堂精品一区二区三区四区| 日本怡春院一区二区三区| 中文字幕经典一区| 一区二区三区精品亚洲视频| 色欲一区二区三区精品a片| 国产成人精品一区二区三区免费| 九九在线精品视频xxx| 在线观看的a站免费完整版| 色综合天天综合欧美综合| 三上悠亚久久精品| 亚洲无码vr| 最新中文字幕日韩精品| 天天做天天爱天天综合网2021| 99热这里只有精品69| 日本韩国黄色三级三级 | 久久理论片午夜琪琪电影网| 日韩精品无码一区二区三区视频 | 精品亚洲一区二区三区四|