亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征向量與SVO擴展的企業(yè)生態(tài)關系抽取

        2018-10-15 05:58:52代江波毛建華劉學鋒張鴻洋
        計算機技術與發(fā)展 2018年10期

        代江波,毛建華,劉學鋒,張鴻洋

        (上海大學 通信與信息工程學院,上海 200444)

        0 引 言

        企業(yè)實體關系抽取旨在從自然語言文本中抽取企業(yè)實體及企業(yè)實體間關系,以幫助企業(yè)獲取企業(yè)自身或其他感興趣企業(yè)的相關信息。網絡文本,尤其是上市公司年報定期披露的上市公司生產經營的相關信息中包含豐富的企業(yè)產品生產、采購、銷售、市場競爭、行業(yè)發(fā)展及政策法規(guī)等內容,但上市公司定期報告披露的企業(yè)關系信息是破碎的。為構建行業(yè)企業(yè)的關系圖譜,有必要研究行業(yè)企業(yè)關系的抽取方法。企業(yè)實體關系的獲取是一種典型的信息抽取問題,主要是研究在實體識別的基礎上確定文本中實體對所蘊含的關系類型。

        然而對于實體關系抽取,企業(yè)實體間關系的抽取有如下特殊性:缺乏大規(guī)模企業(yè)實體關系標注語料;存在企業(yè)實體間關系模式的表達與選取問題。由于僅以詞法、句法特征抽取實體關系不能獲取復雜句子的長距離深層持征,而最短依存路徑模式抽取實體關系由于實現(xiàn)了對關系的濃縮表示缺乏語義約束以及相關特征表示容易造成關系實例誤檢?;谝陨蠁栴},文中重在解決如何在缺乏標注語料的前提下,實現(xiàn)企業(yè)間實體關系模式的建立及其關系的抽取。

        1 相關工作

        近年來的研究趨勢表明,機器學習方法是目前關系抽取研究的主流方法,主要包括有監(jiān)督、無監(jiān)督和半監(jiān)督三種類型。

        有監(jiān)督方法是通過構建一個監(jiān)督分類器來實現(xiàn)關系抽取。其主要思想是通過對人工標記的訓練樣本訓練出關系實例的分類模型,然后利用訓練出的分類模型測試候選關系實例集合實現(xiàn)對實例關系的分類。在有監(jiān)督的方法中,基于樹核的方法不需要構造特征向量,解決了基于特征向量方法無法充分利用實體對上下文的結構信息的問題。文獻[1]將改進的語義序列核函數(shù)和機器學習KNN分類算法相結合構造分類器,并對關系類型進行分類和標注;在ACE數(shù)據(jù)集上,關系抽取的平均準確率提高到88%。文獻[2]首先構造一個豐富的語義關系樹結構,將句法信息和語義信息相結合,并對上下文相關的樹結構進行擴展。實驗表明提出的基于樹核的方法優(yōu)于其他先進的方法。文獻[3]在實例句的句法樹中融入能反映特定領域實體語義關系的領域知識樹,相比沒有融入領域信息的方法實體關系抽取的性能提高了3.4%。文獻[4]通過抽取深層句法特征構建演化關系模式并借助CRF模型識別概念間的演化關系,使演化關系的抽取較傳統(tǒng)方法有更高的準確性。該模式具有一定的優(yōu)越性和有效性,可以有效識別機器學習領域中概念間的演化關系。然而有監(jiān)督方法訓練和測試速度過于緩慢,不適合處理大規(guī)模數(shù)據(jù)。

        無監(jiān)督實體關系抽取方法實際上是一種聚類算法,將相似度高的實體對所在的關系句子實例聚為一類,然后選擇評分高并且具有代表性的特征詞來標記這種關系。無監(jiān)督方法無需依賴疏通關系標注的語料,因此可以解決有監(jiān)督方法中標注困難的問題。文獻[5]提出了一種能同時觸發(fā)關系觸發(fā)詞和關系參數(shù)的無監(jiān)督的生成模型,并通過抽取的實體關系揭示了患者記錄中存在的一些隱含的語義結構。文獻[6]提出一種基于多層無監(jiān)督神經網絡的分類模型,有效解決了高維特征向量中特征提取以及分類的問題。實驗表明在高維空間特征的信息抽取任務中,DBN模型具有較強的處理和分析能力,其效果比SVM和反向傳播網絡更好。文獻[7]提出了一個多級聚類方法來分組語義等價關系,該方法不僅提高了可擴展性,而且通過利用每個初始簇中的冗余來提高聚類結果。無監(jiān)督實體關系抽取方法在處理大規(guī)模實體關系抽取時雖然有一定的優(yōu)勢,但其聚類閾值難以提前確定,并且目前仍缺乏較客觀的評價標準。

        由于有監(jiān)督的關系抽取方法需要大量的標注語料庫,而無監(jiān)督的機器學習其聚類閾值難以事先確定,并且目前仍缺乏較客觀的評價標準。所以為了減少對語料集的人工標注,實現(xiàn)關系的自動抽取,半監(jiān)督的關系抽取算法得到了發(fā)展和應用。2014年,文獻[8]提出一種改進的上下文模式語義分析并結合基于bootstrapping的半監(jiān)督算法抽取語義關系抽取,在一定程度上加強了語義關系抽取的效果。文獻[9]提出一種基于詞嵌入的bootstrapping關系抽取模型,并且依靠詞嵌入實現(xiàn)了從一組新聞線文檔中提取四種關系的任務,獲得了較好的表現(xiàn)。文獻[10]定義了一種語義約束的bootstrapping關系抽取模型,并提出了語義最短依存路徑關系模式語義,使其包含了更豐富的句法特征和語義特征,具有更強的關系指向性,且最終具有較好的表達效果。

        基于以上研究,文中建立bootstrapping關系抽取模型以減少對語料集的人工標注,擴充種子關系模式集合,實現(xiàn)關系模式的自動抽取;在關系抽取模型中提出基于觸發(fā)詞的特征向量(T_FVM)關系模式和基于觸發(fā)詞的主謂賓擴展(T_SVOE)關系模式,以解決企業(yè)關系抽取中對表格信息處理和對句子語義信息表示不足的問題。

        2 基于特征向量與SVO擴展的企業(yè)關系抽取

        企業(yè)關系抽取主要包含預處理、構建種子集、迭代和測試四個子模塊。預處理模塊是對企業(yè)年報原始文本進行正文抽取、企業(yè)專有名詞識別以及觸發(fā)詞構建。構建種子集則從語料集中選取具有代表性的一部分關系實例進行標注。迭代過程是bootstrapping的核心和重點,首先對訓練語料集進行依存句法分析、特征提取[11-13]等產生候選關系模式,然后對候選模板進行相似性分析與評價,將可靠的關系模式保留下來擴展種子集合,最后將擴展的種子集合作為下一次迭代的輸入。將得到的關系模式集合對測試預料中的實例進行關系抽取。其核心流程如圖1所示。

        在候選關系模式模塊中主要運用提出的基于特征向量與SVO擴展的關系模式,并在關系模式中引入觸發(fā)詞語義約束機制。

        2.1 構建企業(yè)關系專有名詞

        企業(yè)關系專有名詞是指能夠觸發(fā)一定關系類型的詞,具有一定的語義指向性,也被稱為關系指示詞或觸發(fā)詞。關系指示詞常在關系抽取中被用作實體關系發(fā)生的指向詞;在關系抽取中,主要是指具有某種語義關系并能觸發(fā)特定關系模式的詞[14-15]。

        圖1 企業(yè)實體關系抽取核心流程

        通過對關系模式添加觸發(fā)詞特征以實現(xiàn)語義關系的約束和實體關系的準確表達。它作為關系模式的語義錨點,直接關系著關系模式的語義類型,對關系抽取起著重要的作用。文中利用統(tǒng)計方法和人工篩選、添加的方法實現(xiàn)觸發(fā)詞的獲取和過濾。定義了5種實體關系:客戶關系、供應商關系、研發(fā)關系、附屬關系、位置關系;各關系的具體定義為:

        定義1(客戶關系):指企業(yè)為達到其經營目標,主動與客戶建立起銷售與購買的聯(lián)系。

        定義2(供應商關系):指企業(yè)為達到其經營目標,主動與供應商建立起購買與銷售的聯(lián)系。

        定義3(研發(fā)關系):指企業(yè)為達到其經營目標,主動提高技術、產品和服務水平,將研究成果轉化為可靠,具有成本效益的創(chuàng)新產品的活動。

        定義4(附屬關系):存在一定隸屬關系或合作關系的兩個或兩個以上組織、機構或者企業(yè)。

        定義5(位置關系):是指組織、機構以及公司等與地名或地址等存在的特定關系。

        針對描述每一種企業(yè)關系的專有名詞的具體定義情況如表1所示。

        表1 企業(yè)關系專有名詞定義

        2.2 關系模式及其表述

        關系模式的表達和抽取是實體關系抽取的核心問題,其目前主要是對關系的向量表示和結構化表示。由于關系選擇性與關系模式息息相關,好的關系模式具有好的關系選擇性,可以提高關系抽取的正確率,因此關系模式的表達和抽取成為實體關系抽取的關鍵。文中提出基于觸發(fā)詞的特征向量關系模式(FVM based on semantic constraint of trigger words,T_FVM)和觸發(fā)詞的主謂賓(SVO)擴展關系模式(SVO extension model based on semantic constraints of trigger words,T_SVOE)進行實體關系抽取。

        2.2.1 基于觸發(fā)詞的特征向量關系模式

        對于企業(yè)語料中的半結構化表格的處理,需要采取間接方法來獲取相應的實體關系;這一部分主要是抽取年報公司實體和表格中企業(yè)、組織、機構以及產品實體間的關系而言,對于表格內部實體間的關系并不能有效表示。

        表格中的企業(yè)實體由于缺乏信息及特征以至于實體間的關系難以表達和獲?。坏窃谄髽I(yè)年報中凡是和年報公司實體含有一定實體關系的表格都會提前對相關表做一個關鍵性的相關信息描述,因此可以對這部分信息進行詳細的分析和信息特征獲取。由于這一部分依存句法特征較少,分析結果不理想,因此這一部分采用基于特征向量的關系模式(FVM)進行表示,并使用觸發(fā)詞進行語義約束,即提出基于觸發(fā)詞語義約束的特征向量關系模式(T_FVM)。

        定義6:定義四元組為一個完整關系實例。其中,ER(entity relation)為兩個實體間存在的關系,例如客戶關系、供應商關系、研發(fā)關系等;ES1、ES2(entities)即為含有一定關系的實體對;FV(feature vector)為特征集合即關系實例的關系表述。種子實例中對于特征向量關系模式抽取的關系實例也以這樣的四元組形式表現(xiàn)。

        文中在傳統(tǒng)淺層詞匯特征的基礎上,增添觸發(fā)詞特征和實體類型特征以獲取實體對之間更豐富的關系特征,并使用KNN算法進行分類預測。選取的實體關系特征有:

        (1)關鍵詞匯特征序列。首先使用TextRank[16]算法獲取關鍵詞匯特征序列,TextRank算法是利用局部詞匯之間的關系(共現(xiàn)窗口)對后續(xù)關鍵詞進行排序,直接從文本本身抽取。公式定義如下:

        其中,d為阻尼系數(shù),取值范圍為0到1,表示從圖中某一特定點指向其他任意點的概率,一般取值為0.85。

        (2)觸發(fā)詞特征。通過已構建的企業(yè)關系專有名詞庫獲取句子中含有的觸發(fā)詞特征。

        (3)實體類型特征。能夠識別的實體種類有人名、地名、組織機構名等。

        2.2.2 基于觸發(fā)詞的主謂賓擴展關系模式

        對于純文本信息,則將含有命名實體的句子作為關系抽取的元實例集,這一部分則采用T_SVOE模式進行模式表示以及關系抽取。對于SVO[17-18]模式,雖然可以利用主謂賓組合表示一定的深層語義信息,但對于長復雜句,由于信息表現(xiàn)過于簡單,容易造成對句子關鍵信息表述的缺失。例如句子“嘉園環(huán)保為本公司全資子公司,注冊資本6 000萬元”,如果是基于SVO模式,則提取的基本句子關系模式為:“嘉園環(huán)保:company_name SBV 注冊資本 * 元”;則具有語義表述的關鍵信息成分“控股子公司”出現(xiàn)缺失,結果導致本句子被歸類為無關系。

        因此文中提出SVO擴展模式;SVO擴展模式的重點在于對主謂賓各個成分含有的并列關系(COO)、定中關系(ATT)以及介賓關系(POB)的句子成分進行提取,并將其依存句法關系也加入結構模式中使之可以完善對句子語義信息的表達。由于關系模式抽取時可能會產生語義漂移問題,因此使用觸發(fā)詞進行語義約束即提出基于觸發(fā)詞的T_SVOE關系模式。

        依存語法通過分析語言單元中各成分之間的依存關系,即指出句子中單詞之間的句法搭配,分析句子的主謂詞,賓語,形式,補語結構,揭示句子成分之間的語義修飾關系。直觀地講,依存句法分析句子中的這些語法成分與這些成分的位置無關,分析各成分之間的語義修飾關系,可以獲得遠距離的搭配信息。常用的依存句法分析標注關系如表2所示。

        表2 依存分析標注關系

        定義7:定義五元組為一個關系實例。其中ER為兩個實體間存在的關系,例如客戶關系、供應商關系、研發(fā)關系等;主謂賓擴展(SVOE)模式即對主謂賓各個成分含有的并列關系、定中關系以及介賓關系的句子成分進行提取,并將其依存句法關系也加入結構模式中使之可以完善對句子語義信息的表達;ES1、ES2即為含有一定關系的實體對;TW即觸發(fā)詞在句法中對實體關系具有指示作用,在句法結構中要保留該元素,如果句子中含有觸發(fā)詞則TW為觸發(fā)詞名稱,反之為No。在種子實例中,針對T_SVOE的關系模式抽取的關系實例也是以這樣五元組形式表現(xiàn)的。

        根據(jù)依存句法分析獲取T_SVOE關系模式主要包括三步:

        (1)依據(jù)依存句法分析結果,提取包含實體以及觸發(fā)詞在內的主謂賓核心結構,如算法1所示。

        (2)提取與主謂賓有直接并列關系、定中關系以及介賓關系的依存關聯(lián)節(jié)點,如算法2所示。

        (3)加入依存關系特征并用實體類型替代實體部分,其他無關的成分用*代替即得到最終可以表示一定實體關系的關系模式。

        算法1:提取包含實體以及觸發(fā)詞在內的主謂賓核心結構。

        輸入:實體e,實體所在句子的依存句法分析結果

        輸出:包含實體以及觸發(fā)詞在內的主謂賓核心結構

        Foreach node sentenceNodes

        IF(node→relate為SBV,node→relate為HED,node→relate為VOB或者node→name為e)

        /*遍歷依存句法中每個關系節(jié)點,提取主謂賓關系成分到節(jié)點關系集合中*/

        Add node→relate to nodeSet

        ENDIF

        Foreach tw triggerWordsSet

        /*遍歷觸發(fā)詞集合,獲取句子關系中含有觸發(fā)詞的關系成分*/

        IF(node→name為tw)

        Add node→relate to nodeSet

        ENDIF

        END

        END

        算法2:提取與主謂賓的直接依存關聯(lián)節(jié)點。

        輸入:主語S、謂語R、賓語O成分以及實體所在句子的依存句法分析結果

        輸出:主語S、謂語R、賓語O的依存關聯(lián)節(jié)點集合

        p=S,R,O←parent;

        Foreach p∈sentenceNodes

        IF(p→relate為COO,p→relate為ATT或者p→relate為POB)

        Add p tonodeSet

        /*遍歷依存句法中每個關系節(jié)點,如果與主語S、謂語R、賓語O的依存關系為COO、ATT或POB,則添加關系節(jié)點到節(jié)點集合中*/

        ENDIF

        END

        則句子“嘉園環(huán)保為本公司全資子公司,注冊資本6 000萬元”通過基于T_SVOE的關系模式分析得到T_SVOE關系模式為“嘉園環(huán)保:company_name SBV為VOB全資子公司*,注冊資本*”;通過和基于主謂賓(SVO)模式的結果對比分析,基于觸發(fā)詞和SVOE模式明顯對句子有更完善的語義信息表達。

        3 實 驗

        3.1 實驗數(shù)據(jù)集及預處理

        選取2015年1 000家上市公司年報作為語料,其中涉及電子、汽車、藥業(yè)、食品、房地產五大行業(yè)各200篇左右,并定義5種實體關系:客戶關系、供應商關系、研發(fā)關系、附屬關系、位置關系。文中采取半監(jiān)督的方法,首先構造一個小的種子集,然后從未標記的數(shù)據(jù)集中提取某些特征的數(shù)據(jù),在評估之后,提取最可信的數(shù)據(jù)集來擴展訓練集,然后迭代這個過程,因此不需要進行大量標注構建小規(guī)模的種子集合是關鍵。對每個行業(yè)年報選取20%用來建立種子集,其余80%中的60%作為訓練語料,40%作為測試語料。

        預處理是實體關系識別的基礎也是關鍵工作。選取FudanNLP自然語言處理工具進行分詞、停用詞過濾,詞性標注以及實體識別等基礎工作,然后獲取包含實體的句子,使用LTP-Cloud進行句子結構解析以及詞之間的依存分析。

        3.2 實驗結果評價指標

        準確率(Precision,PR)、召回率(Recall,RR)和F值(F-Measure,F(xiàn))是信息抽取領域中的三項基本評價指標。準確率是指在某一特定關系類型的實例中被正確抽取的實例占所有抽取為此關系類型的比例,它是從查準率的角度評估抽取效果;召回率是指在某一特定關系類型的實例中被正確抽取的實例占實際屬于本類型的實例的比例,它是從查全率的角度評估抽取效果;由于準確率和召回率都是單一方面的評估,實際兩者是相互影響、相互牽制的,因此F值則是綜合考慮準確率和召回率的影響。計算公式為:

        (2)

        RR=

        (3)

        (4)

        3.3 實驗結果與分析

        基于觸發(fā)詞的語義模式企業(yè)關系抽取任務中,采用基于T_FVW和基于T_SVOE兩種關系模式處理不同情況下的實體關系,同時引用的觸發(fā)詞約束在語義上約束關系模式,以確保新添加的關系模式和關系實例指向當前關系,這大大改善了抽取的準確率。表3顯示了5種實體關系抽取的準確率、召回率和F值。

        表3 各關系抽取性能 %

        同時還實現(xiàn)引入其他三種關系抽取算法進行對比,使用未加觸發(fā)詞語義約束的FVW和SVO關系模式,該方法記為FVM&SVO;使用未加觸發(fā)詞語義約束的FVW和SVOE關系模式,該方法記為FVM&SVOE;同時,還實現(xiàn)未擴展T_SVO關系模式以方便和擴展T_SVOE關系模式進行對比,該方法記為T_FVW&T_SVO;記文中方法為T_FVW&T_SVOE;對比結果如表4所示。

        表4 所有關系下的綜合性能比較

        %

        通過比較可以觀察到,基于SVO擴展的關系模式其準確率和召回率都有小幅度的提升,這說明基于SVO擴展模式相比單純的基于SVO模式更適合用于關系的抽取;方法3的準確率明顯高于方法2,這主要是因為引入觸發(fā)詞特征對相應的關系模式有一定的語義約束作用,但是召回率下降了0.3%,可能是由于關系模式泛化能力不足導致。

        觀察表3和表4,對于基于關系模式的半監(jiān)督學習方法具有較高的或快速增長的準確率,相反召回率卻增長緩慢甚至偶爾出現(xiàn)較低的現(xiàn)象,這些主要是由bootstrapping迭代所產生的,因為該過程是通過候選關系模式集來擴大實例集,然后再通過擴大的實例集反過來擴大關系模式集。如果不能保證抽取的關系模式有較高的準確率,則在迭代過程中必然會導致錯誤的積累和疊加;因此,基于關系模式的半監(jiān)督學習方法往往具有較高的準確率。

        4 結束語

        文中提出了基于特征向量與SVO擴展的企業(yè)關系抽取模型,并在該模型中引入觸發(fā)詞約束機制。實驗結果表明,該方法能夠從大規(guī)模的企業(yè)文本中抽取出企業(yè)實體關系,有效解決了企業(yè)關系抽取中對表格信息處理和對句子語義信息表示不足的問題;同時使用bootstrapping算法通過種子模板抽取關系模式,不斷迭代學習,最終達到需要的數(shù)據(jù)信息規(guī)模,解決了人工干預和語料標注的問題。

        下一步將研究跨文檔中隱式關系的抽取,以及基于Web的企業(yè)關系抽取,從而挖掘出更多的實體關系,自動建立全方位的企業(yè)生態(tài)關系圖譜。

        免费美女黄网站久久久| 无码精品日韩中文字幕| 久久精品夜夜夜夜夜久久| 伊人激情av一区二区三区| 18禁男女爽爽爽午夜网站免费| 欧美在线观看www| 国产视频在线观看一区二区三区 | 日韩精品视频一区二区三区 | 国内精品久久久久国产盗摄| 校花高潮一区日韩| 中文字幕日本av网站| 中国妇女做爰视频| 中文字幕一区二区三区精彩视频| 亚洲欧美日韩一区二区在线观看| 国产精品亚洲av一区二区三区| 亚洲国产精品美女久久| 国产精品v欧美精品v日韩精品 | 国产欧美日韩午夜在线观看| 一区二区三区国产视频在线观看| 亚洲精品一品区二品区三区| 欧美亚洲色综久久精品国产| 国产欧美一区二区成人影院| 韩国女主播一区二区三区在线观看 | 国产综合久久久久影院| 在线亚洲妇色中文色综合| 97一期涩涩97片久久久久久久 | 俺也去色官网| 亚洲国产精品色婷婷久久| 人妻少妇中文字幕在线观看| 久久综合国产乱子伦精品免费 | 亚洲精品一区二区在线免费观看| 一本色道久久88亚洲精品综合 | 2021国产精品久久| 狠狠综合久久av一区二区三区| 久久精品国产99久久无毒不卡| 国产白嫩美女在线观看| 国产不卡在线免费视频| 开心五月婷婷激情综合网| 草草浮力地址线路①屁屁影院| 日本精品免费一区二区三区| 中文字幕日韩精品永久在线|