亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多特征圖及實(shí)體影響力的領(lǐng)域?qū)嶓w消歧

        2023-03-13 10:05:40單曉歡齊鑫傲宋寶燕張浩林
        關(guān)鍵詞:消歧三元組歧義

        單曉歡,齊鑫傲,宋寶燕,張浩林

        遼寧大學(xué) 信息學(xué)院,沈陽 110036

        隨著信息技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)的普及應(yīng)用,網(wǎng)絡(luò)數(shù)據(jù)正以指數(shù)級(jí)的速度增長,網(wǎng)絡(luò)已經(jīng)成為最大的數(shù)據(jù)倉庫之一,且大量數(shù)據(jù)在網(wǎng)絡(luò)上以自然語言的形式呈現(xiàn)[1]。但是自然語言本身具有高度的歧義性和多樣性,歧義性體現(xiàn)在相同的實(shí)體指稱在不同上下文中可以指不同的實(shí)體,例如阿里巴巴可以表示阿里巴巴集團(tuán)、阿里巴巴(阿拉伯小說人物)、阿里巴巴(歌曲名)、阿里巴巴(書名);而多樣性是指同一實(shí)體在文本中會(huì)有不同的指稱,如馬爸爸、風(fēng)清揚(yáng)、Jack Ma都指阿里巴巴集團(tuán)創(chuàng)始人馬云。如果能夠消除上述歧義,將網(wǎng)絡(luò)數(shù)據(jù)與知識(shí)庫連接起來,將更有助于人們理解網(wǎng)絡(luò)數(shù)據(jù)的語義信息,有效利用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,同時(shí)像Dbpedia、YAGO這樣的實(shí)體知識(shí)庫也可以不斷擴(kuò)充,使其知識(shí)更豐富,而實(shí)現(xiàn)這一步的關(guān)鍵便是實(shí)體消歧技術(shù)。

        實(shí)體消歧指的是識(shí)別文本中的歧義實(shí)體指稱(命名實(shí)體),并為這些實(shí)體指稱在眾多的候選實(shí)體中匹配出最終的目標(biāo)實(shí)體[2],其在智能問答[3]、語義搜索[4]以及推薦系統(tǒng)[5]等諸多領(lǐng)域都有廣泛應(yīng)用。實(shí)體消歧可分為基于無監(jiān)督聚類的實(shí)體消歧[6],其把所有實(shí)體指稱按其指向的目標(biāo)實(shí)體進(jìn)行聚類;以及基于實(shí)體鏈接的實(shí)體消歧[7],此類方法利用知識(shí)庫獲取候選實(shí)體列表,并將實(shí)體指稱鏈接到與之最相似的實(shí)體上。近年來,隨著知識(shí)圖譜的廣泛應(yīng)用,基于實(shí)體鏈接的消歧方法成為解決消歧任務(wù)的主流方法,因此本文采用此類方法實(shí)現(xiàn)實(shí)體消歧。

        本文針對(duì)現(xiàn)有方法進(jìn)行研究發(fā)現(xiàn),普遍存在的問題包括:僅考慮單一實(shí)體指稱與其候選之間的語義關(guān)系,而忽略了同一文本中不同實(shí)體指稱候選之間的聯(lián)系,因此只能實(shí)現(xiàn)局部消歧(單實(shí)體指稱消歧);利用候選實(shí)體構(gòu)建圖時(shí),忽略了實(shí)體影響力及候選實(shí)體間的相似度對(duì)實(shí)體消歧的影響;將無歧義實(shí)體指稱及其候選實(shí)體亦作為圖節(jié)點(diǎn),增加了后續(xù)圖計(jì)算的復(fù)雜性,進(jìn)而對(duì)消歧的效率產(chǎn)生影響。

        針對(duì)上述問題,本文提出一種融合多特征圖及實(shí)體影響力的實(shí)體消歧方法(entity disambiguation method combining multi-feature graph and entity influence,ED_MG&EI),該方法綜合局部消歧與協(xié)同消歧的優(yōu)勢,有效實(shí)現(xiàn)同一文本多實(shí)體指稱的整體消歧,本文主要內(nèi)容如下:

        (1)基于候選實(shí)體的多特征圖構(gòu)建。本文以金融領(lǐng)域?yàn)樘囟I(lǐng)域,對(duì)現(xiàn)有知識(shí)庫進(jìn)行預(yù)處理,提取金融類別相關(guān)關(guān)鍵詞三元組,構(gòu)建金融領(lǐng)域知識(shí)庫;針對(duì)金融活動(dòng)類文本,提取待消歧實(shí)體指稱,融合多種特征提取語義信息并通過相似度計(jì)算,篩選候選實(shí)體作為頂點(diǎn)集合,利用知識(shí)庫三元組信息獲取候選實(shí)體間2-hop內(nèi)的關(guān)系作為邊集合,同時(shí)計(jì)算候選實(shí)體間的相似度作為邊權(quán)值,進(jìn)而將多特征信息充分融合到圖模型中,完成多特征圖構(gòu)建。

        (2)提出基于實(shí)體影響力的消歧方法,該方法既考慮不同指稱候選之間的關(guān)聯(lián)性,又將局部消歧的消歧信息轉(zhuǎn)化為實(shí)體影響力,作為消歧計(jì)算的衡量指標(biāo)之一。在消歧過程中,采用動(dòng)態(tài)決策策略,利用PageRank算法,并結(jié)合實(shí)體影響力計(jì)算多特征圖中候選實(shí)體的綜合評(píng)分,進(jìn)而獲得可信度較高的消歧結(jié)果。

        1 相關(guān)工作

        目前,基于實(shí)體鏈接的消歧方法主要有局部實(shí)體消歧和協(xié)同實(shí)體消歧兩類。局部實(shí)體消歧通常只利用實(shí)體指稱與候選實(shí)體的上下文信息的特征表示,計(jì)算兩者之間的相似度,進(jìn)而選出目標(biāo)實(shí)體。由于傳統(tǒng)特征方法[8]多為啟發(fā)式算法,需手工設(shè)計(jì)有效特征,且難以調(diào)整,進(jìn)而無法獲取更深層次的語義和結(jié)構(gòu)信息。近年來,采用神經(jīng)網(wǎng)絡(luò)進(jìn)行局部消歧的思想逐漸興起,Sun等人[9]提出了一種基于記憶網(wǎng)絡(luò)的實(shí)體消歧方法,該方法通過注意機(jī)制從周圍的語境中自動(dòng)找到重要線索,并利用這些線索進(jìn)行實(shí)體消歧,不依賴任何手動(dòng)設(shè)計(jì)的特性。為了有效地學(xué)習(xí)模型參數(shù),其需要大量的訓(xùn)練數(shù)據(jù)。Deeptype[10]是一種將符號(hào)信息集成到帶有類型系統(tǒng)的神經(jīng)網(wǎng)絡(luò)推理過程中以實(shí)現(xiàn)實(shí)體消歧的方法,其能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行整合,在英語、法語、德語以及西班牙語上具有較理想的消歧效果。Alokaili等人[11]提出了一種基于長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于編碼目標(biāo)地理實(shí)體的上下文,進(jìn)而實(shí)現(xiàn)地理實(shí)體消歧,其在英語和西班牙語兩個(gè)注釋語料庫上對(duì)方法進(jìn)行了評(píng)估。

        協(xié)同實(shí)體消歧認(rèn)為同一文本中不同實(shí)體指稱存在語義關(guān)聯(lián)性,進(jìn)而推斷其候選實(shí)體之間也具有依賴關(guān)系,在局部消歧基礎(chǔ)上增加協(xié)同策略,結(jié)合這種關(guān)系進(jìn)行綜合計(jì)算,以提升實(shí)體消歧性能。文獻(xiàn)[12]提出了一種結(jié)合語義表示學(xué)習(xí)的基于圖的實(shí)體鏈接模型,基于RDF數(shù)據(jù)訓(xùn)練的語義向量構(gòu)造了一個(gè)實(shí)體相關(guān)圖,并在圖上利用PageRank算法計(jì)算實(shí)體指稱的正確候選實(shí)體。近年來,也有相關(guān)算法[13-14]將深度學(xué)習(xí)與圖方法結(jié)合,將構(gòu)建的實(shí)體圖輸入到圖神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí),此類方法消歧效率較高,但文檔較多訓(xùn)練起來工程很大。文獻(xiàn)[15]為解決短文本稀疏性造成概念化困難的問題,通過度量術(shù)語之間的相關(guān)性、選擇信息術(shù)語并對(duì)信息術(shù)語進(jìn)行優(yōu)先排序,以突出其辨別能力,減少噪聲干擾。Jia等人[16]提出了一種層次語義相似模型,該模型基于實(shí)體指稱上下文、實(shí)體描述和類別等多個(gè)信息源來尋找實(shí)體指稱與目標(biāo)實(shí)體的語義匹配。實(shí)體鏈接標(biāo)注系統(tǒng)ABACO[17]假定標(biāo)注的實(shí)體與文檔的主題一致,以解決名稱歧義問題。根據(jù)候選實(shí)體在知識(shí)圖中的中心性和與文檔主題的文本相似度對(duì)其進(jìn)行評(píng)分,進(jìn)而剔除最差的候選實(shí)體。

        2 基于候選實(shí)體的多特征圖構(gòu)建

        本文針對(duì)特定領(lǐng)域,從財(cái)經(jīng)網(wǎng)、南方財(cái)富網(wǎng)、搜狐財(cái)經(jīng)等網(wǎng)站爬取金融領(lǐng)域相關(guān)語料,獲得經(jīng)過人工標(biāo)注、數(shù)據(jù)清洗、事件抽取而最終生成的待消歧實(shí)體指稱集,并在此基礎(chǔ)上進(jìn)行研究,實(shí)現(xiàn)參與金融活動(dòng)要素的實(shí)體消歧。因?yàn)榻鹑谙嚓P(guān)文本表達(dá)的信息主要是金融交易或投資之間的關(guān)系,所以命名實(shí)體識(shí)別后的實(shí)體指稱項(xiàng)(待消歧實(shí)體)為參與金融活動(dòng)要素的企業(yè)及與企業(yè)相關(guān)的個(gè)人實(shí)體。

        2.1 領(lǐng)域知識(shí)庫構(gòu)建

        CN-DBpedia[18]是由復(fù)旦大學(xué)知識(shí)工場實(shí)驗(yàn)室研發(fā)并維護(hù)的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科,是國內(nèi)最早推出的也是目前最大規(guī)模的開放百科中文知識(shí)圖譜,涵蓋數(shù)千萬實(shí)體和數(shù)億級(jí)的關(guān)系。CN-DBpedia主要從中文百科類網(wǎng)站(如百度百科、互動(dòng)百科、中文維基百科等)的純文本頁面中提取信息,經(jīng)過濾、融合、推斷等操作后,最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),即Dump數(shù)據(jù)集。

        Dump數(shù)據(jù)集中有mention2entity信息110萬+、摘要信息400萬+、標(biāo)簽信息1 980萬+、infobox信息4 100萬+。Dump數(shù)據(jù)中的摘要信息、標(biāo)簽信息以及涵蓋大量三元組關(guān)系、語義信息的infobox信息,適用于圖節(jié)點(diǎn)及關(guān)系的挖掘;而mention2entity數(shù)據(jù)包含的信息則更注重表示實(shí)體對(duì)應(yīng)的不同含義,即可能是具有相同字面表示的所有可能含義或者是現(xiàn)實(shí)中存在同一實(shí)體的不同別名的情況,因此這種數(shù)據(jù)對(duì)于候選實(shí)體生成具有一定的過濾作用。

        由于本文只針對(duì)金融領(lǐng)域的實(shí)體消歧進(jìn)行研究,因此從P2P(網(wǎng)絡(luò)借貸)、小額貸款、互聯(lián)網(wǎng)支付等金融新業(yè)態(tài)角度研究,通過人工定義關(guān)鍵詞知識(shí)體系,從CN-DBpedia數(shù)據(jù)中提取金融類別相關(guān)關(guān)鍵詞三元組,構(gòu)建金融特定領(lǐng)域知識(shí)庫,分別生成mention2entity_finance數(shù)據(jù)和Dump_finance數(shù)據(jù),并將抽取的三元組關(guān)系批量導(dǎo)入到Neo4j圖數(shù)據(jù)庫中進(jìn)行存儲(chǔ)及管理。同時(shí),為了有效提高候選實(shí)體的挖掘效率,本文將mention2entity_finance數(shù)據(jù)進(jìn)行預(yù)處理,遍歷該數(shù)據(jù)集,將具有唯一含義的實(shí)體對(duì)三元組提取并生成mention2entity_finance_one-to-one數(shù)據(jù)集,用于驗(yàn)證實(shí)體指稱是否只具有唯一候選實(shí)體;將剩余的三元組繼續(xù)存儲(chǔ)在mention2entity_finance數(shù)據(jù)集中,即該數(shù)據(jù)集中實(shí)體指稱具有多個(gè)候選實(shí)體。

        2.2 多特征圖構(gòu)建

        研究發(fā)現(xiàn),同一文本下不同實(shí)體指稱的高相關(guān)性,導(dǎo)致對(duì)應(yīng)的不同候選集合之間也具有一定的語義聯(lián)系,且這種語義聯(lián)系對(duì)消除實(shí)體歧義具有一定的作用[2],為此本文將候選實(shí)體及其之間的聯(lián)系構(gòu)建為有向加權(quán)圖G=(V,E,LV,W)表示,其中V為節(jié)點(diǎn)集合,表示不同實(shí)體指稱的候選實(shí)體及候選實(shí)體的1-hop鄰居實(shí)體;E表示邊集合,由不同實(shí)體指稱的候選實(shí)體之間的語義關(guān)系組成;LV則為節(jié)點(diǎn)標(biāo)簽屬性集合;W表示邊權(quán)值集合,候選實(shí)體之間的關(guān)聯(lián)度通過邊權(quán)值表示,權(quán)值越大,則表明兩候選實(shí)體之間越相似。

        2.2.1 候選實(shí)體篩選

        對(duì)于候選實(shí)體的生成,首先將文本中所有識(shí)別出的實(shí)體指稱項(xiàng)組成集合M={m1,m2,…,mn},其中n表示文本中實(shí)體指稱項(xiàng)的個(gè)數(shù)。然后針對(duì)每個(gè)實(shí)體指稱項(xiàng)mi,在預(yù)處理的知識(shí)庫三元組數(shù)據(jù)中搜索與之同名的頭實(shí)體,將對(duì)應(yīng)的尾實(shí)體集合作為該實(shí)體指稱的候選集Ei={ei1,ei2,…},同理獲得全部實(shí)體指稱的候選集合H={E1,E2,…,Es},其中每個(gè)候選實(shí)體即為多特征圖的節(jié)點(diǎn)。

        如果知識(shí)庫(mention2entity_finance_one-to-one及mention2entity_finance)中沒有同名實(shí)體,則把相應(yīng)的實(shí)體指稱項(xiàng)歸為空實(shí)體。如果從mention2entity_finance_one-to-one獲得實(shí)體指稱的候選實(shí)體,則表明該候選實(shí)體為唯一的無歧義候選,將這類候選實(shí)體直接作為實(shí)體消歧結(jié)果,不再構(gòu)建于圖中,進(jìn)而降低了圖的規(guī)模并簡化了后續(xù)圖計(jì)算的復(fù)雜度。其余實(shí)體則具有多個(gè)候選實(shí)體,為避免過多候選實(shí)體對(duì)實(shí)體消歧效率產(chǎn)生的影響,本文選取top-k個(gè)候選實(shí)體作為構(gòu)建多特征圖的節(jié)點(diǎn),當(dāng)候選實(shí)體個(gè)數(shù)小于等于k時(shí),選取指稱項(xiàng)所有的候選實(shí)體作為它最終的候選實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)大于k時(shí),定義指稱項(xiàng)與候選實(shí)體的相似度為指稱相似度,選取相似度最大的k個(gè)候選實(shí)體作為最終的候選實(shí)體。本文指稱相似度由衡量字符串特征的編輯距離語法相似度以及表示語義特征的上下文語義相似度構(gòu)成。

        (1)表示字符串特征的編輯距離語法相似度

        編輯距離(edit distance,ED)是兩個(gè)字符串之間,由一個(gè)字符串通過替換、插入和刪除等一系列操作轉(zhuǎn)換成另一個(gè)字符串所需的最少編輯操作代價(jià)。用EDm,ei(x,y)來表示字符串m和ei之間的編輯距離,其中x和y分別表示m和ei的長度。為統(tǒng)一量綱,本文對(duì)編輯距離進(jìn)行歸一化處理,如式(1)所示。當(dāng)m和ei完全相同時(shí),NED=0;反之,當(dāng)m和ei完全不同時(shí),NED=1,即NED(m,ei)∈[0,1]。

        本文利用編輯距離對(duì)兩字符串間的接近或相似程度進(jìn)行衡量,將歸一化的編輯距離轉(zhuǎn)換為詞語間的語法相似度,如式(2)所示,其值越大,表明兩字符串的編輯距離越小,則越相似。

        (2)表示語義特征的上下文語義相似度

        編輯距離只反映了m和ei之間的字符串特征,未考慮任何語義特征,然而考慮到同一個(gè)實(shí)體所處的上下文環(huán)境相似,本文利用實(shí)體指稱的上下文和候選實(shí)體在知識(shí)庫中的上下文之間的文本特征計(jì)算實(shí)體指稱與候選實(shí)體的相似性。對(duì)于m和ei之間的文本特征,采用經(jīng)典的向量空間模型(vector space model,VSM)進(jìn)行計(jì)算,通過空間上的相似性直觀易懂地表達(dá)語義的相似度。

        首先對(duì)實(shí)體指稱和候選實(shí)體的上下文進(jìn)行分詞、停用詞去除等預(yù)處理,再利用詞袋模型將2個(gè)文本表示為向量,并計(jì)算2個(gè)向量之間的余弦值作為實(shí)體指稱與候選實(shí)體的文本語義相似度,計(jì)算公式如式(3):

        其中,X表示實(shí)體指稱m上下文的詞向量,Y表示候選實(shí)體ei的詞向量,X·Y表示向量內(nèi)積,||X||表示向量長度。

        本文將上述兩種相似度的線性組合作為實(shí)體指稱與候選實(shí)體之間的指稱相似度,如式(4)所示:

        2.2.2 候選實(shí)體關(guān)系挖掘

        實(shí)體關(guān)系屬性是候選實(shí)體的重要屬性之一,這種屬性可以直接通過多特征圖中的邊表示。本文構(gòu)建的領(lǐng)域知識(shí)庫的Dump_finance數(shù)據(jù)中含有豐富的關(guān)系屬性,本文通過檢索頭、尾實(shí)體為候選實(shí)體的三元組,獲得候選實(shí)體間的關(guān)系屬性,從而使候選實(shí)體相互連通形成網(wǎng)絡(luò)圖。具體過程為對(duì)每個(gè)實(shí)體指稱的候選實(shí)體集合中的每個(gè)元素分別與其他候選實(shí)體集合中的所有元素進(jìn)行關(guān)系查找,如果兩者之間存在直接三元組或者具有2-hop的路徑,則認(rèn)為兩候選實(shí)體之間存在關(guān)系,對(duì)應(yīng)多特征圖中兩節(jié)點(diǎn)之間生成連接的邊。為豐富消歧信息,提高實(shí)體消歧的準(zhǔn)確性,在多特征圖的構(gòu)建過程中,既考慮了候選實(shí)體間的直接關(guān)系,又將2-hop內(nèi)的間接關(guān)系體現(xiàn)在圖中。

        2.2.3 基于上下文語義相似度的權(quán)值計(jì)算

        因?yàn)楹蜻x實(shí)體本身帶有一定的描述信息,利用該語義信息可以計(jì)算不同實(shí)體指稱的候選實(shí)體間的相似度,從而生成節(jié)點(diǎn)之間的邊權(quán)值。本文將候選實(shí)體的描述文本表示為其上下文的文本向量,通過文本向量間的距離衡量不同指稱的候選間的相似程度,其值由式(3)的余弦相似度計(jì)算所得。

        綜上,本文將構(gòu)建的具有節(jié)點(diǎn)標(biāo)簽且能表示候選實(shí)體間語義關(guān)系及相似程度的有向加權(quán)圖稱之為多特征圖??紤]某些實(shí)體指稱只有唯一候選實(shí)體,這類無歧義候選實(shí)體即為消歧結(jié)果,無需構(gòu)建于圖中,簡化了圖的大小和后續(xù)圖計(jì)算的復(fù)雜度。如圖1所示,多特征圖中節(jié)點(diǎn)由候選實(shí)體及候選實(shí)體之間的2-hop間接關(guān)系組成,邊由不同實(shí)體指稱的候選實(shí)體間的語義關(guān)系組成。圖1中方形節(jié)點(diǎn)為實(shí)體指稱,虛線表示實(shí)體指稱與候選實(shí)體的對(duì)應(yīng)關(guān)系,其上的權(quán)值為指稱相似度,將作為候選實(shí)體節(jié)點(diǎn)的權(quán)值,因此本文構(gòu)建的多特征圖中不包含實(shí)體指稱。

        圖1 多特征圖示例Fig.1 Example of multi-feature graph

        3 領(lǐng)域?qū)嶓w消歧

        3.1 候選實(shí)體影響力計(jì)算

        本文利用協(xié)同消歧的思想,即同一段文本的實(shí)體指稱語義相近,推斷知識(shí)庫中的候選實(shí)體語義也相近[12]。同時(shí)在眾多實(shí)體指稱的候選實(shí)體中,唯一候選實(shí)體作為無歧義候選,其與其他實(shí)體指稱的候選實(shí)體的關(guān)聯(lián)性對(duì)確定目標(biāo)實(shí)體具有一定的影響,因此本文將唯一候選實(shí)體與其他候選實(shí)體的關(guān)聯(lián)性作為節(jié)點(diǎn)的影響特征。

        對(duì)無歧義候選實(shí)體集合Ei′中的元素分別與圖中其他候選實(shí)體集合Ei中的每個(gè)元素進(jìn)行關(guān)系查找,通過檢索特定金融領(lǐng)域知識(shí)庫的Dump_finance數(shù)據(jù)中的三元組,如果E′i中的元素與Ei中的元素之間存在直接三元組,說明該候選實(shí)體與唯一候選實(shí)體之間有關(guān)聯(lián),則增加圖中相應(yīng)候選實(shí)體的影響特征,每出現(xiàn)一個(gè)三元組則影響特征值加θ,其中θ∈(0,1)。

        與此同時(shí),實(shí)體指稱與候選實(shí)體之間的指稱相似度也作為衡量該候選實(shí)體影響力的因素之一,因此實(shí)體影響力的具體定義如下。

        定義1(實(shí)體影響力)無歧義候選的影響特征值與指稱相似度之和。

        3.2 基于改進(jìn)PageRank和影響力的實(shí)體消歧

        本文利用多特征圖的多屬性特征,確定圖中候選實(shí)體選擇的兩種因素,一種是候選實(shí)體影響力,包括無歧義候選的影響特征和指稱相似度,反映候選實(shí)體在圖中的影響力大??;另一種是利用PageRank算法計(jì)算節(jié)點(diǎn)的重要程度。

        PageRank算法是基于實(shí)現(xiàn)網(wǎng)頁重要性排序的一種算法。本文將圖中的節(jié)點(diǎn)對(duì)應(yīng)為實(shí)體概念,然后通過PageRank算法捕捉圖模型中各個(gè)節(jié)點(diǎn)的重要程度。常規(guī)的PageRank算法只考慮了出入度的平均分配,即某個(gè)節(jié)點(diǎn)的PageRank值為它入度節(jié)點(diǎn)集中每個(gè)入度節(jié)點(diǎn)的PageRank值除以它們的出度邊數(shù)之和。本文將PageRank計(jì)算公式進(jìn)行修改,以適應(yīng)本文的有向加權(quán)圖,每個(gè)入度節(jié)點(diǎn)給出的值大小不再是平均分配,而是引入多特征圖中代表候選實(shí)體間相似度的邊權(quán)值,按權(quán)值占比大小分配,具體公式如下:

        其中,N為節(jié)點(diǎn)數(shù),M(ei)表示鏈入ei節(jié)點(diǎn)的集合,N(ej)表示鏈出ej節(jié)點(diǎn)的集合,W(ej,ei)是節(jié)點(diǎn)ej、ei之間邊權(quán)值,d為阻尼因子,一般取0.85。達(dá)到平穩(wěn)狀態(tài)時(shí)的PR值表示了各節(jié)點(diǎn)的重要程度。

        本文綜合考慮實(shí)體影響力及節(jié)點(diǎn)的重要程度進(jìn)行消歧。在消歧過程中,采用動(dòng)態(tài)決策策略依次對(duì)每個(gè)實(shí)體指稱進(jìn)行消歧,計(jì)算所有節(jié)點(diǎn)的PageRank值,將各節(jié)點(diǎn)的影響力與PageRank值相加,作為候選實(shí)體的綜合評(píng)分,分?jǐn)?shù)越高的候選實(shí)體越優(yōu)先消歧;若出現(xiàn)不同指稱中多個(gè)候選的綜合評(píng)分相同,則選擇候選個(gè)數(shù)最多的實(shí)體指稱優(yōu)先消歧。每確定一個(gè)實(shí)體指稱的目標(biāo)實(shí)體,則對(duì)多特征圖中節(jié)點(diǎn)進(jìn)行修剪,將該實(shí)體指稱的其他候選實(shí)體從多特征圖中移除,以減少后續(xù)的計(jì)算量,具體算法如算法1所示。圖1最終的消歧結(jié)果如圖2所示。

        圖2 消歧結(jié)果Fig.2 Disambiguation results

        算法1ED_MG&EI Algorithm

        Input:G,每個(gè)節(jié)點(diǎn)的影響力

        Output:mention_entity_Dic(實(shí)體指稱對(duì)應(yīng)的目標(biāo)實(shí)體)

        Begin

        1.對(duì)圖G計(jì)算PageRank;

        2.將每個(gè)節(jié)點(diǎn)的影響力加到其PageRank值上;

        3.獲取PageRank值+影響力最高的候選實(shí)體entity;

        4.將entity對(duì)應(yīng)實(shí)體指稱mention的其他候選實(shí)體以及相關(guān)邊從G中移除并在mention_entity_Dic中添加mention_entity_Dic[MENTION]=entity;

        5.若mention_entity_Dic中的實(shí)體指稱沒有完全確定,返回1;

        6.返回mention_entity_Dic;

        End

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)設(shè)置

        本文基于pycharm在Windows10環(huán)境下實(shí)現(xiàn)。實(shí)驗(yàn)采用從財(cái)經(jīng)網(wǎng)、南方財(cái)富網(wǎng)、搜狐財(cái)經(jīng)、新浪微博等網(wǎng)站爬取的金融活動(dòng)文本為數(shù)據(jù)集。人工選取包含歧義實(shí)體較多的500篇文本,其中200篇作為訓(xùn)練數(shù)據(jù),訓(xùn)練指稱相似度中編輯距離語法相似度與上下文語義相似度的最優(yōu)權(quán)值參數(shù),300篇作為測試數(shù)據(jù)分析實(shí)驗(yàn)方法性能。語料預(yù)處理過程采用分詞工具完成,包括分詞、去停用詞等過程。人工標(biāo)記出與金融活動(dòng)相關(guān)的公司實(shí)體和個(gè)人實(shí)體,通過命名實(shí)體識(shí)別可從文本中識(shí)別出共1 230個(gè)實(shí)體指稱,通過人工方式標(biāo)注了所有實(shí)體指稱對(duì)應(yīng)的正確實(shí)體(含NIL實(shí)體)。

        本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F值三種評(píng)價(jià)指標(biāo),對(duì)提出方法的有效性進(jìn)行驗(yàn)證。

        4.2 實(shí)驗(yàn)分析

        實(shí)驗(yàn)1特征參數(shù)的設(shè)置分析

        將200篇文本構(gòu)成的訓(xùn)練數(shù)據(jù)用于訓(xùn)練生成權(quán)值參數(shù)的最優(yōu)解,在指稱相似度中包含語法特征和語義特征兩種,分別分配給兩特征參數(shù)α和β,令α和β相加得1。測試實(shí)驗(yàn)使得兩個(gè)特征同時(shí)發(fā)揮最大作用,通過對(duì)準(zhǔn)確率Precise的分析,確定式(4)中α和β的最優(yōu)值,如圖3所示,當(dāng)α=0.40、β=0.60時(shí),準(zhǔn)確率達(dá)到最大值。

        圖3 參數(shù)設(shè)置Fig.3 Parameter setting

        實(shí)驗(yàn)2利用不分類候選生成圖和去除無歧義候選的多特征圖消歧的實(shí)驗(yàn)結(jié)果對(duì)比

        實(shí)驗(yàn)2將所有實(shí)體指稱生成的候選集都作為圖節(jié)點(diǎn),構(gòu)建不分類候選生成圖;按候選實(shí)體分類將包含多個(gè)候選實(shí)體的實(shí)體指稱對(duì)應(yīng)的候選集作為圖節(jié)點(diǎn),構(gòu)建多特征圖。表1為利用不分類候選生成圖和去除無歧義候選的多特征圖進(jìn)行消歧的結(jié)果,由于本文多特征圖中去除了無歧義候選,有效降低了圖的規(guī)模,同時(shí)將節(jié)點(diǎn)影響力及節(jié)點(diǎn)的重要程度作為節(jié)點(diǎn)的綜合評(píng)分,有效提高了消歧的準(zhǔn)確性。

        表1 不分類候選生成圖和多特征圖的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of results between unclassified candidate generating graph and multi-feature graph單位:%

        實(shí)驗(yàn)3局部消歧、協(xié)同消歧和本文的集成消歧實(shí)驗(yàn)結(jié)果對(duì)比

        為分析多種特征的有效性,本實(shí)驗(yàn)在基線系統(tǒng)的基礎(chǔ)上分別疊加局部消歧、協(xié)同消歧和本文結(jié)合兩種策略產(chǎn)生的集成實(shí)體消歧方法,三種方法與基線系統(tǒng)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 消歧策略實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of disambiguation strategies 單位:%

        實(shí)驗(yàn)4無向無權(quán)圖與本文有向加權(quán)圖方法實(shí)驗(yàn)結(jié)果對(duì)比

        本文在現(xiàn)有圖方法的基礎(chǔ)上進(jìn)行改進(jìn),將圖變換成精度更高、信息更豐富的有向加權(quán)圖,知識(shí)庫三元組的頭節(jié)點(diǎn)及尾節(jié)點(diǎn)提供有向邊,圖節(jié)點(diǎn)之間的相似性及語義關(guān)系為邊提供權(quán)值,有向加權(quán)圖使PageRank的計(jì)算結(jié)果更準(zhǔn)確,實(shí)驗(yàn)進(jìn)行有向加權(quán)圖和無向無權(quán)圖方法對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 無向無權(quán)圖和本文有向加權(quán)圖方法實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results between undirected unweighted graph method and proposed directed weighted graph method 單位:%

        實(shí)驗(yàn)5不同領(lǐng)域數(shù)據(jù)集對(duì)比

        本文針對(duì)特定領(lǐng)域,在金融活動(dòng)相關(guān)文本中提取實(shí)體,分析非法金融活動(dòng),在金融新業(yè)態(tài)角度研究非法金融活動(dòng)的界定,構(gòu)建金融領(lǐng)域知識(shí)庫輔助消歧,因此相較于其他領(lǐng)域,金融領(lǐng)域文本的實(shí)體消歧效果更理想,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 不同領(lǐng)域?qū)嶒?yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results in different fields單位:%

        實(shí)驗(yàn)6不同方法實(shí)驗(yàn)結(jié)果對(duì)比

        實(shí)驗(yàn)在金融領(lǐng)域數(shù)據(jù)集上復(fù)現(xiàn)了張濤等人[19]和高艷紅等人[20]的方法,張濤等人[19]提出了一種基于圖模型的維基概念相似度計(jì)算方法,有效地捕捉實(shí)體指稱項(xiàng)文本與候選實(shí)體間的語義相似度。但圖構(gòu)建沒有充分利用特征的表達(dá),影響相似度計(jì)算。高艷紅等人[20]提出了一種融合多特征的解決方案,將語義相似度融合到圖模型中,但由于其構(gòu)建的實(shí)體指稱-候選實(shí)體圖僅能對(duì)單一實(shí)體指稱進(jìn)行消歧,不適用于文本中多實(shí)體指稱的集成消歧。本文針對(duì)上述問題,將無歧義候選實(shí)體去除,以降低圖規(guī)模,同時(shí)綜合考慮字符串特征、語義特征、實(shí)體影響力以及節(jié)點(diǎn)的重要程度等特征因素,以獲得可信度較高的消歧結(jié)果,實(shí)驗(yàn)結(jié)果對(duì)比如表5所示。

        表5 本文方法與其他方法實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Experimental results of this method compared with other methods 單位:%

        5 結(jié)束語

        本文對(duì)特定領(lǐng)域的實(shí)體消歧問題進(jìn)行了研究,提出了一種融合多特征圖及實(shí)體影響力的領(lǐng)域?qū)嶓w消歧方法。以金融領(lǐng)域?yàn)槔?,首先?gòu)建金融領(lǐng)域知識(shí)庫,然后針對(duì)金融活動(dòng)類文本,提取待消歧實(shí)體指稱,利用構(gòu)建的金融知識(shí)庫,融合字符串及語義的相似特征,實(shí)體影響力及節(jié)點(diǎn)重要程度等特征屬性構(gòu)建多特征圖;最后采用動(dòng)態(tài)決策策略,利用PageRank算法,并結(jié)合實(shí)體影響力計(jì)算多特征圖中候選實(shí)體的綜合評(píng)分,進(jìn)而獲得可信度較高的消歧結(jié)果。實(shí)驗(yàn)結(jié)果驗(yàn)證了提出方法在特定領(lǐng)域?qū)嶓w消歧的精確度。

        猜你喜歡
        消歧三元組歧義
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        關(guān)于余撓三元組的periodic-模
        藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        English Jokes: Homonyms
        “那么大”的語義模糊與歧義分析
        三元組輻射場的建模與仿真
        国产丝袜美腿精品91在线看| 国产精品香蕉网页在线播放| 日本一道高清在线一区二区| 国产农村妇女精品一区| 99久久免费国产精品| 最新国产日韩AV线| 久草国产手机视频在线观看| 亚洲女同恋av中文一区二区| 少妇被粗大的猛烈进出69影院一| 亚洲AV永久无码制服河南实里| 亚洲国产视频精品一区二区| 午夜免费观看日韩一级片| 国产xxx69麻豆国语对白| 国产精品露脸视频观看| 免费国人成人自拍视频| 亚洲写真成人午夜亚洲美女| 人人色在线视频播放| 亚洲免费不卡| 亚洲黄片av在线免费观看| 白嫩丰满少妇av一区二区| 怡红院a∨人人爰人人爽| 亚洲成在人线电影天堂色| 国产一区在线视频不卡| 无套内谢老熟女| 国产麻无矿码直接观看| 日本最新一区二区三区免费看| 亚洲av专区国产一区| 精品无码久久久久久国产| 综合无码一区二区三区四区五区| av大片网站在线观看| 日韩国产人妻一区二区三区| 永久免费不卡在线观看黄网站| 亚洲日韩精品AⅤ片无码富二代| 国产性虐视频在线观看| 国产精品毛片一区二区| 亚洲av久久久噜噜噜噜 | 丝袜美腿一区二区在线观看| 国产成人精品一区二区20p| 熟妇高潮一区二区三区| 音影先锋色天堂av电影妓女久久| 久久精品国产69国产精品亚洲|