亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器閱讀理解模型與眾包驗(yàn)證的屬性值抽取方法

        2021-05-17 05:30:48劉井平蔣海云肖仰華
        計(jì)算機(jī)工程 2021年5期
        關(guān)鍵詞:置信度注意力機(jī)器

        馮 桫,劉井平,蔣海云,肖仰華

        (復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433)

        0 概述

        近年來,隨著自然語言處理需求的不斷增長,知識圖譜成為人們研究的焦點(diǎn)。目前,知識圖譜已經(jīng)被廣泛地應(yīng)用于各種智能化的推薦系統(tǒng)[1]、問答系統(tǒng)[2]以及語言生成[3]等諸多場景。為滿足這些應(yīng)用的數(shù)據(jù)需求,研究人員構(gòu)建出大規(guī)模的知識圖譜,如英文的DBpedia[4]、YAGO[5]以及中文的CN-DBpedia[6]等。在這些知識圖譜中,數(shù)據(jù)通常以<實(shí)體,屬性(關(guān)系),屬性值(尾實(shí)體)>的三元組形式進(jìn)行組織,例如“特朗普的國籍是美國”這一條知識,就可以被表示為<特朗普,國籍,美國>。由于本文所敘述的方法對屬性值及尾實(shí)體的抽取均適用,后文將屬性和關(guān)系統(tǒng)一稱為屬性,將屬性值和尾實(shí)體統(tǒng)一稱為屬性值。

        在構(gòu)建知識圖譜的過程中,獲取圖譜中實(shí)體相關(guān)的各屬性的屬性值是非常重要的步驟。傳統(tǒng)的屬性值抽取方法主要分為基于模式的方法、基于分類器的方法和基于序列標(biāo)注模型的方法?;谀J降姆椒ㄍǔ1挥糜趶母哔|(zhì)量的半結(jié)構(gòu)化文本(如百科頁面的信息表)中,利用句法模式[7]、語義模式[8]或正則表達(dá)式等人工或自動生成的模式直接進(jìn)行抽取。由于這類半結(jié)構(gòu)化文本的表達(dá)規(guī)律性強(qiáng),通過基于模式的方法可以用較小代價得到大量高質(zhì)量的三元組。此類方法已經(jīng)被應(yīng)用于大量的知識圖譜構(gòu)建實(shí)踐中。基于分類器的方法首先需要利用命名實(shí)體識別(NER)工具,在文本中定位整個三元組的實(shí)體和屬性值。然后利用類似PCNN[9]及文獻(xiàn)[10]所述的分類器,結(jié)合實(shí)體和屬性值之間的上下文信息,分類得到三元組對應(yīng)的屬性,從而實(shí)現(xiàn)抽取。基于序列標(biāo)注模型的方法最初的序列標(biāo)注模型常被應(yīng)用于NER 等任務(wù)中[11]。隨著序列標(biāo)注模型的發(fā)展,序列標(biāo)注模型也開始被應(yīng)用于抽取任務(wù),例如,人們利用BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了已知屬性下的實(shí)體和屬性值抽取[12]。近年來,隨著注意力機(jī)制的不斷發(fā)展,人們也開始使用更強(qiáng)的序列標(biāo)注模型,實(shí)現(xiàn)了具有較高準(zhǔn)確率的屬性值抽取方法[13]。

        隨著在真實(shí)場景下數(shù)據(jù)需求的不斷擴(kuò)展,知識圖譜開始需要更多細(xì)節(jié)的知識,這使得從互聯(lián)網(wǎng)語料中抽取更多更稀有的屬性成為知識圖譜構(gòu)建中的新問題。傳統(tǒng)的基于模式的方法由于互聯(lián)網(wǎng)語料的高噪音,導(dǎo)致人工構(gòu)建模式的工作量大幅增加,自動構(gòu)建模式準(zhǔn)確率下降,難以召回足夠的高質(zhì)量知識。而對于和訓(xùn)練集有著較強(qiáng)相關(guān)性的分類方法和序列標(biāo)注方法,目前仍然缺乏高質(zhì)量的基于互聯(lián)網(wǎng)語料的訓(xùn)練數(shù)據(jù)。并且由于模型本身的限制,它們難以抽取超出訓(xùn)練集之外(缺乏訓(xùn)練數(shù)據(jù))的稀有屬性,使得其應(yīng)用受到了限制。

        考慮到傳統(tǒng)方法在新場景下所受到的限制,本文提出一種基于機(jī)器閱讀理解模型和眾包驗(yàn)證的屬性值抽取方法。該方法的輸入為所需抽取的實(shí)體-屬性對,通過構(gòu)造搜索關(guān)鍵字從互聯(lián)網(wǎng)中獲得上下文,并根據(jù)機(jī)器閱讀理解模型,以類似序列標(biāo)注模型的形式標(biāo)注出候選屬性值并得到置信度。在此基礎(chǔ)上,通過輕量化的眾包驗(yàn)證方法,對模型得到的抽取結(jié)果進(jìn)行驗(yàn)證,并調(diào)整優(yōu)化各候選結(jié)果置信度以得到最終的抽取結(jié)果。

        1 本文方法架構(gòu)

        實(shí)體屬性值抽取任務(wù)的輸入為所需抽取的實(shí)體-屬性對,輸出為抽取得到的屬性值。本文屬性值抽取方法總體框架如圖1 所示。

        圖1 本文方法的總體框架Fig.1 Overall framework of the proposed method

        本文方法主要步驟如下:

        步驟1構(gòu)造搜索關(guān)鍵字與獲取互聯(lián)網(wǎng)上下文。對于輸入的實(shí)體-屬性對,需要其相關(guān)上下文作為抽取時的知識來源。通過簡單的模板,“[實(shí)體]的[屬性]”可以構(gòu)造出用于搜索引擎搜索的關(guān)鍵字,例如對于實(shí)體-屬性對<西虹市首富,上映時間>,可以構(gòu)造出搜索關(guān)鍵字“西虹市首富的上映時間”。利用上面構(gòu)造的關(guān)鍵字進(jìn)行搜索,可以從搜索引擎的結(jié)果頁中抓取各條結(jié)果的摘要信息,由于這些摘要信息為基于實(shí)體-屬性對構(gòu)造出的關(guān)鍵詞的相關(guān)內(nèi)容,本文直接把搜索結(jié)果中的前k條作為獲取的互聯(lián)網(wǎng)上下文。

        步驟2基于機(jī)器閱讀理解模型的候選屬性值抽取。機(jī)器閱讀理解模型以實(shí)體-屬性對和一條對應(yīng)的上下文作為輸入,并輸出從該上下文中抽取出的候選屬性值及其置信度。

        步驟3眾包驗(yàn)證。得到候選屬性值及其置信度后,本文引入一種基于判斷題形式的眾包驗(yàn)證任務(wù)。在人工標(biāo)注中,僅需要根據(jù)提示對各侯選屬性值進(jìn)行簡單判斷。通過人工判斷的結(jié)果對上面步驟得到的候選屬性值的置信度進(jìn)行調(diào)整,最終選擇置信度最高的一條結(jié)果作為輸出。

        2 機(jī)器閱讀理解模型

        為實(shí)現(xiàn)對候選屬性值的抽取,本文提出了針對屬性值抽取的機(jī)器閱讀理解模型,即MCKE(Machine reading Comprehension Knowledge Extraction)模型。該模型主要來自文獻(xiàn)[14-15]中的兩個基于注意力機(jī)制的機(jī)器閱讀理解模型,它們在機(jī)器閱讀理解任務(wù)上有著較高的準(zhǔn)確率。針對屬性值抽取任務(wù),MCKE 模型通過引入BERT 進(jìn)行字級別的輸入表示學(xué)習(xí),并在輸入表示的過程中進(jìn)行了上下文表示的增強(qiáng),從而提高其對屬性值抽取任務(wù)的適應(yīng)性。MCKE 模型的整體架構(gòu)如圖2 所示。

        圖2 MCKE 模型的整體架構(gòu)Fig.2 Overall framework of MCKE model

        本文模型的輸入為上下文字符串C,以及用空格隔開的由實(shí)體和屬性拼接而成的字符串Q。模型的輸出為最終抽取結(jié)果的起始位置以及末尾位置的概率分布,分別為ps和pe。

        本文模型主要包含輸入表示、表示變換、注意力層、輸出層等組成部分。

        2.1 輸入表示

        2.1.1 字符級別表示

        不同于常用的Word2Vec[16]、GloVe[17]等詞嵌入方法,本文選擇使用Google 最新提出的BERT[18]語言模型來獲得模型輸入部分的向量表示。BERT 模型是一種Transformer[19]結(jié)構(gòu)實(shí)現(xiàn)的語言模型,實(shí)現(xiàn)了對于各輸入字符上下文的編碼。不同于傳統(tǒng)詞嵌入方法中字符的表示與上下文無關(guān),本文引入BERT可以使同一個字符輸入在上下文不同的情況下有著不同的向量表示,其包含了與字符同時輸入的上下文信息。

        在MCKE 模型中使用了預(yù)訓(xùn)練的BERT 模型來獲得輸入信息的向量表示,對于實(shí)體-屬性輸入和上下文輸入Q={q1,q2,…,qm}和C={c1,c2,…,cn},先在其首尾添加標(biāo)識符[CLS]和[SEP],將其輸入BERT 模型中,得到輸入實(shí)體-屬性表示與上下文表示的U0={u1,u2,…,um}和H0={h1,h2,…,hn}。

        2.1.2 增強(qiáng)表示

        除字符級別的表示外,本文針對上下文輸入進(jìn)行了表示的增強(qiáng)。通過計(jì)算額外信息向量,在表示中標(biāo)注了和實(shí)體-屬性有關(guān)部分的信息,也間接補(bǔ)充了分詞的信息。在上下文輸入中引入實(shí)體-屬性輸入內(nèi)容的位置信息,可有助于模型對句子結(jié)構(gòu)信息的學(xué)習(xí),增強(qiáng)其對稀有屬性的抽取效果,增強(qiáng)表示方法如下:

        1)對輸入的上下文和實(shí)體-屬性進(jìn)行分詞得到Cword={cw1,cw2,…}和Qword={qw1,qw2,…},其中,qwi和cwi為分詞結(jié)果得到的詞語。利用這部分信息,可以計(jì)算上下文中各詞的額外信息向量,其組成部分如式(1)所示:

        2)每個信息向量包含兩個維度,其中,第一維表示該詞語是否被包含在實(shí)體-屬性輸入中,第二維表示該詞語中各字符被包含在實(shí)體-屬性輸入中的比率。計(jì)算得到各額外信息向量后,將其與H0中各對應(yīng)的字符向量進(jìn)行拼接,得到增強(qiáng)過的上下文表示,如式(2)所示:

        2.2 變換表示

        基于本文提出的模型,在整個模型的輸入和輸出過程中需要對文本的表示進(jìn)行變換,從而生成其后面步驟所需的表示。為此,本文引入了類似于文獻(xiàn)[14]所采用的編碼模塊,并通過這些編碼模塊實(shí)現(xiàn)表示的變換。

        在一個編碼模塊中,對于一個輸入表示X,首先對該表示進(jìn)行位置編碼。位置編碼是一種常用的用于在非循環(huán)神經(jīng)網(wǎng)絡(luò)中保留輸入位置信息的方法。經(jīng)過位置編碼后,得到新的表示。

        在編碼模塊中,使用了3 種不同的編碼層對輸入表示進(jìn)行變換,即卷積層、自注意力層和前饋層。

        編碼模塊中的卷積層選用了Separable 卷積層[20],其相比普通的卷積層有著計(jì)算速度快、泛化能力強(qiáng)的優(yōu)勢。在本文模型中,卷積核大小設(shè)為7,并通過padding 方法補(bǔ)全輸出至和輸入相同維度。

        編碼模塊中的自注意力層使用了多頭注意力的方式來計(jì)算,從而增強(qiáng)自注意力層對于多關(guān)注點(diǎn)的信息,對于輸入X進(jìn)行如下計(jì)算:

        其中,O為本層輸出,和WO為可訓(xùn)練的參數(shù)。本文模型自注意力層的頭數(shù)設(shè)為2。

        編碼模塊中的前饋層計(jì)算方法如下:

        為防止訓(xùn)練過程中可能出現(xiàn)的梯度消失現(xiàn)象,在上述各層的使用中都加入了殘差機(jī)制。對于編碼模塊中各層,其輸出為:

        其中,layernorm 為Layer Normalization[21]。

        通過上述3 種層的結(jié)合,可以得到2 種不同的編碼模塊,在注意力層之前的編碼模塊,由4 個卷積層、1 個自注意力層和1 個前饋層組成。在注意力層之后的編碼模塊,由2 個卷積層、1 個自注意力層和1 個前饋層組成。

        2.3 注意力層

        注意力層的輸入是前面步驟獲得的上下文表示和實(shí)體-屬性表示,經(jīng)過編碼模塊之后得到的新表示結(jié)果和。在本文步驟中,主要利用注意力機(jī)制對上下文表示進(jìn)行進(jìn)一步的增強(qiáng)。

        采用類似于文獻(xiàn)[15]的方法,本文模型需要首先通過式(8)中的線性變換,得到實(shí)體-屬性表示的相似性矩陣S。

        其中,⊙為元素級別的乘法,Ws為可訓(xùn)練的參數(shù)。利用相似性矩陣S,經(jīng)過式(9)~式(12)中的變換,可以進(jìn)一步計(jì)算上下文對實(shí)體-屬性對的注意力A,以及實(shí)體-屬性對與上下文的注意力B。

        最終通過對上述注意力以及表示的組合,得到融合了實(shí)體-屬性信息的新上下文表示G,其中Gi=[hi,ai,hi⊙a(bǔ)i,hi⊙bi]。

        2.4 模型輸出

        經(jīng)過注意力層得到的新的上下文表示G后,經(jīng)過3 個額外的編碼模塊,可以分別得到用于計(jì)算輸出的3 個新的上下文表示:G0=Encoder(G),G1=Encoder(G0),G2=Encoder(G1)。

        模型的輸出層通過對拼接之后的編碼進(jìn)行一次非線性變化,可以得到抽取結(jié)果的起始位置和末尾位置在上下文輸入中位置的概率分布:

        其中,W1與W2為可訓(xùn)練的參數(shù),[;]為向量拼接操作,ps為起始位置分布,pe為末尾位置分布。

        本文模型的目標(biāo)函數(shù)為:

        2.5 抽取結(jié)果的獲取

        基于模型輸出的起始位置分布ps以及末尾位置分布pe,通過最大化得到相應(yīng)的起始和終止位置(start,end),就可以得到最終的抽取結(jié)果所在的坐標(biāo)。該抽取結(jié)果的置信度為。

        3 眾包驗(yàn)證

        在經(jīng)過模型抽取后可以發(fā)現(xiàn),一些容易混淆的結(jié)果通常在置信度上相差不多。本文參照文獻(xiàn)[22]中的架構(gòu),引入一種高效率的判斷題式眾包驗(yàn)證任務(wù),對合理的抽取結(jié)果進(jìn)行獎勵,對不合理的結(jié)果進(jìn)行懲罰來進(jìn)一步提高抽取的效果。

        3.1 眾包任務(wù)設(shè)計(jì)

        本文將眾包任務(wù)設(shè)定為判斷題,以提高眾包任務(wù)的時間效率。將抽取任務(wù)中的上下文、實(shí)體-關(guān)系對以及抽取的候選屬性值展示給眾包工人,由工人判斷這一候選屬性值是否合理。通過這樣的手段,降低了工人的準(zhǔn)入門檻,提高了任務(wù)的完成效率。本文所設(shè)計(jì)的眾包任務(wù)的實(shí)際界面如圖3 所示。

        圖3 眾包驗(yàn)證的用戶界面Fig.3 User interface for crowdsourcing validation

        在界面中,為方便定位,在上下文中對候選屬性值進(jìn)行了加粗處理,方便在遇到困難情況時快速跳轉(zhuǎn)到下一條任務(wù),提供不確定的選項(xiàng)。

        3.2 結(jié)果權(quán)重調(diào)整

        通過對各結(jié)果進(jìn)行眾包后,可以獲得對每條候選結(jié)果的包含正確、錯誤及不確定3 種選項(xiàng)的信任度投票情況?;谶@些情況,對在眾包驗(yàn)證中被選擇正確占比較高的候選結(jié)果的權(quán)重進(jìn)行獎勵,對被選擇錯誤數(shù)量占比較高的結(jié)果的權(quán)重進(jìn)行懲罰,并保持被選擇不確定的結(jié)果的權(quán)重??梢詤^(qū)分置信度相差不大的易混淆結(jié)果,并對模型抽取出的錯誤結(jié)果進(jìn)行排除。參考文獻(xiàn)[23]中的基于正確、錯誤、不確定3 項(xiàng)標(biāo)注的置信度計(jì)算方法,可利用式(16)計(jì)算得到調(diào)整系數(shù)γi:

        最終以具有最高抽取分?jǐn)?shù)的屬性值作為抽取結(jié)果輸出,其中分?jǐn)?shù)大于閾值β的結(jié)果被作為有效抽取結(jié)果。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文所采用的實(shí)驗(yàn)數(shù)據(jù)分為2 個部分:1)抽樣數(shù)據(jù),從CN-DBpedia 中抽樣得到的162 組實(shí)體-屬性對以及其對應(yīng)的屬性值;2)新實(shí)體數(shù)據(jù),采用人工標(biāo)注得到的496 組實(shí)體-屬性對以及對應(yīng)屬性值。為保證實(shí)驗(yàn)數(shù)據(jù)的多樣性,在上面的實(shí)驗(yàn)數(shù)據(jù)獲取過程中,選擇了分別來自于手機(jī)、電影、事件、游戲、顯卡等多種類別實(shí)體。

        在實(shí)驗(yàn)的過程中,上下文信息使用了在搜索引擎(百度)上的結(jié)果頁面,將召回的各條結(jié)果信息分條作為實(shí)體-屬性對的上下文。對于每組搜索關(guān)鍵字獲取的結(jié)果數(shù)量k設(shè)為10。

        模型的訓(xùn)練數(shù)據(jù)包括以下2 個部分:1)來自文獻(xiàn)[24]所提供的中文機(jī)器閱讀理解數(shù)據(jù)集;2)通過遠(yuǎn)程監(jiān)督方法從CN-DBpedia 和百度搜索引擎中得到的數(shù)據(jù)集。

        4.2 候選屬性值抽取分析

        4.2.1 實(shí)驗(yàn)設(shè)置

        為驗(yàn)證本文所提出的候選屬性值抽取模塊(機(jī)器閱讀理解模型)的有效性,選擇了另外3 種模型作為基線。

        1)序列標(biāo)注模型OpenTag[13]

        OpenTag 是最新的一種適用于開放域?qū)傩灾党槿〉幕谧宰⒁饬C(jī)制的序列標(biāo)注模型,其在多個數(shù)據(jù)集上有著超過常用的BiLSTM 以及BiLSTMCRF 模型的效果。

        2)機(jī)器閱讀理解模型QANET[14]

        QANET 是由Google Brain 所提出的基于注意力機(jī)制的機(jī)器閱讀理解模型,它長期在機(jī)器閱讀理解的SQuAD 數(shù)據(jù)集的排行榜上位置靠前。

        3)去除表示增強(qiáng)的MCKE?NA 模型

        為驗(yàn)證表示增強(qiáng)部分的效果,本文也引入了不包含表示增強(qiáng)部分,僅使用字符級表示作為輸入的MCKE 模型進(jìn)行對比。

        為評測模型本身的效果,在最終抽取結(jié)果的選定上,使用了一種簡單策略來計(jì)算最終的候選屬性值分?jǐn)?shù),類似于2.2 節(jié)所述,對有多個來源的候選屬性值,令其抽取分?jǐn)?shù)為與之相同的所有候選屬性值的置信度之和。最后,選取分?jǐn)?shù)最高的候選屬性值作為輸出,對于模型的輸出結(jié)果,其閾值設(shè)為β=0.1。

        4.2.2 實(shí)驗(yàn)結(jié)果與分析

        表1 列出了各基線模型與本文MCKE 模型在兩組數(shù)據(jù)上通過執(zhí)行上述簡單策略進(jìn)行屬性值抽取的結(jié)果,并分別評測了抽取結(jié)果的準(zhǔn)確率以及抽取結(jié)果PR 曲線(Precision-Recall 曲線)的曲線下面積(AUC)。

        表1 屬性值抽取模型效果Table 1 Effect of attribute value extraction models

        從表1 可以看出,本文的MCKE 模型在兩組數(shù)據(jù)中均在準(zhǔn)確率和AUC 上超過了所選的對比基線。在實(shí)驗(yàn)中發(fā)現(xiàn),基于標(biāo)注模型的OpenTag 方法的表現(xiàn)受限于訓(xùn)練數(shù)據(jù)的結(jié)構(gòu),難以召回訓(xùn)練數(shù)據(jù)中較為稀有的屬性所對應(yīng)的屬性值,導(dǎo)致其召回率的下降。并且,由于OpenTag 僅返回標(biāo)注結(jié)果,難以使用閾值對結(jié)果進(jìn)行篩選,導(dǎo)致了其在準(zhǔn)確率上表現(xiàn)偏低,對于QANET 和MCKE-NA 兩種機(jī)器閱讀理解模型,受限于它們本身對表示增強(qiáng)的缺乏,使得它們在稀有屬性中效果偏低,而MCKE-NA 由于缺乏詞級別的表示學(xué)習(xí),導(dǎo)致其結(jié)果屬性值不完整的情況較多。

        表2 列出了實(shí)驗(yàn)中2 種機(jī)器閱讀理解模型得到的抽取結(jié)果。從表2 可以看出,對于顯卡相關(guān)的在知識庫中較為稀有的屬性,通過使用機(jī)器閱讀理解模型可以實(shí)現(xiàn)抽取,并且MCKE 模型的性能更強(qiáng)。同時,對于電影相關(guān)屬性,得益于MCKE 模型所采用的更優(yōu)秀的輸入表示學(xué)習(xí)方法與表示增強(qiáng)方法,可以抽取出語義更加完整的屬性值結(jié)果。

        表2 屬性值抽取模型結(jié)果實(shí)例Table 2 Result examples of attribute value extraction models

        4.3 眾包驗(yàn)證分析

        4.3.1 實(shí)驗(yàn)設(shè)置

        為驗(yàn)證眾包驗(yàn)證步驟的有效性,在本文實(shí)驗(yàn)中,將每個通過MCKE 模型得到的候選屬性值及其相關(guān)上下文輸入到眾包驗(yàn)證模塊,并邀請了5 位志愿者,每人隨機(jī)完成150 個眾包任務(wù)。對眾包結(jié)果進(jìn)行統(tǒng)計(jì)后調(diào)整權(quán)重,得到最終的抽取結(jié)果。

        4.3.2 眾包驗(yàn)證分析結(jié)果

        表3 列出了隨機(jī)進(jìn)行750 個任務(wù)以及其中前200 個任務(wù),在眾包驗(yàn)證之后所實(shí)現(xiàn)的抽取效果。通過對總共750 個眾包任務(wù)的日志進(jìn)行分析,發(fā)現(xiàn)本文眾包任務(wù)的平均響應(yīng)時間為4.21 s。

        表3 眾包驗(yàn)證效果Table 3 Effect of crowdsourcing validation

        實(shí)驗(yàn)結(jié)果表明,在增加了眾包驗(yàn)證的步驟后,在其他實(shí)驗(yàn)設(shè)置相同的情況下,可以糾正MCKE 模型抽取結(jié)果中的錯誤,使得準(zhǔn)確率大幅上升,并且可以發(fā)現(xiàn),其中存在的一些由于模型缺乏訓(xùn)練數(shù)據(jù)所導(dǎo)致的常識性錯誤結(jié)果以及其中出現(xiàn)了邊界錯誤的結(jié)果,可以被較快糾正,如表4 所示。

        表4 眾包驗(yàn)證結(jié)果實(shí)例Table 4 Result examples of crowdsourcing validation

        另外,在進(jìn)行分析的過程中發(fā)現(xiàn),通過調(diào)整置信度閾值,本文方法在閾值β為0.4 的情況下抽取出屬性值的準(zhǔn)確率為0.857。

        5 結(jié)束語

        本文針對日益增長的知識圖譜數(shù)據(jù)需求,提出一種基于機(jī)器閱讀理解以及眾包驗(yàn)證的實(shí)體屬性值抽取方法。從互聯(lián)網(wǎng)獲取相關(guān)上下文,利用機(jī)器閱讀理解模型從相關(guān)上下文中獲取候選屬性值,通過眾包驗(yàn)證從候選屬性值中找出最優(yōu)的抽取結(jié)果。實(shí)驗(yàn)結(jié)果表明,該框架能夠有效地從互聯(lián)網(wǎng)語料中抽取出實(shí)體屬性值,且提出的眾包任務(wù)能夠以較高的效率提升整體抽取效果。本文對于眾包結(jié)果的應(yīng)用僅針對抽取模型的結(jié)果驗(yàn)證,而從眾包結(jié)果中獲取的其他信息,也可成為模型增強(qiáng)訓(xùn)練的重要反饋,對于該部分信息的應(yīng)用將是下一步的研究重點(diǎn)。

        猜你喜歡
        置信度注意力機(jī)器
        機(jī)器狗
        讓注意力“飛”回來
        機(jī)器狗
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        無敵機(jī)器蛛
        国产最新网站| 色与欲影视天天看综合网| 色视频综合无码一区二区三区| 久久乐国产精品亚洲综合| 三级国产女主播在线观看| 激情在线视频一区二区三区| 婷婷色国产精品视频二区| 97人人模人人爽人人少妇| 国产美女白浆| 亚洲乱码中文字幕综合| 人妻少妇精品视频一区二区三| 中文字幕乱码无码人妻系列蜜桃| 蜜臀av免费一区二区三区| 成在线人免费无码高潮喷水| 人妖国产视频一区二区| 精品无码无人网站免费视频 | 无码8090精品久久一区| 大香蕉青青草视频在线| 色综合久久无码五十路人妻 | 亚洲va韩国va欧美va| 少妇特黄a一区二区三区| 亚洲国产成人精品激情资源9| 蜜桃人妻午夜精品一区二区三区 | 极品美女一区二区三区免费| 国产中文字幕乱人伦在线观看| 999国产精品视频| 中文字幕一区二区三区在线看一区| 97成人精品国语自产拍| 日本老熟妇毛茸茸| 就国产av一区二区三区天堂| 中文字幕人乱码中文字幕乱码在线| 亚洲 欧美 国产 制服 动漫 | 日本人妻三级在线观看| 免费毛儿一区二区十八岁| 精品少妇人妻av一区二区| 免费一区二区三区视频狠狠| 中文字幕乱码一区在线观看| 亚洲精品乱码久久久久久中文字幕| 国产一级农村无码| 91青青草免费在线视频| 国产人妖网站在线视频|