亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向知識圖譜問答的查詢圖選擇模型研究

        2023-09-06 04:29:56賈永輝陳文亮
        關(guān)鍵詞:集上排序圖譜

        賈永輝,陳文亮

        (蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

        1 引 言

        知識圖譜問答是問答領(lǐng)域的重要研究方向之一,它以自然語言問句作為輸入,從知識圖譜中獲取相關(guān)實(shí)體、關(guān)系或者屬性值作為答案輸出.知識圖譜問答的一種代表性方法是基于語義解析的方法,它將問句轉(zhuǎn)換為結(jié)構(gòu)化的語義表示并進(jìn)一步轉(zhuǎn)成查詢語言(如SPARQL[1])從知識圖譜中獲取答案.在轉(zhuǎn)換為結(jié)構(gòu)化語義表示時,一種典型方法是采用通用語義表示形式,比如λ-DCS[2].由于這種語義表示與底層知識圖譜無關(guān),因此在與底層知識圖譜映射時經(jīng)常會遇到本體匹配出錯的情況[3].

        為了克服上述語義表示形式存在的問題,另一種基于語義解析的解決方案是使用查詢圖來表示問句的語義[4].查詢圖是一種與底層知識圖譜相關(guān)的語義表示形式,它的節(jié)點(diǎn)和邊分別對應(yīng)于知識圖譜的實(shí)體和關(guān)系,并額外增加一些自定義的邏輯符號(如比較運(yùn)算符等).基于查詢圖的知識圖譜問答系統(tǒng)可以被分為兩個主要模塊:查詢圖生成和查詢圖選擇[5].其中,查詢圖生成將輸入問句進(jìn)行解析得到一個候選查詢圖集合,而查詢圖選擇是從候選查詢圖集合中選出最優(yōu)查詢圖,并返回對應(yīng)答案作為系統(tǒng)結(jié)果輸出.可以看出,知識圖譜問答系統(tǒng)的性能與查詢圖選擇密切相關(guān),因此本文也主要聚焦于查詢圖選擇.

        查詢圖選擇本質(zhì)上是一個問句和候選查詢圖匹配的任務(wù).已有的系統(tǒng)在匹配中通常采用多特征打分的方式對查詢圖進(jìn)行排序[6].在這些方法中,首先計算查詢圖和問句之間的語義相似度,比如使用余弦相似度計算.然后將得到的語義相似度得分和其他人工設(shè)計的特征組合在一起作為匹配特征,如問句和實(shí)體之間的相似度、查詢圖中節(jié)點(diǎn)個數(shù)等.最終,這些特征表示通過模型進(jìn)行打分.這種策略在知識圖譜問答中取得了很好的結(jié)果.但是,通過對相關(guān)實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn)這種策略存在兩個主要問題:1)使用余弦相似度等方法計算問句和查詢圖的語義相似度時,由于結(jié)構(gòu)差異在一定程度上丟失了兩者之間的交互信息;2)在排序中僅考慮單一候選查詢圖,而忽略了不同候選查詢圖之間的關(guān)聯(lián).

        為了解決上述問題,本文提出將問句和查詢圖的匹配問題轉(zhuǎn)換為問句和查詢圖序列之間的匹配問題.這種方式一方面降低了查詢圖編碼的復(fù)雜性,另一方面更易于建模問句和查詢圖之間的交互信息.具體地,首先將查詢圖線性化為對應(yīng)的查詢圖序列,這使得問句和查詢圖都是序列形式,并且可以使用成熟的序列建模方法,比如BERT[7]和GPT-3[8]等.此外,考慮到同一個問題對應(yīng)的不同候選查詢圖之間的關(guān)聯(lián)性,本文提出一種基于全局信息的查詢圖排序模型.在不引入額外人工特征的情況下,本文提出查詢圖選擇的新方法,其綜合考慮問句和查詢圖之間的交互信息以及候選查詢圖之間的聯(lián)系.在兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了所提方法的有效性.

        本文的主要貢獻(xiàn)包括:

        1)提出一種基于序列匹配的問句與查詢圖相似度計算方法.在該方法中,查詢圖被線性化為對應(yīng)的序列形式,并基于BERT建模問句和查詢圖之間的交互信息.此外,由于查詢圖序列已包含了查詢圖中的所有信息,因此不需要設(shè)計額外人工特征對查詢圖進(jìn)行編碼.

        2)提出一種基于全局信息的查詢圖排序模型,通過得分的全局歸一化引入不同候選查詢圖之間的關(guān)聯(lián).

        3)基于上述改進(jìn),提出一個基于全局排序的查詢圖選擇方法.實(shí)驗(yàn)結(jié)果表明,本文所提方法在WebQuestions(WebQ)和ComplexQuestions(CompQ)兩個數(shù)據(jù)集上的F1值分別達(dá)到了55.3和44.4.

        2 相關(guān)工作

        知識圖譜問答是自然語言處理領(lǐng)域重要研究方向之一,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.在開放領(lǐng)域,一些典型的知識圖譜問答系統(tǒng)已經(jīng)被應(yīng)用于日常的搜索引擎中;在細(xì)分領(lǐng)域,也有許多相關(guān)的知識圖譜問答系統(tǒng)研究,比如針對電子商務(wù)領(lǐng)域的在線商品問答系統(tǒng)[9]以及針對醫(yī)療領(lǐng)域的原發(fā)性肝癌知識問答系統(tǒng)等[10].在知識圖譜問答實(shí)現(xiàn)方法中,基于信息檢索和基于語義解析是兩種主流的實(shí)現(xiàn)方式,并衍生出許多有效的方法.

        基于信息檢索的方法通常以實(shí)體鏈接[11]結(jié)果為出發(fā)點(diǎn)搜索相關(guān)的候選答案,并通過對答案排序選擇出最終結(jié)果.在對候選答案進(jìn)行排序時,一個核心點(diǎn)是如何正確識別出從實(shí)體到答案之間的關(guān)系路徑[12].在進(jìn)行問句和關(guān)系路徑匹配時,基于神經(jīng)網(wǎng)絡(luò)的方法取得了一定的成功[13].比如Bhutani等將候選關(guān)系表征為向量,并基于長短期記憶網(wǎng)絡(luò)計算問句和候選關(guān)系之間的相似度[14].此外,基于預(yù)訓(xùn)練語言模型的方法也被廣泛應(yīng)用于關(guān)系匹配中,有效提升了關(guān)系學(xué)習(xí)任務(wù)的性能[15].相比于基于問句和關(guān)系進(jìn)行匹配的方案,基于知識圖譜向量表示的方法可以在不顯示編碼路徑的情況下進(jìn)行答案選擇,在知識圖譜不完整情況下也具備良好性能[16].

        不同于基于信息檢索的方法,語義解析方法側(cè)重于問句語義的理解[17].基于語義解析方法的基本思路是將問句解析為結(jié)構(gòu)化的語義表示,然后將其與知識庫映射并檢索得到結(jié)果.比如,Berant等將問句解析為λ-DCS,并通過對齊和橋接操作實(shí)現(xiàn)到知識庫的映射[18].為了提高復(fù)雜問題的語義解析準(zhǔn)確率,Sun等設(shè)計了一種新穎的骨架語法先將復(fù)雜問題轉(zhuǎn)換為多個簡單問題進(jìn)行解析[19].此外,查詢圖也是一種結(jié)構(gòu)化語義表示形式,在基于語義解析的知識圖譜問答中被廣泛使用.Yih等首先提出分步驟查詢圖生成的方法進(jìn)行語義解析[20].沿著這種思路,Luo等提出從全局角度編碼單個查詢圖,在問句和查詢圖匹配上證明了查詢圖結(jié)構(gòu)化信息的有效性[6].在查詢圖生成模塊,Lan等提出基于束搜索的方法進(jìn)行查詢圖的構(gòu)建,使查詢圖方法更適合多跳復(fù)雜問題的處理[21].與已有基于查詢圖的方法相比,本文側(cè)重于查詢圖選擇階段的改進(jìn),進(jìn)一步提升了基于查詢圖系統(tǒng)的性能.

        3 方 法

        本節(jié)主要介紹所提基于查詢圖的知識圖譜問答實(shí)現(xiàn)方法.在實(shí)現(xiàn)中,系統(tǒng)被分為兩個模塊:查詢圖生成和查詢圖選擇.整個處理過程可以形式化描述為:給定一個問句q和一個知識圖譜(KB),查詢圖生成模塊將問句q解析為候選查詢圖集合G;然后查詢圖選擇模塊從候選查詢圖集合G中選出最優(yōu)查詢圖g*.最終,查詢圖g*被轉(zhuǎn)換為SPARQL語句從知識圖譜中檢索出與問句q對應(yīng)的答案.

        與已有基于查詢圖的方法相比,本文提出新的查詢圖選擇方法,其不僅簡化匹配過程,而且提高系統(tǒng)性能.圖1展示所提查詢圖選擇方法,它將查詢圖線性化為對應(yīng)的查詢圖序列,從而將問句和查詢圖之間的匹配問題轉(zhuǎn)為兩個序列之間的匹配問題.在此基礎(chǔ)上,本文分別計算問句和每個候選查詢圖序列的相似度得分,然后利用所有候選查詢圖序列的之間關(guān)聯(lián)進(jìn)行全局排序.這種方式可建立候選查詢圖之間的關(guān)聯(lián),進(jìn)而更合理地優(yōu)化正例查詢圖和負(fù)例查詢圖對應(yīng)的得分.

        圖1 查詢圖選擇系統(tǒng)框架Fig.1 Framework of query graph selection

        3.1 查詢圖生成

        查詢圖生成模塊是將非結(jié)構(gòu)化的問句解析為結(jié)構(gòu)化的查詢圖形式.本文采用分步驟查詢圖生成方法進(jìn)行問句解析,下面介紹主要流程.

        給定一個問句q,首先通過目標(biāo)節(jié)點(diǎn)鏈接獲取問句中的4種約束,分別對應(yīng)于實(shí)體、類型詞、時間詞和序數(shù)詞.對于實(shí)體鏈接,本文通過SMART工具獲取<提及詞,實(shí)體>對,詳細(xì)情況可閱讀參考文獻(xiàn)[22].對于類型詞鏈接,通過使用glove詞向量[23]計算問句中連續(xù)子序列(至多3個詞)和知識圖譜中所有類型詞之間的余弦相似度,并選擇得分排在前10的類型詞構(gòu)成<提及詞,類型詞>對.對于時間詞鏈接,通過使用正則匹配的方法來抽取時間信息.對于序列詞鏈接,通過使用預(yù)定義的序數(shù)詞詞典(如largest,highest等)和“序數(shù)詞+最高級”的模式抽取整型數(shù)字.圖2(a)展示了一個完成目標(biāo)節(jié)點(diǎn)鏈接后的實(shí)例.

        圖2 查詢圖生成過程Fig.2 Process of query graph generation

        在得到目標(biāo)節(jié)點(diǎn)鏈接結(jié)果后,首先根據(jù)鏈接到的實(shí)體進(jìn)行一跳和兩跳搜索獲取主路徑,如圖2(b)所示.緊接著,將實(shí)體約束加到主路徑上,圖2(c)展示了對應(yīng)的狀態(tài).然后,類型詞約束、時間詞約束和序數(shù)詞約束被依次加入到主路徑上并完成解析過程,最終一個完整的查詢圖如圖2(d)所示.

        通過上述過程,可以獲得每個問句對應(yīng)的候選查詢圖集合G,該候選查詢圖集合被用于進(jìn)行查詢圖選擇.關(guān)于查詢圖生成過程更詳細(xì)的描述可以閱讀參考文獻(xiàn)[6].

        3.2 查詢圖選擇

        由于鏈接到的實(shí)體和對應(yīng)的關(guān)系沒有被充分消歧,查詢圖生成模塊會產(chǎn)生超過一個,通常幾百甚至上千的候選查詢圖.因此有必要設(shè)計有效的查詢圖選擇方法從候選查詢圖集合中選出最優(yōu)查詢圖g*.在本文的方法中,首先將查詢圖g∈G轉(zhuǎn)換為查詢圖序列g(shù)s;然后對問句和查詢圖序列進(jìn)行交互編碼;最后基于全局信息進(jìn)行候選查詢圖排序.

        3.2.1 查詢圖轉(zhuǎn)序列

        查詢圖轉(zhuǎn)序列旨在將查詢圖g轉(zhuǎn)換為查詢圖序列g(shù)s,用于編碼和排序.為了盡可能完整地保留查詢圖的結(jié)構(gòu)化信息,本文根據(jù)查詢圖的結(jié)構(gòu)進(jìn)行序列轉(zhuǎn)換,整個過程可以被理解為查詢圖構(gòu)建的拆解過程.當(dāng)構(gòu)建查詢圖時,首先進(jìn)行搜索主路徑操作,然后在主路徑上分別增加類型詞、實(shí)體、時間詞和序數(shù)詞4種約束.可以看出,一個查詢圖至多包含5種組成成分,即主路徑和4種約束路徑,并且每一部分都有相對固定的語義結(jié)構(gòu).

        依據(jù)查詢圖的固定結(jié)構(gòu),本文選擇根據(jù)預(yù)定義的子路徑順序?qū)⒉樵儓D轉(zhuǎn)換為對應(yīng)查詢圖序列.這種方式不僅能夠?qū)⒉樵儓D中的所有信息都轉(zhuǎn)為序列形式,而且得到的查詢圖序列具有一定的規(guī)律性,更有利于模型編碼.在轉(zhuǎn)換過程中,首先根據(jù)不同的組成成分將查詢圖分為不同的子路徑,分別為:類型詞路徑、實(shí)體詞路徑、時間詞路徑、序數(shù)詞路徑和主路徑.比如,圖1(a)中實(shí)體約束“Prime minister”對應(yīng)的實(shí)體詞路徑是“basic title prime minister.”.然后,5種子路徑序列被組合成對應(yīng)的查詢圖序列,其中不同子路徑之間通過額外的標(biāo)識字符[unused0-3]進(jìn)行分隔.如圖1(a)所示,得到的查詢圖序列為“people person.[unused0] basic title prime minister.[unused1] from after 1980.[unused2] height max 1.[unused3] spain governing officials-office holder [A]”,其中“[A]”是答案字符串.

        3.2.2 問句和查詢圖編碼

        在查詢圖g被轉(zhuǎn)換成查詢圖序列g(shù)s后,問句q和查詢圖g的匹配問題就轉(zhuǎn)換為問句q和查詢圖序列g(shù)s之間的匹配問題.這一轉(zhuǎn)換使得序列編碼模型可以更好地編碼查詢圖,并且更自然地建模兩個序列之間的交互信息,得到更好的編碼特征.在前人的工作中[5],研究者通過設(shè)計人工特征來豐富問句和查詢圖的編碼信息,而本文方法可以避免構(gòu)建人工特征.

        為了編碼問句和查詢圖序列,本文選擇采用BERT模型作為編碼器,用來同時對問句和查詢圖序列進(jìn)行編碼,并得到對應(yīng)的特征表示.BERT是一種基于Transformer[24]架構(gòu)的預(yù)訓(xùn)練語言模型,在自然語言處理領(lǐng)域被廣泛使用.在已有的序列編碼模型中,BERT預(yù)訓(xùn)練語言模型在許多任務(wù)上都具備良好的表現(xiàn),同時它還支持面向句子對進(jìn)行編碼.這種基于句子對的編碼方式可以自然地建模兩個句子之間的交互信息,這尤其適用于本文設(shè)計的問句和查詢圖序列兩者之間的匹配任務(wù).在基于BERT實(shí)現(xiàn)問句和查詢圖序列的編碼過程中,本文采用句子對形式作為BERT模型的輸入,整個編碼框架如圖1(b)所示.給定問句q={w1,w2,…,wm}和查詢圖序列g(shù)s={u1,u2,…,un},其中wi和ui分別對應(yīng)問句和查詢圖序列中的一個字單元,將其按照BERT模型的輸入格式進(jìn)行拼接并形成對應(yīng)的句子對序列pqgs={[CLS],w1,…,wm,[SEP],u1,…,un,[SEP]}.對于候選查詢圖集合中的每個查詢圖g∈G都采用上述方式和對應(yīng)的問題q形成句子對pqgs,并輸入給BERT進(jìn)行編碼.最終使用[CLS]節(jié)點(diǎn)的輸出向量作為問句和查詢圖序列的交互語義特征表示,記為f,該語義特征表示在排序模型中被用于計算問句和查詢圖序列的語義相似度得分.

        3.2.3 查詢圖排序模型

        (1)

        (2)

        其中yi為查詢圖的標(biāo)簽,正例查詢圖標(biāo)簽為1,負(fù)例查詢圖標(biāo)簽為0.

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)設(shè)置

        4.1.1 數(shù)據(jù)集

        本文在WebQuestions(WebQ)[18]和ComplexQuestions(CompQ)[5]兩個廣泛使用的知識圖譜問答數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).數(shù)據(jù)集WebQ包含有簡單問題和復(fù)雜推理問題兩種類型的問題,共有5,810個問答對,其中簡單問題占比84%,復(fù)雜問題占比16%,整個數(shù)據(jù)類型分布符合用戶真實(shí)查詢場景下的分布情況.數(shù)據(jù)集CompQ是為復(fù)雜推理問答而設(shè)計,包含有2,100條復(fù)雜問答對.兩個數(shù)據(jù)集都以Freebase[25]作為知識庫,在實(shí)驗(yàn)中兩者均被劃分為訓(xùn)練集、驗(yàn)證集和測試集,具體劃分情況如表1所示.

        表1 數(shù)據(jù)集劃分統(tǒng)計Table 1 Partitions of datasets

        4.1.2 參數(shù)設(shè)置

        在問句和查詢圖序列編碼中,本文采用BERT-Base模型作為編碼器.在實(shí)驗(yàn)過程中,通過比較系統(tǒng)在驗(yàn)證集上的性能進(jìn)行系統(tǒng)參數(shù)設(shè)置.對于BERT模型中的參數(shù),設(shè)置丟棄率為0.1,隱藏層大小為768.在模型訓(xùn)練中,使用Adam作為優(yōu)化器,并且設(shè)置學(xué)習(xí)率為5×10-5,最大訓(xùn)練輪次為5次.在每輪訓(xùn)練結(jié)束后,在驗(yàn)證集上評價模型的性能,并選擇驗(yàn)證集上表現(xiàn)最好的模型作為最終模型在測試集上進(jìn)行測試.在構(gòu)建訓(xùn)練數(shù)據(jù)時,按照1:120的正負(fù)比例進(jìn)行數(shù)據(jù)組的構(gòu)建,其中負(fù)例從查詢圖生成得到的候選查詢圖集合中隨機(jī)選取.對于評價機(jī)制,沿用以往研究中使用的F1值進(jìn)行模型評價[18].

        4.2 實(shí)驗(yàn)結(jié)果

        表2展示本文方法和已有方法在WebQ和CompQ兩個數(shù)據(jù)集上的比較結(jié)果.按照是否基于查詢圖,已有的方法被分為兩類,其中“基于查詢圖”表示使用查詢圖的系統(tǒng)方法,而“其他方法”表示沒有使用查詢圖的系統(tǒng)方法.在“其他方法”中,Berant等基于λ-DCS實(shí)現(xiàn)問句解析,并根據(jù)解析結(jié)果從知識庫中檢索出最終答案.Chen等和Xu等基于機(jī)器閱讀理解的方法實(shí)現(xiàn)知識圖譜問答,能夠以知識圖譜作為背景知識檢索到對應(yīng)的答案.而Jain在WebQ上實(shí)現(xiàn)了最好的結(jié)果,但其在答案選擇中額外引入問句復(fù)述數(shù)據(jù)集WikiAnswers來增強(qiáng)問句的表示.

        表2 和現(xiàn)有方法的比較結(jié)果Table 2 Comparison results with previous methods

        在基于查詢圖的方法中,Bao等、Yih等和Luo等采用相似的分階段查詢圖生成方法,即先生成主路徑,后進(jìn)行約束掛載.其中,Luo等結(jié)合查詢圖整體結(jié)構(gòu)提出一種針對復(fù)雜查詢圖的編碼策略,從而將查詢圖編碼為對應(yīng)的語義向量,更有效地實(shí)現(xiàn)問句和查詢圖的語義匹配,也取得了更好的性能.不同于已有的分階段查詢圖生成方法,Hu等基于狀態(tài)轉(zhuǎn)移的策略將問句解析為語義查詢圖,然后將語義查詢圖與底層知識圖譜進(jìn)行映射并檢索答案.為了降低查詢圖生成中的搜索空間,Lan等基于束搜索生成主路徑,同時考慮約束的掛載,這種方式有效減少了搜索空間,實(shí)現(xiàn)了更有效的查詢圖生成過程,并在CompQ上取得了最好的效果.

        從表2中可以看出,相比于已有方法,本文方法在CompQ上實(shí)現(xiàn)了最好的結(jié)果,并且在WebQ上也排在第2位.同時,與WebQ數(shù)據(jù)集上最好的Jain方法相比,本文方法在沒有引入額外資源WikiAnswers的基礎(chǔ)上就實(shí)現(xiàn)了與其相當(dāng)?shù)男阅?這顯示出本文所提知識圖譜問答系統(tǒng)的優(yōu)越性.此外,當(dāng)和基于查詢圖的系統(tǒng)進(jìn)行比較時,文中實(shí)現(xiàn)的系統(tǒng)顯著超過了所有基于查詢圖的方法,這說明本文提出的查詢圖選擇模型是十分有效的.從以上比較可以看出,本文提出的基于全局排序的查詢圖選擇方法是可行的,它可以有效提升基于查詢圖的知識圖譜問答系統(tǒng)性能,并且與其他方法相比,也具有一定的優(yōu)勢.

        4.3 討論和分析

        4.3.1 查詢圖轉(zhuǎn)序列分析

        為了探究查詢圖轉(zhuǎn)序列對系統(tǒng)的影響,本文從兩個角度對生成的查詢圖序列進(jìn)行分析,其中一方面探究查詢圖轉(zhuǎn)序列中預(yù)定義子路徑的有效性,另一方面對查詢圖序列中的不同組成成分進(jìn)行消融分析.

        在查詢圖轉(zhuǎn)序列方法中,本文采用預(yù)定義子路徑順序的策略生成對應(yīng)的查詢圖序列,這種設(shè)計初衷是想保留更多結(jié)構(gòu)化的有序信息讓模型更易于編碼.作為對比,本文進(jìn)一步采用隨機(jī)策略的方式將不同子路徑組合成查詢圖序列,表3給出了兩種實(shí)現(xiàn)方法的比較結(jié)果.從表中可以看出,相比于子路徑順序固定的方法,子路徑順序隨機(jī)化的方式都有一定程度的性能下降,并且在WebQ和CompQ數(shù)據(jù)集上分別降低了0.7%和0.9%.這種現(xiàn)象表明,本文設(shè)計的子路徑順序固定的查詢圖序列生成方式更加合理.相比于子路徑順序隨機(jī)的方式,基于子路徑順序固定的方法可以保留更多結(jié)構(gòu)化的信息,使得轉(zhuǎn)換得到的查詢圖序列具備一定的規(guī)律性,而這種規(guī)律性也更有利于問句和查詢圖序列的匹配,取得更好的系統(tǒng)性能.

        表3 子路徑順序?qū)ο到y(tǒng)的影響

        在查詢圖轉(zhuǎn)序列中,本文生成的查詢圖序列包含了查詢圖中的所有信息.為了分析查詢圖序列中不同組分對系統(tǒng)的影響,這里進(jìn)一步從當(dāng)前系統(tǒng)中移出相關(guān)組成部分進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示.其中,“查詢圖序列”指包含主路徑和4種約束路徑的完整查詢圖序列構(gòu)成的系統(tǒng),“w/o 約束路徑”指在查詢圖序列中去除約束路徑信息的系統(tǒng),“w/o 答案字符串”指在查詢圖序列中去除答案字符串的系統(tǒng).實(shí)驗(yàn)結(jié)果表明,無論是去除約束路徑還是答案字符串,系統(tǒng)的性能都會下降.同時就“w/o 約束路徑”對應(yīng)的結(jié)果而言,可以看出系統(tǒng)在WebQ和CompQ數(shù)據(jù)集上分別下降了1.6%和2.1%,并且在CompQ數(shù)據(jù)集上下降得更多.這種性能下降的差異與CompQ數(shù)據(jù)集中包含更多的復(fù)雜約束問句相一致,說明復(fù)雜問句越多,約束路徑越重要.從上述實(shí)驗(yàn)分析可以看出,查詢圖序列中包含的所有組成部分都是必不可少的,都可以在查詢圖選擇中發(fā)揮正向作用.

        表4 查詢圖序列中不同組成部分對系統(tǒng)的影響Table 4 Effect of different components in query graph sequence on the system

        4.3.2 全局排序的有效性

        在本小節(jié)中,具體分析全局排序模型在查詢圖選擇中的有效性.作為對比系統(tǒng),本文選擇兩種典型的排序模型進(jìn)行比較:Luo實(shí)現(xiàn)的二元排序模型[6]和基于二分類的單元排序模型,其中二元排序方法采用鉸鏈損失函數(shù).

        表5展示了3種不同的排序策略在WebQ和CompQ數(shù)據(jù)集上的比較結(jié)果.其中單元排序?qū)γ總€候選查詢圖進(jìn)行二分類,在優(yōu)化中不考慮候選查詢圖之間的關(guān)聯(lián);二元排序在優(yōu)化中考慮兩兩候選查詢圖之間的關(guān)聯(lián);而本文的全局排序引入了所有候選查詢圖之間的關(guān)聯(lián)進(jìn)行優(yōu)化.表中結(jié)果顯示,引入候選查詢圖之間關(guān)聯(lián)的全局排序和二元排序明顯優(yōu)于單元排序模型.這種現(xiàn)象表明在排序中引入候選查詢圖之間的關(guān)聯(lián)是有效的,這種關(guān)聯(lián)信息有利于查詢圖選擇模型區(qū)分正確查詢圖和錯誤查詢圖之間的區(qū)別,從而更好地進(jìn)行優(yōu)化.此外,相比于單元排序,二元排序和全局排序在CompQ數(shù)據(jù)集上比在WebQ數(shù)據(jù)集上取得了更大的提升,這在一定程度上反映出復(fù)雜問題可能更需要額外信息來區(qū)別候選查詢圖.從表5中也可以看出,本文提出的全局排序模型在兩個數(shù)據(jù)集上都取得了最好的性能,這說明基于全局信息的排序模型在查詢圖選擇中更加有效,因此有必要在查詢圖選擇模型中引入候選查詢圖之間的關(guān)聯(lián).

        表5 全局排序與其他排序方法的比較實(shí)驗(yàn)Table 5 Comparison results of different ranking methods

        4.3.3 錯誤分析

        為了更好地幫助改進(jìn)查詢圖選擇模型,本小節(jié)具體分析當(dāng)前系統(tǒng)在查詢圖選擇模塊中出錯的原因.當(dāng)查詢圖生成模塊產(chǎn)生的候選查詢圖不包含正確答案時,本文所介紹的系統(tǒng)無法選擇出正確的查詢圖并回答問題.因此這里針對正確答案在查詢圖候選中,但最終回答出錯的問題進(jìn)行分析.針對WebQ數(shù)據(jù)集,本文隨機(jī)選取了100條問句進(jìn)行統(tǒng)計分析,錯誤情況總結(jié)如下:

        錯誤的查詢圖生成.在查詢圖能夠檢索到正確的答案的情況下,本文進(jìn)一步發(fā)現(xiàn)盡管有些查詢圖能夠檢索得到正確的答案,但是實(shí)際上解析得到的查詢圖并不能保證是正確的.比如,對于問題“where was david berkowitz arrested?”,查詢圖生成的候選中包含“david berkowitz places lived-location brooklyn,new york city”.這一候選可以檢索到對應(yīng)的答案“brooklyn,new York city”,但事實(shí)上該候選查詢圖序列在語義上與問句并不完全匹配,因此模型很難選出這樣的查詢圖.在100條問句中,這種錯誤類型包含45條(45%).對于這種錯誤,需要進(jìn)一步提高查詢圖生成的性能以及增加知識圖譜本體的覆蓋率,從而減少這種情況的發(fā)生.

        錯誤的查詢圖選擇.這種情況下候選查詢圖中包含有解析正確的查詢圖,但系統(tǒng)仍然回答錯誤.這些錯誤可以總結(jié)為兩大類.第1類(40%)是系統(tǒng)選擇了錯誤的主路徑關(guān)系所對應(yīng)的查詢圖,導(dǎo)致回答錯誤;第2類(15%)是系統(tǒng)選擇了錯誤的約束,即約束子路徑匹配出錯.為了解決這類錯誤,可能需要在查詢圖選擇中引入更多信息來更好地區(qū)分正確查詢圖和錯誤查詢圖之間的區(qū)別.

        5 結(jié)束語

        本文提出一種新的面向知識圖譜問答的查詢圖選擇方法,將問句和查詢圖的匹配轉(zhuǎn)換為兩個序列之間的匹配任務(wù),并設(shè)計一種基于全局信息的查詢圖排序模型,來提升知識圖譜問答系統(tǒng)的性能.在具體實(shí)現(xiàn)中,首先通過線性化將查詢圖轉(zhuǎn)換為查詢圖序列,然后使用BERT編碼問句和查詢圖序列之間的語義表示.此外,通過全局排序來選擇最優(yōu)查詢圖,排序模型可以對候選查詢圖之間的關(guān)聯(lián)進(jìn)行建模.在WebQ和CompQ兩個數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文所提的查詢圖選擇方法能夠提高知識圖譜問答系統(tǒng)的效果,從而證明了所提方案的有效性.在將來工作中,會進(jìn)一步考慮引入與查詢圖相關(guān)的額外附加信息來提高查詢圖語義表達(dá)能力,同時進(jìn)一步優(yōu)化查詢圖排序模型.

        猜你喜歡
        集上排序圖譜
        排序不等式
        繪一張成長圖譜
        Cookie-Cutter集上的Gibbs測度
        恐怖排序
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        復(fù)扇形指標(biāo)集上的分布混沌
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動對接你思維的知識圖譜
        国产农村妇女高潮大叫| 色吧噜噜一区二区三区| 天天躁夜夜躁狠狠躁2021a2| 超碰97人人做人人爱少妇| 国产乱人视频在线观看播放器| 日本一区不卡在线观看| 日本熟妇高潮爽视频在线观看| 国产亚洲精品综合一区二区| 国产高颜值女主播在线| 亚洲熟妇av一区| 精品国产18久久久久久| 免费在线观看一区二区| 亚洲精品一区二区成人精品网站| 精品国品一二三产品区别在线观看| 亚洲欧美日韩精品久久亚洲区| 美女高潮流白浆视频在线观看| 成人国产自拍在线播放| 男女射精视频在线观看网站| 久久久久久久97| 99re在线视频播放| 亚洲国产精品色婷婷久久| 亚洲精品粉嫩美女一区| 乌克兰少妇xxxx做受野外| 国产精品后入内射日本在线观看 | 日韩欧美专区| 美女草逼视频免费播放| 曰批免费视频播放免费 | 亚洲av中文无码乱人伦在线咪咕| 波多野结衣中文字幕久久| 亚洲日本无码一区二区在线观看| 国产喷白浆精品一区二区豆腐| 亚洲国产精品美女久久| 纯爱无遮挡h肉动漫在线播放 | 国产精品欧美视频另类专区| 不卡一本av天堂专区| 人妻久久久一区二区三区| 国产精品自产拍在线观看免费| 国产精品国产三级农村妇女| 午夜时刻免费入口| 久久久国产精品麻豆| 中文字幕你懂的一区二区|