摘要:知識圖譜是實現(xiàn)開放領域問答的關(guān)鍵技術(shù)之一,開放領域問答任務往往需要足夠多的知識信息,而知識圖譜的不完備性成為制約問答系統(tǒng)性能的重要因素。利用外部非結(jié)構(gòu)化的文本與基于知識圖譜的結(jié)構(gòu)化知識相結(jié)合填補缺失信息時,檢索外部文本的準確性和效率尤為關(guān)鍵,選取與問題相關(guān)度較高的文本可提升系統(tǒng)性能。相反,選取與問題相關(guān)性較弱的文本將引入知識噪聲,降低問答任務的準確性。因此,設計了一種融合文本與知識圖譜的問答系統(tǒng)模型,其中的文本檢索器可充分挖掘問題和文本的語義信息,提高檢索質(zhì)量和查詢子圖的準確性;知識融合器將文本和知識庫中的知識結(jié)合構(gòu)建知識的融合表征。實驗結(jié)果表明,相較對比模型,該模型在性能上存在一定優(yōu)勢。
關(guān)鍵詞:問答系統(tǒng);知識圖譜;外部知識;文本檢索;融合表征
中圖分類號:TP183;TP391.1 文獻標志碼:A 文章編號:1000-582X(2024)08-055-10
開放領域問答[1?2]需要找到使用自然語言所描述問題的對應答案。當前開放領域的問答系統(tǒng)往往需要覆蓋面足夠廣的知識庫作支撐,而當今知識圖譜的規(guī)模尚不足以作為開放領域問答系統(tǒng)的唯一知識源,其不完備性限制了問答系統(tǒng)性能。隨著互聯(lián)網(wǎng)發(fā)展,各類百科網(wǎng)站記載了越來越多領域的知識,以非結(jié)構(gòu)化文本的形式呈現(xiàn)。陳丹琦等[3]首次將維基百科文本語料庫引入開放領域問答。一方面,其擁有的知識量大、覆蓋面廣,并且規(guī)模日益增長;另一方面,其語言滿足專業(yè)性和規(guī)范性,有利于轉(zhuǎn)化為計算機易于存儲的結(jié)構(gòu)化形式。因此,文本語料庫可作為不完備知識庫的外部信息補充,與知識庫相結(jié)合作為開放領域問答系統(tǒng)的知識源。圖1 顯示了為回答無法直接從知識庫中找到答案的問題需要結(jié)合非結(jié)構(gòu)化文本信息的案例。
國內(nèi)外有一些研究者設計了結(jié)合外部文本知識的知識圖譜開放領域問答系統(tǒng),雖然取得一些效果,但仍存在問題,導致效果未達預期。其中包括:1)檢索文本的方法未曾涉及句子的語義信息,導致檢索到的文本相關(guān)性被限制,無法充分挖掘文本中所蘊含與問句有關(guān)的信息,影響最終答案的準確性。例如Sun 和Xiong等[4-5]利用詞頻信息檢索文本,未涉及語義信息;2)知識圖譜節(jié)點的表征未考慮差異化、鄰接節(jié)點及邊對其的重要性,使節(jié)點過于孤立,難以準確定位目標答案。例如,圖卷積神經(jīng)網(wǎng)絡(graph convolution network,GCN)[6?8]在對查詢子圖節(jié)點的鄰接節(jié)點進行卷積操作時使用相同的權(quán)重。