亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表格的自動問答研究與展望

        2021-07-14 16:21:32楊賦庚奚雪峰
        關(guān)鍵詞:知識庫語句表格

        李 智,王 震,楊賦庚,奚雪峰

        1.蘇州科技大學(xué),江蘇 蘇州215009

        2.蘇州市公安局,江蘇 蘇州215000

        自動問答是自然語言處理中重要的研究任務(wù)。針對用戶以自然語言形式提出的問題,自動問答系統(tǒng)面向檢索源獲取用戶答案。為了精確獲取答案,通常對問句進(jìn)行深層次語義挖掘,獲取問句中豐富的潛在信息,從而提取用戶需要的答案。

        表格又稱表,是一種可視化的交流模式與組織整理數(shù)據(jù)的手段,更是一種結(jié)構(gòu)化的知識庫。表格的構(gòu)建需要挖掘、分析、顯示各個表格實(shí)體之間的相互關(guān)系,清晰表示知識庫信息。

        基于表格的自動問答任務(wù)通過挖掘表格實(shí)體信息與問句之間的潛在聯(lián)系,獲取生成的結(jié)構(gòu)化查詢語句。與傳統(tǒng)的搜索引擎相比較,基于表格知識庫的信息檢索,不再生成非結(jié)構(gòu)化知識庫問答的簡單排序列表,而是通過智能語義分析,獲取查詢語句,通過查詢語句生成用戶需要的問題答案。

        本文依次從基于表格的自動問答數(shù)據(jù)集,問答模型、問答評測方法、問答模型的難點(diǎn)與挑戰(zhàn)開展分析與討論。

        1 基于表格的自動問答數(shù)據(jù)集

        自動問答最早可追述到20 世紀(jì)50 年代。圖靈在1950 年提出通過觀察機(jī)器是否具有正確回答問題的能力,以此驗(yàn)證機(jī)器是否具有智能[1]。1966 年,麻省理工學(xué)院的Weizenbaum[2]設(shè)計(jì)出名為ELIZA的聊天機(jī)器,實(shí)現(xiàn)了機(jī)器與人類的簡單問答。隨后大量的研究成果相繼出現(xiàn)如:Parry[3]、ALICE[4]、Jabberwacky[5];2011年,IBM公司設(shè)計(jì)研發(fā)的超級機(jī)器人“沃森”在美國電視智力節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝兩位頂尖的人類選手,被視為人工智能發(fā)展的重要節(jié)點(diǎn)。不過,上述成果并不代表著機(jī)器對于自然語言真正的理解。2011 年,華盛頓大學(xué)的Etzioni 發(fā)表文章“Search needs a shake-up”指出:“以直接并且準(zhǔn)確的形式回答用戶的自然語言問句的自動問答系統(tǒng)將構(gòu)成下一代搜索引擎的雛形”[6]。因此自動問答系統(tǒng)被視為未來信息智能服務(wù)的關(guān)鍵性技術(shù)之一。

        近年來,伴隨著用戶對于智能應(yīng)用的迫切需求,許多公司及機(jī)構(gòu)例如谷歌、百度、維基等通過獲取高質(zhì)量數(shù)據(jù),采用自動或者而半自動化方法設(shè)計(jì)一系列完備的表格知識庫問答系統(tǒng),例如Weir等人[7]開發(fā)了DBPal工具,Google開發(fā)了Analyza系統(tǒng)[8]、NLIDBS[9-10]。同時(shí),以深度學(xué)習(xí)為代表的算法技術(shù)以及GPU等硬件計(jì)算能力的提升,為自動問答提供了有利的發(fā)展條件。

        當(dāng)前大量文獻(xiàn)圍繞自動問答任務(wù)展開,同時(shí),問答系統(tǒng)的實(shí)現(xiàn)離不開數(shù)據(jù)集。當(dāng)前成熟的英文問答數(shù)據(jù)集有WikiSQL[11]、Spider[12]、WikiTableQuestions[13]、ATIS[14]等等。如表1所示,WiKiSQL數(shù)據(jù)集是2017年由Salesforce提出的大型標(biāo)注的NL2SQL數(shù)據(jù)庫,是目前最大的NL2SQL數(shù)據(jù)集;它包含24 241張表,80 645條自然問句以及相應(yīng)的SQL 語句;WiKiSQL 目前的預(yù)測準(zhǔn)確率達(dá)91.8%。Spider數(shù)據(jù)集是2018年耶魯大學(xué)提出的一個大規(guī)模、跨領(lǐng)域、復(fù)雜的NL2SQL數(shù)據(jù)集;數(shù)據(jù)集包含10 181條自然問句,分布在200 個獨(dú)立數(shù)據(jù)庫中的5 693 條SQL,內(nèi)容覆蓋了138個不同領(lǐng)域;Spider引入SQL的高階用法,更加貼合真實(shí)問答場景。WikiTableQuestions數(shù)據(jù)集是2015年斯坦福大學(xué)針對維基百科中半結(jié)構(gòu)化表格問答開發(fā)的數(shù)據(jù)集。該數(shù)據(jù)含有22 203 條問答句子以及2 108張表格;數(shù)據(jù)來源于維基百科,因此表格信息沒有經(jīng)過歸一化處理,一個自然語言問題內(nèi)包含多個實(shí)體或者含義。ATIS(Air Travel Information System)是由德克薩斯儀器公司在1990 年提出的,該數(shù)據(jù)集源于關(guān)系型數(shù)據(jù)庫Offical-Airline-Guide,包含27張表格以及小于2 000次的Query,Query內(nèi)容涵蓋航班、費(fèi)用、城市、地面服務(wù)等信息。中文問答數(shù)據(jù)集有首屆中文NL2SQL挑戰(zhàn)賽數(shù)據(jù)集[15]、CSpider[16]。首屆中文NL2SQL挑戰(zhàn)賽數(shù)據(jù)集,由追一科技在2019年舉辦的首屆中文NL2SQL挑戰(zhàn)賽提出,使用金融領(lǐng)域的表格數(shù)據(jù)作為數(shù)據(jù)源,提供標(biāo)注的自然語言問題與SQL語句的匹配對。2019年,Min等人[16]為填補(bǔ)當(dāng)前中文表格問答的空白,針對目前中文分詞問題、句型、漢語零代詞問題,將Spider數(shù)據(jù)集轉(zhuǎn)換為中文,開發(fā)出CSpider數(shù)據(jù)集。

        表1 基于表格知識庫的問答數(shù)據(jù)集

        Yu等人[17]在2019年公開第一個基于表格的多輪問答數(shù)據(jù)集SParC,該數(shù)據(jù)集覆蓋138 個領(lǐng)域。SParD 有兩大特點(diǎn):(1)SParC 具有復(fù)雜的上下文語義相關(guān)性;(2)SParC由于跨領(lǐng)域的性質(zhì)并且在測試過程中看不到表格信息。目前SParC 的最佳模型的精確匹配度僅為20.2%;Yu 等人[18]在2019 年也公開了基于表格的多輪問答數(shù)據(jù)集CoSQL。CoSQL 被視為Spider 的多輪對話版本,但是與SParC 相比較,CoSQL 專注于對話雙方的交互問答、場景更加豐富,涵蓋領(lǐng)域更加廣泛。

        2 基于語義解析的自動問答方法

        基于語義解析的自動問答方法通過構(gòu)造規(guī)則或者模板,對于問題文本進(jìn)行匹配,形成查詢表達(dá)式。規(guī)則與模板是語義解析方法的具體顯示。通過預(yù)設(shè)置查詢模板或者規(guī)則,實(shí)現(xiàn)查詢語句的生成方法具有簡潔、準(zhǔn)確性高的優(yōu)點(diǎn),適用于簡單查詢。目前,所有的表格問答模型中均在不同程度上使用語義解析方法。

        語義解析方法的關(guān)鍵在于對自然語言問句進(jìn)行成分解析,將查詢問句轉(zhuǎn)化為邏輯表達(dá)式,再利用表格知識庫的語義信息,將邏輯表達(dá)式轉(zhuǎn)換為表格知識庫的查詢結(jié)果,最終得到用戶的目標(biāo)答案。在結(jié)構(gòu)化的知識庫上進(jìn)行查詢,最高效的方法就是利用結(jié)構(gòu)化查詢語句,類似SQL語句等。然而對于普通用戶而言,設(shè)計(jì)規(guī)范化的查詢語句存在困難。因此基于表格知識庫的語義解析問答系統(tǒng)應(yīng)運(yùn)而生,如圖1 所示,系統(tǒng)實(shí)現(xiàn)需要兩個關(guān)鍵的步驟:(1)使用語義解析器將問題轉(zhuǎn)化為計(jì)算機(jī)能夠識別和理解的語義表示;(2)使用語義產(chǎn)生結(jié)構(gòu)化查詢語言,對表格知識庫進(jìn)行查詢。

        圖1 基于語義解析的表格問答過程

        常用的語義解析方法有兩類:基于規(guī)則的語義解析和基于神經(jīng)網(wǎng)絡(luò)的語義解析。

        2.1 基于規(guī)則的語義解析方法

        基于規(guī)則方法由Woods[19]提出,它依靠語法規(guī)則,通過增強(qiáng)轉(zhuǎn)移網(wǎng)絡(luò)(ATN)進(jìn)行語義解析,通過上下文無關(guān)文法描述自然語言問句的文法結(jié)構(gòu)與文法中產(chǎn)生式的對應(yīng)語義動作,執(zhí)行相應(yīng)的語義結(jié)果,最終生成結(jié)構(gòu)化查詢語句。2008年,Djahantighi等人[20]基于NLIDB系統(tǒng),通過識別任何語言的同義詞,以此實(shí)現(xiàn)專家系統(tǒng),該系統(tǒng)便于非專業(yè)用戶使用查詢語句處理數(shù)據(jù)庫。2010年,Gauri等人[21]將工作轉(zhuǎn)向混合方法,將基于經(jīng)驗(yàn)語料庫的方法與傳統(tǒng)符號方法相互結(jié)合,使得英語問句生成SQL成為可能。

        2015 年,Humera Khanam 等人[22]提出基于數(shù)據(jù)庫的自然語言接口這一概念,考慮作者母語(泰盧固語)的特征,保證用戶提出自然語言問題,問答系統(tǒng)都能給出正確答案并節(jié)省問答時(shí)間。2016 年,Pasupat 等人[23]面向WikiTableQuestions 數(shù)據(jù)集,針對語義解析器的核心問題開展研究。這里的核心問題是指有限搜索空間條件下,受限的規(guī)則集限制了模型的表達(dá)能力。他們的研究工作考慮了最具有表現(xiàn)力的一類邏輯形式,并展示了如何使用動態(tài)編程有效地表示一整套統(tǒng)一的邏輯形式。

        基于規(guī)則的語義解析問答方面,國內(nèi)的研究人員也取得相應(yīng)成果,許龍飛等人[24]采用漢語數(shù)據(jù)庫首先提出自然語言查詢界面NLCQL,運(yùn)用數(shù)據(jù)庫E-R 漢語查詢模型,將漢語查詢語句與對應(yīng)數(shù)據(jù)庫模型語義以及背景知識相互結(jié)合。在語法方面,NLCQL 采用語言模板作為中間語言MQL[25]到SQL的自動轉(zhuǎn)換規(guī)則。其基本思想是通過對輸入的漢語自然語言進(jìn)行分詞操作等處理,生成對應(yīng)的漢語句型詞組結(jié)構(gòu)樹,最終變換成中介語言MQL。再實(shí)現(xiàn)中介語言向SQL 的映射,從而執(zhí)行基于數(shù)據(jù)庫的實(shí)際查詢。系統(tǒng)相較于傳統(tǒng)的句型匹配法有更好的理解能力,同時(shí)具有更好的實(shí)用性。

        陶艷瑰等人[26]從簡化語法語義處理過程的角度考慮,設(shè)計(jì)集合漢語文化背景的數(shù)據(jù)庫自然語言查詢界面RchiQL,通過對查詢語句進(jìn)行受限操作以及ER語義特征文法規(guī)則[27],提升接口模型識別詞匯的準(zhǔn)確度。其限制系統(tǒng)所識別的詞匯量與句式,進(jìn)而減少詞匯的二義性,避免出現(xiàn)用戶構(gòu)造過于復(fù)雜的查詢語句;同時(shí)為了盡可能處理用戶的查詢,不過分增加系統(tǒng)實(shí)現(xiàn)的復(fù)雜度,提出了對于查詢問句做預(yù)處理的思路。

        孟小峰等人[28]針對中文數(shù)據(jù)庫面臨的可移植性和可用性兩大問題,設(shè)計(jì)出中文語言查詢系統(tǒng)Nchiql,Nchiql 具有良好的可移植性、高效性和魯棒性。如圖2所示,Nchiql 系統(tǒng)根據(jù)中文自然語言查詢的特點(diǎn),提出基于數(shù)據(jù)庫語義分詞的方法,通過回溯機(jī)制、相關(guān)語義確定,有效解決分詞中出現(xiàn)的歧義詞與未知詞的問題;同時(shí)提出數(shù)據(jù)庫語義依存模型和迭代依存分析方法,獲取查詢目標(biāo)之間的關(guān)系以及查詢條件內(nèi)部的層次關(guān)系,便于系統(tǒng)向SQL語句和自然語言的同步轉(zhuǎn)換。

        圖2 Nchiql流程示意圖

        綜上所述,基于規(guī)則的語義分析法可解釋性強(qiáng)、結(jié)構(gòu)清晰,在限定領(lǐng)域問答方面達(dá)到很好的效果;但是重要部分(如產(chǎn)生式、規(guī)則集合)需要人工編寫。面對大規(guī)模表格知識庫的情況下,該方法存在以下不足:(1)資源標(biāo)注費(fèi)時(shí)費(fèi)力,在訓(xùn)練數(shù)據(jù)有限的情況下,性能有限;(2)語義表示與知識庫聯(lián)系不緊密,無法在解析過程中利用知識庫進(jìn)行約束;(3)大規(guī)模知識庫開放域特性使得文本歧義問題嚴(yán)重。

        2.2 基于神經(jīng)網(wǎng)絡(luò)的語義解析方法

        基于神經(jīng)網(wǎng)絡(luò)的方法將自然語言以及對應(yīng)生成的語義視為兩種不同的語言,語義分析任務(wù)被看作機(jī)器翻譯任務(wù),利用端到端模型,實(shí)現(xiàn)將問句翻譯成對應(yīng)語義的結(jié)構(gòu)化表示序列,如圖3所示。

        圖3 Encoder-Decoder模型示意圖

        LeCun 等人[29]在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出深度學(xué)習(xí)的概念,深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于問答系統(tǒng)中子任務(wù)的實(shí)現(xiàn)。本文將當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的問答任務(wù)分為四類:基于分塊機(jī)制的問答方法、基于類型信息的問答方法、基于草圖的問答方法、基于詞嵌入的問答方法。

        2.2.1 基于分塊機(jī)制的問答方法

        伴隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,研究人員認(rèn)為目標(biāo)SQL 語句可以通過分塊依次生成。分塊機(jī)制目前包含兩種方法:第一種為槽位填充方法。該方法將SQL語句分解為不同子句,將子句預(yù)測結(jié)果進(jìn)行拼接成目標(biāo)SQL。預(yù)測方法包含文本分類、實(shí)體識別。第二種為分塊解碼器方法。該方法對于不同的子句設(shè)置不同的解碼器,每個子句的編碼器由語法規(guī)則進(jìn)行定義。

        在槽位填充方法方面,文獻(xiàn)[30]提出基于Attention機(jī)制的SEQ2SQL模型[11],其核心思想是:首先通過將問句文本與表格信息作為輸入,將SEQ2SQL 模型分為聚合分類器、Select Column Pointer、Where條件解碼器三部分,分別預(yù)測目標(biāo)語句的操作符號、選擇列名、Where子句;最終將上述子句拼接形成完整的查詢語句。SEQ2SQL模型如圖4所示。

        圖4 SEQ2SQL運(yùn)行流程圖

        上述模型優(yōu)勢是對于不同的問題可以復(fù)用,生成目標(biāo)靈活,缺點(diǎn)是需要針對于不同的問答數(shù)據(jù)集制作對應(yīng)的模板;同時(shí)生成模板對于數(shù)據(jù)集依賴性較大。上述模型將目標(biāo)SQL 語句劃分為三個子模塊分別預(yù)測生成。隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,問答模型將SQL語句分解任務(wù)不斷細(xì)化。文獻(xiàn)[11]基礎(chǔ)上提出的SQLNet 模型[31]引入Seq2Item(集合到序列)和Column-Attention(列注意力)兩種思想;SQLNet 利用各個槽位預(yù)測對象的依賴性,填充預(yù)先設(shè)置SQL語句中的槽位,通過生成槽位的拼接,提升SQL 生成的準(zhǔn)確度,SQLNet 模型如圖5 所示。Shi等人[32]考慮到存在多個具有相同或相似語義的正確SQL查詢語句的情況,使用預(yù)定義清單中可行性的操作逐步填充SQL 查詢的插槽;從句法解析技術(shù)中汲取了靈感,提出使用非確定性序列到動作的模型;面對Spdier 數(shù)據(jù)集中復(fù)雜的嵌套查詢,Choi 等人[33]提出一種基于遞歸生成思想的新網(wǎng)絡(luò)架構(gòu)RYANSQL,通過基于草圖的槽填充算法來遞歸預(yù)測嵌套查詢;該模型在Spider上取得58.2%的準(zhǔn)確度,模型效果明顯,更便于生成含有子查詢的SQL語句。

        圖5 SQLNet模型圖

        在分塊解碼器方法中,Lee等人[34]基于Spider數(shù)據(jù)集,針對復(fù)雜查詢問題,提出SQL 子句解碼結(jié)構(gòu)RCSQL。該結(jié)構(gòu)基于self-attention 機(jī)制的數(shù)據(jù)庫模式編碼器,其編碼器負(fù)責(zé)語義表示任務(wù);每個子句的解碼器由一組子模塊組成,子模塊由每個子句的語法定義構(gòu)建形成。該方法在多表情況與問題文本跨域條件下實(shí)現(xiàn)了復(fù)雜查詢語句的生成。

        2.2.2 基于類型信息的問答方法

        針對用戶采用自然語言表示的問題,研究人員提出使用類型信息進(jìn)行目標(biāo)SQL 語句的生成。2017 年,針對輸入自然語言問句中的類型信息,文章“Pointing out SQL queries from text”提出一種基于注意力和復(fù)制兩種機(jī)制的新型表格自動問答模型。模型基于簡單類型規(guī)則,采用Seq2Seq 架構(gòu)[35]以控制每個編碼步驟的解碼模式,根據(jù)SQL語法專門設(shè)置內(nèi)置詞匯對于操作符號進(jìn)行標(biāo)記。在要求生成列名或常數(shù)的情況下,模型強(qiáng)制進(jìn)行Copy操作;其余情況下,模型將隱藏信息投影到一個內(nèi)置詞匯表,獲取內(nèi)置詞匯表的運(yùn)算操作符號。上述模型雖然利用自然問句中的類型信息,提升模型對自然語言問題的理解能力,但是類型信息有限,如何利用標(biāo)注技術(shù)進(jìn)行問句標(biāo)注成為新課題。2018年,文獻(xiàn)[36]借助類型信息表示,提出新的問答模型TypeSQL;利用類型信息理解自然語言問題中特殊實(shí)體,對輸入問句逐一進(jìn)行類型標(biāo)注,將問句中數(shù)字和日期分為四個部分(整數(shù)、浮點(diǎn)數(shù)、日期、年份)。為了識別問題中實(shí)體,模型設(shè)置五種類型實(shí)體(Place、Country、Person、Origination、Sport),將基于表格的問答模型視為填充插槽任務(wù),以此生成高質(zhì)量的結(jié)構(gòu)化查詢語句,TypeSQL最大限度地融合文本類型,便于自然語言問題的解構(gòu)。

        2.2.3 基于草圖的問答方法

        針對問答任務(wù)需要生成SQL,研究人員提出基于草圖指導(dǎo)目標(biāo)SQL生成的想法,草圖為部分生成的結(jié)構(gòu)化語句。2018年,Wang等人[37]基于神經(jīng)語義解析,提出執(zhí)行引導(dǎo)(Execution Guidance)思路,即利用SQL的語義,在解碼(Decoder)過程中,通過部分生成SQL 來檢測和排除錯誤的SQL 生成語句;在出現(xiàn)解析錯誤(Parsing Error)和運(yùn)行錯誤(Runtime Error)兩種情況下,解碼不會得到正確結(jié)果;運(yùn)行錯誤包含運(yùn)算符類型不一致、空輸出等錯誤情況。在假定所有查詢語句都可以得到結(jié)果的情況下,模型生成一部分SQL 語句以后就可以執(zhí)行,執(zhí)行的結(jié)果反過來又可以指導(dǎo)SQL生成過程,執(zhí)行指南如圖6 所示。上述模型針對SQL 生成錯誤的情況進(jìn)行草圖構(gòu)建。面對當(dāng)前自然語言問句中存在的高低階信息,研究人員又提出新的草圖生成方法。Wang 等人[38]設(shè)計(jì)了一種基于結(jié)構(gòu)感知的神經(jīng)結(jié)構(gòu),該結(jié)構(gòu)將語義解析分為兩個階段:首先給定輸入文本,生成相應(yīng)的草圖,草圖省略低級信息(如變量名、數(shù)值);然后考慮輸入文本和草圖本身的缺失細(xì)節(jié)。該模型與一次性解碼結(jié)構(gòu)相比,生成草圖緊湊且容易生成;在生成草圖后,解碼器理解問句的基本含義,從而將其作為全局上下文信息,進(jìn)行最終預(yù)測SQL的修改。

        圖6 執(zhí)行指南示意圖

        草圖本質(zhì)上屬于問答任務(wù)中的中間信息。當(dāng)前研究者針對于NL2SQL 的中間生成部分提出中間語言的概念。針對于復(fù)雜且跨域的NL2SQL 任務(wù),Guo 等人[39]提出了一種稱為IRNet的神經(jīng)網(wǎng)絡(luò)方法。IRNet并非端到端合成SQL查詢,而是將合成過程分解為三個階段:在第一階段,IRNet 執(zhí)行問題和數(shù)據(jù)庫架構(gòu)之間的架構(gòu)鏈接;其次,IRNet 采用基于語法的神經(jīng)模型來合成SemQ 查詢,該查詢是設(shè)計(jì)用來橋接NL 和SQL 的中間表示;最后,IRNet 使用領(lǐng)域知識從綜合的SemQL 查詢中確定性地推斷出SQL 查詢。IRNet 旨在解決兩個問題:(1)自然語言中表達(dá)的意圖與SQL 中的實(shí)現(xiàn)細(xì)節(jié)之間的不匹配;(2)大量域外單詞導(dǎo)致的預(yù)測列的錯誤。

        2.2.4 基于詞嵌入的問答方法

        伴隨著深度學(xué)習(xí)的發(fā)展,預(yù)訓(xùn)練模型不斷涌現(xiàn),例如Glove[40]、BERT(Bidirectional Encoder Representation from Transformers)[41],推動了文本語義表示效果的不斷提升。由此,越來越多的研究人員認(rèn)為準(zhǔn)確的語義表示是提升當(dāng)前問答模型效果的關(guān)鍵,并將預(yù)訓(xùn)練模型帶入問答任務(wù)中。

        Hwang 等人[42]在2019 年開發(fā)出的SQLOVA 系統(tǒng)[42]引入了BERT 預(yù)處理模型。在編碼器(Encoder)上,模型結(jié)合槽位機(jī)制與草圖方法提出三種結(jié)構(gòu):第一個結(jié)構(gòu)是Shallow-Layer,基于草圖生成SQL 語句的六部分(選擇列部分、選擇聚合部分、Where 子句數(shù)量部分、Where列部分、Where子句操作符號部分、Where子句值部分),每個部分具有獨(dú)自的編碼器;第二個結(jié)構(gòu)是基于Poiner Network 的LSTM 模塊[43]來解碼生成SQL;第三個結(jié)構(gòu)將BERT的輸出作為Embedding。模型將自然語言查詢與表格的所有列名進(jìn)行編碼,采用列注意力機(jī)制與Selfattention機(jī)制,使得自然語言問句語境化,以此顯示問句與表兩者之間的交互關(guān)系,SQLOVA從修正語句的角度考慮,通過對生成的SQL語句進(jìn)行語法檢查,從而提升模型的準(zhǔn)確性。2019年,He等人[44]結(jié)合槽位機(jī)制,設(shè)計(jì)出基于Bert 預(yù)訓(xùn)練的模型X-SQL。該模型將任務(wù)分解為6個子任務(wù)。相較于傳統(tǒng)問答模型,X-SQL模型添加None元素,擴(kuò)大查找范圍,解決了傳統(tǒng)模型不能有效對于各個目標(biāo)進(jìn)行關(guān)系建模的問題。X-SQL 采用一種列表示的全局排序,將所有列放在可比較的空間,使用KL 散度的List-Wise Global Ranking[45]作為目標(biāo)函數(shù)。X-SQL不僅有效構(gòu)建列之間的關(guān)系,同時(shí)將六個任務(wù)相互結(jié)合,更便于SQL 語句的生成。但是X-SQL 模型分解為六個子模塊思路仍然存在缺陷,即沒有解決Value抽取混亂,Column特征不顯著的問題。

        當(dāng)前階段,圖網(wǎng)絡(luò)表示學(xué)習(xí)成為自然語言處理的熱門技術(shù),Shaw等人[46]基于Spider數(shù)據(jù)庫生成復(fù)雜邏輯形式問題,提出利用實(shí)體之間的關(guān)系,將GNN(Graph Neural Networks)[47]融入相關(guān)實(shí)體以及關(guān)系的表示;結(jié)合編碼器的復(fù)制機(jī)制,實(shí)現(xiàn)多層嵌套SQL語句的生成,模型考慮數(shù)據(jù)庫信息的異同對SQL語句生成的影響,通過GNN的編碼表示,提高模型的準(zhǔn)確性。

        除了上述總結(jié)的四種方法,針對于問答模型存在的其他問題,研究人員提出眾多有效的解決方案或新模型。在問答數(shù)據(jù)方面,Huang 等人[48]針對于問答模型難以適用于所有訓(xùn)練樣本的問題,提出基于域依賴的相關(guān)函數(shù),通過將原始問句簡化為元學(xué)習(xí)場景,以此加快模型收斂速度;Wang等人[49]基于自動注釋機(jī)制,采用分離數(shù)據(jù)及其模式的方法,將數(shù)據(jù)模式與數(shù)據(jù)分開,通過定制序列模型,將帶有注釋的自然問句轉(zhuǎn)換為SQL語句;在模型改進(jìn)方面,針對于目前的語義解析器依靠自動回歸編碼,一次發(fā)出一個符號的問題,Bogin等人[50]提出語義解析器全局考慮輸出查詢的結(jié)構(gòu),根據(jù)上下文進(jìn)行更多的數(shù)據(jù)庫常量的信息選擇;McCann 等人[51]提出新的多任務(wù)問答網(wǎng)絡(luò)(MQAN),基于多指針生成器的解碼提高問答任務(wù)中語義解析的效果;YU 等人[52]提出了語法樹網(wǎng)絡(luò)SyntaxSQLNet,使用具有SQL 生成路徑歷史記錄以及基于SQL 特定語法的解碼器;Dong 等人[53]提出基于注意力增強(qiáng)的編解碼器的方法,將輸入的語音編碼進(jìn)行矢量表示,并通過調(diào)節(jié)編碼矢量上的輸出序列來生成邏輯形式。

        國內(nèi)也有很多研究者,致力于構(gòu)建表格知識庫以及設(shè)計(jì)問答系統(tǒng)。在構(gòu)建知識庫方面,2019 年,Min 等人[16]為填補(bǔ)當(dāng)前中文表格問答空白,針對目前中文分詞問題、句型問題、漢語零代詞問題,將Spider數(shù)據(jù)集轉(zhuǎn)換為中文形式,開發(fā)出CSpider 數(shù)據(jù)集,并且利用Syntax-SQLNet 作為基線模型進(jìn)行效果測試。同年,追一科技舉辦首屆中文NL2SQL大賽。在設(shè)計(jì)問答系統(tǒng)方面,面向NL2SQL數(shù)據(jù)集,張嘯宇設(shè)計(jì)一種多任務(wù)的表格問答系統(tǒng),將生成目標(biāo)進(jìn)行分解,提高下游子任務(wù)的準(zhǔn)確性,同時(shí)考慮到value 抽取特征不明顯的情況,提出結(jié)合信息增強(qiáng)算法以及數(shù)據(jù)預(yù)處理的方法,在2019 年的中文NL2SQL大賽上,取得第一名的成績。

        在2018 年,聯(lián)想AI 實(shí)驗(yàn)室設(shè)計(jì)了一種基于合成思想的問答系統(tǒng)[54],用SQL-Query 的結(jié)構(gòu)、雙向注意力機(jī)制[55]、字符級嵌入、卷積神經(jīng)網(wǎng)絡(luò)CNN[56],將NL2SQL模型分為聚合器選擇模塊、列名選擇模塊、Where 子句模塊;針對每個子模塊設(shè)計(jì)特定神經(jīng)網(wǎng)絡(luò);系統(tǒng)中自然語言問題和Column 信息全部經(jīng)過BiLSTM 模塊,再通過雙向注意力機(jī)制進(jìn)行映射最終獲取預(yù)測對象,模型考慮到問答中實(shí)體數(shù)量對準(zhǔn)確度的影響,通過設(shè)置子任務(wù)提升SQL語句生成時(shí)間與精度。模型如圖7所示。

        圖7 模型運(yùn)行流程圖

        綜上所述,如表2 所示,基于語義解析的表格知識庫問答方法,核心任務(wù)是將自然語言轉(zhuǎn)化為機(jī)器能夠理解和執(zhí)行的語義表示。在基于規(guī)則的語義方法中,語義表示缺乏靈活性,在分析問句語義的過程中,易受到符號之間語義鴻溝的影響;同時(shí)從自然語言問句得到結(jié)構(gòu)化語義表示需要進(jìn)行多步操作,多步之間的誤差傳遞對于問答準(zhǔn)確度易造成影響;而基于神經(jīng)網(wǎng)絡(luò)的方法,受限于數(shù)據(jù)集的匱乏。因此基于語義分析的問答系統(tǒng)在開放域上取得的效果不盡人意。此外,無論是基于規(guī)則的方法或者基于神經(jīng)網(wǎng)絡(luò)方法都需要標(biāo)注語料,耗費(fèi)大量人工,因此構(gòu)建低成本的模型也是目前問答任務(wù)的研究方向之一。表3 展示了當(dāng)前主流的問答模型及其性能。

        表2 基于規(guī)則與基于神經(jīng)網(wǎng)絡(luò)的方法比較

        表3 WikiSQL數(shù)據(jù)集中問答模型的性能對比 %

        3 基于表格知識庫的自動問答系統(tǒng)評測

        基于表格知識庫的自動問答系統(tǒng)評測與之前的傳統(tǒng)知識庫問答評測相比,既有相同之處,也有特殊之處。由于表格問答系統(tǒng)生成SQL語句的不同,導(dǎo)致其不同數(shù)據(jù)集設(shè)置的評測指標(biāo)各異。目前評測的指標(biāo)主要包含兩種評價(jià)方式:

        (1)邏輯形式準(zhǔn)確率(Logical form Accuracy),將模型合成的SQL 查詢與真值進(jìn)行比較;(2)查詢匹配準(zhǔn)確率(Query-Match Accuracy),將合成的SQL 語句與真值轉(zhuǎn)化為規(guī)范表示并進(jìn)行比較,其中各個子句中的列名的出現(xiàn)順序不影響準(zhǔn)確率的計(jì)算;(3)執(zhí)行結(jié)果準(zhǔn)確率(Execution Accuracy),生成的SQL 語句與真值執(zhí)行的結(jié)果的比較。

        其中,N表示數(shù)據(jù)量,SQL′和SQL分別代表預(yù)測和真實(shí)的SQL語句,Accif代表邏輯形式匹配準(zhǔn)確率。

        其中,N表示數(shù)據(jù)量,SQL′和SQL分別代表規(guī)范化預(yù)測和規(guī)范化的真實(shí)SQL語句,Accqm代表查詢匹配準(zhǔn)確率。

        其中,N表示數(shù)據(jù)量,Y′ 和Y分別代表預(yù)測和真實(shí)SQL語句的執(zhí)行結(jié)果,Accex代表執(zhí)行結(jié)果準(zhǔn)確率。

        邏輯形式匹配度包含各個模塊(聚合函數(shù)匹配、選擇列匹配、條件列匹配、值匹配)的匹配精準(zhǔn)度。查詢匹配度(Accqm)因需要將生成SQL規(guī)范化后進(jìn)行比較。伴隨現(xiàn)有問答數(shù)據(jù)集的發(fā)展,未來的評測指標(biāo)將會不斷細(xì)化。對于結(jié)構(gòu)化語言生成任務(wù)而言,評測指標(biāo)包含的自動生成答案的可推理性評估、可讀性評估、流暢性評估將會愈加重要。表4 為當(dāng)前各個數(shù)據(jù)集下評價(jià)指標(biāo)下的最新效果。

        表4 問答數(shù)據(jù)集中驗(yàn)證集的指標(biāo)效果

        4 表格自動問答系統(tǒng)的問題與挑戰(zhàn)

        當(dāng)前,基于表格問答任務(wù)在WikiSQL等傳統(tǒng)數(shù)據(jù)集的準(zhǔn)確率已達(dá)91.8%,然而實(shí)際應(yīng)用中仍然存在很多問題亟待解決和優(yōu)化。本章結(jié)合研究中遇到的問題,分析表格自動問答系統(tǒng)的問題與挑戰(zhàn)。

        4.1 單表操作的問題

        現(xiàn)有基于表格知識庫的自動問答技術(shù),在單一的表格知識庫上已經(jīng)取得優(yōu)異的效果,然而在實(shí)際的問答場景下,面對用戶的復(fù)雜問題,需要外聯(lián)兩個甚至多個數(shù)據(jù)表才可以得到目標(biāo)答案。但是,主流數(shù)據(jù)集WikiSQL中的自然語言問題結(jié)構(gòu)過于簡單并且其中的單表問答不符合現(xiàn)實(shí)場景中的需求。

        針對單表操作的局限,現(xiàn)有模型采用擴(kuò)大表格規(guī)模的方式來避免單表操作帶來的信息局限。雖然這種方式會增加時(shí)間復(fù)雜度,不過能夠保證查詢語句的簡易性,提高表格問答任務(wù)的精確度。上述方案涉及關(guān)系數(shù)據(jù)庫融合技術(shù)以及在數(shù)據(jù)信息擴(kuò)充情況下,如何保證問答檢索速度等難點(diǎn),需要研究人員進(jìn)行深入探索。

        4.2 自然語言問題的信息解析局限

        目前自然語言問題的理解是基于表格問答的重點(diǎn)。一個規(guī)范化的問答語句將提高生成SQL 語句的準(zhǔn)確度。不規(guī)范NL2SQL問題語句表現(xiàn)在錯別字、口語化輸入、模糊信息等多方面。錯別字方面,例如將“羋月傳”錯寫成“半月傳”??谡Z化方面,輸入的問題文本中含有大量口語化的信息,需要人工或深度學(xué)習(xí)方法進(jìn)行轉(zhuǎn)換或剔除。模糊信息方面,例如“今年三月”,問答模型無法判斷今年究竟是哪一年,因此需要問答模型進(jìn)行泛化操作。另外由于數(shù)據(jù)庫中通常是以數(shù)字形式存儲數(shù)據(jù)信息,在自然問句中,“三月”這類漢語數(shù)字信息應(yīng)該轉(zhuǎn)換為“3月”,即阿拉伯?dāng)?shù)字信息。針對上述情況,研究人員通過預(yù)處理操作將原有問題文本的缺失信息添加到相應(yīng)的位置,從而提升文本的判別效果;同時(shí)基于正則表達(dá)式,將相應(yīng)的中文數(shù)字信息轉(zhuǎn)換為數(shù)據(jù)庫可識別的數(shù)字信息,提升模型值預(yù)測的準(zhǔn)確度。

        4.3 多輪對話表格知識庫問答

        近年來,關(guān)于表格知識庫上的單輪問答任務(wù)基本得到解決。從對話角度看,當(dāng)前學(xué)術(shù)界更加重視包含多輪對話的問答任務(wù)。由于自然問題與表格知識庫的多樣性和復(fù)雜性,多輪表格知識庫的問答仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

        2019年,Zhang等人[57]專注于跨域文本到SQL生成的任務(wù)[57]?;谟^察到相鄰自然語言問題通常在語言上是依賴的,并且它們對應(yīng)的SQL 查詢趨于重疊的思路,通過編輯先前的預(yù)測查詢,利用交互歷史來提高生成質(zhì)量;同時(shí)利用編輯機(jī)制將SQL視為序列,并以簡單的方式在令牌級別重用生成結(jié)果。此外,為了處理不同域中的復(fù)雜表結(jié)構(gòu),采用表感知解碼器來合并用戶話語和表模式的上下文信息。

        2019年,Yu等人[52]提出新的方法。方法分為兩點(diǎn):一是使用語法樹網(wǎng)絡(luò)SyntaxSQLNet[52],以解決多輪對話中跨域文本到SQL生成的任務(wù)。SyntaxSQLNet使用具有SQL 生成路徑歷史記錄和column-attention 編碼器。二是使用數(shù)據(jù)庫拆分設(shè)置,其中在訓(xùn)練期間看不到測試集中的數(shù)據(jù)庫。2020 年,Cai 等人[58]針對多輪問答任務(wù)只集中于歷史用戶輸入的問題,除了利用編碼器捕捉用戶輸入的歷史信息,模型還提出了基于歷史信息的數(shù)據(jù)庫模式編碼器。在譯碼階段,通過引入了權(quán)衡機(jī)制,權(quán)衡不同詞匯的重要性,然后制造SQL標(biāo)記的預(yù)測。Hui等人[59]提出了一個動態(tài)圖框架,該框架能夠在對話進(jìn)行時(shí)有效地建模上下文話語、令牌、數(shù)據(jù)庫模式及其復(fù)雜的交互。該框架采用了動態(tài)記憶衰減機(jī)制,結(jié)合了歸納偏差來整合豐富的上下文關(guān)系表示。

        綜上所述,多輪表格問答的問題主要分兩點(diǎn):一是問句信息問題;二是上下文問題。問句信息問題指的是在多輪問答限定表格知識庫的情況下,問句出現(xiàn)指代模糊、實(shí)體信息省略的情況,這類問題的解決需要聯(lián)系上下文實(shí)體,才能找到實(shí)體答案。上下文問題指的是上文問答的結(jié)果對于下文問答的結(jié)果是否具有影響。在問答過程中,當(dāng)前模型對于上文依賴不斷增加時(shí),可能導(dǎo)致結(jié)尾問答過程出錯的情況。多輪的表格知識問答是當(dāng)前的研究難點(diǎn)與熱點(diǎn)問題,還需更多探索。

        4.4 中文NLSQL數(shù)據(jù)集的生成與應(yīng)用

        2019 年前,中文表格問答數(shù)據(jù)集還是相對匱乏的。首屆中文NL2SQL 大賽數(shù)據(jù)集和Spider 中文版數(shù)據(jù)集(CSpider)的出現(xiàn)緩解了數(shù)據(jù)集匱乏的困境。但是這上述數(shù)據(jù)集僅僅涉及金融、經(jīng)濟(jì)領(lǐng)域,并且CSpider數(shù)據(jù)集格式復(fù)雜(涉及高階操作),研究者較少。當(dāng)前如何利用各個領(lǐng)域存在的表格知識庫,基于深度學(xué)習(xí)的大規(guī)模、可學(xué)習(xí)的優(yōu)點(diǎn),構(gòu)建跨領(lǐng)域知識庫是中文自動問答系統(tǒng)迫切需要解決的問題。

        基于目前中文表格問答數(shù)據(jù)集,可以利用已公開的問答模型,基于特定領(lǐng)域問答數(shù)據(jù)的標(biāo)注特點(diǎn),構(gòu)建空白領(lǐng)域問答數(shù)據(jù)集,從而實(shí)現(xiàn)中文表格問答在特定領(lǐng)域的應(yīng)用。

        4.5 問答模型自然答案的生成

        現(xiàn)存許多問答數(shù)據(jù)集的問答任務(wù)實(shí)際上是答案抽取模型,通過這種方法獲取的答案十分生硬,未有任何加工修飾,不夠自然。例如,根據(jù)用戶的自然語言問句“今年蘋果賣多少錢”,僅僅將答案實(shí)體“3”作為答案是不足的,用戶往往更加接受自成一體的答案形式。為解決答案不自然的問題,2016年,Yin等人[60]首先提出自然答案生成這一概念并且提出GenQA模型。He等人[61]在2017 年提出端到端的問答系統(tǒng)COREQA,以生成復(fù)雜問句的自然答案。但是上述模型均是基于文本知識庫問答,并未涉及表格知識庫。將自然答案生成視為槽位填充任務(wù),將抽取答案與自然語句進(jìn)行拼接,是目前表自然答案生成的一種有效的解決思路。自然答案生成示意圖如圖8所示。

        圖8 自然答案生成示意圖

        5 結(jié)束語

        伴隨智能時(shí)代的來臨,海量數(shù)據(jù)充斥人類生活的每個角落,用戶對于自動問答需求越來越強(qiáng)烈。然而現(xiàn)有問答系統(tǒng)還處在起步階段,僅僅具備簡單的邏輯推理能力,無法充分滿足用戶應(yīng)用需求。基于表格知識庫的自動問答系統(tǒng)作為自動問答的重要方向,其技術(shù)發(fā)展趨勢從限定領(lǐng)域向開放領(lǐng)域發(fā)展,從單一數(shù)據(jù)源向多源數(shù)據(jù)發(fā)展,從淺層語義分析向深度推理發(fā)展,不斷提升自動問答各類性能指標(biāo),以滿足不同行業(yè)的智能問答需求,更好服務(wù)于用戶。

        猜你喜歡
        知識庫語句表格
        《現(xiàn)代臨床醫(yī)學(xué)》來稿表格要求
        重點(diǎn):語句銜接
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        精彩語句
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        丁香美女社区| 亚洲a∨天堂男人无码| 韩日美无码精品无码| 日日摸夜夜添夜夜添无码免费视频 | 香港三级午夜理论三级| 天天碰免费上传视频| 国产乱理伦片在线观看| 亚洲国产成人91| 男性一插就想射是因为啥| 鲁丝一区鲁丝二区鲁丝三区| 人妻少妇被猛烈进入中文| 青青草成人免费在线视频| 24小时日本在线视频资源| 无套内谢孕妇毛片免费看看| 激,情四虎欧美视频图片| 韩国女主播一区二区三区在线观看 | 99ri国产在线观看| 大岛优香中文av在线字幕| 日出白浆视频在线播放| 狠狠躁18三区二区一区| 米奇777四色精品人人爽| 国产乱子伦一区二区三区| 亚洲视频在线看| 亚洲av高清在线观看三区| 午夜视频在线观看日本| 精品国产亚洲av麻豆| 久久久久波多野结衣高潮| 国产精品亚洲一区二区杨幂| 亚洲图片第二页| 国产女主播福利一区二区 | 激情五月开心五月av| 蜜桃精品人妻一区二区三区| 熟女体下毛毛黑森林| 欧美精品AⅤ在线视频| 亚洲午夜久久久精品国产| 人妻被公上司喝醉在线中文字幕| 玩弄少妇人妻中文字幕| 欧美亚洲精品一区二区| 国产69口爆吞精在线视频喝尿| 成人国产av精品麻豆网址| 久久久久成人精品无码中文字幕|