亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于復述的中文自然語言接口

        2016-05-14 09:34:53張俊馳胡婕劉夢赤
        計算機應用 2016年5期
        關(guān)鍵詞:機器學習

        張俊馳 胡婕 劉夢赤

        摘要:針對傳統(tǒng)以句法分析為主的數(shù)據(jù)庫自然語言接口系統(tǒng)識別用戶語義準確率不高,且需要大量人工標注訓練語料的問題,提出了一種基于復述的中文自然語言接口(NLIDB)實現(xiàn)方法。首先提取用戶語句中表征數(shù)據(jù)庫實體詞,建立候選樹集及對應的形式化自然語言表達;其次由網(wǎng)絡問答語料訓練得到的復述分類器篩選出語義最相近的表達;最后將相應的候選樹轉(zhuǎn)換為結(jié)構(gòu)化查詢語句(SQL)。實驗表明該方法在美國地理問答語料(GeoQueries880)、餐飲問答語料(RestQueries250)上的F1值分別達到83.4%、90%,均優(yōu)于句法分析方法。通過對比實驗結(jié)果發(fā)現(xiàn)基于復述方法的數(shù)據(jù)庫自然語言接口系統(tǒng)能更好地處理用戶與數(shù)據(jù)庫的語義鴻溝問題。

        關(guān)鍵詞:數(shù)據(jù)庫自然語言接口;詞向量;復述;自然語言表達;機器學習

        中圖分類號:TP391.1 文獻標志碼:A

        Abstract:In this paper, a novel method for Chinese Natural Language Interface of Database (NLIDB) based on Chinese paraphrase was proposed to solve the problems of traditional methods based on syntactic parsing which cannot obtain high accuracy and need a lot of manual label training corpus. First, key entities of user statements in databases were extracted, and candidate tree sets and their tree expressions were generated. Then most relevant semantic expressions were filtered by paraphrase classifier which was obtained from the Internet Q&A training corpus. Finally, candidate trees were translated into Structured Query Language (SQL). F1 score was respectively 83.4% and 90% on data sets of Chinese America Geography (GeoQueries880) and Questions about Restaurants (RestQueries250) by using the proposed method, better than syntactic based method. The experimental results demonstrate that the NLIDB based on paraphrase can handle the semantic gaps between users and databases better.

        Key words:Natural Language Interface of DataBase (NLIDB); word vector; paraphrase; natural language expression; machine learning

        0 引言

        隨著現(xiàn)代信息技術(shù)的發(fā)展以及數(shù)據(jù)的海量式增長,人們希望以更自然、便捷的方式從數(shù)據(jù)庫中獲取信息,數(shù)據(jù)庫自然語言接口(Natural Language Interface of DataBase, NLIDB)應運而生,旨在幫助用戶使用熟悉的自然語言(如中文)從結(jié)構(gòu)化存儲系統(tǒng)中獲取信息,消除計算機與人之間的“隔閡”。

        Rodolfo等[1]從不同角度分析、總結(jié)了目前主流的NLIDB系統(tǒng),大體分為兩類:一類是以規(guī)則匹配、句法分析或語義規(guī)則[2-6]等為主要技術(shù)手段,分析用戶查詢語義然后轉(zhuǎn)換為結(jié)構(gòu)化查詢語言(Structured Query Language, SQL),即自然語言到SQL的直接映射;另一類是首先將自然語言翻譯成一種中間層表示的邏輯查詢語言,再轉(zhuǎn)換為SQL[7-9],這種方法由于具有數(shù)據(jù)庫無關(guān)、領(lǐng)域適應性等特點,成為近年來該領(lǐng)域研究的熱點。然而,以上方法的難點在于需要直接處理用戶靈活多變的查詢語義,由于目前詞法分析、句法分析技術(shù)尚未達到足夠高的正確率,語義分析階段的錯誤將導致最后生成的SQL不符合用戶查詢意圖。

        近來,一些學者將NLIDB轉(zhuǎn)換為最優(yōu)結(jié)構(gòu)篩選問題,即對用戶輸入首先生成可能的候選結(jié)構(gòu)集,再借用規(guī)則或統(tǒng)計學方法對其排序,最后取分數(shù)最高的候選結(jié)構(gòu)轉(zhuǎn)換為SQL[10-13]。目前上述方法主要依賴人工編寫規(guī)則以及標注語料,不便于跨領(lǐng)域使用。根據(jù)文獻[1]總結(jié)的查詢問題發(fā)現(xiàn),僅依靠輸入語句與數(shù)據(jù)庫模式很多情況無法篩選出正確結(jié)構(gòu),例如,問句“有多少人居住于亞拉巴馬州?”“亞拉巴馬州有多少公民?”“亞拉巴馬州的人數(shù)幾何?”查詢目標都應匹配到數(shù)據(jù)庫屬性“人口”。為彌補這種語義差異,文獻[14-15]使用信息抽取方法從大規(guī)模文本中學習出詞匯與知識庫實體之間的映射關(guān)系,但實際中,該方法受限于知識庫的大小以及信息抽取的準確度。

        綜合以上問題,本文提出了一種基于復述的中文自然語言接口(Paraphrase Natural Language Interface, PaNLI)實現(xiàn)方法。PaNLI使用網(wǎng)絡問答平臺提供的大量“類似問題”“相關(guān)知識”作為復述(paraphrases)訓練語料,這些語料涉及領(lǐng)域廣泛且來自用戶的真實提問,訓練得到的復述分類器能更好地解決NLIDB語義鴻溝問題。PaNLI首先提取出句子中可映射到數(shù)據(jù)庫元素的實體詞,并通過子樹遍歷等操作得到候選樹集與初始排序;其次根據(jù)候選結(jié)構(gòu)匹配的屬性句法類別結(jié)合規(guī)則模板生成若干個形式化的自然語言表達;最后利用訓練得到的支持向量機模型(Support Vector Machine, SVM)分類器計算輸入語句與形式化自然語言表達的語義相關(guān)度,重新排序候選樹集,將得到的最優(yōu)候選樹轉(zhuǎn)換為SQL。

        使用機器學習方法處理分類問題時,關(guān)鍵點在于對問題抽取合適的特征表示,以往句子表示通常使用詞袋模型,即不考慮詞語順序以及關(guān)聯(lián)信息。本文提出一種富語義的句子級特征表示方法,使用Word2Vec工具[16]在大量未標注文本上訓練得到詞語的低維向量表示,結(jié)合依存句法分析結(jié)果,得到句子的多維語義特征表示。實驗表明該特征表示方法能有效提高復述分類精度。

        1 系統(tǒng)組成

        數(shù)據(jù)庫自然語言接口PaNLI系統(tǒng)結(jié)構(gòu)如圖1所示,主要由以下4個模塊構(gòu)成:1)候選集生成;2)形式化自然語言表達構(gòu)造;3)最優(yōu)自然語言表達與候選樹篩選;4)候選樹轉(zhuǎn)換為SQL語句。

        1.1 數(shù)據(jù)庫預處理

        數(shù)據(jù)庫預處理包含索引以及模式圖建立。為提高查全率,首先,采用基于信息檢索的細粒度分詞方法[17]對數(shù)據(jù)庫中的模式及實例分詞建立索引;其次,將數(shù)據(jù)庫模式G(V,E)視為一個有向圖結(jié)構(gòu),其中V包含關(guān)系名以及屬性名兩種節(jié)點,E分為關(guān)系屬性邊和主鍵外鍵邊。對E中每條邊e賦予一個0~1的權(quán)值ω(e),值越高表明連通性越強,本文依據(jù)包含e的實例數(shù)量與實例總量的比值來設置邊的初始權(quán)值。

        1.2 候選結(jié)構(gòu)建立

        文獻[10]以句子的依存句法分析為輸入,生成多個候選SQL語句,使用機器學習方法計算SQL與句子短語結(jié)構(gòu)樹之間的相似程度,該方法不足之處在于SQL語句與自然語言從結(jié)構(gòu)以及語法上都有很大差異,雖然可以將兩者以樹結(jié)構(gòu)表示,但是其所表達的語義無法證明具有相似性。

        本文中,該模塊使用預建立的詞表匹配出用戶輸入語句中的數(shù)據(jù)庫實體詞,以此生成包含正確語義結(jié)構(gòu)的候選樹集。對每一個候選樹,根據(jù)其匹配屬性的句法類別結(jié)合規(guī)則模板構(gòu)造出若干形式化自然語言表達,使得語義相似度計算發(fā)生在同類型語言中,計算結(jié)果更加合理。

        1.3 復述分類器

        該模塊利用網(wǎng)絡問答平臺提供的主題類似問題作為原始語料,首先使用分類方法過濾掉部分雜質(zhì)語句,在篩選出的語料中人工標注少量復述問句對;然后應用半監(jiān)督學習方法擴充復述語料;最后訓練得到一個基于支持向量機的排序復述分類器。本文使用該分類器對生成的自然語言表達按照語義相近程度排序,該方法提供了兩方面的優(yōu)勢:1)復述方法避免了對用戶的原語句直接語義分析,使得轉(zhuǎn)換的正確率不會過于依賴預定義規(guī)則以及句法分析的正確率;2)用戶時常隱晦地表達查詢謂詞,例如,問句“有多少人居住在亞拉巴馬州?”其中“居住”與屬性“人口”有語義關(guān)聯(lián)關(guān)系,復述方法尤為適合解決這種語義鴻溝問題。

        1.4 結(jié)構(gòu)化查詢語句生成

        SQL生成是將經(jīng)過篩選的符合預定義的語義規(guī)則(見第2章)的候選結(jié)構(gòu)樹,按照數(shù)據(jù)庫模式圖進行調(diào)整(包括插入路徑缺失節(jié)點、屬性關(guān)系名替換等)轉(zhuǎn)換為數(shù)據(jù)庫能直接執(zhí)行的結(jié)構(gòu)化查詢語句的過程。將候選結(jié)構(gòu)樹轉(zhuǎn)換為SQL的方法與生成自然語言表達的方法類似,故本文不再單獨描述。

        2 候選樹集生成

        給定一個輸入查詢語句q及數(shù)據(jù)庫DB,首先抽取出若干可映射到數(shù)據(jù)庫元素的實體詞WD以及對應的數(shù)據(jù)庫元素S,其次由WD生成符合語義規(guī)則的候選樹集Tq。在關(guān)系數(shù)據(jù)庫中,定義數(shù)據(jù)庫元素S包括關(guān)系名R、屬性名A以及屬性值V。為簡化生成過程,預先將具有固定表達的聚類函數(shù)詞(如,最多、總和、平均值等)以及邏輯操作詞(如,大于、等于、并且等)分離出來。

        生成算法的基本思想是通過子樹移動操作來遍歷(WD,S)可能的樹結(jié)構(gòu),考慮到候選樹集隨著WD增加呈指數(shù)級增長,在子樹移動的過程中根據(jù)模式圖以及語義規(guī)則裁剪掉不可能生成正確結(jié)構(gòu)的子樹。候選樹生成算法表述如下:

        3 形式化自然語言表達構(gòu)造

        以往的NLIDB系統(tǒng)側(cè)重于自然語言到結(jié)構(gòu)化語句的單方向研究,而一個用戶友好的系統(tǒng)應同時具備逆向翻譯功能[19],即把執(zhí)行語句以用戶熟悉的語言呈現(xiàn)。本文中,該逆向過程除了用于結(jié)果呈現(xiàn),更重要的作用是作為候選樹篩選的“中間自然語言”,使用復述方法計算語義相似度。

        文獻[20]使用基于圖的多種合并方法將SQL轉(zhuǎn)換為自然語言表達。這里,候選樹是由模式圖路徑生成得到的直觀結(jié)構(gòu),僅需使用若干固定模板即可完成轉(zhuǎn)換。表1中歸納了形式化自然語言表達構(gòu)造模板(加粗的詞為表格中S(a)類別),其中關(guān)系名、屬性值、聚類函數(shù)、操作符由S(r)、S(v)、AGGR、OPR表示,S(a)為屬性名的句法類別。生成的問句分為兩類,分別以“……是多少”、“……是什么”結(jié)尾或以疑問詞“哪些……”開頭,然后關(guān)系名S(r)作為句子描述部分的起始詞,其后包含屬性值S(v)、聚類函數(shù)AGGR、操作符OPR,本文根據(jù)模式中屬性名S(a)所屬的句法類別(NP、VP等)構(gòu)造句子順序并添加必要的結(jié)構(gòu)助詞。

        在生成的候選樹結(jié)構(gòu)中,根節(jié)點關(guān)系名作為句子描述部分的起始詞,若其直接子節(jié)點包含屬性值則使用第一種類型的問句模板,否則使用以“哪些”開頭的第二種模板。屬性值S(v)通常作為條件限定where的組成部分,從而不包含S(v)子節(jié)點的關(guān)系名或?qū)傩悦鳛榫渲械牟樵兡康?,其在模板中緊靠疑問代詞。當候選樹的結(jié)構(gòu)較復雜時,本文使用模板合并的方法構(gòu)造長問句,例如圖2中的候選樹(c),結(jié)合表1的模板規(guī)則1、4生成問句“哪些州的面積大于猶他州的面積,其人口是多少?”,合并過程中使用代詞“其”連接多條規(guī)則,避免生成冗余的自然語言表達。

        數(shù)據(jù)庫模式中每個主外鍵關(guān)系R都有一個R′與其互為逆關(guān)系(例如,“首都”和“所屬國家”)。對每一個候選結(jié)構(gòu)樹t,本文生成具有相同語義的結(jié)構(gòu)樹t′,其中關(guān)系R由R′替代。由逆關(guān)系建立的候選結(jié)構(gòu)使用不同的規(guī)則模板生成自然語句,實體在規(guī)則中交換主語和賓語位置。最后將t′生成的自然語句添加到結(jié)構(gòu)樹t的對應形式化自然語言表達集中。對美國地理問答數(shù)據(jù)集(GeoQueries880),每條用戶查詢,平均對應生成132條形式化自然語句。

        4 復述方法

        復述,通俗來講,就是對相同語義的不同表達[21],在機器翻譯、自動問答、信息抽取以及自然語言生成等領(lǐng)域有著諸多應用[22],但目前復述語料抽取方法不夠完善,構(gòu)建一個含有大量復述句對的語料庫周期長且資源獲取困難。

        在NLIDB系統(tǒng)研究中,本文主要關(guān)注問句形式的復述語料,通過對百度知道、搜狗問問等平臺的觀察發(fā)現(xiàn),大量具有相同含義的提問以“類似問題”“相關(guān)知識”等形式在主題頁面中展現(xiàn),

        例如,百度知道用戶的提問“有多少人居住在上海?”,該頁面的其他類似問題包括“上海現(xiàn)在住的人口有多少?”“居住于上海的,目前大概有多少人口?”等。對于搜索引擎本身,其后臺積累了大量用戶搜索、提問日志,通過聚類、挖掘等操作可以將具有類似語義的提問歸結(jié)起來,本文以頁面中的提問以及類似問題作為一個基本塊(平均包含1條主題問句以及5條類似問題),大量抽取以塊為單位的復述訓練語料。

        4.1 語料處理

        從網(wǎng)絡上抽取得到的原始語料中包含枚舉、事實、概念等多種問題類型,NLIDB系統(tǒng)不同于自動問答系統(tǒng),不能處理例如“中國為什么要進行改革開放?”這種概念性問題。本文將問題類型分為可處理(枚舉、需求、事實、是非)與不可處理(概念、推薦、評價)兩類,使用復旦中文問答系統(tǒng)問題標注集作為語料,按照文獻[23]中的方法訓練得到一個二值分類器,過濾掉不可處理問題及其類似問題,由于該分類目的是篩選出不可處理的雜質(zhì)語料,減少人工篩選工作量,其分類準確度不會影響最后結(jié)果。篩選出的可處理數(shù)據(jù)中以塊為基礎使用少量人工標注出語義相同(復述語料標記為1)以及語義不同(非復述語料標記問0)的問句對,最后得到4800條人工標注訓練集。網(wǎng)絡問答平臺中用戶提問覆蓋多個領(lǐng)域,對于自然語言接口系統(tǒng),通過觀察發(fā)現(xiàn)領(lǐng)域相關(guān)聯(lián)的問答語料更能提升系統(tǒng)轉(zhuǎn)換效果,從而對訓練復述集,本文根據(jù)其在網(wǎng)絡平臺中的所屬類別將問句分類。實際應用時,針對不同的查詢領(lǐng)域本文選擇不同的分類復述語料。

        4.2 訓練數(shù)據(jù)擴充

        在人工標注的少量復述語料基礎上,本文使用基于協(xié)同訓練的半監(jiān)督學習方法擴充訓練語料,其核心思想是:對于一個未標注樣本,如果SVM、隨機森林以及最大熵中兩個分類器的判別一致,則將該樣本進行標記,并將其納入另一個分類器的訓練樣本;如此重復迭代,直至所有訓練樣本都被標記或者三個分類器不再有變化。

        4.3 向量空間模型

        在模型訓練之前需使用合適的方法表示句子,傳統(tǒng)的文本處理方法詞袋模型(BagOfWords, BOW),將文本拆解為單詞,以單詞作為矢量空間的維度,以每個單詞在文本中出現(xiàn)的頻率作為文本矢量對應維度的值。BOW的缺點是忽略了詞語在文本中出現(xiàn)的先后次序,并且沒有考慮詞語的語義信息(實驗5.2節(jié))。

        詞向量模型最早由Hinton提出,它將所有詞映射到一個低維實數(shù)向量空間,語義相近的詞在向量空間中的距離也更近。本文使用文獻[16]所提出的Word2Vec工具設置窗口大小為5的CBOW模型以及hierarchical softmax方法,在中文維基百科上訓練得到詞語語義的Word Embedding模型。Word2Vec是一個無隱含層的神經(jīng)網(wǎng)絡,直接訓練詞的N維(本文中設置N為50)實數(shù)向量與內(nèi)部節(jié)點向量的條件概率。訓練結(jié)果中,任意兩個詞的語義相關(guān)程度可以通過計算兩個詞對應向量的余弦相似度得到。

        除了詞向量,本文同時還考慮依存句法關(guān)系的低維向量特征表示。本文使用斯坦福依存句法分析器[24],依存弧標記δ={amod,tmod,nsubj,csubj,dobj,…}是相對離散的標簽集合,也有類似詞語的語義相關(guān)性。例如amod(形容詞修飾)與num(數(shù)詞修飾)更相近而不是nsubj(名詞性主語)。本文使用與詞語相似的方法,將訓練語料中的依存關(guān)系標記映射到向量空間模型,窗口大小設為3。

        4.4 句子特征提取

        特征提取是采用統(tǒng)計機器學習方法解決分類問題中至關(guān)重要的一個部分。本文所面向的處理對象是相對簡短的問句,問句中通常包含較少的詞,因此所含特征信息也相對較少。實際訓練中本文考慮問句3方面的特征:詞、詞性以及依存句法關(guān)系。由于問句長度為變量,而訓練特征維度固定,本文提出一種句子特征提取算法,結(jié)合Transitionbased句法分析[25]思想提取特征詞,添加對應的詞性以及依存關(guān)系特征,算法具體表述如下:

        算法2 Feature_Selection。

        輸入 經(jīng)過分詞的復述問句對,詞性標注,依存句法關(guān)系,Word Embedding模型,特征詞數(shù)N。

        輸出 K維特征。

        第一步 候選詞添加。跟隨文獻[25],對arcstandard句法分析系統(tǒng)本文選擇棧緩沖區(qū)(stack and buffer)中前3個詞加入候選詞集,并將依存關(guān)系中的SUBJ、OBJ以及MOD類型所包含的詞加入隊列Queue1及Queue2。

        第二步 特征詞添加。循環(huán)地從Queue1及Queue2中分別取出第一個詞性為核心詞性(名詞、動詞、形容詞或疑問代詞)的詞語w1和w2,計算其在詞向量空間上的余弦相似度θ,若θ大于閾值參數(shù)τ(0<τ<1),則將w1,w2分別添加到詞語列表wordList1與wordList2中,當詞語長度大于N時結(jié)束循環(huán)。如果計算得到θ小于參數(shù)τ,則加入備選列表backList1與backList2。

        第三步 補足特征詞。若某個結(jié)果列表中的詞語數(shù)量小于3則分別計算其備選列表中的詞與另條問句中的核心詞性的詞向量距離,并取相似度最高的詞補足結(jié)果列表。若此時仍結(jié)果列表仍不足N個詞,則將句中剩余詞按上述方法添加。

        第四步 特征生成。對每條問句,取結(jié)果列表中的N個詞的實數(shù)向量總和的平均值、對應的詞性標注以及依存關(guān)系類型以連接方式添加到特征向量中。

        實驗中發(fā)現(xiàn),特征詞數(shù)為3時,在系統(tǒng)運行效率以及準確度上的平衡最好。

        4.5 最優(yōu)結(jié)構(gòu)樹篩選

        根據(jù)第4.4節(jié)提取的特征,本文使用基于徑向基核函數(shù)(Radial Basis Function,RBF)的SVM模型訓練得到復述分類器。由于支持向量機為判別式模型,不能直接計算特征與類別的聯(lián)合概率,本文使用基于投票的SVM方法[26]得到語義相似度值P(Nt),從而候選樹的總得分由如下公式得到:

        5 實驗結(jié)果與分析

        5.1 實驗數(shù)據(jù)與設置

        實驗包括2部分:首先是基于SVM的復述問句分類精度測試,主要觀察不同大小數(shù)據(jù)集以及不同特征組合對復述分類效果的影響,測試數(shù)據(jù)為從百度知道、搜狗問問等平臺抽取的“類似問題”“相關(guān)知識”經(jīng)過問題處理、擴充最后得到57000條問句對,其中正例38150條(問句對為復述),反例18850條(問句對不為復述)。

        其次,自然語言到SQL轉(zhuǎn)換的系統(tǒng)測試。由于目前中文方面缺少統(tǒng)一的NLIDB系統(tǒng)測試平臺,本文將英文中常用的問答測試集,美國地理問答語料(GeoQueries880)以及餐飲問答語料(RestQueries250)經(jīng)過多人翻譯、校對得到漢語問答測試集,簡稱Geo880CN、Rest250CN。為對比本文PaNLI系統(tǒng)的效果,本文使用當時在英文GeoQueries880上取得最好成績的Precise [27]及基于句法分析的樹核函數(shù)系統(tǒng)[10]作為基準,測試在不同大小、不同領(lǐng)域數(shù)據(jù)集的轉(zhuǎn)換效果。

        PaNLI以及對比系統(tǒng)實現(xiàn)使用Java語言編寫,JDK版本為1.8。實驗代碼運行于Linux系統(tǒng)FedoraLiveDesktopx86,CPU 2.6GHz雙核Inter Corei5,8GB 1600MHz DDR3L內(nèi)存。

        5.2 復述分類測試

        特征詞數(shù)N是實現(xiàn)復述問句準確分類的重要因素,同時為保證系統(tǒng)實際運行有效性,實驗將測試上述因素對分類準確度及一條查詢語句轉(zhuǎn)換時間的影響。實驗使用數(shù)據(jù)集的80%作為訓練集,剩余20%作為測試集,使用LIBSVM作為訓練及測試工具,RBF核函數(shù)懲罰因子參數(shù)C設為1。

        由表2知,隨著特征詞數(shù)增加,系統(tǒng)耗時等幅增加,意味著對用戶較長的等待時間,當詞數(shù)達到5個時分類準確率開始下降,此時過多詞數(shù)使得特征維數(shù)增加,并且引入數(shù)據(jù)雜質(zhì)(如,句中“的”“是”等停用詞)。實際應用中本文選擇特征詞數(shù)為3,在系統(tǒng)運行效率以及準確度上的平衡較好。

        表3給出了多種特征組合下,SVM采用不同核函數(shù)的分類精度,選取的特征包括問句詞袋模型表示(BOW)、詞向量模型(Word Embedding)、詞性標注(PartOfSpeech,POS)、依存句法關(guān)系枚舉表示(Dependency Relation)及實數(shù)向量表示(Dependency Embedding)。

        由表3可以看出,使用詞向量模型、詞性及依存關(guān)系組合作為特征,在不同大小數(shù)據(jù)集上的分類精度都好于其他特征組合,相對于傳統(tǒng)的詞袋模型,詞向量特征對分類效果有顯著提升。依存關(guān)系枚舉表示與向量空間表示也對結(jié)果準確度影響,一種直觀理解是,具有相似的上下文句法關(guān)系的標記在語義上更相近,在分類時這種相似性如同詞語,能更好地捕捉句子特征。在4種核函數(shù)中,RBF核函數(shù)在數(shù)據(jù)量增大的情況分類效果更好,因而在系統(tǒng)測試中,使用基于RBF核函數(shù)的SVM作為復述分類器。

        5.3 系統(tǒng)測試

        該部分測試系統(tǒng)將自然語言轉(zhuǎn)換為SQL語句的效果,實驗中本文將數(shù)據(jù)Geo880CN按照句子長度以及句子數(shù)量切分為Geo100CN、Geo250CN、Geo500CN、Geo660CN、Geo880CN五種數(shù)據(jù)集,句子數(shù)量以及句子長度依次遞增,其中Geo880CN包含所有的880條問句,餐飲數(shù)據(jù)Rest250CN直接使用全部250條查詢作測試。評價指標選擇數(shù)據(jù)挖掘中常用的F1值:

        F1=2*P*RP+R(3)

        其中:P為準確度,即測試語句中正確轉(zhuǎn)換為SQL語句的數(shù)量占所有測試語句數(shù)量的比例;R為召回率,指正確轉(zhuǎn)換為SQL語句的數(shù)量與能夠正確識別并轉(zhuǎn)換的查詢語句數(shù)量比值。

        由圖3可以看出本文提出的復述方法PaNLI與樹核函數(shù)法,Precise在Geo880CN五種切分數(shù)據(jù)集上F1值的變化。實驗結(jié)果表明在美國地里問答數(shù)據(jù)集上復述方法PaNLI在不同大小的數(shù)據(jù)集上優(yōu)于樹核函數(shù)方法與圖匹配方法,當問句數(shù)量增加到880時,復述方法F1值為83.4%,與其他系統(tǒng)相比下降更平穩(wěn)。樹核函數(shù)由于人工編寫語料有限,某些語義差異無法涵蓋?;谧畲罅髌ヅ涞腜recise系統(tǒng)主要依賴圖結(jié)構(gòu)的搜索及字符串表層對應,而使用漢語數(shù)據(jù)集測試時同一個問題有多種表達方式,難以直接匹配,從而表現(xiàn)較差。PaNLI訓練語料來源于網(wǎng)絡平臺上用戶的真實提問,對復述問句捕捉更好,即使用戶表達方法不同,很多情況下本文也能篩選出正確的候選結(jié)構(gòu)。

        表4為本文所建系統(tǒng)在餐飲問答語料(Rest250CN)上的查詢轉(zhuǎn)換結(jié)果。相較樹核函數(shù),PaNLI在準確度上略低1.7%,原因是Rest250CN包含更多復雜長問句,例如“在柏林市的弗雷德里希大街有哪些餐館的面條做的比較好吃?”,這些句子在短語結(jié)構(gòu)樹上與文獻[10]提出的SQLTree相似度較高,更易篩選出正確SQL,但缺點是訓練階段需提供正確、完整的SQLTree。召回率方面復述方法比樹核函數(shù)高5%,PaNLI更易識別出具有相同含義的形容詞、動詞,比如復述語料“……好吃嗎?”與“……哪個更美味”其中“好吃”與“美味”有較隱晦的相似性,從而幫助系統(tǒng)更多識別出能夠轉(zhuǎn)換的查詢。綜上所述,相比其他NLIDB系統(tǒng),本文提出的基于復述方法的PaNLI有如下幾點優(yōu)勢:1)訓練語料來源于網(wǎng)絡,語義覆蓋面更廣,具有領(lǐng)域適應性;2)人工干預部分只需少量篩選復述語料,較編寫大量邏輯表達式以及語法規(guī)則成本更低;3)本文復述方法更適用于漢語多樣化的口語表達,能有效避免語言本身歧義性以及詞法分析、句法分析錯誤導致最后生成SQL錯誤,語義鴻溝問題更少。

        6 結(jié)語

        本文提出的基于復述NLIDB系統(tǒng)實現(xiàn)方法,避免了對用戶語句的直接分析,利用網(wǎng)絡問答語料訓練得到的復述分類器篩選出語義最相近的自然語言表達。網(wǎng)絡問答語料覆蓋面廣且易于獲取,避免費時的人工標注操作。在訓練過程中,提出一種結(jié)合依存句法分析器的句子級別特征提取方法。實驗表明該句子特征表示能有效提高分類準確度,在測試集上均超過現(xiàn)有取得較好效果的系統(tǒng)。在今后的研究中進一步引入機器學習中深度學習方法,提取句子深層次特征,提高分類準確度。

        參考文獻:

        [1]RODOLFO A, JUAN J, MARCO A, et al. Natural language interfaces to databases: an analysis of the state of the art[C]// Recent Advances on Hybrid Intelligent Systems. Berlin: Springer, 2013, 451:463-480.

        [2]AHMAD R, KHAN M, ALI R. Efficient transformation of natural language query to SQL for Urdu[C]// Proceedings of the 2nd Conference on Language and Technology. [S.l.]: Society for Natural Language Processing, 2009:53-60.

        [3]POPESCU A, ARMANASU A, ETZIONI O, et al. Modern natural language interfaces to databases: composing statistical parsing with semantic tractability[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2004:141-147.

        [4]孟小峰, 王珊. 中文數(shù)據(jù)庫自然語言查詢系統(tǒng)NCHIQL設計與實現(xiàn)[J]. 計算機研究與發(fā)展, 2001, 38(9):1080-1086. (MENG X F, WANG S. Design and implementation of a Chinese natural language interface to database (NCHIQL) [J]. Computer Research and Development,2001, 38(9): 1080-1086.)

        [5]RODOLFO A, JUAN J, MARCO A. Semantic model for improving the performance of natural language interfaces to databases[C]// Proceedings of the 10th Mexican International Conference on Advances in Artificial Intelligence, LNCS 7094. Berlin: SpringerVerlag, 2011: 277-290.

        [6]許龍飛, 楊曉昀, 唐世渭. 基于受限漢語的數(shù)據(jù)庫自然語言接口技術(shù)研究[J]. 軟件學報, 2002, 13(4):537-544.(XU L F, YANG X Y, TANG S W. Study on a database natural language interface technique based on restrictive Chinese[J]. Journal of Software, 2002, 13(4): 537-544.)

        [7]MINOCK M, OLOFSSON P, NSLUND A. Towards building robust natural language interfaces to databases[C]// Proceedings of the 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems. Berlin: SpringerVerlag, 2008, 5039:187-198.

        [8]WARREN D, PEREIRA F. An efficient easily adaptable system for interpreting natural language queries[J]. Computational Linguistics, 1982,8(3/4):110-122.

        [9]WEISCHEDEL R. A hybrid approach to representation in the Janus natural language processor[C]// Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1989:193-202.

        [10]GIORDANI A, MOSCHITTI A. Automatic generation and reranking of SQLderived answers to NL questions[C]// Proceedings of the 2nd International Workshop on Trustworthy Eternal Systems via Evolving Software, Data and Knowledge, Volume 379 of the series Communications in Computer and Information Science. Berlin: SpringerVerlag, 2013: 59-76.

        [11]LI F, JAGADISH H. Constructing an interactive natural language interface for relational databases[J]. Proceedings of the VLDB Endowment,2014,8(1):73-84

        [12]POON H. Grounded unsupervised semantic parsing[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:1-10.

        [13]GIORDANI A, MOSCHITTI A. Generating SQL queries using natural language syntactic dependencies and metadata[C]// Proceedings of the 17th International Conference on Applications of Natural Language to Information Systems, LNCS 7337. Berlin: Springer, 2012:164-170.

        [14]BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from questionanswer pairs[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013:1533-1544.

        [15]CAI Q, YATES A. Largescale semantic parsing via schema matching and lexicon extension[C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:423-433.

        [16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the Advances in Neural Information Processing Systems. Nevada: NIPS, 2013: 3111-3119.

        [17]曹勇剛, 曹羽中, 金茂忠,等. 面向信息檢索的自適應中文分詞系統(tǒng)[J]. 軟件學報, 2006, 17(3):356-363. (CAO Y G, CAO Y Z, JIN M Z, et al. Information retrieval oriented adaptive Chinese word segmentation system[J]. Journal of Software,2006, 17(3):356-363.)

        [18]ESPAABOQUERA S, CASTROBLEDA M, ZAMORAMARTNEZ F, et al. Efficient viterbi algorithms for lexical tree based models[C]// Proceedings of the 2007 International Conference on Advances in Nonlinear Speech Processing. Berlin: SpringerVerlag, 2007, 4885:179-187.

        [19]SIMITSIS A, IOANNIDIS Y. DBMSs should talk back too[C]// Proceedings of the 4th Biennal Conference on Innovative Data Systems Research. [S.l.]: arXiv, 2009:62-70.

        [20]KOUTRIKA G, SIMITSIS A, IOANNIDIS Y E. Explaining structured queries in natural language[C]// Proceedings of the 2010 IEEE 26th International Conference on Data Engineering. Piscataway, NJ: IEEE, 2010:333-344.

        [21]BARZILAY R, MCKEOWN K. Extracting paraphrases from a parallel corpus[C]// Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002:50-57.

        [22]趙世奇, 劉挺, 李生. 復述技術(shù)研究[J]. 軟件學報, 2009, 20(8):2124-2137.(ZHAO S Q, LIU T, LI S. Research on paraphrasing technology[J]. Journal of Software, 2009, 20(8):2124-2137.)

        [23]ZHANG D. Question classification using support vector machines[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2003:26-32.

        [24]CHANG P, TSENG H, JURAFSKY D, et al. Discriminative reordering with Chinese grammatical relations features[C]// Proceedings of the 3rd Workshop on Syntax and Structure in Statistical Translation. Stroudsburg, PA: Association for Computational Linguistics, 2009: 51-59.

        [25]ZHANG Y, NIVRE J. Transitionbased dependency parsing with rich nonlocal features[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:188-193.

        [26]SHEN L, JOSHI A K. An SVM based voting algorithm with application to parse reranking[C]// Proceedings of the 7th Conference on Natural Language Learning at HLTNAACL. Stroudsburg, PA: Association for Computational Linguistics, 2003:9-16.

        [27]POPESCU A M, ETZIONI O, KAUTZ H. Towards a theory of natural language interfaces to databases[C]// Proceedings of the 8th International Conference on Intelligent User Interfaces. New York: ACM, 2003: 149-157.

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應用
        極限學習機在圖像分割中的應用
        饥渴少妇一区二区三区| 天天燥日日燥| 久久夜色撩人精品国产小说| 欧美在线观看一区二区| 97久久久久国产精品嫩草影院| 蜜臀av中文人妻系列| 亚洲av国产精品色a变脸| 国产精品熟女视频一区二区三区| 我和丰满妇女激情视频| 精品久久人妻av中文字幕| 中文字幕免费不卡二区| 妇女性内射冈站hdwwwooo| av少妇偷窃癖在线观看| 蜜桃av一区在线观看| 中国亚洲av第一精品| 久久亚洲av成人无码电影 | 人妻露脸国语对白字幕| 国产精品精品国产色婷婷| 欧洲熟妇色xxxx欧美老妇软件| 午夜色大片在线观看| 久久精品人妻一区二区三区| 91亚洲国产三上悠亚在线播放| 日本一极品久久99精品| 91色综合久久熟女系列| 久久天天躁狠狠躁夜夜av浪潮 | 黑人巨大白妞出浆| 亚洲精品成人网线在线播放va| 激情乱码一区二区三区| 亚洲国产系列一区二区| 国产激情无码视频在线播放性色| 男人靠女人免费视频网站| 国产精品第一二三区久久蜜芽| 九九在线精品视频xxx| 一区二区三区观看在线视频| 国产三级黄色免费网站| 久久精品中文闷骚内射| 亚洲色欲色欲www在线播放| 亚洲亚洲网站三级片在线| 国产av普通话对白国语| 日本一区二区三区经典视频| 国产裸体美女永久免费无遮挡|