亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大語言模型時代Text-to-SQL 更準確的評估指標

        2025-03-02 00:00:00蔣鵬
        電腦知識與技術 2025年1期

        摘要:大型語言模型(LLM) 已成為推進 Text-to-SQL 任務的強大工具。研究發(fā)現,基于 LLM 的模型在不同評估指標下,其性能表現與經過微調的模型存在顯著差異。因此,文章分析了測試套件執(zhí)行準確度(EXE) 和精確集匹配準確度(ESM) 在評估基于 LLM 的 Text-to-SQL 模型時的不足,并提出了改進指標 EESM(Enhanced Exact Set Matching) 。實驗結果表明,EXE 和 ESM 分別存在高達 13.2% 和 10.8% 的假陽性和假陰性率,而 EESM 的假陽性率和假陰性率分別僅為0.2% 和 1.8%,表明 EESM 能夠提供更準確的評估。

        關鍵詞:EESM;增強的精確集匹配準確度;測試套件執(zhí)行準確度;精確集匹配準確度;Text-to-SQL

        中圖分類號:TP311 文獻標識碼:A

        文章編號:1009-3044(2025)01-0076-03 開放科學(資源服務) 標識碼(OSID) :

        0 引言

        Text-to-SQL 旨在將自然語言(NL) 問題自動轉換為結構化 SQL 語句,從而促進用戶與數據庫之間的無縫交互[1]。近年來,大型語言模型(LLMs) 的快速發(fā)展為 Text-to-SQL 領域帶來了重大變革[2-7]?;?LLM 的 Text-to-SQL 模型在最流行的基準數據集 Spider [8]上表現出色,展現了其處理復雜查詢的強大能力。

        然而,在評估 Text-to-SQL 模型的性能方面仍面臨一些挑戰(zhàn)。在 Spider 榜單上,使用預訓練的 LLM 而無須微調的模型(以下簡稱PLM) ,如 GPT,在測試套件執(zhí)行準確度(EXE) [9] 指標上表現出色,但在精確集匹配準確度(ESM) [8] 指標上表現不佳。相反,經過微調的 LLM 模型(以下簡稱為 FLM) 在 ESM 指標上表現出色,但在 EXE 指標上表現不佳。此外,在同一個數據集上,同一個模型使用 EXE 和 ESM 評估出的性能排名差異巨大,這表明現有的評估指標存在局限性,需要更穩(wěn)健的評估指標。因此,本文旨在改進現有的評估指標,以更準確地評估 Text-to-SQL 模型的性能。

        為解決上述挑戰(zhàn),本文首先研究了 ESM 中的潛在問題,并提出了一個名為 EESM 的新增強指標,它解決了原始指標中存在的許多缺點(第 2 節(jié)) 。然后,在 Spider 數據集上評估了四個最先進的模型,比較了它們在 EXE、ESM 和 EESM 上的性能(第 3 節(jié)) 。最后,使用這三個指標對評估結果進行了全面的錯誤分析,展示了 EESM 的卓越穩(wěn)定性(第 4 節(jié)) ,更能真實地反映基于 LLM 的 Text-to-SQL 模型性能,從而使這些模型能夠達到新的性能高度。

        1 相關工作

        1.1 Text-to-SQL 模型

        隨著 LLM 的進步,基于 LLM 的 Text-to-SQL 方法在 Spider 排行榜上取得了顯著進展。DIN-SQL [10] 通過預測模式鏈接來確定哪些數據庫模式將包含在最終的查詢中,并根據查詢的難度選擇合適的模板,最終在Spider 上達到了 85.3% 的準確率。DAIL-SQL [11] 通過在訓練集中搜索相似的問題,并利用它們與 GPT 共同創(chuàng)建少樣本提示,生成初始查詢,然后進一步利用初始查詢在訓練集中查找更多相似查詢,最終在 Spider 上以 86.6% 的準確率刷新了紀錄。RASAT [12] 通過融入關系感知自注意力機制,能夠更好地理解數據庫模式之間的關系,并繼承了T5的預訓練權重。Graphix-T5 [13-14] 通過圖感知層將 Transformer 塊的語義信息與圖神經網絡的結構信息相結合。

        1.2 Text-to-SQL 評估

        目前,Text-to-SQL 領域最廣泛使用的自動評估方法為執(zhí)行準確度(EXE) [9] 和精確集匹配準確度(ESM) [8]。

        EXE 檢查預測查詢的執(zhí)行結果是否與參考查詢的執(zhí)行結果匹配,但由于語義上不同的查詢可能產生相同的執(zhí)行結果,EXE 可能會產生假陽性,如 SELECTname FROM dogs; 和 SELECT name FROM dogsWHERE age lt; 100;具有不同語義的查詢產生相同的執(zhí)行結果,因為數據庫中不存在年齡≥100的狗。ESM 通過獨立匹配查詢子句和組件(如 select、where、hav?ing、group by 和 order by 子句) 來評估,匹配基于比較列和謂詞進行,不考慮列和謂詞的順序。雖然 ESM 比EXE 更嚴格,但由于 SQL 查詢可能在語義上等價,但在語法上有所不同,ESM 仍然容易出現錯誤。

        最近,大部分 Text-to-SQL 模型的工作都是在Spider 數據集上進行評估的。Spider 是一個嚴格的跨領域基準測試,用于測試模型在多種數據庫模式中生成復雜 SQL 查詢的能力。它包含 10 181 個查詢,涵蓋了 138 個不同領域,涉及多表查詢(使用 JOIN) 、復雜的 SQL 子句( 如 ORDER BY、GROUP BY 和HAVING 等) 以及嵌套的 SQL。

        在 Spider 數據集上評估 SQL 準確度時,使用EXE 和 ESM 指標,但它們的組合評估腳本禁用了條件中的值和 DISTINCT 關鍵字檢查。盡管目前基于LLM 的模型在處理這些方面表現出色,但 Spider 排行榜評估指標所使用的評估腳本中仍禁用了對值檢查和 DISTINCT 關鍵字檢查,限制了對 LLMs模型性能的準確評估。

        2 EESM: 增強的精確集匹配

        本文通過深入分析 ESM 中假陽性(2.1 節(jié)) 和假陰性(2.2 節(jié)) 出現的原因,并提出了新的評估指標 EESM(En?hanced Exact Set Matching) 來解決這些問題(2.3 節(jié)) 。

        2.1 ESM 中的假陽性問題

        情況1:由于ESM 忽略了對 JOIN 條件(t2.breed_code = t2.breed_name) 的檢查,導致查詢1和查詢2產生了不同的輸出,EXE 正確地將它們視為不匹配,而 ESM 錯誤地認為它們是匹配的,其中查詢1:SELECT t1. dog_id, t2. breed_name FROM dogs ASt1 JOIN breeds AS t2 ON t1. breed_code = t2.breed_code;查詢2:SELECT t1.dog_id, t2.breed_nameFROM dogs AS t1 JOIN breeds AS t2 ON t1.breed_code = t2.breed_name;

        情況2:由于 ESM 在簡單查詢中忽略了對DISTINCT 的檢查,導致ESM 錯誤地認為導致查詢3 和查詢4 是匹配的,其中查詢3:SELECT DISTINCTname FROM dogs;查詢4:SELECT name FROM dogs;

        情況3:由于ESM忽略了LIMIT值的檢查,錯誤地認為查詢5和查詢6是匹配的,其中查詢5:SELECTtranscript_date FROM Transcripts ORDER BY tran?script_date DESC LIMIT 2; 查詢6:SELECT tran?script_date FROM Transcripts ORDER BY tran?script_date DESC LIMIT 1;

        2.2 ESM 中的假陰性問題

        如查詢SELECT MAX(weight) FROM dogs; 和SELECT weight FROM dogs ORDER BY weightDESC LIMIT 1;他們在查詢語義上等價,但在句法上不等價。由于 ESM 依賴句法結構檢查,導致錯誤地認為它們不匹配。ESM 對句法結構的依賴會導致許多錯誤,因為在某些假設條件成立時,句法不同的查詢在語義上是等價的。如查詢SELECT count(dog_id)FROM dogs;和 SELECT count(*) FROM dogs;在當dog_id列為NON_NULL的假設條件成立時,這兩個查詢在語義上是等價的。這些假設條件可以通過數據庫模式進行驗證,數據庫模式提供了有關表和列、主鍵-外鍵關系以及約束的信息。

        此外,不合適的參考查詢也會導致 ESM 錯誤地認為預測查詢和參考查詢不匹配。POURREZA 等人[15]的研究提取了DIN-SQL[16]和T5-large+PICARD [16]在執(zhí)行準確性方面未能產生正確答案的問題,并對這些問題對應的參考查詢進行了SQL專家評估,結果顯示只有67.3%被認為是正確的。這表明必須對參考查詢進行修正,才能進一步提升評估的準確性。

        如圖1所示,由于自然語言問題沒有明確說明如何處理平局,預測查詢可能返回所有平局,也可能僅返回一個,這兩種情況都應被視為正確。如圖 2所示,當數據庫中有多個列代表相同的語義含義時,使用任何一個列都應被視為正確。如圖3所示,左邊的預測查詢正確, 而右邊的參考查詢GROUP BY子句中沒有出現LANGUAGE 列,參考查詢存在錯誤,在SELECT子句中包含聚合和非聚合列的混合,但非聚合列沒有出現在GROUP BY子句中。

        2.3 新的評估指標EESM

        由于 ESM 并未解決 2.1 節(jié)和 2.2 節(jié)中提到的問題,因此,本文提出了一個新的評估指標 EESM。

        1) EESM 檢查所有 JOIN 的條件,而 ESM 之前僅收集了有關連接條件的信息,但從未比較過兩個查詢的 JOIN 條件。

        2) EESM 在整個查詢中始終將 DISTINCT 視為不同,而 ESM 之前僅在聚合函數內檢查 DISTINCT。

        3) EESM 始終檢查 LIMIT 的值,而 ESM 之前忽略了 LIMIT 的值檢查。

        4) EESM 對查詢SELECT c1 FROM t1 AS tJOIN t2 ON t.c1=t2 .c2 WHERE c1 IN (SELECTc3 FROM t3 AS t);可以正確地將模式和別名檢查限制在它們對應的子查詢范圍內,而 ESM 對此評估不正確, 因為它沒有識別出t不僅是子查詢中t3的別名,同時也是外部查詢中t1的別名,ESM將模式和別名檢查擴展到整個查詢,這會導致在別名是局部子查詢時出現問題。

        5) EESM 對查詢SELECT c1 FROM t1 WHEREc1 IN (1, 2, 3);可以正確評估,因為它在 IN 關鍵詞內部正確解析并評估值列表,而 ESM 之前僅允許關鍵詞 IN 后面跟隨一個子查詢,而不支持值列表。

        6) 本文制定了一組可驗證的等價規(guī)則,以降低ESM 中的假陰性。

        7) 本文對數據集中不合適的參考查詢進行了重寫,以進一步降低 ESM 中的假陰性。

        3 實驗

        3.1 模型選擇

        本文使用四個基于 LLM 的模型進行實驗,包括DAIL(DAIL-SQL+GPT4[11]) 、DIN(DIN-SQL+GPT4[10]) 、G+P(Graphix-3B+PICARD[13])和R+P(RASAT+PICARD[12]) 。其中,DAIL 和 DIN 是預訓練(PLM) 的 LLM 模型,而G+P 和 R+P 是在 Spider 數據集上微調(FLM) 的 LLM 模型。為了公平比較,本文使用相同的預訓練模型和微調方法,并使用相同的超參數進行訓練。

        對于開發(fā)集,本文從它們的代碼庫中獲取了DAIL 和 DIN 的輸出,而使用它們的源代碼重新生成了 R+P 的輸出。從上述模型的代碼庫中獲取結果后,重新運行了本文的評估腳本,得到了 EESM 的結果(見表1) 。此外,為了驗證 EESM 是否能夠給出更準確的評估,本文對 Spider 測試集中每個模型產生的假陽性和假陰性進行了分析,分析結果見表2。

        3.2 結果

        表1展示了各模型在 EXE、ESM 和 EESM 指標上的結果,括號中的數字表示它們在 Spider 排行榜中的排名。

        實驗結果表明,EESM 在評估Text-to-SQL 模型的性能方面比EXE和ESM更準確。EESM 能夠有效地減少假陽性和假陰性,從而更準確地評估模型的語義準確度。此外,EESM 能夠更好地識別模型在處理復雜查詢方面的能力,例如涉及JOIN、DISTINCT 和LIMIT等操作的查詢。

        從表1可以看出,PLM模型在使用 EXE 指標時排名更占優(yōu)勢,而FLM模型在使用 ESM 指標時排名更占優(yōu)勢。很明顯,基于 PLM 的模型在EXE上占據主導地位,最好的PLM模型DAIL比最好的基于 FLM 的模型G+P高出11.08%。在ESM上,這種主導地位被顛倒,G+P 的得分比DAIL 高出11.27%,但在EESM 上,差距減少到了0.84%。

        DAIL在EXE上表現相當不錯,其EXE準確度高達86.2%,在排行榜中排名第 1 位,但在ESM上僅有66.5%的準確度,在排行榜中排名僅為第29位。同一個模型使用不同指標時,準確率差異高達29.62%,而排名差異高達28名。同樣,在 DIN 模型中,EXE和ESM指標的準確率差異高達42.16%,而排名差異高達42 名。這種差異在 EESM 上得到了修復,DAIL 和DIN在EESM上的排名分別上升了11名和7名。

        從表1 可以看出,EXE 得分在所有模型上都較高,但EESM得分在所有模型上都較低,主要原因是EXE 中的假陽性率較高。由于模型生成的預測查詢和參考查詢在特定表下恰好等價,導致 EXE 中的假陽性率較高。在這種情況下,EESM 比 EXE 更具魯棒性,能夠產生較少的假陽性。

        從表2可以看出,基于FLM的模型在所有數據集上的EESM 得分較ESM 略有下降,主要原因是基于FLM的模型在數據集上進行了微調。經過微調的模型生成的預測查詢風格與數據集中的參考查詢風格非常接近(從表2中可以看出,ESM 上的假陰性率已經較低) 。使用ESM對這類模型生成的預測查詢進行評估時,已經可以獲得較為真實的結果。然而,在EESM 中增加了更為嚴格的檢查規(guī)則(如檢查 DISTINCT、JOIN 條件等) ,導致它們的EESM得分較 ESM 得分有所下降。

        對于所有模型,在 EESM 中,假陽性率的減少歸因于 EESM 中正確識別不匹配的新約束條件,而假陰性率的減少則歸因于第2.2節(jié)中所描述的問題修復、等價規(guī)則的制定以及對不合適參考查詢的重寫。

        4 結論

        本文介紹了 EESM,這是一種新的 Text-to-SQL 評估指標,克服了以往評估指標——測試套件執(zhí)行準確度(EXE) 和精確集匹配準確度(ESM) 的局限性。研究結果表明,通過采用更為嚴謹的 ESM 方法,并結合可驗證的等價規(guī)則以及對不合適參考查詢的重寫,EESM 減少了假陽性和假陰性的發(fā)生比例,從而更準確地評估預測查詢的語義準確度,并更好地了解 LLM 在生成 SQL 查詢方面的真實能力。

        在未來,將繼續(xù)擴展可驗證規(guī)則列表,重寫更多不合適的參考查詢,進一步強化 EESM 的穩(wěn)健性,從而提高其在評估查詢語義等價方面的準確度。

        參考文獻:

        [1] 劉喜平,舒晴,何佳壕,等.基于自然語言的數據庫查詢生成研究綜述[J].軟件學報,2022,33(11):4107-4136.

        [2] DONG X, ZHANG C, GE Y, et al. C3: Zero-shot text-to-SQLwith ChatGPT[EB/OL]. (2023-07-14) [2024-06-21]. https://arxiv.org/abs/2307.07306.

        [3] BROWN T B, MANN B, RYDER N, et al. Language models arefew-shot learners[J]. Advances in Neural Information Process?ing Systems,2020(33):1877-1901.

        [4] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring thelimits of transfer learning with a unified text-to-text trans?former[J]. Journal of Machine Learning Research, 2020, 21(140): 1-67.

        [12] QI J, TANG J, HE Z, et al. RASAT: Integrating relationalstructures into pretrained seq2seq model for text-to-SQL[C]//Proceedings of the 2022 Conference on Empirical Methods inNatural Language Processing (EMNLP). 2022: 4570-4581.DOI:10.18653/v1/2022.emnlp-main.299.

        [13] LI J, HUI B, CHENG R, et al. GraphIX-T5: Mixing pretrainedtransformers with graph-aware layers for text-to-SQLparsing[C]//Proceedings of the 37th AAAI Conference on Arti?ficial Intelligence, 2023: 13076-13084.

        [14] 楊智慧.基于關系型T5和重排名解碼的Text-to-SQL方法分析[J].電子技術,2024,53(4):78-80.

        [15] POURREZA M, RAFIEI D. Evaluating cross-domain text-to-SQL models and benchmarks[EB/OL]. (2023-10-28)[2024-09-21]. https://arxiv.org/abs/2310.18538

        [16] SCHOLAK T, SCHUCHER N, BAHDANAU D. PICARD:Parsing incrementally for constrained auto-regressive decod?ing from language models[C]//Proceedings of the 2021 Confer?ence on Empirical Methods in Natural Language Processing(EMNLP), 2021: 9895-9901.

        【通聯(lián)編輯:唐一東】

        日韩一区二区三区无码影院| 俺来也俺去啦久久综合网| 久久精品无码一区二区三区蜜费| 区一区一日本高清视频在线观看| 美女露出奶头扒开内裤的视频 | 天堂av一区二区麻豆| 在线视频自拍视频激情| 国内永久福利在线视频图片| 超薄丝袜足j好爽在线观看| 亚洲欧美在线观看一区二区| 中文字幕一区二区三区在线看一区| 一二三区无线乱码中文在线| 亚洲色爱免费观看视频| 一本大道东京热无码中字| 中文字幕这里都是精品| 中国国产不卡视频在线观看| 久久久久亚洲av片无码v| 亚洲午夜无码AV不卡| 中文亚洲一区二区三区| 特黄 做受又硬又粗又大视频| 老熟女高潮一区二区三区| 亚洲一区二区三区久久蜜桃| 丝袜美腿在线观看视频| 曰韩无码无遮挡a级毛片| 精品久久久久久久中文字幕| av在线免费观看你懂的| 99久久国内精品成人免费| 丰满少妇呻吟高潮经历| 在线成人福利| 亚洲一区二区在线视频,| 国产无套中出学生姝| 欧美aa大片免费观看视频| 亚洲AV小说在线观看| 国模91九色精品二三四| 午夜毛片不卡免费观看视频| 亚洲一级无码片一区二区三区| 日本高清一区在线你懂得| 亚洲av无码一区二区三区鸳鸯影院| 日日碰狠狠躁久久躁96avv | 日韩人妻中文字幕一区二区| 性色视频加勒比在线观看|