文/本刊記者 陳 杰
籌備8個(gè)月,初、復(fù)賽鏖戰(zhàn)3個(gè)月,千支隊(duì)伍角逐,首屆中文NL2SQL挑戰(zhàn)賽結(jié)果揭曉。
10月12日下午,由追一科技主辦、南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室協(xié)辦的“首屆中文NL2SQL挑戰(zhàn)賽”總決賽答辯暨頒獎(jiǎng)典禮在南京大學(xué)舉行。經(jīng)過最終決賽的5強(qiáng)選手隊(duì)伍精彩分享、答辯和現(xiàn)場(chǎng)評(píng)委考評(píng),決出最終名次。來自國(guó)防科技大學(xué)的選手團(tuán)隊(duì)“不上90不改名字”奪得冠軍,國(guó)雙科技選手團(tuán)隊(duì)“BugCreater”獲得亞軍,觀安信息與妙盈科技選手聯(lián)合團(tuán)隊(duì)“Model S”獲得季軍,來自華南理工大學(xué)與佛羅里達(dá)大學(xué)的選手隊(duì)伍“大佬帶我飛”,以及浙江大學(xué)的團(tuán)隊(duì)“老哥們不放假嗎”則獲得優(yōu)勝獎(jiǎng)。
首次舉辦、首次發(fā)布中文數(shù)據(jù)集,短短幾個(gè)月,選手們的成績(jī),已經(jīng)超過了國(guó)外WikiSQL,直奔“九十分”,讓眾多評(píng)委感覺“驚喜”。最終的現(xiàn)場(chǎng)答辯對(duì)決,讓之前的短暫排名,再生懸念。
由眾多人工智能大咖組成的專家評(píng)委團(tuán),包括中國(guó)移動(dòng)研究院首席科學(xué)家馮俊蘭、復(fù)旦大學(xué)教授肖仰華、新加坡南洋理工大學(xué)副教授毛可智、南京大學(xué)教授俞揚(yáng)、追一科技CTO劉云峰等產(chǎn)學(xué)研多方代表,在決賽現(xiàn)場(chǎng)對(duì)選手們的技術(shù)方案,進(jìn)行了專業(yè)精彩的分析點(diǎn)評(píng),從而產(chǎn)生最終結(jié)果。從AI與數(shù)據(jù)庫(kù)交互,到更廣闊的創(chuàng)新空間,自然語言處理的“技術(shù)大年”味道越來越濃。
“此次挑戰(zhàn)賽參與規(guī)模、選手表現(xiàn)遠(yuǎn)超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫(kù)的交互創(chuàng)新,正在受到越來越多關(guān)注?!弊芬豢萍悸?lián)合創(chuàng)始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動(dòng)中文NLP研究與應(yīng)用突破。
NL2SQL(自然語言轉(zhuǎn)結(jié)構(gòu)化查詢語句)作為新興的研究領(lǐng)域,在國(guó)外由SalesForce耶魯大學(xué)等發(fā)布了WikiSQL和Spider數(shù)據(jù)集,但在國(guó)內(nèi)市場(chǎng),目前還處于起步階段。
此次NL2SQL挑戰(zhàn)賽是國(guó)內(nèi)首次舉辦,期間,追一科技發(fā)布了業(yè)內(nèi)首個(gè)大規(guī)模的中文數(shù)據(jù)集,包括4870張表格數(shù)據(jù)、近50000條標(biāo)注數(shù)據(jù)以及相應(yīng)的SQL語句,并獲得很多學(xué)界專家、產(chǎn)業(yè)界伙伴的支持,通過“產(chǎn)學(xué)研”等多方聯(lián)動(dòng),希望提供一個(gè)平臺(tái),來推動(dòng)NL2SQL的研究和應(yīng)用。
“直接用自然語言訪問關(guān)系型數(shù)據(jù)庫(kù)一直是業(yè)界夢(mèng)想”,嘉賓評(píng)委代表肖仰華表示,隨著對(duì)大數(shù)據(jù)價(jià)值的重視,這一愿望更變得日益迫切。此次比賽的發(fā)起和中文數(shù)據(jù)集的公布,在短短的時(shí)間里,加速了NL2SQL研究設(shè)想的實(shí)現(xiàn),“最終選手的成績(jī),完全超出了我們對(duì)于比賽的預(yù)期。”
經(jīng)過選手的不斷努力與探索,比賽任務(wù)短期內(nèi)就達(dá)到與英文數(shù)據(jù)集上相當(dāng)水平的分?jǐn)?shù),并持續(xù)刷新記錄。比賽初期,準(zhǔn)確率尚為60%多,至8月份初賽結(jié)束時(shí),榜上頭部分?jǐn)?shù)已經(jīng)達(dá)到89%,接近WikiSQL成績(jī)。復(fù)賽結(jié)束時(shí),選手最高成績(jī)達(dá)到92%,并且,最終晉級(jí)決賽的5支隊(duì)伍,個(gè)個(gè)都在“90分”以上。
據(jù)了解,本次1457支參賽隊(duì)伍中,院校和企業(yè)參與者各占“半壁江山”。其中,學(xué)生及科研人員占比48%,企業(yè)技術(shù)員工占比52%。學(xué)生參賽隊(duì)伍來自眾多知名院校,如北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。
雖然本次比賽的數(shù)據(jù)內(nèi)容是中文形式,但仍然吸引了美國(guó)、英國(guó)、新加坡、日本、澳大利亞、加拿大等海外頂級(jí)院校參與,包括卡內(nèi)基梅隆、墨爾本大學(xué)、新加坡國(guó)立大學(xué)、南安普頓大學(xué)、新南威爾士大學(xué)、布里斯托大學(xué)、昆士蘭大學(xué)等。
作為新興NLP研究任務(wù),NL2SQL在專業(yè)難度上,也對(duì)選手提出較高要求。據(jù)了解,本次參賽選手中,碩士及以上學(xué)歷占比57%,其中,博士學(xué)歷占比6%;而專業(yè)分布上,計(jì)算機(jī)科學(xué)專業(yè)背景的選手則屬于參賽主力。
在如火如荼的比賽背后,NL2SQL應(yīng)用潛力,也受到了越來越多的矚目。來自中國(guó)移動(dòng)、平安集團(tuán)、搜狗、達(dá)闥科技、中興通訊、網(wǎng)宿科技、國(guó)雙科技、捷通華聲等眾多企業(yè)的技術(shù)人員,也成為參賽隊(duì)伍的重要力量。
“此次挑戰(zhàn)賽參與規(guī)模遠(yuǎn)超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫(kù)的交互創(chuàng)新,正在受到越來越多關(guān)注。”劉云峰博士表示,中文NLP研究與應(yīng)用突破需要產(chǎn)學(xué)研界的同共努力。