吳 甜,田 浩,吳 華,王海峰
(百度公司,北京 100738)
2010年7月11~16日,第48屆ACL年會(The 48th Annual Meeting of the Association for Computational Linguistics)在瑞典第四大城市烏普薩拉(Uppsala)成功召開。除ACL主會議外,還有一個會議(Conference)、13個專題研討會(Workshop)和6個專題講座(Tutorial)同期舉行。雖然世界杯決賽階段比賽在南非激戰(zhàn)正酣,全世界自然語言處理領域的學者們參加ACL的熱情依然不減,來自世界各地的參會學者近千人,接近歷史最高水平。
在這次會議上,中國大陸繼續(xù)保持良好勢頭,錄用長文(Long Paper)數(shù)達14篇,發(fā)表論文的機構數(shù)量也有大幅增加,中科院計算所、中科院自動化所、北京大學、上海交通大學、哈爾濱工業(yè)大學、北京航天航空大學、國防科技大學、東北大學、蘇州大學、西南財經(jīng)大學、微軟亞洲研究院、百度公司等都有論文發(fā)表。除參加會議和發(fā)表論文外,中國大陸學者還對會議有了更為全面的參與。例如:百度王海峰擔任了專題講座主席(Tutorial Chair)、微軟亞洲研究院林欽佑和李航擔任了領域主席(Area Chair)、林欽佑、王海峰和中科院計算所劉群分別擔任了分會場主席(Session Chair)等,來自北京大學、清華大學、復旦大學、哈爾濱工業(yè)大學、中科院計算所、微軟亞洲研究院及百度公司等單位的多位學者擔任了程序委員會成員(PC Member)。
ACL會議收錄的論文,尤其是主會議長文(Long Paper),基本反映了自然語言處理領域最新研究進展、代表了本領域最高研究水平。今年,符合要求的主會議論文投稿數(shù)達到了956篇,再創(chuàng)歷史新高。其中長文646篇、短文310篇,長文錄用率約25%,短文錄用率約22% 。
今年的ACL,從征稿(Call for Paper)時就做出了一些變革,將論文分為四大類,除傳統(tǒng)的研究型論文(Research paper)外,還包括:綜述與計算語言學相關的新興領域的綜述論文(Survey paper)、兩種相反觀點進行辯論的立場論文(Position paper)和提出該領域未來挑戰(zhàn)目標的挑戰(zhàn)論文(Challenge paper)。雖然比較遺憾最終沒有立場論文被錄用,但綜述論文和挑戰(zhàn)論文各有3篇被錄用也足以成為本屆大會的一個亮點了。如果再將研究型細分,我們會發(fā)現(xiàn),經(jīng)驗型論文(Empirical)以129篇長文占據(jù)了絕對多數(shù),而理論型論文(Theory)只有11篇長文,這也反映了理論創(chuàng)新是多么不易。
從研究領域來看,今年的ACL論文分為19個大領域,各領域的主會議長文分布情況如下表。
領 域投稿數(shù)錄用數(shù)錄為短文錄用比例Bioinformatics10110.0%Discourse381128.9%Formal semantics19631.6%Generation/summarization3910128.2%Information extraction44818.2%Information retrieval24625.0%Lexical semantics591627.1%Machine learning571322.8%Machine translation641523.4%Mathematical linguistics231043.5%Multimodal13430.8%Parsing6816226.5%Psycholinguistics14535.7%Question answering225231.8%Resources and evaluation28828.6%Sentiment analysis469121.7%Speech18422.2%Tagging371027.0%Text mining237134.8%
對比前幾年的數(shù)據(jù),近年來廣受重視的機器翻譯(Machine Translation)研究仍然保持熱門,投稿量和論文錄用數(shù)量都處于前列。從機器翻譯領域研究內(nèi)容來看,主要還是集中在基于句法的統(tǒng)計方法研究,其他受到較多關注的還包括形態(tài)處理對機器翻譯質(zhì)量的影響、語法資源和語義資源對翻譯的影響、對齊、評價等。機器翻譯領域錄用主會議長文共15篇,其中句法5篇,翻譯質(zhì)量評價3篇,形態(tài)2篇,語義資源2篇,基于短語的翻譯方法2篇,對齊1篇,另有短文10篇。值得一提是,機器翻譯并沒有如去年一枝獨秀,句法分析和詞匯語義兩個方向的錄用論文數(shù)甚至略微超過了機器翻譯。
每年的ACL都會頒發(fā)兩個備受關注的獎項:終身成就獎(Lifetime Achievement Award)和最佳論文獎(Best Paper Awards)。
終身成就獎是本領域頒發(fā)的最高個人榮譽,授予曾在本領域做出過卓越貢獻的學者,是對他們的終極承認與褒獎,今年的終身成就獎得主是ITA Software的Bill Woods。Bill Woods在理論和應用兩方面都有深遠影響,例如他在Augmented Transition Network (ATN) 方面的研究讓“基于自動機的自然語言描述”得到了復蘇,他提出的“概念索引”思想目前已經(jīng)被應用于很多信息檢索的任務中,同時也影響著當前熱門的復述研究,他的獲獎演講題目是“The Right Tools: a retrospective on language and computation”。
ACL的最佳論文代表著當年本領域最好的研究成果,也一定程度上預示著未來的發(fā)展動向。今年,最佳論文委員會選擇了3篇作為最佳論文,其中,最佳長文(Best long paper)是密歇根州立大學Matthew Gerber等人的“Beyond NomBank: A Study of Implicit Arguments for Nominal Predicates”;IBM最佳學生論文(IBM Best student paper)是來自哥倫比亞大學David Elson等人的“Extracting Social Networks from Literary Fiction”;另外一篇最佳短文(Best short paper)是來自布朗大學的Michael Lamar等人的“SVD and Clustering for Unsupervised POS Tagging”。
總體看來,自然語言處理領域的各個方向都處于平穩(wěn)進步的階段。其中一個值得注意的現(xiàn)象是,隨著互聯(lián)網(wǎng)的發(fā)展,用戶生成內(nèi)容(User Generated Content)的增加,越來越多的研究開始關注從百科(如Wikipedia)、博客、微博(如Twitter)等獲取語義知識、結構化知識、多語言知識,這些知識被廣泛應用于機器翻譯、信息檢索等領域,大大提高了機器翻譯和信息檢索的性能。例如,隨著該類資源的增加,可以獲取海量的多語言專名、詞典和平行句對,大大促進了統(tǒng)計機器翻譯的發(fā)展。同時,隨著網(wǎng)絡資源的迅速龐大,用戶可以獲取多種結構化的語義資源,對基于語義的信息檢索起到了促進作用。在本屆ACL會議中,有大量的信息抽取的文章集中在怎么從用戶生成的網(wǎng)絡內(nèi)容中獲取結構化知識和語義知識。如上所述,最佳長文和最佳學生論文分別來自語義和信息抽取領域,在某種程度上預示著當前熱點和未來發(fā)展動向,而互聯(lián)網(wǎng)上海量的用戶生成內(nèi)容無疑會促進這些領域的發(fā)展。
這次大會的召開城市烏普薩拉,位于瑞典東部、首都斯德哥爾摩以北,瀕臨費利斯河和梅拉倫湖,城市四周有肥沃的田野、茂密的森林,景致非常優(yōu)雅清新。瑞典的地理位置接近北極圈,ACL會議在夏季召開,正處于一年中白天最長的季節(jié),每天完全的黑夜僅兩小時左右,白天陽光明媚,海鷗在城市上空飛翔鳴叫,傍晚至夜深前,光線溫和,微風輕佛,令人心曠神怡。會議主辦方組織了豐富的活動,包括在烏普薩拉大學主教學樓舉辦的招待晚宴和在烏普薩拉城堡舉行的一次正式宴會,在宴會上,幾位學者和會議主席分別做了妙趣橫生的演講,引起參加者不斷的掌聲和笑聲,并有當?shù)匮莩獔F帶來的音樂節(jié)目,體現(xiàn)了瑞典人熱愛音樂的天性。期間正值2010南非世界杯的決賽階段,主會場里張貼了烏普薩拉適合看球賽的酒吧和餐館地圖,可見主辦方的細心周到。
ACL是自然語言處理領域一年一度的盛會,除中國大陸學者外,來自中國港臺、新加坡、日本及歐美等世界各地的華人學者也充分展示了風采,華人學者在國際舞臺上的影響力、貢獻度正在不斷提升。