人工智能的運用正在讓許多研究領(lǐng)域煥然一新。
一個新出現(xiàn)的人工智能工具幫助專家填補殘缺的文本,估量古希臘銘文的年代和來源。
人工智能會讓許多工作變得自動化,進而消滅某些工作崗位,這種可能性正在穩(wěn)步推進到越來越多的領(lǐng)域中?,F(xiàn)在,這波浪潮甚至拍打到古代世界研究這片僻靜海岸上。近期《自然》雜志刊登的一篇論文中,揚尼斯·阿薩埃爾(Yannis Assael)等人介紹了一個名叫“伊薩卡”的人工智能工具,它的研發(fā)初衷就是將深度學(xué)習(xí)引入到古典學(xué)研究和古希臘抄寫文本(這些文本最初是鐫刻在石頭上)解譯工作中來。然而,這項進展不應(yīng)該被解讀為針對數(shù)千年的傳統(tǒng)銘文研究(銘刻學(xué))的一個威脅,更準確地說,它是銘刻學(xué)的一項補充。
對于歷史的研究總是基于并不充足的證據(jù),研究的歷史離我們越是遙遠,證據(jù)越是殘缺不齊。歷史學(xué)家經(jīng)常利用假設(shè)來跨越缺口,也常常修正他們的假設(shè)。在銘刻學(xué)的例子中,上述做法完全屬實。銘刻學(xué)家不得不基于勤勉的學(xué)習(xí)和豐富的經(jīng)驗發(fā)展各種技巧,填補那些殘缺文本中的訛缺之處,再評估材料的年代和出處。迄今為止,這項工作通常都依賴學(xué)者群體的豐富經(jīng)驗。這些學(xué)者逐步學(xué)會識別特定社會的語言慣例和慣常程序(比如批準法令的流程)。伊薩卡工具提供了一種基于計算機處理這些任務(wù)的方法,并利用深度學(xué)習(xí)來復(fù)制和改進結(jié)果。這類方法能激起我們的真實恐懼——害怕人類的理解可能變得多余,這些害怕心態(tài)與其他專門知識領(lǐng)域中感受到的憂慮并無不同。
在人文學(xué)科領(lǐng)域,古典學(xué)學(xué)者一直令人驚訝地領(lǐng)先潮流,積極采用數(shù)位工具來呈現(xiàn)和利用研究材料。多個早期資源庫——譬如珀耳修斯數(shù)字圖書館中豐富的古希臘和拉丁文本收藏——構(gòu)想于20世紀80年代,在90年代以光盤形式供人獲取,在21世紀初轉(zhuǎn)移到互聯(lián)網(wǎng)上。這些項目的早期誕生意味著,許多項目的設(shè)立意圖是作為搜索工具。從那時起,互聯(lián)網(wǎng)一直被用來呈現(xiàn)資料(用其他方式發(fā)表的話,花費會昂貴得令人打消主意),譬如開創(chuàng)性的文德蘭達木牘線上發(fā)表。那些木牘是公元一世紀晚期和二世紀早期駐扎在哈德良長城附近的古羅馬士兵和他們家人之間的通信載體。
這種采用數(shù)位形式保存文本資源的做法激勵并促進了伊薩卡的研發(fā),因為它為人工智能工具提供了一種方便獲取的訓(xùn)練數(shù)據(jù)集。阿薩埃爾和同事們利用的最主要的資源是帕卡德人文研究所的“可搜索古希臘銘文”數(shù)據(jù)集。該資料庫并非隨機收藏的文本材料,而是提供了178 551份早已由學(xué)者鑒定過的抄寫文本,所有可辨認的字詞和不可辨識的缺損都得到仔細的描述。另一個可用的工具是牛津大學(xué)的《古希臘人名辭典》。伊薩卡利用這些專業(yè)資料,并予以擴展,模擬了學(xué)者的神經(jīng)過程。
對這些資源的使用使得伊薩卡學(xué)會人名、特定地點與時期的銘文語言中存在的流行模式。論文作者們再用伊薩卡工具來評估一組殘缺文本,給出缺失文本復(fù)原的建議,同時給出對于文本出處和具體年代的意見。將伊薩卡給出的結(jié)論與專業(yè)學(xué)者相應(yīng)的鑒定結(jié)論進行比較后,論文作者們發(fā)現(xiàn),伊薩卡提供了準確性顯著更高和信息更為豐富的結(jié)果。
文德蘭達木牘上的通信書寫在容易腐壞的木片上,很偶然才保存下來。在希臘-羅馬世界的區(qū)域內(nèi),優(yōu)質(zhì)的石材容易獲得,公共和私人文件常常是刻在石頭這種更加結(jié)實的材料上。一些石板以相當完整的形式幸存下來,但歲月的流逝已經(jīng)使得更多石板變成碎片。這些文本的發(fā)現(xiàn)和發(fā)表起始于19世紀早期,已經(jīng)讓我們對遙遠過往的認知煥然一新。這種細致的工作在繼續(xù)修正我們對古雅典世界的理解。古雅典產(chǎn)生了許多記錄,雅典周圍的山嶺提供了豐富的優(yōu)質(zhì)大理石,那些記錄能輕易地鐫刻在大理石上。
結(jié)果就是,對于古代世界的研究最初幾乎完全聚焦于文學(xué)文本,如今已經(jīng)擴大范圍,與廣泛的史料打交道,從購物清單到詩文,一應(yīng)俱全。銘文隨時都能給出新信息,闡明古代人的家庭生活、經(jīng)濟或政治情況,并要求我們不斷重新評估我們認為自己已掌握的信息。這些具有挑戰(zhàn)性的資料也許來自新發(fā)掘的考古發(fā)現(xiàn),或者來自運用伊薩卡之類工具對我們以為自己了解的材料進行的重新分析。
伊薩卡發(fā)現(xiàn)新信息的潛力清楚可見,它不是要取代鑒定專家的知識,而是給予它“渦輪增壓”式的推動。人類的希望和期待很容易歪曲我們的視野,但伊薩卡工具處理任何殘缺文本時都不帶人類的偏見。它能始終如一地處理不同文本,無論是明顯很重要的文本,還是看起來無足輕重的文本。重要的是,對于“缺失處的相應(yīng)文字可能是什么”的問題,伊薩卡不是提供一個固定的答案,而是提供一組按照可能性高低來排列的答案。伊薩卡項目的宗旨是“將歷史學(xué)家和深度學(xué)習(xí)之間的合作潛力最大化”。學(xué)者沒有被人工智能取代,相反地,伊薩卡的行為像獵犬一樣,為學(xué)者尋找蛛絲馬跡,但不會做出最終決定。
我們使用教學(xué)的語言來描述一個人工智能工具的開發(fā)?!敖獭逼仁刮覀兎治龊徒忉屛覀兯龅氖?;這正是我們致力于將技能和累積的知識傳授給下一代時所進行的步驟。伊薩卡建立在學(xué)術(shù)圈提供的訓(xùn)練數(shù)據(jù)集基礎(chǔ)上,并將現(xiàn)有的分析原則予以擴展。面對這樣的鑒定工具,與其共事,會得出重要的新知識,但它應(yīng)該也會幫助學(xué)者更好地理解自身的心智歷程。人工智能的運用應(yīng)該不會導(dǎo)致學(xué)者冗余,而是挑戰(zhàn)學(xué)者們對于他們自認為熟知的東西的認識。
資料來源 Nature