陳婧
通過將歷史進程的可視化,歷史學(xué)家可以發(fā)現(xiàn)前人從未注意到的模式和彼此的聯(lián)系,進而提出新的問題。
有沒有可能通過計算機圖像,制作出歷史版的“谷歌地圖”?洛桑聯(lián)邦理工學(xué)院與威尼斯卡福斯卡里大學(xué)正在用計算機,還原出1000多年前歐洲商業(yè)樞紐城市——威尼斯的生活場景。
這種方式蘊含的信息量極為直觀豐富。英語諺語說“一幅畫面抵過1000個詞”,而谷歌的一項研究曾表明,有時候一幅畫面甚至可以抵過5000億個詞。如果把威尼斯漫長歲月中留存的數(shù)百萬份檔案以圖像的方式還原,將提供一種新的探索及學(xué)習(xí)的方式,因為當(dāng)代人想把這幾百萬本歷史文獻都讀完,可能性幾乎為零。
物理學(xué)家霍金預(yù)言:如果一艘太空船能以接近光速的速度在宇宙飛行,就可讓船上乘客進入未來??梢越ㄔ炱疬@艘飛船的并非只有物理學(xué)家——歷史學(xué)家也運用起大型的數(shù)據(jù)集,建起了一臺真正的時光機,回到過去。
80公里的文獻
威尼斯卡福斯卡里大學(xué)發(fā)起這個項目的意義是去探討:我們有沒有可能做出一種“關(guān)于過去”的谷歌地圖?能不能擁有一臺多拉A夢的時光機?這臺炫酷的時光機,可以把觀眾拉回到14世紀(jì)的威尼斯共和國。“1323年,誰住在這個宮殿里?”“在里亞托的一個集市里,1公斤的海鯛賣多少錢?” “穆拉諾島的一個玻璃工人的工資是多少?”
想回答這些并不容易。雖然項目組手邊有很多過去的資料,可以把所有這些資料數(shù)字化,然而年代越久遠(yuǎn),我們獲得的信息也越少。幸而威尼斯的管理模式非?!肮倭胖髁x”:威尼斯共和國的執(zhí)政官們,幾乎記錄下這里發(fā)生的一切。在威尼斯的國家檔案館,你可以找到80公里長的檔案資料, 它們記錄下了過去1000多年中威尼斯人們生活的方方面面。從出生和死亡記錄、納稅記錄、建筑設(shè)計圖、城市規(guī)劃方案、去其他領(lǐng)土的旅游導(dǎo)覽圖、和平條約等等。這需要把這些海量的信息完整地串連起來,并重新找到分析的線索。
最早的檔案可以追溯到公元9世紀(jì),一位孀婦的遺囑是把30籃子的橄欖留給她的繼承人。一幅14世紀(jì)的水利灌溉圖中,可以看到淡水與海水是如何被分開,從而避免了有害水生微生物在淡水中擴散。另一幅繪畫作品描繪了17世紀(jì)威尼斯人與奧斯曼帝國在雅典作戰(zhàn),毀壞了帕臺農(nóng)神廟,通過強大的陸海力量步步蠶食這個航海巨人的版圖。
還有威尼斯共和國的使節(jié)在國外書寫的上千封函件,敘述了當(dāng)時其他國家的政治、宗教情況。當(dāng)時擔(dān)任帕多瓦大學(xué)數(shù)學(xué)教師的伽利略的親筆信,向當(dāng)時的威尼斯議會議員申請經(jīng)費,用于開發(fā)天文望遠(yuǎn)鏡。以及由奧地利向法國割讓威尼斯的《坎波福爾米奧條約》原件。這座城市發(fā)生的每一丁點兒變化,都被記錄在那里。
這些80公里長的文獻檔案中,大概有100億件事件。將這些信息,放回到它們原來的空間中,再用不同的方法將它圖像化,就可以重建出一場威尼斯共和國的旅行,前后穿梭1000多年,令人驚嘆。加上語義編碼,這巨大的地理信息系統(tǒng),最終可以被很多種方法搜索。
擁有這些資料還不夠,要開發(fā)一臺“時光機”,還需要對未知的事實進行推斷。這個模擬的過程,可以看作是獲得了威尼斯船長編寫的某次航海日志,代表了那個年代很多類似航程的航海日志。
如果把它放到更大的歐洲背景下去觀察研究,那么或許可以重新發(fā)現(xiàn)威尼斯如何一步步控制了亞得里亞海,如何變成了最強大的中世紀(jì)海上帝國,如何幾乎控制了從東到南的所有海上航線。由此,也可以更深刻地理解這個東西方世界貿(mào)易的中轉(zhuǎn)站。
時光機生產(chǎn)手冊
盡管參與項目合作的研究人員達到了100多人,但如果把從9世紀(jì)到20世紀(jì)的海量文獻全部轉(zhuǎn)化成一個信息系統(tǒng), 每天至少要把450本書數(shù)字化,而這僅僅是項目工作的起點。
項目組有著非常嚴(yán)密的工作流程。首先,把大量的文獻轉(zhuǎn)化為高清格式的數(shù)字圖像。通過與行業(yè)尖端企業(yè)的合作,項目組使用的是每小時可以高精度掃描1000頁的半自動化掃描機器人。 為了考慮古籍保護的需要,使用特定的粒子加速器產(chǎn)生的X光射線,這樣機器人不需要翻動書頁,即可完成掃描的過程。
接著是破譯圖像并轉(zhuǎn)化為文字??茖W(xué)家需要重新開發(fā)算法,把圖像解構(gòu),這些碎片式的圖像,與數(shù)據(jù)庫中的其他圖像進行比對后,能根據(jù)它的形狀識別為可能的關(guān)聯(lián)性文字,提高識別的幾率。通過比對,還可以對數(shù)據(jù)庫中上百萬個同樣形狀的圖像,同步完成識別工作。這些成功識別的詞語,再通過文字處理器,組合成為完整的句子。值得一提的是,編程人員使用的算法受到生物技術(shù)的啟發(fā),采用的是蛋白質(zhì)結(jié)構(gòu)分析與功能預(yù)測的方法。
從圖像轉(zhuǎn)化為文字信息的難處還在于,這些檔案很多是用拉丁語、托斯卡納語、 威尼斯方言記錄下的,轉(zhuǎn)寫它們時首先需要翻譯, 然后將它們編入索引。傳統(tǒng)的光學(xué)字符識別方法, 對于印刷本可以使用且非常有效, 但對于這些手寫的檔案似乎并不太行之有效。
項目組的破解方法是從語音識別入手,建立一個語言模型,加上一些限制條件,隨后在數(shù)據(jù)庫里填入組織條理清晰的檔案文獻,就可以讓這些海量的檔案劃分為更細(xì)小的部分。由于每一個部分都和其他部分有近似的特征,那么就有實現(xiàn)破譯的可能。
最后一步,讓識別出的信息之間產(chǎn)生關(guān)聯(lián),這也是威尼斯檔案館珍藏文獻的最大價值所在。研究組采用關(guān)鍵詞進行組合,使得文獻可搜索。而句子中的關(guān)鍵字,把海量圖像重新歸類后,如同一個社交網(wǎng)絡(luò)或是一本族譜,交叉中就會產(chǎn)生新的研究線索。
云技術(shù)的應(yīng)用,也是開發(fā)出這臺時光機的關(guān)鍵要素。威尼斯的市井、政治、宗教圖像,城市規(guī)劃和設(shè)計,城市的發(fā)展脈絡(luò),這些海量的數(shù)據(jù)在云端建立了一個全新的數(shù)字環(huán)境。對歷史研究人員來說,免去了到威尼斯文獻檔案館堆積如山的資料室里苦苦發(fā)現(xiàn)線索的過程。
利用云技術(shù),還進一步創(chuàng)造出了一個模擬系統(tǒng),發(fā)現(xiàn)丟失的信息,或者做出一些相當(dāng)精準(zhǔn)的歷史預(yù)測。地中海區(qū)域波譎云詭的歷史,也漸漸透明與可琢磨。例如:如果在1323年6月出海,從科孚島出海前往君士坦丁堡,可以在哪里找到船??需要多少錢?遇到海盜的幾率有多大。
對于這種預(yù)測,最核心的考驗在于,能否量化其中的不一致性。因為檔案中到處都有錯誤,可能是船長的名字錯了,或是某些船只從來沒有出過海,翻譯中也可能存在錯誤,因此在加上算法的過程中,在信息識別、信息提取中都存在錯誤的情況下,擁有的是非常不確定的信息資料。
項目組認(rèn)為,糾正這些偏差,讓時光機更加精準(zhǔn)的方法,在于不僅僅翻譯出歷史的信息,而且需要翻譯出元歷史的信息,即歷史是如何建構(gòu)的,記錄下每一步。例如,威尼斯最可靠的過去,不僅僅有一張地圖,而存在著很多張地圖。這個系統(tǒng)應(yīng)當(dāng)承認(rèn)并接受這些事實,回應(yīng)歷史信息的不確定性。
數(shù)字人文主義
除了生產(chǎn)出一臺可以穿越千年的時光機, 這個項目的研究成果有了更多嶄新的外沿:威尼斯作為一個歷史名城,每年數(shù)百萬的游客前來觀光,時光機可以幫助威尼斯建立一座嶄新的博物館??ǜK箍ɡ锎髮W(xué)為這個項目專門成立了博士點,并開設(shè)了數(shù)門本科生與研究生課程,使用這項研究成果。
這個項目的發(fā)起人之一弗雷德里克·凱普蘭(Frederic Kaplan)博士認(rèn)為, 現(xiàn)在研究人類相關(guān)的人文學(xué)科,很像 30多年前在生命科學(xué)領(lǐng)域發(fā)生的一場革命性的變化。“我們看到很多項目, 它們在做的工作,遠(yuǎn)遠(yuǎn)超過任何一個單一的研究小組, 這對人文學(xué)者來說確實是非常新穎的, 因為他們通常適應(yīng)在小團隊里工作,或僅和一些研究者一起工作。 當(dāng)你參觀威尼斯國家檔案館的時候, 你會覺得,這遠(yuǎn)遠(yuǎn)超過了任何一個團隊能做的事情。 應(yīng)對這種模式的轉(zhuǎn)換 ,我們應(yīng)該培養(yǎng)出新的一代人, 他們便是‘?dāng)?shù)字人文主義者, 準(zhǔn)備好迎接這種轉(zhuǎn)變。”
而以美國斯坦福大學(xué)為代表的一些學(xué)校,已經(jīng)準(zhǔn)備好了。2014年8月,斯坦福大學(xué)正式推出了“計算機+人文學(xué)科”的人文教育。課程的使命在于培養(yǎng)學(xué)生的好奇心、同理心、內(nèi)省力、聯(lián)想力、口頭和書面溝通能力,培養(yǎng)出分析能力與問題意識更為出色的新一代人文學(xué)者,進而重塑人文學(xué)科的研究。谷歌高級副總裁、暢銷書作家拉斯洛·波克(Laszlo Bock)也認(rèn)為,“在進行跨學(xué)科思考和探索時,人文學(xué)科的重要性便凸顯出來,大多數(shù)有趣的發(fā)現(xiàn)都產(chǎn)生于兩個學(xué)科的交集處?!?/p>
在歷史研究方面,越來越多的學(xué)者借助數(shù)字技術(shù)對歷史事件進行靜態(tài)和動態(tài)的可視化展示。美國弗吉尼亞大學(xué)的“視覺”項目就是利用數(shù)字化手段,將大量數(shù)據(jù)轉(zhuǎn)化為地圖、圖表、圖片等,講述重要的歷史事件,供用戶搜索和了解歷史事件的發(fā)展。
內(nèi)布拉斯加大學(xué)英語系教授馬修·喬卡斯(Matthew Jockers)也曾利用文本數(shù)據(jù)挖掘技術(shù),對1780~1900年出版的3592部著作進行了詞頻和主題分析,并在自己的新書《宏觀分析:數(shù)字化方法和文學(xué)史》中表示,窺探出了簡·奧斯丁、馬克·吐溫等著名作家的寫作風(fēng)格是受何人影響。斯坦福大學(xué)的“文本技術(shù)”項目,則通過研究東西方的手稿、文檔、書籍、題詞、票券、布告等文字實物的生產(chǎn)、傳播、接收的過程,發(fā)揮了包括文本數(shù)據(jù)挖掘、數(shù)字信息長期保存等技術(shù)的全新應(yīng)用價值。
值得一提的是,歐美學(xué)界正涌現(xiàn)一批將古籍?dāng)?shù)字化、文獻數(shù)據(jù)庫建設(shè)的數(shù)字人文領(lǐng)域的新項目。許多大學(xué)設(shè)立了自己的數(shù)字人文研究中心,如美國斯坦福人文實驗室、英國倫敦國王學(xué)院人文計算研究中心等;一批數(shù)字人文研究機構(gòu),如國際數(shù)字人文組織聯(lián)盟、數(shù)字人文學(xué)會也相繼成立,數(shù)字技術(shù)與人文研究的結(jié)合成了學(xué)界時下討論的熱門話題。
“數(shù)字人文的發(fā)展,需要接受過人文學(xué)科訓(xùn)練的、擁有整體思維能力的人才,也需要專攻某一技術(shù)領(lǐng)域的專家。構(gòu)建其這樣的平衡并不容易。但是一旦做到了,我們便會擁有偉大的組織、偉大的社會。數(shù)字人文必將成為人文學(xué)科研究的主流之一?!?倫敦大學(xué)學(xué)院數(shù)字人文中心主任梅麗莎·特拉絲(Melissa M. Terras)表示。
不過,數(shù)字人文也提出了新的問題:人文研究是否也應(yīng)該進入數(shù)據(jù)驅(qū)動的研究行列?加拿大作家史蒂芬·馬爾什(Stephen Marche)在文章《文學(xué)不是數(shù)據(jù):反對數(shù)字人文》中,認(rèn)為“文學(xué)應(yīng)該與數(shù)據(jù)截然對立,將文學(xué)當(dāng)做數(shù)據(jù),會失去文學(xué)本身豐富的意蘊?!?/p>
面對這樣的批評,大多數(shù)數(shù)字人文主義者并不沉默:“數(shù)字人文并不會替代人文研究,它只是揭示研究問題,但不闡釋研究問題。技術(shù)的真正價值,在于提供了數(shù)字化的研究環(huán)境,而不止步于檢索-獲得信息。它以人為中心,幫助人們實現(xiàn)自己的野心,讓他們做真正想要做的事情?!?