武智融 莫伯峰
甲骨文,亦稱“契文”“龜甲文字”“殷墟文字”,為中國商周時期刻在龜甲獸骨上的文字。甲骨文是研究商周社會歷史的重要資料,而現(xiàn)在,人工智能AI也能為甲骨文研究工作提供助力,用科技之手撥開幾千年前的迷霧。
甲骨文是已知年代最早的、成熟的漢字系統(tǒng),對中國乃至世界的文化歷史研究都具有重要意義?,F(xiàn)已出土的甲骨約16萬件,甲骨文的研究工作則主要利用甲骨“拓本”。
?甲骨(左),甲骨拓本(右)(《中國社會科學(xué)院歷史研究所藏甲骨集》)(供圖/莫伯峰)
甲骨會在不同藏地間流轉(zhuǎn),因此同一片甲骨會流傳下來多個拓本,這些重復(fù)的拓本被稱為“重片”。重片使得拓本總數(shù)遠大于甲骨總數(shù),于是便需要通過“校重”把重片都找出來。這項工作雖然基礎(chǔ),但非常重要——使用了不清楚、不完整的拓本,結(jié)論就會不可靠。
校重需要將拓本進行兩兩對比,工作量龐大。而且由于甲骨破碎、墨拓方式有差異等原因,重片間的樣貌差異有時很大,這更加大了校重工作的難度。編撰《甲骨文合集》(由著名歷史學(xué)家郭沫若主編,是中國現(xiàn)代甲骨學(xué)方面的集成性資料匯編),前后耗時20余年,其中校重工作就花費了很長時間,卻也難保沒有遺漏。
?甲骨拓本重復(fù)示例。4組拓本來源于同一片甲骨,然而有著不同的編號(供圖/武智融)
如今,隨著人工智能的蓬勃發(fā)展,整理甲骨文的利器——“校重助手”應(yīng)運而生!
校重助手與甲骨文專家所用的校重方式不同——專家需要對甲骨上的文字進行辨認,而校重助手則不需要。那么,它究竟是如何工作的呢?
訓(xùn)練一個可完成校重工作的人工智能,其核心任務(wù)是設(shè)計一個模型,這個模型可以判斷兩張拓本是否出自同一塊甲骨。如何實現(xiàn)這種功能呢?跟人一樣,要靠學(xué)習(xí)。
?通過改變一張圖片的清晰度、對比度等,我們可以模擬不同拓本的表現(xiàn)差異,從而制造大量免費數(shù)據(jù)和標簽(供圖/武智融)
過去在訓(xùn)練人工智能時,通常采用有監(jiān)督學(xué)習(xí),即由專家標記各類重片作為學(xué)習(xí)資料。但在本項任務(wù)中,專家難以標記所有類型的重片,有監(jiān)督學(xué)習(xí)難以發(fā)揮效果。這時就要靠自監(jiān)督學(xué)習(xí)了。
自監(jiān)督學(xué)習(xí)也稱無監(jiān)督學(xué)習(xí),其思維核心是讓人工智能自動從數(shù)據(jù)中制造標簽。例如,可以自動將圖像中不同子區(qū)域的空間位置關(guān)系定義為一種標簽,或是自動將圖像的色彩飽和度定義為一種標簽等。
設(shè)計出自動制造標簽的方法對校重助手同樣適用。重片之間存在樣貌差異的主要原因,是拓印范圍、拓印方式不同,以及甲骨破碎、甲骨磨損等。了解了這個原因,便可以對這些表現(xiàn)進行模擬,用一張拓本生成各種表現(xiàn)略有不同的“人造重片”。通過改變一張拓本的清晰度、對比度、旋轉(zhuǎn)角度,或給其引入圖像噪聲等,我們就可以得到無窮無盡的重片標簽。這就解決了校重助手學(xué)習(xí)資料不足的問題。
校重助手在工作時會遍歷圖像的所有局部區(qū)域,這樣就可以在兩張拓本之間得到密集的點與點的對應(yīng)關(guān)系。如果兩張拓本互為重片,這種點與點的對應(yīng)關(guān)系就是規(guī)律且一致的。通過一致的對應(yīng)關(guān)系,還可以進而求解兩張拓本之間的幾何變換關(guān)系,從而將其重疊在一起。這種點與點的對比圖和重疊圖易于專家解讀,能大幅提升人機合作的效率。
運行一段時間后,校重助手已經(jīng)取得了一批新的校重成果,為一些模糊的拓本找到了清晰的替代拓本,甚至還用幾張互補的重片復(fù)原了最完整的甲骨圖像。這些成果使我們相信,人工智能在甲骨文這樣的冷門絕學(xué)里也有著廣闊的應(yīng)用前景。
?對比圖(左),疊加圖(右)。校重助手的預(yù)測結(jié)果可以大幅提升校重速度(《甲骨文合集》)(供圖/武智融)
(責(zé)任編輯 / 牛一名? ?美術(shù)編輯 / 周游)