李文英 曹斌 曹春水 黃永禎
青銅器是商周時代社會祭祀和戰(zhàn)爭的主要工具,通過對青銅器的造型、工藝、紋飾、銘文等的研究,可以深入了解古代社會的政治經(jīng)濟文化.其中,鑄有銘文的青銅器,因其遺留了古文字材料,更是古文字學、語言學、考古學及古代史研究的重要研究對象.目前保存的青銅器中,鑄有銘文的有上萬件[1],其中西周至春秋時期,可供研究的古文字材料主要都是青銅器銘文,可見青銅器銘文無論從其本身的古文字學意義,還是其所著述的內容而言,都具有極大的研究價值.釋讀古文字,一般先識其形,通其音,然后識其義[2].古文字形體筆畫復雜,變化繁多,且古文字是不統(tǒng)一的,各地方各時代都有不同的寫法,想要釋讀古文字,須得熟知古文字最初的形狀,如象形字、形聲字、假借字,以及指事、會意、轉注等構字方法[3],還須參證甲骨文、戰(zhàn)國文字,熟讀《說文解字》等這種古文字字典,難度很大,有學者甚至將其歸之為“絕學以內”.簡而言之,釋讀青銅器銘文要求研究者具有廣博的知識基礎和訓練,是一項極具挑戰(zhàn)的任務.
隨著計算機技術特別是圖像識別技術的高速發(fā)展,以圖像識別技術為基礎,結合古文字特別是甲骨文的研究基礎,進行古文字識別已成為可能.本文提出一種新的青銅器銘文識別研究方法,應用圖像識別技術來識別青銅器銘文,以期望能更準確、更廣泛地識別出青銅器銘文,或得出銘文的最大相似度文字,為進一步釋讀文字提供基礎.其主要方法是:采集青銅器銘文文字圖像,同時也采集《古文字類編》[4]中甲骨文、金文以及《說文解字》中相同文字的圖像,提取出每個古文單字,然后采用深度卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)提取圖像特征來識別青銅器銘文,得出識別的結果或者推薦結果.
本文的主要貢獻有以下幾個方面:1)首次提出了一種基于CNN的青銅器銘文識別模型,采用兩階段距離約束對應,相應地設計了兩階段特征映射的神經(jīng)網(wǎng)絡模型來提取每個文字的形體特征,最后對比目前已知的文字研究成果,取得了令人滿意的效果,大幅縮小了考古研究者的搜索推測空間,有效提高了考古過程青銅銘文識別的效率和準確性;2)構建了首個數(shù)字化的青銅器銘文數(shù)據(jù)庫,包含77個古文字共2102張圖片.該數(shù)據(jù)庫對采用深度學習模型進行青銅銘文識別的技術路線提供了一個很好的試驗田,也為將來采集更大規(guī)模數(shù)據(jù)庫奠定了基礎.
本文的組織架構如下:首先,在第1節(jié)簡單介紹了圖像識別在古文字識別方面的研究現(xiàn)狀;然后,在第2節(jié)分敘古文字庫的搭建和銘文識別模型的設計;并在第3節(jié)用定量和定性的實驗分析了利用古文字偏旁分析法優(yōu)化銘文識別的模型效果;最后,總結該方法可改進之處以及應用前景.
青銅器銘文研究悠久,據(jù)史書記載最早的銘文考釋者是西漢晚期的張敞,至北宋即有專書著錄,描錄文字并加以考釋,或編為字典.近代以來,羅振玉和王國維參證甲骨文字研究銘文,郭沫若編成《兩周金文辭大系》,綜合兩周青銅器銘文,研究兩周社會的政治經(jīng)濟文化.在銘文考釋方面,容庚參照甲骨文字,編錄《金文編》,楊樹達的《積微居金文說》通釋銘文,中國社會科學院考古研究所編纂《殷周金文集成》,張亞初在《殷周金文集成引得》中提出12種銘文考釋之法[5]等.但商周青銅器金文仍有近四成未辨識,有待考釋和解讀的字還有近三千個;此外,青銅器銘文與甲骨文的對照研究,成果也尚屬有限[2].
當前,多數(shù)研究仍以單個青銅器或某個考古地出土的青銅器物為對象進行銘文的考釋、集釋或補釋為主要對象,研究范圍較小而局限,如劉源的“逨盤銘文考釋”、連劭名的“眉縣楊家村窖藏青銅器銘文考述”、祝振雷的《安徽壽縣蔡侯墓出土青銅器銘文集釋》、胡長春、吳勁松的“近十年來(2001–2010)的殷周青銅器銘文研究綜述”、吳勁松的《近十年新出殷周青銅器銘文的整理輿研究》等;在研究方法上仍未有創(chuàng)新,多數(shù)研究者一般先引用王國維、楊樹達、唐蘭、郭沫若、容庚、陳夢家、李學勤、裘錫圭等前輩學者的研究觀點,而后佐證《說文》、《詩經(jīng)》、《爾雅》、《呂氏春秋》、《周易》等經(jīng)史典籍,最后從釋義、語法、構字法上進行簡要分析,以得出自己的解釋.
在計算機識別古文字領域,目前多數(shù)的研究論文為甲骨文相關的,如周新綸的“甲骨文計算機識別方法研究”[6]、李峰的“甲骨文自動識別的圖論方法”[7]、顧紹通的“基于拓撲配準的甲骨文字形識別方法”[8]、呂肖慶的“一種基于圖形識別的甲骨文分類方法”[9]等,從研究成果來看,一般為應用了計算機圖形、圖形拓撲等方法,有一定識別效果,但還難以達到滿意結果.在應用最新的圖像識別技術方面,有王嘉梅“基于圖像分割的古彝文字識別系統(tǒng)研究”[10]、孫華的“基于多特征融合SVM 的古漢字圖像識別研究”[11]、孫瑩瑩的“基于混合核LS-SVM的古漢字圖像識別”[12]等,它們應用了圖像分割、支持向量機等圖像識別技術,識別古漢字,其研究對象為古彝文或古籍記錄的古文字,尚不知樣本采用規(guī)模(比如文獻[11])或者采用的樣本規(guī)模較小(文獻[12]僅用20個字共計140個樣本進行測試),算法雖有效且準確率不高(文獻[12]給出的最高準確率為73%),此外這些研究均未結合古文字研究成果,未針對特定的考古材料進行研究,因此研究成果尚無法有效應用于考古.
在青銅器銘文識別方面,尚未發(fā)現(xiàn)有針對性的相關論文,僅發(fā)現(xiàn)陜西省考古研究院吳鎮(zhèn)鋒課題組開發(fā)的《金文通檢》系統(tǒng),利用輸入文字檢索和查閱青銅器銘文資料,尚未做到自動識別和圖像識別.
圖像識別技術是人工智能的一個重要領域.近年來,深度學習的興起讓圖像識別技術越來越實用,特別地,卷積神經(jīng)網(wǎng)絡(CNN)被廣泛使用.CNN最早可以追溯到20世紀80年代末,其創(chuàng)建是基于20世紀60年代早期的人工神經(jīng)網(wǎng)絡(Artificial neural network,ANN)和多層感知機(Multi-layer perceptron,MLP).圖形處理器(Graphics processing unit,GPU)崛起以及GPU處理重復性任務的速度使得CNN開始大量投入使用.2012年,計算機視覺智能領域的工作取得了重大的飛躍,Krizhevsky[13]使用Deep CNN贏得了ImageNet[14]競賽,成為了基于深度學習圖像識別技術發(fā)展的里程碑事件.經(jīng)過近幾年的研究發(fā)展,Deep CNN在目標識別、目標檢測、目標分割等任務上都有非常出色的表現(xiàn),在ImageNet上,Deep CNN對普通物體的識別已經(jīng)超越了人類的表現(xiàn)[15],特別地,深度學習在文字識別方面也有了長足的進步[16?17].相關研究表明[15,18?20],Deep CNN是一個大型的復雜神經(jīng)網(wǎng)絡,經(jīng)過海量數(shù)據(jù)訓練后,Deep CNN內部的神經(jīng)元學會了表達各種具有抽象語義的概念,比如各類目標物的局部肢體,各種各樣的表征紋理等,甚至某些神經(jīng)元能夠表達完整的目標物.這些抽象概念分布在神經(jīng)網(wǎng)絡不同層中,并最后形成了對目標物整體的感知.Deep CNN具有強大的特征歸納能力,能夠抽取不同目標的本質特征并進行準確的目標分類.
考古學及古文字學的研究發(fā)現(xiàn),古文字字體的演化過程是有跡可循的,古文字字體形態(tài)和書體風格在各個時期的演化過程中是保留有一些特征和風格的.如圖1所示,我們以“保”字的各種演化變體為例子.
圖1 “?!弊值母鞣N演化變體(包括甲骨文、青銅器銘文、篆書等)Fig.1 Various evolutionary shapes of character“?!?including oracle-bone,bronze inscription,seal character,etc.)
從圖1可以看出,“保”字的演化變體在形態(tài)上不同,但都保持有一種內在的特征一致性,尤其是其中的偏旁“人”,如圖2所示,很明顯具有相似的特征.
圖2 單人旁的不同形態(tài)Fig.2 Different shapes of character component“人”
再觀察“女”字(圖3)與“婦”字、“好”字(圖4),可以看出作為偏旁部首的“女”,在以它為基礎構成的字中都具有顯著的一致性.
上述研究過程屬于古文字偏旁分析法,受這種研究思路的啟發(fā),我們將Deep CNN用于古文字識別的任務:通過兩階段特征映射讓Deep CNN去學習古文字整體或部分(如偏旁)各種變體的一致性特征,然后將訓練好的Deep CNN用于識別模型沒有見過的其他變體.模型設計細節(jié)將在后文展開描述.
圖3 “女”字的不同形態(tài)Fig.3 Different shapes of character“女”
圖4 “婦”字和“好”字的不同形態(tài)Fig.4 Different shapes of character“婦”and“好”
為了能夠量化分析本文所提出的基于Deep CNN的古文字推測方法,我們收集歸納并整理出了一個以青銅器銘文為主的小規(guī)模古文字庫,包括商周時代的甲骨文,商周時代的青銅器銘文,商周時代的陶器、石刻等文字以及《說文解字》所錄的篆書、古籀文.每一種字體或字形的圖片為一個古文字的變體,文字圖片主要來源于高明、涂白奎的《古文字類編》,部分為青銅器銘文拓片圖像.考慮深度學習模型的需要,筆者從手頭資料中隨機選取樣本較多、尤其是青銅器銘文較多的字構成字庫,此外考慮青銅器銘文的內容主要涉及分封諸侯、朝覲王室、祭祀典禮、方國征伐、勝利紀功、世官尊容、家族的祭享等,筆者還挑選在青銅器銘文中常用的字構成字庫.截至目前,已搭建了包含77個古文字的圖片庫,一共包含2102張圖片,平均每個字有27個變體,其中青銅器銘文840張,甲骨文483張,陶器石刻等678張,《說文》101張,部分字庫圖片如下圖5所示.
我們將77個古文字列舉如下圖6所示.
在圖像識別領域,神經(jīng)網(wǎng)絡的深度至關重要.研究表明,隨著網(wǎng)絡深度的增加,神經(jīng)網(wǎng)絡的學習能力和模式表達能力會不斷增強.比如從掀起深度學習熱潮的Alex Net開始到VggNet[20],GoogleNet[21]再到ResNet[22]等模型,網(wǎng)絡越來越深,性能也越來越好.另外,我們也注意到在大型圖片數(shù)據(jù)庫ImageNet領先的團隊都利用了很深的模型,特別地,ResNet被廣泛使用.ResNet采用了跳躍連接的網(wǎng)絡結構,它有效地解決了超深網(wǎng)絡在優(yōu)化學習時梯度消失的問題,并且大幅增加了網(wǎng)絡表達圖像模式的容量.這使得采用這一結構的網(wǎng)絡深度可以達到1000層,人工神經(jīng)網(wǎng)絡的強大表達能力被充分的發(fā)揮出來.具體地,ResNet與傳統(tǒng)網(wǎng)絡相比較,其加入了y=x層(恒等映射層),其主要作用是使得網(wǎng)絡隨著深度的增加而表達能力不退化,并且還具有較好的收斂效果.因此,ResNet通??梢苑浅I?而它取得的識別效果在各大數(shù)據(jù)庫評測中目前也是很好的.除此之外,ResNet還具有泛化能力強,結構簡單,訓練收斂迅速等特征.
圖5 字庫圖片示例Fig.5 Example images of the character database
圖6 77個古文字庫Fig.6 Ancient character database with 77 characters
從我們構建的古文字庫可以看出,每個字平均有27種變體,每個字的形態(tài)不固定意味著神經(jīng)網(wǎng)絡要表達的模式不固定,這就要求神經(jīng)網(wǎng)絡需要有強大的學習容量,能夠細粒度地表達各種不同但本質又存在類似的模式.進一步,在我們設定的任務中,我們希望讓網(wǎng)絡學習每個字的部分形態(tài)特征,然后期望它對沒有見過的新的形態(tài)能做出正確的預測.換而言之,古文字各種演變體具有“萬變不離其宗”的特點,我們希望網(wǎng)絡能在“萬變”中學會求同存異,歸納推理,這就要求網(wǎng)絡需要強大的抽象映射能力和泛化能力,使圖片像素空間經(jīng)過不斷映射最終走向更抽象更高層的語義空間.
基于以上分析,我們認為ResNet將比較適合完成古文字的識別任務,同時為了進一步增強網(wǎng)絡的泛化能力,我們精心設計了一套網(wǎng)絡模型學習的策略.下圖7是我們方法的示意圖:
如圖7所示,由于總的古文字圖片數(shù)量較少,我們采用了主干網(wǎng)絡包含18個卷積網(wǎng)絡層的相對比較輕量級的ResNet神經(jīng)網(wǎng)絡,并且我們進一步限制了卷積層的每一層的通道數(shù)最多為16.
圖7 基于18層ResNet的古文字識別模型示意Fig.7 Pipeline of ancient character recognition based on 18-level ResNet
模型設計核心思想:為了獲得更好的模型泛化能力,我們希望網(wǎng)絡對每一類的古漢字提取的特征能夠滿足以下兩個特點:1)同一類的漢字特征在特征空間盡可能聚在一起,模型能夠完成這樣的映射,需要盡可能提取同一類漢字的內部共通性;2)不同類的漢字特征在特征空間的聚簇彼此盡可能離得遠一些,這樣不同漢字之間能留有足夠寬的空間給分類器,使得分類器對于新來的未見過的漢字具有更高的概率將其分對.基于以上動機,我們設計了如圖7模型右側兩階段特征映射的結構.訓練以Batch的方式進行.首先我們把ResNet18最后一層的特征Feature1作為基礎進行第一階段的特征映射:以Feature1為輸入,一方面我們通過一層全連接層(fc)結合Softmax loss訓練第一個分類器,另一方面我們根據(jù)一個Batch內的漢字類別標簽來抽取特征對,結合Contrastive loss實現(xiàn)距離約束,比如一個Batch內取了3個漢字:“比”、“古”、“國”,每個漢字有4張不同的圖片,則每個漢字內部可以采樣6個正對,共24個正對,而負對的數(shù)量要多很多,我們采取困難負對挖掘的做法使得正負對比例為1:1.5,以此來實現(xiàn)訓練.為了進一步達到映射同類特征的目的,我們更進一步做第二階段的特征映射,做法是將Feature1通過一層簡單的非線性全連接映射(fc+ReLU)轉換到Feature2,然后對Feature2同樣做類似Feature1上的分類和距離Loss約束.4個損失同時優(yōu)化,來實現(xiàn)特征表達的映射再映射,如圖8所示.
圖8 兩階段映射示意(第一個Loss有能力把雜亂的原始數(shù)據(jù)聚類得比較好;第二個Loss進一步聚類數(shù)據(jù))Fig.8 Demonstration of two-stage mapping(The first loss has the ability to originally cluster the messy raw data and the second further clusters the data.)
我們采用圖7的模型結構進行訓練,基于mxnet平臺使用梯度下降法進行模型參數(shù)學習.我們將所有文字的圖片尺寸歸一化到寬高都是128個像素,并且由彩色圖片轉換成灰度圖片,我們同時計算了所有圖片的均值圖片.一張圖片減去均值圖片后送入神經(jīng)網(wǎng)絡進行特征表達和學習.
而對于訓練和評測,將每個文字的變體圖片中的60% 作為訓練集,共1290張圖片,而剩余的40%作為測試集,共812張.即每個文字用60%的變體圖片進行學習,讓模型歸納總結出每個文字的內在一致性特征,然后讓模型對沒有見過的40%測試集進行識別與預測.我們模型在所建數(shù)據(jù)庫上迭代學習了100輪,然后分析識別結果.
由于訓練圖片數(shù)量較少,為了避免過擬合,我們采取了如下措施:1)精簡ResNet18卷積核的個數(shù),使得任何一層不能超過16個卷積核.同時中間層全連接層的節(jié)點數(shù)設置為64或者128;2)基礎ResNet18網(wǎng)絡結構的預訓練.我們收集了8000個印刷體簡體漢字的80000張圖片以分類任務為目標來預訓練我們的ResNet18,在我們的古漢字數(shù)據(jù)集上以0.0001的學習率微調,ResNet18外的其他可學習層的學習率設置為0.001;3)我們同時采用Dropout和較大的Weight decay來進一步降低過擬合.
模型學習完成后,我們在測試集上對它進行識別準確率的測試.如前所述,測試集一共870張圖片,77個字.我們將每個字設為一個類別,共77個類別,給定一張圖片,經(jīng)模型測試,會給出這張圖片屬于每個類的準確率,定義k為類別數(shù),一張圖片的真實類別在前k個預測類別中的準確率為Top-k.我們在表1中報告Top-1、Top-3、Top-5、Top-8、Top-10這5種情況下基準分類器、分類器I和分類器II的識別準確率.其中基準分類器指的是:保留圖7中的第一階段分類器,刪除兩階段距離約束和第二階段分類器.分類器I指的是:保留圖7中的第一階段分類器和第一階段距離約束.分類器II指的是:保留圖7中的第二階段分類器和兩階段距離約束.
表1 測試集的識別準確率Table 1 Recognition accuracy in the testing dataset
從基準分類器和分類器I的實驗結果對比可以得出:引入樣本對之間的距離約束是有效的,能夠提高模型的泛化能力.從基準分類器I和基準分類器II的實驗結果對比可以看出:第二個分類器的分類效果明顯好于第一個分類器的分類效果,說明我們提出的兩階段映射是有效的,進一步的特征映射有助于提升模型的泛化能力.
綜合來看,模型有效學習到了各個文字變體內在的一致性特征.在Top-1測試條件下,模型判別的最高正確率為58.3%(隨機判別Top-1的正確率僅為1/77=1.3%),而在Top-10的測試條件下,準確率可以做到94.2%(隨機判別Top-10的正確率僅為10/77=13.0%),這表明,當古文字研究者碰到新的文字變體時,本文提出的方法能夠以很高的概率將該文字的識別結果限定在大約10個已知文字內,這將大幅縮減研究者的搜索推測空間,有效提高效率和準確性.
為了形象地理解整個方法的過程,我們舉一個例子加以說明.圖9展示了“母”字的訓練和識別過程.
圖9 “母”字的網(wǎng)絡學習與預測過程示意圖Fig.9 Illustration of learning and prediction of character“母”
在我們收集的數(shù)據(jù)集中,“母”字一共有27張圖片,如圖9所示,按照我們的實驗設置,隨機抽選其中16張作為訓練圖片提供給模型學習,而剩余11圖片將留為測試集.當模型完成學習后,我們將對每一張測試圖片進行預測,11張中成功預測了其中8張,錯誤識別其中3張.分類正確的圖片大多在訓練集中能找到形體類似的例子,而識別錯誤的3個字分別來源于《上海博物館藏戰(zhàn)國楚竹書》中《民之父母》的“母”字、《古璽匯編》所收的“母”字、《甲骨文合集》所收的“母”字,如下圖10所示.
圖10 識別錯誤的3個“母”字Fig.10 Three cases of wrong recognition of character“母”
這3個字均不是來源于青銅器銘文,而分是竹書、玉璽和甲骨文,直觀上看,與其他“母”字的特征不相似甚至不一致.如確認此3字仍為“母”字的話,可以看出:1)楚國竹書的書寫風格、字體構造確與中原國家不同,如果見字如形的話,這個“母”字沒有其他母字那樣婀娜的姿態(tài),沒有女性特征的形態(tài),也不著裙裝,基本沒有相似特征,難以識別;2)在玉璽上篆刻文字,與青銅銘文或者甲骨鉆文,在書寫方式上很不一樣,可能會囿于玉璽形狀對文字進行變形,造成特征在此字上表現(xiàn)非常弱,故較難識別;3)最后一個甲骨文“母”字,4個點在類似女性胸部形體的外側,與所有其他母字的特征完全不一致,確實難以識別為同一個字.
從這個例子中我們看到網(wǎng)絡具有較強的抽象概括能力,能夠從給定的圖片中求同存異地抽取一些本質特征,從而實現(xiàn)從訓練集到測試集的遷移.這對于古文字識別具有重要價值.
在分析實驗結果并對比古文字庫的過程中,我們發(fā)現(xiàn)有一種現(xiàn)象較為嚴重地影響了識別結果,那就是鳥文的存在.鳥文又稱“鳥書”,是出現(xiàn)于春秋中期,盛行于春秋晚期至戰(zhàn)國中期的一種書法體,通常會添加鳥紋來修飾文字,類似現(xiàn)在的裝飾字、藝術字.圖11中舉了3個例子.
圖11 “子”、“吉”、“名”3個字的甲骨文、金文和鳥文的對比Fig.11 The comparison of oracle-bone,bronze inscriptions and bird-writing for character“子”,“吉” and “名”
從圖11可以看出,每個字的甲骨文和青銅器銘文具有某種程度上的神似,但是鳥文卻差別非常大,鳥文很大程度上是字與畫的結合,因此我們的模型很難從類似甲骨文和青銅器銘文的形態(tài)中推斷出一個鳥文古文字的真實含義.
本文在搭建古文字庫時,受手頭資料所限,除錄入了青銅器銘文外,也大量錄入了陶器、石刻、竹簡、帛書、璽印等文字,同時青銅器銘文中還錄入了不少鳥文銘文,從實驗結果看,一定程度上造成了模型識別古文字的難度增加,今后在進一步優(yōu)化模型時,將首先調整古文字庫的收字范圍,盡可能以青銅器銘文為主,輔以甲骨文,暫時去除地域特征過于明顯的鳥文銘文等文字.此外,結合深度學習技術的特點,還應擴大字庫收錄字數(shù),盡可能多地錄入字頻較高的古文字,幫助模型更好地學習古文字特征及演變規(guī)律.
漢字大多數(shù)為合體字,即多數(shù)字由獨體字以及固定的偏旁部首構成,因此,在利用模型分析古文字的形體特征時,可搭建單獨的獨體字庫并設計模型先識別獨體字,待模型訓練完成后,測試合體字識別效果,同時進一步深入研究獨體字特征對于識別古文字的作用,優(yōu)化模型的識別效果.
此外,本文提出的方法是構建在單個文字特征識別的基礎上的.文字的識別除形體識別之外,還需借助其他研究方法,綜合相關因素進行分析.單個青銅器銘文的識別與推測除了可以依賴它本身的特征之外,還可以依據(jù)偏旁構造分析、字音、字義、語法、上下文、青銅器器物類別、分期與出土地點等進行綜合釋讀.對于其中尤其重要上下文文字間的關聯(lián)信息,深度學習領域另外一個分支:遞歸神經(jīng)網(wǎng)絡(Recurrent neural network,RNN[23]),具有巨大的潛力,它能同時綜合單個文字變體本身的特征和其使用環(huán)境的上下文文字特征,使得推斷的準確率能大幅提高.
本文提出了一種基于圖像識別技術進行青銅銘文識別的方法,是人工智能與青銅銘文考古的一次有意義的交叉學科研究.受古文字偏旁分析法所啟發(fā),我們設計了基于兩階段特征映射的深度學習模型.該方法利用大量字例樣本,有效吸收消化古文字研究,特別是甲骨文及青銅器銘文的研究成果,準確、快速地識別未知古文字,有效地提高古文字研究者的研究效率,很好地輔助新發(fā)掘古文字的推斷釋讀與解義.
我們認為,基于深度學習的圖像識別技術在古文字識別中具有重要應用價值.實驗證明,它能夠有效地識別未知古文字,并給出準確率很高的推測識別結果,能夠極大地提升古文字識別的準確性和識別效率.有效擴大古文字圖片數(shù)據(jù)庫,進一步優(yōu)化模型,并結合考古學及古文字學的已有研究成果,可以積極地應用于新出土的考古青銅器銘文識別,推動現(xiàn)場考古研究的發(fā)展,也可以幫助普通大眾去識別了解陳列在博物館的青銅器銘文釋義,甚至判別識別有爭議的古文字或疑難字詞,幫助識別未知的古文字.在將來的工作中,我們會考慮擴大數(shù)據(jù)庫或者從深度學習小樣本學習的角度來探索青銅銘文識別.