李 邦,劉永革
(安陽(yáng)師范學(xué)院 甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,河南 安陽(yáng) 455000)
甲骨文是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),也是研究我國(guó)文字源流的珍貴資料。識(shí)別和解讀甲骨文對(duì)于研究早期文字的產(chǎn)生、演變,了解殷商時(shí)期的歷史文化以及中華民族的文化傳承都具有重要意義。自1899年甲骨文首次被發(fā)現(xiàn)以來(lái),殷墟甲骨文逐漸為人們所熟知,國(guó)內(nèi)外學(xué)界也對(duì)其表現(xiàn)出濃厚的興趣,在幾代考古學(xué)家和歷史學(xué)家孜孜不倦的努力之下,甲骨文的解讀和考釋迄今已取得豐碩成果[1-4]。記載和收錄這些研究成果的甲骨文研究文獻(xiàn)極大地推進(jìn)了甲骨文的研究進(jìn)程,奠定了甲骨文的研究基礎(chǔ)。隨著甲骨文研究的逐漸深入,為了便于查閱資料,學(xué)者們對(duì)甲骨文資料進(jìn)行了整理,出版了《甲骨文合集》[1]《甲骨學(xué)文獻(xiàn)集成》[2]《甲骨文詁林》[3]《甲骨文研究資料匯編》[4]等系列叢書。但遺憾的是,整理成冊(cè)的書籍資料雖然為甲骨學(xué)研究提供了極大的便利,但也存在一定的局限性。大部頭、多冊(cè)出版的書籍受限于成本通常售價(jià)高昂,其豐富且繁雜的內(nèi)容也大量增加了資料查閱的時(shí)間、人力成本。隨著信息化、數(shù)字化技術(shù)的發(fā)展,通過(guò)對(duì)甲骨文研究文獻(xiàn)進(jìn)行數(shù)字化處理,打造開放、便捷、共享的甲骨文數(shù)字化平臺(tái)成為大勢(shì)所趨。而甲骨學(xué)文獻(xiàn)實(shí)現(xiàn)數(shù)據(jù)化,也意味著可以進(jìn)一步利用大數(shù)據(jù)技術(shù)對(duì)文獻(xiàn)進(jìn)行分析,并為甲骨學(xué)研究提供更深入的智能化服務(wù)[5](p74-77)。本文將對(duì)甲骨文大數(shù)據(jù)平臺(tái)--《殷契文淵》開發(fā)所需的關(guān)鍵技術(shù)文獻(xiàn)數(shù)字化進(jìn)行詳細(xì)介紹,并進(jìn)一步展望數(shù)字化技術(shù)在實(shí)現(xiàn)甲骨學(xué)研究智能化過(guò)程中的前景運(yùn)用,為甲骨學(xué)研究者了解當(dāng)下甲骨學(xué)研究領(lǐng)域中的信息化進(jìn)程提供幫助。
信息化浪潮下,文獻(xiàn)的數(shù)字化發(fā)展也成為大勢(shì)所趨。借助數(shù)字網(wǎng)絡(luò)技術(shù),對(duì)甲骨文研究手稿、文獻(xiàn)等資料進(jìn)行數(shù)字化處理,可使研究人員不受時(shí)間、空間限制,實(shí)現(xiàn)對(duì)甲骨文研究原著的便捷查閱、比對(duì)和??薄4送?,文獻(xiàn)數(shù)字化還可以降低在人工翻閱甲骨文研究手稿等原始資料時(shí)可能產(chǎn)生的丟失或損壞風(fēng)險(xiǎn),進(jìn)一步拓寬和提高原始文獻(xiàn)的利用范圍和利用率[6](p130-137)。因此,文獻(xiàn)數(shù)字化在推動(dòng)甲骨文研究廣度和深度的拓展方面必將發(fā)揮重要作用。
從廣義上講,任何將文獻(xiàn)內(nèi)容從物理空間輸入至計(jì)算機(jī)存儲(chǔ)單元的行為,都可以稱為文獻(xiàn)數(shù)字化。然而,在人工智能、大數(shù)據(jù)時(shí)代背景下,如果所謂的數(shù)字化過(guò)程僅能起到保護(hù)文獻(xiàn)的作用,而不能為其研究對(duì)象提供便捷的查閱、對(duì)比、??钡确?wù),這樣的文獻(xiàn)數(shù)字化就顯得有些“名不副實(shí)”。甲骨文大數(shù)據(jù)平臺(tái)--《殷契文淵》的開發(fā)目標(biāo)是實(shí)現(xiàn)甲骨學(xué)研究的便捷性、共享性、交互性、實(shí)用性,盡可能地為研究者提供權(quán)威便捷的檢索、查詢、對(duì)比、??钡确?wù),平臺(tái)開發(fā)過(guò)程中對(duì)甲骨學(xué)文獻(xiàn)的大規(guī)模數(shù)字化工作也始終貫徹該思想,并創(chuàng)造性地將整個(gè)開發(fā)過(guò)程劃分為三個(gè)階段,即“數(shù)據(jù)化” “數(shù)字化”“智能化”。
首先,《殷契文淵》的“數(shù)據(jù)化”階段旨在將物理空間的書籍、文獻(xiàn)、原始手稿等紙媒文檔通過(guò)拍照掃描等方式轉(zhuǎn)化為計(jì)算機(jī)可以存儲(chǔ)的數(shù)據(jù)。一般而言,文獻(xiàn)資料的數(shù)據(jù)化結(jié)果將按照頁(yè)碼順序?qū)D片進(jìn)行排列并以pdf文件格式存儲(chǔ)。目前,《殷契文淵》中所收錄的文獻(xiàn)均以pdf格式分門別類地存儲(chǔ),已實(shí)現(xiàn)資源共享,研究者可通過(guò)訪問(wèn)網(wǎng)站直接免費(fèi)下載(需要聲明的是,《殷契文淵》大數(shù)據(jù)平臺(tái)上的文獻(xiàn)資料不完全是由實(shí)驗(yàn)室搜集整理的,其中有很大一部分來(lái)自于廣大甲骨學(xué)研究者的無(wú)私奉獻(xiàn))?!皵?shù)據(jù)化”的過(guò)程作為甲骨學(xué)文獻(xiàn)整理的第一階段,其目的在于為后續(xù)的智能化開發(fā)提供盡可能多的數(shù)據(jù)支撐。但是,僅對(duì)文獻(xiàn)資料進(jìn)行數(shù)據(jù)化處理存在著明顯的弊端:在交互性方面,圖片格式的文檔資料過(guò)于“死板”,利用計(jì)算機(jī)翻閱pdf文獻(xiàn)與翻閱紙質(zhì)文檔并沒(méi)有太大區(qū)別,也不能實(shí)現(xiàn)文檔內(nèi)容的復(fù)制、粘貼以及檢索,單純的文獻(xiàn)數(shù)據(jù)化對(duì)閱讀者來(lái)說(shuō)依然不夠“便捷”。只有能夠通過(guò)檢索快速提取到所需信息,才能真正體現(xiàn)出數(shù)字化工作的意義。因此,平臺(tái)建設(shè)的第二階段就是在實(shí)現(xiàn)文獻(xiàn)數(shù)據(jù)化的基礎(chǔ)上,進(jìn)一步開發(fā)文獻(xiàn)的內(nèi)容檢索、對(duì)比等功能,這個(gè)階段稱為平臺(tái)的“數(shù)字化”階段。
相較于文獻(xiàn)“數(shù)據(jù)化”,“數(shù)字化”可以將不便于計(jì)算機(jī)處理的“數(shù)據(jù)”轉(zhuǎn)化為便于計(jì)算機(jī)處理的形式,具體表現(xiàn)為:將圖片格式的文檔轉(zhuǎn)化為可以檢索的文字文檔,并在此基礎(chǔ)上對(duì)文獻(xiàn)內(nèi)容進(jìn)行“碎片化”處理。例如,將著錄文獻(xiàn)內(nèi)容按照拓片、摹本、出處、著拓號(hào)等內(nèi)容分類并在平臺(tái)上進(jìn)行系統(tǒng)地存儲(chǔ);將拓片圖像以及甲骨文釋集上的甲骨字與對(duì)應(yīng)的釋文進(jìn)行識(shí)別、定位并在平臺(tái)上進(jìn)行展示等。簡(jiǎn)單來(lái)說(shuō),“數(shù)字化”工作是將甲骨學(xué)文獻(xiàn)的“數(shù)據(jù)”進(jìn)行系統(tǒng)地整理,使研究者能夠更加快速、精準(zhǔn)地查找到自己所需的內(nèi)容。平臺(tái)“數(shù)字化”的發(fā)展,無(wú)疑將極大地減輕研究者檢索文獻(xiàn)資料的負(fù)擔(dān),推動(dòng)甲骨文研究廣度與深度的拓展。需要特別指出的是,隨著近年來(lái)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,在平臺(tái)“數(shù)據(jù)化”建設(shè)的過(guò)程中,針對(duì)甲骨學(xué)文獻(xiàn)的“數(shù)字化”研究也正向著“智能化”發(fā)展。在完善相關(guān)技術(shù)之后,殷契文淵平臺(tái)也將推出相應(yīng)的“智能化”服務(wù),如甲骨字識(shí)別服務(wù)(筆跡分類)、以圖查甲骨片服務(wù)、手寫甲骨字識(shí)別服務(wù)等等。
文獻(xiàn)數(shù)字化技術(shù)正是依托于平臺(tái)的“數(shù)字化”建設(shè)階段,在利用計(jì)算機(jī)技術(shù)大幅提高“數(shù)據(jù)化”工作效率的同時(shí),開發(fā)一系列智能應(yīng)用工具,為廣大甲骨學(xué)研究者與愛(ài)好者提供智能化、便捷化、精準(zhǔn)化服務(wù)的一項(xiàng)技術(shù)。
甲骨學(xué)文獻(xiàn)數(shù)字化工作主要利用了光學(xué)字符識(shí)別技術(shù)(OCR)[7]。該技術(shù)涵蓋了所有圖像文字檢測(cè)和識(shí)別的相關(guān)技術(shù)。本文選取了其中與文獻(xiàn)文本圖片識(shí)別相關(guān)的兩個(gè)重要技術(shù)進(jìn)行介紹,即文檔分析技術(shù)與字符識(shí)別技術(shù)[8]。文檔分析又稱為文檔布局分析,是指識(shí)別和分類文本文檔的掃描圖像中的特征區(qū)域。字符識(shí)別,則是在文檔分析的基礎(chǔ)上,將其中的文本區(qū)域的內(nèi)容轉(zhuǎn)化為計(jì)算機(jī)通用的字符編碼。由于實(shí)現(xiàn)準(zhǔn)確、高效、智能的文檔分析與字符識(shí)別是文獻(xiàn)數(shù)字化技術(shù)發(fā)展的基礎(chǔ)和關(guān)鍵,因此,對(duì)文檔分析和字符識(shí)別技術(shù)的研究與應(yīng)用也成為《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)當(dāng)前建設(shè)的重點(diǎn)。
文檔分析技術(shù)作為文獻(xiàn)數(shù)字化的第一步,是對(duì)文獻(xiàn)整體結(jié)構(gòu)的初步分析。根據(jù)分析需求的不同,文檔布局分析可劃分為兩個(gè)層次,即幾何文本分析與邏輯文本分析[9](p139)。
幾何文本分析是指對(duì)文檔圖片中文本正文、插圖、數(shù)學(xué)符號(hào)和嵌入文檔中的表格等不同區(qū)域進(jìn)行檢測(cè)和標(biāo)記,找出文本中字符所在的位置,并在分割出的文本區(qū)域中,進(jìn)一步進(jìn)行字符切分的一種技術(shù),這也為后續(xù)的字符識(shí)別奠定了基礎(chǔ)。
從圖像處理的角度看,幾何文本分析主要是利用圖片的幾何結(jié)構(gòu)特征進(jìn)行圖片分割。對(duì)大部分甲骨學(xué)文獻(xiàn)而言,由于文獻(xiàn)本身一般是出版物,其內(nèi)容是經(jīng)過(guò)統(tǒng)一整理編輯后再進(jìn)行印刷的,因此排版布局具有一定的規(guī)范性,比較適合運(yùn)用經(jīng)典的版面分析方法進(jìn)行版面分析。常見(jiàn)的經(jīng)典版面分析算法包括:投影法[10](p139-141)、遞歸X-Y剪切法[11](p10-22)、行程拖尾算法(RLSA)[12]( p1658-1669)等。這些算法的共同點(diǎn)在于可以通過(guò)分析文檔圖片中黑色像素的位置,將間隔比較近的黑色像素劃分為同一個(gè)文本塊。在文本塊正確分割的基礎(chǔ)上,進(jìn)行后續(xù)的幾何版面分析,將文本分割為文本行或文本列,最終實(shí)現(xiàn)對(duì)單個(gè)字符的分割。就中文文獻(xiàn)而言,漢字單個(gè)字符的分割通常需要與識(shí)別結(jié)果相結(jié)合,判斷單個(gè)字符的分割是否正確,主要是看分割出的字符能否被識(shí)別。但是,在單個(gè)漢字字符的分割中,經(jīng)常出現(xiàn)漢字粘連、重疊以及漢字部首的錯(cuò)誤分割等問(wèn)題,導(dǎo)致分割出的漢字字符不能被正確識(shí)別,例如,在字符分割中,經(jīng)常會(huì)出現(xiàn)偏旁部首“搭錯(cuò)車”的錯(cuò)誤識(shí)別案例,不得不再次進(jìn)行人工??保黾恿搜芯空叩臅r(shí)間、人力成本。
從數(shù)據(jù)整理的角度看,幾何文檔分割是后續(xù)字符識(shí)別的前提和必要條件。但受限于當(dāng)下的技術(shù)發(fā)展程度,對(duì)于結(jié)構(gòu)化文檔,僅通過(guò)幾何分析結(jié)果完成的字符識(shí)別仍需進(jìn)行大量的后續(xù)數(shù)據(jù)整理工作。以甲骨學(xué)研究中必不可少的著錄類文獻(xiàn)為例,此類文獻(xiàn)的整理通常需要在圖片分割與字符識(shí)別的基礎(chǔ)上,將甲骨片的編號(hào)、出處、著拓號(hào)、甲骨字原文、漢字釋文等相關(guān)信息也錄入到系統(tǒng)中。而這些信息在文獻(xiàn)中往往具有較強(qiáng)的邏輯關(guān)系,如編號(hào)通常出現(xiàn)在拓片附近、著拓號(hào)在文檔中一般有固定結(jié)構(gòu)等。因此,要實(shí)現(xiàn)對(duì)甲骨學(xué)文獻(xiàn)中著錄類文獻(xiàn)的文檔分析,需要在幾何文本分析的基礎(chǔ)上,進(jìn)一步運(yùn)用邏輯文本分析技術(shù)進(jìn)行分析。
邏輯文本分析可理解為是對(duì)幾何文檔分析結(jié)果的深度挖掘,它將進(jìn)一步對(duì)文本區(qū)域在文檔中扮演的不同邏輯角色(如標(biāo)題、腳注等)進(jìn)行分析[13]( p1658-1669)。簡(jiǎn)單而言,邏輯文本分析技術(shù)是指在幾何分析的基礎(chǔ)上對(duì)文本塊內(nèi)容之間的邏輯結(jié)構(gòu)進(jìn)行劃分。這種邏輯劃分可以更高效且準(zhǔn)確地識(shí)別結(jié)構(gòu)化文本,其在日常生活中已有廣泛運(yùn)用,如對(duì)身份證、銀行票據(jù)、病例、各種登記表格以及高度結(jié)構(gòu)化的書籍等的識(shí)別就屬于邏輯文本分析技術(shù)[14]。
邏輯文本分析技術(shù)的優(yōu)勢(shì)在高度架構(gòu)化文本的識(shí)別整理中更為明顯。相較于幾何文本分析,即便是使用最簡(jiǎn)單的邏輯文檔分析技術(shù)提取高度架構(gòu)化文本中的圖片,也將大幅提升文獻(xiàn)的整理效率。以《簠室殷契征文》一書為例,全書共計(jì)收錄拓片圖1125張,書中內(nèi)容頁(yè)只包含拓片圖像與對(duì)應(yīng)漢字編號(hào)的共有228頁(yè)。如果通過(guò)手工截圖的方式對(duì)這本著錄進(jìn)行整理,約需花費(fèi)20個(gè)小時(shí)的工作時(shí)間。然而,通過(guò)分析文獻(xiàn)頁(yè)面的圖片特征對(duì)圖片進(jìn)行提取,整個(gè)截圖過(guò)程僅需花費(fèi)不到一分鐘的時(shí)間。而且在全部截圖中,累計(jì)錯(cuò)誤截圖僅17張,所需的人工勘誤與整理時(shí)間合計(jì)不超過(guò)半個(gè)小時(shí)。在這個(gè)案例中,使用邏輯文檔分析技術(shù)可以將甲骨文著錄整理的工作效率提高將近40倍。
目前,邏輯文本分析的實(shí)現(xiàn)方式主要有兩種。常見(jiàn)的一種是首先在幾何文本分析的基礎(chǔ)上進(jìn)行字符識(shí)別,然后利用自然語(yǔ)言處理技術(shù)(NLP)對(duì)字符識(shí)別結(jié)果進(jìn)行處理,以理解文本內(nèi)容并推理文檔內(nèi)容之間的邏輯關(guān)系[15](p5-9)。另一種則是直接從圖片中獲取視覺(jué)信息并進(jìn)行語(yǔ)義分析的邏輯文檔分析方式[16]。在流程上,該方式在實(shí)現(xiàn)步奏上與上一種方式有著本質(zhì)區(qū)別。以著錄整理為例,第一種方式需要計(jì)算機(jī)首先將所有圖片上的內(nèi)容識(shí)別出來(lái),在利用NLP技術(shù)進(jìn)行語(yǔ)義理解后將識(shí)別出來(lái)的內(nèi)容歸類并放入目標(biāo)excel表格。然而,不管是圖片內(nèi)容識(shí)別還是語(yǔ)義理解的過(guò)程都存在一定的錯(cuò)誤率,因此最終生成的excel表格一般還需進(jìn)行人工糾錯(cuò)。而第二種方式的實(shí)現(xiàn)步奏是,先不對(duì)文本圖片的具體內(nèi)容進(jìn)行識(shí)別,而是通過(guò)位置判定進(jìn)行分析,即通過(guò)判斷圖片上哪些字距離文中圖片比較近,哪些字在圖表中的第一行等諸如此類的位置信息,提前明確需要識(shí)別的內(nèi)容在目標(biāo)excel表中的位置,并在識(shí)別完成后錄入目標(biāo)excel表。相較于第一種方式,這種利用計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行語(yǔ)義分析的方法可以最大程度地規(guī)避邏輯分析錯(cuò)誤。
對(duì)比邏輯文本分析的兩種實(shí)現(xiàn)方式,對(duì)《殷契文淵》平臺(tái)的著錄類文獻(xiàn)的整理工作而言,第二種實(shí)現(xiàn)方式具有更高的準(zhǔn)確率,可以更好地減少人力的機(jī)械重復(fù)工作。但是,第二種實(shí)現(xiàn)方式需要提供大量的結(jié)構(gòu)化文檔數(shù)據(jù)以供計(jì)算機(jī)進(jìn)行訓(xùn)練。為了早日實(shí)現(xiàn)對(duì)甲骨學(xué)文獻(xiàn)的邏輯文本分析,進(jìn)一步提高文獻(xiàn)的整理效率,《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)正著手創(chuàng)建用于甲骨學(xué)文獻(xiàn)文檔分析的訓(xùn)練數(shù)據(jù)集,以支撐甲骨學(xué)文獻(xiàn)研究中邏輯分析技術(shù)的創(chuàng)新和發(fā)展。相信假以時(shí)日,文獻(xiàn)的整理工作將由人工整理進(jìn)化為人工智能整理,屆時(shí)專家學(xué)者可以將自己搜集到的文獻(xiàn)資料直接上傳至大數(shù)據(jù)平臺(tái),平臺(tái)在完成自動(dòng)化的資料分析整理后錄入數(shù)據(jù)庫(kù),并自動(dòng)實(shí)現(xiàn)與其他數(shù)據(jù)的關(guān)聯(lián)對(duì)比,以此為專家學(xué)者研究甲骨學(xué)提供更多更好的智能化、便捷化服務(wù)。
在順利實(shí)現(xiàn)甲骨學(xué)文獻(xiàn)數(shù)字化的文檔分析之后,能否高效、準(zhǔn)確地實(shí)現(xiàn)甲骨學(xué)文獻(xiàn)內(nèi)容的字符識(shí)別,直接關(guān)系到文獻(xiàn)數(shù)字化的成功與否。因此,字符識(shí)別技術(shù)也是當(dāng)下《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)的研究重點(diǎn)。前文提到,字符識(shí)別技術(shù)的主要目的在于將字符的圖片轉(zhuǎn)化為字符編碼以便計(jì)算機(jī)直接查詢,這項(xiàng)技術(shù)在日常生活中也早有應(yīng)用,使用計(jì)算機(jī)進(jìn)行字符輸入就是通過(guò)輸入法查找字符編碼完成的。對(duì)于《殷契文淵》而言,字符識(shí)別是平臺(tái)“數(shù)據(jù)化”工作的必由之路,只有將文獻(xiàn)中的每一個(gè)字都轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的字符,并將識(shí)別結(jié)果全部錄入到平臺(tái)中,才能實(shí)現(xiàn)文獻(xiàn)內(nèi)容的“網(wǎng)絡(luò)化”,進(jìn)而達(dá)到只需輸入一個(gè)甲骨字/漢字/作者/拓片圖等便可檢索到所有與輸入內(nèi)容相關(guān)的文獻(xiàn)/甲骨片信息的目標(biāo)。
就目前的技術(shù)發(fā)展而言,字符識(shí)別主要是通過(guò)深度學(xué)習(xí)技術(shù)完成的。深度學(xué)習(xí)技術(shù),就是計(jì)算機(jī)使用訓(xùn)練集中的字符數(shù)據(jù)來(lái)訓(xùn)練計(jì)算,通過(guò)不斷“學(xué)習(xí)”獲得正確識(shí)別字符的能力。為了實(shí)現(xiàn)對(duì)每一個(gè)字符的正確識(shí)別,訓(xùn)練集必須囊括所有需要被識(shí)別的圖片和字符,而且每個(gè)字都需要上千張圖片組作為訓(xùn)練數(shù)據(jù),每張圖片也需要標(biāo)記識(shí)別結(jié)果以供計(jì)算機(jī)學(xué)習(xí)。可以看出,要獲得高正確率的識(shí)別結(jié)果,需要在大量具有正確結(jié)果標(biāo)記的數(shù)據(jù)的基礎(chǔ)上不斷進(jìn)行深度學(xué)習(xí)算法開發(fā)。
而根據(jù)字符數(shù)據(jù)集開發(fā)進(jìn)度的不同,字符識(shí)別技術(shù)可以進(jìn)一步細(xì)分為印刷漢字識(shí)別,手寫漢字識(shí)別,拓片甲骨字識(shí)別,手寫甲骨字識(shí)別等。
訓(xùn)練集圖片獲取難度最低的當(dāng)屬印刷體漢字,因?yàn)槌R?jiàn)漢字均可以從網(wǎng)絡(luò)上獲取圖片,甚至可以直接利用標(biāo)準(zhǔn)宋體字庫(kù)作為訓(xùn)練數(shù)據(jù)。當(dāng)下,在印刷體漢字的文獻(xiàn)識(shí)別方面已經(jīng)具備比較成熟的識(shí)別技術(shù),僅漢字識(shí)別這一環(huán)節(jié),識(shí)別準(zhǔn)確率已可達(dá)到99%以上。市面上現(xiàn)已開發(fā)出一大批高質(zhì)量、高準(zhǔn)確率的ocr軟件,這些軟件在簡(jiǎn)/繁體中文的印刷體以及清末石印的古籍漢字等字符的識(shí)別中表現(xiàn)良好。在此基礎(chǔ)上,《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)也已經(jīng)開始利用ocr進(jìn)行甲骨學(xué)文獻(xiàn)數(shù)字化的記錄工作,實(shí)現(xiàn)了部分漢字印刷文獻(xiàn)的全文檢索。對(duì)于已完成數(shù)據(jù)化的文獻(xiàn),在平臺(tái)上輸入文獻(xiàn)中的任何內(nèi)容即可檢索到相關(guān)文獻(xiàn),基本實(shí)現(xiàn)了甲骨學(xué)文獻(xiàn)檢索的便捷化、高效化。
相較于印刷體漢字,手寫漢字?jǐn)?shù)據(jù)集的獲取存在一定的困難,因?yàn)槭謱憹h字很難直接從網(wǎng)絡(luò)圖片中獲取,其收集工作進(jìn)展相對(duì)緩慢。同時(shí),由于每個(gè)人的書寫風(fēng)格有所不同,同一個(gè)手寫字的圖像特征也存在很大差別,客觀上增大了手寫漢字的識(shí)別難度。近年來(lái),手寫漢字識(shí)別一直是國(guó)內(nèi)漢字識(shí)別領(lǐng)域的研究熱點(diǎn),專家學(xué)者也陸續(xù)整理出一系列適合手寫漢字識(shí)別的中文手寫數(shù)據(jù)集,例如,北京郵電大學(xué)整理的HCL2000數(shù)據(jù)集[17],華南理工大學(xué)整理的SCUT-COUCH2009系列數(shù)據(jù)集[18](p53-64),以及中國(guó)科學(xué)院自動(dòng)化研究所整理的CASIA-HWDB1.0-1.2系列數(shù)據(jù)集[19] (p155-162)等。在這些手寫數(shù)據(jù)集中,SCUT-COUCH2009系列數(shù)據(jù)集中共涉及6763個(gè)簡(jiǎn)體漢字以及5401個(gè)繁體漢字,CASIA-HWDB1.0-1.2系列數(shù)據(jù)集則囊括了7185個(gè)簡(jiǎn)體漢字。通過(guò)對(duì)數(shù)據(jù)集中上百萬(wàn)張圖片的訓(xùn)練,單個(gè)手寫漢字的識(shí)別準(zhǔn)確度已經(jīng)可以達(dá)到98%以上。但將文檔分析與漢字識(shí)別相結(jié)合,整個(gè)文檔的漢字識(shí)別正確率卻只有80%左右[20](p370-382)。
盡管對(duì)手寫漢字進(jìn)行識(shí)別的技術(shù)已經(jīng)漸趨成熟,但這類手寫漢字的識(shí)別技術(shù)卻不能直接應(yīng)用于手寫甲骨學(xué)文獻(xiàn)中的漢字字符識(shí)別。這主要是由以下兩方面原因造成的:一方面,作為文字研究類文獻(xiàn),文獻(xiàn)中經(jīng)常出現(xiàn)上述數(shù)據(jù)集中沒(méi)有收錄到的生僻漢字,這些生僻字在手寫漢字?jǐn)?shù)據(jù)集中沒(méi)有出現(xiàn)過(guò),因此無(wú)法進(jìn)行正確識(shí)別;另一方面,甲骨學(xué)文獻(xiàn)常用繁體字書寫,且文中經(jīng)常出現(xiàn)不屬于現(xiàn)代漢字的古文字、隸定字等,即使這些字體不是手寫字,但無(wú)論在數(shù)據(jù)上還是技術(shù)上對(duì)這些字體的相關(guān)研究均不夠充分,因此,手寫甲骨學(xué)文獻(xiàn)中的漢字字符的識(shí)別仍有很長(zhǎng)的路要走。
除漢字字符外,甲骨學(xué)文獻(xiàn)中還收錄了大量的甲骨字字符,根據(jù)文獻(xiàn)中甲骨字所在的位置,可將其分為拓片甲骨字與手寫甲骨字。安陽(yáng)師范學(xué)院甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室以甲骨文識(shí)別為核心開展了一系列的研究開發(fā)工作,其中,拓片甲骨字的識(shí)別便是實(shí)驗(yàn)室的研究重心之一。拓片甲骨字是在整理著錄中拓片圖的基礎(chǔ)上,對(duì)拓片上的每一個(gè)甲骨字進(jìn)行分割整理,并將分割出來(lái)的甲骨字圖片作為訓(xùn)練數(shù)據(jù)供計(jì)算機(jī)進(jìn)行深度學(xué)習(xí)。根據(jù)目前的整理結(jié)果,數(shù)據(jù)集已整理出4927個(gè)甲骨字、474379張甲骨字圖片。但在整理過(guò)程中,由于許多甲骨字的出現(xiàn)次數(shù)過(guò)少,導(dǎo)致訓(xùn)練數(shù)據(jù)出現(xiàn)了樣本不均衡現(xiàn)象,拓片甲骨字的整體識(shí)別準(zhǔn)確率尚未達(dá)到讓人滿意的水平。為規(guī)避樣本不均衡問(wèn)題,我們只對(duì)出現(xiàn)次數(shù)較多的306個(gè)甲骨字(共計(jì)309551張圖片)進(jìn)行了識(shí)別訓(xùn)練,目前達(dá)到的最高單字準(zhǔn)確率為82.28%[21]。
拓片甲骨字的識(shí)別是未來(lái)甲骨文大數(shù)據(jù)平臺(tái)提供智能化服務(wù)的重要一環(huán)。目前,平臺(tái)已經(jīng)初步實(shí)現(xiàn)了查詢包含特定甲骨字的所有甲骨片的功能。隨著拓片甲骨字識(shí)別技術(shù)的完善,該功能將兼容輸入拓片圖進(jìn)行查詢的功能,平臺(tái)會(huì)自動(dòng)對(duì)甲骨拓片上的甲骨字進(jìn)行識(shí)別并利用識(shí)別結(jié)果進(jìn)行檢索,用戶可以通過(guò)點(diǎn)擊自己上傳的拓片圖上的特定甲骨字進(jìn)行直接檢索。
除拓片甲骨字外,甲骨學(xué)文獻(xiàn)中常見(jiàn)的甲骨字通常為手寫甲骨字,這是由于當(dāng)前甲骨字還沒(méi)有統(tǒng)一的字符編碼,在甲骨學(xué)文獻(xiàn)的編輯過(guò)程中,難以利用輸入法直接輸入甲骨字并進(jìn)行排版,因此大部分甲骨學(xué)文獻(xiàn)中的甲骨字通常為手寫甲骨字或甲骨字摹本的截圖。要從根本上解決手寫甲骨字的識(shí)別難題,需要整理并建立甲骨字字符編碼,以確保甲骨學(xué)文獻(xiàn)中的甲骨字書寫方式統(tǒng)一。目前,實(shí)驗(yàn)室已經(jīng)開始著手甲骨字的整理,整理結(jié)果將以甲骨文字庫(kù)的方式上傳到甲骨文大數(shù)據(jù)平臺(tái)。在此基礎(chǔ)上,平臺(tái)還開發(fā)了與字庫(kù)相匹配的甲骨字輸入法以期實(shí)現(xiàn)甲骨字的直接輸入與智能檢索。
對(duì)手寫甲骨字的識(shí)別而言,在已經(jīng)出版的甲骨學(xué)文獻(xiàn)中,不論是手寫甲骨字還是摹本甲骨字,甲骨文都不是書寫者的母語(yǔ),其書寫方式本質(zhì)上都是通過(guò)臨摹方式完成的,手寫甲骨字的識(shí)別與其說(shuō)是字符識(shí)別,不如說(shuō)是圖畫(簡(jiǎn)筆畫)識(shí)別。因此手寫甲骨字的識(shí)別更適合借鑒基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)。而深度學(xué)習(xí)技術(shù)同樣需要建立手寫甲骨字的數(shù)據(jù)集,為此,實(shí)驗(yàn)室還利用甲骨文字庫(kù)專門開發(fā)了手寫甲骨字搜集工具,截至目前,已搜集手寫甲骨字圖片83245張。利用目前收集的手寫甲骨字?jǐn)?shù)據(jù),手寫甲骨字識(shí)別準(zhǔn)確度達(dá)到97.8%,相關(guān)識(shí)別成果已經(jīng)應(yīng)用于平臺(tái)上的手寫甲骨字輸入法的開發(fā)中。隨著手寫甲骨字識(shí)別技術(shù)的逐漸成熟,平臺(tái)未來(lái)也會(huì)推出基于甲骨字識(shí)別的智能化服務(wù),用戶可以隨時(shí)隨地將手機(jī)拍到的甲骨字上傳至平臺(tái)進(jìn)行識(shí)別并查詢相應(yīng)的信息。此外,對(duì)手寫甲骨字識(shí)別的研究也將在計(jì)算機(jī)輔助的基礎(chǔ)上實(shí)現(xiàn)對(duì)甲骨字的筆記識(shí)別,對(duì)于甲骨字的分期研究起到一定的幫助。
本文圍繞《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)“數(shù)據(jù)化”“數(shù)字化”“智能化”三個(gè)發(fā)展階段,重點(diǎn)介紹并展望了文獻(xiàn)數(shù)字化技術(shù)在甲骨學(xué)文獻(xiàn)中的應(yīng)用與前景。在《殷契文淵》甲骨文大數(shù)據(jù)平臺(tái)的建設(shè)過(guò)程中,文獻(xiàn)數(shù)字化技術(shù)為計(jì)算機(jī)提供了可供檢索、關(guān)聯(lián)與分析的數(shù)字化素材,為實(shí)現(xiàn)甲骨學(xué)研究的便捷化、智能化奠定了基礎(chǔ)。盡管利用人工錄入也可以完成文獻(xiàn)數(shù)字化工作,但以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)輔助文獻(xiàn)整理工作,使得甲骨學(xué)文獻(xiàn)整理的工作效率得到了大幅提升,利用人工智能技術(shù)進(jìn)行甲骨學(xué)文獻(xiàn)整理也成為未來(lái)的發(fā)展趨勢(shì)。此外,文獻(xiàn)數(shù)字化技術(shù)也可以為甲骨學(xué)研究者與甲骨文愛(ài)好者提供一系列智能化服務(wù),如圖片手寫甲骨字識(shí)別、拓片字符關(guān)聯(lián)信息檢索等,不斷拓展甲骨學(xué)研究的廣度與深度。目前,《殷契文淵》開發(fā)團(tuán)隊(duì)正積極開展甲骨學(xué)文獻(xiàn)整理相關(guān)應(yīng)用軟件的研發(fā)工作,并針對(duì)深度學(xué)習(xí)所需要的大量數(shù)據(jù)進(jìn)行了搜集與整理,組成了部分?jǐn)?shù)據(jù)訓(xùn)練集。相信隨著大量先進(jìn)技術(shù)的應(yīng)用,《殷契文淵》一定能成為甲骨學(xué)研究的綜合性平臺(tái),為甲骨學(xué)研究持續(xù)取得突破性進(jìn)展提供有力支撐與保障。