亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字人文視角下的古籍整理與閱讀轉(zhuǎn)型

        2023-03-22 22:07:39朱翠萍
        文學(xué)與文化 2023年4期

        內(nèi)容提要:數(shù)字化深刻影響且改變了人文學(xué)術(shù),促進(jìn)了研究范式和學(xué)術(shù)功能的改變。具體到文獻(xiàn)整理領(lǐng)域主要體現(xiàn)在三個方面:文獻(xiàn)生產(chǎn)方式的創(chuàng)革,文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型,以及經(jīng)典閱讀方式的新變。數(shù)字化改變了文本整理方式,使人文學(xué)者可以自動化獲取文本、建立目錄與文本的關(guān)聯(lián),且能夠一定程度上進(jìn)行自動對勘。同時,數(shù)字化也為古籍文獻(xiàn)帶來新的閱讀和呈現(xiàn)方式,從而實現(xiàn)主題聚類、增值性知識關(guān)聯(lián)、時空并行、知識重組沉浸式體驗等。未來,數(shù)字化技術(shù)到智能化技術(shù)的演進(jìn),必將對人文學(xué)術(shù)產(chǎn)生更加深刻的影響。

        關(guān)鍵詞:數(shù)字人文 古籍整理 OCR 自動???聚類 知識重組 沉浸式體驗

        社會發(fā)展至今,數(shù)字化浪潮無所不在,深刻影響并改變著人文學(xué)術(shù)研究。清華大學(xué)人文學(xué)院院長劉石教授總結(jié)了這樣一種現(xiàn)象,說:“我們在數(shù)字時代發(fā)現(xiàn)了前數(shù)字時代難以發(fā)現(xiàn)的現(xiàn)象,提出了前數(shù)字時代難以提出的設(shè)想,開展了前數(shù)字時代難以開展的工作,解決了前數(shù)字時代難以解決的問題?!边@一觀察引發(fā)了一股“數(shù)字人文”研究的熱潮?!皵?shù)字人文”是借助計算機(jī)和數(shù)據(jù)科學(xué)等工具進(jìn)行的人文研究,其本質(zhì)是一門交叉學(xué)科,也是一種方法論。它將數(shù)字技術(shù)應(yīng)用于人文闡釋,代表著知識生產(chǎn)范式因媒介變革而進(jìn)行的一次轉(zhuǎn)型。在古籍文獻(xiàn)領(lǐng)域,這些轉(zhuǎn)變主要表現(xiàn)為:文獻(xiàn)生產(chǎn)的創(chuàng)革,文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型,以及經(jīng)典閱讀方式的新變。

        一 文獻(xiàn)生產(chǎn)方式的創(chuàng)革

        數(shù)字化興盛之前,人們通常采用人工錄入文本的方式,逐字逐句地閱讀并添加標(biāo)點,整理完畢后,將其交給出版單位進(jìn)行編輯和出版。然而,隨著數(shù)字化的普及和發(fā)展,古籍智能整理平臺應(yīng)運(yùn)而生,可以實現(xiàn)文本采集、自動標(biāo)點、繁簡轉(zhuǎn)換、自動排版等一站式工作流程。

        在文獻(xiàn)生產(chǎn)領(lǐng)域,最常用的技術(shù)就是OCR。OCR是Optical Character Recognition的縮寫,意思是指光學(xué)字符識別,它可以將圖像中的文字通過識別軟件轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯和加工。在數(shù)量龐大的古籍整理工作中,這項技術(shù)非常實用,能大幅度提高文本錄入效率。然而,開發(fā)古籍OCR系統(tǒng)并非易事,需要考慮古籍的版式、圖像頁面的完整和平整程度、字體風(fēng)格、異體關(guān)系,以及現(xiàn)有字庫的大小等多種因素。開發(fā)者需要通過對古籍版式的綜合分析、對文本內(nèi)容的智能化理解訓(xùn)練、對字形風(fēng)格的模擬,以及在字庫大小和字符使用規(guī)范之間取得平衡等,使古籍OCR工具最大限度地滿足使用者的需求。目前市面上的古籍OCR工具,對于版面清晰、刻寫規(guī)整的古籍來說,識別準(zhǔn)確率多已超過90%,識別速度也達(dá)到了每臺服務(wù)器8萬頁/日,文獻(xiàn)資料的生產(chǎn)效率大大提高。

        當(dāng)然,也存在大量古籍采集不易的情況,如下圖所示:

        上圖中間方框中的四個字,從字形上來看都像“月”字,但其解釋是“上偏旁舟,二偏旁丹,三偏旁肉,下魚曰翻”,說明這四個字分別是“舟、丹、肉、月”等不同的字,若用OCR系統(tǒng)進(jìn)行簡單識別,必定會因為字形極其接近而出錯。但這只是OCR識別困難情況中的一種,在古籍中還存在大量復(fù)雜多樣的字符情況,主要表現(xiàn)在以下幾個方面:有古有今、有中有外、有字有符。

        所謂“有古有今”是指古籍中包含著甲骨文、金文、小篆、楷書等不同時代的文字符號,即使是流傳至今廣泛應(yīng)用的楷書字形,由于大量異體字的存在,也對自動識別構(gòu)成了極大的困難。

        所謂“有中有外”是指古籍文獻(xiàn)中,除了漢字(包括一些疑難字的整理)以外,還存在如梵文、巴利文等非漢字的文字符號。

        所謂“有字有符”是指古籍文獻(xiàn)中,除了表音、表意的字之外,還包括如音樂文獻(xiàn)中的古琴譜和道教文獻(xiàn)中的符箓等非字符號。

        針對這些特殊符號,數(shù)量多的一般都是建立專屬的字庫進(jìn)行訓(xùn)練識別;數(shù)量少的,出于經(jīng)濟(jì)考量,往往把其納入到某一類特殊符號中采用單個插入的方式使用。

        總體來說,數(shù)字化時代,相較于傳統(tǒng)手寫和雕版印刷的方式,在文獻(xiàn)生產(chǎn)的方式方面發(fā)生了根本性的變化,故稱之為“創(chuàng)革”。

        二 文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型

        傳統(tǒng)文獻(xiàn)學(xué)主要包含版本目錄學(xué)、??睂W(xué)、斷句標(biāo)點等。

        版本,原指雕版刷印的書本,雕版印刷發(fā)明之前,沒有這個概念,雕版印刷發(fā)明之后,主要是從宋代才開始使用此概念。后來,“版本”的含義開始逐漸豐富,不僅僅指雕版印刷的本子,還可以指寫本、活字本、批校本等。近代排印技術(shù)出現(xiàn)之后,又出現(xiàn)了石印本、鉛印本等新形式,現(xiàn)代計算機(jī)技術(shù)出現(xiàn)之后,版本更是不再局限于紙質(zhì)本子,進(jìn)而擴(kuò)展到非紙質(zhì)載體的“數(shù)字版”了。故而,版本問題可以算是一個既古老又現(xiàn)代的課題。

        數(shù)字化技術(shù)出現(xiàn)之后,圍繞古籍整理工作建設(shè)大量古籍書目數(shù)據(jù)庫,開發(fā)了自動校勘、自動標(biāo)點、引文核查、繁簡轉(zhuǎn)換等系統(tǒng),對古籍整理效率的提高起到至關(guān)重要的作用。

        (一)版本目錄的數(shù)字化轉(zhuǎn)型

        古籍書目數(shù)據(jù)庫改變了傳統(tǒng)的平面化呈現(xiàn)方式,以關(guān)聯(lián)性和立體化的面貌呈現(xiàn)。例如《中國古籍總目》數(shù)據(jù)庫①通過數(shù)字化和結(jié)構(gòu)化處理,將題名、責(zé)任者、版本、館藏、子目等具體信息拆分出來,使原書條目信息分門別類、清晰明了地呈現(xiàn)。同時,它集中展示了新中國成立以來出版的古籍整理本成果,并與《中國古籍總目》中記錄的古籍條目進(jìn)行了計算機(jī)自動關(guān)聯(lián)匹配。

        (二)??钡臄?shù)字化轉(zhuǎn)型

        在文獻(xiàn)學(xué)中,??钡姆椒ㄒ话惴譃閷π?、他校、本校、理校四類。為了提高古籍整理者的??毙剩查_發(fā)了相應(yīng)的技術(shù)來進(jìn)行輔助。

        目前來說,應(yīng)用最廣、效果最明顯的是針對對校場景而開發(fā)的自動對勘技術(shù)。自動對勘,就是將不同版本的電子文本上傳至平臺,瞬間完成幾十萬字的不同版本的文字比對工作,同時還會參照??睂W(xué)中錯誤類別“訛衍倒脫”等分類,設(shè)置“異①衍倒脫”等差異類型,并配以??庇浱顚懜袷娇蛴脕頃鴮懶?庇?,然后生成并導(dǎo)出“校勘長編”。筆者曾以周祖謨先生的《廣韻校本》進(jìn)行實驗,測試自動對勘系統(tǒng)的效果,以《廣韻校本》所提到的底本和校本作為自動對勘的底本和校本,從時間、速度和比對準(zhǔn)確性等方面進(jìn)行分析,如下表所示:

        經(jīng)過驗證,人工需要2個月完成的工作,自動對勘系統(tǒng)幾分鐘就完成了,大大縮減了時間成本,提高了效率。同時,自動對勘系統(tǒng)還十分有效地規(guī)避了人為疏漏,人工可以發(fā)現(xiàn)的問題,計算機(jī)都發(fā)現(xiàn)了,人工沒有發(fā)現(xiàn)的問題,計算機(jī)也發(fā)現(xiàn)了。但另一方面,由于計算機(jī)讀取字形編碼和人類的判定存在差異,以及字形處理規(guī)范的一些規(guī)定,會影響異文數(shù)量。例如,在新舊字形方面,自動對勘系統(tǒng)發(fā)現(xiàn)了210處,人工記錄了0處,這一方面是??闭邔憽稄V韻校本》時還沒有新舊字形的概念的緣故;另一方面,即使讓現(xiàn)代人進(jìn)行校勘,也不會把這些本屬于印刷概念上的字形差異判定為有效的校勘差異。這就是人和自動??毕到y(tǒng)的差別。

        (三)斷句標(biāo)點的數(shù)字化轉(zhuǎn)型

        為了讓現(xiàn)代人看懂古籍,整理者多會采取逐句閱讀、斷句標(biāo)點的方式,整理周期一般都很長。古籍整理智能技術(shù)研發(fā)者便利用前人已經(jīng)標(biāo)點好的數(shù)據(jù)進(jìn)行訓(xùn)練,使系統(tǒng)能夠自動理解并斷點文句,從而提高古籍的斷點效率。目前,多采用的是bert模型,運(yùn)用一種類似“完形填空”的訓(xùn)練邏輯讓系統(tǒng)反復(fù)預(yù)測缺失或故意遮掩的內(nèi)容,從而達(dá)到正確填充標(biāo)點的效果。目前市場上有影響力的古聯(lián)公司自動標(biāo)點系統(tǒng),在斷句方面達(dá)到了96%的正確率,在標(biāo)點方面也能達(dá)到92%的正確率,整理者完全可以通過自動標(biāo)點技術(shù)形成一個相對成熟的古籍整理作品,然后再發(fā)揮專家優(yōu)勢,將斷句標(biāo)點的正確率提升到讀者滿意的水平。所以說,在古籍?dāng)嗑錁?biāo)點方面也實現(xiàn)了很好的轉(zhuǎn)型。

        (四)繁簡轉(zhuǎn)換系統(tǒng)

        考慮到現(xiàn)代人對繁體字文本閱讀困難,古籍整理者會將繁體字轉(zhuǎn)換為簡體字,古籍整理技術(shù)研發(fā)者針對這一需求,開發(fā)了繁簡轉(zhuǎn)換系統(tǒng)。在該系統(tǒng)中,最關(guān)鍵的不是轉(zhuǎn)換技術(shù)本身,而是復(fù)雜的字際關(guān)系。一個實用的繁簡轉(zhuǎn)換程序,需要考慮以下幾個方面的因素:一是編碼層面的同碼異形、同形異碼以及誤用私用區(qū)編碼問題;二是繁簡對應(yīng)方面的一對多、多對一、無對應(yīng)等問題;三是繁體字的異體字形較多問題。所以,開發(fā)一個相對理想的繁簡轉(zhuǎn)換系統(tǒng)就需要按照一定的邏輯逐層梳理。先進(jìn)行編碼層面的認(rèn)同,再將不合法的類推簡化字還原為繁體字形,然后將同一個字的異體字形進(jìn)行歸并和認(rèn)同,再根據(jù)一定的場景結(jié)合上下文義進(jìn)行轉(zhuǎn)換,才會得到較為可靠的結(jié)果。

        正是由于以上系列技術(shù)的研發(fā),文獻(xiàn)整理的很多方面都實現(xiàn)了由傳統(tǒng)方式向數(shù)字化甚至智能化的轉(zhuǎn)型。這不僅大大提高了古籍整理的工作效率,也為古籍的保護(hù)和傳承開辟了新的可能。

        三 經(jīng)典閱讀方式的新變

        數(shù)字化技術(shù)的出現(xiàn),不僅在生產(chǎn)端產(chǎn)生了很大的影響,還促成了新的閱讀和研究方式。這主要體現(xiàn)在以下幾個方面:

        (一)主題聚類檢索閱讀

        在傳統(tǒng)閱讀中,一般是自上而下、自右而左,或者是自左而右、自上而下的線性閱讀方式。然而,在數(shù)字化時代,人們往往以主題詞檢索的方式開展同類主題聚合。然后,再對資料進(jìn)行集中總結(jié)和分析,找到自己需要的信息或得出某種結(jié)論。一般來說,文本類數(shù)據(jù)庫大都能夠滿足這種需求,不再贅述。

        (二)增值性知識關(guān)聯(lián)

        傳統(tǒng)知識組織的方式是平面化的,而數(shù)字時代的內(nèi)容組織卻是立體的。前臺的文本資料與后臺的知識體系關(guān)聯(lián)在一起,既不影響文本閱讀的流暢,又可在文本閱讀出現(xiàn)困難的時候,可以即時找到延展性知識內(nèi)容,從而掃除閱讀中的障礙。這種關(guān)聯(lián)可以是解決疑難字的字典,例如《殷墟甲骨文數(shù)據(jù)庫》配有《甲骨字典》,方便閱讀者閱讀甲骨釋文的時候,遇到不認(rèn)識的甲骨文進(jìn)行查詢。

        也可以是解決疑難知識的專題詞典,如人名辭典、地名辭典、職官詞典,或者紀(jì)年表,例如籍合網(wǎng)(https://www.ancientbooks.cn)內(nèi)置了各類專題詞典和紀(jì)年換算表格,用于支撐平臺各數(shù)據(jù)庫的閱讀查詢所需。這些功能為讀者提供了實時、方便的咨詢工具,大大提升了閱讀的效率和體驗。

        還可以是解決疑難現(xiàn)象的同實異稱、同稱異實等事實類考證內(nèi)容,例如中國人民大學(xué)李今教授主持的《漢譯文學(xué)編年考錄數(shù)據(jù)庫》,為1896年至1949年間期刊上的漢譯文學(xué)及其相關(guān)現(xiàn)象做了編目、整理和考釋,并為譯介者做了生平簡介以及筆名錄。這樣的功能提供了深入、詳實的背景信息,有助于讀者更深入地理解和研究文本。

        (三)可視化知識圖譜

        隨著數(shù)字人文研究與實踐的深入開展,越來越多的學(xué)者及古籍?dāng)?shù)字化從業(yè)者開始由簡單的資料匯集到深入的內(nèi)容加工,他們把平面的文字資料進(jìn)行人物、時間、地點、事件等方面的提取,并開展各種維度的屬性標(biāo)引,相同屬性之間可以歸類,甚至可以借助屬性關(guān)系進(jìn)行推理,從而使文獻(xiàn)資料由平面敘述、說明變?yōu)橹R網(wǎng)絡(luò)的存在,呈現(xiàn)出基于一定專業(yè)邏輯的結(jié)構(gòu)化關(guān)聯(lián),然后借助現(xiàn)代的知識圖譜技術(shù)進(jìn)行生動展示。例如,北京大學(xué)數(shù)字人文研究中心《宋元學(xué)案》知識圖譜系統(tǒng)、北京師范大學(xué)的《漢字全息資源應(yīng)用系統(tǒng)》都是很好的例子。

        (四)時空并重

        在數(shù)字人文的研究中,我們可以通過時空數(shù)據(jù)的整合,以全新的方式理解、解釋歷史和文化現(xiàn)象。我們可以利用地理信息系統(tǒng)(GIS)技術(shù),將歷史事件或文化現(xiàn)象在特定時間和地點的發(fā)生進(jìn)行可視化,從而在更大的范圍內(nèi)觀察和理解文獻(xiàn)中的信息。例如,歷史學(xué)家可以將古代詩人生活軌跡、人口遷移、疾病傳播等信息映射到地圖上,以空間的方式呈現(xiàn)時間的流動,揭示出這些現(xiàn)象背后的歷史規(guī)律和文化模式,四川大學(xué)文學(xué)與新聞學(xué)院王兆鵬老師開發(fā)的《唐宋文學(xué)編年地圖》就是很有影響力的例證。

        (五)基于閱讀的知識重組

        在數(shù)字環(huán)境中,閱讀的方式已經(jīng)發(fā)生了根本性的變化。讀者不再被限制于單一的、線性的文本閱讀,而是可以在廣闊的知識網(wǎng)絡(luò)中自由穿行,通過鏈接、搜索和注釋等工具,將來自不同來源、不同領(lǐng)域的信息整合在一起,形成專門的知識體系。例如中國人民大學(xué)夏明方教授主持的國家社科基金重大項目成果《清代災(zāi)荒紀(jì)年暨信息集成數(shù)據(jù)庫》①,從清代史書和地方志等文獻(xiàn)中提取與自然災(zāi)害相關(guān)的信息,重組為災(zāi)害類的專題數(shù)據(jù)庫,詳細(xì)梳理了災(zāi)害類型、災(zāi)害級別、賑災(zāi)政策等內(nèi)容,提煉出一個新的知識體系,為史學(xué)研究之外的大氣物理研究、地震研究及政府咨詢等多領(lǐng)域提供了很好的參考。

        (六)沉浸式體驗

        數(shù)字人文技術(shù)還為我們提供了全新的、沉浸式的閱讀和學(xué)習(xí)體驗。例如,虛擬現(xiàn)實(VR)和增強(qiáng)現(xiàn)實(AR)技術(shù)可以將讀者帶入歷史現(xiàn)場,讓他們親身體驗歷史事件或文化現(xiàn)象。這種沉浸式體驗,不僅能夠提供更生動、直觀的知識傳遞方式,也能夠激發(fā)讀者的興趣和參與度,從而深化對文獻(xiàn)內(nèi)容的理解和記憶。例如,通過VR技術(shù),讀者可以親身走進(jìn)古羅馬的街頭,參觀中世紀(jì)的教堂,或是親眼看到長城的建設(shè)過程,這些都將給讀者帶來深刻的歷史感受和理解。

        還可以利用元宇宙技術(shù)復(fù)活古人,實現(xiàn)跨時空的對話,讓古代文獻(xiàn)的作者以類真人的方式,展示其生活或傳遞其作品中所承載的文化和知識內(nèi)容。例如中華書局構(gòu)建的“3D超寫實數(shù)字人蘇東坡”,通過數(shù)字全息技術(shù),在中央電視臺2023年度“詩詞大會”中亮相,不僅生動再現(xiàn)了其與友人黃庭堅告別的場景,還與現(xiàn)場的選手互動誦詩。

        時至今日,美國OPENAI公司推出了可以聊天、書寫文本摘要、翻譯,甚至可以寫代碼的聊天機(jī)器人ChtaGPT,再次引爆了網(wǎng)絡(luò),引發(fā)了以人工智能為代表的新一輪技術(shù)革命,并逐漸影響到業(yè)界和學(xué)術(shù)界。

        這些新的數(shù)字技術(shù)給人文領(lǐng)域帶來了很大改變,并形成了“數(shù)字人文”這一具有強(qiáng)烈時代特征的學(xué)科概念,成為迄今為止理念最為開放、成就最為顯著的跨學(xué)科閱讀與研究范式。這不僅打破了學(xué)術(shù)壁壘,架構(gòu)了學(xué)科橋梁,甚至拉近了讀者與專家的距離,改變了閱讀和接受知識的方式。

        (朱翠萍,中華書局古聯(lián)公司副總經(jīng)理)

        亚洲AV无码乱码1区久久| 男女猛烈拍拍拍无挡视频| 女人让男人桶爽30分钟| 亚洲日本三级| 在线观看黄片在线播放视频| 漂亮人妻被强了中文字幕| 久久精品夜色国产亚洲av| 欧洲熟妇乱xxxxx大屁股7| 高潮社区51视频在线观看| 自拍视频在线观看国产| 亚洲国产成人一区二区精品区| 最近免费中文字幕| 国产真实伦视频在线视频| 亚洲成av人片极品少妇| 国产综合色在线视频区| 丰满五十六十老熟女hd| 久久精品视频按摩| 亚洲无精品一区二区在线观看| 国产精品刮毛| 91免费永久国产在线观看| 亚洲黄色官网在线观看| 国产亚洲一区二区三区综合片| 亚洲av成人中文无码专区| 国产V日韩V亚洲欧美久久| 一区二区三区精品亚洲视频| 成年av动漫网站18禁| 少女高清影视在线观看动漫| 国产成年无码久久久免费| 国产日韩欧美在线| 一区二区三区四区四色av| 国产精品国产三级国产密月| 亚洲成av人片在线观看ww| 日韩一区二区超清视频| 精品亚洲av一区二区| 人妻激情偷乱视频一区二区三区 | 国产一区高清在线观看| 久久精品人人做人人综合| 人妖精品视频在线观看| 国产日产亚洲系列首页| 精品视频无码一区二区三区| 日韩第四页|