亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏用并舉,賡續(xù)文脈:以數(shù)字化技術(shù)打造古籍綜合服務(wù)平臺(tái)

        2024-01-01 00:00:00何思源
        全國(guó)新書目 2024年6期
        關(guān)鍵詞:古籍數(shù)字化

        卷帙浩繁的中華古籍凝結(jié)著先人的智慧,記載著璀璨的文化,訴說著綿延不絕的中華文明。由于所述所記年代的久遠(yuǎn),古籍在今天很多人的印象中往往晦澀難懂、深藏高閣。好在數(shù)字技術(shù)與新媒體平臺(tái)正在有力地改變這一印象,古籍?dāng)?shù)字化、智慧化應(yīng)用的持續(xù)推進(jìn)不僅讓各種古籍的面貌煥然一新,還解決了“藏”與“用”的問題,不斷激發(fā)著古籍的生命力。隨著古籍?dāng)?shù)字化進(jìn)程的不斷加快,尚古匯典·古籍?dāng)?shù)字服務(wù)平臺(tái)(以下簡(jiǎn)稱“尚古匯典”平臺(tái))等數(shù)字化平臺(tái)的涌現(xiàn)讓不可再生的古籍獲得了數(shù)字生命,在“云端”安家永駐,成為大眾共享的文化資源。

        除了將“書”放到網(wǎng)上方便查閱,古籍?dāng)?shù)字化的另一項(xiàng)重要任務(wù)是深入發(fā)掘古籍中的內(nèi)容,創(chuàng)新古籍的更多打開方式。作為由上海世紀(jì)出版集團(tuán)規(guī)劃設(shè)計(jì)、上海古籍出版社具體實(shí)施、全力打造的古籍?dāng)?shù)字化綜合服務(wù)平臺(tái),“尚古匯典”平臺(tái)聚合了優(yōu)質(zhì)的古籍資源,在光學(xué)文字識(shí)別、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)基礎(chǔ)上,不僅可以為古籍整理出版者、古籍專業(yè)研究者及傳統(tǒng)文化愛好者提供數(shù)字服務(wù),還能夠賦能古籍整理出版、學(xué)術(shù)研究和國(guó)學(xué)傳習(xí)。面對(duì)古籍中蘊(yùn)藏著的龐大的知識(shí)體系和大量的歷史故事,以及豐厚的哲學(xué)思想、人文精神、價(jià)值理念和道德規(guī)范,只有把這些文化資源開掘出來,與當(dāng)下生活實(shí)踐相結(jié)合,與當(dāng)下受眾審美趣味相契合,才能全面實(shí)現(xiàn)從知識(shí)共享到知識(shí)服務(wù),讓古籍的內(nèi)容真正“活”起來,從而讓更多人走近古籍、了解古籍。在采訪中,上海古籍出版社副社長(zhǎng)兼副總編輯吳長(zhǎng)青分享了“尚古匯典”平臺(tái)應(yīng)用的先進(jìn)數(shù)字技術(shù)和目前取得的成果,在解決古籍?dāng)?shù)字化過程中格式多樣的問題和古籍OCR(Optical Character Recognition,意為光學(xué)字符識(shí)別)識(shí)別引擎訓(xùn)練上獲得的寶貴經(jīng)驗(yàn),“尚古匯典”平臺(tái)對(duì)于古籍OCR工具個(gè)人版和機(jī)構(gòu)版進(jìn)行的針對(duì)性設(shè)計(jì),以及“尚古匯典”平臺(tái)正在探索的領(lǐng)域和未來的發(fā)展方向。

        《全國(guó)新書目》:歷經(jīng)四年的計(jì)劃和建設(shè),目前“尚古匯典”平臺(tái)取得了哪些成果?

        吳長(zhǎng)青:從去年8月“尚古匯典”平臺(tái)正式發(fā)布以來,我們將權(quán)威、優(yōu)質(zhì)、全面的古籍?dāng)?shù)字化資源輸送到學(xué)界,并為用戶提供了舒適的閱讀、精準(zhǔn)的檢索等功能,不僅使平臺(tái)上的古籍資源更易于得到,也使這些資源更方便利用。目前平臺(tái)開通試用的機(jī)構(gòu)有200余家,包括高校、公共圖書館、研究機(jī)構(gòu)、黨政系統(tǒng)、出版機(jī)構(gòu)等,覆蓋大陸、港澳臺(tái)地區(qū)和海外。

        我們已完成開發(fā)并上線的數(shù)據(jù)庫(kù)有“典籍整理文獻(xiàn)數(shù)據(jù)庫(kù)”,目前上線共4期,收錄圖書3800余種,一共10億字,內(nèi)容主要以我社的核心整理文獻(xiàn)為主,比如很有代表性的“中國(guó)古典文學(xué)叢書”“十三經(jīng)譯注”“商周青銅器銘文暨圖像集成”系列等;還有“上海文獻(xiàn)數(shù)據(jù)庫(kù)”下的“府縣舊志”和“上海市志”子庫(kù),它們一共收書130余種,共0.84余億字。

        同時(shí),“尚古匯典”平臺(tái)的古籍?dāng)?shù)據(jù)庫(kù)常見、必備功能已達(dá)到目前國(guó)內(nèi)行業(yè)的領(lǐng)先水平。以閱讀功能為例,除了圖文對(duì)讀閱讀模式等多種閱讀常用功能,“尚古匯典”平臺(tái)在閱讀界面還可以使用個(gè)人筆記、查詢字典。在設(shè)計(jì)上,我們會(huì)更關(guān)注古籍的特點(diǎn),并進(jìn)行針對(duì)性的功能開發(fā)。比如專業(yè)學(xué)者可以使用引用復(fù)制功能,快捷便利地完成引用注釋工作。

        古籍?dāng)?shù)據(jù)庫(kù)另一不可或缺的核心基礎(chǔ)功能是檢索功能?!吧泄艆R典”平臺(tái)目前提供普通檢索、高級(jí)檢索和圖書檢索三種模式,檢索方案掃除了繁簡(jiǎn)體字、異體字,同義詞、字圖字等檢索障礙。此外,目前平臺(tái)還配備了聯(lián)機(jī)字典、紀(jì)年換算工具、適配于古籍的OCR(個(gè)人版)工具等,力爭(zhēng)給用戶帶來更便利、優(yōu)質(zhì)的使用感受。

        《全國(guó)新書目》:為了幫助古籍研究者提高效率,獲得更高質(zhì)量的古籍資源,“尚古匯典”平臺(tái)目前利用了哪些先進(jìn)數(shù)字技術(shù)?

        吳長(zhǎng)青:“尚古匯典”平臺(tái)是集資源展示、資源檢索、技術(shù)服務(wù)為一體的古籍?dāng)?shù)字服務(wù)平臺(tái)。在資源展示上,“尚古匯典”平臺(tái)利用國(guó)內(nèi)目前最先進(jìn)的排印本OCR技術(shù),輔以優(yōu)質(zhì)專業(yè)的人工校對(duì),使得數(shù)字資源錯(cuò)誤率低于萬分之一,達(dá)到國(guó)家《圖書質(zhì)量管理規(guī)定》中對(duì)紙質(zhì)書的同等要求水平;在資源檢索上,“尚古匯典”平臺(tái)使用分布式、高擴(kuò)展的ES搜索引擎,并配合獨(dú)有的搜索方案,提供了海量數(shù)據(jù)高速檢索能力,百億字檢索響應(yīng)時(shí)間低于0.5秒;在技術(shù)服務(wù)上,“尚古匯典”平臺(tái)使用了最新的人工智能模型,以古籍OCR工具為例,不僅能在1秒鐘以內(nèi)完成單張圖片的版式和文字識(shí)別,且平均識(shí)別準(zhǔn)確率達(dá)到98%以上。

        《全國(guó)新書目》:古籍版式繁多而且復(fù)雜,密集的文字和圖文混排都會(huì)給自動(dòng)識(shí)別和標(biāo)注帶來困難,請(qǐng)問“尚古匯典”平臺(tái)是如何解決古籍?dāng)?shù)字化過程中格式多樣的問題的?在古籍OCR識(shí)別引擎的訓(xùn)練上獲得了哪些寶貴經(jīng)驗(yàn)?

        吳長(zhǎng)青:近十來年,隨著人工智能深度學(xué)習(xí)技術(shù)的突飛猛進(jìn),現(xiàn)代書籍、文檔的識(shí)別已經(jīng)達(dá)到相當(dāng)高的水平,古籍領(lǐng)域相對(duì)小眾,但是學(xué)界、業(yè)界對(duì)于古籍識(shí)別的嘗試一直在進(jìn)行中。

        正如大家所知道的,與現(xiàn)代書籍相比,古籍的時(shí)間跨度更長(zhǎng),載體也更豐富,年代、地域、印制機(jī)構(gòu)的不同都會(huì)極大地影響古籍的展現(xiàn)形式,這些都給古籍OCR帶來了很大的困難?!吧泄艆R典”平臺(tái)在最新人工智能模型的加持下,在專業(yè)編輯提供的高質(zhì)量、大規(guī)模的古籍標(biāo)準(zhǔn)化標(biāo)注數(shù)據(jù)基礎(chǔ)上,利用原版古籍?dāng)?shù)據(jù)進(jìn)行了針對(duì)性訓(xùn)練,目前已經(jīng)可以實(shí)現(xiàn)對(duì)古籍中版心、正文、注釋、標(biāo)題、表格、插圖、眉批、夾注等格式的識(shí)別,達(dá)到了國(guó)內(nèi)領(lǐng)先水平。

        對(duì)于古籍來說,不管是文字還是格式的識(shí)別,最大的困難都在于訓(xùn)練數(shù)據(jù)的標(biāo)注。古籍的訓(xùn)練數(shù)據(jù)標(biāo)注工作對(duì)于標(biāo)注人員的古籍專業(yè)知識(shí)儲(chǔ)備和古籍編校經(jīng)驗(yàn)要求都很高,如果不是對(duì)古籍有相當(dāng)程度的了解,是無法準(zhǔn)確標(biāo)注出各種復(fù)雜的版式和不同情況的文字的。好在我社在此領(lǐng)域有天然優(yōu)勢(shì),近一年時(shí)間里,我們組織了大量古籍編校經(jīng)驗(yàn)豐富的標(biāo)注人員對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了專業(yè)、精細(xì)的文字和版式標(biāo)注工作,從而確保了訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和權(quán)威性。

        與此同時(shí),人工智能模型的選擇也是影響最終識(shí)別效果的重要因素之一。我們調(diào)研了大量學(xué)術(shù)界的代表性模型,并最終選擇了2023年發(fā)布的sota模型進(jìn)行文字識(shí)別和版式識(shí)別,以期在準(zhǔn)確率和速度上達(dá)到較優(yōu)的平衡。

        回顧古籍OCR功能開發(fā)的一年時(shí)間里,我們收獲良多。一方面,我們實(shí)現(xiàn)了大量?jī)?yōu)質(zhì)基礎(chǔ)數(shù)據(jù)的積累;另一方面,我們進(jìn)行了技術(shù)上的探索,在探索過程中我們始終保持開放的視野,緊跟最新技術(shù)發(fā)展的動(dòng)態(tài)。這些對(duì)于有著悠久歷史的上海古籍出版社來說都有極大的價(jià)值,不忘初心,活用積累的資源,發(fā)揮專業(yè)的優(yōu)勢(shì),接納最新的技術(shù)等等,這些必將在未來給我們帶來更加廣闊的發(fā)展前景。

        《全國(guó)新書目》:相對(duì)于其他古籍?dāng)?shù)字化平臺(tái),“尚古匯典”平臺(tái)在閱讀功能的開發(fā)中進(jìn)行了哪些突破和創(chuàng)新?

        吳長(zhǎng)青:我們從用戶習(xí)慣出發(fā),基于古籍特性,對(duì)平臺(tái)的閱讀功能做了針對(duì)性優(yōu)化,以期為用戶提供更好的體驗(yàn)。比如,古籍文本中有較多的注釋性文字,我們?yōu)榱颂嵘脩舻捏w驗(yàn),開發(fā)了注釋性文字的一鍵跳轉(zhuǎn)功能。用戶可以點(diǎn)擊注號(hào),在彈窗中查看注文,或者跳轉(zhuǎn)到對(duì)應(yīng)注釋頁(yè)面查看,再點(diǎn)擊注號(hào)就可以回轉(zhuǎn)到正文繼續(xù)閱讀。又如,古籍中文字的情況較為復(fù)雜,對(duì)于一些生僻字、甲骨文、金文、少數(shù)民族文字等只能處理為字圖,為了讓用戶的閱讀更加順暢,我們對(duì)字圖做了一定處理,以便它們能夠自然融入正文,并支持與其他文字同時(shí)、同比放大縮小。

        《全國(guó)新書目》:如果為讀者提供更多結(jié)構(gòu)化、圖譜化、智能化數(shù)據(jù)的話,目前存在哪些難點(diǎn),您認(rèn)為有哪些值得探索的解決方案?

        吳長(zhǎng)青:知識(shí)圖譜是近些年比較引人矚目的數(shù)字化概念,尤其是在中國(guó)傳統(tǒng)文化方面,涌現(xiàn)出了一大批專題知識(shí)圖譜產(chǎn)品,在這個(gè)過程中知識(shí)圖譜的相關(guān)技術(shù)也在不斷成熟。目前我社在積累結(jié)構(gòu)化、知識(shí)化數(shù)據(jù)的同時(shí),也在積極探索這些數(shù)據(jù)的應(yīng)用場(chǎng)景和商業(yè)落地模式。

        知識(shí)圖譜實(shí)現(xiàn)的難點(diǎn)首先與古籍OCR的開發(fā)類似,提供結(jié)構(gòu)化、知識(shí)化的數(shù)據(jù)需要大量相關(guān)專業(yè)背景的成熟標(biāo)注人員。這些標(biāo)注人員不僅要對(duì)古籍知識(shí)有所了解,本身還需要對(duì)中國(guó)傳統(tǒng)文化有深入的理解和敏銳度,才能在標(biāo)注工作中對(duì)知識(shí)點(diǎn)、知識(shí)關(guān)聯(lián)性等保持精準(zhǔn)的判斷。不可否認(rèn)可視化動(dòng)態(tài)產(chǎn)品確實(shí)拉近了古籍和大眾的距離,然而目前知識(shí)圖譜相關(guān)的產(chǎn)品在落地方面還沒有形成成熟的商業(yè)模式,其價(jià)值的實(shí)現(xiàn)途徑仍不明朗。知識(shí)圖譜的標(biāo)注工作和最終呈現(xiàn)都需要前期巨大的投入,但如何讓用戶買單仍是難題。在數(shù)據(jù)層面上,我社依靠成立以來歷年的優(yōu)質(zhì)權(quán)威出版資源積累和經(jīng)驗(yàn)豐富的優(yōu)秀編輯團(tuán)隊(duì),已經(jīng)完成了部分結(jié)構(gòu)化知識(shí)的積累,比如《歷代職官表》《古今人物別名索引》、各類年譜著作等。在產(chǎn)品層面上,我們正積極探索與研究機(jī)構(gòu)、高校等的項(xiàng)目合作,希望利用資源互補(bǔ),形成在學(xué)界有競(jìng)爭(zhēng)力的產(chǎn)品,為學(xué)術(shù)研究助力,并以此為窗口,逐步打開知識(shí)圖譜的市場(chǎng)需求。

        《全國(guó)新書目》:“尚古匯典”平臺(tái)目前主要服務(wù)的讀者(或用戶)群體有哪些?對(duì)于“尚古匯典”古籍OCR工具的個(gè)人版和機(jī)構(gòu)版,平臺(tái)進(jìn)行了哪些針對(duì)性設(shè)計(jì)?

        吳長(zhǎng)青:“尚古匯典”平臺(tái)目前主要服務(wù)的用戶集中在古籍整理出版者和古籍專業(yè)研究者中,隨著平臺(tái)的不斷完善,我們希望未來能為傳統(tǒng)文化愛好者提供優(yōu)質(zhì)全面的服務(wù)。

        針對(duì)“尚古匯典”古籍OCR(個(gè)人版)工具,我們從個(gè)人用戶的需求和習(xí)慣出發(fā),圍繞識(shí)別、校正、文本導(dǎo)出三大核心功能提供優(yōu)質(zhì)便利的使用體驗(yàn)。第一,在識(shí)別功能方面,我們?cè)诟哔|(zhì)量、大規(guī)模的古籍標(biāo)準(zhǔn)化標(biāo)注數(shù)據(jù)基礎(chǔ)上,利用原版古籍?dāng)?shù)據(jù)進(jìn)行了針對(duì)性訓(xùn)練,行識(shí)別與字識(shí)別兩相對(duì)照,目前版式和文字的平均識(shí)別準(zhǔn)確率均達(dá)98%。第二,在校正方面,不僅支持用戶將原文與識(shí)別文字列對(duì)列逐字校正,還支持用戶進(jìn)行版式校正。第三,在文本導(dǎo)出方面,考慮到古籍文本復(fù)雜的版面情況,比如有眉批、夾注等,對(duì)導(dǎo)出的識(shí)別文本我們會(huì)在格式顯示上區(qū)分出不同的版式。

        “尚古匯典”古籍OCR(機(jī)構(gòu)版)工具在繼承了古籍OCR(個(gè)人版)工具優(yōu)勢(shì)的同時(shí),更貼合實(shí)際項(xiàng)目管理需求,不但為機(jī)構(gòu)用戶配備了項(xiàng)目管理后臺(tái),還提供了更加全面、高效的文字識(shí)別體驗(yàn)。首先是易錯(cuò)字提醒,在高質(zhì)量、大規(guī)模的古籍標(biāo)準(zhǔn)化標(biāo)注數(shù)據(jù)基礎(chǔ)上,利用大數(shù)據(jù)算法在OCR識(shí)別時(shí)將易錯(cuò)字高亮提醒。其次是字聚類功能,支持在選定的文本范圍內(nèi)進(jìn)行以識(shí)別字為單位的關(guān)聯(lián)字圖聚合,并支持實(shí)時(shí)修正。該功能打破了文本本身的壁壘,通過同一字圖的統(tǒng)一聚類維度來進(jìn)行識(shí)別,在大體量的識(shí)別文本中極具優(yōu)勢(shì)。再次是文本對(duì)比功能,在高質(zhì)量、大規(guī)模的古籍標(biāo)準(zhǔn)化標(biāo)注,以及古籍訓(xùn)練的海量數(shù)據(jù)中,憑借人工智能技術(shù)的相似文本篩選功能,對(duì)識(shí)別結(jié)果進(jìn)行比對(duì)驗(yàn)證,為專業(yè)化、精細(xì)化的古籍項(xiàng)目保駕護(hù)航。

        《全國(guó)新書目》:“尚古匯典”平臺(tái)對(duì)改進(jìn)目前古籍整理出版作坊化的生產(chǎn)模式有哪些貢獻(xiàn)?平臺(tái)會(huì)從哪些方面進(jìn)一步推動(dòng)古籍知識(shí)生產(chǎn)模式、知識(shí)服務(wù)模式的升級(jí)?

        吳長(zhǎng)青:當(dāng)前高質(zhì)量的古籍?dāng)?shù)字化內(nèi)容依賴人工校對(duì)以提高準(zhǔn)確率,但這也帶來了人力和時(shí)間成本的增加。據(jù)統(tǒng)計(jì),現(xiàn)存的20多萬種古籍中,只有8萬種完成了影像數(shù)字化掃描,僅4萬種完成文本數(shù)字化。“尚古匯典”平臺(tái)的古籍OCR工具能夠提高古籍?dāng)?shù)字化的效率,讓古籍從業(yè)者從重復(fù)性工作中擺脫出來,專注于知識(shí)性、技術(shù)性、內(nèi)容性的處理,并保護(hù)作為文物的古籍原本。同時(shí),數(shù)字化后的古籍更便于傳播利用,也更便于為古籍人工智能技術(shù)的發(fā)展提供基礎(chǔ)資料。

        古籍?dāng)?shù)字化的展開不僅是直接利用和開發(fā)傳統(tǒng)出版的編校成果,還需要利用新的技術(shù)手段,提高傳統(tǒng)編輯的效率,與傳統(tǒng)編輯形成紙、電之間的配合與支持,并為作者乃至古籍整理行業(yè)提供便利。未來,“尚古匯典”平臺(tái)將繼續(xù)探索人工智能在古籍領(lǐng)域的應(yīng)用,開發(fā)古籍的識(shí)別、標(biāo)點(diǎn)和標(biāo)引工作,簡(jiǎn)化古籍整理出版流程。在自然語(yǔ)言處理和機(jī)器智能學(xué)習(xí)技術(shù)的加持下,“尚古匯典”平臺(tái)還將對(duì)古籍文本進(jìn)行進(jìn)一步的語(yǔ)義分析和主題挖掘,并在AI識(shí)別關(guān)鍵概念、主題和關(guān)系的基礎(chǔ)上,幫助研究者發(fā)現(xiàn)隱藏在古籍中的知識(shí)和見解。借助這些技術(shù),我們能夠從中華傳統(tǒng)文化的寶庫(kù)中提煉題材、獲得靈感,為智慧城市、文化旅游等領(lǐng)域提供知識(shí)服務(wù),如根據(jù)地方志挖掘地方古跡、人物、藝文資源等等。

        《全國(guó)新書目》:近兩年熱度越來越高的自然語(yǔ)言處理、大規(guī)模語(yǔ)料庫(kù)和機(jī)器學(xué)習(xí)標(biāo)點(diǎn)等智能算法技術(shù)可以為“尚古匯典”平臺(tái)的發(fā)展帶來哪些新的機(jī)遇?您覺得還有哪些先進(jìn)技術(shù)可以應(yīng)用到古籍?dāng)?shù)字化領(lǐng)域當(dāng)中?

        吳長(zhǎng)青:目前中文的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)已經(jīng)趨近完善,各個(gè)開源的語(yǔ)料庫(kù)為中文信息處理提供了源源不斷的動(dòng)力。相較之下,古籍語(yǔ)料庫(kù)在規(guī)模、質(zhì)量上都處于初級(jí)階段,往往局限于高校的專項(xiàng)研究,開源語(yǔ)料庫(kù)也少之又少。

        “尚古匯典”平臺(tái)目前擁有約10億字高質(zhì)量點(diǎn)校本古籍,可以支撐今后在自然語(yǔ)言處理上的探索。預(yù)計(jì)近幾年平臺(tái)會(huì)陸續(xù)推出自動(dòng)標(biāo)點(diǎn)、自動(dòng)標(biāo)引等古籍技術(shù)工具,與古籍OCR工具無縫銜接,再配合“尚古匯典”平臺(tái)的快速建庫(kù)功能,可以實(shí)現(xiàn)古籍資源從圖像到數(shù)據(jù)庫(kù)的一站式解決方案。

        就先進(jìn)技術(shù)而言,大語(yǔ)言模型是近兩年最熱門的技術(shù)話題之一,它對(duì)于古籍?dāng)?shù)字化發(fā)展的助力可以體現(xiàn)在方方面面。在它的加持下,OCR、語(yǔ)義理解、關(guān)系抽取等功能都有望通過一個(gè)模型來實(shí)現(xiàn),后續(xù)我們也會(huì)持續(xù)關(guān)注和探索大語(yǔ)言模型在古籍領(lǐng)域的應(yīng)用。

        《全國(guó)新書目》:古籍?dāng)?shù)字化經(jīng)歷了從將紙質(zhì)書變?yōu)殡娮訏呙璋娴綄㈦娮訏呙璋孀優(yōu)槲淖职娴陌l(fā)展階段,要想以平臺(tái)為載體、將文字版進(jìn)一步發(fā)展為古籍研學(xué)系統(tǒng)的話,您認(rèn)為有哪些關(guān)鍵因素?

        吳長(zhǎng)青:在我看來,古籍研學(xué)系統(tǒng)的建設(shè)深度依賴于“尚古匯典”平臺(tái)現(xiàn)有的資源和技術(shù)積累。除了OCR、自動(dòng)標(biāo)點(diǎn)、自動(dòng)標(biāo)引之外,需要做的工作大致還涉及以下幾點(diǎn):

        首先是保持古籍版本的多樣性。除了繼續(xù)收錄整理本社古籍資源,擴(kuò)充“典籍整理文獻(xiàn)數(shù)據(jù)庫(kù)”外,“尚古匯典”平臺(tái)計(jì)劃在今年開啟“匯編文獻(xiàn)數(shù)據(jù)庫(kù)”版塊,并且上線“四庫(kù)全書”子庫(kù),未來還會(huì)陸續(xù)收錄《續(xù)修四庫(kù)全書》和《清代詩(shī)文集匯編》等大型影印類古籍叢書,實(shí)現(xiàn)典籍整理類古籍和影印類古籍交相輝映的局面。古籍版本多樣性的建設(shè)對(duì)于“尚古匯典”平臺(tái)的發(fā)展至關(guān)重要,因?yàn)楦哔|(zhì)量、可征引并且支持版本比對(duì)的古籍一直都是學(xué)術(shù)研究界的剛需。

        其次是交互系統(tǒng)的建設(shè)。目前“尚古匯典”平臺(tái)的功能專注于閱讀、檢索等核心基礎(chǔ)功能,與用戶之間少有互動(dòng),而一個(gè)優(yōu)質(zhì)的研學(xué)系統(tǒng)需要建立在大量高效、優(yōu)質(zhì)的互動(dòng)之上。無論是論壇、群組、共享筆記,還是視頻課程、直播、AI問答等,都可以增強(qiáng)用戶體驗(yàn),加大用戶黏性。

        最后也是最關(guān)鍵的因素,是打通系統(tǒng)流程。研學(xué)系統(tǒng)需要在“尚古匯典”平臺(tái)各個(gè)模塊的基礎(chǔ)上開發(fā)新模塊、新功能,并且建立一整套完整的流程。這里以古籍整理出版為例,用戶選擇整理對(duì)象后,即可設(shè)定底本、校本,之后利用OCR、自動(dòng)標(biāo)點(diǎn)、自動(dòng)標(biāo)引、AI理校等功能輸出粗文本和各版本差異比對(duì),利用“尚古匯典”平臺(tái)中的海量可征引資源進(jìn)行進(jìn)一步???,最終完成校勘后,交付上海古籍出版社進(jìn)入出版流程。這一流程中不僅離不開各環(huán)節(jié)的穩(wěn)定功能輸出,更加離不開各環(huán)節(jié)的順暢銜接配合。

        《全國(guó)新書目》:您認(rèn)為除了服務(wù)專業(yè)機(jī)構(gòu)和研究人員之外,有哪些方式可以讓更多古代名著通過“尚古匯典”平臺(tái)以更平易近人的方式走進(jìn)普通讀者的生活?

        吳長(zhǎng)青:提到“古籍”二字,很多讀者會(huì)覺得這一領(lǐng)域是有著天然存在的門檻的,事實(shí)上也確實(shí)如此,要閱讀古籍大抵是不能什么都不做的,需要有初步選擇版本的能力,最好還要配一些相關(guān)文字類、歷史掌故類、文獻(xiàn)資料類的工具書才行。從以上幾點(diǎn)出發(fā),很多讀者在這一過程中大概都會(huì)遇到“找不到、不會(huì)用、讀不懂”這三大難關(guān)。在這三大難關(guān)面前,讓人提起興趣就更難了。所以要讓“尚古匯典”平臺(tái)以更平易近人的方式走進(jìn)普通讀者的生活,首先要解決的就是這三大難關(guān)。為此,我們?cè)O(shè)計(jì)了與“尚古匯典”平臺(tái)配套的“尚古匯典”品牌下的小程序,它是用來解決這些問題的一個(gè)嘗試,可以把它看作一位“古籍智能助手”。在內(nèi)容上,小程序多選擇權(quán)威經(jīng)典的譯注類著作,這樣讀者們就不用再為讀什么、讀不懂而憂慮。同時(shí),與“尚古匯典”平臺(tái)相同的檢索配置可以讓小程序有更敏銳、更善于發(fā)現(xiàn)的“眼睛”,既便于普通讀者解決“找不到的問題”,也便于普通讀者發(fā)現(xiàn)興趣點(diǎn),從而對(duì)古籍產(chǎn)生探索欲。

        《全國(guó)新書目》:“尚古匯典”平臺(tái)未來的發(fā)展規(guī)劃是什么?

        吳長(zhǎng)青:首先,我們會(huì)始終堅(jiān)持“內(nèi)容為王”的原則,持續(xù)為用戶提供優(yōu)質(zhì)海量的古籍資源。上海古籍出版社每年出版的優(yōu)質(zhì)核心古籍是我們平臺(tái)資源的基石,也將引導(dǎo)我們未來持續(xù)展開古籍?dāng)?shù)字化工作的方向。同時(shí),上海世紀(jì)出版集團(tuán)旗下除了上海古籍出版社外,還有上海辭書出版社、中西書局、上海書店、上??萍汲霭嫔绲瘸霭鏅C(jī)構(gòu),均出版了各種優(yōu)秀、權(quán)威、稀缺的古籍資源。我們還將放眼全國(guó)乃至全球,積極和各大出版社、高校、圖書館等尋求合作。維持平臺(tái)古籍資源的可持續(xù)積累發(fā)展,這是平臺(tái)得以走得更遠(yuǎn)的基礎(chǔ)保障。

        其次,平臺(tái)的應(yīng)用場(chǎng)景和業(yè)務(wù)價(jià)值的提升依賴于平臺(tái)的業(yè)務(wù)邏輯,包括內(nèi)容資源、技術(shù)架構(gòu)和具體的功能設(shè)計(jì)。我們采用了微服務(wù)架構(gòu)和模塊化技術(shù),實(shí)現(xiàn)了平臺(tái)架構(gòu)的靈活可擴(kuò)展性,能夠滿足后續(xù)業(yè)務(wù)的快速?gòu)?fù)用、升級(jí)和迭代需求,便于應(yīng)對(duì)不同業(yè)務(wù)場(chǎng)景,可以很好地為學(xué)術(shù)研究機(jī)構(gòu)、圖書館等快速定制個(gè)性化數(shù)據(jù)庫(kù)的需求提供服務(wù)。

        再次,古籍?dāng)?shù)字化不僅是直接利用和開發(fā)傳統(tǒng)出版的編校成果,還需要利用新的技術(shù)手段,提高傳統(tǒng)編輯的效率。未來,“尚古匯典”平臺(tái)將繼續(xù)探索人工智能在古籍領(lǐng)域的應(yīng)用,更好地助推原版古籍的識(shí)別、標(biāo)點(diǎn)和標(biāo)引工作,簡(jiǎn)化古籍整理出版流程。在自然語(yǔ)言處理和機(jī)器智能學(xué)習(xí)技術(shù)的加持下,平臺(tái)還將進(jìn)一步推進(jìn)對(duì)古籍中寶貴傳統(tǒng)文化財(cái)富的探索和利用,助力我國(guó)文化產(chǎn)業(yè)的發(fā)展。

        猜你喜歡
        古籍數(shù)字化
        古籍修復(fù)的神器
        軍事文摘(2023年4期)2023-04-05 13:57:35
        數(shù)字化:讓夢(mèng)想成為未來
        中醫(yī)古籍“疒”部俗字考辨舉隅
        家紡業(yè)亟待數(shù)字化賦能
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        古籍修復(fù)師的巧手與匠心
        出版人(2019年11期)2019-12-19 02:27:26
        論經(jīng)濟(jì)學(xué)數(shù)字化的必要性
        高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        中文字幕精品久久一区二区三区| 亚洲精品夜夜夜| 国产成人精品日本亚洲语音1| 人妻免费黄色片手机版| 亚洲综合一区二区三区天美传媒| 99国产精品自在自在久久| 亚洲国产欧美在线成人| 一区二区av日韩免费| 亚洲最大一区二区在线观看 | 国产精品久久久久乳精品爆| 久久成人麻豆午夜电影| 亚洲综合网一区二区三区| 亚洲av综合色一区二区| 无码字幕av一区二区三区 | 激情亚洲一区国产精品| 无码国产一区二区色欲| 国产精品成人av一区二区三区| 久久久亚洲av成人网站| 国产99r视频精品免费观看| 国产天堂av手机在线| 中国人在线观看免费的视频播放| 色偷偷噜噜噜亚洲男人| 久久久久久中文字幕有精品| 国产成人一区二区三区| 国产a∨天天免费观看美女| 亚洲av无码av吞精久久| 亚洲国产成人久久综合三区| 亚洲写真成人午夜亚洲美女| 欧美又大又色又爽aaaa片| 亚洲天堂免费视频| 亚洲香蕉久久一区二区| 女人张开腿让男人桶爽| 女同久久精品国产99国产精品| 国产精品国产三级国产三不| 国产一区二区三区在线视频观看| 亚洲av高清在线一区二区三区| 久精品国产欧美亚洲色aⅴ大片| 国产少妇露脸精品自拍网站| 看久久久久久a级毛片| 日韩a∨精品日韩在线观看| 亚洲高清自偷揄拍自拍|