亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “大學數(shù)字圖書館國際合作計劃”項目的電子書實踐與發(fā)展

        2022-09-23 00:58:26金佳麗
        圖書館論壇 2022年10期
        關鍵詞:跨媒體電子書數(shù)字化

        金佳麗,黃 晨

        0 引言

        2000 年,中美兩國計算機科學家共同發(fā)起倡議,建設中美百萬冊書數(shù)字圖書館項目(Million Book Project,MBP)。這一倡議得到中國教育部、美國國家科學基金會和印度科學院的重視與支持,最終發(fā)展成為一個全球數(shù)字圖書館項目(Universal Digital Library,UDL),開始了全球最早的大規(guī)模數(shù)字化資源工程。2001年,項目中方被教育部定名為“高等學校中英文圖書數(shù)字化國際合作計劃”(China-Academic Digital Academic Library,CADAL),與中國高等教育文獻保障系統(tǒng)(CALIS)共同構成中國高等教育文獻保障體系(CADLIS)。2009 年,項目更名為“大學數(shù)字圖書館國際合作計劃”(China Academic Digital Associative Library,CADAL)。如今CADAL 已經成為一個擁有多學科、多類型、多語種海量數(shù)字資源,面向公眾開放的全球最大的公益性數(shù)字圖書館,是國家創(chuàng)新體系的重要信息基礎設施之一。從最初的圖書數(shù)字化到數(shù)字圖書館進而走向智慧圖書館,技術的進步帶來了知識傳播的革命。本文將目光聚焦到電子書,梳理電子書在內涵、組織形式、呈現(xiàn)方式、檢索技術、閱讀體驗、服務模式等方面的發(fā)展變遷,回顧CADAL在電子書方面的實踐與發(fā)展,以期在總結經驗教訓的基礎上,科學規(guī)劃,賦能升級,實現(xiàn)從數(shù)字化、網絡化向智能化時代的跨越。

        1 基于OEB的電子書技術與特征

        作為全球數(shù)字圖書館項目(UDL)的一部分,CADAL創(chuàng)立的初衷是希望所有人不論何時何地都可以通過互聯(lián)網訪問到全人類的知識。要建這樣一個百萬冊圖書、TB量級的數(shù)字圖書館,如何將電子書以最優(yōu)質便捷的方式開放給全球用戶成為首要思考的問題。經過中方潘云鶴院士和美方Raj Reddy教授等專家的共同研討,在項目建設之初,首先確立以電子圖書框架結構標準OEBPS(Open eBook Publication Structure)作為工程實施標準。OEBPS標準建立于XML體系基礎上,具有可互操作性、可擴展性、開放性和易用性等優(yōu)點,是被業(yè)界廣泛采用的一種開放框架規(guī)范[1]。

        確定好遵循的標準后,CADAL將數(shù)字資源分成兩個等級——典藏級和發(fā)布應用級。典藏級文件(Archive File)指數(shù)字對象采集過程所獲得原始圖像文件、原始音頻文件、原始視頻文件經過加工處理后得到的高精度、無壓縮(或高品質壓縮)的文件;發(fā)布應用級文件(Application File)指典藏級文件經過加工處理后得到的用于網上在線瀏覽的文件或特定應用的各類派生文件。CADAL對每個類型的數(shù)字資源分別制定了加工和應用等級標準,表1 是圖書期刊數(shù)字對象的等級標準。由表1 可見,典藏級圖像文件采用的是TIFF、JPEG 文件格式,而發(fā)布應用級文件的文件格式和壓縮格式直接關系到用戶的閱讀體驗,所以一直在隨著技術發(fā)展和用戶需求的變化而不斷調整,大致經歷了3個階段:一是基于DjVu 的網絡發(fā)布,二是基于Flash 的便捷瀏覽,三是基于國際圖像互操作框架(IIIF)的互動瀏覽。

        表1 圖書期刊數(shù)字對象等級標準[2]

        1.1 基于DjVu的網絡發(fā)布

        CADAL在創(chuàng)建之初就確定了高精度的掃描標準,因此在網絡條件下,如何傳輸和呈現(xiàn)高精度圖像成為一個技術難點。在考察了當時互聯(lián)網傳輸最常見的GIF和JPG格式之后,中美雙方的計算機專家經過討論,決定采用DjVu作為這一項目的電子書網絡傳輸格式。

        DjVu是1996年AT&T實驗室開發(fā)的一種針對高解析度、高質量彩色掃描文檔的發(fā)布技術,它的壓縮效率比JPEG和GIF等格式彩色文檔優(yōu)5~10倍,比TIFF格式的黑白文檔好3~8倍。與PDF相比,如果數(shù)字化文檔含有圖片,DjVu將小于PDF 封裝。更重要的是,CADAL 獲得了AT&T實驗室的授權,可以免費使用該項壓縮技術。于是,在CADAL項目一期,采用卡內基梅隆大學提供的轉換軟件,將掃描文件轉碼為DjVu格式的發(fā)布文件。項目二期建設中,浙江大學的技術中心進一步將掃描、圖像處理、元數(shù)據(jù)編輯、導航生成與格式轉換等電子書生成環(huán)節(jié)集成為一個生產系統(tǒng),通過DjVu來完成電子書的封裝和發(fā)布。

        1.2 基于Flash的便捷瀏覽

        CADAL數(shù)字資源以DjVu格式上網發(fā)布后,用戶需要下載DjVu 插件以支持瀏覽器解析閱讀。盡管DjVu 插件只有600KB(同類型的Acrobat Reader 是6M)且免費,但是由于DjVu的應用并不普及,很多用戶不愿意額外安裝這一插件。為了進一步提升用戶閱讀體驗,CADAL決定放棄DjVu 插件,改為瀏覽器兼容性更好、受歡迎度更高的Flash Player插件。Adobe 公司的Flash Player 在各主流操作系統(tǒng)中均可用,也支持各類瀏覽器。據(jù)Millword Brown公司2011 年的調查顯示,接近99%的網絡用戶安裝有Flash Player 10 及 其 更 高 版 本[3]。另外,隨著CADAL二期加入音視頻多媒體資源的數(shù)字化,F(xiàn)lash Player更有利于這些數(shù)字資源的展示。這樣就形成了CADAL網站前端以Flash形式展示,后臺圖像實時轉換的服務模式。這種情況,一直持續(xù)到2019年Flash沒落,CADAL門戶網站重新升級。

        1.3 基于國際圖像互操作框架(IIIF)的互動瀏覽

        隨著CADAL門戶網站的二次升級,2021年3月,CADAL開始著手實現(xiàn)國際圖像互操作框架下的圖像文件轉換與圖像文件在線瀏覽。國際圖像互操作框架(International Image Interoperability Framework,IIIF)是由全球各地圖書館、博物館、美術館、檔案館等機構推出的一項國際化技術通用標準,旨在讓不同機構的資源傳輸速度更快、質量更高、成本更低。在IIIF框架下,用戶可以實現(xiàn)基于圖像服務器的圖片管理,可自由進行縮放,快速顯示高清超大可視化圖片;實現(xiàn)基于帶標注的圖片管理,在圖片上做數(shù)字化標注,可用于多模態(tài)知識圖譜的創(chuàng)建;同時,還可以對圖像進行OCR識別,得到OCR文件保存到索引服務器,轉換為注釋列表,通過結合manifest上傳服務器,實現(xiàn)全文檢索。最重要的是,提升報紙、圖形圖像類型資源的加載速度和用戶瀏覽體驗。

        電子書格式選擇是資源建設和利用的基礎,關系到資源共享與用戶體驗,需要大膽探索、小心論證。縱觀國內外電子書市場,各大電子書平臺都有自己的電子書格式,國內如北大方正(Apabi Reader)的CEB格式、清華同方的CAJ格式、超星的PDG 格式,國外如Adobe 公司的PDF格式、微軟公司的LIT格式、Amazon公司的KFX格式。這種五花八門、各自為營的格式壁壘增加了閱讀障礙,與CADAL作為公益性數(shù)字圖書館所堅持的開放共享原則是相背離的。20年來CADAL始終堅持OEB開放電子書規(guī)范,以共建共享為理念,以用戶需求為導向,以技術革新為契機,不斷調整電子書的內容格式和前端瀏覽方式,力求實現(xiàn)電子資源的易獲取、高清度、全開放,從而不斷提升用戶的閱讀體驗。

        2 從電子書到知識空間

        電子書一詞由Electronic book翻譯而來,其基本概念學界尚未有定論。有研究認為,電子書的內涵隨著時間的發(fā)展不斷變化,1998-2002年多從電子閱讀器的角度出發(fā)研究電子書,2002年至今,從內容角度來看待電子書已經成為共識[4]。有學者根據(jù)發(fā)行前有無印刷版,將電子書分為天生的電子書和轉換的電子書[5];也有學者將電子書分為:Ebook1.0、Ebook2.0 和Ebook3.0。Ebook1.0 是將傳統(tǒng)圖書數(shù)字化,Ebook2.0 是只有數(shù)字化形態(tài)的原生電子書,Ebook3.0 是集成了文字、圖表、聲音、視頻、動畫及其他功能(如交互)模塊等要素的多媒體讀物[6]。CADAL的電子書也經歷了一個內涵和外延不斷拓展的過程。

        2001-2012年是CADAL的數(shù)據(jù)積累階段,整個項目全身心地致力于海量文獻資源的數(shù)字化。10年間在20余所高校建立數(shù)字資源加工中心,形成杭州、深圳兩個加工基地,月加工能力2,100萬頁,最終共數(shù)字化250萬冊圖書。表2列出數(shù)字資源加工貢獻度較高的前10 所高校。在采集加工過程中,數(shù)字對象的載體形式不斷擴展。首先進行的是紙本文獻的數(shù)字化,包括圖書、期刊、報紙、古籍、僑批、科技報告、書畫、手稿、印章等各種類型的文本資源。接著,將音視頻、老照片、文獻縮微膠卷納為數(shù)字化對象。此外,還開發(fā)了“2.5 維掃描技術”對甲骨、竹簡等淺浮雕文獻載體進行數(shù)字化[7]。

        表2 CADAL數(shù)字資源加工冊數(shù)TOP10高校

        2013年,CADAL的數(shù)字資源積累已經是一覽眾山小,于是轉向對已有海量資源的整合和挖掘,思考泛在的數(shù)字環(huán)境下,如何將分散、多樣、異構、非結構性的數(shù)字資源整合在一起,成為有機的整體,使之能夠有效地被保存、發(fā)現(xiàn)和獲取。對此,CADAL項目專家提出要打破單本“書”的概念,建設超媒體閱讀體驗空間。

        超媒體閱讀體驗空間突破了傳統(tǒng)的“文字+二維圖像”的展示模式,開始將傳統(tǒng)文本、圖像、音視頻數(shù)據(jù)融入到虛擬現(xiàn)實環(huán)境中進行展示。例如,CADAL網站上的《紅樓夢菜譜》(王柏春,1992)[8]講述了《紅樓夢》中的飲食文化,并列出雪塔燕窩、金銀蹄膀、紅燒果子貍等63道菜的菜譜,講述每道菜的原料、操作方法、風味特色、營養(yǎng)分析,并對菜的歷史進行回溯。CADAL將這本書上的相關信息通過標題、關鍵詞、作者、內容分類特征等元數(shù)據(jù)進行關聯(lián),從而展示出更全面的信息(見圖1)。在介紹雪塔燕窩一菜時,附上金絲燕的圖片,燕窩形成過程的視頻,產地泉州、崖州、萬寧的鏈接和介紹,配料熟火腿、水香菇的圖片及介紹,清代袁枚《隨園食單》對燕窩的記載,紅樓夢各章節(jié)涉及到燕窩的場景,制作雪塔燕窩的視頻等等。這樣就把單一的文本信息進行擴充,綜合鏈接文本、圖像、音視頻等多種資源來揭示一個知識單元,形成一個超媒體閱讀體驗空間,給讀者以視覺、聽覺上的全方位信息,開創(chuàng)了新型的數(shù)字閱讀模式。

        圖1 “紅樓菜譜”樣例展示[9]

        3 基于電子書內涵拓展的服務轉型升級

        回首CADAL20年發(fā)展,服務模式的每一次升級都離不開對電子書的挖掘和再發(fā)現(xiàn)。早在2013年,CADAL確立了從“數(shù)字圖書館走向智慧圖書館,進而升華到知識中心”[9]的目標之后,結合跨媒體、人工智能、大數(shù)據(jù)處理等技術,開始對電子書進行邊界拓展和深度解析,打破單本書籍孤立的知識組織形式和呈現(xiàn)形式,將其以邊界互聯(lián)的知識網絡與細粒度化的知識元形式呈現(xiàn),積極探索知識服務新模式。

        3.1 跨媒體檢索

        探索的第一步是打破不同類型數(shù)字資源邊界,將數(shù)字圖書館聯(lián)通成一個開放的數(shù)字環(huán)境。為此,首先要解決“異構鴻溝”(Heterogeneity Gap)和“語義鴻溝”(Semantic Gap)這兩個科學難點[10]。對此,CADAL在超媒體閱讀空間探索實踐的基礎上,借助機器學習提出“跨媒體”思想,通過學習、推理及其他智能型處理,來實現(xiàn)從一種媒體類型到另外一種媒體類型的跨越,即“媒體跨越、語義關聯(lián)”。其實質是尋找不同類型媒體間的相關性??缑襟w檢索與傳統(tǒng)的多媒體檢索技術的本質區(qū)別在于,后者集中在基于內容的單模態(tài)特征分析與檢索,主要研究單模態(tài)數(shù)據(jù)集的相似度度量問題;而跨媒體檢索要解決不同模態(tài)的多媒體對象之間相關性匹配問題[11]。比如,輸入一張爆炸畫面的圖像數(shù)據(jù),可以檢索到一段爆炸聲音的音頻??缑襟w搜索支持任一種媒體形式的輸入,支持任一種媒體形式的結果,挖掘多媒體對象語義及關系,建立統(tǒng)一的跨媒體索引機制。經過長期努力,CADAL 項目的技術專家在跨媒體計算領域取得一系列成果,不僅完成“跨媒體海量信息融合與智能內容搜索引擎產品開發(fā)”(“863計劃”重點項目課題,編號:2006AA010107)等多個重點項目,而且申請了“一種基于深度神經網絡的跨媒體排序方法”(中國,CN201410531101.1)等多項專利。

        3.2 知識抽取與知識元關聯(lián)發(fā)現(xiàn)

        科技的發(fā)展使得信息獲取更便捷,人們在學習研究時不再是苦于沒有書讀,而是面對太多的圖書與信息,無從下手。CADAL 團隊認識到,對海量信息的處理將是大數(shù)據(jù)時代的關鍵和用戶的核心需求。因此,在將數(shù)字圖書館變成一個跨學科、跨媒介的海量知識總庫后,CADAL開始著手資源的細粒度化,以知識元為單位深度解析電子書,進行知識抽取與知識元關聯(lián)發(fā)現(xiàn)。

        知識概念之間的先后關系對科研教學來說至關重要。例如,想學習“條件隨機場”的知識,首先要知道“隱馬爾可夫模型”。無論是課程輔導還是自主學習,需要以合理的順序組織知識。CADAL的技術專家提出了一種特定領域的概念提取方法和基于非監(jiān)督學習的圖書概念前后序關系抽取方法[12]。借助海量電子教科書,獲取每本書的章節(jié)序列,通過無監(jiān)督聚類方法對語義相似的章節(jié)進行聚類來獲取學習對象,創(chuàng)建出類似于地鐵地圖一樣的學習圖,基于ILP技術從學習圖中選擇一組信息量高、流暢且冗余度低的學習路徑,幫助用戶提高知識學習效率[13]。這樣CADAL可針對某一領域的圖書,自動抽取其核心概念以及概念間的前后序關系,構建“領域知識空間”,幫助用戶推薦學習資料;也可以某個概念為核心,將分散在不同圖書中的知識綜合起來,形成專題,方便用戶全面學習某個知識點。

        CADAL研發(fā)的用于知識圖譜構建實體關系的抽取工具、文獻影響力評估工具等,根據(jù)用戶的檢索請求,對學術信息資源進行細粒度知識元加工和封裝,把相關知識元抽取出來,匯聚成個性化的知識信息,甚至編輯成一本新的專屬電子書,可以滿足不同用戶的個性化知識需求。CADAL將電子書內容細粒度化到知識元,并通過知識元之間的語義關聯(lián),形成知識網絡,大大拓展了電子書的深度和廣度,為數(shù)字人文的研究與實踐奠定了基礎。

        3.3 知識服務

        基于一系列關鍵技術的突破,CADAL項目深入挖掘海量資源,成功實現(xiàn)了一系列的知識服務,如圖書專題自動生成、基于內容的智庫文獻影響力評估、中國書法知識服務[14]、中國文學編年史知識服務[15]、中醫(yī)藥知識服務[16]、工程科技知識服務等。以中醫(yī)藥知識服務為例,圖2展示了其基本路徑。

        圖2 中醫(yī)藥知識服務的演示過程[17]

        中醫(yī)藥是一個知識密集型的研究領域,面對這樣一個大規(guī)模的知識工程,CADAL首先從已有的中醫(yī)典籍中抽取中藥、方劑、診斷、病案等信息,并將其細粒度化為知識元,構建中醫(yī)藥知識庫,通過跨媒體檢索技術提供百科全書式的知識集成與搜索服務。在此基礎上,借助語義理解、自然語言處理等技術,CADAL進一步提供面向科研的知識發(fā)現(xiàn)服務和面向臨床實踐的決策支持服務,如中藥的相關性查詢和推薦、產地分析、方劑對比。為了挖掘方劑成分的加減變化與藥物性味等深層次信息,CADAL開發(fā)了方劑用量統(tǒng)計工具、方劑貢獻度計算工具、方劑功效組成分析工具,最終以可視化的方式多維度地將知識結構與內容呈現(xiàn)出來(見圖3),為用戶提供完整、系統(tǒng)的知識圖譜。

        圖3 中草藥知識可視化[18]

        近年CADAL一直致力于數(shù)字圖書館服務模式的轉型升級。服務模式的轉型要以用戶需求為導向,重點還是回歸電子書內容本身,從信息資源管理向知識資源管理轉變,信息組織向知識組織轉變,實現(xiàn)用戶個性化需求驅動的知識元聚合和知識協(xié)同,由文獻服務走向知識服務。

        4 結語

        CADAL項目自啟動以來,始終著眼于全球資源共建共享和人類文明共同進步,以“共建共享”為理念,致力于資源的全開放獲取。如今CADAL 已收錄有超過280 萬冊中英文電子書,數(shù)據(jù)總量達1.4PB,服務2,500余所國內外學術機構,是我國高校圖書館最大規(guī)模的知識整合平臺之一。從CADAL關于電子書的一系列實踐和發(fā)展中可以看出,從二十年前將紙質圖書掃描成電子文檔開始,電子書的概念內涵和外延一直在不斷拓展和演化。如今的電子書早已打破了單本書的界限而成為一個個按需重構的“知識空間”,對電子書進行深入挖掘與解析,是數(shù)字圖書館服務模式轉型升級的基礎。由此,學術數(shù)字圖書館也從單個的服務系統(tǒng)升級為開放的數(shù)字環(huán)境,成為一種“基于知識內容、應用環(huán)境和應用群體有機交互的數(shù)字化知識化服務機制”[19]。

        猜你喜歡
        跨媒體電子書數(shù)字化
        “跨媒體表征學習及認知推理”專欄征文通知
        計算機應用(2023年6期)2023-07-03 14:12:38
        “跨媒體表征學習及認知推理”專欄征文通知
        計算機應用(2023年5期)2023-05-24 03:18:12
        家紡業(yè)亟待數(shù)字化賦能
        高中數(shù)學“一對一”數(shù)字化學習實踐探索
        高中數(shù)學“一對一”數(shù)字化學習實踐探索
        打造自己的電子書架
        學與玩(2017年5期)2017-02-16 07:06:30
        數(shù)字化制勝
        跨媒體出版物的平臺互動研究
        出版與印刷(2015年3期)2015-12-19 13:15:13
        基于電子書包的學習分析探究
        電子書 等
        在线观看av片永久免费| 国产av无码专区亚洲av手机麻豆| 久久久久久国产精品美女| 日韩欧美国产自由二区| 久久99久久99精品免观看女同| 五十路在线中文字幕在线中文字幕| 国产一区二区三免费视频| 无码爆乳护士让我爽| 人妻av鲁丝一区二区三区| 国产精品刺激好大好爽视频| 久久精品国产亚洲av桥本有菜| 久久久精品久久久国产| 中文字幕亚洲在线第一页| 久久久久夜夜夜精品国产| 成人免费网站视频www| 久久丁香花综合狼人| 亚洲精品中文字幕不卡| 亚洲午夜久久久久久久久久| 亚洲另类自拍丝袜第五页| 国产精品女同学| 国产精品亚洲精品一区二区| 国产成人亚洲精品无码av大片| 国产美女白浆| 美女被插到高潮嗷嗷叫| 中文字幕一区二区三区的| 真人新婚之夜破苞第一次视频| 亚洲tv精品一区二区三区| 男女上床视频在线观看| 国产精品高清视亚洲乱码| 亚洲第一页综合图片自拍| 精品人妻中文av一区二区三区| 自拍av免费在线观看| 国产一二三四2021精字窝| 亚洲色偷拍区另类无码专区| 欧美亚洲另类国产18p| 中美日韩在线一区黄色大片| 粉嫩被粗大进进出出视频| 夜夜被公侵犯的美人妻| 亚洲精品一区二区三区麻豆| 97se亚洲国产综合在线| 亚洲av之男人的天堂|