亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字版權(quán)視域下的數(shù)字人文應(yīng)用平臺構(gòu)建模式研究*

        2022-04-14 02:00:12歐陽劍
        數(shù)字圖書館論壇 2022年2期
        關(guān)鍵詞:古籍學(xué)者工具

        歐陽劍

        (1. 上海外國語大學(xué)圖書館,上海 201620;2. 上海外國語大學(xué)數(shù)字學(xué)術(shù)中心,上海 201620)

        數(shù)字人文是一個將現(xiàn)代計算機(jī)和網(wǎng)絡(luò)技術(shù)深入應(yīng)用于傳統(tǒng)的人文研究與教學(xué)的新型跨學(xué)科研究領(lǐng)域,它的產(chǎn)生與發(fā)展得益于數(shù)字技術(shù)的進(jìn)步及其在科學(xué)領(lǐng)域的普及應(yīng)用,近年來,傳統(tǒng)文史哲等人文學(xué)科和社會科學(xué)都在不同程度上開展了數(shù)字人文研究的探索。數(shù)字人文研究的興起給人文學(xué)者帶來了新的研究視角與思維模式,也為傳統(tǒng)的人文研究帶來了新的方法、工具和平臺。數(shù)據(jù)、研究方法、工具與平臺是數(shù)字人文研究的重要組成部分,數(shù)據(jù)是數(shù)字人文研究的基礎(chǔ),基礎(chǔ)數(shù)據(jù)庫很大程度上緩解了人文研究數(shù)據(jù)缺乏的狀況,而數(shù)字人文研究方法主要通過應(yīng)用工具及平臺來實(shí)現(xiàn),應(yīng)用工具及平臺體現(xiàn)出數(shù)字人文研究的基本理論、方法與技術(shù)等。隨著人文數(shù)據(jù)建設(shè)越來越受到重視,基于數(shù)據(jù)融合的多維度數(shù)據(jù)應(yīng)用平臺應(yīng)時而生,傳統(tǒng)數(shù)字化資源的建設(shè)也逐漸由資源庫向數(shù)字研究平臺轉(zhuǎn)變,以不斷滿足人文學(xué)者提出的輔助其研究的新需求[1]。

        近年來,各種數(shù)字人文應(yīng)用平臺建設(shè)此起彼伏,由于數(shù)字人文應(yīng)用平臺構(gòu)建的理念不同,出現(xiàn)了不同的應(yīng)用平臺構(gòu)建模式,與傳統(tǒng)應(yīng)用平臺不同,數(shù)字人文應(yīng)用平臺集數(shù)據(jù)、方法及工具為一體,其構(gòu)建模式的選擇也會給人文數(shù)據(jù)及研究工具的使用方式帶來影響。因此,數(shù)字人文應(yīng)用平臺模式及構(gòu)建研究對數(shù)字人文資源的開發(fā)與利用具有重要意義,同時對我國數(shù)字人文基礎(chǔ)設(shè)施的建設(shè)模式選擇也具有實(shí)際的參考價值。

        1 國內(nèi)外數(shù)字人文應(yīng)用平臺建設(shè)現(xiàn)狀

        在美術(shù)館、圖書館、檔案館與博物館(GLAM)領(lǐng)域,“基礎(chǔ)設(shè)施”的提法由來已久,數(shù)字人文基礎(chǔ)設(shè)施是一種支持人文學(xué)科研究活動的基礎(chǔ)設(shè)施,是數(shù)字環(huán)境下開展人文研究的基本條件,包括與研究主題相關(guān)的文獻(xiàn)、數(shù)據(jù)、軟件工具、學(xué)術(shù)交流和出版的公用設(shè)施及相關(guān)服務(wù)等[2],通過平臺化的架構(gòu)為人文學(xué)者提供各類量化分析工具與可視化數(shù)據(jù)服務(wù)。數(shù)字人文基礎(chǔ)設(shè)施對于學(xué)者的研究與實(shí)踐至關(guān)重要,數(shù)字人文基礎(chǔ)設(shè)施作為一種技術(shù)平臺,將工具、服務(wù)、資源和方法用于數(shù)字研究之中,通過標(biāo)準(zhǔn)化協(xié)議將異構(gòu)的數(shù)字人文基礎(chǔ)設(shè)施相互關(guān)聯(lián)成本地節(jié)點(diǎn),有助于在不同基礎(chǔ)設(shè)施系統(tǒng)之上建立一個包容性的資源獲取網(wǎng)絡(luò),從而實(shí)現(xiàn)人文數(shù)據(jù)的開放獲取,由此可見,數(shù)字人文基礎(chǔ)設(shè)施具有高連接性、標(biāo)準(zhǔn)化及易訪問的特點(diǎn)[3]。

        數(shù)字人文基礎(chǔ)設(shè)施的建設(shè)為數(shù)字環(huán)境下開展人文研究提供必備的基本條件,相關(guān)項目的建設(shè)如火如荼,涌現(xiàn)出一批優(yōu)秀的數(shù)字人文基礎(chǔ)設(shè)施。上海圖書館歷史人文大數(shù)據(jù)平臺以關(guān)聯(lián)數(shù)據(jù)的方式向外公開發(fā)布了上海圖書館數(shù)字人文項目所組織的基礎(chǔ)知識庫(人、地、時、事、物)、文獻(xiàn)知識庫(家譜、手稿檔案、古籍等)、本體詞表,以及數(shù)字人文項目建設(shè)過程中所用到的各種數(shù)據(jù)清洗和轉(zhuǎn)換工具[4]。哈佛大學(xué)東亞語言文明系教授包弼德(K. B. Peter)負(fù)責(zé)的中國歷代人物傳記資料庫(China Biographical Database,CBDB)項目提供了多個涵蓋人物信息的關(guān)聯(lián)數(shù)據(jù)集[5],已成為歷史領(lǐng)域數(shù)字人文研究的典范。類似的還有中國臺灣地區(qū)“中研院”創(chuàng)建的基礎(chǔ)地理信息系統(tǒng)“中華文明之時空基礎(chǔ)架構(gòu)”(Chinese Civilization in Time and Space,CCTS)[6],該系統(tǒng)以中國地圖為基礎(chǔ)底圖,整合了“中研院”的漢籍電子文獻(xiàn)系統(tǒng)、清代糧價資料庫、明清地方志聯(lián)合目錄資料庫等專業(yè)應(yīng)用系統(tǒng)或資料庫。此外,還有陜西師范大學(xué)出版總社、首都師范大學(xué)張萍教授和西安云圖電子信息有限公司合作打造的絲綢之路歷史地理信息開放平臺[7],王兆鵬教授主持的“唐宋文學(xué)編年地圖”項目[8],等等。這些數(shù)字人文基礎(chǔ)設(shè)施的建設(shè)極大地促進(jìn)了數(shù)字人文的發(fā)展,豐富了人文學(xué)科研究的基礎(chǔ)數(shù)據(jù)。

        數(shù)字人文基礎(chǔ)設(shè)施與傳統(tǒng)資源庫的本質(zhì)差別在于:數(shù)字人文基礎(chǔ)設(shè)施嵌入了數(shù)字人文學(xué)者需要的數(shù)據(jù),提供人文學(xué)者需要的研究及分析手段、算法、工具,實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)與人文學(xué)者的無縫連接,數(shù)字人文應(yīng)用平臺是數(shù)字人文基礎(chǔ)設(shè)施的重要組成部分。近年來,數(shù)字人文應(yīng)用平臺也不斷涌現(xiàn),其典型代表有中國臺灣地區(qū)“中研院”的數(shù)位人文研究平臺[9]、中國臺灣大學(xué)的DocuSky數(shù)位人文學(xué)術(shù)研究平臺[10]、復(fù)旦大學(xué)歷史地理研究中心的數(shù)字禹貢[11]、Gale數(shù)字學(xué)術(shù)實(shí)驗(yàn)室研發(fā)的基于云服務(wù)的歷史文獻(xiàn)分析平臺[12]、HathiTrust研究中心(HathiTrust Research Center,HTRC)的“數(shù)據(jù)膠囊”(Data Capsule)項目等,一些專有數(shù)據(jù)庫廠商如Jstor Constellate、ProQuest(TDM studio)等開發(fā)了文本和數(shù)據(jù)挖掘工具,使人文學(xué)者可以使用詞頻統(tǒng)計、術(shù)語提煉及主題模型等工具對專有數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行研究,進(jìn)一步促進(jìn)了數(shù)字人文研究的發(fā)展,給普通人文學(xué)者的研究帶來了極大的便利。數(shù)字人文研究平臺的建立使人文研究者不必再完全依賴于信息技術(shù)專家,為人文學(xué)者提供了一個友好互動的數(shù)字人文研究環(huán)境,提供了個性化的服務(wù)、協(xié)同合作的機(jī)制以及開放的資源,很大程度上克服了人文數(shù)據(jù)匱乏的困難,使得人文學(xué)者自由地融合數(shù)字人文技術(shù)與方法進(jìn)行相關(guān)人文研究,加速人文研究進(jìn)程。

        2 數(shù)字人文應(yīng)用平臺建設(shè)中的數(shù)字版權(quán)風(fēng)險分析

        作為數(shù)字人文基礎(chǔ)設(shè)施的核心,數(shù)字人文應(yīng)用平臺與傳統(tǒng)的數(shù)字圖書館服務(wù)平臺的顯著區(qū)別在于:數(shù)字人文應(yīng)用平臺以文本化、數(shù)字化的數(shù)據(jù)為主,并輔以相關(guān)的數(shù)字化研究工具等,為人文學(xué)者提供一個數(shù)字化的研究環(huán)境??偟膩碚f,數(shù)字人文應(yīng)用平臺以數(shù)字化、數(shù)據(jù)化、文本化為主要方式對各種類型人文資料進(jìn)行組織與重構(gòu),將圖書館、檔案館、博物館、文化遺產(chǎn)機(jī)構(gòu)等分散的數(shù)字化館藏資源進(jìn)行整合作為應(yīng)用平臺的基礎(chǔ)數(shù)據(jù),通過平臺化的架構(gòu)為人文學(xué)者提供各類量化分析工具與可視化數(shù)據(jù)服務(wù)。數(shù)字人文應(yīng)用平臺是在傳統(tǒng)資源庫的基礎(chǔ)上發(fā)展而來的,保留著諸多傳統(tǒng)資源庫的特征,特別是在人文數(shù)據(jù)的組成方面更是以傳統(tǒng)的特藏資源為基礎(chǔ),通過對傳統(tǒng)文獻(xiàn)進(jìn)行標(biāo)注、融合和重組等工作使傳統(tǒng)資源轉(zhuǎn)化為數(shù)據(jù)形式,從而實(shí)現(xiàn)人文數(shù)據(jù)服務(wù)。

        數(shù)字人文中的人文數(shù)據(jù)建設(shè)主要有人文數(shù)據(jù)復(fù)原與人文數(shù)據(jù)重構(gòu)兩種形式[13],即通過對傳統(tǒng)文獻(xiàn)資源轉(zhuǎn)錄、改編、轉(zhuǎn)換、重組以及發(fā)布等一系列加工處理,并實(shí)現(xiàn)人文數(shù)據(jù)之間的關(guān)聯(lián),從而構(gòu)建完整、權(quán)威的人文數(shù)據(jù)集,人文數(shù)據(jù)建設(shè)不僅包含數(shù)字化,還包含文本、圖像、音視頻的多角度、顆?;疃葮?biāo)引與元數(shù)據(jù)描述、數(shù)據(jù)化、數(shù)據(jù)融合、知識關(guān)聯(lián)等工作,而這些工作與著作權(quán)法中的使用權(quán)、復(fù)制權(quán)、改編權(quán)等密切相關(guān)。當(dāng)屬于著作權(quán)法允許的少量、適當(dāng)引用他人作品,且在自主加工成數(shù)據(jù)的過程中投入智力勞動這一情況時,一般不涉及著作權(quán)問題,版權(quán)風(fēng)險相對較低。然而著作權(quán)法對原始的、非結(jié)構(gòu)化的數(shù)據(jù)的版權(quán)保護(hù)比較薄弱,因?yàn)橐恍┰紨?shù)據(jù)可能不符合“原創(chuàng)性作品”的創(chuàng)造性要求,而通過對原始數(shù)據(jù)進(jìn)行開發(fā)或加工產(chǎn)生的分析數(shù)據(jù)或匯編數(shù)據(jù)才應(yīng)當(dāng)被視為著作權(quán)客體,現(xiàn)有的法律對數(shù)據(jù)的版權(quán)保護(hù)還不完善,在有些情況下,法院愿意將版權(quán)保護(hù)范圍擴(kuò)大到涉及數(shù)據(jù)且具有足夠創(chuàng)造性的作品[14],因此,在人文數(shù)據(jù)建設(shè)的過程中很容易因?yàn)榘鏅?quán)不明確而產(chǎn)生糾紛。

        數(shù)字人文應(yīng)用服務(wù)平臺是以“數(shù)據(jù)化”為主要方式對各種類型人文資料進(jìn)行組織與揭示,其中的人文數(shù)據(jù)更多來自文獻(xiàn)原始數(shù)據(jù)或匯編數(shù)據(jù)。人文數(shù)據(jù)除了來自傳統(tǒng)的特藏資源外還有其他來源渠道,如自建特色數(shù)據(jù)、研究機(jī)構(gòu)的開放數(shù)據(jù)以及數(shù)字人文中的眾包數(shù)據(jù)等,這些來源的數(shù)據(jù)大部分具有明確的數(shù)字版權(quán)。盡管一些發(fā)布的數(shù)據(jù)已申明遵從知識共享許可協(xié)議,但使用者依然需要遵守作者的意愿,其中就涉及是否需要署名、是否可以被商用、能否修改后重新發(fā)布等問題。

        與數(shù)字人文基礎(chǔ)設(shè)施類似,數(shù)字人文應(yīng)用平臺也具有高連接性、標(biāo)準(zhǔn)化及易訪問的特點(diǎn),數(shù)字人文應(yīng)用平臺往往涉及數(shù)據(jù)開放獲取及共享,在數(shù)據(jù)開放獲取及共享的過程中也會涉及版權(quán)問題,可能會為數(shù)字人文應(yīng)用服務(wù)平臺帶來侵權(quán)風(fēng)險。由此可見,人文數(shù)據(jù)的創(chuàng)建與組織、數(shù)據(jù)使用方式、數(shù)據(jù)安全等成為數(shù)字人文應(yīng)用平臺建設(shè)中影響數(shù)字版權(quán)的重要因素。

        數(shù)字人文應(yīng)用平臺對數(shù)字人文研究的實(shí)現(xiàn)具有重要意義,數(shù)字人文應(yīng)用平臺是數(shù)據(jù)版權(quán)的最后把關(guān)“人”,數(shù)據(jù)使用的合法性、安全性等都通過應(yīng)用服務(wù)平臺實(shí)現(xiàn)。數(shù)據(jù)版權(quán)與人文數(shù)據(jù)開放理念存在一定的矛盾,作為研究者來說,希望方便、快捷地獲取自己需要的人文數(shù)據(jù),實(shí)現(xiàn)內(nèi)外部數(shù)據(jù)的整合與關(guān)聯(lián)訪問,得到“一站式”的數(shù)據(jù)服務(wù),但這種高度開放性的數(shù)據(jù)服務(wù)增加了數(shù)據(jù)侵權(quán)的風(fēng)險;而對數(shù)字人文應(yīng)用服務(wù)管理者來說,數(shù)據(jù)版權(quán)則是主要考慮的因素。因此,雙方利益平衡是數(shù)字人文應(yīng)用平臺版權(quán)保護(hù)的根基。

        3 數(shù)字版權(quán)視域下的國內(nèi)外數(shù)字人文應(yīng)用平臺構(gòu)建模式

        數(shù)字人文應(yīng)用平臺的建設(shè)旨在實(shí)現(xiàn)數(shù)據(jù)開放共享,為人文學(xué)者構(gòu)建一個數(shù)字研究環(huán)境,使其專注于學(xué)術(shù)問題研究。人文數(shù)據(jù)已成為人文學(xué)科研究的關(guān)鍵生產(chǎn)要素和基礎(chǔ)資源,數(shù)據(jù)也是數(shù)字人文基礎(chǔ)設(shè)施建設(shè)的重要內(nèi)容,因此數(shù)字版權(quán)成為各數(shù)字人文應(yīng)用平臺構(gòu)建的核心影響因素,進(jìn)而使得各平臺數(shù)據(jù)的開放及使用出現(xiàn)差異。根據(jù)數(shù)據(jù)開放程度,數(shù)字人文應(yīng)用平臺構(gòu)建模式主要分為開放型、封閉型和混合型。

        3.1 開放型平臺

        數(shù)字人文應(yīng)用平臺作為數(shù)字人文基礎(chǔ)設(shè)施的重要組成部分,起到數(shù)據(jù)基礎(chǔ)設(shè)施的作用,數(shù)據(jù)開放共享成為數(shù)字人文應(yīng)用平臺的重要特征之一,數(shù)據(jù)開放型數(shù)字人文應(yīng)用平臺成為最基本的構(gòu)建模式。數(shù)據(jù)開放型數(shù)字人文應(yīng)用平臺以無版權(quán)或被授權(quán)的數(shù)據(jù)開放利用為目的,實(shí)現(xiàn)數(shù)據(jù)的廣泛共享。首先,用戶可以根據(jù)自己的需求將平臺數(shù)據(jù)進(jìn)行組合、重構(gòu)、瀏覽及下載;其次,平臺的數(shù)據(jù)對外開放,或提供相應(yīng)的數(shù)據(jù)API接口供其他用戶及平臺使用;除此之外,也允許導(dǎo)入及調(diào)用其他平臺的數(shù)據(jù),連接及共享其他平臺的數(shù)據(jù),并利用平臺工具進(jìn)行閱讀、分析及可視化利用。

        目前,諸多數(shù)字人文應(yīng)用平臺呈現(xiàn)出數(shù)據(jù)開放型模式特征。中國臺灣大學(xué)數(shù)位人文研究中心研發(fā)的DocuSky數(shù)位人文學(xué)術(shù)研究平臺是典型的數(shù)據(jù)開放型平臺,該平臺基于個人化資料庫構(gòu)建及數(shù)字工具分析理念,致力于開放鏈接技術(shù)支持人文學(xué)者上傳各種不同來源、格式相異的文本數(shù)據(jù),并且學(xué)者可以利用平臺所提供的各種數(shù)字工具滿足自己的個性化需求。在DocuSky平臺中,學(xué)者無須求助專業(yè)技術(shù)人員就可以自主構(gòu)建個人的多功能云端數(shù)據(jù)庫,可以自由選用豐富的工具與材料,在上傳個人文本與權(quán)威文檔的同時,還可以導(dǎo)入其他開放資料庫的文本,如中國哲學(xué)書電子化計劃Ctext[15]、日本京都大學(xué)的漢籍文本Kanripo[16]、中國臺灣地區(qū)“中研院”史語所漢籍文本等權(quán)威文檔等。

        數(shù)據(jù)開放型平臺側(cè)重數(shù)字人文研究數(shù)據(jù)及工具的集成與共享,主要提供各種數(shù)據(jù)處理及分析工具,通過定義一套標(biāo)準(zhǔn)化的API數(shù)據(jù)訪問接口或關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行鏈接,具有高度的數(shù)據(jù)開放性及易訪問性。同時,由于數(shù)據(jù)開放型平臺可以引入外部數(shù)據(jù)進(jìn)行分析,使得平臺的研究方法及工具也具有極高的共享性,這都為學(xué)者的研究帶來了極大的便利,因而數(shù)據(jù)開放型平臺具有良好的開放性、公共性和可持續(xù)性。

        3.2 封閉型平臺

        從版權(quán)角度來說,有的數(shù)字人文應(yīng)用平臺又具有一定的封閉性及排他性——既不開放數(shù)據(jù),也不接收外部數(shù)據(jù),這種數(shù)字人文應(yīng)用平臺形成一種數(shù)據(jù)封閉型模式。數(shù)據(jù)封閉型數(shù)字人文應(yīng)用平臺是一種基于數(shù)字版權(quán)保護(hù)機(jī)制的封閉平臺,其將版權(quán)(私有)數(shù)據(jù)封裝到一個可控制訪問權(quán)限的系統(tǒng)中,從而實(shí)現(xiàn)數(shù)據(jù)版權(quán)保護(hù)。數(shù)據(jù)封閉型平臺通過軟件、硬件系統(tǒng)來隔離用戶與數(shù)據(jù)之間的直接聯(lián)系,通過基于策略接口和網(wǎng)絡(luò)訪問的控制限制他人對版權(quán)數(shù)據(jù)的非法操作與訪問,用戶可以選擇具有自定義功能的模塊或工具用于數(shù)據(jù)分析。相對于數(shù)據(jù)開放型數(shù)字人文應(yīng)用平臺,數(shù)據(jù)封閉型平臺側(cè)重數(shù)據(jù)版權(quán)保護(hù)的運(yùn)作模式,并以平臺數(shù)據(jù)及分析工具為研究者構(gòu)建一個數(shù)字學(xué)術(shù)研究環(huán)境。

        數(shù)據(jù)封閉型數(shù)字人文應(yīng)用平臺模式是一種較好的平臺數(shù)據(jù)版權(quán)解決方案,并在實(shí)踐中被廣泛應(yīng)用。隨著數(shù)字研究環(huán)境的發(fā)展,內(nèi)容分析研究逐漸興起,文本內(nèi)容挖掘策略較好地解決了版權(quán)數(shù)據(jù)使用限制。HathiTrust是美國一個長期保存數(shù)字資源的公共平臺,HathiTrust數(shù)字圖書館擁有1 500多萬卷/冊資源,但有900多萬卷/冊因受到版權(quán)限制,而不能被HathiTrust成員館用戶公開使用。為解決此問題,HathiTrust研究中心(HathiTrust Research Center,HTRC)一直希望創(chuàng)建一套能讓這些受版權(quán)限制的資源更加開放地被學(xué)者使用的模式,為了滿足數(shù)字人文的需要,HTRC提出了“非消費(fèi)型研究”(non-consumptive research)服務(wù)理念[17]?;谶@種服務(wù)理念,HTRC為版權(quán)數(shù)據(jù)開發(fā)了封閉的應(yīng)用環(huán)境[18-19],這既為學(xué)者訪問這些受版權(quán)保護(hù)資源開辟了新的訪問方式,又尊重了版權(quán)限制。所謂“數(shù)據(jù)膠囊”,簡單來說就是將受版權(quán)保護(hù)的數(shù)據(jù)通過技術(shù)手段封裝起來,避免用戶直接讀取原始全文,再基于特定的算法對封裝的原始全文進(jìn)行計算分析,并返回分析結(jié)果供研究人員使用,這種運(yùn)作機(jī)制打破了數(shù)字版權(quán)的屏障,滿足了研究人員的數(shù)據(jù)需求,又較好地保護(hù)了原始數(shù)據(jù)的版權(quán)。

        數(shù)據(jù)膠囊服務(wù)為研究人員提供虛擬計算及分析功能,研究人員可以根據(jù)需要選擇適合需求的分析工具及分析數(shù)據(jù)集進(jìn)行分析。數(shù)據(jù)膠囊支持研究人員靈活配置運(yùn)算環(huán)境,將不同的運(yùn)算機(jī)制嵌入數(shù)據(jù)膠囊中,用戶可以在該運(yùn)算機(jī)制下生成分析結(jié)果,目前數(shù)據(jù)膠囊支持越來越多的分析類型,并且內(nèi)置各種通用的分析工具。此外,HTRC與Google實(shí)驗(yàn)室合作開發(fā)了“Bookworm”文本分析和可視化工具[20],旨在幫助學(xué)者應(yīng)對大規(guī)模的HathiTrust文本數(shù)據(jù)所帶來的挑戰(zhàn),在尊重版權(quán)的基礎(chǔ)上充分服務(wù)學(xué)者。Bookworm以一種簡單而強(qiáng)大的方式對數(shù)字化文本庫中的語言使用趨勢進(jìn)行可視化,通過一組強(qiáng)化的基于內(nèi)容和元數(shù)據(jù)的特性來支持?jǐn)?shù)據(jù)的多面“切片和切塊”,從而幫助學(xué)者更好地建立他們的工作集。HathiTrust與Bookworm可視化工具可供研究人員繪制HathiTrust語料庫中的單詞趨勢圖,并通過書目元數(shù)據(jù)對其進(jìn)行搜索。Gale數(shù)字學(xué)術(shù)實(shí)驗(yàn)室也將Gale 1.7億頁、跨越500多年的原始檔案文字識別數(shù)據(jù)與文本構(gòu)建用于研究的語料庫,并將挖掘和可視化工具整合在一個平臺之下,為學(xué)者提供了可對歷史、文化、社會、政治等眾多領(lǐng)域數(shù)據(jù)進(jìn)行分析與挖掘的人文計算工具[21]。

        數(shù)據(jù)封閉型數(shù)字人文應(yīng)用平臺側(cè)重人文數(shù)據(jù)的版權(quán)保護(hù),對數(shù)據(jù)的合理使用進(jìn)行了嚴(yán)格的規(guī)范,在未被授權(quán)的情況下用戶不能直接訪問平臺的數(shù)據(jù),用戶可以通過分析及挖掘工具獲得分析及處理結(jié)果。數(shù)據(jù)封閉型數(shù)字人文應(yīng)用平臺對用戶來說具有單向性,大多只能分析平臺提供的數(shù)據(jù)集,不能鏈接分析平臺外部的數(shù)據(jù),因此平臺分析工具及數(shù)據(jù)共享功能差,不利于人文數(shù)據(jù)及研究工具的開放及共享。

        3.3 混合型平臺

        在實(shí)踐中,數(shù)字人文應(yīng)用平臺中的數(shù)據(jù)組成形式呈多樣化,既包含開放共享數(shù)據(jù),也包含版權(quán)數(shù)據(jù),因而需要一種兼顧這兩種形式的混合模式數(shù)字人文應(yīng)用平臺。混合型平臺介于數(shù)據(jù)封閉型與數(shù)據(jù)開放型之間,這種平臺在以開放共享為主導(dǎo)模式的基礎(chǔ)上對一些受保護(hù)的數(shù)據(jù)進(jìn)行封裝,借鑒“數(shù)據(jù)膠囊”式建設(shè)理念構(gòu)建數(shù)據(jù)分析環(huán)境,通過建立合理的數(shù)據(jù)應(yīng)用機(jī)制保護(hù)版權(quán)(私有)數(shù)據(jù),從而以實(shí)現(xiàn)數(shù)據(jù)版權(quán)(私有)保護(hù)與數(shù)據(jù)利用之間的利益平衡,對于無版權(quán)限制的數(shù)據(jù)則開放共享,同時研究工具也可對應(yīng)用平臺的所有數(shù)據(jù)進(jìn)行分析。

        混合型數(shù)字人文應(yīng)用平臺注重數(shù)據(jù)的共享,以筆者開發(fā)的中國古籍基礎(chǔ)數(shù)據(jù)應(yīng)用平臺[22]為例,數(shù)據(jù)版權(quán)風(fēng)險是古籍?dāng)?shù)字人文應(yīng)用服務(wù)體系構(gòu)建面臨的現(xiàn)實(shí)挑戰(zhàn)之一,也是影響古籍?dāng)?shù)字人文健康發(fā)展的關(guān)鍵因素。從理論上來說,古籍文獻(xiàn)本身已超過50年的版權(quán)保護(hù)期,使用上無版權(quán)限制,但古籍?dāng)?shù)字人文應(yīng)用平臺的古籍?dāng)?shù)據(jù)更多來自古籍的標(biāo)點(diǎn)、注釋、匡正、補(bǔ)遺等整理作品,依據(jù)我國《著作權(quán)法》第十二條規(guī)定,“改編、翻譯、注釋、整理已有作品而產(chǎn)生的作品,其著作權(quán)由改編、翻譯、注釋、整理人享有”,按此項規(guī)定,如果整理的新作品具有獨(dú)創(chuàng)性,則理應(yīng)受著作權(quán)保護(hù)[23]。此外,古籍?dāng)?shù)據(jù)及知識的整理是一件費(fèi)時、費(fèi)力的工作,整理者對古籍?dāng)?shù)據(jù)及知識的整理付出了智力勞動,因而擁有所有權(quán),也具有版權(quán)。就目前來說,應(yīng)用于古籍?dāng)?shù)字人文平臺的數(shù)據(jù)主要來源于傳統(tǒng)數(shù)字資源的數(shù)據(jù)化,因此古籍?dāng)?shù)字人文應(yīng)用平臺需要具有完善的版權(quán)(私有)數(shù)據(jù)保護(hù)機(jī)制,從而對版權(quán)及私有數(shù)據(jù)進(jìn)行保護(hù)。同時,古籍?dāng)?shù)字人文應(yīng)用平臺的開放數(shù)據(jù)服務(wù)對人文數(shù)據(jù)的互聯(lián)互通具有重要意義,是推動人文研究創(chuàng)新的重要基礎(chǔ),需要考慮研究者的使用需求,需要選擇合適的古籍?dāng)?shù)字人文應(yīng)用平臺構(gòu)建模式,從而促進(jìn)古籍?dāng)?shù)據(jù)在更大范圍內(nèi)共建共享。

        綜上所述,為了尋求古籍?dāng)?shù)據(jù)保護(hù)與數(shù)據(jù)開放之間的平衡關(guān)系,中國古籍基礎(chǔ)數(shù)據(jù)應(yīng)用平臺采用混合型模式構(gòu)建,混合型古籍?dāng)?shù)字人文應(yīng)用平臺中的數(shù)據(jù)來源渠道多元化,混合模式既對含有版權(quán)的數(shù)據(jù)進(jìn)行了保護(hù),又為人文學(xué)者提供了相對開放的數(shù)據(jù)服務(wù)應(yīng)用環(huán)境,同時也實(shí)現(xiàn)了其他數(shù)據(jù)的開放與共享,有力地支持了人文研究。

        混合型古籍?dāng)?shù)字人文應(yīng)用平臺主要由數(shù)據(jù)中臺、算法中臺等組成(見圖1)。數(shù)字人文研究加速了人文學(xué)科數(shù)據(jù)驅(qū)動型研究的發(fā)展,數(shù)據(jù)建設(shè)是數(shù)字人文的重要內(nèi)容,通過建立古籍?dāng)?shù)據(jù)中臺,聚合和治理跨域數(shù)據(jù),從而驅(qū)動數(shù)據(jù)服務(wù)的轉(zhuǎn)型,滿足人文學(xué)者研究需求。古籍?dāng)?shù)據(jù)中臺的核心思想是數(shù)據(jù)共享與數(shù)據(jù)版權(quán)保護(hù),古籍?dāng)?shù)據(jù)中臺作為一個數(shù)據(jù)共享的核心,在混合型古籍?dāng)?shù)字人文應(yīng)用平臺構(gòu)建的過程中對有版權(quán)(私有)的古籍?dāng)?shù)據(jù)進(jìn)行封裝,通過將圖像、文本、數(shù)據(jù)、知識等進(jìn)行結(jié)構(gòu)化處理,進(jìn)而聚合跨域多源數(shù)據(jù),解決人文研究中面臨的古籍?dāng)?shù)據(jù)孤島問題,建立數(shù)據(jù)挖掘、數(shù)據(jù)管理、數(shù)據(jù)利用與共享等機(jī)制,最終滿足人文學(xué)者研究的多維數(shù)據(jù)需求,實(shí)現(xiàn)不同古籍應(yīng)用場景的人文研究。古籍?dāng)?shù)據(jù)中臺存儲受保護(hù)的版權(quán)(私有)數(shù)據(jù),也存儲開放共享數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)版權(quán)(私有)與數(shù)據(jù)利用之間的利益平衡。

        圖1 混合模式的古籍?dāng)?shù)字人文應(yīng)用平臺框架

        算法中臺不但為人文學(xué)者提供各種古籍研究場景的分析方法及工具,也為人文計算提供高性能硬件計算服務(wù),為人文學(xué)者構(gòu)建一個流暢、穩(wěn)定、可擴(kuò)展的研究環(huán)境,提供更加個性化的服務(wù),增強(qiáng)用戶體驗(yàn)。算法中臺將用戶與易于使用的工具相連接,實(shí)現(xiàn)分析方法工具化、平臺化,其接收用戶的計算分析及數(shù)據(jù)調(diào)度請求,通過內(nèi)置的文本分析和可視化工具等進(jìn)行數(shù)據(jù)分析,并向用戶返回計算及分析結(jié)果,而計算及分析與數(shù)據(jù)調(diào)度都由算法中臺完成,用戶根據(jù)自己的研究需要配置相應(yīng)參數(shù)并選擇對應(yīng)功能模塊即可完成分析及計算,為人文學(xué)者實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用的無縫對接。人文學(xué)者既可以通過應(yīng)用分析與計算接口對平臺受保護(hù)的圖像、文本、數(shù)據(jù)、知識進(jìn)行間接訪問,系統(tǒng)把分析及計算的結(jié)果返回給人文學(xué)者,避免了人文學(xué)者直接訪問平臺的版權(quán)(私有)數(shù)據(jù);人文學(xué)者也可以直接訪問平臺的開放數(shù)據(jù),分析與計算接口是聯(lián)系古籍?dāng)?shù)據(jù)與人文學(xué)者的橋梁。

        3.4 數(shù)字人文應(yīng)用平臺模式比較

        數(shù)據(jù)開放型、數(shù)據(jù)封閉型及混合型數(shù)字人文應(yīng)用平臺模式各自的特點(diǎn)不同(見表1),側(cè)重不同的應(yīng)用場景。從數(shù)據(jù)的開放性來說,數(shù)據(jù)開放型數(shù)字人文應(yīng)用平臺的開放程度最好,也是人文學(xué)者比較喜歡的模式,學(xué)者可以共享平臺數(shù)據(jù),人文學(xué)者參與程度高,但也因?yàn)閿?shù)據(jù)的保護(hù)性差,學(xué)者上傳個人數(shù)據(jù)的意愿降低,也限制了版權(quán)數(shù)據(jù)的發(fā)布與共享,從而限制了平臺的數(shù)據(jù)類型和數(shù)量。數(shù)據(jù)封閉型數(shù)字人文應(yīng)用平臺則更強(qiáng)調(diào)對數(shù)據(jù)的保護(hù),數(shù)據(jù)的開放程度不夠,難以對數(shù)據(jù)進(jìn)行共享,實(shí)踐中也缺乏人文學(xué)者的廣泛參與,目前,商業(yè)性數(shù)字人文應(yīng)用平臺多為數(shù)據(jù)封閉型模式,大多采用付費(fèi)方式供用戶使用。而混合型數(shù)字人文應(yīng)用平臺模式則兼顧前兩種的優(yōu)點(diǎn),既可以對版權(quán)(私有)數(shù)據(jù)進(jìn)行保護(hù),又可以實(shí)現(xiàn)廣泛的數(shù)據(jù)共享;既滿足學(xué)者的需要,也符合數(shù)據(jù)管理者的需求;既能吸引人文學(xué)者的廣泛參與,也對商業(yè)性數(shù)據(jù)參與具有吸引力。但從平臺實(shí)現(xiàn)角度來看,混合型數(shù)字人文應(yīng)用平臺構(gòu)建復(fù)雜程度也較前兩種高。

        表1 平臺模式比較

        4 結(jié)語

        數(shù)字人文應(yīng)用平臺是開展數(shù)字人文服務(wù)的重要組成部分,也是數(shù)字人文重要的基礎(chǔ)設(shè)施,近年來各種數(shù)字人文應(yīng)用平臺建設(shè)不斷涌現(xiàn),從現(xiàn)有數(shù)字人文應(yīng)用平臺構(gòu)建模式來看,數(shù)字版權(quán)是目前數(shù)字人文應(yīng)用平臺構(gòu)建模式的主要影響因素,數(shù)字版權(quán)的授權(quán)與獲取直接影響著人文數(shù)據(jù)及研究工具的使用方式與使用范圍,也影響著數(shù)字人文應(yīng)用平臺構(gòu)建模式的選擇。目前的數(shù)字人文應(yīng)用平臺可分為數(shù)據(jù)開放型、數(shù)據(jù)封閉型、混合型3種,不同的構(gòu)建模式其側(cè)重點(diǎn)不同,適用于不同的應(yīng)用場景,數(shù)據(jù)開放型側(cè)重數(shù)據(jù)及工具共享,數(shù)據(jù)封閉型則側(cè)重數(shù)字版權(quán)的保護(hù),而混合型既對版權(quán)(私有)數(shù)據(jù)進(jìn)行了保護(hù),又給傳統(tǒng)的人文研究帶來數(shù)據(jù)、工具的共享。

        從數(shù)字人文應(yīng)用平臺構(gòu)建實(shí)踐來看,目前數(shù)字人文應(yīng)用平臺的數(shù)據(jù)有3種類型:①以傳統(tǒng)數(shù)字資源為基礎(chǔ),通過數(shù)據(jù)化的形式把傳統(tǒng)數(shù)字資源轉(zhuǎn)化為人文數(shù)據(jù),平臺對這類數(shù)據(jù)具有明確的數(shù)字版權(quán);②人文學(xué)者在數(shù)字人文的實(shí)踐中加工、整理的數(shù)據(jù),這類數(shù)據(jù)屬于私有數(shù)據(jù),加工即整理者擁有所有權(quán);③無版權(quán)的公共數(shù)據(jù)。由此可見,混合型數(shù)字人文應(yīng)用平臺是解決目前數(shù)字版權(quán)問題的首選構(gòu)建模式。

        本文從數(shù)字人文的人文數(shù)據(jù)版權(quán)角度出發(fā)對數(shù)字人文應(yīng)用平臺模式進(jìn)行了研究,由于人文數(shù)據(jù)的組成復(fù)雜,其版權(quán)也存在特殊性與復(fù)雜性,對于版權(quán)風(fēng)險的論述還不夠具體,有待進(jìn)一步對引發(fā)版權(quán)糾紛的因素進(jìn)行進(jìn)一步闡述,并提出應(yīng)對措施。

        猜你喜歡
        古籍學(xué)者工具
        學(xué)者介紹
        學(xué)者簡介
        學(xué)者介紹
        中醫(yī)古籍“疒”部俗字考辨舉隅
        波比的工具
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        波比的工具
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        “巧用”工具
        讀者(2017年18期)2017-08-29 21:22:03
        我是古籍修復(fù)師
        金橋(2017年5期)2017-07-05 08:14:41
        久久99精品久久久久久噜噜| 成人免费视频自偷自拍| 国产精品日韩欧美一区二区区| 韩国精品一区二区三区| 国产喷白浆精品一区二区豆腐| 少妇人妻中文久久综合| 免费观看a级片| 色欲av亚洲一区无码少妇| 亚洲h电影| 亚洲传媒av一区二区三区| 亚洲乱熟妇一区二区三区蜜桃| 成年丰满熟妇午夜免费视频| 精品久久久久久无码中文字幕| 国产做无码视频在线观看浪潮| 一区二区三区国产在线网站视频| 亚洲中文字幕不卡一区二区三区| 激情五月天色婷婷久久| 精品国产一区二区三区色搞| 99精品人妻无码专区在线视频区| 国产精品一区二区暴白浆| 色婷婷激情在线一区二区三区| 亚洲天堂av在线网站| 无码一区二区三区中文字幕| 欧美两根一起进3p做受视频| 四虎精品成人免费观看| 久久精品网站免费观看| 国产一区二区三区啊啊| 国产成人精品午夜二三区波多野| 91热这里只有精品| 国产成人自产拍免费视频| 韩国一区二区三区黄色录像| aⅴ精品无码无卡在线观看| 精品欧洲av无码一区二区三区| 不卡无毒免费毛片视频观看| 亚洲女同人妻在线播放| 久久精品丝袜高跟鞋| 八戒网站免费观看视频| 日本理论片一区二区三区| 手机在线观看成年人视频| 国产激情一区二区三区在线| 久久99精品久久久久久秒播|