亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文古籍?dāng)?shù)字化成果輔助人文學(xué)術(shù)研究功能的調(diào)查

        2019-06-25 01:57:02盧彤李明杰
        圖書與情報(bào) 2019年1期
        關(guān)鍵詞:數(shù)字人文

        盧彤 李明杰

        摘? ?要:文章通過網(wǎng)絡(luò)訪問、親身體驗(yàn)與文獻(xiàn)調(diào)研,考察了中文古籍?dāng)?shù)字化成果輔助人文學(xué)術(shù)研究的功能。根據(jù)數(shù)據(jù)庫(kù)形態(tài),將調(diào)查對(duì)象分為典藏檢索型數(shù)據(jù)庫(kù)、量化分析型數(shù)據(jù)庫(kù)與數(shù)字人文平臺(tái),以表格形式展示了各類型古籍?dāng)?shù)字化成果,從系統(tǒng)功能角度分析歸納各類型數(shù)據(jù)庫(kù)的研究輔助功能,并指出在文史專家與信息科學(xué)家的協(xié)作下,結(jié)合文獻(xiàn)整理學(xué)術(shù)傳統(tǒng)與現(xiàn)代信息技術(shù),以專業(yè)問題為導(dǎo)向的數(shù)字人文研究平臺(tái)的開發(fā)模式是未來古籍?dāng)?shù)字化的發(fā)展方向。

        關(guān)鍵詞:古籍?dāng)?shù)字化;研究輔助功能;數(shù)字人文

        中圖分類號(hào):G255.1;C3? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019010

        Abstract By network access, hands-on experience and literature research, the authors investigates on functions of digital productions of Chinese ancient books in assisting humanities research. Target databases are classified into 3 categories: collection retrieval database, quantitative analysis database and digital humanity platform. Tabulations are used to help illustrate characteristics of different types of digitization products. The paper analyzes functions of assisting research of different databases from the perspective of system function and looks into the future. The development direction of ancient book digitalization is a research-oriented digital humanities platform that combines academic tradition of literature sorting and modern information technology, which calls for cooperation between humanists and information scientists.

        Key words ancient book digitalization; function of assisting research; digital humanities

        隨著數(shù)字人文的興起,人文學(xué)者開始接觸與使用各種數(shù)字技術(shù)來處理人文科學(xué)數(shù)據(jù)。古籍?dāng)?shù)字化產(chǎn)品慢慢由資源庫(kù)向研究平臺(tái)轉(zhuǎn)變,以滿足人文學(xué)者不斷提出的輔助其研究的新需求。而傳統(tǒng)的人文研究方法在全文數(shù)據(jù)庫(kù)強(qiáng)大的檢索功能輔助下,雖在技術(shù)上提升了檢索效率,但如何獲取和有效組織文獻(xiàn)數(shù)據(jù),則依舊仰賴于人文學(xué)者在各自領(lǐng)域中經(jīng)年累月的訓(xùn)練所培養(yǎng)的基本功。古籍?dāng)?shù)字化成果究竟能在多大程度上輔助傳統(tǒng)的人文學(xué)術(shù)研究,目前尚存疑問。鑒于此,本文通過網(wǎng)絡(luò)訪問、親身體驗(yàn)、文獻(xiàn)調(diào)研等方式,對(duì)我國(guó)現(xiàn)有古籍?dāng)?shù)字化產(chǎn)品功能進(jìn)行調(diào)查,分析其滿足人文學(xué)者專業(yè)研究需求的程度,以探討古籍?dāng)?shù)字化產(chǎn)品功能的研發(fā)方向。借鑒申斌和楊培娜[1]對(duì)輔助歷史研究的功能層次的劃分,本文從典藏檢索型數(shù)據(jù)庫(kù)、量化分析型數(shù)據(jù)庫(kù)、數(shù)字人文研究平臺(tái)三個(gè)方面展開調(diào)查(僅揭示圖書館館藏的書目型、圖像型數(shù)據(jù)庫(kù)不在此次調(diào)查范圍之內(nèi))。

        1? ?典藏檢索型數(shù)據(jù)庫(kù)及其輔助人文學(xué)術(shù)研究功能

        典藏檢索型數(shù)據(jù)庫(kù)從藏與用的目的出發(fā),在對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行??闭淼幕A(chǔ)上,利用計(jì)算機(jī)技術(shù)將其編碼轉(zhuǎn)換,再根據(jù)文獻(xiàn)特性進(jìn)行組織與元數(shù)據(jù)標(biāo)引,從而實(shí)現(xiàn)古籍內(nèi)容的數(shù)字化保存與傳播,同時(shí)借助計(jì)算機(jī)技術(shù)與數(shù)據(jù)庫(kù)環(huán)境發(fā)揮索引功能的優(yōu)勢(shì),實(shí)現(xiàn)分類瀏覽與字段檢索、全文檢索甚至語義關(guān)聯(lián)檢索的功能,因而是一種具備檢索功能的數(shù)字化文本存儲(chǔ)環(huán)境。本次調(diào)查的結(jié)果:典藏檢索型數(shù)據(jù)庫(kù)共79種,其中以圖書館、學(xué)術(shù)機(jī)構(gòu)、數(shù)字出版商為主要開發(fā)者的分別有13種、16種和50種。

        1.1? ? 圖書館開發(fā)的典藏檢索型數(shù)據(jù)庫(kù)

        從古籍?dāng)?shù)字化三大主體的成果總量來看,圖書館雖是最多的,但其所建的古籍?dāng)?shù)字化系統(tǒng)大多只能進(jìn)行一般的書目檢索或書影瀏覽,尚停留在揭示館藏的層面[2]。筆者對(duì)這些成果進(jìn)行定期跟蹤,發(fā)現(xiàn)它們大多在資源更新與維護(hù)上并不及時(shí),且未能跟進(jìn)新的數(shù)字化技術(shù),導(dǎo)致這類產(chǎn)品無法同時(shí)具備典藏與檢索的功能。根據(jù)跟蹤調(diào)研的結(jié)果,筆者選取內(nèi)容經(jīng)全文轉(zhuǎn)碼且具有檢索功能的產(chǎn)品,按其來源、成果名稱、分類瀏覽、檢索與顯示功能、嵌入工具及知識(shí)增值功能等情況統(tǒng)計(jì)出概況(見表1)。

        調(diào)查結(jié)果顯示,在選題上,圖書館開發(fā)的典藏檢索型數(shù)據(jù)庫(kù)主要以館藏古籍和地方特色文獻(xiàn)為主,其中方志、家譜較為常見;在功能上,根據(jù)文獻(xiàn)內(nèi)容本身的特色進(jìn)行分類瀏覽,借助標(biāo)引實(shí)現(xiàn)字段檢索功能。然而,無論是分類瀏覽或全文檢索,其原理都是通過著錄文獻(xiàn)外部特征以達(dá)到檢索文獻(xiàn)的目的,僅有少數(shù)數(shù)據(jù)庫(kù)具有初級(jí)的研究輔助功能,如“中華再造善本數(shù)據(jù)庫(kù)”可據(jù)不同底本進(jìn)行版本對(duì)照。

        1.2? ? 學(xué)術(shù)機(jī)構(gòu)開發(fā)的典藏檢索型數(shù)據(jù)庫(kù)

        通過調(diào)研匯總了學(xué)術(shù)機(jī)構(gòu)開發(fā)的典藏檢索型數(shù)據(jù)庫(kù)的概況(見表2)。首先,在選題上,由于學(xué)術(shù)機(jī)構(gòu)不受館藏與地域的限制,因而所建的典藏檢索型數(shù)據(jù)庫(kù)更具專題性與實(shí)用性,也更符合專業(yè)研究者的需求。但此類數(shù)據(jù)庫(kù)多是課題研究的結(jié)果,新的數(shù)字化技術(shù)的應(yīng)用都帶有一定的試驗(yàn)性,且存在重復(fù)選題的現(xiàn)象;其次,在研究功能上,學(xué)術(shù)機(jī)構(gòu)開發(fā)的此類古籍?dāng)?shù)字化產(chǎn)品在當(dāng)時(shí)都具有一定的前瞻性。相較于只提供基礎(chǔ)性檢索功能的圖書館數(shù)據(jù)庫(kù),這些系統(tǒng)又開發(fā)出新的輔助研究功能。

        (1)檢索結(jié)果顯示與對(duì)比。初級(jí)的結(jié)果顯示功能是藉由計(jì)算機(jī)技術(shù)將影像或文字經(jīng)過一定處理,在顯示界面為讀者提供文本及圖像的對(duì)比環(huán)境,常見且已趨成熟的功能有圖文對(duì)照、繁簡(jiǎn)轉(zhuǎn)換,兩者都是保留底本原貌的一種手段;進(jìn)階的結(jié)果顯示功能是根據(jù)文獻(xiàn)本身內(nèi)容與形式之間的聯(lián)系所設(shè)計(jì),更能發(fā)揮數(shù)字化環(huán)境的優(yōu)勢(shì),如臺(tái)灣大學(xué)數(shù)字人文研究中心“春秋三傳對(duì)讀系統(tǒng)”,能將《左傳》《公羊傳》《谷梁傳》根據(jù)《春秋》的編年時(shí)序進(jìn)行文本條目的對(duì)應(yīng),并將一傳的檢索結(jié)果與其他二傳結(jié)果并列顯示,以便比較研究。

        (2)知識(shí)庫(kù)構(gòu)建與檢索擴(kuò)展。古籍?dāng)?shù)字化產(chǎn)品常見的知識(shí)庫(kù)有人名、地名、職官、異體字等內(nèi)容,是由專家對(duì)本領(lǐng)域知識(shí)以一定的規(guī)則進(jìn)行組織整序,形成一種內(nèi)部知識(shí)相互關(guān)聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),一方面擴(kuò)大檢索入口,提高檢全率;另一方面為用戶提供知識(shí)鏈接的環(huán)境。如北京大學(xué)數(shù)據(jù)分析研究中心的“廿五史研習(xí)系統(tǒng)”,其聯(lián)想式檢索是一種在全局環(huán)境下(包括自建知識(shí)庫(kù)與文獻(xiàn)庫(kù)中的全文、注釋)的一鍵式檢索功能,用戶可在閱讀環(huán)境下選擇文本中的任意字詞進(jìn)行知識(shí)鏈接;臺(tái)灣地區(qū)“中央研究院”歷史語言研究所的“明實(shí)錄、朝鮮王朝實(shí)錄、清實(shí)錄數(shù)據(jù)庫(kù)”則是鏈接該所與臺(tái)北故宮博物院共同研發(fā)的“明清檔案人名權(quán)威資料”,用戶可在閱讀時(shí)隨時(shí)了解文中出現(xiàn)人物的生平與履歷信息。

        (3)嵌入外部知識(shí)工具。常見的外部知識(shí)工具有古漢語字典、人名與地名詞典、生僻字輸入工具、時(shí)間換算法(古今紀(jì)年、干支公元換算)等。本次調(diào)研發(fā)現(xiàn),由臺(tái)灣地區(qū)“中央研究院”歷史語言研究所開發(fā)的“漢代簡(jiǎn)牘數(shù)字典藏?cái)?shù)據(jù)庫(kù)”嵌入了“史語所藏居延漢簡(jiǎn)遺址查詢系統(tǒng)”,可借助GIS呈現(xiàn)遺址及簡(jiǎn)牘發(fā)現(xiàn)位置。不過,此類功能在學(xué)術(shù)機(jī)構(gòu)研發(fā)的典藏檢索型數(shù)據(jù)庫(kù)中仍較少見。

        1.3? ? 數(shù)字出版商開發(fā)的典藏檢索型數(shù)據(jù)庫(kù)

        數(shù)字出版商依托圖書館的古籍善本資源,或吸納文史專業(yè)研究人員參與研發(fā),或與高校學(xué)術(shù)機(jī)構(gòu)聯(lián)合成立電子文獻(xiàn)研究所,大規(guī)模、成系統(tǒng)地將常用基本古籍?dāng)?shù)字化,其規(guī)模和總量在三類主體中居首位(見表3)。在本次調(diào)研中,所有數(shù)字出版商所開發(fā)的古籍?dāng)?shù)字化產(chǎn)品皆屬于典藏檢索型數(shù)據(jù)庫(kù),但新技術(shù)的應(yīng)用尚不充分,其各具特色的內(nèi)容資源尚未得到充分挖掘。

        數(shù)字出版商開發(fā)的古籍?dāng)?shù)字化產(chǎn)品以大型綜合性數(shù)據(jù)庫(kù)和叢書數(shù)據(jù)庫(kù)為特色,涵蓋史學(xué)、文學(xué)、宗教、醫(yī)學(xué)等領(lǐng)域常見古籍,很大程度上滿足了專業(yè)研究人員的需要,但各開發(fā)主體間缺乏協(xié)作,因此選題重復(fù)率較高。在輔助研究功能上,它們開發(fā)的古籍?dāng)?shù)字化產(chǎn)品有以下特點(diǎn):

        (1)基本檢索功能成熟。多數(shù)產(chǎn)品具有分類瀏覽功能,用戶可根據(jù)各系統(tǒng)的分類組織方式掌握資源概況以類求書,其功能更偏重于資源的組織與展示;字段檢索通過對(duì)古籍外部特征進(jìn)行數(shù)據(jù)描述得以實(shí)現(xiàn),常見字段見表3,但大多不支持檢索擴(kuò)展或智能檢索。這就要求用戶對(duì)各數(shù)據(jù)庫(kù)的元數(shù)據(jù)著錄規(guī)范有充分的掌握,對(duì)用戶的檢索能力要求較高。同時(shí)由于標(biāo)引的深度不夠,無法發(fā)現(xiàn)古籍內(nèi)容中潛在的知識(shí);全文檢索功能雖在一定程度上彌補(bǔ)了字段檢索在內(nèi)容檢索上的缺陷,但因?qū)χR(shí)組織與關(guān)聯(lián)技術(shù)的引入不夠,目前的全文檢索功能實(shí)際上仍停留在字詞索引階段,導(dǎo)致用戶在檢索專題資料時(shí)仍需耗費(fèi)大量精力來設(shè)計(jì)全面的檢索式,以獲得更高的檢全率。

        (2)嵌入的知識(shí)工具同質(zhì)性高。調(diào)查顯示,嵌入的知識(shí)工具仍在字詞典、紀(jì)年換算的范圍,其中愛如生與書同文公司所開發(fā)的產(chǎn)品大多配備統(tǒng)一的嵌入工具,一些有專門需求的數(shù)據(jù)庫(kù)則未根據(jù)文獻(xiàn)特色開發(fā)出相應(yīng)的輔助工具。值得一提的是,書同文公司開發(fā)的三維助檢系統(tǒng)及關(guān)聯(lián)漢字檢索較具特色,前者可在書同文公司自建的知識(shí)庫(kù)中查詢歷史地名、人名與職官信息,也可在閱讀環(huán)境中通過超鏈接直接獲取相關(guān)知識(shí)信息;后者根據(jù)內(nèi)建字體知識(shí)庫(kù),幫助用戶將檢索詞擴(kuò)展至異體字、簡(jiǎn)繁體等變體,其效果類似截詞檢索,在技術(shù)上利用知識(shí)庫(kù)與布爾邏輯規(guī)則彌補(bǔ)了單純?nèi)臋z索在變體字檢索上的缺陷。

        (3)知識(shí)增值功能少且單一。調(diào)查顯示,此類型數(shù)據(jù)庫(kù)的知識(shí)增值功能主要以版本對(duì)照與查詢?yōu)橹?,但僅限于古籍?dāng)?shù)字化底本與文本的對(duì)照,而其他版本只能查詢其館藏出處,仍無法做到傳統(tǒng)文獻(xiàn)整理所要求的“廣羅異本”,更無法滿足將一切有校勘價(jià)值的文獻(xiàn)資料提供給專業(yè)研究者的需求。加上未能有效結(jié)合前人的版本考訂成果,讀者對(duì)開發(fā)商選用底本的依據(jù)無從知曉。個(gè)別數(shù)據(jù)庫(kù)能提供多個(gè)版本的圖像對(duì)照,但限于顯示環(huán)境,對(duì)比翻檢困難。另外,相關(guān)研究整合與國(guó)學(xué)寶典嵌入的知網(wǎng)結(jié)節(jié)功能藉由人工與引文分析的方法,可幫助研究者快速獲得相關(guān)課題的研究成果。

        綜上所述,不同主體開發(fā)的典藏檢索型古籍?dāng)?shù)據(jù)庫(kù)在選題上各有不同,但在研究功能上都以檢索功能為主,字段檢索與全文檢索相互輔助能有效地獲取原始文獻(xiàn)內(nèi)容,但文本內(nèi)的知識(shí)組織與利用較為欠缺。

        2? ?量化分析型數(shù)據(jù)庫(kù)及其輔助人文學(xué)術(shù)研究功能

        量化分析型數(shù)據(jù)庫(kù)是將古籍內(nèi)容或整理成果轉(zhuǎn)化為可制表分析的量化形式,不僅包含類似人口、產(chǎn)量、價(jià)格等數(shù)字信息,“其他描述性的信息,也應(yīng)通過某種形式轉(zhuǎn)換為可量化分析的數(shù)據(jù),這是歷史文獻(xiàn)數(shù)據(jù)化的理想狀態(tài)”[3]。與典藏檢索型數(shù)據(jù)庫(kù)相比,量化分析型數(shù)據(jù)庫(kù)打破了古籍原有的內(nèi)容結(jié)構(gòu),經(jīng)過重組的文獻(xiàn)內(nèi)容以新的文本形態(tài)或數(shù)據(jù)結(jié)構(gòu)呈現(xiàn),在不同研究者、不同研究工具與研究視角下可能觸發(fā)新的研究靈感。本次調(diào)研涉及量化分析型數(shù)據(jù)庫(kù)16種,依其數(shù)據(jù)來源可分為單純將紙質(zhì)古籍整理成果進(jìn)行轉(zhuǎn)化的數(shù)字化索引、具備研究輔助功能的分析平臺(tái)兩種類型。

        2.1? ? 數(shù)字化索引型的量化分析數(shù)據(jù)庫(kù)

        具有量化分析功能的索引是由專家根據(jù)不同文獻(xiàn)的特點(diǎn)對(duì)其內(nèi)容進(jìn)行提取并重新整序,形成高度結(jié)構(gòu)化與規(guī)范化的組織形式,有利于計(jì)算機(jī)進(jìn)行大規(guī)模的統(tǒng)計(jì)分析。而將既有古籍整理成果轉(zhuǎn)化為可制表的量化形式,則是對(duì)傳統(tǒng)文獻(xiàn)整理成果在數(shù)字環(huán)境下的增值利用。數(shù)字化索引多是先有紙本古籍整理成果,然后形成數(shù)據(jù)庫(kù)(見表4),因此在內(nèi)容組織與索引對(duì)象上大致不脫離原書范圍,但以其強(qiáng)大的檢索功能大大縮短了翻檢時(shí)間。在研究功能上,這類數(shù)據(jù)庫(kù)在開發(fā)時(shí)因元數(shù)據(jù)方案受制于原書體例,檢索功能較為單一,未能充分發(fā)揮計(jì)算機(jī)數(shù)據(jù)處理與結(jié)果呈現(xiàn)方面的優(yōu)勢(shì),因此輔助研究的功能不強(qiáng)。另外,經(jīng)過數(shù)字化轉(zhuǎn)換后的原始數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)庫(kù)中,用戶只能通過特定的接口才能訪問,無法獲得原始數(shù)據(jù),從而限制了這類數(shù)據(jù)庫(kù)的使用效率。

        2.2? ? 分析平臺(tái)型的量化分析數(shù)據(jù)庫(kù)

        與數(shù)字化索引不同,分析平臺(tái)在數(shù)據(jù)來源上并不局限于特定的古籍整理成果,而是更多的來自未經(jīng)整理的民間文書、地契、檔案與相關(guān)歷史文獻(xiàn)。因文獻(xiàn)整理與數(shù)據(jù)庫(kù)構(gòu)建同時(shí)進(jìn)行,開發(fā)人員與文史專家得以帶著研究課題與特定假設(shè)開展工作,這使得文史專家能根據(jù)特定要求制定相應(yīng)的元數(shù)據(jù)方案與文獻(xiàn)整理規(guī)范。經(jīng)整理的文獻(xiàn)多能按照規(guī)范的數(shù)據(jù)結(jié)構(gòu)嚴(yán)格著錄,或以人名權(quán)威檔的形式將傳主的基本數(shù)據(jù)與履歷信息制表呈現(xiàn)出來,較傳統(tǒng)的文獻(xiàn)整理成果更利于計(jì)算機(jī)進(jìn)行大規(guī)模數(shù)據(jù)處理和做相關(guān)性的分析。因此,這類將研究問題、文獻(xiàn)整理方式與數(shù)據(jù)庫(kù)設(shè)計(jì)三者有機(jī)結(jié)合的數(shù)據(jù)庫(kù)因其量化數(shù)據(jù)與二次信息的特性,降低了不同學(xué)科研究者在閱讀與理解跨學(xué)科文獻(xiàn)過程中所耗費(fèi)的精力,促進(jìn)了跨學(xué)科研究的發(fā)展。在研究功能上,該類數(shù)據(jù)庫(kù)有以下特點(diǎn):

        (1)檢索過程簡(jiǎn)化,檢索字段更符合研究需要。因文獻(xiàn)整理方式與數(shù)據(jù)表結(jié)構(gòu)充分發(fā)揮數(shù)據(jù)庫(kù)的優(yōu)勢(shì),目前此類數(shù)據(jù)庫(kù)在檢索接口多采用下拉列表的字段檢索方式,可輕易實(shí)現(xiàn)多維檢索。由于文獻(xiàn)整理過程中充分結(jié)合研究問題,使得可供檢索的字段彼此之間具有強(qiáng)關(guān)聯(lián)性的內(nèi)容特征,而非僅是傳統(tǒng)文獻(xiàn)著錄的外部特征,研究者可對(duì)不同的檢索結(jié)果列表以原始的數(shù)據(jù)表形式導(dǎo)出,再以各自的研究視角與研究工具進(jìn)行分析解讀。此外,相較于典藏檢索型數(shù)據(jù)庫(kù),下拉列表檢索簡(jiǎn)化了檢索過程,也降低了數(shù)據(jù)庫(kù)對(duì)用戶檢索技巧與文獻(xiàn)特征理解的要求。

        (2)知識(shí)增值功能發(fā)揮量化數(shù)據(jù)在統(tǒng)計(jì)與可視化上的優(yōu)勢(shì)。如上海交通大學(xué)歷史系與圖書館開發(fā)的《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》[4],其檢索結(jié)果統(tǒng)計(jì)功能可對(duì)檢得文獻(xiàn)的地域分布、年代排序、類型分布及事主進(jìn)行統(tǒng)計(jì),而關(guān)聯(lián)文獻(xiàn)聚合功能可根據(jù)標(biāo)引內(nèi)容,將與檢得文獻(xiàn)同屬同一批次、地域、歸戶或同一事主的文獻(xiàn)一并呈現(xiàn);又如臺(tái)灣“中研院”《清代糧價(jià)數(shù)據(jù)庫(kù)》[5],用戶輸入起訖年月、省府別、糧別后可獲得糧價(jià)數(shù)據(jù),查詢結(jié)果會(huì)以表格、點(diǎn)狀圖及柱狀圖呈現(xiàn)。表格內(nèi)每月糧價(jià)有最高價(jià)和最低價(jià)兩種,點(diǎn)狀圖以不同顏色代表最高糧價(jià)及最低糧價(jià),柱狀圖則顯示價(jià)差。

        綜上所述,量化分析型數(shù)據(jù)庫(kù)與典藏檢索型數(shù)據(jù)庫(kù)在構(gòu)建理念與文獻(xiàn)整理方法上存在諸多差異,其中最大的不同在于它打破了文獻(xiàn)內(nèi)容原有的組織方式,以數(shù)據(jù)表的形式呈現(xiàn)經(jīng)過提取的二次信息。此法雖利于計(jì)算機(jī)處理數(shù)據(jù)與呈現(xiàn)結(jié)果,但由于用戶直接使用的是結(jié)構(gòu)化的文獻(xiàn)內(nèi)容,因此在利用這些數(shù)據(jù)時(shí)仍須將其重新放回到所在文本乃至當(dāng)時(shí)的社會(huì)背景下進(jìn)行綜合考慮,以免得出武斷的結(jié)論。

        3? ?數(shù)字人文平臺(tái)及其輔助人文學(xué)術(shù)研究功能

        數(shù)字人文平臺(tái)是一種基于典藏檢索型數(shù)據(jù)庫(kù)與量化分析型數(shù)據(jù)庫(kù)發(fā)展而來的學(xué)術(shù)研究環(huán)境,既具備前者的全文檢索與典藏功能及透過深度的元數(shù)據(jù)標(biāo)引實(shí)現(xiàn)多維度檢索與檢索后的分類功能,又兼具后者的數(shù)據(jù)化特性,即文獻(xiàn)整理時(shí)依據(jù)文獻(xiàn)特性與研究者需求將所提取文獻(xiàn)信息以結(jié)構(gòu)化方式呈現(xiàn),發(fā)揮計(jì)算機(jī)數(shù)據(jù)統(tǒng)計(jì)的優(yōu)勢(shì)。一方面,作為一種研究環(huán)境,數(shù)字人文平臺(tái)的目的是除檢索功能外,能提供研究者“觀察”史料的工具,即借由信息技術(shù)幫助已有自身問題意識(shí)的研究者輕易地從史料中找到論證對(duì)象;另一方面,幫助研究者挖掘一些意料之外的學(xué)術(shù)問題,開拓出新的研究視野[6]。

        本次調(diào)研共發(fā)現(xiàn)15個(gè)可稱之為數(shù)字人文平臺(tái)的中文古籍?dāng)?shù)據(jù)庫(kù),為便于分析其功能,筆者將以文本處理與字頻統(tǒng)計(jì)功能為主的文本分析工具歸為一類(見表6),而將整合了多種功能并能呈現(xiàn)可視化的研究平臺(tái)歸為一類(見表7)。

        3.1? ? 文本分析工具的研究輔助功能

        文本分析工具由典藏檢索型數(shù)據(jù)庫(kù)發(fā)展而來,在檢索功能上延續(xù)了其基于外部特征的字段檢索與分類瀏覽功能,此外在全文數(shù)據(jù)庫(kù)的基礎(chǔ)上借助N-gram模型解決了古代漢語的分詞問題,借由計(jì)算機(jī)自動(dòng)處理全文,實(shí)現(xiàn)字頻統(tǒng)計(jì)與文本分析的功能。從文本分析工具成果表可發(fā)現(xiàn),目前常見的文本分析是相似度對(duì)比,它一般直接忽略文本內(nèi)容的語義,采用自然語言處理(NPL)模型(如N-gram模型、向量空間模型)對(duì)文句建模并進(jìn)行相似度比較。此類功能根據(jù)不同的研究需求有不同的應(yīng)用場(chǎng)景,如文學(xué)領(lǐng)域可用于語言風(fēng)格分析,以定量方法判定作者歸屬和文學(xué)流派;文獻(xiàn)學(xué)領(lǐng)域可用于分析文獻(xiàn)之間的引用關(guān)系或文獻(xiàn)校勘。對(duì)文風(fēng)和遣詞造句習(xí)慣的分析,還可為文獻(xiàn)辨?zhèn)翁峁﹨⒖肌?/p>

        另一類常見的文本分析功能是字詞頻分析。調(diào)查顯示,《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》的用戶只需要根據(jù)所選格律、聲調(diào)、體裁輸入檢索詞,系統(tǒng)便可統(tǒng)計(jì)檢索詞在全庫(kù)中各作者詩(shī)作中的使用頻次;《近代史料全文數(shù)據(jù)庫(kù)》可同時(shí)支持5個(gè)詞匯的檢索,以折線圖形式呈現(xiàn)檢索詞在文獻(xiàn)集中的出現(xiàn)次數(shù);《中國(guó)哲學(xué)書電子化計(jì)劃》嵌入的Text Tools插件,可將檢索詞的出現(xiàn)頻次與共現(xiàn)關(guān)系以圖表、詞云或網(wǎng)絡(luò)圖形式呈現(xiàn)。此外,詩(shī)詞格律是文學(xué)領(lǐng)域中特有的研究?jī)?nèi)容,利用前人對(duì)詩(shī)作整理與格律標(biāo)引成果,并借助計(jì)算機(jī)的幫助,可實(shí)現(xiàn)對(duì)大量詩(shī)作的格律分析,如《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》可根據(jù)每首詩(shī)的數(shù)據(jù)化格律信息找出相似格律的詩(shī)作。相反,也可找出《全唐詩(shī)》與《全宋詩(shī)》中的重出詩(shī)與誤收詩(shī)。

        然而,不論是詞頻統(tǒng)計(jì)或是相似性分析,其結(jié)果并不能也不該直接得出任何結(jié)論[7]。因?yàn)檫@類從文本中提取出的數(shù)據(jù)終究無法涵蓋文獻(xiàn)本身的所有信息,而文獻(xiàn)本身又是基于特定時(shí)空背景下所產(chǎn)生的,文本分析工具雖可幫助研究者發(fā)現(xiàn)文獻(xiàn)中事件、人物、時(shí)間等因素之間在傳統(tǒng)文本條件下難以發(fā)現(xiàn)的關(guān)聯(lián)性,但這些關(guān)聯(lián)性背后深層次的原因仍需要文史研究者以其經(jīng)過專業(yè)訓(xùn)練所形成的史才、史學(xué)與史識(shí)加以闡述與論證。

        3.2? ? 數(shù)字人文平臺(tái)的研究輔助功能

        數(shù)字人文平臺(tái)構(gòu)建的文獻(xiàn)來源十分豐富,包括文集、方志、書目、民間文書、檔案數(shù)據(jù)與人物傳記數(shù)據(jù)等。這些文史數(shù)據(jù)經(jīng)過適當(dāng)?shù)恼砼c標(biāo)引后,再結(jié)合平臺(tái)的系統(tǒng)功能,可為研究者建立一個(gè)虛擬的歷史環(huán)境,幫助研究者發(fā)現(xiàn)文獻(xiàn)各部分內(nèi)容、各歷史人物、各歷史事件之間通過人工難以發(fā)現(xiàn)的內(nèi)在關(guān)聯(lián);在功能上,平臺(tái)集成不同類型的功能于一體,如GIS系統(tǒng)、文本分析功能、可視化功能、嵌入知識(shí)庫(kù)與社會(huì)網(wǎng)絡(luò)分析等功能。

        “中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)(CBDB)”是由哈佛大學(xué)、臺(tái)灣地區(qū)“中央研究院”與北京大學(xué)合作開發(fā)的一個(gè)關(guān)系型數(shù)據(jù)庫(kù),旨在收錄公元7-19世紀(jì)中國(guó)歷史上所有重要的人物傳記資料。通過大范圍收集數(shù)據(jù),CBDB提供許多檢視過去個(gè)人或群體生平的方法,即群體傳記學(xué)(Prosopography)[8],同時(shí)基于數(shù)據(jù)的完備與規(guī)模,為研究者提供了人際網(wǎng)絡(luò)分析(Social Network Analysis)與地理信息學(xué)(Geo-information Science)的研究環(huán)境。其中,群體傳記學(xué)的目的是想找出某一群體所共享的身份,如教育背景、出生地、任官履歷等,并藉此分析背后的社會(huì)原因;人際網(wǎng)絡(luò)分析注重的是人物之間一對(duì)一關(guān)系組構(gòu)而成的復(fù)雜網(wǎng)絡(luò)。以上兩種研究方法一直是文史學(xué)者所關(guān)心的問題,如今結(jié)合計(jì)算機(jī)與地理信息系統(tǒng)的幫助,使得以往局限于人工環(huán)境而難以發(fā)現(xiàn)的隱藏關(guān)系或不確定的模糊概念,都可借助數(shù)字人文的研究方法獲得新的研究空間。

        “中國(guó)歷代典籍總目分析系統(tǒng)(HBCC)”是一款由北京大學(xué)數(shù)據(jù)分析研究中心開發(fā)的基于FRBR理念與知識(shí)本體構(gòu)建的綜合性古籍文獻(xiàn)知識(shí)庫(kù),內(nèi)容涵蓋我國(guó)經(jīng)典書目,采用自然語言處理技術(shù),完成目錄原數(shù)據(jù)的自動(dòng)標(biāo)注、切分、信息抽取工作和數(shù)據(jù)語義規(guī)范,以人工審校確保數(shù)據(jù)質(zhì)量,由此完成將書目信息轉(zhuǎn)化為品種、版本、印次、藏本、分類信息與責(zé)任者等模塊的數(shù)據(jù)化處理[9]。該系統(tǒng)囊括古今各類書目,并綜合分析存世文獻(xiàn)和歷史文獻(xiàn)的著錄數(shù)據(jù),在一定意義上與鄭樵所提出的“會(huì)通觀”“編次必記亡書”等文獻(xiàn)整理理念暗合。HBCC具有以下功能:(1)成書年代分布。系統(tǒng)按書目層次描述古籍文獻(xiàn)本體,自動(dòng)統(tǒng)計(jì)分析古籍文獻(xiàn)成書年代,并以可視化圖表呈現(xiàn),借由大規(guī)模書目信息形成不同類目文獻(xiàn)的成書年代分布圖,從定量分析的角度為研究學(xué)術(shù)發(fā)展史提供佐證;(2)責(zé)任者相關(guān)性多維分析。在對(duì)責(zé)任行為分類的基礎(chǔ)上,分析責(zé)任人或責(zé)任機(jī)構(gòu)基于同一作品因責(zé)任行為所產(chǎn)生的聯(lián)系;(3)層次聚類分析。參照國(guó)際圖聯(lián)FRBR標(biāo)準(zhǔn),將品種、版本、印次、藏本四種實(shí)體層級(jí)根據(jù)書名、書目范圍、分類、書目層級(jí)、版本類型、版本時(shí)代、責(zé)任等屬性進(jìn)行聚類,有助于研究者快速掌握某一作品的所有衍生型式。

        臺(tái)灣大學(xué)數(shù)字人文研究中心開發(fā)的“臺(tái)灣歷史數(shù)字圖書館(THDL)”是一個(gè)以“明清時(shí)期的臺(tái)灣歷史”為主題的研究平臺(tái)。由于開發(fā)人員在平臺(tái)構(gòu)建之初便預(yù)設(shè)系統(tǒng)收錄的檔案之間蘊(yùn)藏著一種既開放、又具有各種不同連結(jié)的多元脈絡(luò),因此開發(fā)了一系列基于“群體”概念的研究輔助工具,主動(dòng)為研究者分析檢索結(jié)果“整體”呈現(xiàn)的特征。系統(tǒng)主要功能有[10]:(1)檢索結(jié)果分類。以年代、出處、作者、性質(zhì)四種方式對(duì)檢索結(jié)果分類,借此表現(xiàn)檢索結(jié)果的組成成分,并可對(duì)年代后分類的結(jié)果可視化呈現(xiàn);(2)集中關(guān)聯(lián)文獻(xiàn)。相關(guān)文書、奏折與地契都具有往復(fù)、流轉(zhuǎn)的特性,因此若能將同一事件的往返奏折,或同一塊土地的不同交易行為的契約進(jìn)行關(guān)聯(lián),則有助于了解整體事件的歷史,目前已建成“上下手契”“原契與契尾”“鬮分契多份”“契書內(nèi)容”的關(guān)聯(lián)關(guān)系;(3)檢出相似文獻(xiàn)。古契書可能因鬮分契一式多份、契書重復(fù)抄寫或格式雷同等造成契書的相似,THDL可針對(duì)兩兩文件全文計(jì)算相似度,將同種文獻(xiàn)的不同文本一并檢出。

        4? ?結(jié)語

        本次對(duì)中文古籍?dāng)?shù)字化成果輔助人文學(xué)術(shù)研究功能的調(diào)研顯示,典藏檢索型數(shù)據(jù)庫(kù)的輔助研究功能仍以檢索為主,大多數(shù)系統(tǒng)只能從古籍外部特征獲取文獻(xiàn)線索,其內(nèi)在知識(shí)內(nèi)容仍難以為研究者所用;量化分析型數(shù)據(jù)庫(kù)利用前人的古籍整理成果作為基礎(chǔ),或以基于研究需要的文獻(xiàn)整理方式對(duì)古籍內(nèi)容進(jìn)行再組織,有效地將計(jì)算機(jī)的統(tǒng)計(jì)分析優(yōu)勢(shì)應(yīng)用于人文學(xué)術(shù)研究,但因?yàn)槭芪墨I(xiàn)本身特性和標(biāo)引深度的限制,使得根據(jù)數(shù)據(jù)化文本得出的結(jié)果仍需文史學(xué)者的介入與考證;數(shù)字人文研究已然成為新趨勢(shì),在此背景下,人文學(xué)者對(duì)研究工具的功能提出了新的要求,即盡可能以“辨章學(xué)術(shù)、考鏡源流”“會(huì)通觀”等文獻(xiàn)整理學(xué)術(shù)傳統(tǒng)為參照,因?yàn)檫@些傳統(tǒng)早已被證明是與人文學(xué)術(shù)研究相適應(yīng)的。這就要求數(shù)字人文研究平臺(tái)的開發(fā)必須依靠文史專家與信息工程師的全程協(xié)作,從古籍?dāng)?shù)字化之初就共同參與到系統(tǒng)的開發(fā)之中,以專業(yè)問題為導(dǎo)向,以符合人文學(xué)科研究的需求為出發(fā)點(diǎn)。這種將學(xué)術(shù)傳統(tǒng)與信息技術(shù)融合在一起的開發(fā)模式,將是未來古籍?dāng)?shù)字化的發(fā)展方向。

        參考文獻(xiàn):

        [1]? 申斌,楊培娜.數(shù)字技術(shù)與史學(xué)觀念——中國(guó)歷史數(shù)據(jù)庫(kù)與史學(xué)理念方法關(guān)系探析[J].史學(xué)理論研究,2017(2):87-95,159.

        [2]? 李明杰,俞優(yōu)優(yōu).中文古籍?dāng)?shù)字化的主體構(gòu)成及協(xié)作機(jī)制初探[J].圖書與情報(bào),2010(1):40-50.

        [3]? 趙思淵.地方歷史文獻(xiàn)的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》為例[J].清史研究,2016(4):26-35.

        [4]? 上海交通大學(xué)圖書館.中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)[DB/OL].[2018-10-29].http://dfwx.datahistory.cn/pc.

        [5]? 臺(tái)灣地區(qū)“中央研究院”近代史研究所.清代糧價(jià)數(shù)據(jù)庫(kù)[DB/OL].[2018-10-29].http://mhdb.mh.sinica.edu.tw/foodprice/index.php.

        [6]? 項(xiàng)潔,翁稷安.關(guān)于數(shù)位人文的思考:理論與方法[A].項(xiàng)潔.數(shù)位人文研究的新視野:基礎(chǔ)與想象[M].臺(tái)北:臺(tái)灣大學(xué)出版中心,2011:9-18.

        [7]? 項(xiàng)潔,涂豐恩.什么是數(shù)字人文[A].項(xiàng)潔.從保存到創(chuàng)造:開啟數(shù)位人文研究[M].臺(tái)北:臺(tái)灣大學(xué)出版中心,2011:9-28.

        [8]? 傅君勱.中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)用戶指南[EB/OL].[2018-11-07].http://projects.iq.harvard.edu/files/chinesecbdb/files/cbdb_users_guide_ch_170126.pdf.

        [9]? 北京大學(xué)數(shù)據(jù)分析研究中心.中國(guó)歷代典籍總目分析系統(tǒng)(HBCC v1.0)產(chǎn)品說明[EB/OL].[2018-11-07].https://wenku.baidu.com/view/1f6739a2f524ccbff1218486.html.

        [10]? 臺(tái)灣大學(xué)數(shù)字人文研究中心,杜協(xié)昌,項(xiàng)潔.臺(tái)灣歷史數(shù)字圖書館[DB/OL].[2018-11-07].http://doi.airiti.com/LandingPage/NTURCDH/10.6681/NTURCDH.DB_THDL/Text.

        作者簡(jiǎn)介:盧彤,男,武漢大學(xué)信息管理學(xué)院碩士研究生,研究方向:古籍?dāng)?shù)字化;李明杰,男,武漢大學(xué)信息管理學(xué)院、武漢大學(xué)數(shù)字圖書館研究所教授,博士生導(dǎo)師,研究方向:古典文獻(xiàn)學(xué)、中國(guó)圖書文化史。

        猜你喜歡
        數(shù)字人文
        數(shù)字人文項(xiàng)目合作平臺(tái)分析
        圖書館未來的技術(shù)應(yīng)用與發(fā)展
        數(shù)據(jù)驅(qū)動(dòng)下的高校圖書館數(shù)字人文服務(wù)研究
        漢傳佛教文化遺產(chǎn)數(shù)字化建設(shè)現(xiàn)狀調(diào)查與特征分析
        數(shù)字人文2011—2016年研究綜述
        數(shù)字人文時(shí)代公共圖書館經(jīng)典閱讀推廣研究
        數(shù)字人文時(shí)代公共圖書館經(jīng)典閱讀推廣研究
        數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
        數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
        跨界與融合:全球視野下的數(shù)字人文
        精品亚洲午夜久久久久| 成年站免费网站看v片在线| 成 人 免费 在线电影| 蜜臀av免费一区二区三区| 狠狠色丁香婷婷久久综合2021| 加勒比av在线一区二区| 欧美精品一区二区精品久久| 国产欧美日韩综合精品二区| 亚洲AⅤ无码国精品中文字慕| 日韩精品一级在线视频| 国产精品黑丝美女啪啪啪 | 婷婷中文字幕综合在线| 亚洲欧洲精品国产二码| 国产精品一区二区三区女同| 久久精品国产亚洲av精东| 亚洲国产精品久久久久婷婷老年| 亚洲AV无码成人精品区网页| 久久精品国产亚洲不卡| 久久99精品久久久大学生| 免费a级毛片无码a∨免费软件| 狠狠狠狠狠综合视频| 视频区一区二在线观看| 99久久免费只有精品国产| 国产精品成人av在线观看| 人妻中文字幕一区二区二区| 视频一区二区三区黄色| 十八18禁国产精品www| 国产精品久久码一区二区| 亚洲国产天堂av成人在线播放| 人妻体内射精一区二区三区 | 国产乱人伦AⅤ在线麻豆A| 青青草视频是针对华人| 无码国产69精品久久久久孕妇| 中文字幕第七页| 在线视频播放观看免费| 人妻熟妇乱又伦精品hd| 亚洲av日韩av永久无码色欲| 太大太粗太爽免费视频| 中文字幕隔壁人妻欲求不满| 2021国产精品国产精华| 中文字幕精品久久天堂一区|