亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        借器之勢,出道之新
        ——“數字人文”浪潮下的古典文學研究三人談

        2019-12-21 07:48:20王兆鵬鄭永曉劉京臣
        文藝研究 2019年9期
        關鍵詞:數字人文人文數字

        王兆鵬 鄭永曉 劉京臣

        王兆鵬永曉、京臣,二位好!“數字人文”(digital humanities)研究已成為一種強大的浪潮,成為人文社會科學研究的一大趨勢。《文藝研究》雜志約咱們三人談談數字人文研究的最新進展以及古典文學研究應用數字人文的前景。這次兩位來武漢開會,正好可以好好地交流一下。

        一、數字人文的特點與發(fā)展歷程

        王兆鵬先請永曉介紹一下數字人文。

        鄭永曉關于“數字人文”,維基百科中文版的定義是,電腦運算或信息科技與人文學的交叉學科,是以合作、跨學科與電腦運算等新方法來進行人文學的研究、教學、出版等學術工作。這只是眾多定義中的一種。事實上,學界還沒有統(tǒng)一的定義。由于數字人文的持續(xù)發(fā)展及其開放特性,舊的定義往往很快會被新的定義所取代。

        劉京臣確實,有學者在系統(tǒng)梳理西方數字人文的發(fā)展歷程后指出,“什么是數字人文”這一題目本身,已經成為一種寫作題材,以至于每年都會有專著面世,可見這一概念很難定義。

        王兆鵬雖然難以定義,但合作、跨學科和電腦運算這三點,應是數字人文的基本特征。

        鄭永曉是的。數字人文是從“人文計算”(humanities computing)發(fā)展而來的。它使用數字化的資料或數字原生資料,結合傳統(tǒng)人文學科如歷史學、哲學、文學、藝術、考古學、文化研究與社會科學的方法論,以計算機運算所提供的工具,如超文本、超媒體、圖像、文獻檢索、數據挖掘、統(tǒng)計等,進行綜合性研究。

        王兆鵬跟人文計算相比較,數字人文有哪些特點?

        劉京臣可以從數據、平臺、團隊三個方面來審視數字人文的特點。數據,是數字人文的核心要素。人文計算階段的數據大多是文本,數字人文階段的數據更復雜多樣。除文本外,圖像、地圖、建筑等都可成為數據來源,成為被數字化、數據化的對象。平臺,是數字人文的基礎設施。平臺將復雜多樣的、非結構性的“大數據”(big data)開發(fā)成關系型結構化數據庫,供用戶使用。團隊,是數字人文的人力保障。數字人文的建設者、參與者,很少是單打獨斗的,需要團隊合作。就現(xiàn)階段來看,比較成熟的數字人文項目,基本上都有比較成熟穩(wěn)定的團隊。例如斯坦福大學、哈佛大學及我國的臺灣大學、武漢大學、中南民族大學、浙江大學等高校,都各有一批數字人文學者組成的不同形式的團隊,并建有相關實驗室或研究中心。當然,不同的數字人文項目,各有側重,有的側重數據挖掘,有的側重平臺架構,還有的側重方法論與工具推廣。凡是以信息技術為依托來推動人文社會科學發(fā)展的項目,都需要團隊協(xié)作,需要信息技術人員和人文學者的合作攻關。

        王兆鵬“數字化”與“數據化”有什么區(qū)別?很多人不明白,數字化文獻庫與結構化數據庫究竟有什么不同?我們現(xiàn)在常用的全文檢索數據庫,如《國學寶典》《中國基本古籍庫》《漢籍全文檢索系統(tǒng)》《文淵閣〈四庫全書〉電子版》和《中華經典古籍庫》等,是不是結構化數據庫?

        劉京臣您說的這些數字化文獻資源庫,是通過信息技術對文獻進行處理,使其轉化為電子數據格式,能夠通過光盤、硬盤、磁盤陣列等保存和傳播。我們存儲在電腦硬盤里的各種文獻資料、網上流傳的各類電子書、圖片文獻、文本文件以及超文本標記語言(HTML)文件、可擴展超文本標記語言(XHTML)文件等,都屬于數字化文獻。

        王兆鵬通俗地說,非結構化數據庫,是一種固化數據?!吨袊竟偶畮臁分惖奈墨I資源庫,只是用數字化方式儲存,并沒有改變原書的文本形態(tài),它只能進行字詞檢索,而不能提取數據,檢索到的資料不能重組關聯(lián)。而結構化數據,是一種活化數據,是將原始文本按一定規(guī)則轉化成碎片化數據,數據之間可以任意重組關聯(lián),形成新知識,發(fā)現(xiàn)新問題;可以自動生成數據,進行統(tǒng)計分析;可以進行語義檢索和時空定位;并能可視化呈現(xiàn)。哈佛大學的《中國歷代人物傳記資料庫》和我主持的《唐宋文學編年地圖平臺》,都是這樣的結構化數據庫。

        鄭永曉從某種意義上說,結構化數據庫是數字化文本型文獻資源庫的升級版。數字化文本型文獻資源庫,是結構化數據庫的基礎資源,通過技術創(chuàng)新,可以升級轉化為關系型結構化數據庫。

        王兆鵬討論了數字人文的特點,我們再追溯一下數字人文經歷了怎樣的發(fā)展歷程。

        鄭永曉數字人文的前身人文計算,可以追溯至20世紀40年代末,當時耶穌會士羅伯托·布薩(Roberto Busa)和他的助手跟IBM公司合作,利用大型計算機制作了托馬斯·阿奎那著作的索引,稱為“Index Thornisticus”。60年代,《計算機與人文科學》雜志誕生,標志著人文計算的正式興起。

        劉京臣從人文計算到數字人文的用詞轉變,始于2004年約翰·恩斯沃思(John Unsworth)等人所編的文選《數字人文指南》(A Companion to Digital Humanities, John Wiley and Sons Ltd,2004)。2006年,美國人文學科國家基金發(fā)起成立數字人文組織,2008年改名為數字人文科學辦公室。自此,“數字人文”一詞在美國被廣泛接受。

        鄭永曉近十多年來,數字人文學發(fā)展迅猛,漸成熱潮。研究機構如雨后春筍般涌現(xiàn),各種數字人文研究學會和專門的研究中心遍布全球。截至2019年4月20日,數字人文合作組織“數字人文中心網絡”(Center Net)收錄的數字人文中心已達201個。專門的數字人文期刊也紛紛創(chuàng)辦,如國際數字人文組織聯(lián)盟贊助出版的《數字人文季刊》(Digital Humanities Quarterly)、歐洲數字人文協(xié)會主辦的《數字人文學刊》(Digital Scholarship in the Humanities)等。

        王兆鵬我們中國的數字人文,是什么時候開始起步的?

        鄭永曉2009年,武漢大學信息管理學院王曉光教授,在其博客上發(fā)表《“數字人文”的產生、發(fā)展與前沿》,此文后收錄于武漢大學出版社2010年11月出版的《中國高校哲學社會科學發(fā)展論壇:2010方法創(chuàng)新與哲學社會科學發(fā)展》。這是較早全面介紹國內外數字人文發(fā)展狀況的文章。學界將此文視為國內數字人文研究的正式起步。2011年之后,相關論文逐漸增多,數字人文的專題研討會也不斷舉行,涉及地理信息系統(tǒng)、圖書館學、檔案學、文學、文獻學、歷史學、學術出版等。

        劉京臣臺灣地區(qū)的數字人文,起步比我們大陸略早。2008年,臺灣大學成立數位人文研究中心,并發(fā)行第1期《數位人文研究中心電子報》。此后,“中研院”和政治大學都成立了數位人文中心,每年12月定期召開數位人文國際學術研討會,至今已舉辦了九屆。

        鄭永曉值得注意的是,在“數字人文”這一名詞被介紹到中國之前,無論是大陸還是臺灣,都已有這方面的研究和實踐。如2005年,北京大學中文系李鐸教授主持開發(fā)了《全唐詩分析系統(tǒng)》《全宋詩分析系統(tǒng)》。2009年,南京師范大學虛擬地理環(huán)境教育部重點實驗室開發(fā)上線《華夏民族家譜地理信息系統(tǒng)》。2010年,李鐸又與國家圖書館聯(lián)合開發(fā)了《中國歷代典籍總目分析系統(tǒng)》,旨在挖掘海量書目數據背后隱藏的知識。

        劉京臣臺灣“中研院”史語所范毅軍研究員主持開發(fā)了基于GIS的《中華文明之時空基礎架構》,提供上古至清代二千多年的中國歷代基本底圖和各類歷史地圖、遙測影像等基礎信息。利用這個平臺,可以開發(fā)出適合不同學科的專題地理信息系統(tǒng),如考古地理信息系統(tǒng)、文學地理信息系統(tǒng)等。

        鄭永曉已故臺灣元智大學羅鳳珠教授,也做了卓有成效的探索。她在20世紀80年代就開始關注電腦介入人文學科的研究,這對中國韻文的語意標記及語意概念分類研究、文學地理信息研究尤具啟發(fā)意義。她主持開發(fā)了《宋人與宋詩地理信息系統(tǒng)》??上⒛暝缡?,令人嘆惋!

        王兆鵬人文學者普遍關心,數字人文究竟有哪些功能,或者說它能解決什么問題?

        劉京臣這確實是一個非常重要的問題。早在人文計算時代,人們就追問:人文計算的功能是什么?它能解決什么樣的問題?無論是早期的人文計算,還是現(xiàn)階段的數字人文,它要解決的,就是不借助信息技術手段學者難以發(fā)現(xiàn)的問題與難以進行研究的課題。簡單地講,數字人文所要解決的,取決于學者的需求;所能解決的,取決于技術的發(fā)展。比如,早期文史類數據庫的數據,很大一部分是靠人工錄入的;隨著技術的發(fā)展,出現(xiàn)了以多特定人規(guī)范手寫識別引擎為代表的OCR識別。正是基于這種技術,解決了《文淵閣〈四庫全書〉電子版》90%以上的錄入問題。近些年OCR技術不斷發(fā)展,應用領域也越來越廣泛,但是能準確識別稿抄本的OCR技術尚未問世。即使有了這種技術,也還沒有大規(guī)模應用到稿抄本的識別領域。這便是“要解決的”與“能解決的”二者之間的矛盾。

        鄭永曉基于大數據的數字人文研究,在宏觀研究方面具有優(yōu)勢。比如,我國歷代以“愁”為主題的作品不計其數,傳統(tǒng)方法幾乎不可能對歷代所有以“愁”為主題的作品進行分析。而“主題模型算法”(latent dirichlet allocation)作為一種機器學習技術,可以用來識別大規(guī)模文檔庫或語料庫中潛藏的主題信息。其原理在于可以將文本庫中每篇文檔的主題以概率分布的形式抽取出來,通過分析這些抽取出的主題,進行主題聚類或文本分類。

        王兆鵬每個時代作家群的社會流動、不同時代作品之間的互文關系,人工很難全面了解其詳情,而用數字人文技術的文本挖掘功能就可以發(fā)現(xiàn)和解決。

        劉京臣在近現(xiàn)代文學研究領域,報紙、期刊的流行,使得文獻數量數倍于古代。隨著西學東漸和中西文化碰撞,各類文學觀念、思想觀念往往經過一段時期的潛藏突然流行開來。對這些觀念、思想流變的研究,傳統(tǒng)作法是選取代表人物的代表作品、代表言論進行分析。這既缺乏大規(guī)模的實證依據,而所謂代表人物、代表作品也往往是后知后覺的產物,并不一定符合當時的實際。結合傳統(tǒng)詞源學、語義學和大數據技術,完全可以清晰地顯示某個觀念的誕生、潛隱、突變、流行、淡出的過程。

        王兆鵬我曾經統(tǒng)計過《梁啟超全集》中的相關語詞,發(fā)現(xiàn)他早期使用的人稱代詞都是“吾”,后期多用“我”。如果對梁啟超用語進行全面的歷時性分析,那么就可以看出20世紀初期有關觀念和用語的變化軌跡。

        鄭永曉目前的數字人文研究,雖長于宏觀研究,但也能解決微觀問題。例如,人物關系挖掘就是目前數字人文研究領域一個頗具特色的分支,可以利用信息抽取方法對人物進行社會網絡關系挖掘,可以對多個關聯(lián)作品的人物關系進行分析,這在小說研究中頗為實用。

        二、國內外數字人文研究的實績與進展

        王兆鵬近年來,國外數字人文研究取得了哪些實績?做了哪些項目?建了哪些平臺呢?

        劉京臣國外跟我們中國文化有關的數字人文研究項目,比較引人注目的有三個:《中國歷代人物傳記資料庫》(CBDB)、《中國歷史地理信息系統(tǒng)》(CHGIS)和《古籍半自動標記平臺》(MARKUS)。

        鄭永曉《中國歷代人物傳記資料庫》由哈佛大學費正清中國研究中心、臺灣“中研院”歷史語言研究所與北京大學中國古代史研究中心共同建設,旨在系統(tǒng)收錄中國歷史上所有重要的傳記資料,并免費供學界使用。從方法論的角度看,它主要涉及三個方面:一是群體傳記學,力圖通過一群歷史人物生平的集體性研究探討其共同的背景特征;二是社會網絡分析(SNA),近三十年來已逐漸成為人文社科研究的一種新范式;三是地理信息系統(tǒng)(GIS),借助ArcGIS、MapInfo、Google Earth等軟件將《中國歷代人物傳記資料庫》與《中國歷史地理信息系統(tǒng)》的數據整合在一起,可以幫助研究者在大量傳記數據中歸納出一定的模式。《中國歷代人物傳記資料庫》實現(xiàn)了數據、平臺、方法論與工具的有機整合,頗具引領和示范意義。

        劉京臣《中國歷史地理信息系統(tǒng)》由哈佛大學、復旦大學共同研發(fā),試圖建立一套可靠、開放的基礎地理信息數據庫。《古籍半自動標記平臺》由荷蘭萊頓大學魏希德(Hilde de Weerdt)教授與何浩洋博士設計開發(fā),是一個純線上文本標記工具。通過自動或人工標記,使用者可以為文本標記出人名、地名、年號、職官等關鍵詞。這些經過特征標記的文本,會成為其他數字人文研究的數據來源。與《中國歷代人物傳記資料庫》相比,《古籍半自動標記平臺》是一個文本標記平臺,自身沒有數據,需要使用者提供數據。

        王兆鵬這些年,我國的數字人文研究也取得了很大進展。

        鄭永曉從研究機構來看,國內成立了一些數字人文研究中心。2011年,武漢大學成立了大陸首家高校數字人文研究中心。2017年,南京大學歷史學院成立了數字人文研究中心。

        王兆鵬2018年3月,我們中南民族大學也成立了數字人文資源研究中心,致力于數字人文資源的開發(fā)與應用,近期主要開發(fā)唐宋文學知識圖譜,擬將唐宋時期的全部文學作品和歷史文獻轉化成關系型結構化數據庫。

        劉京臣從平臺建設來看,臺灣大學的DocuSky數位人文學術研究平臺,以人文學者研究需要為指歸,進行個人化材料整理與分析。注冊后,用戶可以利用平臺所提供的各種工具,實現(xiàn)個人文本的格式轉換、標記與建庫、探勘與分析以及可視化、GIS整合等。

        鄭永曉首都師范大學張萍教授主持開發(fā)的《絲綢之路歷史地理信息開放平臺》,2017年6月已上線運行。該平臺是國家社會科學基金重大項目成果,針對兩千年陸上絲綢之路地理信息進行采集、儲存、分析、管理,提供絲綢之路沿線綜合的歷史地理數據,便于進行絲綢之路歷史地理長時段、綜合性問題的研究,也便于學者進行個性化的專題研究內容。

        王兆鵬下面我們談談中國古典文學研究領域的數字人文研究成果吧。

        劉京臣古典文學研究領域較早利用地理信息系統(tǒng)(GIS)從事數字人文研究的,應該首推您啊。

        王兆鵬不敢當,我只是較早嘗試而已。2012年,我主持的國家社會科學基金重大招標項目“唐宋文學編年系地信息平臺建設”獲準立項,整合了古典文學研究領域的一百多位中青年學者,歷時五年,開發(fā)出《唐宋文學編年地圖平臺》,2017年3月上線。目前上傳的唐宋詩人行跡數據只有156家,還有300位詩人的數據不久將上傳。地圖融時間、地點、人物、事件、作品為一體,將唐宋兩代詩人的編年事跡和編年作品轉化為關系型結構化數據,以歷史地圖為平臺,可視化呈現(xiàn)詩人一生的活動軌跡。每個詩人何時經過或寓居某地,創(chuàng)作有哪些作品,一點即得。

        點擊一位詩人,如駱賓王,地圖上便能呈現(xiàn)他一生的活動軌跡,經行之處凡有作品也都能呈現(xiàn);點擊一個地點,如洛陽,便可知自655—1123年,共有57位詩人曾在此停留,留下了603首詩歌;點擊一個年份,可以呈現(xiàn)這一年在全國各地活動的作家。過去,一個時間點或一個時間段,我們只知道一個個作家各自獨立的活動,有了編年地圖平臺,我們就可以了解這個時間點或時間段內所有作家的活動軌跡。一個地點,以前我們只知道一個或幾個作家曾經在此活動過,利用地圖平臺,就可以知道不同時間里所有作家在此活動的情況。歷史上在同一時間、同一地點活動的眾多作家,過去被一張無形的墻幕隔離,我們只能知曉每一個個體的活動,而無法同時知曉一群人、一代人的活動。文學編年地圖如同拆除了這張墻幕,讓歷史上一群人、一代人的活動軌跡同時呈現(xiàn),一個時期的文學生態(tài)、文壇活動圖景由此得以還原性建構。

        地圖平臺還支持多元素呈現(xiàn)模式,選擇兩個時間點,比如“1068—1077年”,便可知張方平、文彥博、富弼、張先、蘇軾、蘇轍等35位詩人在熙寧年間的活動軌跡。選擇任意兩個地點,就可以知道哪些作家曾經從此地到彼地。比如,選擇“西安—潮州”,地圖上立即呈現(xiàn)出唐代韓愈和李德裕從西安到潮州的時間、經行路線以及沿途創(chuàng)作的作品。看了地圖,我們可以更生動地感知韓愈“一封朝奏九重天,夕貶潮州路八千”的痛苦。綜合兩人的經行路線,我們就可以大致勾勒、還原出唐代從西安到潮州的交通路線圖,也可以據此檢驗嚴耕望先生《唐代交通圖考》的正誤。打開衛(wèi)星地圖,我們還能了解韓愈南貶途中經行之地的地形地貌。

        鄭永曉我覺得,編年地圖平臺的亮點之一,是首次提出了“系地”這一理論支撐點并付諸實施。傳統(tǒng)文史研究,無論是編年文學史,還是年譜、作品系年,都是注重時間維度。而近年來受到重視的文學地理學,又僅關注文學創(chuàng)作的空間維度,忽略或淡化了時間維度?!跋档亍边@一概念的提出,具有重大理論意義和應用價值,是了不起的創(chuàng)新。同時,平臺背后還有時間、人物、活動和作品數據的支撐,是一個龐大的知識體系。與全文檢索數據庫僅能提供字詞檢索的思路完全不同,它可以提供更多維度的考量,提供更多的知識點,既能宏觀考察,也能微觀透視,從而將歷代作家活動和創(chuàng)作立體地呈現(xiàn)出來,并且可以彰顯出一個時期內作家遷移的總趨勢。這種建立在大數據基礎上的作家遷徙趨勢,是比較精準的,是傳統(tǒng)研究手段所無法實現(xiàn)的。

        王兆鵬《唐宋文學編年地圖平臺》不僅強化了文學史的空間維度,更改變了文學地理空間的認知方式。以前文學的地理空間,人們主要關注的是作家的籍貫地理,即據作家的籍貫而確定的地理空間。籍貫地理對了解作家作品的地域文化基因自有其意義,但籍貫地理是靜態(tài)的、固定的,而作家的生活創(chuàng)作是流動的、變化的。大量的文學史實表明,作家一生的創(chuàng)作絕大多數是在故鄉(xiāng)之外的他鄉(xiāng)、遠方,僅根據籍貫地理考察文學的地理空間,無法真正了解文學創(chuàng)作真實的地理空間。而過去根本無法突破這種認識的局限。如今有了作家活動編年系地數據庫,就可以確定文學的活動地理,具體了解每個作家一生不同時期的活動地理和創(chuàng)作地理。今后將會由此產生一種新型的動態(tài)的地域文學、流域文學研究范式。

        時間維度上,《唐宋文學編年地圖平臺》也可以為文學史研究提供新的視角和范式。傳統(tǒng)的文學史研究,只能進行長時段的觀察和研究,很難進行短時段的研究,因為沒有詳細的作家作品系年為依據。長時段的研究,可以將具體的時間進程模糊處理。而短時段的研究,比如五年、十年的文學史研究,當無法確定哪些作品是產生在這五年、十年之內時,就無法進行。而地圖平臺的編年系地數據,每年產生的文學作品都很明確、具體,每年活躍在文壇上的作家都一清二楚。因此,觀察文學史的發(fā)展變化,可以細致到一年、幾年之間。今后研究或撰寫文學史,不再只有斷代文學史,可能還有年度文學史,可以書寫一年、五年、十年的文學史。哪個年份是文學變化的關鍵節(jié)點,哪個地方是文學變化的核心場域,今后都有可能被發(fā)現(xiàn)?!澳甓任膶W史”“時段文學史”研究將成為可能,從而開創(chuàng)出文學研究的新格局。

        劉京臣除了王老師主持的這個地圖平臺之外,浙江大學徐永明教授與哈佛大學合作,聯(lián)合開發(fā)了《學術地圖發(fā)布平臺》,自2018年3月19日上線以來,已發(fā)布三百余幅數據地圖、六百多個圖層、四十萬條數據,力求從空間維度展示中國人文與歷史。

        鄭永曉首都師范大學周文業(yè)先生開發(fā)的《中國古代小說數字化軟件》,可以逐字比勘同一小說的不同版本的文字,自動生成校記。北京大學李鐸教授開發(fā)的《全唐詩分析系統(tǒng)》《全宋詩分析系統(tǒng)》,可以自動查詢重出互見情況,自動標注每首詩歌的平仄、用韻情況,便于進行大規(guī)模的格律分析研究。北京大學杜曉勤教授研發(fā)的《中國古典詩文聲律分析系統(tǒng)》,實現(xiàn)了對中國古典詩歌及有關韻文進行四聲自動標注和八病標識,既有助于研究永明體詩歌的聲病情況,還可考察永明詩律向近體詩律演變的過程。這些都是有價值的數字人文研究的分析軟件與分析工具。

        劉京臣從論文成果來看,已有不少學者用數字人文的研究方法來分析研究古代文學中的問題和現(xiàn)象。比如嚴程《顧太清交游網絡分析視野下“秋紅吟社”變遷考》(載《山東社會科學》2018年第7期),借助社會網絡分析來考察顧太清與沈善寶等十余位詩友的往來詩作,將文獻中涉及的人物、時間和事件信息轉換成變動的人際網絡,并借助Gephi軟件呈現(xiàn)出來;徐永明《中國古典文學研究的幾種可視化途徑》(載《浙江大學學報》2018年第2期),利用相關數據庫,可視化呈現(xiàn)湯顯祖的行跡、活動地點和社會關系的地理分布,也很新穎。

        王兆鵬其實,你們倆在這方面的成果也很突出。永曉的《以GIS為例看信息技術在古典文學研究中的應用》(載《重慶教育學院學報》2006年第5期)、《情感計算應用于古典詩詞研究芻議》(載《科研信息化技術與應用》2012年第4期)、《〈佩文韻府〉與康熙后期唐宋詩之爭》(載《文學遺產》2017年第3期)等論文,都是有益的嘗試。特別是利用大數據的思維方式和方法研究《佩文韻府》,頗具方法論的啟示意義。京臣的《振筆欲增西域記——GIS視閾中〈萬里荷戈集〉研究》(載《重慶師范大學學報》2015年第6期)、《大數據視閾中的文學地理學研究——以〈入蜀記〉〈北行日錄〉等行錄筆記為中心》(載《文學評論》2017年第1期)、《他者視閾中的數字方志建設——以燕行錄中的薊州為中心》(載《中國地方志》2017年第5期)等論文,都是圍繞GIS進行數字人文研究的成功之作,為古典文學研究具體運用數字人文的理念和方法開示了門徑,提供了范例。

        三、古典文學研究應用數字人文的前景

        王兆鵬咱們前面回顧了海內外數字人文研究的進展,下面來展望一下古典文學研究領域進一步深入開展的愿景吧。我們可以從兩個方面來談,一是基礎建設,二是理論研究。數字人文的基礎工程是數據和平臺,我們從事古代文學研究需要哪些數據,應該建設哪些平臺呢?

        劉京臣請王老師先說說這方面的思考。

        王兆鵬好的。從數據來說,古代文學的數字人文研究至少需要三大系列數據。一是作家系列數據,包含作家本人的生平行跡、人物關系和后世的傳播接受數據等。生平行跡,包括作家活動、創(chuàng)作的編年系地數據;人物關系,包括家庭世系、姻親關系、師承關系、仕宦關系、地緣關系等數據;傳播接受,包括本人的別集版本、后世的選本入選,當世和后世作家追和、仿效、化用、引用的數據以及評論評點數據,20世紀以來海內外有關作家研究的論著目錄數據。二是作品系列數據,包括作品原文、作品分類、作品的傳播接受等數據。作品分類數據,至少應該按體裁、時間、地點、主題、題材、語義等分類。先人工標引,機器學習后再自動識別分類;作品的傳播接受,包括版本、入選、評點和20世紀以來海內外有關研究論著目錄數據。三是歷史地理數據,包括每一年各種歷史人物的活動數據,全國各地發(fā)生的社會事件和自然災害數據,全國各地的地理沿革、景觀物產和驛路交通等數據。

        鄭永曉平臺建設方面,您有什么構想?

        王兆鵬我希望國內各大型數字化文獻資源庫能升級換代為關系型結構化數據庫,并且有一個平臺,能把各自獨立分散的數據資源用搜索引擎將其匯聚串聯(lián)起來,成為一個超大型的文獻資源數據集成平臺。我們中南民族大學數字人文資源研究中心正在努力把《唐宋文學編年地圖平臺》擴建成《唐宋文學知識圖譜平臺》。第一步是將唐宋時期的全部文學作品、野史筆記、歷史典籍、地理方志和文學批評史料、選本資料、20世紀海內外唐宋文史研究論著目錄,進行集成和標引,開發(fā)成關系型結構化數據庫。數據庫可以提供上面所說的作家、作品和歷史地理三大系列數據。我們的目標是,以目前的文學編年地圖為基礎,建構唐宋文學的知識圖譜,還原唐宋文學的歷史場景。第二步,是將平臺的知識圖譜向前后延伸,形成貫穿古今的中國文學知識圖譜。

        劉京臣平臺數據的功能有哪些改進呢?

        王兆鵬平臺數據是一鍵生成、個性定制,使用更加便捷,可以滿足不同用戶的個性需求。用戶查詢到的數據或相關資料,一鍵就可以生成下載。目前眾多的文獻資源庫,檢索到的資料需要我們一條條地拷貝下載,很費時間。比如,我們在《文淵閣〈四庫全書〉電子版》里檢索到有關蘇軾的資料兩千條,需要點擊拷貝兩千次。而我們開發(fā)的結構化數據庫,今后只要一鍵就可以下載全部資料數據,下載的數據包含原始文獻,都是分類打包的。下載的這些資料,可以保存到平臺為用戶提供的個人云盤中,不必重新拷貝到個人電腦硬盤里。

        平臺還可以滿足個性化的定制服務。用戶需要什么樣的數據,平臺可以針對性地提供其所需的數據。我們希望用戶及時地將需求和建議反饋給我們,我們會不斷完善數據庫,以滿足用戶的不同需求。我們的平臺,將來不再是中國文學研究的輔助性平臺,而是剛需性平臺。它既可以語義檢索、時空定位、關聯(lián)生成,又可以統(tǒng)計分析、可視化呈現(xiàn)。無論是做數據統(tǒng)計還是文本分析,是文獻考據還是理論闡釋,都離不開這個平臺。

        鄭永曉從文學地圖到文學圖譜,確實是很宏大而切實的跨越。期待文學圖譜平臺早日建成。

        王兆鵬知識圖譜的部分功能已經實現(xiàn),用戶可以隨時上網去試用體驗,我們是免費開放的,目前的網址是https:// sou-yun.cn/ research.aspx。進入網頁后,在主題搜索框里輸入要查詢的詩人名、地名(目前主要有縣級以上行政區(qū)名的相關信息),就可以獲得相關分類數據。如輸入杜甫,界面就彈出“杜甫作品詳情”“杜甫朋友圈”“他人詩中提及杜甫的作品”“杜甫的行跡地圖”等七個知識卡片。再點擊“杜甫作品詳情”,界面就出現(xiàn)分體、年份、創(chuàng)作地點、時節(jié)、人物、植物等欄目。點擊分體,頁面自動呈現(xiàn)杜詩分體統(tǒng)計結果:律詩748首、絕句91首、排律126首、古風485首;再點擊其中數據,頁面就自動呈現(xiàn)相關作品原文。點擊年份,頁面就會自動呈現(xiàn)杜甫各年創(chuàng)作的詩歌數量;點擊創(chuàng)作地點,可以了解杜甫一生在各地創(chuàng)作的詩歌數量和詳情;點擊人物,頁面立即呈現(xiàn)杜甫與當朝各類人物交往的詩篇數量,如他寫給李白的詩最多,有11首;點擊植物,可見杜甫寫了哪些花卉樹木(此項信息目前不全)。現(xiàn)在是通過知識卡片的方式,分類呈現(xiàn)與人物、地點相關的數據。用戶可以綜合運用這些數據,從不同的角度進行統(tǒng)計分析。今后,可以查詢和統(tǒng)計唐宋文學作品和歷史典籍中所有人名、地名、官名、物名、書名、篇名、典故、語詞及其關系數據。

        劉京臣聽了王老師對唐宋文學知識圖譜的建構,很令人振奮。我對于古籍文獻資源庫,除了期待其升級換代為結構化數據庫之外,還期待能夠進行圖像檢索,由“圖像檢索”直接實現(xiàn)“版本比對”。2015年,我曾在《大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心》(載《文學遺產》2015年第5期)一文中提到:“隨著多媒體檢索技術的發(fā)展,對圖像、聲音、視頻等進行檢索成為IT界的熱點。圖像檢索隨之被廣泛應用于醫(yī)療、遙感、測繪等領域,并取得了相當成就?!钡诠诺湮膶W研究領域,圖像檢索仍未得到廣泛應用。圖像檢索的核心是對以圖像形式存在的文獻進行定位、檢索與匹配。對研究者而言,可實現(xiàn)由“文本”到“文本”跨越到由“文本”到“圖像”、“圖像”到“圖像”。這樣,一是能將研究者從研判疑難文字中解放出來,二是不必再將圖像文獻識別轉換為文本,三是圖像檢索能以最真實、直觀的方式體現(xiàn)出不同文獻之間的細微差異。從圖像檢索入手,還可以完美實現(xiàn)版本比對。時至今日,最初的設想“機器一邊進行著圖像檢索匹配,一一標注不同版本之間的差異,一邊將識別出來的文本與已經在文本數據庫中的海量數據相匹配”,仍然處于設想階段。雖然“中文在線” 等推出了在線識別圖像文獻的功能,但使用的效果還不是很理想。

        鄭永曉學者應該參與數據庫的開發(fā)?,F(xiàn)有文獻資源庫,基本上都是商業(yè)公司的產品。在開發(fā)過程中,學者的參與度很低。雖然文獻資源庫可以幫助學者查詢資料,但不能統(tǒng)計分析。要完成從數字化資源庫到結構化數據庫的轉換,需要利用數據挖掘對文本進行加工,這種加工必須按照預設的規(guī)則進行,需要學者的深度參與,甚至需要學者對相關數據進行人工標記。數據挖掘可以通過技術來實現(xiàn),但挖掘什么樣的數據,什么樣的數據有用,必須有古代文學研究的專家參與設計。專業(yè)領域的需求只有相關專家最為了解。錢鐘書先生在20世紀80年代支持中國社會科學院建立計算機室時曾說:“實踐證明,能幫助人的電腦需要人的更多幫助?!边@句話即使在今天仍不過時。

        王兆鵬下面我們再討論一下,怎樣運用數據和結構化數據庫對古代文學進行分析和闡釋。

        鄭永曉可以利用編年系地數據對作家群進行空間分析。如果文學編年地圖平臺囊括了自先秦至近現(xiàn)代以來的數萬個作家的綜合信息數據,包括其族群、行跡、交游、創(chuàng)作、作品傳播等信息,當我們設定某個時間點啟動系統(tǒng)進行分析時,就可以觀察到所有活躍作家的遷徙移動信息。例如元軍攻陷臨安后的二三十年間,以關漢卿、白樸、馬致遠為代表的北方作家向杭州遷移,同時杭州本土作家,或作為遺民追懷宋室,或降元謀求新的出路。族群遷徙、文化碰撞、南北交流在這幾十年間跌宕起伏、異彩紛呈。如果有這一時段的人口和作家歷史地理信息數據庫,我們一定可以發(fā)現(xiàn)傳統(tǒng)研究方法易于忽略的細節(jié)和作家流動的趨勢。

        王兆鵬中國文化中心的三次大南移——永嘉之亂、安史之亂、靖康之亂后,北方士人向南方遷徙的時間、經行地、目的地、過程、路線等真實圖景,也可以通過大數據來完整呈現(xiàn)。

        劉京臣還可從時間和空間兩個維度研究某個地方本土作家、流寓作家的唱和、交游情況,探討文學史中重要時間、地點、事件、人物關系,揭示文學思潮、文學觀念變化的關鍵節(jié)點和演進規(guī)律。

        王兆鵬可找一兩個具體時段為突破口,比如北宋神宗元豐年間烏臺詩案后,包括蘇軾在內的許多文士受到牽連貶謫,這些文士的貶謫地分布在哪些地方,各自走什么路線到達貶所,沿途和在貶所各有哪些創(chuàng)作,都可以通過文學編年地圖予以可視化呈現(xiàn)。他們貶謫后的命運、生活、心態(tài)和創(chuàng)作各有哪些變化,也可以用數據來呈現(xiàn)和分析,由此再現(xiàn)當時的文學圖景。哲宗親政后的紹圣、元符年間,元祐黨人紛紛遭貶,到了徽宗崇寧年間,更立元祐黨人碑,三百多位元祐黨人及其子孫遭受更嚴酷的迫害。這段時期政壇大變局、文壇大動蕩的具體場景,如今可以用大數據來考察分析和可視化呈現(xiàn)。

        鄭永曉還可以用數據挖掘技術來分析意象的形成與流變。人工智能的一個分支“自然語言處理”(NLP)近年來發(fā)展迅速,其中的“文本蘊含識別”(textual entailment) 研究兩個文本之間的語義推理關系,基于邏輯推演、相似度或文本轉換,或基于深度學習等算法方面的研究,已取得長足進步。舉例來說,古代詩詞中經常出現(xiàn)“月亮”這一意象。但月亮在古典詩詞中有很多代稱,諸如“嬋娟”“玉兔”“桂魄”“玉盤”“玉鉤”“玉鏡”“蟾魄”“冰輪”等。人工不可能對大批量的涉及月亮意象的作品進行比較、分析。但利用計算機就可以輕松提取歷代詩詞中全部與月亮意象相關的作品,然后從歷時性的角度分析其意義的流變,從共時的角度分析其情感內涵。

        王兆鵬我補充一句,“搜韻網”搜羅的古典詩詞已達八十多萬首,可以利用這個網站進行數據提取和分析。

        劉京臣還可以跟計算機專家合作,利用語義分析技術,通過修辭手法的統(tǒng)計和分析,深度解析作家的藝術風格。

        鄭永曉也可以利用文本數據挖掘技術,開展文學影響史、接受史的研究。京臣所著《盛唐中唐詩對宋詞影響研究》(中國社會科學出版社2014年版)就是一個很好的嘗試。把唐詩和宋詞通過計算機進行形式和語義方面的匹配,可以發(fā)現(xiàn)二者之間的內在聯(lián)系。通過作品研究前后文學史之間的聯(lián)系,較之單純梳理相關記載、言辭要可靠得多。這種方式既可以研究不同文體之間的影響,也可以考察不同時代作家之間的影響與接受情況。

        王兆鵬是的,可以研究唐詩對宋詞的影響,也可以研究宋詩對宋詞的影響、唐宋詞對金元明清詞的影響等等。一個作家的接受,不是單向的,而是多向的。比如,辛棄疾的一首詞,既融化有唐宋詩詞中的語句,也融化有前代經史子集中的語句。可以一個詩人或詞人為視點,用大數據來分析、呈現(xiàn)其接受前人和影響后人的具體情形。

        鄭永曉數字人文研究,會給文學研究范式、方法、視角帶來重大影響和變化。

        王兆鵬請具體說說會帶來哪些變化呢?

        鄭永曉首先是研究科學性的提高。我們習慣于歸納研究,歸納需要證據,但是,過去我們的證據往往是不充分的。文學史研究和寫作,即使卷帙再龐大,其所涉及的作家作品也是有限的。一部文學史,90%以上的作家都沒有涉及,如何能夠證明其科學性?在數字人文研究的視野中,基于大數據的統(tǒng)計和分析可以對此有所補充、修正,涉及的作家作品可能是有文獻記載的全部。這樣看似宏觀的研究其實是建立在十分精確的微觀研究基礎之上的,因此得出的結論、觀點必將更為科學、嚴謹。

        王兆鵬確實,我們現(xiàn)在的文學史,秉持的是選擇性文學史觀,受觀念方法和紙質載體的制約,我們只能有選擇性地敘述文學史。選擇意味著遮蔽,意味著遺落,大量生動的文學史現(xiàn)象和文學生態(tài)以及文學作品被遮蔽和遺落在文學史視野之外。在大數據時代,則可以用全景性的文學史觀來重新認識文學史、書寫文學史。

        鄭永曉其次是視野的擴大。大數據能協(xié)助我們從更為寬廣的視角、不同的層面去理解、研究文學史現(xiàn)象。比如,詩韻研究是詩歌研究中的重要課題,但誰能回答古人使用哪個韻部哪個韻字最多?這個問題依靠傳統(tǒng)方法無法解決,可是在大數據時代輕而易舉。

        王兆鵬我補充一個近似的實例。近體詩寫作中究竟忌不忌三平尾、三仄尾?歷來各執(zhí)一詞。我曾請搜韻網的陳逸云對歷代近體詩進行抽樣統(tǒng)計,統(tǒng)計結果是,在由1224位作者(數據庫中律詩數量超過30首者)寫的240095首五七言律詩中,僅有220人寫的385首律詩中出現(xiàn)過三平尾;而有三仄尾的律詩多達16037首,涉及作者1108人。有三平尾的詩作占抽樣律詩總數的0.16%,而有三仄尾者則占6.7%。出現(xiàn)過三平尾現(xiàn)象的詩人僅占抽樣詩人總數的17.9%,而出現(xiàn)過三仄尾的則占90.5%。數據統(tǒng)計結果顯示,九成多的詩人寫過三仄尾的詩,而不到兩成的詩人出現(xiàn)過三平尾現(xiàn)象。律詩的創(chuàng)作實踐表明,詩人并不刻意回避三仄尾,但會盡量避免三平尾。

        劉京臣在研究某個微觀問題,比如研究某一篇文學作品時,能夠真正把它放在整個文學史中去進行定位、闡述,至少可以放在那個時代所有文獻提供的龐大信息中去比較研究。大到某個作家流派的形成和風格,小到某個字詞用法的演變,都將有精確的量的統(tǒng)計和分析。研究單個作家,也不再是對其進行孤立的分析,而是對其進行全方位的比較研究。比如,錢鐘書先生在《宋詩選注》中選錄了王安石的名作《泊船瓜洲》,在分析“春風又綠江南岸”之“綠”字時,列舉數例唐人使用“綠”字的先例,并作了富有啟發(fā)性的分析?,F(xiàn)在有計算機的輔助,當能找出更多前人使用“綠”字的例子,并對其前后演變進行闡釋。我們也可以對所有唐詩中使用色彩的字詞進行統(tǒng)計分析,看看“赤”“橙”“黃”“綠”“青”“藍”“紫”這些詞唐人運用得如何,它們對于創(chuàng)作繽紛燦爛的唐詩究竟起到了什么作用。這些都是過去的研究方法所不能實現(xiàn)的。

        王兆鵬未來的數字人文研究應該注意哪些問題?或者說要堅持什么原則呢?

        劉京臣首先,要堅持以問題為導向,人文為本位,技術為輔助。無論是傳統(tǒng)人文研究還是數字人文研究,都要以問題為導向。如果不能發(fā)現(xiàn)、分析和解決問題,那么數字人文或淪為舊成果的展示臺,或淪為新技術的炫耀場。數字人文只能以人文為本位,以技術為手段來發(fā)現(xiàn)、分析和解決人文社科領域的問題,而不能僅用人文社科領域的數據來驗證算法。

        王兆鵬說得好。我當時進入數字人文研究,就是由問題引導的。2012年立項的“唐宋文學編年系地信息平臺建設”,現(xiàn)在大家都認為是數字人文研究的項目。其實,當時我并不知道“數字人文”概念。只是為了解決文學研究中的時、空分離問題,才去尋找能解決該問題的方法和技術。2017年,《唐宋文學編年地圖平臺》上線引起廣泛反響之后,我才特別關注數字人文。

        劉京臣其次,要以數據為基礎、平臺為契機、團隊為依托。毋庸置疑,數據是數字人文研究的基礎。未來的數字人文研究,數據要公開,過程要可推演,結論要可檢驗。平臺是數字人文建設的重要環(huán)節(jié):一要從數據著手,研發(fā)特色平臺,不跟風、不趨從、不貪大。平臺有特色,才有可能做出有特色的成果。二要秉持開放理念,積極推廣與其他平臺的數據對接?!短扑挝膶W編年地圖平臺》實現(xiàn)了與典故、注釋等次級平臺的對接,極大方便了使用者。三要堅持學術性與普及性的統(tǒng)一,適時推出一些與平臺相關的說明文檔、工具軟件等。

        王兆鵬確實,平臺過于專業(yè),會影響普通用戶的使用和推廣?!吨袊鴼v代人物傳記資料庫》很專業(yè),功能也很強大,但過于專業(yè)、復雜,普通用戶使用不便。我們《唐宋文學編年地圖平臺》,正在開發(fā)一系列小工具,比如古代紀年自動識別轉換工具、古今地名自動識別轉換工具、古代職官自動識別注釋小工具、詩詞典故自動注釋小工具等等。這些小工具不久會上線給用戶使用。不好意思,打斷了你的話,請繼續(xù)講團隊。

        劉京臣團隊建設,至少要有兩個方面的力量:一是跨學科、多背景的建設團隊,主要負責項目建設。在與技術人員的共同建設中,人文學者應當嘗試學習編程語言、數據庫技術、統(tǒng)計學等知識,試著用程序員思維來思考問題、提出問題。二是多形式、跨媒介的推廣團隊,可借助學術會議、工作坊、培訓課程等方式推介平臺,注重在青年學者、在校碩、博士中的推介,注重向海內外數字人文領域的期刊介紹以平臺為依托的研究成果。

        王兆鵬當前,人文社科研究的范式正在發(fā)生深刻變革。從研究內容到研究方法再到研究范疇,都發(fā)生了極大的變化。如何應對這種變化呢?

        鄭永曉守正出新。首先,要堅持住傳統(tǒng)的學術路徑,夯實傳統(tǒng)的學術基礎,練好內功,這是“出新” 的前提。其實,很多借助于GIS、SNA等手段呈現(xiàn)出來的成果,都是以既有研究成果為依據的,例如CHGIS推出的Ming Dynasty Courier Routes and Stations,源數據就來自于楊正泰的《明代驛站考》(上海古籍出版社1994年版)。其次,要注重學科交叉,大膽利用其他學科成熟的經驗與技術,推動單一學科、傳統(tǒng)學科的新突破、新發(fā)展。

        劉京臣時代在發(fā)展,技術在進步,面對強大的技術,人文學者既不能無視,也不必盲從。守正出新,守住學術傳統(tǒng),出以技術之新,相信能將傳統(tǒng)人文研究與數字人文研究一起推向前進。

        王兆鵬數字人文研究有豐富的議題。我們今天只是做了初步的梳理和展望。數字人文與傳統(tǒng)人文研究在學理上有許多內在的契合點,又能激發(fā)傳統(tǒng)學科煥發(fā)出新的光彩。我們期待有更多的學者參與、推進這一進程。感謝《文藝研究》提供這樣一個機會與大家交流,也感謝兩位的深入討論。

        猜你喜歡
        數字人文人文數字
        人文
        北京紀事(2024年1期)2024-01-03 03:16:55
        答數字
        人文紹興
        中國三峽(2017年3期)2017-06-09 08:14:59
        數字學術與公眾科學:數字圖書館新生態(tài)
        跨界與融合:全球視野下的數字人文
        跨界與融合:全球視野下的數字人文
        大規(guī)模古籍文本在中國史定量研究中的應用探索
        數字看G20
        南風窗(2016年19期)2016-09-21 16:56:12
        人文社科
        全國新書目(2016年5期)2016-06-08 08:54:10
        讓人文光輝照耀未來
        国产精品美女久久久久| 国产免费99久久精品| 人妻中文字幕一区二区三区| 一本久久精品久久综合| 人人妻人人澡人人爽精品日本| 真实国产精品vr专区| 午夜精品久久久久久久久久久久| 91爱爱视频| 国产一区二区三区影片| 91l视频免费在线观看| 好吊妞视频这里有精品| 农村欧美丰满熟妇xxxx| 国产黑色丝袜在线观看下| 久久丁香花综合狼人| 人妻丰满熟妇一二三区| 日本不卡在线视频二区三区| 人妻少妇精品视频三区二区一区| 国产av人人夜夜澡人人爽| 久久99久久99精品免观看不卡| 国产精品亚洲精品专区| 手机看片久久第一人妻| 粗大猛烈进出白浆视频| 婷婷五月综合激情| 亚洲综合一区二区三区蜜臀av| 国产高清一区二区三区三州| 国产97色在线 | 国产| 欧美大屁股xxxxhd黑色| 久久精品国产亚洲av大全相关| 日本一本二本三本道久久久| 一区二区三区免费看日本| 亚洲热妇无码av在线播放| 男女边吃奶边做边爱视频 | 久久国产av在线观看| 久久精品国产9久久综合| 欧洲熟妇色xxxx欧美老妇软件| 秋霞午夜无码鲁丝片午夜精品| 亚洲欧美日韩高清一区二区三区 | 精品偷拍被偷拍在线观看| 亚洲乱码日产精品bd在线观看 | a级毛片内射免费视频| 免费视频成人 国产精品网站|