周笑盈 魏大威
(國家圖書館 北京 100081)
數(shù)字人文是將計算機技術深入應用于傳統(tǒng)人文學科的跨領域融合產(chǎn)物,是將現(xiàn)代信息技術融入人文研究領域,改變知識獲取、標注、比較的方式,通過分析、可視化等手段重塑知識,幫助人文研究學者與普通知識受眾更好地了解知識之間的關聯(lián),把握人文知識的宏觀發(fā)展規(guī)律和趨勢。
數(shù)字人文要求在對知識進行有序整理的基礎上,依據(jù)不同的知識需求,提供不同形式的知識服務。當用戶需要了解某一客體時,需要對該事物特征進行可視化展現(xiàn);當用戶需要了解不同客體的聯(lián)系時,需要對不同客體之間的關聯(lián)關系進行可視化展現(xiàn);當用戶需要了解事物時空發(fā)展邏輯時,需要對演進路徑進行可視化展現(xiàn)。知識可視化是以圖形、圖像、交互網(wǎng)頁的形式對融合、聚類后的知識體系進行視覺表征,以滿足用戶個性化的知識需求。隨著知識組織的不斷深入,數(shù)字圖書館可以更大程度地實現(xiàn)知識資源的深度聚合,提升用戶對于知識信息的理解性認知水平,提升知識資源的利用效率。知識可視化是未來數(shù)字圖書館滿足用戶深層知識需求、促進知識消費水平升級的必由之路。
知識可視化源于科學計算可視化, 2004 年,M.J.埃普拉(Martin J. Eppler)和R.A.伯卡德(Remo A. Burkhard)首次提出了知識可視化(Knowledge Visualization)這一概念,指出知識可視化是指所有用來建構和傳遞復雜見解的圖解手段。在國內,趙國慶認為知識可視化是研究如何應用視覺表征改進兩個或兩個以上的人之間復雜知識創(chuàng)造與傳遞的學科。此后,“科學可視化”“數(shù)據(jù)可視化”概念相繼被提出。知識可視化的概念與信息圖形、信息可視化、科學可視化以及數(shù)據(jù)圖形密切相關,圖是知識可視化的基礎,視覺表征是知識可視化的目的所在,認知是知識可視化的突出特點。
結合在數(shù)字圖書館領域的具體應用,知識可視化是對數(shù)字圖書館資源聚合結果處理與利用的過程,綜合利用聚合技術對資源進行聚類與融合,再對聚合后的數(shù)字資源進行基于視覺表征形式的知識解構、分析和利用,最終促進知識組織從“數(shù)據(jù)—信息—知識—智慧”的方向進行轉化,以實現(xiàn)知識資源的再利用。借助于知識聚合和知識可視化,數(shù)字圖書館可以更好地推進資源有序化處理,實現(xiàn)基于用戶個性化與精準化知識需求的資源開發(fā)與組織。
1781 年德國哲學家康德提出了圖式理論,認為思維可視化由四部分組成,分別為構建、推論、搜索、整合。1986年心理學家佩維奧提出人類認知的雙重編碼理論,認為人類認知基于兩個獨立且密切聯(lián)系的認知子系統(tǒng):言語系統(tǒng)和非言語系統(tǒng),言語系統(tǒng)主要輸入和輸出言語對象,非言語系統(tǒng)用于表征和處理非言語對象,知識可視化輔助言語理解,通過圖像表征系統(tǒng)提高知識傳播效能,降低言語認知負荷。國內王朝云提出的經(jīng)驗之塔理論是知識可視化理論的基礎,該理論將學習經(jīng)驗分為實踐經(jīng)驗、觀察經(jīng)驗和抽象經(jīng)驗三種,將知識可視化的過程抽象為認知金字塔模型,位于金字塔最底層的是最具體的實踐經(jīng)驗,越往塔頂經(jīng)驗越抽象,學習者需具備豐富經(jīng)驗才可實現(xiàn)從具體經(jīng)驗向抽象經(jīng)驗的進階。
20 世紀50 年代興起的認知心理學被認為是語義網(wǎng)模型的基礎,認知心理學將事件抽象為概念節(jié)點,用節(jié)點間的線條和箭頭指向表示概念間的聯(lián)系,節(jié)點之間按照上下層的組織關系構成網(wǎng)絡系統(tǒng),在語義網(wǎng)環(huán)境中通過概念節(jié)點的激活和擴散搭建概念網(wǎng)絡并根據(jù)節(jié)點間聯(lián)系的緊密程度分析概念間的語義距離,為網(wǎng)狀知識圖分析提供支撐。
國內外學者對知識可視化的框架方法進行了大量的研究,取得了重要的成果。M.J.埃普拉、R.A.伯卡德最早提出知識可視化框架,基于知識類型、可視化目的和視覺表征三個分類搭建知識可視化框架,主要回答了知識可視化的三個關鍵性問題:可視化的知識類型有哪些?(what)為什么要進行知識可視化?(why)如何進行知識可視化?(how)2005 年R.A.伯卡德對上述框架進行進一步的修訂和完善,強調了知識的發(fā)送者與接受者之間的互動過程。M.J.埃普拉、R.A.伯卡德將知識可視化視覺表征概括為6種類型:①啟發(fā)式草圖( Heuristic Sketches ); ②概念圖表( Conceptual Diagrams ); ③可視化隱喻( Visual Metaphors ); ④知識動畫( Knowledge Animations ); ⑤知識地圖( Knowledge Maps ); ⑥科學圖表( Scientific Charts )。
國內學者李潔、畢強[1]基于社會網(wǎng)絡可視化(Social Network Visualization,SNV)理論,結合社會網(wǎng)絡分析方法、知識計量方法和知識圖譜、知識網(wǎng)絡理論提出了“DLRs-KA 一體兩翼框架圖”,以知識聚合為中心,社會網(wǎng)絡可視化和知識計量作為兩翼,構建數(shù)字圖書館資源知識聚合的可視化模型。周寧、張李義提出了信息資源可視化RDV 模型,RDV 模型由原始數(shù)據(jù)層析取數(shù)據(jù)的特征屬性,搭建數(shù)據(jù)特征關系層,通過關系映射構建可視化對象層。趙慧臣[2]提出知識可視化視覺表征的分析框架,從圖像視角、技術視角和知識視角探討知識可視化視覺表征框架的設計和應用。圖像視角重平面元素,輕視覺傳播因素;技術視角重技術制作步驟,輕制作者創(chuàng)造過程;知識視角重視覺表征的功能,輕內容建構的方法。
總體而言,國內知識可視化研究側重于對單一客體的特征性表達,對不同客體之間的關系與時空演進知識的可視化研究較少,未形成基于不同需求類型的完整的可視化方法模型。本研究希望在總結現(xiàn)有數(shù)字人文可視化成果的基礎上,歸納出基于需求的知識可視化框架。
數(shù)字資源具有多面性,對資源的解讀是多側面的,因此可視化的解讀維度也應是立體的和全方位的。本文基于需求,從特征描述、關系描述、演進描述三個需求類型,對知識可視化方法進行歸納,進而建立基于不同需求的知識可視化模型。
圖1 知識可視化視覺表征的分析視角
特征描述需求重點在描述知識本身,以知識單元作為可視化的基礎,通過矩陣排列、節(jié)點連線等形式展示知識單元的特征屬性、分布規(guī)律和結構關系,參照可視化技術的分類,可將特征描述可視化依據(jù)要素維度分為單要素可視化和多要素可視化。
(1)單要素主題模型
人文科學研究的主要材料是文本資源,屬非結構化數(shù)據(jù),對非結構化數(shù)據(jù)的大規(guī)模量化分析需要借助計算機的自然語言處理技術,常見的自然語言可視化方法為單要素主題模型。單要素主題模型主要針對資源的單個數(shù)值要素屬性進行分析,例如定義多維空間,利用空間節(jié)點作為要素屬性節(jié)點,在不同節(jié)點間建立從屬關系或關聯(lián)關系,主題層與資源實體(即數(shù)字資源,例如文本、視頻、網(wǎng)頁)通過統(tǒng)一資源定位符完成資源指引。圖2 顯示了國家圖書館講座關聯(lián)數(shù)據(jù)平臺主題詞詞云。國家圖書館講座關聯(lián)數(shù)據(jù)平臺針對公開課資源進行基于元數(shù)據(jù)的關聯(lián)數(shù)據(jù)加工,參考中文名稱規(guī)范數(shù)據(jù)庫,利用資源描述框架(RDF)對元數(shù)據(jù)的題名、課程簡介、學科分類、主題詞、課程評價、相關推薦、主講人等元數(shù)據(jù)進行標引和語義化描述,形成關聯(lián)數(shù)據(jù)集,將課程信息、主講人信息及課程所涉及知識點以散射圖的形式對課程信息進行補充,變層級導航為網(wǎng)狀導航。圖2 對講座視頻元數(shù)據(jù)信息表中的主題詞進行提取后,生成主題詞詞云圖,方便讀者發(fā)現(xiàn)課程數(shù)據(jù)中所隱含的知識及知識的發(fā)展趨勢。
圖2 國家圖書館講座主題詞詞云
(2)多要素可視化
多要素可視化是針對三個或三個以上的要素進行可視化展示的方式,既可以展示大數(shù)據(jù)集的整體趨勢,又可以顯示小數(shù)據(jù)的詳細特征,如雙曲線樹、概念圖、思維導圖、認知地圖等。
概念圖是應用較為廣泛的可視化方法,它用節(jié)點表示概念,通過連線方式將不同的概念進行連接,不同節(jié)點之間一般為層級結構和交叉連接關系,一般用來表示某一主題的層級結構和相關文獻、背景知識的關系,主要用于對抽象概念的理解和層級關系分析。如圖3 表示各概念的層級結構,各層級分別為:主要概念、一般概念、概念、具體概念與實例,通過方框表示概念節(jié)點,通過連線揭示不同概念之間的層級關系。
圖3 概念圖
2012 年,Google 率先提出知識圖譜(Knowledge Graph)的概念,本意在提升搜索引擎的智能化水平,而這個概念,在 2013 年后開始被學術界和業(yè)界廣泛使用。知識圖譜本質上是一種語義網(wǎng)絡知識庫,具有有向圖結構,以結點表示實體或者概念,以邊表示實體或者概念之間的語義關系,在搜索引擎、智能系統(tǒng)、數(shù)據(jù)可視化等應用中發(fā)揮重要作用。
關系維度的共現(xiàn)知識圖譜是對數(shù)據(jù)的量化分析,關系維度的共現(xiàn)知識圖譜的視覺表征形式具體包括詞頻分析法、共詞分析法、共被引分析、社會網(wǎng)絡分析等,以知識圖譜方式形象直觀地表達各領域學科的研究熱點與研究趨勢。
(1)詞頻分析
詞頻法是傳統(tǒng)的計量分析方法,因其簡單易行、便于應用,又被稱作省力法則。其理論基礎是齊普夫定律,通過分析相關文獻中關鍵詞或者主題詞的出現(xiàn)次數(shù),反映文獻的研究內容和研究方向。
(2)共詞分析法
共詞分析法顧名思義,是統(tǒng)計一組詞匯共同出現(xiàn)的次數(shù),并以共同出現(xiàn)的次數(shù)為基礎,來判定該組詞匯中不同詞語的親疏關系,出現(xiàn)在同一篇文章中的次數(shù)越多,兩個詞語之間的關系就越密切。通過共詞分析的方法來分析關鍵詞,可以很好地展現(xiàn)出關鍵詞之間的密切程度。
共詞分析法以關鍵詞為節(jié)點,可以通過連線的方式來建立共詞網(wǎng)絡。在共詞網(wǎng)絡中,離得遠的關鍵詞,共同出現(xiàn)的次數(shù)低,以此可以表示出該研究領域研究主題的關聯(lián)性以及研究主題的演進邏輯。在計量學領域,共詞分析主要用于識別某一專業(yè)研究領域的主題和熱點。
(3)共被引分析
共被引分析與共詞分析類似,統(tǒng)計兩篇文章中作者、機構或引文被共同引用的次數(shù),并以共被引網(wǎng)絡對共被引關系進行表示,共被引網(wǎng)絡中兩篇文章距離越近,說明兩篇文章描繪的主體更接近,關系更為密切。共被引分析體現(xiàn)了學科交叉、滲透的特征,利用數(shù)學及統(tǒng)計學的歸納、概括等邏輯方法,揭示作者、機構或引文計量分析的內在規(guī)律。
常用的共被引分析主要包括三類主體:文獻共被引、作者共被引、期刊共被引。文獻共被引主要研究學科前沿,挖掘學科結構;作者共被引主要揭示學者研究興趣的變化;期刊共被引主要對期刊進行定位和分類,確定期刊在學科中的核心或邊緣地位。
共被引分析的具體形式包括:引文耦合、引文共被引、作者耦合、作者共被引、期刊耦合和期刊共被引等。隨著矩陣分析、網(wǎng)絡可視化技術的發(fā)展,引文分析的結果可以用更直觀的方式展示出來,這一方法得到圖情學、統(tǒng)計學等各領域的廣泛認可。
(4)社會網(wǎng)絡分析
社會網(wǎng)絡關系是通過特定的模型,利用特定的關聯(lián)關系,將人與人之間建立聯(lián)系,以此建立人與人之間相互影響的關聯(lián)模型。基于此,可以分析某一時間對社會全體的聯(lián)動影響。
圖4 顯示了國圖公開課主題詞分類的共現(xiàn)關系。圖4是國家圖書館講座關聯(lián)數(shù)據(jù)平臺主題詞分類關系,基于語義網(wǎng)同主題的語義聚類屬性,對講座視頻元數(shù)據(jù)信息表中的主題詞按照學科門類進行共現(xiàn)分析,方便讀者更準確地了解課程數(shù)據(jù)整體框架,并從語義層面為深入搜索提供支持。
圖4 國家圖書館講座視頻數(shù)據(jù)庫主題詞分類關系圖
關系維度的知識可視化主要流程包括:知識單元抽取、知識單元整合、知識可視化。知識單元抽取是數(shù)據(jù)量化分析的第一步,是共現(xiàn)知識圖譜構建的基本元素。知識單元的內容包括作者、關鍵詞、機構等著錄內容,或基于文本提取的術語詞源。知識單元整合環(huán)節(jié)對知識單元間的屬性進行抽取,利用聚類技術、多維尺度分析等方法對知識單元間的關系和潛在規(guī)律進行挖掘,引入算法分析知識單元的關系和發(fā)展脈絡,常用的算法包括布局算法和統(tǒng)計算法。布局算法通過對不同知識單元的距離大小和關系連線強弱進行分析,得到不同節(jié)點間的共現(xiàn)強度,統(tǒng)計算法對不同知識單元進行關系聚類,以展示整體的發(fā)展脈絡和演化過程。知識可視化基于抽取的特征屬性,將數(shù)據(jù)屬性(例如知識單元的連線、共現(xiàn)頻次等)映射到圖譜屬性上,最終將知識單元間關系的分析結果以圖的形式表現(xiàn)出來。
數(shù)字人文研究將人文敘事與地理空間技術相結合,采用定性分析與定量分析相結合的手段,將多樣的事件納入到時空參考框架中進行可視化和分析,為拓展地理空間技術在人文社會學科中的應用奠定了基礎。
時空維度的敘事可視化主要針對文本格式的數(shù)據(jù),簡單的敘事描述包括when、where、what(何時、何地、何事),復雜的敘事描述包括5W1H:when、where、what、who、why、how(何時、何地、何事、何人、何因、如何)。時空維度的敘事可視化凸顯了知識可視化的時空性和動態(tài)性視覺表征特點,特別是對于長時間跨度的歷史事件,隨著時間的發(fā)展,事件的空間狀態(tài)和其他要素屬性的變化可以通過時空維度的可視化進行動態(tài)展現(xiàn)。
時空層面的敘事可視化主要涉及時間維度和空間維度兩個層面,涉及的要素主要包括四類:時間信息要素、空間信息要素、人物關系要素和主題關鍵詞要素,不僅要能夠將人物關系、事件主題特征等多維屬性納入時空框架之中,同時涉及文本挖掘、文本要素的地理空間映射以及可視化認知與表達等研究領域??梢暬鞒贪ㄋ牟剑旱谝徊酵ㄟ^文本挖掘技術與人工輔助識別相結合的方法,識別地名、時間、人物、關鍵詞等事件信息;第二步構建事件要素的存儲模型,對事件進行不同層次的劃分;第三步通過地名共現(xiàn)、人物共現(xiàn)等方法進行數(shù)據(jù)關系分析;第四步在時空框架中對事件進行還原與展示。
(1)時間軸可視化
時間軸的可視化有生命線可視化展示、二維時空路徑和流向地圖三種可視化效果。生命線可視化是時間的多維拓展,在病人就醫(yī)記錄、犯人犯罪記錄、歷史記錄以及各種傳記數(shù)據(jù)可視化中被廣泛應用。二維時空路徑是一種帶有地理坐標信息的生命線,將資源內容按照時間軸的順序映射到二維地圖上。
(2)地理信息系統(tǒng)(GIS)
地理信息系統(tǒng)(GIS)的應用形式多樣,最常見的是通過Web 模式提供位置服務的谷歌地圖、百度地圖、高德地圖等。GIS 在數(shù)字人文領域的應用是指通過添加元數(shù)據(jù)的時間信息和空間信息,以顯示不同時期、不同地點變化的特點。GIS 的應用一般包括三個功能:后端位置存儲功能、前端數(shù)據(jù)圖層插件和平臺API 插件。GIS 的應用場景一般選用典型的B/S 架構,如基于高德地圖的Web 模式GIS 技術,通過云平臺提供位置服務,云平臺配備位置存儲服務,通過地理位置的名稱識別自動匹配經(jīng)緯度坐標,通過云數(shù)據(jù)圖層插件將數(shù)據(jù)信息疊加到地圖上,通過平臺API 插件提供數(shù)據(jù)檢索、區(qū)域面積計算等功能。使用者只需配備相關數(shù)據(jù),通過平臺的配置和客戶端編碼,即可實現(xiàn)數(shù)據(jù)的可視化研究,同時可根據(jù)地域面積與數(shù)據(jù)內容的匹配度進行伸縮的精細化展示。
本文以“國圖公開課”視頻資源的內容挖掘和可視化為例,對不同的需求類型采用不同的可視化方式進行知識可視化展現(xiàn)。筆者利用文本挖掘軟件對國圖公開課與絲綢之路相關的視頻文本進行了提取,得到人物、時間、地點、事件信息,基于特征描述、關系描述、演進描述三種需求對公開課視頻內容進行了聚類分析、多維尺度分析和社會網(wǎng)絡分析,構建關鍵詞詞云、實體共現(xiàn)矩陣、地理標簽云圖和時間軸標簽云圖。
國圖公開課是國家圖書館借鑒“慕課”的在線課程理念設立的專題在線學習課程,目前發(fā)布在線課程1 600 余場。本文選取“絲綢之路”這一主題采集視頻樣品,絲綢之路是古代中華民族對世界文明的巨大貢獻,在“一帶一路”的背景下,絲綢之路又煥發(fā)了新的生機,對這一主題進行研究具有重要的歷史意義與現(xiàn)實意義。
筆者在國圖公開課視頻平臺中搜索“絲綢之路”,得到與“絲綢之路”相關的公開課視頻4個,時長超過1 000分鐘,公開課視頻資源相關信息如表1 所示;針對4 個公開課視頻提取字幕文件,對文本文件進行切分、識別,根據(jù)算法找到最優(yōu)分詞路徑,利用智能分詞軟件和詞性標注模塊完成所有字幕內容的分詞與詞性標注。
實體抽取是基于角色標注算法自動識別命名實體,通過對語言規(guī)律的理解和科學預測,智能識別文本中出現(xiàn)的人名、地名、時間、事件及文章的主題關鍵詞。筆者通過對國圖公開課視頻內容中事件類、地點類、人物類、時間類關鍵詞的提取與整理,設置自定義詞表,重新分詞得到分類關鍵詞有效詞表。表2 列出了各分類中排名前30 位的關鍵詞,由此可以大致了解絲綢之路公開課視頻的核心內容。
表1 國圖公開課樣本視頻信息
我們在進行文本分詞時利用分詞與詞性識別軟件判斷每個詞語的詞性,即名詞、動詞、形容詞等,篩選出所有的名詞和動詞,并就單一要素設計可視化視圖,圖5 為對地名要素進行詞頻統(tǒng)計后的可視化圖。
利用文本挖掘軟件對人名、地名、時間點、事件四類要素的所有關鍵詞進行詞頻分析,生成詞云圖。從圖6 中可以清晰看出,“唐朝”“西域”“日本”“敦煌”“中亞”“絲織”“傳教士”“收藏”“文化遺產(chǎn)”等關鍵詞處于圖譜的中心位置,這些關鍵詞是絲綢之路公開課文本的核心內容。
表2 國圖公開課視頻內容實體詞頻統(tǒng)計
圖5 國圖公開課地名高頻詞可視化
而在網(wǎng)絡邊緣的“遣唐使”“大運河”“回鶻”“高麗香料”等關鍵詞雖然游離于核心詞之外,卻對絲綢之路的注解更為具體,代表了絲綢之路內容中的具體領域和發(fā)展趨勢,同樣具有重要的價值。
圖6 絲綢之路國圖公開課視頻內容關鍵詞云圖
在特征描述可視化的基礎上,本文嘗試對大規(guī)模視頻內容中的地名、人物和事件進行共現(xiàn)分析,旨在對事件中潛在的空間模式、人物關系和事件關系進行探究。共現(xiàn)分析有兩個前提,即重要的關鍵詞會在視頻內容中反復出現(xiàn),同時關系越緊密的主題詞在相同段落中同時出現(xiàn)的概率也越大。其具體的實現(xiàn)方法為,首先通過文本挖掘識別出公開課視頻資源中所有出現(xiàn)的地名、人物和事件,進而統(tǒng)計每兩個主題詞在200 字以內共同出現(xiàn)的次數(shù),生成地名共現(xiàn)矩陣。人物共現(xiàn)關系圖和事件共現(xiàn)矩陣,在共現(xiàn)網(wǎng)絡中,一個地名、人名和事件名稱對應網(wǎng)絡中的一個節(jié)點,任意兩個共同出現(xiàn)節(jié)點之間會生成一條邊,邊的權重即為二者之間的共現(xiàn)頻次。在共現(xiàn)模型的基礎上,利用網(wǎng)絡可視化技術,生成共現(xiàn)網(wǎng)絡。圖7 便是根據(jù)前文中識別的地名,生成的地名共現(xiàn)矩陣。
圖7 地名共現(xiàn)矩陣
從關鍵詞網(wǎng)絡分析結果中,可以看出地名之間的結構關系。在地名共現(xiàn)網(wǎng)絡中,“中國”這一節(jié)點位于網(wǎng)絡中核心的位置,對其他關鍵詞共現(xiàn)的影響力最大。與“中國”這一節(jié)點關聯(lián)度最高的分別是“歐洲”“日本”“印度”,可見絲綢之路的主要地理趨向為向西的印度—歐洲、向東的日本,絲綢之路成為了古代東西方經(jīng)濟文化交流的主要通道和溝通中國與歐亞大陸的重要通路。
從圖8 的事件共現(xiàn)矩陣中可以看出,公開課主講人在講座內容中的核心節(jié)點為“絲綢之路”,與這一節(jié)點關聯(lián)度最高的有兩類主題:文化遺產(chǎn)與文化交流。與文化遺產(chǎn)相關的事件分別為“申遺”“考古”,與文化遺產(chǎn)類主題網(wǎng)絡離散程度稍低的事件包括“馬王堆”“四大發(fā)明”“收藏”;與文化交流相關的事件分別為“文化交流”“交流”,與文化交流類主題網(wǎng)絡離散程度稍低的事件包括“聯(lián)合國教科文組織”“二戰(zhàn)”“印刷術”等??梢钥闯觯z綢之路不僅是中外貿易的交流通路,還是世界文化交融的載體。在古絲綢之路上,各國家各民族交易的內容十分豐富,有茶葉、玉器、香料等,絲綢只是其中一種。在“一帶一路”的背景下,絲綢之路作為中西文化交流的平臺又煥發(fā)了新的生機。
圖8 事件共現(xiàn)可視化
圖9 是基于事件、人名、地名和時間所生成的多要素共現(xiàn)矩陣。從該共現(xiàn)矩陣中可以看出,主講人在絲綢之路的講解中,以“中國”為核心,與核心節(jié)點關聯(lián)度最高的多為地點類節(jié)點(例如“日本”“印度”“波斯”“新疆”“敦煌”),其次為時間類節(jié)點(例如“唐代”“漢代”“西夏”),最邊緣的關聯(lián)節(jié)點多為事件類和人名類。由此看出,主講人對于絲綢之路的研究以地域為主要脈絡,時間線為輔助脈絡。關系描述的知識可視化更能反映出知識之間的關聯(lián)和依賴關系,可以挖掘出內容中所包含隱性知識之間的聯(lián)系。
圖9 事件、人名、地名、時間共現(xiàn)矩陣
演進描述可視化的應用范圍廣泛,歷史事件、新聞、課程資料等都可被納入演進描述的框架中進行表達。公開課的課程內容由多個事件組成的,內容跨度長,敘事文本多來自于人文作品,屬于自由文體,具有高度的靈活性。筆者在前文的信息規(guī)范化處理的基礎上,將課程文本中的時間信息、地名信息、人物信息、事件關系等納入時空框架統(tǒng)一進行管理,以地理標簽云與時間軸標簽云的方式進行可視化表達。
地理標簽云是地理信息可視化的組成部分,常規(guī)地圖標注往往注重地理要素的單一屬性,而地理標簽云結合了地圖可視化與文本可視化技術。動態(tài)的地理標簽云還能從數(shù)據(jù)庫中實時抽取數(shù)據(jù),根據(jù)不同比例尺實現(xiàn)動態(tài)信息顯示。本文選取了中國地圖和世界地圖作為空間信息數(shù)據(jù)源,在中國地圖中根據(jù)主題詞權重確定主要省份標簽,以主要省份為單位,計算其他結構化信息與地理信息的共現(xiàn)關系,按照主題詞權重順序依次顯示在對應的省份上;在世界地圖中根據(jù)國家主題詞權重確定主要國家標簽,根據(jù)共現(xiàn)關聯(lián)生成主要國家地理標簽云。從圖10 中可以看出,國內與絲綢之路相關的省份主要為中西部的甘肅、寧夏、青海、陜西、四川、新疆和東部的浙江、江蘇。東部省份的主題詞多與絲織工藝有關,西部省份的主題詞多與運輸通路有關,自東向西主要涉及的地域包括嘉興、杭州、海寧—河西走廊、麥積山、蘭州—敦煌、阿爾泰山等。從圖11 中可以看出絲綢之路在世界各國的大體通路,向東與日本的交流主要為文化交流,“唐朝”“遣唐使”成為權重較高的主題詞;向西與印度的交流則以“佛教”的交流為主,與歐洲各國的交流主要涉及貿易領域,“絲綢”不僅僅是核心主題詞,“白銀”“香料”“玉器”等主題詞的出現(xiàn)頻率也較高。
圖10 中國主要省份地理標簽云可視化
圖11 世界主要國家地理標簽云
圖12 從時間維度對公開課視頻內容特征進行描述,從時間軸可視化可以看出,絲綢之路的最早時間可以追溯至戰(zhàn)國時期,主講人認為在漢代以前,就已經(jīng)存在這條溝通中國與中亞的西域交通道路,例如殷墟墓葬、馬家塬戰(zhàn)國墓葬中的玉器和琉璃制品,這說明西域的產(chǎn)品在很早的時候就已經(jīng)進入中原;秦漢時期,與地域相關的主題詞主要有“都護府”“河西走廊”“敦煌”,說明主講人主要講述了絲綢之路的開辟,“馬王堆”作為另一高頻詞強調了長沙馬王堆漢墓素紗衣的價值和秦漢時期絲織業(yè)空前發(fā)展;到隋唐時,出現(xiàn)的高頻主題詞為“圖案”“寶花”“紋樣”“日本”,標志著唐代提花技術的重要變革,其紋樣形式多以“寶花”形式存在,且廣泛傳播到日本等地區(qū);蒙元時期疆域的擴展和民族大遷徙的發(fā)展,為中西陸路貿易奠定了重要基礎;到明清之際,東西方的絲綢交流進入傳教士時代,天鵝絨、西洋錦、中國風都成為了絲綢之路的特色代表。
圖12 時間軸標簽云
數(shù)字人文環(huán)境下,數(shù)字圖書館用戶對知識的需求往往清晰且精準,本文希望在梳理用戶認知需求的基礎上,根據(jù)不同需求完成館藏資源的挖掘和可視化。
①特征描述維度的可視化。在文本挖掘與特征分析的基礎上進行詞頻分析,常用的可視化形式包括:主題云圖、思維導圖、認知地圖等。例如通過對國圖公開課視頻原始字幕文本中的特征信息進行分析,概覽性地勾畫出四位主講人講述內容的語言特征信息和主題詞,幫助讀者最快了解課程整體內容架構。②關系描述維度的可視化。從數(shù)據(jù)的多重關系角度揭示共現(xiàn)關系,常用的方法包括:共詞分析、共被引分析、社會網(wǎng)絡關系分析等。本文通過搭建4場國圖公開課視頻資源的地名共現(xiàn)矩陣、事件共現(xiàn)矩陣和事件、人名、地名、時間多要素共現(xiàn)矩陣,揭示了絲綢之路研究的地域范圍、主要事件和主講人研究脈絡,不僅使分析結果直觀形象,同時讓研究更具個性化特質和信息美學特征。③演進描述維度的可視化。從空間和時間角度揭示資源中暗藏的地理線和時間線,幫助讀者從更加宏觀的角度把握視頻內容。在國圖公開課的演進可視化結果中,我們不僅可以了解到絲綢之路在世界各國的通路與主題,還可以分析不同朝代絲綢之路的特征??梢暬夹g讓龐雜的非結構化數(shù)據(jù)更加形象、有條理,為相關的數(shù)據(jù)決策提供了有力支持,也為場景模擬、歷史仿真等人工智能技術的應用打下了基礎。
館藏資源是數(shù)字人文可視化的重要基礎,圖書館等公共文化服務機構存在大量數(shù)據(jù)資源,既包括書目數(shù)據(jù)、知識組織等結構化的資源,又集合了大量的音視頻、網(wǎng)絡信息、全文數(shù)據(jù)等非結構化的數(shù)據(jù)資源。數(shù)字人文背景下,非結構化數(shù)據(jù)的挖掘與可視化可以更精準地滿足用戶的認知需求,通過對異構數(shù)據(jù)的深度挖掘與分析,將分析結果以多樣化的形式呈現(xiàn)給用戶,幫助用戶以全新的視角獲取知識與靈感。
本文基于圖書館實踐,按照受眾知識需求類型對知識可視化方法進行歸納分類,形成基于不同需求類型的可視化方法模型,通過對不同來源的非結構化數(shù)據(jù)內容進行挖掘,可以從不同側面對內容進行描述與結構化分析。本文以國家圖書館“國圖公開課”視頻資源的內容挖掘與可視化為例,從大規(guī)模的視頻資料中對時間、地點、人物、事件和關鍵詞進行了提取和規(guī)范化,對公開課課程這一數(shù)字資源,基于不同需求類型形成不同的可視化展現(xiàn)解決方案,希望為提升圖書館數(shù)字資源傳播效率與知識服務能力作出貢獻。
(來稿時間:2019 年9 月)