彭 博
“文運(yùn)同國(guó)運(yùn)相牽,文脈同國(guó)脈相連?!盵1]文化是民族生存和發(fā)展的重要力量,各類型文化遺產(chǎn)是人類文明的記憶載體。中華文明歷史長(zhǎng)河中傳承下來(lái)的諸多文物作為文化遺產(chǎn)的典型代表,是華夏兒女建立文化自信的重要基礎(chǔ)。隨著“文博熱”的到來(lái),各類媒體上有關(guān)文物的報(bào)道迅速增長(zhǎng),互聯(lián)網(wǎng)中與文物有關(guān)的話題與討論增加,數(shù)字出版與數(shù)據(jù)庫(kù)的推廣使得文物有關(guān)研究成果能夠以更快的速度與更新穎的形式進(jìn)行公布,這些處于數(shù)字化新媒體環(huán)境下的文物信息資源以快速擴(kuò)張的態(tài)勢(shì)在受眾間廣泛傳播。但歷史文化知識(shí)存在理解門檻,大量的文物信息資源需要?dú)v史知識(shí)的積淀才能被充分解讀。絕大多數(shù)受眾通常不具備相應(yīng)的知識(shí)儲(chǔ)備,如何直觀全面揭示信息資源中蘊(yùn)含的文物知識(shí),幫助受眾理解中華文明的璀璨瑰寶,是推廣歷史文化遺產(chǎn)知識(shí)與弘揚(yáng)中華傳統(tǒng)文化需要面對(duì)的問(wèn)題。
數(shù)字人文發(fā)展為人文社科類信息資源中的知識(shí)發(fā)現(xiàn)和利用提供了新視角與新方法[2],在鼓勵(lì)研究人員使用數(shù)字化技術(shù)對(duì)信息資源進(jìn)行分析的同時(shí),強(qiáng)調(diào)保持人文研究中對(duì)于事物共同性總結(jié)及特殊性分析的能力,意圖從內(nèi)容角度對(duì)數(shù)字化技術(shù)的應(yīng)用方向進(jìn)行引導(dǎo)[3]。依據(jù)信息資源結(jié)構(gòu)特征選擇能夠最大程度揭示其內(nèi)容的數(shù)字化技術(shù)方法,提供人文社科類信息資源利用的新路徑。
綜上所述,網(wǎng)絡(luò)中涌現(xiàn)的大量文物信息資源具有知識(shí)分布分散、質(zhì)量不一、表示不明等問(wèn)題,它們與受眾中存在的知識(shí)儲(chǔ)備不足、知識(shí)理解參差等共同形成文物信息資源推廣過(guò)程中的巨大阻礙。本文以數(shù)字人文視角對(duì)網(wǎng)絡(luò)文物信息資源進(jìn)行分析,發(fā)現(xiàn)其共性特點(diǎn)與個(gè)性差異,再選擇相適應(yīng)的數(shù)字化方法進(jìn)行文物知識(shí)的發(fā)現(xiàn)、融合與重構(gòu)以及知識(shí)圖譜構(gòu)建。具體來(lái)說(shuō),根據(jù)信息資源內(nèi)容和結(jié)構(gòu)特征獲取文物知識(shí),利用本體和語(yǔ)義相似性對(duì)齊文物知識(shí),使用知識(shí)圖譜表示文物知識(shí),彌合信息資源與受眾間的知識(shí)鴻溝,促進(jìn)文物知識(shí)在互聯(lián)網(wǎng)時(shí)代的傳播與推廣。
隨著互聯(lián)網(wǎng)發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng),以往將結(jié)構(gòu)化數(shù)據(jù)視為文物信息資源的觀點(diǎn)無(wú)法適應(yīng)網(wǎng)絡(luò)及新媒體環(huán)境下文物信息資源的定義。因此,應(yīng)該將廣義信息資源的概念應(yīng)用其中,來(lái)源豐富、形式多樣與文物有關(guān)的數(shù)據(jù)都可以被視為文物信息資源。結(jié)構(gòu)化、標(biāo)準(zhǔn)化的文物數(shù)據(jù)可以作為文物信息資源開發(fā)利用的根基,但文本、圖像、視頻等非結(jié)構(gòu)化信息中蘊(yùn)含的知識(shí)更易被受眾接受,也更適合作為文物知識(shí)推廣的載體。
國(guó)內(nèi)外文物信息資源研究的主要對(duì)象是結(jié)構(gòu)化數(shù)據(jù),發(fā)展歷程分為4個(gè)階段:從數(shù)字化角度進(jìn)行研究[4]、從信息系統(tǒng)角度進(jìn)行研究[5]、從元數(shù)據(jù)角度進(jìn)行研究[6]和從本體角度進(jìn)行研究[7]。綜合看,文物信息資源研究隨著數(shù)字化技術(shù)與人文研究變革而發(fā)展,經(jīng)歷了信息資源的數(shù)字化研究階段、數(shù)據(jù)化研究階段、關(guān)聯(lián)化研究階段、智慧化研究階段,各階段主要特征見(jiàn)表1。目前研究已不局限于將文物進(jìn)行數(shù)字化與信息化處理,而是將文物在信息資源中進(jìn)行實(shí)體化表示,利用關(guān)聯(lián)數(shù)據(jù)等方法標(biāo)記實(shí)體間關(guān)系,對(duì)信息資源中的文物知識(shí)進(jìn)行關(guān)聯(lián)與擴(kuò)展,為文物知識(shí)的智慧化應(yīng)用提供基礎(chǔ)支撐,進(jìn)行文物知識(shí)的深度開發(fā)利用。
表1 文物信息資源研究的4個(gè)發(fā)展階段
文物研究作為人文科學(xué)研究的重要組成部分,相較于文學(xué)、音樂(lè)等講求倫理道德與人文主義的研究,更注重依據(jù)已有證據(jù)對(duì)事實(shí)進(jìn)行復(fù)原,對(duì)人類歷史材料進(jìn)行篩選和組合后形成知識(shí)[8]。數(shù)字人文為從大量文物信息資源中挖掘知識(shí)提供了可能,也提供了依據(jù)文物有關(guān)知識(shí)進(jìn)行文本分析、內(nèi)容分析、時(shí)空數(shù)據(jù)分析、社會(huì)關(guān)系分析等新視角,為研究歷史的演化發(fā)展提供了新的分析路徑,可視化與虛擬現(xiàn)實(shí)等新展示形式的應(yīng)用也為文物知識(shí)的推廣與傳播提供了新途徑。
數(shù)字人文在文物信息資源研究中的另一個(gè)重要表現(xiàn)是“空間轉(zhuǎn)向”(Spatial Turn)概念的提出[9]??臻g轉(zhuǎn)向是地理學(xué)與媒介及傳播軌跡的融合研究,采用更廣闊的視角和方法研究文明發(fā)展情況,實(shí)現(xiàn)了歷史敘事的軸心從歷時(shí)性譜系向共時(shí)性關(guān)系的轉(zhuǎn)變,打破了文明間邊界的局限,從關(guān)聯(lián)、互動(dòng)、體系等視角理解文明變遷,由此達(dá)到以橫向空間維度的思考來(lái)補(bǔ)充和豐富縱向時(shí)間維度的內(nèi)源性解釋。從數(shù)字人文視角看,文物信息資源中時(shí)空數(shù)據(jù)的載體是一個(gè)數(shù)據(jù)庫(kù),而不是地圖,將時(shí)空數(shù)據(jù)作為實(shí)體與文物進(jìn)行關(guān)聯(lián),可以讓歷史學(xué)家形成新的研究問(wèn)題,對(duì)文物特征的內(nèi)源性進(jìn)行解釋。
國(guó)內(nèi)數(shù)字人文的早期實(shí)踐來(lái)源于古籍?dāng)?shù)字化。范佳[10]認(rèn)為古籍?dāng)?shù)字化與數(shù)字人文有著緊密關(guān)聯(lián),從文本進(jìn)行知識(shí)挖掘、地理信息系統(tǒng)的應(yīng)用、可視化技術(shù)的應(yīng)用和古籍語(yǔ)料庫(kù)都是對(duì)古籍?dāng)?shù)字化的深度開發(fā),形成了數(shù)字化統(tǒng)計(jì)計(jì)算技術(shù)與人文研究的良好融合。陳剛[11]認(rèn)為以地理信息系統(tǒng)技術(shù)為支撐的“空間綜合人文社會(huì)科學(xué)”是歷史學(xué)與地理科學(xué)融合發(fā)展的新分支,以歷史信息資源為來(lái)源,使用地理科學(xué)技術(shù)作為支撐,從數(shù)字人文視角對(duì)時(shí)間、空間、歷史知識(shí)等進(jìn)行挖掘與關(guān)聯(lián),以發(fā)現(xiàn)歷史學(xué)研究新視角。數(shù)字人文在其中起到了提供數(shù)據(jù)融合框架與拓展研究視野的作用。王兆鵬等[12]指出,數(shù)字人文技術(shù)在文學(xué)、歷史研究中可實(shí)現(xiàn)瀏覽檢索、關(guān)聯(lián)生成、數(shù)據(jù)統(tǒng)計(jì)、時(shí)空定位和可視化等功能,能解決研究中資料離散和時(shí)間、空間數(shù)據(jù)分離的問(wèn)題,而將文史研究中的關(guān)鍵數(shù)據(jù)與知識(shí)進(jìn)行融合與重構(gòu),可以還原歷史知識(shí)全貌,為受眾提供沉浸式的知識(shí)體驗(yàn)。
上述研究顯示,數(shù)字人文理念高度契合人文科學(xué)研究發(fā)展的新需求與新態(tài)勢(shì);計(jì)算機(jī)分析技術(shù)應(yīng)用于人文學(xué)科能夠極大地?cái)U(kuò)展知識(shí)覆蓋范圍與表現(xiàn)形式。國(guó)內(nèi)外數(shù)字人文實(shí)踐表明,數(shù)字人文在文物、文化遺產(chǎn)等研究中已經(jīng)取得了不少成果,但也要注重人文視角在技術(shù)有關(guān)工作中的保留,要從內(nèi)涵解釋數(shù)據(jù)的成因,利用數(shù)據(jù)驗(yàn)證結(jié)論的完備程度。目前數(shù)字人文在文物信息資源中的研究仍舊存在基礎(chǔ)數(shù)據(jù)來(lái)源不足、數(shù)據(jù)處理難度較大、分析方法中的理論驅(qū)動(dòng)力較弱、結(jié)果結(jié)論缺乏辯證性的考證等問(wèn)題。
數(shù)字人文與單純將數(shù)字化方法應(yīng)用于人文類信息資源研究的最大不同在于“人文性”的保持,最典型的就是結(jié)果的敘事性,即分析結(jié)果不是數(shù)據(jù)的堆砌而是信息資源內(nèi)容的組織與延展。在構(gòu)建文物信息資源知識(shí)圖譜時(shí),該問(wèn)題轉(zhuǎn)變?yōu)槭且灾R(shí)數(shù)量還是以資源內(nèi)容為出發(fā)點(diǎn)。數(shù)字化方法進(jìn)行知識(shí)圖譜構(gòu)建注重獲取到的知識(shí)數(shù)量,而數(shù)字人文更關(guān)注其與內(nèi)容的相關(guān)性,強(qiáng)調(diào)知識(shí)圖譜是對(duì)信息資源中知識(shí)的解構(gòu)與重組。這也是數(shù)字人文視角下信息資源知識(shí)圖譜構(gòu)建的獨(dú)有特征。從定性角度對(duì)信息資源中的知識(shí)基于敘事結(jié)構(gòu)進(jìn)行組織,挖掘其與內(nèi)容的關(guān)聯(lián)關(guān)系,能為知識(shí)圖譜構(gòu)建過(guò)程中數(shù)字化方法的選擇提供幫助。選擇針對(duì)性方法進(jìn)行信息資源處理,從內(nèi)源性出發(fā)提升問(wèn)題解決效率的關(guān)鍵,也是數(shù)字人文分析視角的精髓。基于此,在數(shù)字人文視角下分析網(wǎng)絡(luò)文物信息資源特征,能提升所抽取知識(shí)與信息資源內(nèi)容的相關(guān)性、知識(shí)圖譜構(gòu)建效果和知識(shí)圖譜展示信息資源中知識(shí)全貌的能力。
數(shù)字人文視角下的重要分析方法是“遠(yuǎn)讀”,由弗蘭科·莫萊蒂(Franco Moretti)于2000年[13]提出。遠(yuǎn)讀作為一種針對(duì)人文學(xué)科的新研究設(shè)想,通過(guò)整合資料,使用統(tǒng)計(jì)、總結(jié)等方式對(duì)大量文本進(jìn)行概括性描述,揭示研究對(duì)象的發(fā)展變化規(guī)律,側(cè)重對(duì)文本集合特征的描述與匯總,為后續(xù)分析提供建設(shè)性意見(jiàn)。數(shù)字人文視角下的遠(yuǎn)讀分析則是在這一思想影響基礎(chǔ)上,直接使用計(jì)算機(jī)技術(shù)讀取信息資源內(nèi)容,進(jìn)行基于文本的統(tǒng)計(jì)分析,揭示內(nèi)在特征。與遠(yuǎn)讀相對(duì)應(yīng)的是文本近讀,主要通過(guò)人工視角分析文本,作為人文研究的重要環(huán)節(jié),近讀能夠充分挖掘細(xì)節(jié)特征,而數(shù)字人文視角下的近讀著重于細(xì)節(jié)特征的歸納,將人文研究的感性認(rèn)知發(fā)展為可解構(gòu)的量化分析。
文物信息資源知識(shí)圖譜構(gòu)建的主要目的是梳理和匯集包含在其中的知識(shí),將隱性知識(shí)轉(zhuǎn)化為顯性知識(shí);知識(shí)圖譜的完備程度決定了這項(xiàng)工作效果。從這一角度看,數(shù)字人文視角下的信息資源特征分析是知識(shí)圖譜構(gòu)建重要前置工作,通過(guò)特征分析選擇有針對(duì)性的數(shù)字化方法能夠提升知識(shí)抽取的效率,構(gòu)建與信息資源內(nèi)容關(guān)系更為緊密的知識(shí)圖譜?;诖耍恼率紫忍岢隽藬?shù)字人文視角下的網(wǎng)絡(luò)文物信息資源特征分析框架,利用詞頻、主題分析方法對(duì)信息資源中知識(shí)的載體——關(guān)鍵詞進(jìn)行統(tǒng)計(jì),完成宏觀視角下知識(shí)的計(jì)量分析。隨后,對(duì)局部介紹文物系統(tǒng)性知識(shí)的文學(xué)進(jìn)行近讀分析,分析從4個(gè)方面進(jìn)行:語(yǔ)言特征、文本結(jié)構(gòu)、內(nèi)容特點(diǎn)和知識(shí)分布,前三部分對(duì)應(yīng)文學(xué)分析中的詞語(yǔ)、篇章、整體分析[14],第四部分探究知識(shí)在文本中的分布特征,對(duì)知識(shí)網(wǎng)絡(luò)的分布狀況進(jìn)行量化分析,與其他元素建立數(shù)量、強(qiáng)度間的關(guān)聯(lián)關(guān)系。最后將信息資源從5個(gè)方面與知識(shí)進(jìn)行融合分析,總結(jié)提煉知識(shí)挖掘效率最高的關(guān)鍵詞抽取方法,提出基于關(guān)鍵詞的文物知識(shí)檢索策略,改進(jìn)文物信息資源知識(shí)抽取方法,優(yōu)化知識(shí)圖譜構(gòu)建過(guò)程。數(shù)字人文視角下的網(wǎng)絡(luò)文物信息資源特征分析框架如圖1所示。
圖1 數(shù)字人文視角下的網(wǎng)絡(luò)文物信息資源特征分析框架
依據(jù)前文分析框架,根據(jù)創(chuàng)作目的與來(lái)源,網(wǎng)絡(luò)文物信息資源分為兩類:一是百度百科、網(wǎng)絡(luò)中科普性質(zhì)的文物介紹文本、博物館展覽注釋、廣播電視節(jié)目等受眾面廣、以普及文物基本知識(shí)為目的的百科類文物信息資源;二是科研論文、研究報(bào)告等面向?qū)I(yè)研究人員,以發(fā)現(xiàn)新問(wèn)題、提出新觀點(diǎn)、論證新理論、挖掘新知識(shí)為目的的研究類文物信息資源。百科類文物信息資源中的知識(shí)特征如下:(1)顯性知識(shí)多,如文物的作者、時(shí)間、位置等基本信息會(huì)直接說(shuō)明,通常通過(guò)句法依存關(guān)系進(jìn)行判斷,能夠發(fā)現(xiàn)“實(shí)體-知識(shí)-實(shí)體”的知識(shí)三元組。(2)以粗粒度知識(shí)為主,如文物的時(shí)間、位置、內(nèi)容等多從整體角度進(jìn)行描述,時(shí)間通常以時(shí)間段形式、位置通常以較大行政區(qū)劃的模式進(jìn)行描述。(3)知識(shí)網(wǎng)絡(luò)呈現(xiàn)線性分布,百科類文物信息資源注重文物主要情況的描述,線性敘事,知識(shí)按一定模式進(jìn)行排列。(4)主題與知識(shí)關(guān)聯(lián)度不高,由于百科類文物信息資源講求敘事性,故文本中形容文物狀態(tài)的敘事性語(yǔ)句較多,主題中代表實(shí)體的名詞比例不高。研究類文物信息資源的知識(shí)特征:(1)隱性知識(shí)較多,由于該類信息資源受眾具有文物知識(shí)基礎(chǔ),故不會(huì)就文物常見(jiàn)信息進(jìn)行描述。(2)以細(xì)粒度知識(shí)為主,針對(duì)文物時(shí)間、位置、形狀等的描述通常表現(xiàn)為精確的考證結(jié)果,計(jì)量單位以現(xiàn)有考證的最小單位為主。(3)知識(shí)網(wǎng)絡(luò)呈拓?fù)浣Y(jié)構(gòu),層層遞進(jìn),逐級(jí)深入。(4)主題與知識(shí)關(guān)聯(lián)程度較高,文本主題中指代文物知識(shí)的名詞性詞語(yǔ)較多??偟膩?lái)說(shuō),百科類文物信息資源中與文物知識(shí)有關(guān)的關(guān)鍵詞會(huì)反復(fù)出現(xiàn),較容易提??;而研究類文物信息資源中與文物知識(shí)有關(guān)的關(guān)鍵詞出現(xiàn)頻率與分布比較松散,需要先排除掉部分無(wú)關(guān)詞匯后才能有效獲取。
為此,文章提出一種從數(shù)字人文視角出發(fā),分析信息資源特征后進(jìn)行主題關(guān)鍵詞抽取,將關(guān)鍵詞轉(zhuǎn)化為知識(shí)后構(gòu)建知識(shí)圖譜的方法。首先在網(wǎng)絡(luò)中獲取某一領(lǐng)域或主題下的文物信息資源,按內(nèi)容聚類后利用統(tǒng)計(jì)方法進(jìn)行二分類,由于百科類文物信息資源內(nèi)容較為集中,故網(wǎng)絡(luò)密度緊密的類團(tuán)可判斷為百科類文物信息資源集合,使用LDA[15]抽取其中的主題關(guān)鍵詞作為檢索詞,同時(shí)采用TF-IDF[16]這種強(qiáng)調(diào)內(nèi)容差異性的關(guān)鍵詞抽取方法抽取網(wǎng)絡(luò)密度松散類團(tuán),即研究類文物信息資源文本中的關(guān)鍵詞,利用關(guān)鍵詞從外部知識(shí)庫(kù)中獲取文物實(shí)體關(guān)系,進(jìn)行命名實(shí)體識(shí)別。然后,利用文物信息資源本體與詞匯相似度計(jì)算,將實(shí)體關(guān)系轉(zhuǎn)換為概念層級(jí)的知識(shí),完成文物知識(shí)的對(duì)齊。最后,分別利用實(shí)體關(guān)系與對(duì)齊后的知識(shí)構(gòu)建網(wǎng)絡(luò)文物信息資源多粒度視角下的知識(shí)圖譜,對(duì)所構(gòu)建知識(shí)圖譜的效果進(jìn)行評(píng)價(jià),并開展多種應(yīng)用,構(gòu)建框架如圖2所示。
圖2 網(wǎng)絡(luò)文物信息資源知識(shí)圖譜構(gòu)建模型
實(shí)證研究選擇“中國(guó)十大傳世名畫”信息資源作為研究對(duì)象,這是由于十大傳世名畫分布時(shí)間從五代十國(guó)到宋元明清,能管窺獲取眾多朝代的時(shí)代背景與人文風(fēng)情。同時(shí),繪畫類文物信息資源在著錄數(shù)據(jù)外還擁有大量的畫面描述內(nèi)容,在信息資源開發(fā)利用上有著廣闊的視野和巨大的潛力。筆者在知網(wǎng)、知乎、百度百科等搜索,獲取與“中國(guó)十大傳世名畫”有關(guān)的文物信息資源,檢索時(shí)間截至2020年12月3日。共獲取文物信息資源文本468篇,按句號(hào)進(jìn)行分割后獲得句子41,855句。
以十大名畫中的《千里江山圖》為例進(jìn)行文物信息資源特征分析,以驗(yàn)證前文中的觀點(diǎn)。分析對(duì)象有3種:一是百度百科《千里江山圖》[17]詞條的全文;二是中央電視臺(tái)文博探索節(jié)目《國(guó)家寶藏》[18]視頻對(duì)《千里江山圖》的介紹,經(jīng)由視頻轉(zhuǎn)錄成文字進(jìn)行分析,按上文中的分類這兩種資源屬于百科類文物信息資源;三是知網(wǎng)數(shù)據(jù)庫(kù)中論文《細(xì)究王希孟及其〈千里江山圖〉》,屬于研究類文物信息資源(見(jiàn)圖3)。
圖3 《千里江山圖》網(wǎng)絡(luò)文物信息資源截圖
從知識(shí)角度看,以《千里江山圖》流傳過(guò)程為例,按照時(shí)間、收藏、位置3方面的先后順序以及共現(xiàn)情況進(jìn)行統(tǒng)計(jì),見(jiàn)圖4。紅色代表3類都提到的知識(shí),黃色代表《國(guó)家寶藏》節(jié)目和論文中共同提到的知識(shí),綠色代表只在《國(guó)家寶藏》節(jié)目中出現(xiàn)的知識(shí),藍(lán)色代表只在論文中出現(xiàn)的知識(shí)。從圖4中發(fā)現(xiàn),百度百科中的知識(shí)最簡(jiǎn)略,但也能在時(shí)間視角中形成完整的文物流傳鏈條;《國(guó)家寶藏》節(jié)目與論文中提到的知識(shí)基本相同,但論文中的有關(guān)描述更為細(xì)致與詳盡。
圖4 《千里江山圖》文本知識(shí)對(duì)比圖
從內(nèi)容角度看,參考內(nèi)容分析法[19]對(duì)它們進(jìn)行比較,百度百科文本內(nèi)容較簡(jiǎn)略,文物介紹省略了大量細(xì)節(jié),但內(nèi)容較全面,篇幅較精簡(jiǎn);《國(guó)家寶藏》是視頻類節(jié)目,更注重舞臺(tái)表現(xiàn)形式和吸引力,在文物整體信息表達(dá)上有的放矢;研究論文屬于文物重要研究的介紹,篇幅長(zhǎng),不強(qiáng)調(diào)敘事性,多使用科學(xué)數(shù)據(jù)對(duì)問(wèn)題進(jìn)行描述,實(shí)體名詞的出現(xiàn)種數(shù)也是最多的。
從詞頻角度看,對(duì)語(yǔ)料文本進(jìn)行分詞[20],白名單選用搜狗輸入法的中國(guó)古代史詞庫(kù)共26,508詞,分詞工具選擇Jieba[21]。分詞后的詞頻分析結(jié)果如圖5所示,(a)代表百度百科、(b)代表《國(guó)家寶藏》、(c)代表中國(guó)知網(wǎng)論文。百度百科與《國(guó)家寶藏》文本詞頻前20名中有7個(gè)詞一致,與研究論文一致,說(shuō)明文物信息資源在描述文物時(shí)具有一致的要點(diǎn),代表文物廣泛意義上的基礎(chǔ)知識(shí)。從詞語(yǔ)內(nèi)容角度分析,百度百科中具有實(shí)際意義的名詞有14個(gè),占70%;《國(guó)家寶藏》文本中具有實(shí)際意義的名詞11個(gè),占55%;研究論文中具有實(shí)際意義的名詞有17個(gè),占85%,這說(shuō)明科研論文在描述中使用的詞匯更具有實(shí)際意義,趨向于使用名詞對(duì)文物進(jìn)行描述與概括,從一個(gè)側(cè)面說(shuō)明研究論文中包含的知識(shí)內(nèi)容以及知識(shí)的承載效率較高。
圖5 《千里江山圖》詞頻可視化對(duì)比圖
從主題角度看,選擇應(yīng)用最廣泛的隱含狄利克雷分布模型(LDA)[22]進(jìn)行主題挖掘,需要通過(guò)困惑度[23]計(jì)算得到當(dāng)前文本應(yīng)選擇的主題數(shù)量,計(jì)算結(jié)果見(jiàn)圖6。
圖6 《千里江山圖》困惑度(1≤k≤20)變化情況
使用LDA主題模型對(duì)不同類型文物信息資源進(jìn)行主題識(shí)別,模型參數(shù)取α=50/K,β=0.01,迭代次數(shù)50次,主題數(shù)選擇為3,主題關(guān)鍵詞數(shù)目選擇為10[24],主題識(shí)別結(jié)果如表2所示。對(duì)比3類文本發(fā)現(xiàn),相同主題下的主題關(guān)鍵詞差異不大,《國(guó)家寶藏》是電視節(jié)目,需要突出舞臺(tái)表現(xiàn)力,口語(yǔ)化詞匯多,如“朕”“臣”;研究論文由于專業(yè)性質(zhì),會(huì)突出文物所在歷史年代的特征,如“豐亨豫大”“太學(xué)”。
表2 《千里江山圖》文物信息資源文本主題列表
綜合來(lái)看,文物知識(shí)的分布會(huì)隨著時(shí)間、空間變化以線性敘事形式進(jìn)行,不同類型文物信息資源的區(qū)別在于知識(shí)的細(xì)粒度與擴(kuò)展性。百科類文物信息資源中的淺層文物知識(shí)參照物,幫助識(shí)別文物的基礎(chǔ)知識(shí),也可以作為語(yǔ)料庫(kù),利用文檔與詞頻間的差異,更好挖掘研究類文物信息資源中的深層知識(shí),提高文物知識(shí)抽取效率。
外部知識(shí)庫(kù)發(fā)展為網(wǎng)絡(luò)文物信息資源知識(shí)標(biāo)注提供了新途徑,使用大規(guī)模知識(shí)庫(kù)為知識(shí)來(lái)源,以關(guān)鍵詞為檢索入口,能在獲取文物著錄數(shù)據(jù)的同時(shí),獲得文物描述內(nèi)容中的歷史知識(shí),拓寬受眾知識(shí)面,增加文物知識(shí)理解能力。首先,對(duì)信息資源聚類,利用Doc2vec獲取信息資源內(nèi)容,再使用K-means進(jìn)行聚類,通過(guò)觀察聚類結(jié)果確定聚類個(gè)數(shù)為7。隨后,對(duì)7個(gè)聚類通過(guò)TF-IDF提取結(jié)構(gòu)特征,使用K-means進(jìn)行二分類,將聚類系數(shù)較大的類團(tuán)視為百科類,利用LDA獲取關(guān)鍵詞。同理,系數(shù)小的類團(tuán)使用TF-IDF獲取關(guān)鍵詞,使用關(guān)鍵詞閾值K=50在知識(shí)庫(kù)Wikidata[25]、CNDBpedia[26]進(jìn)行遍歷檢索,獲得與關(guān)鍵詞Keywordm有關(guān)的實(shí)體集合E={Entity1,Entity2,…,Entityn},共獲取代表實(shí)體的關(guān)鍵詞12,471個(gè)。獲取關(guān)鍵詞集合后,通過(guò)SPARQL檢索在知識(shí)庫(kù)中進(jìn)行實(shí)體集合E={Entity1,Entity2,…,Entityn}的遍歷檢索,遍歷次數(shù)為,得到“實(shí)體-關(guān)系-實(shí)體”的實(shí)體關(guān)系三元組44,606條,構(gòu)成文物實(shí)體關(guān)系三元組集合。
獲取實(shí)體關(guān)系三元組集合之后,使用圖模型將三元組中的實(shí)體及屬性映射為節(jié)點(diǎn)和邊,映射過(guò) 程表示為(S,P,O)→Gi=(Vn,Em)。其中,V={S,O}、E={(S→O)},邊E的標(biāo)簽表示為P。根據(jù)遠(yuǎn)程監(jiān)督方法,以句為單位進(jìn)行實(shí)體關(guān)系抽取,在一句中若出現(xiàn)有與S和O相同的關(guān)鍵詞則抽取成功,最終得到標(biāo)記有實(shí)體關(guān)系的句子31,024條。
通過(guò)檢索關(guān)鍵詞獲取實(shí)體關(guān)系后,參考多種文化遺產(chǎn)信息資源本體,使用七步法構(gòu)建文物信息資源本體,見(jiàn)圖7。隨后利用知網(wǎng)與同義詞詞林進(jìn)行實(shí)體關(guān)系表征詞匯的融合相似度計(jì)算[27],從語(yǔ)義上歸納和合并外部知識(shí)庫(kù)中數(shù)量繁多的實(shí)體關(guān)系,再以文物信息資源本體中的二級(jí)概念作為特征詞,將相關(guān)實(shí)體關(guān)系與本體概念進(jìn)行對(duì)應(yīng),完成外部知識(shí)庫(kù)中實(shí)體關(guān)系的歸類合并,解決知識(shí)庫(kù)遠(yuǎn)程監(jiān)督方法在實(shí)體關(guān)系標(biāo)注的長(zhǎng)尾效應(yīng)。最后,將實(shí)體關(guān)系與時(shí)間、位置、管理、名稱、類型、內(nèi)容6個(gè)網(wǎng)絡(luò)文物信息資源本體中的一級(jí)概念進(jìn)行對(duì)齊,獲得對(duì)齊后的知識(shí)三元組18,349條,構(gòu)成文物知識(shí)三元組集合。
利用獲取到的實(shí)體關(guān)系構(gòu)建“中國(guó)十大傳世名畫”信息資源知識(shí)圖譜的細(xì)粒度表示,使用知識(shí)對(duì)齊后的三元組構(gòu)建知識(shí)圖譜的粗粒度表示,經(jīng)去重與合并后得到實(shí)體關(guān)系三元組2,516條,知識(shí)對(duì)齊后得到知識(shí)三元組2,235條。所構(gòu)建知識(shí)圖譜如圖8所示,(a)代表知識(shí)圖譜的粗粒度表示,(b)代表知識(shí)圖譜的細(xì)粒度表示。從圖8中可以發(fā)現(xiàn),粗粒度表示的知識(shí)圖譜網(wǎng)絡(luò)密度更高,中心節(jié)點(diǎn)聚集緊密,更有利于進(jìn)行知識(shí)全貌的分析,而細(xì)粒度表示的知識(shí)圖譜中心較為分散,適合針對(duì)信息資源中某一文物進(jìn)行獨(dú)立分析。
圖8 “中國(guó)十大傳世名畫”網(wǎng)絡(luò)文物信息資源知識(shí)圖譜
構(gòu)建“中國(guó)十大傳世名畫”信息資源知識(shí)圖譜后,在開放領(lǐng)域進(jìn)行知識(shí)圖譜構(gòu)建及應(yīng)用研究。以故宮博物院網(wǎng)站《千里江山圖》介紹頁(yè)面為例,如圖9所示,在獲取網(wǎng)頁(yè)文本后,通過(guò)關(guān)鍵詞匹配“中國(guó)十大傳世名畫”信息資源知識(shí)圖譜后自動(dòng)進(jìn)行實(shí)體關(guān)系抽取、文物知識(shí)抽取以及命名實(shí)體識(shí)別,共獲取到實(shí)體及屬性10個(gè)、關(guān)聯(lián)知識(shí)11條,所識(shí)別實(shí)體在外部知識(shí)庫(kù)中進(jìn)行映射,通過(guò)與外部知識(shí)庫(kù)的實(shí)體鏈接為接下來(lái)的文物知識(shí)開發(fā)與利用,以及較全面解讀網(wǎng)頁(yè)中的文物實(shí)體與文物知識(shí)結(jié)構(gòu)提供了數(shù)據(jù)基礎(chǔ)。
圖9 “中國(guó)十大傳世名畫”知識(shí)圖譜應(yīng)用示例
為對(duì)數(shù)字人文視角下構(gòu)建的“中國(guó)十大傳世名畫”信息資源知識(shí)圖譜進(jìn)行評(píng)價(jià),從多個(gè)關(guān)鍵詞閾值角度以知識(shí)三元組數(shù)量和知識(shí)網(wǎng)絡(luò)密度與單一方法構(gòu)建的知識(shí)圖譜進(jìn)行比較。從表3發(fā)現(xiàn),在不同關(guān)鍵詞閾值下,文章所構(gòu)知識(shí)圖譜的知識(shí)三元組數(shù)量穩(wěn)定增加,說(shuō)明本文構(gòu)建方法能夠及時(shí)擴(kuò)充知識(shí)圖譜規(guī)模,具有擴(kuò)展性。網(wǎng)絡(luò)視角下的另外3種分析指標(biāo)隨著閾值增加而穩(wěn)定增加,知識(shí)圖譜中的知識(shí)網(wǎng)絡(luò)穩(wěn)定擴(kuò)展、密度增大,說(shuō)明采用文章方法構(gòu)建的知識(shí)圖譜在保證數(shù)量的同時(shí)知識(shí)關(guān)聯(lián)度較緊密。與其他方法相比,文章方法是唯一隨著知識(shí)圖譜規(guī)模擴(kuò)大,在3種網(wǎng)絡(luò)計(jì)量指標(biāo)中均保持穩(wěn)定增長(zhǎng)的方法,說(shuō)明所構(gòu)建知識(shí)圖譜在數(shù)量和質(zhì)量上的表現(xiàn)均較好。單一關(guān)鍵詞抽取方法中基于主題的關(guān)鍵詞抽取方法如LDA、LSI等獲得的知識(shí)三元組數(shù)量較少,但構(gòu)建的知識(shí)圖譜從網(wǎng)絡(luò)角度看較密集。而基于統(tǒng)計(jì)的關(guān)鍵詞抽取方法TF-IDF獲得知識(shí)三元組數(shù)量較多但網(wǎng)絡(luò)比較松散,說(shuō)明與主要內(nèi)容有關(guān)的知識(shí)較少。同時(shí),語(yǔ)料庫(kù)的不同對(duì)方法有顯著影響,混合不同類型信息資源語(yǔ)料后構(gòu)建的知識(shí)圖譜,知識(shí)三元組數(shù)量下降但網(wǎng)絡(luò)密度升高。文章方法融合兩類關(guān)鍵詞抽取方法在不同類型文物信息資源知識(shí)抽取中的優(yōu)勢(shì),既保證抽取知識(shí)的數(shù)量,又使所抽取知識(shí)與信息資源主題緊密相關(guān),是能揭示信息資源中文物知識(shí)全貌的知識(shí)圖譜構(gòu)建方法。
表3 不同方法構(gòu)建知識(shí)圖譜對(duì)比表
數(shù)字人文為人文社科類信息資源分析提供了新視角。通過(guò)解讀信息資源的內(nèi)容與結(jié)構(gòu)特征,選擇有針對(duì)性的數(shù)字化方法進(jìn)行知識(shí)層面的計(jì)算與挖掘,更新與改進(jìn)數(shù)字方法在人文社科類信息資源中的應(yīng)用,是數(shù)字人文賦予人文社科研究的新視角。筆者以網(wǎng)絡(luò)文物信息資源中文物知識(shí)分布特征為切入點(diǎn),通過(guò)近讀分析其中可能存在的普遍特點(diǎn),而后借助統(tǒng)計(jì)方法進(jìn)行驗(yàn)證,并在融合維度下確定符合信息資源特征的知識(shí)抽取方法,利用關(guān)鍵詞與外部知識(shí)庫(kù)構(gòu)建知識(shí)圖譜。在面向開放領(lǐng)域的知識(shí)圖譜構(gòu)建實(shí)驗(yàn)中,文章方法能夠融合單一方法的優(yōu)勢(shì),在提升知識(shí)抽取數(shù)量的同時(shí)保持與信息資源主要內(nèi)容的相關(guān)性,并在應(yīng)用示例中取得了較好的效果。在下一步研究中,將進(jìn)一步擴(kuò)充數(shù)據(jù)規(guī)模并完善相關(guān)本體,擴(kuò)展知識(shí)圖譜自動(dòng)構(gòu)建方法的應(yīng)用范圍,探索數(shù)字人文在網(wǎng)絡(luò)文物信息資源知識(shí)有關(guān)研究中的深入應(yīng)用。