趙京勝,張 麗,朱巧明,周國棟
(1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 青島理工大學(xué) 通信與電子工程學(xué)院,山東 青島 266033)
中文文學(xué)作品中的社會網(wǎng)路抽取與分析
趙京勝1,2,張 麗2,朱巧明1,周國棟1
(1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 青島理工大學(xué) 通信與電子工程學(xué)院,山東 青島 266033)
應(yīng)用自然語言處理技術(shù)和復(fù)雜網(wǎng)絡(luò)技術(shù),可以對中文文學(xué)作品中內(nèi)含的社會網(wǎng)絡(luò)進(jìn)行抽取和分析。該文以《三國演義》為例,抽取了其中的社會網(wǎng)絡(luò),節(jié)點是作品中的人物,邊是人物之間的聯(lián)系,邊的權(quán)重為各章回中的人物共現(xiàn)次數(shù)。借助背景知識和互聯(lián)網(wǎng)構(gòu)建了角色庫輔助網(wǎng)絡(luò)建模。對構(gòu)建出來的社會網(wǎng)絡(luò)進(jìn)行分析,包括節(jié)點度分布、中心性、聚類特征等。結(jié)果表明,中文文學(xué)作品中的角色分布具有明顯的小世界性、有限冪律分布特征和社區(qū)特性,同時也有多面性和多元性。
文學(xué)作品;社會網(wǎng)絡(luò);自然語言處理
自然語言是人類傳播思想,交流信息的重要工具。在人類歷史的長河中,通過語言文字的描述,大量政治、經(jīng)濟(jì)和文化的信息保留和傳播下來,從新聞到寫實文學(xué)作品再到社交媒體等,文本承載了大量的社會信息。隨著計算機技術(shù)的發(fā)展和應(yīng)用,這些大量文字記載的信息被電子化,為人類研究和應(yīng)用它們提供了極大的方便[1-2]。文學(xué)作品作為這些信息的代表,符合基本的文學(xué)理論,理解作者的意思可以使我們更好地推測作品中的人物、事件和主題。如何從中抽取有意義的資料,再現(xiàn)文學(xué)作品中的復(fù)雜社會信息,進(jìn)而實施意見挖掘、篇章理解和自動再現(xiàn)作品場景等,引發(fā)了許多研究人員的興趣。近年來,利用自然語言處理和復(fù)雜網(wǎng)絡(luò)技術(shù),分析文學(xué)作品中的內(nèi)嵌信息成為一個研究熱點[3-4]。本文針對中文文學(xué)作品《三國演義》進(jìn)行分析,利用自然語言處理技術(shù)抽取了作品中的人物角色庫,并借助背景知識和Web查詢等進(jìn)行了校正。按章回分析角色的共現(xiàn)關(guān)系,進(jìn)而構(gòu)造內(nèi)嵌在作品中的社會網(wǎng)絡(luò),用作品中的角色作為網(wǎng)絡(luò)節(jié)點,用角色在章回中的共現(xiàn)關(guān)系作為邊,角色共現(xiàn)頻率作為權(quán)重。針對節(jié)點度分布、中心性、聚類特征等指標(biāo),對構(gòu)建的網(wǎng)絡(luò)進(jìn)行了社會網(wǎng)絡(luò)分析。
計算機輔助文學(xué)作品分析已經(jīng)有多年的歷史,早期應(yīng)用主要集中在淺層的輔助閱讀領(lǐng)域,包括針對文學(xué)作品欣賞和教學(xué)的多媒體課件制作與應(yīng)用,文學(xué)作品背景知識的檢索,文學(xué)作品翻譯等。隨著語料庫技術(shù)、數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)的發(fā)展,解決了海量數(shù)據(jù)的結(jié)構(gòu)化存儲和機器自動處理的問題,運用信息處理工具對文學(xué)作品進(jìn)行深入分析和智能處理的條件已經(jīng)初步具備。
當(dāng)前利用自然語言處理技術(shù)進(jìn)行文學(xué)作品的分析主要涵蓋了三個層面: 一是語言研究,包括字、詞、短語和句子層面的分析,例如對文學(xué)作品中的詞語使用情況進(jìn)行分析[5],包括字?jǐn)?shù)統(tǒng)計、相異字統(tǒng)計、詞頻統(tǒng)計與分析等;應(yīng)用命名實體識別、詞性標(biāo)注等技術(shù),建立詞匯應(yīng)用模式或?qū)懽黠L(fēng)格的統(tǒng)計模型,如有的系統(tǒng)可以識別垃圾郵件和文本中的不良信息[6],有的系統(tǒng)可以根據(jù)作者的用詞模式分析其寫作風(fēng)格,從而對未知作者的作品進(jìn)行分類[7]等。二是篇章級的分析,其立足點是文學(xué)作品中的篇章而非語言要素,宏觀上實現(xiàn)包括篇章結(jié)構(gòu)、篇章與外界因素、篇章功能等的全局研究;微觀上包括語言成分、篇章構(gòu)成成分、篇章要素的分析,包括文本中的通用社會事件抽取與分析[8],文學(xué)理論的計算模型驗證[9]等。三是綜合性分析,融合了詞匯、語法、語義和語用的文學(xué)作品分析[10-11],這是最困難的一種分析技術(shù),需要考慮的問題也較多,是未來研究和應(yīng)用的主要方向[12-13]。
社會網(wǎng)絡(luò)由行動者(節(jié)點)和行動者之間的連接關(guān)系組成,其中行動者可以是社會個體,也可以是個體集合。廣義上講,社會網(wǎng)絡(luò)可以是血緣關(guān)系網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等生物信息網(wǎng)絡(luò);也可以是Internet的拓?fù)浣Y(jié)構(gòu)、Web結(jié)構(gòu)、通訊網(wǎng)絡(luò)等信息網(wǎng)絡(luò);或是科學(xué)技術(shù)網(wǎng)絡(luò)、電力網(wǎng)、智能交通網(wǎng)等;當(dāng)前最常見、最直觀的社會網(wǎng)絡(luò)是社交網(wǎng)絡(luò),包括學(xué)術(shù)合作、人物關(guān)系、在線交友等。社會網(wǎng)絡(luò)分析是利用圖和矩陣對社會關(guān)系與結(jié)構(gòu)進(jìn)行分析的方法,最早起源于20世紀(jì)30年代的心理學(xué)和人類學(xué)研究,主要包括三大流派: 一是社會學(xué)派,典型研究是“六度空間理論”和“弱鏈接理論”;二是復(fù)雜網(wǎng)絡(luò)派,典型研究是“小世界模型”和“無標(biāo)度網(wǎng)絡(luò)”;三是計算機派,20世紀(jì)90年代以來,隨著計算機技術(shù)的發(fā)展和網(wǎng)絡(luò)理論研究的深入,借助數(shù)據(jù)挖掘和機器學(xué)習(xí)方法,社會網(wǎng)絡(luò)分析逐漸成為一個跨學(xué)科的研究方法[14]。
盡管一些文學(xué)理論家、語言學(xué)家開發(fā)了一些非計算模型來表示文學(xué)作品結(jié)構(gòu),如文本映射到圖、社會關(guān)系和變量等[15-16];應(yīng)用結(jié)構(gòu)化數(shù)據(jù),如E-MAIL頭、學(xué)術(shù)論文作者、網(wǎng)絡(luò)論壇中POST頭等,探索構(gòu)建社會網(wǎng)絡(luò)等[17],但借助計算機技術(shù)自動構(gòu)建文學(xué)作品中的角色社會網(wǎng)絡(luò)的工作較少。應(yīng)用自然語言處理技術(shù)與社會網(wǎng)絡(luò)分析方法,從文學(xué)作品中抽取社會網(wǎng)絡(luò)并進(jìn)行分析,可以使文學(xué)研究者、社會學(xué)家和普通讀者對小說人物關(guān)系和背景有更全面的認(rèn)識。Elson等[18]對60部19世紀(jì)的英國小說進(jìn)行了社會網(wǎng)絡(luò)分析,通過識別由引號標(biāo)記的人物對話,然后指派給特定角色,構(gòu)建了小說中人物以相互之間的對話為聯(lián)系量化指標(biāo)的社會網(wǎng)絡(luò),研究了人物社會網(wǎng)絡(luò)的特點、中心性以及與小說背景和文化的關(guān)系。Agarwal等[19]定義了文學(xué)作品中的“社會事件”,包括參與雙方都能感知對方的Interaction事件和只有一方能感知對方的Observation事件,分析文本進(jìn)而識別并抽取這些事件,作為角色之間的鏈接來構(gòu)建社會網(wǎng)絡(luò),并進(jìn)行了相應(yīng)的分析。
本文針對中文文學(xué)作品進(jìn)行分析,探索自然語言處理技術(shù)和社會網(wǎng)絡(luò)技術(shù)在文學(xué)作品中的應(yīng)用。以中國文學(xué)作品名著《三國演義》為例,抽取人物角色,構(gòu)建角色共現(xiàn)網(wǎng)絡(luò)并進(jìn)行社會網(wǎng)絡(luò)分析。
社會網(wǎng)絡(luò)是由節(jié)點和邊構(gòu)成的圖結(jié)構(gòu),表示為G=(V,E),其中V為圖中的節(jié)點集合,E為節(jié)點之間相互聯(lián)系的邊集合,有值網(wǎng)絡(luò)中用W表示各聯(lián)系邊的權(quán)重集合[20]。為了探索文學(xué)作品中的社會網(wǎng)絡(luò)并進(jìn)行分析,本文研究的思路是從一部文學(xué)作品中抽取一個或多個網(wǎng)絡(luò),首先生成網(wǎng)絡(luò)節(jié)點,并進(jìn)行指代消解和降噪處理,接下來生成網(wǎng)絡(luò)的邊和相應(yīng)的權(quán)重。
中文文本處理可按段落、字詞或主題等進(jìn)行分區(qū)域處理,每區(qū)域附加一定的限制,每一區(qū)域可作為一個獨立部分,《三國演義》等文學(xué)作品大多是章回體小說,因此,將各角色在章回中的共現(xiàn)作為角色之間的聯(lián)系,共現(xiàn)次數(shù)作為其聯(lián)系權(quán)重,這種規(guī)劃是基于文學(xué)作品的特點而定的。章回體小說,是中國古典長篇小說的主要形式,由宋元時期的“講史話本”發(fā)展而來。講史一般都很長,藝人在表演時必須分為若干次才能講完,每講一次,就等于后來章回體小說中的一回。每個章回往往是具有密切聯(lián)系的人物、事件、場景等作品要素的匯聚布局,是作者規(guī)劃和撰寫整個作品的一個獨立片段,往往自成一個較為完整的故事段落,具有相對的獨立性。章回體小說是一種中國特有的小說類型,國外尚未聽說有章回體小說這樣的類型。
3.1 識別文學(xué)作品中的角色
經(jīng)典章回體小說使用的語言主要是現(xiàn)代白話文,其中也夾雜著一些文言文,如“看官”、“話說”、“某某曰”等。作品中的角色涉及姓名、字、號、職位、生卒年、事跡等,在行文中的人物角色引用上,有名字使用,但更多的是別名使用,另外還有官職名、省略稱呼、其他角色的稱呼語等,如例1中,諸葛亮/nr、諸葛瑾/nr之弟、臥龍先生/nr、孔明/nr等代表同一個人,例2中丞相/nr、操/nr、曹操/nr等也代表同一個人。
例1 肅/nr曰: “肅/nr至江夏,引諸葛瑾/nr之弟諸葛亮/nr在此,主公/nr可問之,便知虛實?!睓?quán)/nr曰: “臥龍先生/nr在此乎?”肅/nr曰: “現(xiàn)在館驛中安歇?!睓?quán)/nr曰: “今日天晚,且未相見。來日聚文武于帳下,先教見我江東英俊,然后升堂議事?!泵C/nr領(lǐng)命而去。次日至館驛中見孔明/nr,又囑曰: “今見我主,切不可言曹操/nr兵多。”(第043回 諸葛亮舌戰(zhàn)群儒 魯子敬力排眾議)
例2 忽座間一人進(jìn)曰: “大軍相當(dāng)之際,將士用命之時,丞相/nr何故出此不吉之言?”操/nr視之,乃揚州刺史,沛國相人,姓劉,名馥,字元穎/nr。馥/nr起自合淝,創(chuàng)立州治,聚逃散之民,立學(xué)校,廣屯田,興治教,久事曹操/nr,多立功績。(第048回 宴長江曹操賦詩 鎖戰(zhàn)船北軍用武)
利用統(tǒng)計方法并結(jié)合背景知識和Web查詢計算人物角色表達(dá)(mention)并形成角色列表[21-23],首先借助中文文本處理工具[24]對《三國演義》的每章回進(jìn)行分詞和詞性標(biāo)注,識別其中的名詞性成分(標(biāo)注為n),特別是人名(標(biāo)注為nr),確定了作品中的人物角色。經(jīng)統(tǒng)計,《三國演義》一共描寫了1 191人,包括60多名女性,其中武將436人,文官451人,漢、三國、晉的皇族后裔、后、妃、宦官等128人,黃巾起義者、鮮卑、羌等邊遠(yuǎn)民族67人,宦官和三教九流、各色人物109人。
最簡單的角色表達(dá)統(tǒng)計是對小說中出現(xiàn)的角色全名進(jìn)行計數(shù),采用字符串匹配操作,方法直觀但準(zhǔn)確度較低,這種方法也可用于角色表達(dá)中的別名、字、號等。小說角色表達(dá)中的職位、省略稱呼、其他角色的稱呼語等,除應(yīng)用字符串匹配外,需對角色進(jìn)行指代消解處理。通過深入研究小說中的語言特點發(fā)現(xiàn),文白夾雜的敘事作品利用人稱代詞進(jìn)行照應(yīng)的情況非常少見。由此,本文采用基于規(guī)則的層次過濾模型進(jìn)行角色表達(dá)的指代消解[25]: 層次一是名詞過濾層,將分詞和詞性標(biāo)注的文本中的名詞(標(biāo)注為/n和/nr)篩選出來;層次二是角色過濾層,首先借助背景知識和Web檢索將角色表達(dá)的各種形式和角色主要信息組織成角色庫,對上層過濾的名詞與角色庫信息進(jìn)行比對并對其實施二次標(biāo)注;層次三是語法語義過濾,對于有歧義的標(biāo)注,比如官職中的“丞相”,判斷其臨近角色的歸屬來決定其所指。
由于小說中許多角色出現(xiàn)頻率較低,僅在章回小說中的個別章回出現(xiàn),在《三國演義》中,這些角色大多數(shù)是牙將、裨將之類,他們的出現(xiàn)大多數(shù)是為鋪墊主要人物,如關(guān)羽“溫酒斬華雄”時,出陣之前,潘風(fēng)、俞涉、鮑忠、胡軫等將連連被華雄斬死,造成了華雄不可一世的氣勢,而關(guān)羽在溫酒之間卻斬了華雄,關(guān)羽的神威便在華雄之上。有些人物,往往只是在介紹主要人物時提到而已,如寫孔明出山時,就說到他的“四密友”——徐元直、崔州平、石廣元、孟公威,除徐元直得到較詳細(xì)的描寫外,其余三人只是提一下,以后就沒有下文了。這種角色在社會網(wǎng)絡(luò)分析中可能構(gòu)成孤立點,本文的分析對其不做處理。所以將其中出現(xiàn)頻率較高的,文學(xué)評論家較為認(rèn)可的人物作為構(gòu)建社會網(wǎng)絡(luò)的角色節(jié)點,最終選擇了包括劉備、諸葛亮、曹操等126個角色作為研究的對象。
3.2 確定角色聯(lián)系和權(quán)重
建立統(tǒng)計模型對章回角色引用進(jìn)行統(tǒng)計,角色信息采用姓名、字、號、職位等,構(gòu)建角色——章回矩陣character_Chapter_Count[][],其中行表示不同的角色,列表示章回序列,矩陣中的元素表示角色在章回中的出現(xiàn)次數(shù),設(shè)閾值β對出現(xiàn)頻率較低的角色進(jìn)行過濾,以降低矩陣稀疏性。
分析文學(xué)作品理論可知,小說的展開具有明顯的主題獨立性和場景連貫性,在故事展開過程中涉及的角色具有明顯的聚集性,重要角色在場景轉(zhuǎn)換中具有銜接連貫性。小說中角色之間的聯(lián)系采用其共現(xiàn)關(guān)系。根據(jù)中文章回體文學(xué)作品的特點,這種共現(xiàn)關(guān)系分為章回共現(xiàn)和全文共現(xiàn),兩者只是對文本統(tǒng)計區(qū)域的不同。為計算聯(lián)系權(quán)重,需要計算各對角色的共現(xiàn)關(guān)系,首先計算角色在章回中的共現(xiàn)矩陣character_Chapter_ Cooccu[][],建立相應(yīng)的統(tǒng)計模型,然后再合成為全文中的角色共現(xiàn)矩陣character_Cooccu[][]。兩者都是二維矩陣,行和列都是角色,矩陣中的元素表示兩個角色在章回或整個小說中的共現(xiàn)次數(shù)。
角色——章回矩陣和兩個共現(xiàn)矩陣盡管都是二維關(guān)系矩陣,但兩者是不同的,前者是一個雙模矩陣,行和列表示不同的元素集合,統(tǒng)計小說各章回中每個角色的出現(xiàn)次數(shù);后者是一個單模矩陣,行和列來自于一個集合,即文學(xué)作品中的角色集合,統(tǒng)計小說中角色對的共現(xiàn)次數(shù)。算法過程如圖1所示。
圖1 角色共現(xiàn)矩陣統(tǒng)計算法
自從Watts和Strogatz以及Barabási和Albert的工作發(fā)表以來,復(fù)雜網(wǎng)絡(luò)引起了研究者的廣泛興趣,其應(yīng)用范圍不斷擴大,對語言復(fù)雜網(wǎng)絡(luò)的研究也受到了極大關(guān)注。對小說《三國演義》中抽取的社會網(wǎng)絡(luò),進(jìn)行社會網(wǎng)絡(luò)分析,包括角色頻數(shù)分布、角色的中心性、凝聚子群等[26]。
4.1 角色頻數(shù)分布
文學(xué)作品一般有角色、事件、場景等組成,其中角色是作者構(gòu)思作品、讀者理解作品的核心元素,角色在文學(xué)作品中的表達(dá)頻率可以作為角色重要性的度量指標(biāo)之一。分析《三國演義》中的角色頻數(shù)分布,角色庫中的角色頻數(shù)分布如圖2所示,其中橫軸表示角色編號,縱軸表示角色出現(xiàn)次數(shù)。
圖2 角色出現(xiàn)頻次統(tǒng)計圖
從圖2中可以看出,小說《三國演義》中的人物角色頻數(shù)分布具有明顯的冪律分布特性。本文統(tǒng)計篩選了126個人物角色,其冪律特性顯著,分析小說中的所有角色的表達(dá)可以發(fā)現(xiàn),其“長尾”中的“尾巴”會非常突出,也就是頻數(shù)非常低的人物角色拉的很長,由此可以理解,文學(xué)作品中的角色分布具有有限冪律分布特征。
需要說明的是,此處統(tǒng)計的小說角色頻數(shù)分布,是指角色在小說中的出現(xiàn)頻次,也就是小說中對某角色的表達(dá)數(shù)量,對角色的全稱、字、號、主要官職等表達(dá)都統(tǒng)計在內(nèi),其簡稱和非主要職位等未做統(tǒng)計。
4.2 中心性分析
社會網(wǎng)絡(luò)的中心性分析是識別網(wǎng)絡(luò)中“重要的”行動者,衡量一個行動者處于“中心”的程度。文學(xué)作品分析中需識別主角及其與其他角色之間的關(guān)系,以經(jīng)典的社會網(wǎng)絡(luò)中心性測度指標(biāo)為基礎(chǔ),構(gòu)造綜合中心性指標(biāo),探測文學(xué)作品中的重要角色。
4.2.1 度中心性
節(jié)點的點度中心度表示與該節(jié)點直接連接的其他節(jié)點的數(shù)量,點度中心度大的節(jié)點中心性大。點度中心度的計算如式(1)所示。
(1)
其中CD(vi)表示節(jié)點vi的點度中心度,k表示與vi相連的節(jié)點個數(shù),eij表示邊。
文學(xué)作品中角色共現(xiàn)頻率越高,度中心性就越高,說明這些角色是作品中的主角并處于核心地位,是作者展開故事的主要成員,也是讀者閱讀作品需重點關(guān)注的部分。表1中像諸葛亮、劉備、關(guān)羽等角色的點度中心度最高,說明他們的主角地位,而像文欽、孫仁、費祎等角色,其點度中心度偏低,說明他們是角色庫中次重要或較邊緣的角色。
表1 《三國演義》中的角色中心度
4.2.2 中介中心性
中介中心度測量行動者對資源信息的控制程度,在社會網(wǎng)絡(luò)中,如果一個行動者處在許多聯(lián)系的路徑上,可以認(rèn)為此行動者處于重要地位,因為該行動者具有控制其他行動者交往的能力。中介度中心度的計算如式(2)所示。
(2)
其中CB(vi)表示節(jié)點vi的中介中心度,?st(vi)表示節(jié)點s到節(jié)點t的最短路徑中經(jīng)過節(jié)點vi的數(shù)量,?st表示節(jié)點s到節(jié)點t之間的最短路徑數(shù)量。
文學(xué)作品中的角色,其中介中心性反映的是該角色在章回中的出現(xiàn)對其他角色出現(xiàn)在同一章回的影響力的大小,表1中像曹操、周瑜、諸葛亮等中介中心性最高,表明這些角色的控制能力最強,對角色共現(xiàn)的影響最大。
4.2.3 接近中心性
接近中心性關(guān)注捷徑,而不是直接關(guān)系,描述行動者“不受他人控制”的能力,如果一個節(jié)點通過比較短的路徑與許多其他節(jié)點相連,就說該節(jié)點具有較低的接近中心度。顯然,接近中心度越小的節(jié)點在網(wǎng)絡(luò)中越處于核心地位。接近中心度的計算如式(3)所示。
(3)
其中CC(vi)表示節(jié)點vi的接近中心度,dij表示節(jié)點i到節(jié)點j的最短路徑,N表示節(jié)點總數(shù)。
文學(xué)作品中的角色,其接近中心性越小,說明該角色越容易與其他角色同時出現(xiàn)在同一章回中,表1中像曹操、周瑜、孫權(quán)、諸葛亮等接近中心度最小,說明這些角色與其他角色共現(xiàn)的幾率最大。
角色庫中所有角色在共現(xiàn)視野下的中心性分布如圖3所示,其中橫軸表示角色編號,縱軸表示角色中心度??梢钥闯觯≌f中角色的點度中心度和中介中心度具有基本的正相關(guān)性,兩者共同影響著接近中心度。
圖3 角色中心性分布
統(tǒng)計發(fā)現(xiàn),在所篩選的角色集合中,有的角色三個中心度都反映出其核心地位,如諸葛亮、劉備、關(guān)羽、周瑜、曹操等,這些角色的點度中心度、中介中心度較高,而其接近中心度較低;其他大多數(shù)角色的三個指標(biāo)在各自中心度指標(biāo)的排序位置基本對應(yīng)。然而,角色庫中龐統(tǒng)、劉璋、黃忠、劉封、甘寧、太史慈、魯肅、龐德和杜預(yù)等九個角色的中介中心度和接近中性度相對于點度中心度排序有所下降,有的下降特別明顯,比如龐統(tǒng)的點度中心度、中介中心度和接近中度分別排序為(8,80,86),太史慈的三個指標(biāo)為(20,92,83)。與之相對照,袁紹、曹洪、董卓、劉協(xié)、廖化、賈詡、丁奉、顧雍和劉禪等九個角色的中介中心度和接近中性度相對于點度中心度排序有所提高,有的上升特別明顯,比如袁紹的三個指標(biāo)為(38,7,9)、劉禪的三個指標(biāo)為(108,65,84)。分析這兩種情況,前一組角色除劉璋外,其余都是三個國家的普通將領(lǐng),后一組角色中劉協(xié)、袁紹、董卓和劉禪是三國的皇帝或諸侯首領(lǐng)。由此可見,通過這種共現(xiàn)角色的分析,可以一定程度上探索角色在小說中的地位、影響力、環(huán)境和故事脈絡(luò)展開,對文學(xué)作品的純文學(xué)分析起到輔助作用。
三種中心性度量中,CD(vi)反映了角色在網(wǎng)絡(luò)中的局部屬性,CB(vi)和CC(vi)反映了網(wǎng)絡(luò)的全局屬性。從文學(xué)作品理論可知,故事展開涉及的角色即具有局部的主題相關(guān)性,也有前后場景轉(zhuǎn)換的連貫性,將這些指標(biāo)結(jié)合起來是較好的選擇。定義合成中心度CS(vi)(下標(biāo)s表示summary),近一步地量化三種中心性指標(biāo)的作用,直觀地反映小說中角色的中心性。計算方法如式(4)所示。
(4)
4.3 凝聚子群分析
社會網(wǎng)絡(luò)分析中的凝聚子群是網(wǎng)絡(luò)中相互之間有著穩(wěn)定、直接、強烈或頻繁聯(lián)系的行動者子集。分析網(wǎng)絡(luò)中存在多少個這樣的子群,子群內(nèi)部成員之間關(guān)系的特點,子群之間關(guān)系的特點等就是凝聚子群分析,也稱為小團(tuán)體分析。常見的凝聚子群定義與分析包括派系(Cliques) 、n-派系(n-Cliques)、n-宗派(n-Clan) 、k-叢(k-Plex)、K-核(k-Core)等。
派系是建立在關(guān)系互惠性基礎(chǔ)上的凝聚子群,表示具有三個或三個以上節(jié)點的最大完全子圖。對角色共現(xiàn)矩陣character_Cooccu[][]進(jìn)行二值化處理,第一種處理方式按式(5)執(zhí)行,也就是只要兩個角色之間存在共現(xiàn)關(guān)系,則其值為1,否則為0;第二種處理方式按式(6)執(zhí)行,兩個角色之間共現(xiàn)次數(shù)超過β時其值為1,否則為0,其中β為閾值(本文設(shè)為10)。
(5)
(6)
分析其中的派系,在第一種處理方式中,當(dāng)子群最少成員為三人時有16 991個派系,增大子群最少成員數(shù),當(dāng)達(dá)到44人時,派系數(shù)量為九個,再增加子群最少成員數(shù)就形不成派系了。在第二種處理方式中,子群最少成員為三人時有125個派系,為四人時有26個派系,為5人時兩個派系,再增加子群最少成員數(shù)就形不成派系了。
分析派系間的重疊成員,可以推斷出小說中的主要成員、領(lǐng)導(dǎo)者、邊緣較色等。圖4是以處理方式一中的九個派系所做的成員重疊分析,容易看出子群中劉備、曹操、諸葛亮等核心成員為“領(lǐng)導(dǎo)者”,劉協(xié)、張角等為“邊緣較色”。
分析派系結(jié)構(gòu)發(fā)現(xiàn),像諸葛亮、劉備、曹操、孫權(quán)等主角在各個派系中的出現(xiàn)密集,以諸葛亮、劉備為例,方式一生成的九個派系中,劉備和諸葛亮都共現(xiàn);方式二生成的125個派系中諸葛亮出現(xiàn)了49次,劉備出現(xiàn)了28次,諸葛亮、劉備同時出現(xiàn)的派系有12個;26個派系中諸葛亮出現(xiàn)了18次,劉備出現(xiàn)了八次,諸葛亮、劉備同時出現(xiàn)的派系有六個。這種現(xiàn)象可以看出,一方面文學(xué)作品中的角色共現(xiàn)分布具有明顯的凝聚性,另一方面也說明,整個網(wǎng)絡(luò)是不夠緊密的,也就是小說展開具有多面性和多元性。
進(jìn)一步分析可以理解,核心成員是作者規(guī)劃和展開故事的基礎(chǔ)成員,是小說角色布局的關(guān)鍵,核心成員相對穩(wěn)定,他們之間聯(lián)系密切,是作者鋪開故事的重要棋子,也是讀者領(lǐng)會小說內(nèi)容的主要成分。邊緣角色往往是由于隨機和不穩(wěn)定因素加入的角色,隨著故事的展開在局部起臨時和輔助性的作用[27]。
為實施文學(xué)作品中的社會網(wǎng)絡(luò)分析,以《三國演義》為例,主要進(jìn)行了三個方面的工作: 文本預(yù)處理,社會網(wǎng)絡(luò)構(gòu)建和社會網(wǎng)絡(luò)分析,其工作流程如圖5所示。
圖4 派系成員重疊分析
圖5 文學(xué)作品中的社會網(wǎng)絡(luò)構(gòu)建和分析
首先對文本進(jìn)行預(yù)處理,包括分詞、詞性標(biāo)注、角色篩選和指代消解,目的是從文本中抽取角色信息,生成小說中的角色庫并利用其進(jìn)行角色信息的指代消解,進(jìn)而構(gòu)建角色統(tǒng)計模型。將小說《三國演義》文本按章回分割成120個文件chapter1~chapter120,利用ICTCLAS進(jìn)行各章回的分詞和詞性標(biāo)注,對文中出現(xiàn)的角色進(jìn)行命名實體識別。規(guī)劃角色信息的各個區(qū)分項,名字全稱、主要官職名稱、字、號等信息作為關(guān)鍵字項,構(gòu)建ICTCLAS的用戶字典,輔助角色信息的統(tǒng)計處理。接下來分層次過濾同一角色在文中的不同表達(dá),如前文例1中,諸葛亮/nr、諸葛瑾/nr之弟、臥龍先生/nr、孔明/nr等,例2中丞相/nr、操/nr、曹操/nr等;對相同稱呼的角色進(jìn)行統(tǒng)計,如文中對“丞相”的稱呼,可能指的是漢丞相曹操,可能是蜀國的第一任丞相諸葛亮,第二任丞相蔣琬,第三任丞相費祎,也可能是吳國丞相顧雍等;對經(jīng)過這些處理后得到的1 000余個角色,閾值β分別設(shè)定為大于1 000、100~1 000之間、100~1 000之間、小于10的數(shù),比較后角色出現(xiàn)頻率設(shè)定為β=3,并結(jié)合背景知識和Web搜索確定其中的126人作為該作品人物角色的代表,構(gòu)建角色庫。
社會網(wǎng)絡(luò)構(gòu)建算法采用了基于全文的角色共現(xiàn)網(wǎng)絡(luò)和基于章回的角色共現(xiàn)網(wǎng)絡(luò),在角色共現(xiàn)的計算方法上,經(jīng)過比較確定采用兩個角色分別出現(xiàn)次數(shù)加權(quán)求和,并取α1=α2=0.5,也就是同一章回中兩個角色分別出現(xiàn)次數(shù)的均值。
最后進(jìn)行了社會網(wǎng)絡(luò)分析,對數(shù)據(jù)進(jìn)行了統(tǒng)計、變換和處理,包括二值化、對稱等,采用UCINET、Pajek等工具進(jìn)行相應(yīng)的分析,對得到的數(shù)據(jù)結(jié)果進(jìn)行了解釋和說明。
自然語言處理應(yīng)用于文學(xué)作品中進(jìn)行社會網(wǎng)絡(luò)分析,有許多工作要做,本文進(jìn)行了有益的探索和研究,得到了一些實用性結(jié)論和啟發(fā)。不可否認(rèn),社會網(wǎng)絡(luò)與一般信息網(wǎng)絡(luò)相比,具有其獨特的性質(zhì),目前的模型和方法并不能完全將其描述出來[28]。例如,角色在社會中產(chǎn)生多種多樣的社會關(guān)系,角色之間、角色與環(huán)境之間是互相依存、相互依賴的關(guān)系,這種依賴關(guān)系是一種社會網(wǎng)絡(luò)獨有的特性,是通過觀察整個結(jié)構(gòu)和事件而發(fā)現(xiàn)的一種導(dǎo)出關(guān)系。除了社會性特征之外,由于角色在社會網(wǎng)絡(luò)上從事各式各樣的活動,其社會網(wǎng)絡(luò)信息往往具有多維度、復(fù)雜關(guān)聯(lián)的特點,而已有的分析方法往往關(guān)注于某個方面,并不能完全地建模這種特征。此外,社會網(wǎng)絡(luò)由于其結(jié)構(gòu)和內(nèi)容的不斷演化,中心度、凝聚特征等都被賦予時空特性,因此,一般靜態(tài)的分析方法也并不能滿足演化性特征的要求。針對文學(xué)作品中的社會網(wǎng)絡(luò)分析,不單單是人物角色呈現(xiàn)的關(guān)聯(lián),同時涉及時代、環(huán)境等背景知識,以及事件、寫作手法等故事展開方式,同時需要借助成熟的自然語言處理技術(shù),如命名實體識別、指代消解等,特別是夾雜著文言文的小說如何保證人名識別和指代消歧的準(zhǔn)確性等。這些都是后續(xù)研究的目標(biāo)和方向。
[1] Hogan, Patrick Colm. Conversations on Cognitive Cultural Studies: Literature, Language, and Aesthetics[M].The Ohio State University Press, 2014.
[2] Adam Hammond, Julian Brooke, GraemeHirst. A Tale of Two Cultures: Bringing Literary Analysis and Computational Linguistics Together[C]//Proceedings of the Second Workshop on Computational Linguistics for Literature. Atlanta, Georgia, June 14, 2013: 1-8.
[3] 顧靜航,錢龍華等.基于信息抽取的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究[D].蘇州大學(xué)碩士學(xué)位論文,2014.
[4] 熊丹,陸勤等.基于語料庫的明清小說人名與稱謂研究[J].中文信息學(xué)報,2015,29(01): 19-27.
[5] A Hassan, A Abu-Jbara, and D Radev. Extracting signed social networks from text[C]//Proceeding of the Text Graphs Workshop at ACL,2012: 4-12.
[6] R Krestel, L Chen. Using co-occurrence of tags and resources to identify spammers[C]//Proceedings of ECML PKDD Discovery Challenge,2008: 38-46.
[7] David K Elson.Modeling Narrative Discourse[D]. Columbia University,2012.
[8] Apoorv Agarwal,Augusto Corvalan, Jacob Jensen, and Owen Rambow. Social network analysis of Alice in wonderful[C]//Proceedings of the NAACLHLT 2012 Workshop on Computational Linguistics for Literature, 2012: 88-96.
[9] David KElson,Nicholas Dames,Kathleen R. McKeown. Extracting Social Networks from Literary Fiction[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010: 138-147.
[10] Franco Moretti. Distant Reading[M]. The Verso Press. 2013: 211-223.
[11] Y Fujii, T Yoshimura, and T Ito. Filtering harmful sentences based on three-word co-occurrence[C]//Proceeding of 8th Annual Collaboration Electronic messaging Anti-Abuse and Spam Conference, 2011: 64-72.
[12] Inderjeet Mani. Plots as Summaries of Event Chains. Invited Talk. Workshop on Computational Models of Narrative. 2013.
[13] Julian Brooke, GraemeHirst, and Adam Hammond. Clustering voices in the Waste Land[C]//Proceedings of the 2nd Workshop on Computational Literature for Literature. 2013.
[14] Harrison Rainie, Lee Rainie, Barry Wellman. Networked: The New Social Operating System[M]. MIT Press, 2012: 41-67.
[15] Franco Moretti. Graphs, Maps, Trees: Abstract Models for a Literary History[M]. The Verso press, London. 2005.
[16] Irene-AnnaDiakidoy, Antonis Kakas. Narrative Text Comprehension: From Psychology to AI[C]//Proceedings of the 11th International Symposium on Logical Formalizations of Commonsense Reasoning. Ayia Napa, Cyprus, May, 2013: 27-29.
[17] Katarzyna Musial,Marcin Budka,Krzysztof Juszczyszyn. Creation and growth of online social network[J]. Journal World Wide Web, 2013,16(4): 421-447.
[18] Elson DK, DamesN, McKeownKR. Extracting social networks from literary fiction.[EN/OL]. [2012-02-19]. http://www.cs.columbia.edu/~delson/pubs/acl2010-ElsonDamesMcKeown.pdf.
[19] Apoorv Agarwal and Owen Rambow. Automatic detection and classification of social events[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 1024-1034.
[20] Shimon Even. Graph Algorithms[M]. Cambridge University Press; 2nd Revised edition.2011,9.
[21] 宋洋,王厚峰.共指消解研究方法綜述.中文信息學(xué)報[J].中文信息學(xué)報,2015,29(1): 1-12.
[22] 高俊偉,朱巧明等.中文指代消解關(guān)鍵問題研究[D].蘇州:蘇州大學(xué)碩士學(xué)位論文,2012.
[23] 錢小飛,侯敏.基于歸約的漢語最長名詞短語識別方法[J].中文信息學(xué)報,2015,29(2): 40-48.
[24] http://ictclas.nlpir.org/[EN/OL]. [2015-10-12].
[25] 周炫余,劉娟,等.中文指代消解模型的對比研究[J].計算機科學(xué),2016,43(2): 31-34, 56.
[26] Cheng Wang, Qing Zhang, Jianping Gan. Study on Efficient Complex Network Model[C]//Proceedings of the 2nd International Conference on Green Communications and Networks: Volume 5. Lecture Notes in Electrical Engineering: Volume 227, 2013: 159-164.
[27] Franco Moretti. Network theory, plot analysis[J]. New Left Review, 2014,28(1): 80-102.
[28] 范超,王厚峰.社交網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)挖掘[J].中文信息學(xué)報,2014,28(1): 56-63.
Extracting and Analyzing Social Networks from Chinese Literary
ZHAO Jingsheng1,2, ZHANG Li2, ZHU Qiaoming1, ZHOU Guodong1
(1. Inst. of Computer Science and Technology,Soochow University, Suzhou, Jiangsu 215006, China;2. Inst. of Communication & Electronics Engineering, Qingdao TechnologicalUniversity, Qingdao, Shandong 266033, China)
Through the technology of natural language processing and complex network analysis, the social networks in Chinese literature are extracted and analyzed. From the “Romance of the Three Kingdoms”, as an example, this paper extracts the social networks, with nodes as novel characters, edges as the connections between the characters, and weight of the edges as the co-occurrence times the characters. The social networks are then analyzed for the node degree distribution, centrality, clustering characteristics, etc. The results show that the characters in Chinese literature have obvious small-world and limited power-law distribution. Again in “Romance of the Three Kingdoms”, characters distribution have clear community characteristics, as well as versatility and diversity.
literary, social networks, natural language processing
趙京勝(1969—),博士研究生,副教授,主要研究領(lǐng)域為自然語言處理、中文信息處理等。E?mail:zhao5199@163.com朱巧明(1963—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、中文信息處理、Web信息處理和嵌入式系統(tǒng)等。E?mail:qmzhu@suda.edu.cn周國棟(1967—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、篇章理解等。E?mail:gdzhou@suda.edu.cn
2015-03-13 定稿日期: 2016-07-29
國家自然科學(xué)基金(61272260,61273320)
1003-0077(2017)02-0099-08
TP391
A