亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共詞分析的小說人物關(guān)系研究

        2019-04-03 01:38:44楊鑫宋卓遠朱東霖楊云帆鄭紹陽楊秀璋羅子江
        現(xiàn)代計算機 2019年35期
        關(guān)鍵詞:小說

        楊鑫,宋卓遠,朱東霖,楊云帆,鄭紹陽,楊秀璋,羅子江

        (貴州財經(jīng)大學(xué)信息學(xué)院,貴陽550025)

        0 引言

        在移動互聯(lián)網(wǎng)迅猛發(fā)展的時代,人們更容易利用碎片化時間來滿足自身精神文化上的需求。近年來,隨著小說的受眾群體增多[1],加之許多小說被影視化,人們越來越習(xí)慣于閱讀小說以及觀看其影視化作品的方式來追尋自己的內(nèi)心訴求。究其原因,是其展現(xiàn)的內(nèi)容與人們的日常生活息息相關(guān)[2-3],因此對小說內(nèi)容及其人物進行有效挖掘很有必要。

        小說是一種以塑造人物為中心,通過完整的故事情節(jié)和具體環(huán)境的渲染來反映社會生活的文學(xué)體裁。目前國內(nèi)已有學(xué)者對小說文本做了許多研究,如龔雪萍等人[4]利用BICOMB 和SPSS 軟件對知網(wǎng)中哈代小說的相關(guān)文獻進行研究,并將結(jié)果以知識圖譜形式直觀展現(xiàn),進而了解該領(lǐng)域的研究熱點及趨勢;張旋等人[5]基于復(fù)雜網(wǎng)絡(luò)分析法,對14 部金庸武俠小說中人物的親密度及關(guān)系進行識別、評估,從而構(gòu)建出一種判別小說人物復(fù)雜愛情模式的通用模型;樓鍇毅等人[6]提出一種基于社交網(wǎng)絡(luò)和K-means 聚類的方法,該法能夠一定程度上反映各類小說作者的寫作風格;陳蕾等人[7]借助雪球算法實現(xiàn)了《紅樓夢》中人物間社會等級關(guān)系的分析,從中有效挖掘出人際交往親密度和社區(qū)影響力;肖天久等人[8]以金庸和古龍的小說作為研究樣本,運用主成分分析與文本分類、聚類的方法,從計算風格學(xué)角度對樣本進行詳盡分析,證明兩種小說在多個維度上存在較大差異。

        然而,國內(nèi)當前將共詞分析應(yīng)用于小說文本挖掘的研究還相對較少,王一博等人[9]雖然運用共詞和命名實體識別等方法對《三國演義》進行了深入分析,并發(fā)現(xiàn)三國中主要人物可分成7 個類團,但該研究方法比較單一,未能揭示其中各人物的成長歷程。針對以上問題,本文提出一種基于共詞分析的小說人物關(guān)系研究法,通過構(gòu)建矩陣來發(fā)現(xiàn)各角色間的內(nèi)在關(guān)聯(lián),確定書中主要人物;借助層次聚類算法計算人物間相似性,明確不同勢力集團;采用相關(guān)軟件和知識圖譜等技術(shù)進行結(jié)果可視化,便于研究者對小說整體框架及各情節(jié)脈絡(luò)有更好把握。

        1 數(shù)據(jù)和方法

        1.1 數(shù)據(jù)來源及預(yù)處理

        本文數(shù)據(jù)來源自網(wǎng)絡(luò)平臺——豬豬書網(wǎng),從中下載電子版小說《倚天屠龍記》作為研究樣本,并調(diào)用Python 對其進行結(jié)巴分詞、停用詞過濾等操作,同時,分詞過程中會出現(xiàn)人物名稱誤判現(xiàn)象,如“金毛獅王”可能在分詞后會成為“金毛”和“獅王”兩個獨立名詞,為避免這種情況,文中增加了小說人物自定義詞典,提升識別精度。此外,對文本中有相同含義的人物名稱進行合并,如將“張無忌”、“曾阿?!焙喜椤皬垷o忌”。

        1.2 研究方法

        本文基于共詞分析法對小說人物關(guān)系進行深入研究,其總體思路如圖1 所示。

        圖1 研究思路圖

        具體研究步驟如下:

        (1)從網(wǎng)絡(luò)上下載小說txt 文本,并存儲至本地,使用Python 對文本內(nèi)容進行預(yù)處理,包括結(jié)巴分詞、去除停用詞、相同人物名稱合并等操作;

        (2)從百度百科獲取小說人物列表(103 位),并構(gòu)建相應(yīng)自定義詞典,提高分詞中人物識別準度;

        (3)利用Python 對小說中主要人物構(gòu)建共現(xiàn)矩陣、相似矩陣、相異矩陣;

        (4)通過共詞分析法實現(xiàn)人物共現(xiàn)、聚類和小說情節(jié)演化等研究,并借助知識圖譜和Python 技術(shù)將分析結(jié)果可視化。

        2 共詞分析

        2.1 小說人物共詞分析

        人物是小說的重要構(gòu)成部分,能夠突出小說主旨,并且可以揭示和折射社會生活某些本質(zhì)及相關(guān)現(xiàn)象帶來的啟示。本文對書中人物名稱的出現(xiàn)頻次進行統(tǒng)計,結(jié)果如圖2 所示,從中可以看出,“張無忌”頻數(shù)居首,共計4668 次,其次是“趙敏”和“謝遜”,分別出現(xiàn)1251 和1209 次。

        圖2 小說人物詞頻統(tǒng)計(部分)

        為了探析各人物間關(guān)系及其動態(tài)變化,文中采用共詞分析法對小說中人物構(gòu)建一個103×103 的共現(xiàn)矩陣(見表1),從表1 中可知人物間的共現(xiàn)情況,如“張無忌”和“趙敏”共現(xiàn)407 次、“謝遜”和“張翠山”共現(xiàn)127次。其中矩陣構(gòu)建規(guī)則如公式(1)所示,當兩個人物同時出現(xiàn)在小說的一個段落中,就認為這兩個人物間存在一次共現(xiàn),反之兩個人物間不存在關(guān)系。

        式(1)中n 表示每兩位人物的共現(xiàn)次數(shù);ai表示矩陣中第i 行對應(yīng)的人物;aj表示矩陣中第j 列對應(yīng)的人物。

        表1 中各人物間共現(xiàn)數(shù)值差異較大,會對后續(xù)分析產(chǎn)生影響。因此,文中選用皮爾遜相關(guān)系數(shù)法計算共現(xiàn)矩陣的相似度(見表2),表2 中數(shù)值均在區(qū)間[0,1]內(nèi),數(shù)值越大,則表明人物間關(guān)聯(lián)度越高,反之,關(guān)聯(lián)度越小。

        在人物聚類分析環(huán)節(jié),為降低相似矩陣中過多零值帶來的誤差,本文用1 減去表2 中全部數(shù)值[10],得到小說人物相異矩陣,如表3 所示。

        2.2 小說人物關(guān)系圖譜

        采用Gephi 軟件根據(jù)表1 繪制小說人物共現(xiàn)知識圖譜,結(jié)果如圖3 所示,共有人物103 位和共現(xiàn)線1844條。圖中節(jié)點代表書中人物,其大小為人物的重要程度,連線代表各人物間的共現(xiàn)關(guān)系,線的粗細表示人物共現(xiàn)頻數(shù)高低。圖3 顯示,居于圖譜中心位置的是“張無忌”,表明他為書中最重要的人物,其他人物節(jié)點逐漸向四周分布擴散。其中“張無忌”與周圍“趙敏”、“周芷若”、“張三豐”、“謝遜”、“楊逍”等人物共現(xiàn)明顯,聯(lián)系緊密,說明這些人物是整個圖譜的主體結(jié)構(gòu),即小說中的主要人物,這與人們讀過《倚天屠龍記》的普遍印象一致。

        表1 小說人物共現(xiàn)矩陣(部分)

        表2 小說人物相似矩陣(部分)

        表3 小說人物相異矩陣(部分)

        圖3 倚天人物關(guān)系圖譜

        2.3 小說人物聚類分析

        聚類分析是依據(jù)個體間特征相似性進而自動分類的技術(shù),為便于分析,本文使用Python 對小說中主要人物(60 位)的相異矩陣進行層次聚類分析,選擇Euclidean 和Ward 方法來分別計算個體間與簇間的距離,其中計算歐氏距離(Euclidean)的公式如下:

        式(2)中,D(X,Y)表示X 點與Y 點間的歐氏距離;k 表示空間維度,這里k=2,xi為X 點的第i 維坐標值,yi為Y 點的第i 維坐標值。

        聚類結(jié)果如圖4 所示,橫坐標軸為各簇團間距離,縱坐標軸為各人物名稱。圖中可知,小說內(nèi)主要人物可劃分為9 個集團。第一集團為少林,包含“空見”、“空聞”、“渡難”、“成昆”、“謝遜”等人,這些人物按輩分還可分成兩個子集團,分別是“渡”字的老一輩和以“空”字為主的年輕一輩,其中成昆早年曾投身少林,之后一直以“圓真”行走江湖,而謝遜也與少林淵源頗深,并在晚年皈依少林,這也是二人無法被分在其他集團的原因;第二集團為明教,包含“楊逍”、“韋一笑”、“殷天正”、“周顛”、“說不得”等人,他們是明教的領(lǐng)導(dǎo)層,鼎力輔助主人公“張無忌”;第三集團為主角團隊,包含“張無忌”、“趙敏”、“周芷若”、“殷離”、“小昭”等人,雖然每人出自不同勢力,但因“張無忌”而聚集在一起,其之間的恩怨情仇貫穿整本小說;第四集團為波斯明教,包含“輝月使”、“流云使”、“妙風使”,曾于靈蛇島為難“張無忌”等人,后因小昭成為總教教主,隨其回歸波斯;第五集團為朝廷,包含“汝陽王”、“鶴筆翁”、“鹿杖客”、“阿大”等人,曾囚禁六大門派各高手于萬安寺,是中原武林共同的敵人;第六集團為峨眉,包含“滅絕師太”、“丁敏君”、“貝錦儀”、“靜玄”、“宋青書”等人,宋青書出身武當,但自光明頂一戰(zhàn)后與峨眉來往密切,并隨后加入峨眉;第七集團為朱武世家,包含“朱九真”、“朱長齡”、“武青嬰”、“衛(wèi)壁”等人,曾在第15-16 章中為得知謝遜及屠龍刀下落欺騙“張無忌”,后計謀敗露,追殺主人公;第八集團為反元義軍,包含“朱元璋”、“常遇春”、“徐達”、“湯和”、“鄧愈”等人,他們雖隸屬明教,但卻是反元義軍中的核心人物,一同對抗元朝暴政;第九集團為武當,包含“張三豐”、“殷梨亭”、“張翠山”、“郭襄”、“覺遠大師”等人,“張三豐”、“郭襄”和“覺遠大師”因九陽神功而結(jié)緣,因此被分為同一集團。通過人物的聚類分析,能使讀者對書中各人物間聯(lián)系有更為清晰地了解,進而助于理解全文。

        圖4 倚天人物聚類圖

        2.4 小說情節(jié)演化分析

        為了對小說整體框架及各情節(jié)脈絡(luò)有更好把握,本文對小說中人物和章節(jié)繪制情節(jié)演化知識圖譜,如圖5 所示,圖中將書內(nèi)章節(jié)劃分為3 個階段:(a)1-14章、(b)15-27 章、(c)28-40 章,從中發(fā)現(xiàn):

        (1)總體情況:從每階段內(nèi)人物節(jié)點和密度可以得知,第一階段節(jié)點數(shù)量最少且分布零散,第三階段節(jié)點規(guī)模最大且分布密集,人物數(shù)量整體呈上升態(tài)勢,符合小說實際情況。其中各階段內(nèi)人物均有變化,如1-14章中主要人物有“張翠山”、“殷素素”、“張三豐”、“謝遜”、“張無忌”等;15-27 章中主要人物有“張無忌”、“楊逍”、“韋一笑”、“張三豐”、“滅絕師太”等;28-40 章中主要人物有“張無忌”、“趙敏”、“周芷若”、“謝遜”、“楊逍”等。但是“張無忌”、“張三豐”、“謝遜”等人一直都未曾脫離圖譜的核心區(qū)域,這表明他們是小說中的主線人物,貫穿起始。

        (2)各階段情況:第一階段情節(jié)圍繞“張翠山”展開,其與“殷素素”、“謝遜”間連線較粗,聯(lián)系緊密,這3人緣起于“屠龍刀”的爭奪,并一同流落至冰火島,又因“張無忌”的出生而義結(jié)金蘭,后被六大門派等逼迫,“張翠山”夫婦為守承諾自刎于武當,自此,主人公“張無忌”開始其獨自成長之旅。

        第二階段中“張翠山”、“殷素素”、“白龜壽”等節(jié)點變小或消失,表明這些人物在后續(xù)情節(jié)內(nèi)影響力漸小或已退出故事舞臺,而“趙敏”、“小昭”、“宋青書”等人物開始出現(xiàn),繼續(xù)接著推動情節(jié)的發(fā)展,相較于第一階段,“張無忌”、“楊逍”、“殷天正”、“滅絕師太”等節(jié)點變大,說明他/她們在這一階段的情節(jié)中發(fā)揮著重要作用,這與書中六大門派圍攻光明頂和被朝廷困于萬安寺等實際情節(jié)大約一致。

        第三階段,人物節(jié)點數(shù)快速增加,增長率遠超前兩個階段,各人物間關(guān)系也越為密切、復(fù)雜。此階段新出現(xiàn)的人物有“陳友諒”、“史火龍”、“渡劫”、“渡厄”等人,其中“陳友諒”曾于靈蛇島和丐幫為難“張無忌”等,是書中反派人物。“渡劫”、“渡厄”、“渡難”三人曾在屠獅大會上負責看守金毛獅王“謝遜”,是少林中老一輩人物。和前兩個階段相比,“趙敏”、“周芷若”節(jié)點有明顯變大,且節(jié)點規(guī)模遠大于“殷離”和“小昭”,符合她們在小說內(nèi)女一、女二的設(shè)定。此外,“謝遜”在書中命運最為坎坷,其節(jié)點在三個階段中經(jīng)歷了大-小-大的起伏變化,但是他和“張三豐”在小說中存在時間最為長久,具有較好的延續(xù)性。

        3 結(jié)語

        本文提出一種共詞分析和層次聚類的方法,通過對小說《倚天屠龍記》中人物構(gòu)建矩陣和知識圖譜,進而揭示各人物間關(guān)系及其動態(tài)變化。同時,文中將章節(jié)劃分成3 個階段,包括第一階段(1-14 章)、第二階段(15-27 章)、第三階段(28-40 章),借助共詞分析、相關(guān)工具和可視化技術(shù)對每一階段進行詳盡分析,探究其情節(jié)演變態(tài)勢。實驗發(fā)現(xiàn),本文方法能夠有效洞悉小說中人物關(guān)系和情節(jié)發(fā)展過程,便于讀者加深對內(nèi)容的理解,并對其他相關(guān)文學(xué)作品的研究提供一定的理論支撐和數(shù)據(jù)支持。

        猜你喜歡
        小說
        叁見影(微篇小說)
        紅豆(2022年9期)2022-11-04 03:14:42
        遛彎兒(微篇小說)
        紅豆(2022年9期)2022-11-04 03:14:40
        勸生接力(微篇小說)
        紅豆(2022年3期)2022-06-28 07:03:42
        何為最好的小說開場白
        英語文摘(2021年2期)2021-07-22 07:57:06
        小說課
        文苑(2020年11期)2020-11-19 11:45:11
        那些小說教我的事
        我們曾經(jīng)小說過(外一篇)
        作品(2017年4期)2017-05-17 01:14:32
        妙趣橫生的超短小說
        明代圍棋與小說
        閃小說二則
        小說月刊(2014年8期)2014-04-19 02:39:11
        制服丝袜中文字幕在线| 精品久久人妻一区二区| 91偷拍与自偷拍亚洲精品86| 国产亚av手机在线观看| 99精品视频在线观看免费| 囯产精品无码一区二区三区AV | 无遮挡边吃摸边吃奶边做| 欧美手机在线视频| 大陆少妇一区二区三区| 成熟丰满熟妇av无码区| 精品国产三级在线观看| 国产精品视频一区二区三区,| 极品粉嫩嫩模大尺度视频在线播放| 久久久久亚洲av综合波多野结衣| 久久久精品2019免费观看| 午夜精品久视频在线观看| 国产毛片视频一区二区三区在线| 国产97在线 | 日韩| 人妻无码中文专区久久五月婷| 国产亚洲一区二区三区成人 | 东京热人妻系列无码专区| 日本免费人成视频播放| 国产成人综合亚洲av| 日本中文字幕精品久久| 美丽人妻在夫前被黑人| 福利在线国产| 激情视频国产在线观看| 免费a级毛片在线播放| 天堂影院一区二区三区四区| 国产乱子伦农村xxxx| 综合亚洲二区三区四区在线| 国产女主播白浆在线观看| 色婷婷资源网| 99精品又硬又爽又粗少妇毛片| 精品国产一区二区三区av| 久久精品国产www456c0m| 国产成人亚洲欧美三区综合| 精品极品一区二区三区| 国产女人的高潮国语对白| 精品国产高清一区二区广区| 精品亚洲av一区二区|