主題建模方法在俄語文學(xué)文本分析中的應(yīng)用

2024-12-28 00:00:00A.V.KolmogorovaY.D.Zalevskaya

外語學(xué)刊 2024年6期

提要：本研究探討了基于計(jì)算機(jī)輔助的主題建模方法在文學(xué)文本分析中的應(yīng)用潛力。我們采用LDA算法對兩個虛構(gòu)文本子語料庫進(jìn)行分析，旨在探索不同文本之間母題（мотив）的互文關(guān)聯(lián)。這兩個語料庫分別是：謝爾蓋·多瓦托夫（以下簡稱多瓦托夫）創(chuàng)作的62篇不同體裁的文本（包括短篇小說、隨筆、中篇小說和評論性文章）和31部多瓦托夫認(rèn)為對他產(chǎn)生了深遠(yuǎn)影響的文學(xué)作品。基于LDA算法分析結(jié)果，研究者識別出20個主題，根據(jù)主題與文本之間的關(guān)聯(lián)度，將所有文本歸入相應(yīng)主題。每一個主題都由相關(guān)詞鏈（цепочка слов）構(gòu)成，詞鏈中包含的詞語按照其與主題的相關(guān)程度（權(quán)重）排列，共同反映了該主題的語義內(nèi)涵。分析結(jié)果顯示，在20個主題中，有3個主題分別同時出現(xiàn)在多瓦托夫創(chuàng)作的文本和其他作家的文本中，由此出現(xiàn)了3個具有關(guān)聯(lián)性的“文本—主題”（текст — тема）對應(yīng)關(guān)系：（1）鮑里斯·皮利尼亞克的長篇小說《荒年》和多瓦托夫的短篇小說《在河邊》；（2）赫伯特·喬治·威爾斯的長篇小說《時間機(jī)器》、海明威的中篇小說《老人與?！泛投嗤咄蟹虻亩唐≌f《移民》；（3）亞歷山大·格林的短篇小說《港口司令》和多瓦托夫的隨筆《我們說著不同的語言》。分析表明，上述對應(yīng)的虛構(gòu)文本之間存在著母題交叉現(xiàn)象?；跈C(jī)器學(xué)習(xí)的計(jì)算機(jī)輔助方法可以作為文本分析的探索性工具，幫助研究者從大型語料庫中獲得文本研究的潛在方向和線索，從而更有效地利用自身專業(yè)知識進(jìn)行深入考察①。

關(guān)鍵詞：文本分析；計(jì)算機(jī)輔助主題建模方法；母題；互文性；俄語

中圖分類號：H030 """"文獻(xiàn)標(biāo)識碼：A """"文章編號：1000-0100（2024）06-0023-9

DOI編碼：10.16263/j.cnki.23-1071/h.2024.06.004

Key words：

1 引言

隨著弱人工智能（слабый искусственный интеллект）和強(qiáng)人工智能②（сильный искусственный интеллект）的發(fā)展，語言學(xué)家獲得了新的針對包括文學(xué)文本在內(nèi)的、不同類型文本的分析工具。長期以來，俄羅斯定量語言學(xué)（Андреев" 2016;2019）和文體學(xué)研究者（Мартыненко 2021）一直致力于利用定量方法分析文學(xué)作品的文體和語義特征，并從中得出定性結(jié)論。然而，機(jī)器深度學(xué)習(xí)模型的出現(xiàn)，為文本研究提供了新的視角和方法，也對傳統(tǒng)語言學(xué)家的研究理念和方法論提出了挑戰(zhàn)。

除承認(rèn)數(shù)字方法在傳統(tǒng)專業(yè)科學(xué)領(lǐng)域，尤其在人文學(xué)科中應(yīng)用的必要性之外，作為研究人員也需要思考，在哪些情況下，可以將研究工作委托給人工智能（AI）完成。瓦赫施泰因（Вахшитайн 2021：135-137）將這種“委托 ”（делегирование）劃分為3個維度：情景確定（определение ситуации）、決策制定（принятие решения）和決策實(shí)施（реализация решения）。算法在情境確定方面的能力可以完全被信任，如借助算法識別文本中具有統(tǒng)計(jì)學(xué)意義的詞語集群（主題），從而對文本的語義結(jié)構(gòu)進(jìn)行初步分析。然而，在現(xiàn)階段將決策制定和實(shí)施的權(quán)力完全移交給人工智能，似乎并不可取。例如，在文本主題的歸屬上，仍須研究人員根據(jù)算法分析結(jié)果以及自身專業(yè)知識來判斷，而非完全依賴算法分析結(jié)果（Skorinkin， Orekhov" 2023）。有的學(xué)者（Gibson 1986）認(rèn)為人工智能的價(jià)值在于它能夠以不同于人類的方式來解讀文本，從而為研究者提供新的發(fā)現(xiàn)和啟示。

我們提出這樣一個假設(shè)：作家一生中閱讀的書籍會影響其創(chuàng)作的主題結(jié)構(gòu)。為驗(yàn)證這一假設(shè)，須要使用兩個文本語料庫：一是多瓦托夫③在他寫給塔瑪拉·烏爾茹莫娃的信（多瓦托夫的清單中列出的35部對他產(chǎn)生了深遠(yuǎn)影響、每個人都應(yīng)該閱讀的文學(xué)作品）；二是多瓦托夫本人的作品。本文將基于機(jī)器學(xué)習(xí)算法的主題建模方法對這兩個語料庫進(jìn)行分析，并嘗試從主題互文性的角度，解讀多瓦托夫與其喜愛的作家作品之間存在的潛在關(guān)聯(lián)。希望從多瓦托夫作為“讀者”的視角，對他的創(chuàng)作進(jìn)行全新解讀。

2 術(shù)語“主題”與“母題”

術(shù)語“主題”（тема）和“母題”④（мотив）具有非常廣泛的內(nèi)涵與外延。我們僅在與本研究相關(guān)的文學(xué)領(lǐng)域內(nèi)闡釋兩個術(shù)語的內(nèi)涵及關(guān)聯(lián)。

托馬舍夫斯基（Б.В.Томшевский" 1999：116）認(rèn)為，在藝術(shù)作品表達(dá)中，主題（тема）是單句根據(jù)其含義相互組合，最終形成的一種結(jié)構(gòu)，這種結(jié)構(gòu)通過作品思想的共性而統(tǒng)一起來，是作品各個元素意義的集合。同時，主題應(yīng)對讀者具有主觀吸引力，并引起他們的情感共鳴（同上：117）。從廣義視角來看，主題更接近于母題的概念?！俺楣?jié)和敘事之外，主題是最接近母題的范疇”（И.В.Силантьев 1999：49）。加斯帕羅夫（Б.В.Гаспаров）認(rèn)為母題的主要屬性是可重復(fù)性：“……母題一旦出現(xiàn)，就會重復(fù)多次，每次都以新的形式、新的輪廓或與其他母題組合在一起出現(xiàn)。同時，任何現(xiàn)象、事件、性格特征、景觀元素、任何物體、說出的詞語、顏色、聲音等等，都可以作為母題；母題典型特征是它的再現(xiàn)性”（Гаспаров" 1993：30-31）。研究者發(fā)現(xiàn)，母題不僅具有語義上的穩(wěn)定性（即語義不變性），同時也能以不同的方式在文本的不同部分或不同的文本中呈現(xiàn)出來（即可變性）。這種辯證統(tǒng)一的特性促使學(xué)者們開始對母題進(jìn)行系統(tǒng)分類，并探索它們之間存在的結(jié)構(gòu)關(guān)系，最終形成“母題網(wǎng)絡(luò)”（систематики мотивов）的概念（Жолковский，Щеглов 1986：120）。由于母題不屬于“敘事—情節(jié)”（фабула-сюжет）系統(tǒng)，而是屬于“文本—意義”（текст-смысл）系統(tǒng)，作為敘事情節(jié)的基本單位，因此它不再局限于描述具體的事件，而是作為一種更抽象的意義單位，體現(xiàn)著文本的深層內(nèi)涵”（Силантьев 1999：51-52）。成為文本的范疇后，母題就完全進(jìn)入了互文性理論的坐標(biāo)系：“母題代表意義，并將文本連接到一個共同的語義空間中”（同上：52）。從語言學(xué)的角度來看，母題在形式表達(dá)層面表現(xiàn)為指稱鏈（номинационная цепочка），即一系列與主題相關(guān)的詞語和詞組，它們在單個鏈內(nèi)通過指稱關(guān)系（指稱的統(tǒng)一性）和意義同一性（意義的等價(jià)性或接近性）聯(lián)系在一起（Матвеева 1990：21-22）。在傳統(tǒng)的文本分析中，學(xué)者們須要手動識別這些指稱鏈，以構(gòu)建文本的主題內(nèi)容模型。然而，隨著計(jì)算機(jī)技術(shù)的快速發(fā)展，我們不禁思考：能否將這項(xiàng)任務(wù)自動化，從而更快速、更有效地進(jìn)行主題分析？現(xiàn)有的文本數(shù)據(jù)主題建模模型為我們提供了這種可能性。

3 計(jì)算機(jī)主題建模方法在文學(xué)文本分析中的功能

主題建模是一種計(jì)算機(jī)技術(shù)，它可以像“自動分類器”一樣，將大量的文本按照主題歸類到不同的類別里。這種技術(shù)主要關(guān)注文本中使用的詞語，因?yàn)樵~語是表達(dá)主題的最基本元素。主題建模算法通過分析大量文本的方式從中識別出潛在主題。算法會為每個文本創(chuàng)建一個“主題標(biāo)簽”，標(biāo)明該文本所屬的主題以及每個主題在文本中出現(xiàn)的概率。同時，算法還會為每個主題創(chuàng)建一個“關(guān)鍵詞列表”，列出最能代表該主題的詞語以及每個詞語出現(xiàn)的概率。值得一提的是，主題建模算法不僅可以分析詞語，還可以分析詞組、標(biāo)簽、類別，甚至是非文本信息，例如圖片、音頻、視頻等（Булотов" 2020：14）。

LDA算法⑤及其派生算法是實(shí)現(xiàn)主題建模最常用的方法。如今，基于BERT-BERTopic模型的算法也逐漸成為 LDA 算法的有力競爭者（Groo-tendorst" 2022）。主題建模算法不會預(yù)先設(shè)定主題，而是讓計(jì)算機(jī)算法自動從大量文本中找出經(jīng)常共同出現(xiàn)的詞語組合，并將這些詞語組合視為潛在主題。每個主題就像一個標(biāo)簽，可以用來描述文章的內(nèi)容。重要的是，主題建模算法并不是簡單地比較文章之間的相似度，而是將每篇文章與算法識別出的主題進(jìn)行比較，并根據(jù)關(guān)聯(lián)度將文章以不同的概率分配到不同的主題下（Niko-lenko et al. 2017：89）。該算法已經(jīng)成功應(yīng)用于分析各種類型的文本，如博客文本（Ritter et al. 2010）、社交網(wǎng)絡(luò)文本（Quercia et al. 2012）、科學(xué)論文（JelisavAcˇG1iAc＇G1"" et al." 2012）、新聞（Koltsov et al. 2018）和政治話語（Jacobs，Tschtschel" 2019）。

近年來，學(xué)者們也開始嘗試將主題建模方法應(yīng)用于文學(xué)文本分析。例如，克里斯蒂安·舍赫利用 LDA算法分析了 1610年至1810年間出版的890部法國劇作家的戲劇作品。他發(fā)現(xiàn)，主題建模方法能夠很好地反映不同戲劇作品的體裁特征，并可以根據(jù)體裁（喜劇、悲劇、悲喜劇）對戲劇文本進(jìn)行高度準(zhǔn)確的分類（Schch" 2017）。

在俄羅斯文學(xué)研究領(lǐng)域，米特羅法諾娃（О.А. Митрофона）借助 LDA 算法對布爾加科夫的小說《大師與瑪格麗特》中的主題進(jìn)行了建模（Митрофона 2019）。她認(rèn)為，算法識別出的主題與小說的主要情節(jié)線基本一致，且可以用來分析作者的語言風(fēng)格。謝爾斯季諾娃的團(tuán)隊(duì)則利用 LDA 算法構(gòu)建了9個主題模型，并以此分析20世紀(jì)初俄語短篇小說中主題的演變趨勢（Шерстинова et al. 2021）。這9個主題模型分別對應(yīng)3個不同時間段（20世紀(jì)初到1913年，1914-1922年，1923-1930年）的短篇小說，每個時間段包含3個不同規(guī)模的子語料庫。研究結(jié)果表明，不同時間段的短篇小說主題存在著明顯的差異，這說明主題建模方法可以幫助我們識別不同時期文學(xué)作品的主題風(fēng)格特征。因此，本研究順應(yīng)了語言文學(xué)領(lǐng)域運(yùn)用數(shù)字方法進(jìn)行研究的趨勢，并在此基礎(chǔ)上進(jìn)行創(chuàng)新：我們應(yīng)用主題建模方法分析兩組文學(xué)文本，以探索它們之間母題的互文關(guān)聯(lián)。

4 計(jì)算機(jī)主題建模方法在文學(xué)文本分析中的應(yīng)用

本研究采用兩個虛構(gòu)文本子語料庫進(jìn)行分析。第一個語料庫由31部⑥世界文學(xué)作品組成，這些作品均由多瓦托夫列入其個人推薦書單，并評價(jià)為“值得一讀”或“本人喜歡”。其中包括俄羅斯、英國、法國和美國作家的作品。作者包括：陀思妥耶夫斯基、庫普林、格林、扎米亞京、赫伯特·喬治·威爾斯、莫泊桑等。

第二個子語料庫由多瓦托夫于1974年至1990年間創(chuàng)作的62篇文本組成，涵蓋短篇小說、中篇小說、隨筆和評論文章等多種體裁。這些文本均來自阿斯布克出版社（Издательство Азбука）出版的多瓦托夫作品五卷本，我們采用連續(xù)抽樣的方式收集。所有文本在進(jìn)行分析之前都經(jīng)過預(yù)處理，步驟如下：

（1）文本格式轉(zhuǎn)換：將所有文本轉(zhuǎn)換為表格格式，每行代表一個文本，并包含3列信息：文本標(biāo)題、出版年份和作者姓名（見圖1）。

（2）作者標(biāo)記：為了區(qū)分兩個語料庫的來源，將第一個語料庫的作者標(biāo)記為other，將第二個語料庫的作者標(biāo)記為 Dovlatov（多瓦托夫）。

（3）文本清洗：將所有文本轉(zhuǎn)換為小寫，進(jìn)行分詞，刪除標(biāo)點(diǎn)符號和停用詞，并使用 pymorphy 2軟件包進(jìn)行詞形還原。

對文本預(yù)處理后，運(yùn)用計(jì)算機(jī)輔助建模方法對文本分析，具體步驟為：

（1）創(chuàng)建詞典和語料庫：使用Python的gensim 庫（開源主題建模庫）對詞形還原后的文本進(jìn)行處理。首先創(chuàng)建一個詞典，然后使用過濾極值（filter_extremes）方法過濾掉出現(xiàn)頻率過高或過低的詞語。最后，將所有文本轉(zhuǎn)換為“詞袋”（bag of words）模型，創(chuàng)建一個語料庫。

（2）設(shè)置超參數(shù)：在進(jìn)行主題建模前，須要設(shè)置兩個參數(shù)：主題數(shù)量和算法迭代次數(shù) （“遍數(shù)”）。主題數(shù)量決定算法要識別多少個主題，迭代次數(shù)決定算法的運(yùn)行時間和結(jié)果的準(zhǔn)確性。本研究將主題數(shù)量設(shè)置為 20，迭代次數(shù)設(shè)置為10。

（3）運(yùn)行 LDA 算法：使用gensim 庫中的LDA模型對語料庫進(jìn)行分析。首先將每個文檔表示為“詞袋”模型，然后應(yīng)用“提取文件主題”（get_document_topic）的方法，計(jì)算每個文檔屬于每個主題的概率。

最終得到一個包含：name（文本標(biāo)題）、author（作者標(biāo)記：other或Dovlatov）、text（原始文本）、text_processed（詞形還原后的文本）、topic_20（對該文本權(quán)重最大的主題編號“從0到19”）、probability_20（該文本屬于該主題的概率）6列關(guān)鍵信息的結(jié)果（見圖2）。通過比較第二列（作者標(biāo)記）和第五列（主題編號），我們可以確定哪些主題同時出現(xiàn)在多瓦托夫的作品和他喜歡的作家作品中。為了探究多瓦托夫作品與他所閱讀的作家作品之間是否存在主題上的關(guān)聯(lián)，我們利用數(shù)據(jù)表格中的語料庫（“多瓦托夫”或“非多瓦托夫”）和文本所屬主要主題的編號，進(jìn)行一種映射分析，嘗試找出同時出現(xiàn)在兩個語料庫中的主題。

5 結(jié)果和討論

為了更直觀地展示分析結(jié)果，我們使用seaborn可視化庫繪制了圖3。其中，橫軸表示作者（“Dovlatov”或“other”），縱軸表示主題編號。從圖3中可以看出，只有3個主題（0、7和9）同時出現(xiàn)在兩個子語料庫中。表1列出了構(gòu)成這3個主題的10個權(quán)重最高的詞語。

為進(jìn)一步分析這些主題的分布情況，我們統(tǒng)計(jì)每個文本屬于其主要主題⑦的概率，并將結(jié)果列于表2中。表2顯示了不同文本歸屬于其主要主題的概率值。分析結(jié)果顯示：皮利尼亞克的小說《荒年》極有可能屬于主題 0，而多瓦托夫的《在河邊》屬于該主題的概率則低了一半。亞歷山大·格林的《港口司令》屬于主題 7 的概率為 44%，而多瓦托夫的散文《我們說著不同的語言》屬于該主題的概率高達(dá) 99%。喬治·威爾斯的小說《時間機(jī)器》和海明威的中篇小說《老人與海》幾乎以相同的、極高的概率屬于主題 9，而多瓦托夫的相關(guān)作品歸屬于該主題的概率則要低一半。

下面我們對不同文本在主題0、主題7、主題9層面上的互文關(guān)聯(lián)性進(jìn)行分析。

主題0：多瓦托夫的短篇小說《在河邊》的情節(jié)建立在這樣一個事實(shí)上，一個名叫費(fèi)佳的年輕人被他的愛人季諾奇卡拒絕后，打算去河邊自殺，但當(dāng)他走進(jìn)水里時，他注意到一個小偷正在偷走季諾奇卡唯一的褲子。費(fèi)佳開始追趕，和一個警察一起抓住了小偷，成為鎮(zhèn)上的英雄，從而重新贏得了季諾奇卡的青睞。因此，文本中可以清楚地看到社會角色“偶然地轉(zhuǎn)變”的主題——從自殺者到英雄。將皮利尼亞克的小說與多瓦托夫的短篇小說進(jìn)行比較是很困難的，但上面提到的社會顛覆的母題也貫穿了整部小說：富裕商人家庭的繼承人多納特·拉特金加入了紅軍，并無情地摧毀了祖屋（從富裕的繼承人變成了侵略性的革命者）；市政委員會無產(chǎn)階級執(zhí)行委員會的文員奧爾加·昆茨對政委萊蒂斯充滿熱情，但卻作為敵對分子被捕（從政委的愛人變成了革命的敵人，變成了囚犯）；公爵小姐娜塔莉亞·奧爾丁娜成為了一名革命者，等等。

主題7：亞歷山大·格林的《港口司令》和多瓦托夫的《我們說著不同的語言》這兩部作品都探討一個共同的主題，可以概括為“走向他人的人”：在格林的作品中，老蒂爾斯扮演了這個角色，他成為連接所有來到港口的船只上水手的特殊紐帶；在多瓦托夫的作品中，是德國醫(yī)生弗里茨·馬庫薩斯，他年輕時參加了革命運(yùn)動，經(jīng)歷了戰(zhàn)爭，并在和平時期幫助運(yùn)動員應(yīng)對傷病。兩位主人公都生活在“男人的世界”里：蒂爾斯生活在水手中，馬庫薩斯生活在工人中，然后是士兵中，后來是接受他治療的運(yùn)動員中。

分析表明，這兩篇文本都存在著“交流重要性”的母題，某種共同語言對于一個人或一群人的世界觀形成至關(guān)重要。

格林作品中的主人公老蒂爾斯，穿梭于停泊在港口的船只之間，與來自各地的水手們交談。有時人們和他開玩笑，有時熱情地歡迎他，有時又粗暴地將他趕走。但無論如何，他始終扮演著社會調(diào)解員的角色，為水手們帶來最新的消息，與他們一起回憶往事，詢問他們的近況，并送上真摯的祝福。當(dāng)須要告知女招待她情人去世的噩耗時，所有人都覺得只有老蒂爾斯才能勝任這份艱難的任務(wù)。而當(dāng)老蒂爾斯去世后，鎮(zhèn)上和港口的所有人才真正意識到他的重要性——他是不可替代的。他就像一條紐帶，用一種“共同語言”將人們連接在一起。直到一位當(dāng)?shù)啬贻p人試圖取代他的位置時，人們才明白老蒂爾斯留下的空白是多么難以填補(bǔ)，如例①：

①" —" Нет， нет，" —" ответил с палубы， не обижаясь на дурака， Ластон. — Подделка налицо." Никогда" твоя пасть не спросит как надо о том，"ыл ли хорош рейс//“不，不，”拉斯特從甲板上回答，并沒有因?yàn)檫@個傻瓜而生氣。“這顯然是假的。你的嘴永遠(yuǎn)不會像應(yīng)該的那樣問‘航行順利嗎’?！?/p>

多瓦托夫的作品則以相反的方式展現(xiàn)了這一母題：盡管主人公馬庫薩斯和反面人物海因茨·馮·克尼布什說著同一種母語——德語，但由于人生經(jīng)歷和選擇的不同，他們最終卻“說著不同的語言”，如例②：

② Гранд-отель в Мюнхене. На лестнице беседуют двое пожилых мужчин.

—" Так мы увидимся？" — спрашивает Гейнц фон Книбуш." —" Не забывай， мы старые приятели. Мы говорим на одном языке.

— О нет， ты ошибаешься， Гейнц Мы говорим на разных языках，" — отвечает Маркузас.//慕尼黑的一家豪華酒店。兩個老人在樓梯上聊天?！澳敲次覀冞€會見面嗎？”海因茨·馮·克尼布什問道?！皠e忘了，我們是老朋友了。我們說著同一種語言?！薄安?，你錯了，海因茨。我們說著不同的語言，”馬庫薩斯回答說。

主題9：威爾斯的《時間機(jī)器》和多瓦托夫的短篇小說《移民》都包含了“進(jìn)入另一個空間”這一母題。在威爾斯的作品中，19世紀(jì)發(fā)明家穿越到未來城市；而在多瓦托夫的作品中，兩個偶然相遇的朋友踏上了一段前往荷蘭的虛構(gòu)旅程（實(shí)際上，荷蘭只是列寧格勒的一個地區(qū)——新荷蘭）。有趣的是，在這兩部作品中，“太陽”都象征著進(jìn)入“另一個世界”。試比較下例（例③-⑤來自威爾斯，例⑥-⑦來自多瓦托夫）：

③ Пока я мчался таким образом， ночи сменялись днями， подобно взмахам крыльев. Скоро смутные очертания моей лаборатории исчезли， и я увидел солнце， каждую минуту делавшее скачок по небу от востока до запада， и каждую минуту наступал новый день. //當(dāng)我以這種方式飛馳時，黑夜和白天交替出現(xiàn)，就像翅膀的拍打。很快，我實(shí)驗(yàn)室的模糊輪廓就消失了，我看到了太陽，它每分鐘都從東到西跳躍一次，每分鐘都是新的一天。

④ Скоро я заметил， что полоса， в которую превратилось солнце， колеблется то к северу， то к югу""" —" от летнего солнцестояния к зимнему，" —" показывая， что я пролетал более года в минуту， и каждую минуту снег покрывал землю и сменялся яркой весенней зеленью.//很快我就注意到，太陽變成的那條帶子時而向北，時而向南——從夏至到冬至——這表明我每分鐘都在飛行一年多，每分鐘積雪都覆蓋著大地，然后又被明媚的春天綠色所取代。

⑤ Наконец я отвел от него глаза и увидел， что завеса града прорвалась， небо прояснилось и скоро должно появиться солнце. //最后，我把目光從它身上移開，看到冰雹的帷幕被撕裂了，天空晴朗了，太陽應(yīng)該很快就會出現(xiàn)。

⑥" Солнце вставало неохотно. Оно задевало фабричные трубы. Бросалось под колеса машин на холодный асфальт. Блуждало в зарослях телевизионных антенн. В грязном маленьком сквере проснулись одновременно Чикваидзе и Шаповалов.//太陽不情愿地升起。它觸碰著工廠的煙囪。它投射在冰冷的瀝青路面上汽車的車輪下。它在電視天線的叢林中游蕩。在一個骯臟的小廣場上，奇克瓦伊茲和沙波瓦洛夫同時醒來。

⑦" Дома обступили маленький сквер. Бледное солнце вставало у них за плечами. Остатки ночной темноты прятались среди мусорных баков.//房屋環(huán)繞著小廣場。蒼白的太陽從他們身后升起。夜晚的黑暗殘留物隱藏在垃圾桶中。

“太陽” 這一關(guān)鍵詞（терм）是該主題的一部分，其權(quán)重為0.005（見表1）。在威爾斯的作品中，太陽的出現(xiàn)標(biāo)志著時間流逝，象征著主人公在飛往未來的過程中所經(jīng)歷的時間變化（例③-④），以及最終抵達(dá)“另一個世界”的時刻（例⑤）。在多瓦托夫的作品中，太陽的出現(xiàn)也象征著主人公的“頓悟”——他們突然意識到自己身處異國他鄉(xiāng)。此外，威爾斯和多瓦托夫筆下主人公對“另一個世界”的感知也存在著有趣的相似之處，例如多瓦托夫筆下的描述，如例⑧：

⑧ Друзья шли по набережной. Свернули на людную улицу. Поблескивали витрины. Таяло мороженое. Улыбались женщины и светофоры.

—" Посмотри， благодать-то какая！" —" неожиданно воскликнул Шаповалов." —" Живут неплохо，" — поддакнул Чикваидзе." —" А как одеты！ —" Ведь это" —" Запад！ — Кругом асфальт！" Полно машин！ А солнце？！//朋友們沿著河岸走著。他們拐進(jìn)一條繁華的街道。櫥窗閃閃發(fā)光。冰淇淋融化了。女人和交通信號燈都在微笑。

“你看，多好啊！”沙波瓦洛夫突然驚呼道。

“他們生活得不錯，”奇克瓦伊茲表示贊同?！按┑枚嗪冒。　吘?，這是——西方！——到處都是瀝青路！到處都是汽車！還有太陽？！”

威爾斯的描述見例⑨：

⑨" Подбежавший человек показался мне удивительно прекрасным， грациозным， но чрезвычайно хрупким существом... я был весь увешан гирляндами цветов и окружен волнующейся толпой людей， облаченных в светлые， нежных расцветок одежды， сверкавших белизной" обнаженных рук и смеявшихся и мелодично ворковавших.

Мир"瘙爯иного瘙爲(wèi)" воспринимается как олицетворение счастья， где все улыбаются （улыбались женщины и светофоры...; смеявшихся...）， хорошо одеты （а как одеты！; облаченных в светлые， нежных расцветок одежды）.//那個跑過來的人在我看來非常英俊、優(yōu)雅，但又極其脆弱……我渾身掛滿了花環(huán)，周圍圍著一群激動的人，他們穿著淺色的、柔和的衣服，露出的手臂白皙閃亮，他們笑著，低聲細(xì)語。

“另一個世界”被視為幸福的化身，那里每個人都在微笑（女人和交通信號燈都在微笑……；他們笑著……），穿著考究（穿得多好?。?；穿著淺色的、柔和的衣服）。

與美麗的“另一個世界”形成鮮明對比的是黑暗的形象，它象征著“自己的世界”（關(guān)鍵詞“黑暗”的權(quán)重為0.004，見表1）。因此，當(dāng)多瓦托夫的主人公們在經(jīng)歷了一個平常的夜晚（醉酒斗毆、相識、在成堆的木片上宿醉）后醒來，并打算弄清楚自己在哪里時，敘述者說道（見例⑩ ）：

⑩" Остатки ночной темноты прятались среди мусорных баков. //夜晚的黑暗殘留物隱藏在垃圾桶中。

隨著夜幕降臨，威爾斯的這位發(fā)明家終于可以沉浸在自己的世界里，反思他在“美麗新世界”中所看到的一切（見例B11）：

Пока я сидел в сгущавшейся темноте， мне казалось， что этим простым объяснением я разрешил загадку мира и постиг тайну прелестного маленького народа. /當(dāng)我坐在越來越濃的夜色中時，我似乎通過這個簡單的解釋就解開了世界之謎，并領(lǐng)悟了這個可愛的小民族的秘密。

值得注意的是，上述分析的文本與海明威的《老人與?！分g也存在著互文關(guān)聯(lián)，這似乎體現(xiàn)在“晝夜交替”這一母題上。它象征著時間和空間的運(yùn)動：威爾斯的時空旅行者通過觀察太陽和黑暗的交替來感知自己的運(yùn)動軌跡；沙波瓦洛夫和奇克瓦伊茲在經(jīng)歷了平常的夜晚（醉酒斗毆、相識、宿醉）后，隨著太陽的升起，在新荷蘭開始了“新生活”；老人與大海的搏斗也跨越了時間和空間，而晝夜交替則是他們唯一的參照。

圖4顯示了“太陽”（солнц-）和“黑暗”（темн-）這兩個詞素在《老人與?！肺谋局谐霈F(xiàn)的頻率分布，它們在整部作品中成對出現(xiàn)，貫穿始終。

分析結(jié)果表明，多瓦托夫的短篇小說中體現(xiàn)了一些他從閱讀經(jīng)歷中汲取的母題。這些母題的呈現(xiàn)方式有時十分隱晦，難以識別，遑論發(fā)現(xiàn)多瓦托夫與格林、威爾斯、皮利尼亞克或海明威等風(fēng)格迥異的作家作品之間的互文關(guān)聯(lián)了。因此，我們認(rèn)為，人工智能模型在分析大型文本數(shù)據(jù)方面具有重要的啟發(fā)式價(jià)值——分析結(jié)果可以為文學(xué)文本的研究提供新的方向和思路。

6 結(jié)束語

本研究的目標(biāo)是探究多瓦托夫的閱讀經(jīng)歷對其創(chuàng)作的影響，并嘗試回答這樣一個問題：他閱讀過的作品以何種形式體現(xiàn)在他的作品中?；凇澳割}可以表現(xiàn)為重復(fù)出現(xiàn)的主題，可以通過分析具有統(tǒng)計(jì)學(xué)意義的詞匯單位來識別它”這一假設(shè)，我們對多瓦托夫閱讀的作品和他本人的作品進(jìn)行了主題建模分析，嘗試通過統(tǒng)計(jì)重要的詞匯單位來識別潛在的母題。分析結(jié)果部分證實(shí)了我們的假設(shè)：在20個識別出的主題中，有3個主題同時出現(xiàn)在多瓦托夫的作品和他喜歡的作家作品中，盡管兩組文本歸屬于這些主題的概率有所不同。進(jìn)一步的分析表明，這些主題及其關(guān)鍵詞具有一定闡釋性，為我們理解這些風(fēng)格迥異的作品之間的互文聯(lián)系提供了新視角。此外，本研究在一定程度上證明人工智能在文學(xué)文本語義分析框架內(nèi)的潛在效用。

注釋

①A.V. Kolmogorava為“數(shù)字人文：經(jīng)驗(yàn)、問題與前景”會議的特邀專家，經(jīng)協(xié)商將本文作為此次會議推介的譯文。本文翻譯已獲得原作者授權(quán)。原文信息如下：Колмогорова А.В.， Залевская Е.Д. Компьютерное моделирование как инструмент анализа художественного текста［J］. Филологический класс，" 2023（2）：22-33. 限于版面，譯文中僅列出部分參考文獻(xiàn)，具體參見原文。

②譯者注：弱人工智能指的是專注于解決特定任務(wù)的人工智能，例如圖像識別、語音助手等。它能夠在特定領(lǐng)域表現(xiàn)出與人類相當(dāng)甚至超越人類的能力，但缺乏通用智能，無法像人類一樣進(jìn)行推理、思考和創(chuàng)造。強(qiáng)人工智能則是指具備與人類同等甚至超越人類的通用智能的人工智能，它能夠像人類一樣思考、學(xué)習(xí)、理解和解決各種問題。

③譯者注：謝爾蓋·多瓦托夫（Сергей Донатович Довлатов， 1941-1990）著名俄羅斯裔美國作家，以其簡潔、諷刺和幽默的文風(fēng)著稱。出生于蘇聯(lián)，曾做過記者、導(dǎo)游和文學(xué)編輯，1978年移民美國。作品主要以短篇小說和中篇小說為主，內(nèi)容大多取材于他自身的經(jīng)歷和觀察，以冷峻的筆觸描繪了蘇聯(lián)社會現(xiàn)實(shí)和知識分子的生活狀態(tài)。

④譯者注：母題是指在不同作品中反復(fù)出現(xiàn)的主題、意象、人物類型、敘事模式或其他文學(xué)元素，它們以不同的形式呈現(xiàn)，但具有相似的意義和功能，體現(xiàn)了文學(xué)作品之間的互文性和文化傳承。母題的識別和分析有助于深入理解作品的主題、作者的意圖以及不同作品之間的關(guān)聯(lián)性。

⑤譯者注：潛在狄利克雷分配（Latent Dirichlet Allocation，簡稱LDA）算法是基于計(jì)算機(jī)技術(shù)的概率主題模型，用于從文本中發(fā)現(xiàn)抽象主題。該算法假設(shè)每個文本都包含多個主題，每個主題在該文本內(nèi)容中所占的權(quán)重不同，且每個主題都由一組具有特定概率分布的詞語來表示。LDA 算法統(tǒng)計(jì)文本的主題分布和主題的詞語分布，計(jì)算每個文本屬于各個主題的概率，以及每個主題包含各個詞語的概率?；趯W(xué)習(xí)到的概率分布，該算法可以識別文本主題并歸類。

⑥譯者注：文中出現(xiàn)的例子部分提取自子語料庫一，該語料庫由多瓦托夫推薦的35部作品中的31部構(gòu)成，包括《白象似的群山》（歐內(nèi)斯特·海明威 1927）；《群魔》（費(fèi)多爾·陀思妥耶夫斯基 1872）；《九點(diǎn)半的臺球》（赫伯特·歐內(nèi)斯特·貝茨 1959）；《往事與隨想》（亞歷山大·赫爾岑 1868）；《去斯萬家那邊》（馬塞爾·普魯斯特 1913）；《藍(lán)色旅館》（斯蒂芬·克蘭 1958）；《荒年》（鮑里斯·皮利尼亞克 1922）；《石榴鐲》（亞歷山大·庫普林 1911）；《嫉妒》（奧列沙 1927）；《伊甸之東》（約翰·斯坦貝克 1961）；《哥薩克》（列夫·托爾斯泰 1863）；《港口司令》（亞歷山大·格林 1933）；《時間機(jī)器》（赫伯特·威爾斯 1895）；《漂亮朋友》（居伊·德·莫泊桑 1885）；《海上故事》（維克多·科涅茨基）；《我們》（葉夫根尼·扎米亞京 1924）；《繼承人》（列夫·斯拉溫 1930）；《昨日的世界》（斯蒂芬·茨威格 1939）；《平凡的女人》（阿爾卡季·阿韋爾琴科 1917）；《決斗》（庫普林 1905）；《文化的勝利》（米哈伊爾·左琴科 1934）；《紅毛》（阿爾弗雷德·德·維尼 1894）；《塞瓦斯托波爾故事》（列夫·托爾斯泰 1855）；《英雄之死》（理查德·阿爾丁頓 1929）；《老人與?！罚W內(nèi)斯特·海明威 1952）；《暗巷》（蒲寧 1938）；《靜靜的頓河》（肖洛霍夫 1925-1940）；《太陽照常升起》（歐內(nèi)斯特·海明威 1926）；《怪人（故事集）》（第一卷）（阿列克謝·托爾斯泰 1908-1911）；《別人的妻子及床底下的丈夫》（費(fèi)多爾·陀思妥耶夫斯基" 1848）；《驢皮記》（奧諾雷·德·巴爾扎克 1831）。

⑦譯者注：在主題建模分析中，每個文本可能與多個主題相關(guān)聯(lián)，但算法會根據(jù)概率值，確定一個與該文本關(guān)聯(lián)度最高的主題，這個主題就被稱為該文本的主要主題。主要主題是算法認(rèn)為最能概括該文本內(nèi)容的主題。

⑧譯者注：在主題建模中，每個主題都由一組與該主題相關(guān)的詞語構(gòu)成，這些詞語按照其與主題的相關(guān)程度（權(quán)重）排列。每個詞語就是一個“терм”，也就是構(gòu)成主題的關(guān)鍵詞。

參考文獻(xiàn)

Gibson， J. The Ecological Approach to Visual Perception［M］. London： Tailor and Francis， 1986.

Grootendorst， M. BERTopic： NeuralTopic Modeling with a Class-based TF-IDF Procedure［OL］. arXiv：2203.05794， 2022.

Jacobs， T. Tschtschel， R. Topic Models Meet Discourse Analysis： A Quantitative Tool for a Qualitative Approach［J］. International Journal of Social Research Methodology， 2019（22）.

JelisavAcˇG1iAc＇G1， V.， Furlan， B.， ProtiAc＇G1， J.， MilutinoviAc＇G1， C." Topic Models and Advanced Algorithms for Profiling of" Know-ledge in Scientific Papers［P］. Proceedings of the 35th International Convention， 2012.

Koltsov， S.， Pashakhin， S.，" Dokuka， S." A Full-Cycle Me-thodology for News Topic Modeling and User Feedback Research［P］. 10th International Conference on Social Informatics， SocInfo， 2018.

Nikolenko， S.I. Koltcov， S.， Koltsova， O. Topic Modelling for Qualitative Studies［J］. Journal of Information Science， 2017（1）.

Quercia， D. Askham， H.， Crowcroft， J. Tweet LDA： Supervised Topic Classification and Link Prediction in Twitter［P］. Proceedings of the ACM Web Science Conference， 2012.

Ritter， A. Cherry， C. Dolan， B. Unsupervised Modeling of Twitter Conversations［P］. Human Language Technologies： The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics，" 2010.

Schch， C. Topic Modeling Genre： An Exploration of French Classical and Enlightenment Drama［J］. Digital Humanities Quarterly， 2017（2）.

Skorinkin， D.， Orekhov， B. Hacking Stylometry with Multiple Voices： Imaginary Writers Can Override Authorial Signal in Delta［J］. Digital Scholarship in the Humanities， 2023（3）.

Андреев， В.С. "瘙爯Светлый瘙爲(wèi) Лонгфелло： концепт Свет в меняющемся стиле［J］. Известия Смоленского государственного университета， 2019（3）.‖Andreev， V.S. “Light” Longfellow： The Concept of Light in a Changing Style［J］. Proceedings of Smolensk State University， 2019（3）.

Андреев， С.Н. Распределение триграмм в тексте （динамический аспект изучения стихотворного текста）［J］. Квантитативная лингвистика， 2016（4）.‖Andreev， S.N. Distribution of Trigrams in the Text （Dynamic Aspect of Studying Poetry）［J］. Quantitative Linguistics， 2016（4）.

Вахштайн， В. Техника［M］. СПб.： Издательство Европейского университета в Санкт-Петербурге， 2021.‖Vakhshtain，" V." Technology［M］. St. Petersburg： European University Press， 2021.

Мартыненко， Г.Я. Методы математической лингвистики в стилистических исследованиях［M］. Санкт-Петербург： Нестор-История， 2019.‖Martynenko， G.Y." Methods of Mathematical Linguistics in Stylistic Stu-dies［M］. St. Petersburg： Nestor-History， 2019.

Матвеева， Г.В. Функциональные стили в аспекте текстовых категорий： Синхронно-опоставительный очерк［M］. Свердловск： Издательство Уральского университета， 1990.‖Matveeva， G.V. Functional Styles in the Aspect of" Text Categories： A Synchronic-Comparative Essay［M］. Sverdlovsk： Ural University Press， 1990.

定稿日期：2024-10-10【責(zé)任編輯陳慶斌】

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主題建模方法在俄語文學(xué)文本分析中的應(yīng)用