亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的典籍海外接受研究

        2023-12-29 07:36:42張曙康
        中國傳媒科技 2023年12期
        關(guān)鍵詞:語料庫負(fù)面文檔

        張曙康

        (四川大學(xué) 外國語學(xué)院,四川 成都 610200)

        隨著中國文化“走出去”戰(zhàn)略的實施及全球文化交流的加深,典籍外譯作為中外文化交流互鑒的有效方式,尤其是在弘揚傳統(tǒng)文化,提升國家文化軟實力方面扮演著至關(guān)重要的角色。其中《論語》作為儒家經(jīng)典,體現(xiàn)了中華民族的核心價值觀,具有重要的跨文化傳播意義。然而,在典籍“走出去”的過程中,我們不得不面對一系列挑戰(zhàn),如中華典籍的“出口轉(zhuǎn)內(nèi)銷”現(xiàn)象,即不少中華典籍在譯介為外語后,其讀者實際上并非外國人,承載傳播中華文化重任的這些作品很多僅成為中國學(xué)生學(xué)習(xí)翻譯與古文的參考資料。[1]當(dāng)前中華典籍出海,面臨著“走進(jìn)去”與“走下去”的挑戰(zhàn)。[2]

        在傳統(tǒng)的中華文學(xué)海外傳播研究中,學(xué)界的研究思路難以獲知海外讀者對文學(xué)作品的真實接受水平,其原因在于,傳統(tǒng)的譯介研究往往以各國圖書館藏以及專業(yè)學(xué)者的評論作為標(biāo)準(zhǔn),忽視了普通大眾的讀者反應(yīng)。在英國學(xué)者紐曼(Francis W. Newman)看來,大眾的評價標(biāo)準(zhǔn)由于更加符合人類整體與歷史的發(fā)展要求,理應(yīng)被放在更為重要的位置。[3]此外,圖書翻譯出版5R 理論[4]與拉斯韋爾(Harold Lasswell)的5W 模式[5]都同樣指出,譯本在一定規(guī)模的讀者群體中的接受是傳播循環(huán)的一個重要組成部分,否則“一本本堆放在各地高校圖書館里的翻譯成外文的中國文學(xué)、文化典籍”只能落得個“無人借閱、無人問津”的下場。[6]

        近年來,譯介研究陸續(xù)注意到譯本傳播效果中普通讀者評論的缺席,并積極采取實證研究的路徑考察譯本在海外普通讀者中的傳播與接受情況。如張璐首創(chuàng)使用Python 情感分析技術(shù)大規(guī)??疾靵嗰R遜讀者評論,量性結(jié)合地客觀反映海外普通讀者對中國譯介文學(xué)的情感態(tài)度,使得數(shù)據(jù)密集型的文學(xué)出海研究成為可能。[7]后續(xù)的研究者對于《西游記》《紅樓夢》《孫子兵法》《易經(jīng)》《人生》《生死疲勞》等英譯本進(jìn)行了類似的研究,并為中華文化出海也提供了相應(yīng)策略。[8-13]

        然而上述研究者在進(jìn)行評論極性分析時,往往只借助詞頻統(tǒng)計手段來發(fā)掘正、負(fù)面情感評論的關(guān)鍵詞或者主題,如張璐“通過細(xì)讀正向情感中分值排名前10%且評論字?jǐn)?shù)超過30 的264 條評論[4]”來人工發(fā)掘主題,沈國榮、張婕妤“利用 AntConc 語料庫檢索軟件對Goodreads 網(wǎng)站所有正向積極評論的詞頻進(jìn)行統(tǒng)計[6]”,而未能使用更加深入的文本挖掘手段來自動發(fā)掘主題。只有少數(shù)學(xué)者如趙爽、周桂君使用BERT模型[11]與余承法、鄭劍委使用NVivo 軟件實現(xiàn)關(guān)鍵詞、主題的深入提取。[8]而關(guān)于《論語》海外讀者評論的情感分析研究,根據(jù)本文調(diào)查目前國內(nèi)尚無文獻(xiàn),國外僅有一篇,但也只是基于詞頻或獲贊數(shù)的角度來挖掘文本關(guān)鍵詞與主題。[9]鑒于此,本研究借助Python中的nltk,scikit-learn,gensim 等工具包,重點應(yīng)用了vader 情感分析模型以及LDA 主題生成模型,分析了Goodreads 網(wǎng)站上《論語》劉殿爵譯本的在線評論極性情況,其中通過LDA 主題模型分析讀者情感正負(fù)的潛在原因。通過這一研究方法,本文希望為今后中華文化對外傳播研究提供新的思路,推動中華文化在全球傳播中實現(xiàn)更為廣泛和深入的影響。

        1.文本挖掘技術(shù)

        1.1 情感分析

        情感分析指對帶主觀色彩的文本進(jìn)行分析、處理、歸納和推理的過程,最早由麻省理工學(xué)院的Picard 教授在其著作Affective Computing[10]中首次提出,在文本挖掘、輿情研判、產(chǎn)品口碑等領(lǐng)域具有重要的意義。該技術(shù)可有效適配于譯介研究,利用海量在線評論數(shù)據(jù)評判譯本的海外接受情況。目前情感分析方法主要包括三類:(1)情感詞典;(2)基于傳統(tǒng)機器學(xué)習(xí)的方法;(3)基于深度學(xué)習(xí)的方法。

        情感詞典方法是一種基于詞典的無監(jiān)督學(xué)習(xí)的情感分析方法。其基本原理是,首先構(gòu)建一個情感詞典,包含正面詞、負(fù)面詞、程度副詞等,并給每個詞預(yù)先定義一個情感極性權(quán)重。然后對文本進(jìn)行預(yù)處理,包括分詞、詞性標(biāo)注等。接著檢索文本中出現(xiàn)的詞是否在情感詞典中,如果出現(xiàn)則查找其權(quán)重。最后,計算文本中所有情感詞的權(quán)重之和,由此判斷文本整體的情感極性和強度。其主要過程如下圖1 所示[11]:

        圖1 基于情感詞典的計算方法

        傳統(tǒng)機器學(xué)習(xí)方法主要包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三大類。這些方法在處理情感分類任務(wù)時,通常依賴于經(jīng)典的機器學(xué)習(xí)算法,如Pang 等首次使用支持向量機(SVM)與樸素貝葉斯(Naive Bayes)等技術(shù),實現(xiàn)了一個標(biāo)準(zhǔn)的有監(jiān)督機器學(xué)習(xí)方法,將情感識別的準(zhǔn)確率達(dá)到80%左右。[12]

        深度學(xué)習(xí)方法是最近幾年在情感分析領(lǐng)域發(fā)展迅速且效果突出的新興技術(shù)。其在自然語言處理領(lǐng)域的應(yīng)用可以追溯到Bengio 等人的論文[13],他們首先提出使用神經(jīng)網(wǎng)絡(luò)來構(gòu)建文本的語言模型。后續(xù)研究者嘗試了各種不同的神經(jīng)網(wǎng)絡(luò)模型,目的是將文本映射到向量空間得到詞語的分布式數(shù)值表示,再將這些向量表示作為分類器的輸入,完成文本的情感分類。目前主要的深度學(xué)習(xí)模型包括:卷積神經(jīng)網(wǎng)絡(luò)(CNN)[14]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[15]、長短期記憶網(wǎng)絡(luò)(LSTM)[16]或結(jié)合注意機制[17]的4 種方法。此外近年來涌現(xiàn)出的BERT[18]、GPT[19]等預(yù)訓(xùn)練大模型,在情感分析任務(wù)中也取得了可喜的成果。

        盡管基于深度學(xué)習(xí)的路徑為目前最有效的情感分析手段,但該方法需要大量計算資源進(jìn)行訓(xùn)練,這對硬件設(shè)備提出較大要求。因此本文選取了實現(xiàn)難度較低的情感詞典分析模型,調(diào)用nltk 工具包借用基于規(guī)則的vader 情感字典進(jìn)行文本極性打分。

        1.2 TF-IDF 文本向量表示

        作為一種非結(jié)構(gòu)化的數(shù)據(jù),文本不能被計算機直接處理,因此需要對文本建立向量模型來進(jìn)行表示。本研究采用TF-IDF(Term Frequency-Inverse Document Frequency)作為文本向量化方法。其主要思想是根據(jù)詞語在文檔中的頻率以及在整個語料庫中的重要性來表示文本,計算公式如下所示[20]:

        圖2 TF-IDF 算法公式

        其中TFi為詞項i 在文檔d 中的出現(xiàn)頻率;IDFi表示包含詞項i 的文檔|{j :ti ∈ dj}| 占所有文檔|D|的比例的負(fù)對數(shù),可表示該詞項在語料庫中的稀有程度,|{j :ti ∈ dj}| + 1 為數(shù)據(jù)平滑處理的一種手段以免數(shù)據(jù)過于稀疏。TF-IDF 指數(shù)綜合二者,可表示特定詞項在特定文檔中的重要性。

        1.3 LDA 模型

        LDA(Latent Dirichlet Allocation)是由 Blei 等人在2003 年提出的三層貝葉斯概率模型[21],其基本思想在于,每篇文檔都可以由多個主題構(gòu)成,每個主題都由多個詞匯構(gòu)成。在不考慮詞匯出現(xiàn)順序的情況下,LDA 通過學(xué)習(xí)可以構(gòu)建出“文檔-主題分布”以及“主題-詞分布”。目前LDA 已經(jīng)廣泛應(yīng)用于圖書館學(xué)[22]、新聞傳播[23]、經(jīng)濟學(xué)[24]、政治學(xué)[25]等多個領(lǐng)域,為科研動態(tài)分析、輿情演化路徑、推薦方法和用戶行為等研究提供了理論依據(jù)和方法支持。

        訓(xùn)練LDA 模型需預(yù)先設(shè)置三個超參數(shù)α、β 和主題數(shù)k。α 是文檔-主題分布的先驗超參數(shù),β 是主題-詞分布的先驗超參數(shù),通常設(shè)置為默認(rèn)值即可。主題數(shù)k 是模型的一個關(guān)鍵超參數(shù)。設(shè)置過小會導(dǎo)致主題過于泛化,設(shè)置過大會導(dǎo)致模型過擬化。而k 的選擇可以通過計算困惑度來確定,困惑度能反映模型對新樣本的預(yù)測能力。困惑度越低,表示模型對新樣本的概率分布預(yù)測越準(zhǔn)確。困惑度的計算公式如下所示。[26]

        圖3 LDA 模型困惑度公式

        其中,D 表示文檔集合,M 是文檔個數(shù),Wd 表示第d 個文檔中的詞集合,P(Wd)表示在文檔d 中詞W 的概率。通常隨著LDA 模型主題數(shù)量k 的增加,困惑度呈遞減趨勢,因此可以訓(xùn)練多個不同主題數(shù)的LDA 模型,比較其在給定訓(xùn)練集上的困惑度,然后選擇困惑度較低且主題數(shù)相對較少的LDA 模型作為最優(yōu)模型。

        2.研究步驟

        借助Python 的Scrapy 庫與Selenium 庫模擬用戶操作實現(xiàn)頁面動態(tài)爬取,總共在Goodreads 網(wǎng)站上獲得劉殿爵譯本評論數(shù)據(jù)一共952 條(截至2023 年5 月),每條數(shù)據(jù)主要得到了以下評論信息:用戶名、用戶評論、評論時間、評論星級、評論獲贊數(shù)。在此步驟后,對數(shù)據(jù)進(jìn)行初步宏觀評估,即統(tǒng)計評論數(shù)量每年的增速以及累計的譯本評論數(shù)量,并實現(xiàn)圖表可視化處理。借助python 的matplotlib 與pandas 庫可實現(xiàn)該項操作

        前往“百度開放翻譯平臺”注冊賬號,并且獲取APP ID 以及密鑰。接著使用python 編程語言借助requests 庫與hashlib 庫,憑借注冊好的ID 與密鑰調(diào)用百度翻譯的開放接口,從而將多語種用戶評論統(tǒng)一翻譯為英文。并且通過python 的re 庫和pandas 等庫,僅保留英文單詞數(shù)為30 個以上的評論(596 條)以確保數(shù)據(jù)質(zhì)量。

        根據(jù)nltk 內(nèi)置的基于規(guī)則的vader 情感分析器對讀者評論極性打分,打分結(jié)果為正值、負(fù)值、零。本文將讀者評論情感分值大于0 的劃分為正面評論語料庫(522 條)、小于0 的則為負(fù)面評論語料庫(63條)。在此步驟后,同樣對數(shù)據(jù)進(jìn)行初步宏觀評估,即統(tǒng)計所有評論年均的情感分值得分,并實現(xiàn)可視化處理。同樣借助python 的matplotlib 與pandas 庫實現(xiàn)該項操作。

        對讀者主觀的星級評定與情感分析得分進(jìn)行皮爾森相關(guān)性測試,發(fā)現(xiàn)相關(guān)度系數(shù)約為0.30、 p 值<0.01 說明二者顯著相關(guān),這也意味著統(tǒng)一為英文之后評論的情感分析得分和用戶評分的趨向是一致的,從側(cè)面交叉證明了vader 情感分析器的有效性。

        對正面、負(fù)面評論語料庫都實行文本預(yù)處理,總共包括去除標(biāo)點符號與其他特殊符號,去除常用英語停用詞,對語料進(jìn)行詞形還原三個步驟。值得注意的是,直接進(jìn)行詞形還原效果一般,因此需要對詞項進(jìn)行詞性標(biāo)注(POS)后再進(jìn)行詞形還原。去除特殊符號的正則表達(dá)式為pattern = r’[^a-zA-Zs]’表示將除了英文字母與空白符之外的符號全部去除,停用詞表為nltk 自帶常見英文停用詞,詞性標(biāo)注使用nltk 的方法pos_tag,詞形還原器同樣來自nltk 的WordNetLemmatizer 模塊。此外劃分好語料庫且文本預(yù)處理之后,借助wordcloud 等庫繪制正、負(fù)面語料庫的詞云圖,從而獲得語料的宏觀信息概覽。

        預(yù)處理之后的語料,便可進(jìn)行TF-IDF 向量化,從而適應(yīng)LDA 模型對結(jié)構(gòu)化數(shù)據(jù)的需求。TF-IDF 向量化步驟借助了sklearn 的TfidfVectorizer 模塊,LDA模型同樣來自sklearn 的LatentDirichletAllocation 模塊。由于LDA 模型需要根據(jù)數(shù)據(jù)集計算困惑度(perplexity)從而得出最佳的主題數(shù)k,因此在該步驟本文借助gensim 的LdaModel 模塊實現(xiàn)困惑度的獲取,并借助matplotlib 實現(xiàn)困惑度——主題數(shù)的可視化。

        對于正向評論語料庫,使用LDA 模型發(fā)掘文檔集合中潛在的主題;由于負(fù)面評論語料庫較小,直接以人工提取負(fù)面評論中的主題信息。而LDA 模型的參數(shù)分別為:n_components= 5(根據(jù)困惑度結(jié)果,最佳的主題個數(shù)為k=5),max_iter=100,learning_method='batch'。

        3.研究結(jié)果

        本文研究結(jié)果分為兩個部分:第一為研究的宏觀結(jié)果即評論信息的總體情況,如評論數(shù)量、年均情感分值及評論總體詞云圖等;第二為微觀信息的挖掘,在該步驟具體應(yīng)用LDA 模型實現(xiàn)正面評論信息的深度提取,并對負(fù)面評論語料信息進(jìn)行文本細(xì)讀。

        3.1 評論信息宏觀結(jié)果

        3.1.1 評論、情感極性趨勢

        如下圖4所示。自2007年Goodreads網(wǎng)站創(chuàng)立以來,《論語》劉殿爵譯本的累計評論數(shù)量不斷攀升,其增速也一直穩(wěn)步前進(jìn),僅在2016-2018 年有小幅回落,但是在2020-2023 年間達(dá)到頂峰并保持著每年90 評論左右的增長速度??梢?,隨著中國的和平崛起,其文化影響力也穩(wěn)步提升,或印證著亨廷頓的觀點:一個國家的文化影響力在很大程度上取決于其在國際舞臺上的地位和實力。[27]此外圖5 年均情感分值趨勢圖顯示,海外讀者對于《論語》劉殿爵譯本的總體情感分值一直維持在一個較高的水平,處在0.5 ~1.0 正面評價區(qū)間之內(nèi),可見外國讀者普遍對《論語》持正面態(tài)度。

        圖4 評論數(shù)量信息

        圖5 年均情感分值趨勢圖

        3.1.2 基于詞云圖的評論信息挖掘

        基于情感分值,評論語料被劃分為正面與負(fù)面兩種,其中正面占大多數(shù)有562條評論,而負(fù)面則為63條。如下圖6 所示,Confucius、Book 是兩個詞云圖中最凸顯的內(nèi)容。在正面詞云圖中,good、time、read 等詞顯著可見,可見讀者對儒家文化的熱衷,認(rèn)為儒家學(xué)說是歷經(jīng)了時間考驗的經(jīng)典,值得常常閱讀;而鑒于負(fù)面語料庫評論較少,故暫不做分析,待下文將其進(jìn)行文本細(xì)讀,集中發(fā)掘負(fù)面語料之主題。

        圖6 正、負(fù)面語料庫詞云圖(左正右負(fù))

        3.2 讀者評論信息微觀挖掘

        3.2.1 LDA 困惑度

        如上文所述LDA 模型的困惑度(perplexity)是一種衡量模型效果的指標(biāo),一般困惑度越低,代表模型的性能越好。本文在文檔數(shù)據(jù)TF-IDF 向量化之后,選用gensim 的LDA 模型進(jìn)行訓(xùn)練,候選主題數(shù)在[2,50]的區(qū)間之內(nèi)。借助LDA 模型的log_perplexity方法與一個for循環(huán),用matplotlib庫繪制了如下主題數(shù)、log 困惑度如折線圖7。

        圖7 主題數(shù)、困惑度折線圖

        一般而言,困惑度隨著主題數(shù)的增加會一直下降,但是過多的主題數(shù)會導(dǎo)致模型過擬合,因此選擇主題數(shù)k 要在低困惑度與過擬合之間達(dá)到平衡。折肘法認(rèn)為在困惑度出現(xiàn)顯著拐點時的k 值為最佳主題數(shù)。然而觀察下圖并未出現(xiàn)顯著拐點,故取常用的默認(rèn)k 值=5 為最優(yōu)主題數(shù),以免k 值過大導(dǎo)致模型過擬合。[28]

        3.2.2 基于LDA 主題模型的主題詞生成

        鑒于負(fù)面評論語料庫只有63 條評論,因此本文調(diào)用機器學(xué)習(xí)庫sklearn,僅對預(yù)處理、TF-IDF 向量化之后的正面評論語料庫(522 條)用LDA 模型進(jìn)行訓(xùn)練,并取主題數(shù)k=5 為最優(yōu)主題數(shù)。最終生成文檔——主題分布、主題——詞分布如表1、2 所示。

        表1 正面評論文檔——主題概率分布分布

        如表1 所示,522 個評論文檔由不同概率的主題所構(gòu)成,并且第5 個主題的主題強度遠(yuǎn)遠(yuǎn)大于其余主題。因此本文的第5 個主題單獨使用一個y 軸表示,并整理年均評論文檔主題強度為圖8 所示。再結(jié)合表2 的5 個主題,可知正面評論語料庫中占主導(dǎo)地位的主題,從2007 年至今一直為第5 個主題“論語的哲學(xué)智慧”,圍繞著關(guān)鍵詞Confuciusanalectsphilosophy的是一系列的正面詞匯如goodlike hink ime 等??梢姫毺氐臇|方典籍對于海外讀者確實具有莫大的吸引力,在對《論語》的閱讀與思考中(read & think),這些讀者孜孜不倦地求索著古老的中國哲學(xué)智慧(philosophy),并且這種獨特的思想體系,經(jīng)時間(time)的洗禮在當(dāng)代仍煥發(fā)著活力。此外其余四個主題,主要涉及論語內(nèi)容艱深如“君子之德風(fēng),小人之德草,草上之風(fēng)必偃(grass,wind,blow,bend)”需要集中注意力(concentrated,coffee)才能理解,不同譯本如由UNESP 圣保羅州立大學(xué)出版的Giorgio Sinedino 譯本、意大利譯者Lippiello 教授的譯本,涉及對于孔子本人的敬仰(wiseguy,transcendental,wellhoned)。

        表2 正面評論語料主題——高概率主題詞分布

        圖8 不同主題強度趨勢圖

        此外主題中似乎也出現(xiàn)了一些代表負(fù)面情緒的詞匯如criticize、ugly、underperform 等,但是需要注意的是本文所分析的語料為實時提取的在線評論,因此在語料的整體趨勢已經(jīng)明確的情況下,即作為語料的主導(dǎo)主題“《論語》哲學(xué)智慧經(jīng)久不衰”顯示大部分讀者對孔子、《論語》以及獨特的東方哲學(xué)表達(dá)贊美之情的情況下,個別負(fù)面詞匯可以忽略不計。此外,盡管上述主題取自正面評論語料庫,但是vader 情感分析模型的識別正確率不能100%的保證,因此會有少許負(fù)面情感評論被錯誤識別。最后,本文將上述負(fù)面詞匯作為關(guān)鍵詞在原始正面語料中進(jìn)行檢索(由于上文已經(jīng)實現(xiàn)了詞形還原,所以在檢索時需注意定位這些詞匯的不同形式),結(jié)果顯示這些詞匯實際上常常表示為贊美,只是讀者評論的語境較為復(fù)雜,如:

        例1:There is nothing transcendental in Confucius. I give him an extra star for never underperforming his wellhoned wise-guy act,because he would have been an entertaining guy to sit at the feet of; but only in China is that enough to base a religion on!—— Ravanagh Allan

        例2:Before me,I often criticized Confucianism for being oppressive,frustrated,and restrained. In fact,I shouldn’t have avoided reading the Four Books and Five Classics because of this. Moreover,when I was a child,there were many things that I couldn’t understand. Now I have enough wisdom and clarity to relearn Confucianism,A philosophy without value cannot last for 2500 years. —— H.

        3.2.3 負(fù)面語料庫文本細(xì)讀

        對63 條評論進(jìn)行細(xì)讀,發(fā)現(xiàn)其中有1 條為重復(fù)評論故剔除。在剩余的62 條評論中僅20 條評論情感分類錯誤,即情感為正面或中立的評論被評定為負(fù)面,情感分析的正確率高達(dá)67.7%。此外,再次細(xì)讀20 條情感分類錯誤的評論,其分類錯誤原因分為兩點:一是評論中引用《論語》譯文過多,針對在線評論設(shè)計的vader 情感分析器不能很好適應(yīng);二是對于那些褒貶參半的中立評論,vader 不能察覺其微妙的立場而將其劃分為負(fù)面評論,例如:

        例3:直接引用:

        “The things which weigh heavily upon my mind are these—failure to improve in the virtues,failure in discussion of what is learnt,inability to walk according to knowledge received as to what is right and just,inability also to reform what has been amiss.”——d

        德之不修,學(xué)之不講,聞義不能徙,不善不能改,是吾憂也——(《論語·述而》)

        例4:褒貶參半

        Rating it as 4 stars not because I agree with everything in it,but because it is generally thought provoking and provides a lot of insight into Asian thought. As a student of Asia broadly,and a resident of South Korea for the last 4 years,it’s amazing how much these teachings still underpin Asian societies today. That said,obviously I don’t agree with everything,and quite a few of the proverbs/parables cannot be understood without proper context. I think next up I’ll have to read a commentary or something to get some of the missing context. Either way,it’s a must-read to understand Eastern thought.——Ian Wagner

        而至于剩下的42 條負(fù)面評論,經(jīng)過細(xì)讀可以分為五類:

        其一為對《論語》對話片段式的文體不滿,認(rèn)為《論語》的行文上下并不連貫,缺乏嚴(yán)謹(jǐn)?shù)倪壿嬚撟C,且格言式的警句經(jīng)不起推敲以至于讀起來十分費解與無聊,其中讀者的關(guān)鍵詞主要為:conflicting ideas,repetitive,choppy,disjointed,bored,couldn't understand,lost,confounding,preached and not reasoned,fragmentary,confusing and nonsensical,disorganized。此類一共有29 條,占所有負(fù)面評論約69.0%的比例。

        其二為對翻譯質(zhì)量的不滿,此類一共6 條,占所有負(fù)面評論比例約14.3%,例如:

        例5:Some very interesting thoughts and sayings,though a lot of it is political and there are a lot of Chinese names which can be confusing and a little boring. I also wasn’t thrilled with the translation. I prefer the translation found in the textbook I use with my 10th graders (Arthur Waley).——Lisa

        其三為對《論語》內(nèi)容的失望所導(dǎo)致的不滿,認(rèn)為《論語》宣揚的理念只不過是日常生活中的倫理常識,在今天的社會中無甚新意、過于簡單。此類評論一共有6 條,占所有負(fù)面評論比例約為14.3%,例如:

        例6:…This book just scratching the surface. There is no answer,or fundamental thoughts but teachings,which are way out of focus of today…——Silence

        例7:…Not as good as I was hoping. A lot of the passages were anecdotes that didn’t seem totally relevant. Some of them were very good - I did bookmark a lot of pages - however nothing was life changing or something that I hadn’t already read and/or thought of myself…——Anna

        其四為對《論語》中所宣揚信條的不滿,認(rèn)為“君君臣臣父父子子”的綱常理論嚴(yán)重限制了東亞社會的發(fā)展。此類評論一共5 條,占所有負(fù)面評論約11.9%的比例,例如:

        例8:…Unfortunately,there is mischief about childish piety in front of their parents,dated whining about sacrifices and rituals,references to lost traditions,misogynistic passages and even material that you may wonder if they were not added by mistake…——Gijs Grob

        最后為其他類,一共2 條,占比約4.8%,主要包括對劉殿爵譯本的編排不滿,與選文及注釋的不滿,例如:

        例9:A slim,disappointing primer on Confucius’famous Analects. The selections are skimpy and their annotations,in spite of the authoritative source,just as limited. A dead-end to the sage,not the proverbial Path.——Dan Lalande

        結(jié)語

        本研究使用Python 中的Scrapy 和Selenium 兩個庫爬取了Goodreads 網(wǎng)站劉殿爵《論語》譯本的評論信息。并且由于原始評論包括多國語言,先使用百度翻譯api將所有評論翻譯成英文。然后保留長度超過30 個英文單詞的有效評論596 條。接下來使用nltk 中的vader情感分析器對評論進(jìn)行情感極性打分,根據(jù)正負(fù)分值將評論劃分為正面評論(522 條)和負(fù)面評論(63 條),并且通過皮爾森相關(guān)性檢驗發(fā)現(xiàn)情感評分與讀者主觀打分的相關(guān)系數(shù)為0.30(p 值<0.01),說明情感分析結(jié)果有效。最終情感分析準(zhǔn)確率達(dá)到67.7%。并且使用詞頻統(tǒng)計和詞云可視化手段對評論數(shù)據(jù)進(jìn)行了宏觀的初步探索。

        宏觀數(shù)據(jù)顯示,從2007 年Goodreads 網(wǎng)站開始創(chuàng)立至今,《論語》劉殿爵譯本已累積增加到952 條(數(shù)據(jù)截至2023 年5 月)。近3 年(2020—2023 年)平均增速保持在每年約90 條的較高水平。此外從2007年至今,各年度評論的平均情感分值均在0.5-1 之間,符合正面評價的范圍。即使是評論數(shù)量增幅較小的2016—2018 年,平均分值也控制在0.6 以上。由此可見,隨著中國國力提升和對外開放程度加深,《論語》這本中華典籍獲得了持續(xù)增長的國際關(guān)注度,其英譯本的評價保持樂觀。

        在信息微觀挖掘方面,本文將預(yù)處理之后的正面評論語料庫文本,進(jìn)行TF-IDF 向量化的步驟,即將文本轉(zhuǎn)化為向量空間上的數(shù)值表示。然后將向量化結(jié)果輸入LDA 主題模型進(jìn)行訓(xùn)練,設(shè)定最優(yōu)主題數(shù)為k=5。LDA模型結(jié)果顯示,在5 個主題中,關(guān)于論語哲學(xué)智慧的討論是評論的主導(dǎo)主題,占比遠(yuǎn)超過其他主題。從2007年開始,這一主題的評論量一直保持增長,反映出論語核心價值觀的吸引力。在負(fù)面評論細(xì)讀方面,本文發(fā)現(xiàn)vader 情感分類的準(zhǔn)確度為67.7%。分類錯誤的原因主要來自評論中包含大段的引文導(dǎo)致判錯以及中立評論無法判斷等。這進(jìn)一步說明,該情感分析技術(shù)可有效應(yīng)用于在線評論文本的處理。此外,負(fù)面評論集中為對《論語》文體(69.0%)、翻譯質(zhì)量(14.3%)、內(nèi)容深度(14.3%)、《論語》信條(11.9%)等方面的批評。這為譯本的優(yōu)化提供了具體的改進(jìn)方向。

        綜上所述,本研究證明了利用Python 和相關(guān)的文本挖掘工具評估中華典籍國際傳播效果的可行性。后續(xù)研究可以通過擴大樣本規(guī)模、采用預(yù)訓(xùn)練語言模型等方式提高主題挖掘的準(zhǔn)確度,并進(jìn)行跨語言/跨譯本的對比研究,以獲得更豐富的研究結(jié)論,為進(jìn)一步推進(jìn)中華文化“走出去”提供決策支持。

        猜你喜歡
        語料庫負(fù)面文檔
        有人一聲不吭向你扔了個文檔
        《語料庫翻譯文體學(xué)》評介
        負(fù)面清單之后的電改
        能源(2018年8期)2018-09-21 07:57:22
        遠(yuǎn)離負(fù)面情緒
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        語料庫語言學(xué)未來發(fā)展趨勢
        成人在线激情网| 美女扒开大腿让男人桶 | 午夜理论片yy44880影院| 亚洲另类自拍丝袜第五页| 国产大片中文字幕| 在线不卡精品免费视频| 久久精品成人一区二区三区| 在线精品一区二区三区 | 人人爽久久涩噜噜噜av| 男人天堂免费视频| 高清亚洲精品一区二区三区| 极品粉嫩小仙女高潮喷水网站 | 视频在线国产一区二区 | 亚洲中久无码永久在线观看同| AⅤ无码精品视频| 久久国产精品美女厕所尿尿av| 少妇被躁到高潮和人狍大战| 久久久久亚洲av无码a片| 亚洲av无码潮喷在线观看| 中文字幕av一区二区三区| 亚洲无av码一区二区三区| 国产成人a级毛片| 少妇人妻200篇白洁| 在线免费毛片| 国产av一区二区三区国产福利| 亚洲女优中文字幕在线观看| 挺进朋友人妻雪白的身体韩国电影| 四虎精品成人免费观看| 中文字幕中文字幕人妻黑丝| 日出白浆视频在线播放| 亚洲精品无码av中文字幕| 久久精品免视看国产盗摄| 熟女少妇av一区二区三区| 久久亚洲av成人无码电影a片| 久久精品国产亚洲av成人| 亚洲中文字幕有综合久久| 人妻少妇不满足中文字幕| 99re8这里有精品热视频免费| 久久精品性无码一区二区爱爱| 中文字幕在线亚洲精品一区| 午夜免费啪视频|