張 敏, 李 野
(西南民族大學外國語學院, 四川 成都 610041)
美國學者H·拉斯維爾在《傳播在社會中的結構與功能》一文中[1],提出了構成傳播過程的五種基本要素,形成了后來人們稱之“五W 模式”過程模式.這五個W 分別是英語中五個疑問代詞的第一個字母,即: Who (誰)、 Says What (說了什么)、 In Which Channel (通過什么渠道)、 To Whom (向誰說)、 With What Effect (有什么效果). 目前為止,對少數民族文學對外傳播的研究,往往只注重前面兩個W,也就是注重選擇經典的少數民族文學作品(Who),然后花大力氣將其翻譯后對外傳播(Says What). 對后面的三個W(In Which Channel,To Whom,With What Effect)也就是通過何種渠道何種方式對外傳播,對不同地區(qū)不同文化背景和不同宗教背景是否選擇合適的傳播途徑和傳播形式,尤其是傳播效果如何等等這些研究都關注較少.
目前大家更重視選擇少數民族文學作品和注重少數民族文學翻譯過程,但是作品在翻譯完成后是否達到預定的傳播效果,這方面的研究鮮有所見. 如果不了解受眾的反饋信息就會導致自說自話,達不到預定的目的也無從改進,因此關于受眾信息反饋需要進一步深入研究.
本文擬通過網絡爬蟲收集西方主要購書網站和書評網站針對相關少數民族文學作品的評論數據,并對這些評論數據進行數據挖掘和情感分析,以期找到少數民族文學對外傳播中的經驗和存在的問題.
關于“少數民族文學”外譯相關研究:魏清光教授[2]指出少數民族文學作品對外翻譯的必要性性:少數民族文學作品更能代表中國的傳統價值觀,能夠向世界傳遞中國和平發(fā)展的意愿和能力.同時魏教授為如何系統的輸出少數民族典籍從多個方面進行了規(guī)劃.通過魏教授研究我們可以知道少數民族文學對外傳播重點在功能路徑上[3],雖然向與中國關系不好的國家傳播中華文化難度較大,但如果能有效對向外譯介中國典籍文化可以起到緩和矛盾、沖突、誤解等的文化功能作用.魏教授這一研究也為本項目明確數據調查對象指明了方向,就是少數民族典籍對外傳播的主要對象是目前跟我們國家關系不太好但又在國際有影響力的大國. 比如印度,印度是我們國家的重要鄰居,但也對我們國家充滿的敵意,如果能夠順利推動少數民族經典作品向印度普通民眾推廣,傳遞中華民族和平發(fā)展、互利共贏的理念對增進彼此相互了解和溝通,從而對兩國和平共處起到促進作用.
魏清光教授等[4]明確指出少數民族文學對外譯介存在“輸出渠道單一、輸出效能不理想”的問題. 從該文獻可以知道,目前我們的少數民族文學對外譯介大多都依賴出版渠道,通過書籍的方式傳播,這種形式過于單一不便于推廣.曾路[5]指出少數民族文化對外傳播方面除了使用傳統的媒體外,也應該通過新媒體技術“網絡, 數字化視頻、 音頻媒介系統,手機信息服務, 桌面視窗、 觸摸媒介”促進少數民族文化對外傳播.隨著科技的進步,尤其是互聯網的發(fā)展,新媒體強勢崛起的背景下找到受眾國家民眾普遍使用且接受的傳播形式正是本項目重點解決的問題之一.李敏杰[6]通過模因理論得出了民族典籍外譯經歷同化、記憶、表達和傳播四個階段. 同時李教授根據模因理論指出少數民族文學作品對外譯介要注重“研究西方讀者的接受心理和閱讀趣味,了解他們的思想價值觀念、 讀譯作的目的、對譯作的評價等”,他同時指出只有譯者做到“知己知彼” ,才能使自己的譯作被他文化中的讀者所接受. 從李教授的研究可以得知,通過一定的方式收集和分析國外讀者態(tài)度和評價、意見和建議對有效推動少數民族典籍對外傳播非常必要.
關于網絡爬蟲相關研究:網絡爬蟲又稱網絡蜘蛛,是指按照某種規(guī)則在網絡上爬取所需內容的腳本程序.眾所周知,每個網頁通常包含其他網頁的入口,網絡爬蟲則通過一個網址依次進入其他網址獲取所需內容.通過網絡爬蟲分析網絡數據的相關研究非常多,例如[7]通過Python 編寫爬蟲獲取微博評論,以此發(fā)現輿情演變規(guī)律和潛在風險,為輿情引導提供決策支持.隨著移動互聯網的發(fā)展和普及,如何在移動互聯網環(huán)境下獲取數據也是網絡爬蟲新的研究領域[8].介紹了一種系統將網絡爬蟲技術和數據分析以及Android 相結合起來并利用現有的技術設計一種校園輿情分析的系統.
Python 是一種開發(fā)語言,在人工智能、數據分析、網絡爬蟲等領域具有其他現有語言不可替代的優(yōu)勢.基于Python 的網絡爬蟲[9]由調度器、URL 管理器、下載器、網頁解析器、應用程序五個部分組成,具體如圖1 所示. 調度器是爬蟲程序的中樞系統,主要負責其他四個部分的工作;URL 管理器包括所有的URL 地址,包括已經爬取的地址和未爬取的地址便于調度器管理哪些地址已經爬??;網頁下載器是下載未爬取的URL 地址網頁,在Python 中的urllib2 已經實現網頁下載器的部分功能;網頁解析器首先網頁下載器下載后得到的網頁字符串進行解析,用戶可以根據需求提取出相關信息;各種應用是指從網頁中提取的用戶想要數據的應用程序.
圖1 基于Python 的網絡爬蟲總體框架Fig.1 The general framework of web crawlers based on python
Scrapy 是一個應用程序框架,可以實現遍歷爬行網站、分解獲取數據. 其應用非常廣泛,諸如數據挖掘、信息處理等等,具體如圖2 所示.
圖2 Scrapy 架構圖Fig.2 The structure of Scrapy
Scrapy 執(zhí)行過程由執(zhí)行引擎完成控制,具體過程如下[10]:
①引擎從Spiders 中獲取到最初的要爬取的請求;
②引擎安排請求到調度器中,并向調度器請求下一個要爬取的請求;
③調度器返回下一個要爬取的請求給引擎;
④引擎將上步中得到的請求通過下載器中間件發(fā)送給下載器,這個過程中下載器中間件中的process_request()函數會被調用到;
⑤上一步完成后,下載器生成一個該頁面的Response,并將Response 通過下載中間件調用process_response()函數,將Response 傳送給引擎;
⑥引擎得到Response 后,通過Spider 中間件調用process_spider_input()函數發(fā)送給Spider 處理;
⑦Spider 處理Response 請求,完成后通過Spider中間件返回爬取到Item 及新的請求給引擎;
⑧引擎將上步中Spider 爬取到的Item 給管道,將Spider 處理的請求發(fā)送給調度器,并向調度器請求可能存在的下一個要爬取的請求;
⑨重復執(zhí)行直到調度器中沒有更多的請求.
區(qū)別于靜態(tài)數據,由于本文中涉及到的網絡留言是動態(tài)數據,需要找到一種工具能收集動態(tài)頁面數據,Selenium 就是其中較為杰出代表[11]. Selenium 是一個基于瀏覽器的自動化工具,它提供了一種跨平臺、跨瀏覽器的端到端的web 自動化解決方案. Selenium 測試直接運行在瀏覽器中,就像真正的用戶在操作一樣,可以模擬瀏覽器進行網頁加載,網絡爬蟲工具下使用Selenium 針對動態(tài)頁面非常有效.
在完成數據收集后,對數據有效分析也是關鍵問題之一. 本文中收集到的數據可以依靠Pandas 工具[12],pandas 是基于NumPy 的一種工具,Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具.pandas 提供了大量能快速便捷地處理數據的函數和方法. 正是由于pandas 的存在,才能使Python 成為強大而高效的數據分析環(huán)境的重要因素之一,本文可以使用Pandas 對網絡爬蟲收集到的數據進行進一步分析和處理.
在完成數據收集和分析之后,需要對數據進行進一步挖掘[13-14],例如本文中的評論數據,如何判斷該評論是正面還是負面,抑或是中性? 需要對收集到的文本進行情感計算.又由于本文所收集的文本以英文為主,本文中使用Python 中的TextBlob 工具,該工具可以為本文在文本挖掘和分析上提供支撐. TextBlob工具是一個用Python 編寫的開源的文本處理庫.它可以用來執(zhí)行諸多自然語言尤其是英語的處理任務.比如英文詞性標注,英文名詞性成分的提取,英文文本情感的分析,英文文本翻譯等等強大功能. 本文中使用TextBlob 對英文進行簡單情感分析,以此來判斷讀者對翻譯文獻的評價和態(tài)度.
TextBlob 主要針對英文,如果要分析中文文本可以使用SnowNLP 工具.該工具與TextBlob 類似,方便處理中文文本的情感分析.
在本節(jié)中,我們將詳細介紹實驗平臺搭建方案和具體實現流程.為下一步具體實施奠定基礎. 由于亞馬遜評論詳情頁是動態(tài)加載,本文擬通seleninum 進行模擬用戶行為,爬取,然后用pandas 寫入csv 文件,解決亂碼和無序問題.
操作系統:Windows10.
開發(fā)環(huán)境:PyCharm Community Edition.
開發(fā)語言:Python2.7、pip 工具.
瀏覽器軟件:Firefox 瀏覽器(版本55. 0)以及Firefox 插件FirePath.
其他工具:selenium 3.7.0,scrapy 1.4.0,并通過pip 工具在scrapy 環(huán)境中安裝selenium.
3.2.1 獲取目標網址
首先定位到需要分析的書所在網頁,例如亞馬遜網站中著名藏族文學家阿來創(chuàng)作的《格薩爾王傳》,由著名漢學家葛浩文翻譯的英文版《The Song of King Gesar》.由于加載評論的頁面被封裝起來,可以使用瀏覽器開發(fā)者工具獲取保存評論的頁面,然后用正則表達式獲取有效數據內容,去除無用部分.
3.2.2 爬蟲框架的選用
選擇python 的scrapy 模塊爬取,同時需要加載上selenium 工具.具體步驟可以參考2.2 節(jié)所示.
3.3.1 數據存儲
將爬蟲收集到的數據存儲于數據庫對后面的數據分析和挖掘非常關鍵,由于本文中采集的數據量較少,數據庫可以選用mysql.
3.3.2 數據清洗
由于網絡爬蟲收集到各種各樣數據,并不一定是想要的,在此步驟需要通過正則表達式將數據進行清理,刪除無效數據,確保后面數據分析和數據挖掘的準確性.
3.3.3 數據初步分析
在完成上述步驟后,利用TextBlob 對真實用戶文本數據進行挖掘,初步判斷用戶對待各種作品的態(tài)度和評價.
本文將少數民族文學作品外譯過程中用戶態(tài)度和評價作為研究目標.擬通過網絡爬蟲對國外主要購書網站和書評網站相關的評論數據進行收集,然后對數據進行處理后進一步挖掘和情感分析,以期找到少數民族文學對外傳播中的經驗和存在的問題.本文以亞馬遜網站為例,針對其特點重點介紹該類網站的網絡爬蟲框架和具體實施步驟,下一步將對具體細節(jié)進一步完善,將收集到的數據分析整理后,為少數民族文學作品對外譯介過程提供有價值的建議.