陳曉霞
(北京華文學院 華僑華人與華文教育研究中心,北京 102206)
從2007年3月《漢語國際教育碩士專業(yè)學位設置方案》的發(fā)布迄今,漢語國際教育碩士(以下簡稱漢碩)培養(yǎng)已經(jīng)走過了十余年的旅程。雖然全國漢語國際教育碩士專業(yè)學位教育指導委員會陸續(xù)公布了《漢語國際教育碩士專業(yè)學位研究生指導性培養(yǎng)方案》(2007年)和《全日制漢語國際教育碩士專業(yè)學位研究生指導性培養(yǎng)方案》(2009年),詳細說明了設置核心課程、拓展課程和訓練課程的要求,然而對作為教學環(huán)節(jié)中必不可少的教材問題,在課程體系中卻并未有統(tǒng)一規(guī)定或要求。(1)季薇.面向國際漢語師資培訓的漢語語言學教材研發(fā)問題初探[J].人文叢刊,2012,(0).因此,各培養(yǎng)單位及教師或自編教材,或尋求替代教材,或用以往培養(yǎng)研究型碩士的相關課程教材取而代之,(2)趙金銘.漢語國際教育碩士專業(yè)學位課程與教材研究[J].國際漢語教育,2015,(1).各單位之間也出現(xiàn)了課程名稱相同,使用的教材卻不相同,甚至上下屆學生使用的教材都有差異的混亂局面。
直至2014年,外語教學與研究出版社出版了由趙金銘教授擔任總主編,北京語言大學、復旦大學、南開大學、北京大學和華東師范大學相關領域的中青年學者參與編寫的《漢語國際教育碩士系列教材·核心課教材》(6冊),才終結了之前缺乏核心課程系列教材的困境,“這套教材的設計編寫與出版,不僅僅是一項從無到有的開拓性工作,更是一項在漢語國際教育碩士專業(yè)學科研究和教材建設中具有創(chuàng)新示范意義的重要成果?!?3)李泉.漢語國際教育碩士專業(yè)建設的開拓性成果——讀趙金銘總主編MTCSOL系列核心課教材[J].國際漢語教育,2015,(2).作為唯一的國際漢語教育碩士套系教材,它不僅是國際漢語教師證書考試的參考用書,(4)《跨文化交際》被列入《國際漢語教師證書》考試參考書目。也是很多培養(yǎng)單位的入學考試參考書目和課程教材。
至今,這套教材出版已近5年,然而學界對其研究極少,僅散見于數(shù)篇漢碩畢業(yè)論文。盧楠(5)盧楠.昆明三所高校漢語國際教育碩士專業(yè)的課程設置對比研究[D].云南師范大學碩士學位論文,2016.、王佳祥采取問卷,調查了漢碩對于教材的看法,昆明3所高校及天津4所高校漢碩對教材的滿意度均不高。(6)王佳祥.天津四所高校漢語國際教育碩士專業(yè)課程設置的調查與研究[D].天津師范大學碩士學位論文,2018.然而這兩項研究得出的結論基于較少的數(shù)據(jù)樣本,其僅為調查問卷中一道選擇題,不足以說明總體情況,對于該教材的評估并不精確、全面。
漢碩不僅是漢語教師的儲備力量,也是漢語教學屆的重要學習者,然而全球漢語教材庫數(shù)據(jù)顯示教師培養(yǎng)教材僅占約3.7%。(7)譚萍.對外漢語教材評估研究現(xiàn)狀、問題及對策[J].云南師范大學學報(對外漢語教學與研究版),2017,(4).蔡武分析了2007~2017年間282篇漢碩研究相關論文,主題分布在學科定位、培養(yǎng)目標、課程設置、教學實習、培養(yǎng)模式、論文寫作和就業(yè)問題等7大方面。(8)蔡武.漢語國際教育碩士的研究回顧與展望[J].云南師范大學學報(對外漢語教學與研究版),2018,(4).作為教學三要素之一的教材研究則未有所見??傮w而言,漢語國際教育教材及其研究局限于以漢語學習者為對象。漢碩作為學習者的教育需求未受到重視。
因此,本文將對網(wǎng)上購書平臺關于《漢語國際教育碩士系列教材·核心課教材》(6冊)的千余條評論進行采集和分析,利用數(shù)據(jù)挖掘文本分析的方法,提取評論中有價值的信息,從而對此套教材的使用情況和讀者滿意度進行評估。文章首次嘗試基于大數(shù)據(jù)樣本評估教材,探究教材評估研究新方法,同時也為教材編寫者和使用者提供建設性的意見,為漢碩的研究和培養(yǎng)提供參考。
隨著大數(shù)據(jù)時代的到來,研究數(shù)據(jù)來源和信息技術的壁壘被突破,更先進、更科學地評價教材成為一種可能性。2018年,網(wǎng)上書店銷售成為帶動我國圖書零售市場增長的主要動力,線上銷售對我國圖書零售市場增長的貢獻率高達125.27%。(9)2018年中國圖書零售市場現(xiàn)狀與發(fā)展前景 線上銷售拉動行業(yè)穩(wěn)定增長[EB/OL]. https://www.qianzhan.com/analyst/detail/220/190213-36304bc7.html.與此相對,各個網(wǎng)絡購書平臺也產(chǎn)生了大量的在線評論。在線評論是消費者對產(chǎn)品體驗的表述、對產(chǎn)品價格、性能等特征的評價。(10)張麗,張蕾,張陽,戢妍.基于中文分詞和詞頻統(tǒng)計的圖書在線評論文本分析[J].信息系統(tǒng)工程,2011,(7).多項研究均發(fā)現(xiàn)Amazon 在線圖書評論能反映圖書的受歡迎程度,是圖書評價重要的信息來源之一,對于圖書評價具有重要的意義。(11)Kousha K,Thelwall M,Rezaie S.Assessing the citation impact of books: The role of Google Books,Google Scholar,and Sco-pus[M].John Wiley & Sons,Inc.,2011.
我國現(xiàn)有的網(wǎng)上書店達到50多個,常見的能獲取讀者評論的較有影響力的網(wǎng)上平臺有且不限于豆瓣、淘寶、當當、京東、亞馬遜,等等。當當、京東、亞馬遜被業(yè)內稱為“三大網(wǎng)店”,他們的圖書銷售占到整個網(wǎng)上圖書銷售渠道的大部分,是整個網(wǎng)上書店的主流代表。京東和當當對于該套叢書的評價信息豐富且數(shù)據(jù)樣本量充足(亞馬遜上無該套書的讀者評論)。而豆瓣為國內領先的書籍等文化藝術作品的交流、評論網(wǎng)站,擁有較多的讀者評論信息。對上述各個平臺做了調研之后,擬定綜合采用京東、當當和豆瓣3個網(wǎng)站的讀者在線評論作為此次研究的數(shù)據(jù)對象。
首先,利用 Python 數(shù)據(jù)爬蟲模塊爬取全部6本書及套裝讀者評價頁面的信息,包括評分和評論文本。由于在線評論的隨意性,原始評論中存在著很多不規(guī)范的信息,因此接下來對原始評論進行錯別字糾正、拼音和英文替換、刪除亂碼、刪除無意義的模板評論、刪除不相關的評論等去噪處理,為后續(xù)分析提供規(guī)范的清潔文本。
利用python自然語言處理相關工具對評論文本進行分詞、去除停用詞、詞頻統(tǒng)計、制作詞云圖,并對關鍵詞進行匯總和分析;此外本文還將計算評論文本的情感傾向。上述步驟能將文本這一非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù),以期從中發(fā)現(xiàn)有價值的信息。
1.數(shù)據(jù)樣例
截至數(shù)據(jù)采集的時間節(jié)點(2019年6月24日),共爬取京東原始評論613條,當當664條,豆瓣32條。經(jīng)過去噪處理后,京東剩余568條評論,當當577條,豆瓣31條,共1176條潔凈評論,21427字。完整的評論數(shù)據(jù)樣例見表1:
表1 當當、京東、豆瓣評論數(shù)據(jù)樣例
需要說明的是,京東和豆瓣的評分為5分制,而當當為10分制,因此在獲取評分時,將京東和豆瓣的評分都乘以2,折算為10分制。
2.數(shù)據(jù)按時間統(tǒng)計
將3個平臺的數(shù)據(jù)匯合后,以季度為單位,統(tǒng)計出每個季度內的評論個數(shù),如圖1所示。本文采集的圖書評論中,最早始于2014年8月6日,最近的評論發(fā)生于2019年6月19日。見圖1:
圖1 評論個數(shù)按時間匯總
除了2014年的3條評論以外,其他的評論都發(fā)生于2015—2019年期間。本套叢書僅《漢語技能教學》一書出版于2014年6月,因此2014年的評論都為針對該書的。具體的評論文本內容為:
“這個商品不錯”
“暫時還沒有時間拜讀,但是老師教授們都在用這本書作為基礎教材在講解”
“有用的書,買了收藏。謝謝京東!”
本書僅出版數(shù)月,便被作為高校的“基礎教材”供“老師教授們”使用,看出本套叢書從出版伊始便受到了學界的關注和認可,具有較高的認可度和權威性。
3.讀者評分情況及差異
在不同平臺上,讀者的評分數(shù)和評論數(shù)有較大差異。因此,本文將根據(jù)不同的平臺匯總讀者評分數(shù)據(jù)。
當當網(wǎng)的評分如表2所示:
表2 當當讀者評分數(shù)據(jù)描述
當當讀者評分的眾數(shù)和中位數(shù)均為10分,也就是說大多數(shù)讀者的評分為10 分,即讀者對套系叢書的認可度非常高;與此同時,平均分也超過了9.70的高分。
豆瓣的數(shù)據(jù)較少,只有3本書的評論內容,詳見表3:
表3 豆瓣讀者評分數(shù)據(jù)描述
豆瓣的讀者群體是閱讀書籍后再來發(fā)表評論的。因此,整體數(shù)量比當當和京東少,但是另一方面,他們對于書籍的感受更深,他們的評價往往更客觀和冷靜。這一部分反映在他們的評分偏低上,另一部分反映在他們的評論要更為詳細深入、評論文本長度更長上。
京東的評論比較特殊。在京東平臺上,一套書可以以單本形式出售,也可以以套裝形式出售。但是不管讀者買的是單本書或者整套書,該平臺針對套系內所有的書的評論都是羅列在一起的。也就是說,京東的評論是不以單本書為單位,而是以套系為單位的,因此我們在處理數(shù)據(jù)時,將京東所有數(shù)據(jù)匯總到一起處理,匯總后的描述數(shù)據(jù)如表4所示:
表4 京東讀者評分數(shù)據(jù)描述
和當當?shù)臄?shù)據(jù)類似,京東讀者評分的眾數(shù)和中位數(shù)也均為10分,證明該套叢書在各網(wǎng)購平臺都頗受讀者好評,大部分得到了滿分評價,讀者對于該套叢書是極為期待和滿意的。
1.關鍵詞詞云
取得潔凈的讀者評論文本之后,利用目前python使用度較廣的中文分詞組件——jieba對其進行分詞,并標注詞性。之后去除停用詞,停用詞即介詞、連詞、嘆詞等虛詞及標點符號、特殊字符等。目前常用的停用詞表有jieba自帶停用詞表、哈工大停用詞表、四川大學機器智能實驗室停用詞庫、百度停用詞表等。本文對各個停用詞表都進行了試用,最終選擇了停用詞最為全面的百度停用詞表。將處理好的文本統(tǒng)計出詞頻,并做出讀者評論關鍵詞詞云,見圖2:
圖2 讀者評論關鍵詞詞云
有一點要注意的是,讀者評論中關于營銷因素的討論在所有有效評論中占了較大的比重。研究顯示,45.7%的評論都涉及圖書營銷因素的探討。(12)黃建.大數(shù)據(jù)視角下線上圖書營銷因素的實證研究—以京東平臺的圖書評論為例[J].現(xiàn)代出版,2019,(2).鑒于本文關注點并不在購書平臺的營銷、服務等方面,因此去除跟圖書內容評論無關的詞后,高頻形容詞為“不錯、滿意、實用、必備、值得、有用”。讀者對于該套書的評論多體現(xiàn)在正面積極方面,“實用、必備”表明了該套叢書在漢碩課程使用中,具有較大的實際用途,對于讀者起到了幫助作用。對本書內容最為關注的點體現(xiàn)在高頻名詞上——“跨文化、交際、國際、案例、第二語言、教學、習得、教育”,該套叢書讀者主要關注文化、交際等方面的內容,即更加重視教學過程中實際應用及與學生互動方面的內容,對于語言本體以及本體教學的關注較少,這或許跟漢碩的生源復雜、背景多樣性相關。有相當一部分漢碩之前并未接受過專業(yè)的、系統(tǒng)的語言學和教育學知識訓練,實際教學經(jīng)驗更是匱乏。他們很多人并未有過和外國人打交道的經(jīng)歷,跨文化交際方面存在短板。(13)李春玲.關于漢語國際教育師資培養(yǎng)的新構想[J].云南師范大學學報(對外漢語教學與研究版),2015,(1).此外,他們作為應用型儲備師資,也更重視實際教學場景的處理與應對,包括其中會出現(xiàn)的跨文化交際、案例教學等等更具實際性、可操作性的話題。這與學界普遍認為的專業(yè)碩士側重解決問題能力的培養(yǎng)和實踐技能的養(yǎng)成也相一致。(14)劉頌浩.漢語國際教育專業(yè)碩士培養(yǎng)中的若干問題[J].華文教學與研究,2013,(4).而另一個值得關注的點是目前該書在整個行業(yè)內具有較大的認可度,“考試、 用書、 碩士、考研、指定”等行業(yè)認可相關詞都位于高頻詞之列??赏茰y讀者購買此書較大緣由是出于考證、考研的剛需。總體而言,此套書的出版符合其設計與內容規(guī)劃的“核心著眼點”,即滿足以“應用導向、職業(yè)需求、能力培養(yǎng)的核心課程要求”。(15)李泉.漢語國際教育碩士專業(yè)建設的開拓性成果——讀趙金銘總主編MTCSOL系列核心課教材[J].國際漢語教育,2015,(2).
2.情感分析
情感分析也是自然語言處理研究領域的熱點話題之一。它通過自動提取、計算和分析文本語句特征等技術手段,根據(jù)文本主題所持有的觀點、立場和態(tài)度等對信息進行分類,將文本分為正面、反面和中性等評價模式。(16)任靜.基于網(wǎng)絡數(shù)據(jù)的學術圖書評價研究[D].南京大學碩士學位論文,2013.在網(wǎng)絡購物評論和新聞、輿情分析等具體方面應用較廣泛。
目前用于情感分析的工具較多,經(jīng)過多方比較后,選定一個常用的Python文本分析庫——snowNLP庫。該庫已訓練好的情感分析模型是基于網(wǎng)購圖書的評論數(shù)據(jù),對于本文的分析有較強的針對性,無需再重新訓練模型。它將文本分成兩類:積極和消極,每條評論語句都返回0—1之間的某個值,即返回情緒的概率,這個值越接近1為積極、正面的評論,接近0為消極、負面的評論。
運行后的情感值示例如表5所示:
表5 評論文本情感值示例
1176條評論處理完后如圖3所示:
圖3 讀者評論情感分析
圖3中,當值大于0.5時代表評論文本的情感極性偏向積極;當分值小于0.5時,情感極性偏向消極;該值的分布越偏向兩級,表示情緒越偏激。整體上,該套系教材的總體評論偏正面,負面評論出現(xiàn)的情況并不集中。數(shù)據(jù)顯示,0.5分及以下的評論共108條,占全部評論的9.18%。0.5分以上的評論共1068條,占90.82%,占了絕大多數(shù)。此次情感分析的結果兩極性較強,分類結果比較鮮明。
深入查看評論在0.5分及以下的評論文本,涉及到圖書內容方面的負面情感評論文本包括:
“書內容單薄,定價太高。”
“考證用的,然而并沒有什么卵用。”
“如果之前買過別的版本的,就沒必要再買這個了。個人感覺內容都差不多,別再花錢買重復的東西。 不過,這本書對于各國習慣的舉例,比較清楚。”
“對考證沒什么用?!?/p>
“沒覺得特別好,還貴的要命?!?/p>
“太口水了,這也能當教材?!?/p>
“幾句話能說清楚的事兒,寫了一本書,也是厲害?!?/p>
綜上所述,讀者對于本教材內容方面最大的不滿體現(xiàn)在認為教材內容單薄、簡單,與以往的類似教材相比,并無特殊之處,專業(yè)性有所欠缺。
對于正面評價來說,雖說評價極高的人數(shù)最為突出,0.9~1.0分值段評論為639個,占總數(shù)的54.33%。然而在0.65~0.75分值段,有一部分評論異軍突起。這說明有一部分讀者總體滿意,但是也會提出問題和不滿之處,這對教材編寫者來說是非常寶貴的意見。將這部分分值的部分評論文本提取出來:
“理論性太強,感覺不是很實用?!?/p>
“如果看過胡文仲版的跨文化交際學概論的話,這本書基本可以考慮先放放了?!?/p>
“對于這種應試性很強的書,實在沒什么好說的?!?/p>
“先入為主的觀念!證書必備,又考一次了。希望考前好好休息!別精疲力竭!克服疲軟!堅持!”
此分值段的讀者主要還是以考證為需求,在此基礎上提出該教材與考證的一些關聯(lián)性。
將情感值和讀者評分進行對比,雖然讀者評分的眾數(shù)和中位數(shù)均為10分,但情感值的負面評價卻占據(jù)一定比例。由此可見,讀者評分是比較寬松的。相對而言,評論文本則更為消極和冷靜,真實和嚴謹。這也驗證了章成志等人的研究,(17)章成志,童甜甜,周清清.整合不同評論平臺的圖書綜合影響力評價研究[J].情報學報,2018,(9).在線評論絕大部分都是自己真情實感的流露,具有很強的真實性,調查問卷和一般訪談難以企及。
本文以網(wǎng)絡購書平臺的圖書評論數(shù)據(jù)為研究對象,研究了《漢語國際教育碩士系列教材:核心課教材》的讀者反饋。就讀者評分而言,當當和京東讀者評分的眾數(shù)和中位數(shù)均為滿分10分,平均分也超過了9.70和9.87的高分,讀者對套系叢書的認可度非常高,讀者對于該套叢書是極為期待和滿意的;豆瓣讀者在深度使用該教材后的得分較為理性和謹慎,分數(shù)稍有所下滑,但是也處于好評分數(shù)段內。就讀者評論文本而言,該教材的評論核心關鍵詞為“不錯、滿意、實用、必備、值得、有用”,證實了該教材在讀者心中的價值;“考試、 用書、 碩士、考研、指定”等跟行業(yè)認可與要求使用的詞都排在高頻詞行列??傊撎讌矔@得了讀者和業(yè)界的認可,在行業(yè)內具有較高的權威性和實用性。
本文作為初探性文本數(shù)據(jù)挖掘研究,還存在著諸多不足之處。由于京東平臺設置機制的問題,將套裝內所含書作為一個整體進行評論,而未按照各本分開評論,使得本文只能將6本書作為一個整體來進行研究,降低了評論文本分析的針對性。期待后續(xù)的研究工作從更有針對性的文本方面著手,得出更貼切與精準的研究結果。