劉超
摘 要:本文將從青空文庫(kù)下載的宮澤賢治的80篇童話作為研究對(duì)象,處理為“Wordsmith Tools”可識(shí)別的形式后得到樣本語(yǔ)料庫(kù),利用“Wordsmith Tools”這一語(yǔ)料庫(kù)檢索工具的Wordlist(詞表)功能,通過(guò)與參照語(yǔ)料庫(kù)——處理過(guò)后的“日語(yǔ)書(shū)面語(yǔ)均衡語(yǔ)料庫(kù)”中的小說(shuō)類別的文本對(duì)比,分析兩者的詞表,從詞匯和句子兩個(gè)方面在宏觀上把握宮澤賢治童話文體的總體特征。
關(guān)鍵詞:宮澤賢治童話;語(yǔ)料庫(kù);Wordlist;詞匯;句子;總體特征
引言
語(yǔ)料庫(kù)在文體上的應(yīng)用促成了語(yǔ)料庫(kù)文體學(xué)的誕生,從此文學(xué)作品分析有了語(yǔ)料庫(kù)的新方法,相對(duì)于文學(xué)作品的傳統(tǒng)分析方法,語(yǔ)料庫(kù)方法因?yàn)橛辛爽F(xiàn)實(shí)數(shù)據(jù)的支撐,結(jié)果更加客觀可信。宮澤賢治是家喻戶曉的日本童話作家,本文結(jié)合語(yǔ)料庫(kù)檢索工具“Wordsmith Tools”,從詞匯和句子兩個(gè)方面在宏觀上把握宮澤賢治童話文體的總體特征。
1.詞匯
根據(jù)Wordlist的statistics項(xiàng),樣本語(yǔ)料庫(kù)大小為8898172個(gè)字符,參照語(yǔ)料庫(kù)大小為161404560個(gè)字符,樣本語(yǔ)料庫(kù)大小比參照語(yǔ)料庫(kù)小得多。分析樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)各自在類符、形符、類符形符比、標(biāo)準(zhǔn)類符形符比、平均詞長(zhǎng)、詞長(zhǎng)標(biāo)準(zhǔn)差、2字符以下的詞匯百分比這七個(gè)方面的情況,如表1所示。
単位語(yǔ)を同じ語(yǔ)か異なる語(yǔ)かという基準(zhǔn)で整理して得られる語(yǔ)を見(jiàn)出し語(yǔ)と呼び、テキストに含まれているすべての見(jiàn)出し語(yǔ)の數(shù)を異なり語(yǔ)數(shù)と呼び、同じテキスト中に含まれている?yún)g位語(yǔ)の総數(shù)を延べ語(yǔ)數(shù)という。(『語(yǔ)彙の研究と教育(上)』P82)(將單位詞按照是否是同一詞的標(biāo)準(zhǔn)整理得到的詞稱為詞條,文本中所含的所有詞條的數(shù)稱為類符數(shù),同一文本中所含的單位詞的總數(shù)稱為形符數(shù))。類符形符比表明文章的豐富程度,即詞匯密度,該值越大說(shuō)明詞匯密度越大,使用相同詞匯的比例越低,詞匯種類越豐富。由于兩個(gè)語(yǔ)料庫(kù)的文本收容能力不同,因此相對(duì)于類符形符比,通常用標(biāo)準(zhǔn)類符形符比來(lái)計(jì)算詞匯密度。平均詞長(zhǎng)是文本中詞匯的平均長(zhǎng)度,以字符數(shù)為單位,表明文本中所用詞匯的復(fù)雜程度。平均詞長(zhǎng)越長(zhǎng),表明該文本中使用長(zhǎng)詞匯越多。詞長(zhǎng)標(biāo)準(zhǔn)差則反映了文本中各詞匯的長(zhǎng)度和文本的平均詞長(zhǎng)之間的差異,該值越大,表明文本中使用的各詞匯長(zhǎng)度存在較大差異。
具體分析表1中的數(shù)據(jù),樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)類符數(shù)分別為10354、72680。樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)形符數(shù)分別為339443、8382729。可知,樣本語(yǔ)料庫(kù)文本的詞匯數(shù)比參照語(yǔ)料庫(kù)文本的詞匯數(shù)小得多。樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)的標(biāo)準(zhǔn)類符形符比分別為31.69、34.34,即參照語(yǔ)料庫(kù)文本中的詞匯種類更豐富,文本更充實(shí)。關(guān)于詞長(zhǎng)標(biāo)準(zhǔn)差,樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)的詞長(zhǎng)標(biāo)準(zhǔn)差分別為0.82、0.87,即樣本語(yǔ)料庫(kù)文本中所使用的各詞匯的詞匯長(zhǎng)度差異更小。Wordlist中Statistics項(xiàng)的詞匯長(zhǎng)度的跨距也可以證明這一點(diǎn)。參照語(yǔ)料庫(kù)的詞匯長(zhǎng)度跨距為1-14字符,樣本語(yǔ)料庫(kù)則為1-11字符。由此可以說(shuō)明樣本語(yǔ)料庫(kù)文本用詞相對(duì)而言更加整齊。另外,樣本語(yǔ)料庫(kù)2字符以下的詞匯百分比達(dá)到了總詞數(shù)的89.12%,由此也可以知道樣本語(yǔ)料庫(kù)文本的詞匯多為較短詞匯。
2.句子
樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)有關(guān)平均句長(zhǎng),句長(zhǎng)標(biāo)準(zhǔn)差的情況如下表2所示。
句長(zhǎng)在某種程度上能反映句子的復(fù)雜程度。樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)文本的平均句長(zhǎng)分別為34.55、342.61,也就是說(shuō),宮澤賢治童話作品的平均句長(zhǎng)比參照語(yǔ)料庫(kù)文本的平均句長(zhǎng)短的多。句長(zhǎng)標(biāo)準(zhǔn)差反映了文本中句子的長(zhǎng)度和文本平均句長(zhǎng)之間的差異,該值越大表明文本各句子間長(zhǎng)度差異越大。樣本語(yǔ)料庫(kù)和參照語(yǔ)料庫(kù)文本的句長(zhǎng)標(biāo)準(zhǔn)差分別為2363.38、30580.62,從這兩個(gè)數(shù)據(jù)以及平均句長(zhǎng)的數(shù)據(jù)可以看出,宮澤賢治童話作品句子間長(zhǎng)度差異比參照語(yǔ)料庫(kù)中的小的多,因而從整體來(lái)看,文本語(yǔ)言顯得更加平穩(wěn)簡(jiǎn)潔。
3.結(jié)論
綜上所述:在用詞方面,宮澤賢治童話并沒(méi)有一般小說(shuō)用詞豐富;宮澤賢治童話中所使用的各詞匯的詞匯長(zhǎng)度差異更小,用詞相對(duì)而言更加整齊,且所用詞匯多為較短詞匯。在句子方面,宮澤賢治童話作品的平均句長(zhǎng)比一般小說(shuō)的平均句長(zhǎng)短的多,句子間長(zhǎng)度差異也比一般小說(shuō)小的多,因而從整體來(lái)看,宮澤賢治童話語(yǔ)言顯得更加平穩(wěn)簡(jiǎn)潔。
本文利用語(yǔ)料庫(kù)輔助工具“Wordsmith Tools”的詞表功能,從詞匯和句子兩個(gè)方面較為淺層地分析了宮澤賢治童話文體的總體特征,今后還要充分利用“Wordsmith Tools”的主題詞和索引功能,從童話自身語(yǔ)言出發(fā),對(duì)宮澤賢治童話文體作具體深入的分析。
參考文獻(xiàn)
[1]國(guó)立國(guó)語(yǔ)研究所.語(yǔ)彙の研究と教育(上)[M].昭和59年9月20日 発行
[2]王立非,梁茂成.Wordsmith方法在外語(yǔ)教學(xué)研究中的應(yīng)用 [J].外語(yǔ)電化教學(xué),2007.
[3]毛文偉.現(xiàn)代日語(yǔ)書(shū)面語(yǔ)均衡語(yǔ)料庫(kù)應(yīng)用研究[J].日語(yǔ)學(xué)習(xí)與研究,2013年 第2期 總165號(hào)
[4]王璐怡.語(yǔ)料庫(kù)文體學(xué):文學(xué)語(yǔ)篇分析的新手段 [J].科技創(chuàng)新導(dǎo)報(bào),2014.
(作者單位:天津工業(yè)大學(xué)人文學(xué)院)