亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于R 語言對(duì)演講文本的語言特征多維度分析

        2023-04-20 08:24:30秦夢(mèng)娟
        現(xiàn)代英語 2023年5期
        關(guān)鍵詞:元組高頻詞情態(tài)

        秦夢(mèng)娟

        (南京傳媒學(xué)院,江蘇 南京 211100)

        一、理論背景和研究工具

        (一)理論背景

        定量研究方法在我國外語教學(xué)與研究領(lǐng)域的應(yīng)用十分廣泛,受到國內(nèi)外應(yīng)用語言學(xué)界的普遍關(guān)注和重視。 所謂定量研究是指搜集用數(shù)量表示的資料或信息對(duì)數(shù)據(jù)進(jìn)行量化處理、檢驗(yàn)和分析,從而獲得有意義的結(jié)論的研究過程,這是一種確定事物某方面量的規(guī)定性的科學(xué)研究。 在外語教學(xué)定量研究中應(yīng)引入穩(wěn)健性設(shè)計(jì)方法和利用統(tǒng)計(jì)方法[1]。 在文本的語言特征分析中可以加入定量研究手段,借助統(tǒng)計(jì)分析軟件,如Coh-Metrix[2]、SPSS、R 軟件等,以加快分析速度。

        (二)研究工具

        奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的羅斯?伊哈卡(Ross Ihaka)和羅伯特?杰特曼(Robert Gentleman)受貝爾實(shí)驗(yàn)室S 語言的啟發(fā),于1991 年開發(fā)了R 語言。經(jīng)過三十多年的發(fā)展,R 語言現(xiàn)已發(fā)展成為一個(gè)集統(tǒng)計(jì)計(jì)算、制圖和自然語言處理等為一體的編程語言。 它既能運(yùn)行現(xiàn)有的R 程序,又能對(duì)現(xiàn)有程序進(jìn)行改進(jìn),以滿足研究者的特殊需要。 R 軟件有強(qiáng)大的社團(tuán)提供技術(shù)支持和疑難解答,成員包括統(tǒng)計(jì)學(xué)家、程序員和用戶等。 文章采用R 4.2.1 對(duì)兩篇演講文本進(jìn)行語言特征分析,包括詞匯特點(diǎn)、主題詞和N 元組。 這兩篇演講文本均來自R 軟件下數(shù)據(jù)包quanteda 中的語料庫data_corpus_inaugural,記為文本1 和文本2。

        二、詞匯特點(diǎn)分析

        利用R 軟件對(duì)兩篇文本進(jìn)行描述性統(tǒng)計(jì),得到統(tǒng)計(jì)結(jié)果如下:文本1 使用形符1467 個(gè),類符539個(gè),句子數(shù)為105 個(gè),平均句長為13.97,平均詞長為4.55;文本2 使用形符2389 個(gè),類符739 個(gè),句子數(shù)為225 個(gè),平均句長為10.62,平均詞長為4.23。 可以發(fā)現(xiàn)兩篇文本篇幅差異很大,文本2 篇幅遠(yuǎn)遠(yuǎn)超過文本1 的篇幅,但文本2 的平均句長和平均詞長略低于文本1。

        詞匯密度(lexical density)是通過一篇文本中的實(shí)詞數(shù)與文本中出現(xiàn)的總詞數(shù)的比率來計(jì)算[3]。通過R 軟件對(duì)兩篇文本的詞匯密度進(jìn)行計(jì)算,得出結(jié)果如下(保留兩位小數(shù)):文本1 的詞匯密度為0.50,文本2 的詞匯密度為0.47。 兩者差異不大,文本1 所用實(shí)詞比例更高。

        詞匯復(fù)雜性(lexical sophistication)也是評(píng)估詞匯豐富性的四個(gè)指標(biāo)之一,是指在文本中能夠適當(dāng)使用與主題、文體相關(guān)的低頻詞,而不只是使用常用的高頻詞。 本研究所用低頻詞為Paul Nation 開發(fā)的2000 常用詞表,文本中的低頻詞即剔除常用詞后的詞,低頻詞與總詞數(shù)之比即文本的詞匯復(fù)雜性。 通過R 軟件進(jìn)行計(jì)算,得到結(jié)果如下(保留兩位小數(shù)):文本1 的詞匯復(fù)雜性為20.71,文本2 的詞匯復(fù)雜性為24.56。 兩者差異不大,文本2 所用詞匯較為復(fù)雜,低頻詞使用較多。

        詞匯多樣性(lexical diversity)可以評(píng)估發(fā)言者的詞匯知識(shí)及他們語言輸出中的詞匯變化特點(diǎn)。類符形符比(type-token ratio,TTR)是傳統(tǒng)上測(cè)量詞匯多樣性所使用的最普遍的方法,即用一篇文本中使用的不同詞項(xiàng)(類符)的總數(shù)除以文本中所有詞項(xiàng)(形符)的總數(shù)。 然而,這種方法已被證明受文本大小的影響。 文本越長,TTR 的值就越低[4]。 本研究中采用移動(dòng)平均類符-形符比(moving-average type-token ratio,MATTR),即按照固定的窗口(即詞符數(shù))從文本開頭計(jì)算TTR,然后在文本中依次移動(dòng)窗口計(jì)算TTR,直至在包括文本最后1 個(gè)詞符的窗口中計(jì)算TTR,最后計(jì)算這些窗口TTR 的平均值[5]。 移動(dòng)平均類符-形符比不會(huì)因?yàn)槲谋鹃L度不足舍棄文本末尾的詞符。 通過R 軟件計(jì)算兩文本的MATTR 發(fā)現(xiàn),文本1 的MATTR 為0.68,文本2的MATTR 為0.67,幾乎沒有差異。

        文章對(duì)兩個(gè)演說的詞匯特點(diǎn)進(jìn)行了分析,可以發(fā)現(xiàn)兩篇文本的詞匯密度、詞匯多樣性以及詞匯復(fù)雜性的差異不大,為了進(jìn)一步探究兩篇演說文本的難易度差異,利用R 軟件對(duì)它們的文本可讀性進(jìn)行分析,得到以下結(jié)果:文本1 的可讀性適用于美國七年級(jí)學(xué)生(大約12 歲),而文本2 的可讀性適用于美國五年級(jí)學(xué)生(大約10 歲),兩篇文本的可讀性都比較高,容易被聽眾所理解,體現(xiàn)了演講文本的可講性。

        三、主題詞分析

        為了更好地對(duì)比兩篇文本的語言特征差異,文章對(duì)兩篇文本的高頻詞和關(guān)鍵詞進(jìn)行分析。

        (一)高頻詞

        圖1 為兩篇文本中頻數(shù)為20 及以上的詞頻分布條形圖(左:文本1;右:文本2)。

        圖1 頻數(shù)為20 及以上的詞頻分布條形圖

        由圖1 可以得出,文本1 中頻數(shù)為20 及以上的高頻詞有8 個(gè),頻數(shù)最高的前三個(gè)詞為and(出現(xiàn)77次)、the(出現(xiàn)71 次)、of(出現(xiàn)48 次)。 文本2 中頻數(shù)為20 及以上的高頻詞有13 個(gè),頻數(shù)最高的三個(gè)詞為the(出現(xiàn)95 次)、and(出現(xiàn)76 次)和of(出現(xiàn)71次)。 兩文本排列前三的高頻詞相同,均為虛詞,同上文詞匯密度的結(jié)果對(duì)應(yīng),可以發(fā)現(xiàn)兩篇文本的虛詞使用較多。 同時(shí),兩篇文本的高頻詞中均出現(xiàn)了we、our 兩個(gè)第一人稱代詞和will 情態(tài)動(dòng)詞。 兩位演說者通過三個(gè)詞的使用,以此來表達(dá)自己強(qiáng)烈的意愿,使聽眾信服他們的觀點(diǎn),體現(xiàn)了演說文本的鼓動(dòng)性。

        圖2 為兩文本去除停用詞后的、頻數(shù)為前100的詞云圖(左:文本1;右:文本2)。

        從圖2 可以看出,詞云圖以字體大小顯示詞頻高低,詞頻越高,字體就越大。 文本1 中最醒目的詞是“american”(在形符化時(shí)所有的文本詞語均改為小寫字母),“american”一詞在文中出現(xiàn)11 次。其他頻數(shù)較高的單詞是“people”(出現(xiàn)10 次)、“country” (出現(xiàn)9 次)、“nation” (出現(xiàn)6 次)、“world”(出現(xiàn)6 次)、“dreams”(出現(xiàn)5 次)。 文本2中最醒目的詞是“american”,“american”一詞在文中出現(xiàn)9 次。 其他頻數(shù)較高的單詞是“story”(出現(xiàn)8 次)、“americans”(出現(xiàn)7 次)、“nation”(出現(xiàn)7次)、“days” (出現(xiàn)6 次)、“war” (出現(xiàn)6 次)、“unity”(出現(xiàn)5 次)、“power”(出現(xiàn)5 次)。 可以發(fā)現(xiàn)兩篇文本的高頻詞有相似點(diǎn),也有差異。

        (二)關(guān)鍵詞對(duì)比

        關(guān)鍵詞(Key words)指某些詞在一個(gè)語料庫中出現(xiàn)的頻次明顯高于在另一個(gè)語料庫中出現(xiàn)的頻次,能夠體現(xiàn)文本的主題。 圖3 為兩篇文本的關(guān)鍵詞對(duì)照。

        圖3 顯示,文 本1 中“back” “protected” 和“dreams”是最突出使用的3 個(gè)詞。 而文本2 中的“us”“can”和“democracy”是最突出使用的3 個(gè)詞?;谏衔牡难芯拷Y(jié)果,兩篇文本均使用了較多的第一人稱代詞(we/our)和情態(tài)動(dòng)詞(will),文本2 增加了單詞“us”和“can”的使用。 兩篇文本使用不同的關(guān)鍵詞體現(xiàn)兩位演說者觀點(diǎn)的差異。

        四、N 元組

        N 元組是文本中連續(xù)出現(xiàn)的長度為n 的形符串,其中n 是不小于1 的整數(shù)。 長度n 為1 的元組稱作單元組(unigrams),長度n 為2 的元組稱作二元組(bigrams),長度n 為3 的元組稱作三元組(trigrams),以此類推。 圖4 為兩篇文本中頻次為5 及以上的二元組(左:文本1;右:文本2)。

        圖4 高頻二元組

        圖4 顯示,文本1 中二元組“we will”出現(xiàn)了24次。 文本1 大量使用第一人稱代詞“we”和情態(tài)動(dòng)詞“will”與對(duì)上文的研究結(jié)果一致。 而文本2 中除了上文強(qiáng)調(diào)的“we can”句式,二元組“we must”也出現(xiàn)了7 次,體現(xiàn)了兩位演說者在演說中情態(tài)動(dòng)詞的選擇差異。 總結(jié)上文,可以發(fā)現(xiàn)兩篇文本中均大量使用了“we will”句式,文本2 中增加使用了“we can”和“we must”句式,體現(xiàn)了演講稿的鼓動(dòng)性。

        五、結(jié)語

        文章運(yùn)用自然語言分析軟件R 4.2.1 進(jìn)行文本分析,通過分析兩個(gè)演講文本的詞匯特點(diǎn)、主題詞和N 元組,從而對(duì)兩個(gè)演講文本的語言特征進(jìn)行分析。 研究發(fā)現(xiàn)兩個(gè)演講文本的語言特征共同點(diǎn)和差異共存。 首先,文本1 的實(shí)詞比例更高、更容易為聽眾所理解,因?yàn)槲谋? 的詞匯密度和文本可讀性略高于文本2;而文本2 中低頻詞比例更高,說明文本2 的詞匯復(fù)雜性略高于文本1;兩篇文本的詞匯多樣性幾乎一致。 其次,兩篇文本均使用了較多的虛詞,包括the、and、or,也運(yùn)用了較多的第一人稱代詞和情態(tài)動(dòng)詞,包括we、our、will。 上述單詞的使用,使得兩個(gè)文本較容易理解,能使聽眾產(chǎn)生認(rèn)同感。 但兩個(gè)演講文本在關(guān)鍵詞、N 元組以及在人稱代詞和情態(tài)動(dòng)詞的選擇上存在差異。 文本2 運(yùn)用了較多的第一人稱代詞“us”、情態(tài)動(dòng)詞“can”和“must”。 上述結(jié)果體現(xiàn)了演講文本具有的鼓動(dòng)性,也體現(xiàn)了R 軟件在文本分析領(lǐng)域的可行性。

        猜你喜歡
        元組高頻詞情態(tài)
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級(jí)兩會(huì)上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        Python核心語法
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級(jí)兩會(huì)上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        情態(tài)副詞“說不定”的情態(tài)化研究
        表示“推測(cè)”的情態(tài)動(dòng)詞
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        基于減少檢索的負(fù)表約束優(yōu)化算法
        面向數(shù)據(jù)流處理的元組跟蹤方法
        97日日碰日日摸日日澡| 欧美亚洲一区二区三区| 久久99精品久久久久久9蜜桃| 韩日美无码精品无码| 91福利精品老师国产自产在线| 免费蜜桃视频在线观看| av网站免费线看精品| 国产精品亚洲一区二区在线观看 | 四虎精品免费永久在线| 久久一二三四区中文字幕| 亚洲国产精品中文字幕久久| 久久久久国产综合av天堂| 偷窥村妇洗澡毛毛多| 国产一区二区三区高清视频| 日本二区在线视频观看| 国产精品中文久久久久久久| 最近高清中文在线字幕观看| 久草精品手机视频在线观看| 亚洲一区二区三区偷拍厕所| 蜜桃av抽搐高潮一区二区| 亚洲人成无码网站久久99热国产 | 少妇无码一区二区三区免费| 国精品无码一区二区三区在线看| 亚洲一区二区三区码精品色| 色翁荡熄又大又硬又粗又动态图| 图片区小说区激情区偷拍区| 国产精品网站夜色| 国产农村妇女毛片精品久久麻豆| 18禁止看的免费污网站| 色综合中文综合网| 国产欧美亚洲精品第二区首页| 高清不卡av一区二区| 亚洲av美国av产亚洲av图片| 亚洲综合婷婷久久| 国产精品污一区二区三区在线观看| 亚洲精品视频在线一区二区| 中文成人无码精品久久久不卡| 最新国产成人在线网站| 国产av剧情精品麻豆| 国产乱码卡二卡三卡老狼| 亚洲成aⅴ人在线观看|