亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Perl & R在語料庫語言學(xué)中的應(yīng)用

2018-02-01 10:48:49劉磊朱敏

軟件導(dǎo)刊 2018年1期

劉磊+朱敏

摘要：

語料庫語言學(xué)需要從大規(guī)模文本提取語言特征，通過量化分析研究語言規(guī)律?，F(xiàn)有語料庫工具過于注重索引和檢索功能，無法開展涉及復(fù)雜統(tǒng)計的多因素分析。通過3個基于語料庫的研究實例，探討編程語言Perl和R在研究方法層面的應(yīng)用。結(jié)果表明，Perl和R能夠處理大規(guī)模文本，進行多變量統(tǒng)計與可視化分析，可以彌補現(xiàn)有語料庫軟件的不足，幫助研究者分析數(shù)據(jù)與驗證假設(shè)，為后續(xù)定性研究奠定基礎(chǔ)。

關(guān)鍵詞：

語料庫語言學(xué)；語料庫工具；Perl；R

DOIDOI：10.11907/rjdk.172822

中圖分類號：TP312

文獻標(biāo)識碼：A文章編號文章編號：16727800（2018）001005303

Abstract：Corpus linguistics aims to find language patterns based on linguistic features extracted from largescale texts. However， current corpus tools are dedicated to developing concordance and search functions while lack of functions to perform multivariate statistical analysis. This paper illustrates with three case studies how programming languages such as Perl & R can be used in corpusbased linguistic studies. It is found that Perl can extract linguistic features from texts and organize them in formats that are amenable to statistical analysis in R. When combined， these two kinds of software can help researchers explore the linguistic data and validate search hypothesis in a more flexible way and complement the functions of readymade corpus tools.

Key Words：corpus linguistics； corpus tools； Perl； R

0引言

基于語料庫的語言學(xué)研究需要借助工具處理大量文本文件，提取其中的語言特征進行統(tǒng)計分析。目前，語料庫工具已由第一代單機版進化到第四代網(wǎng)絡(luò)版，界面更加友好，運行速度更快，可以幫助研究者開展基于詞表、搭配和主題詞等功能的研究[12]。但現(xiàn)有工具過于注重檢索和索引功能，無法處理涉及復(fù)雜數(shù)據(jù)的多變量統(tǒng)計問題，研究者仍需編寫程序滿足特定的研究需求。本文探討如何用編程語言Perl和R解決現(xiàn)有工具面臨的技術(shù)問題，幫助研究者開展基于語料庫的量化實證研究。

1Perl & R簡介

Perl的模式匹配功能強大，擅長從大規(guī)模語料中提取各種詞匯和語法特征[3]；R支持描述性、推論性和探索性統(tǒng)計以及數(shù)據(jù)可視化分析，在基于用法的語言學(xué)（usagebased linguistics）研究中應(yīng)用廣泛[4]。使用Perl & R開展量化研究涉及以下3個步驟：①建立子語料庫。語料庫通常包括豐富的元信息，如國別、區(qū)域、年代和文本類型等。Perl可以根據(jù)元信息從大型通用語料庫提取文本，構(gòu)建面向特定研究問題的子語料庫；②檢索語言特征。Perl可以從經(jīng)過詞性或句法標(biāo)注的語料中提取詞匯語法特征，構(gòu)建特征矩陣；③進行統(tǒng)計分析。用R處理步驟②得到的矩陣，分析特征變量間的關(guān)系，并以可視化方式呈現(xiàn)結(jié)果。

本文通過3個案例說明如何結(jié)合Perl和R開展基于語料庫的語言學(xué)研究。

2案例分析

2.1短語框架

在語料庫語言學(xué)中，短語框架是指由兩個以上詞語構(gòu)成，反復(fù)出現(xiàn)的連續(xù)或非連續(xù)詞語組合[5]。Sinclair[6]將語言中的短語化傾向稱為習(xí)語原則，是意義研究的基本單位。短語并不是完全固定的，在具體語境中，其內(nèi)部會產(chǎn)生變化，例如4詞短語框架“as * as the”中的 “*” 可由不同單詞替換，如“as well as the”、“as far as the”和“as soon as the”等。

本案例考察BNC語料庫國際事務(wù)類文本中3～6詞短語框架的分布情況，只考慮框架內(nèi)部的位置變化，一個n詞短語框架包含n-2種類型，例如5詞短語框架包括以下3種類型：A * C D E、A B * D E和A B C * E。具體研究步驟如下：①從BNC語料庫選取有關(guān)世界事務(wù)的文本61篇，共2 325 465詞；②提取子語料庫中的連續(xù)n詞序列，統(tǒng)計其頻率和覆蓋率。有些序列的頻率雖高但覆蓋率低，如“the labour league of youth”共出現(xiàn)18次，但只出現(xiàn)在1個文本中。本研究關(guān)注反映語體一般屬性的n詞序列，將覆蓋率的值設(shè)定為大于等于5，排除類似上例話題性較強的專有名詞；③從連續(xù)多詞序列中提取多詞短語框架，統(tǒng)計其形符和類符頻率以及各框架槽位中的詞匯分布。

如表1所示，短語框架的類符數(shù)差異較大，如“in the * of the”的種類最多，而“by * end of the”只有一種類型“by the end of the”。進一步分析后發(fā)現(xiàn)，“in the * of the”槽位中的詞匯類型可分為以下3類：事件內(nèi)容（如“in the hands of the”）、事件時間或地點（如“in the middle of the”、“in the center of the”）和事件敘述方式（如“in the case of the”）。本案例的統(tǒng)計數(shù)據(jù)只反映了短語框架的總體分布趨勢，研究者還需借助索引行觀察短語的具體語境，分析其意義和功能。endprint

2.2語體變異

語體變異源于變異社會語言學(xué)，指語言隨時間、地域、場合以及使用者年齡、性別和社會階層不同而變化的現(xiàn)象。本案例研究英語情態(tài)動詞“can”的后續(xù)實義動詞語態(tài)在小說、新聞、通用和學(xué)術(shù)語體中的變化趨勢，所用語料來自CRWON和CLOB語料庫，共2 029 895詞。本研究用Perl提取與“can”共現(xiàn)的實義動詞，然后使用R的對數(shù)線性模型分析動詞語態(tài)在各語體中的分布是否存在顯著差異，得到表2所示的統(tǒng)計結(jié)果。

由表2可知，“can + 動詞”結(jié)構(gòu)的語態(tài)（Voice）與文本類型（Genre）顯著相關(guān)。具體來說，與小說相比，新聞、通用和學(xué)術(shù)文體中動詞被動與主動語氣的比值分別上升了3.8、5.3和12.6倍，計算方法如式（1）所示。其中OD為比值比（odds ratio），本例中代表各語體被動與主動語氣的比值，e≈2.718，estimate為表2 參數(shù)估計列的值[7]。

小說文本常用“can+主動語氣”表明說話人的意愿，如“I know that I dont look old enough to handle this job but I assure you I can do it”；而學(xué)術(shù)文體在用can表達某一命題的可能性時，經(jīng)常要隱藏事件的實施者，減少個人觀點的表達，如“The actant analysis is a device that can theoretically be used to analyse any real or thematised action”。本案例說明除了對比不同語料間的詞頻差異外，語料庫語言學(xué)研究還可擴展到語法層面，利用Perl和R提取語法結(jié)構(gòu)，分析詞匯與語法間的相互關(guān)系。

2.3詞匯語義

基于語料庫的詞匯語義研究與搭配密切相關(guān)，與中心詞共現(xiàn)的搭配詞可以反映該詞的語義特征，出現(xiàn)在相似語境的詞匯意義也相似[8]。表3說明了如何利用搭配詞分析中心詞“apricot”、“pineapple”、“digital”和“information”之間的語義關(guān)系，表中數(shù)字代表中心詞與搭配詞的共現(xiàn)頻率，用于構(gòu)建描述詞匯的特征向量[9]，如f apricot = [01001101]，f digital = [00111010]。

得到特征向量后，可根據(jù)式（2）計算向量間的歐幾里德距離，建立詞匯距離矩陣，然后使用聚類算法分析詞匯的意義聯(lián)系，從定量的角度驗證人們對語言的直覺認識。

本案例聚焦程度副詞“fairly”、“fucking”、“pretty”、“really”、“so”和“very”之間的語義關(guān)系。研究數(shù)據(jù)從BNC口語語料選取，共153篇，4 219 309詞。具體步驟如下：從語料提取上述6個強調(diào)詞所修飾的形容詞，然后按表3格式輸出搭配詞的種類和頻數(shù)，最后用R進行聚類分析。結(jié)果如圖1所示，其中縱軸為詞匯間的語義距離，如“very”與“really”之間距離最小，語義最接近。

圖1強調(diào)詞聚類

進一步觀察發(fā)現(xiàn)，“very”和“really”的高頻搭配詞都是“good”和“nice”，兩者合計占到各自搭配詞總數(shù)的29.6%和27.6%；低頻搭配詞如“small”和“expensive”的比例也相似，均為0.1%左右，因此兩者語義關(guān)系最近。另外，“so”的常見搭配是“funny”（6.5%）和“bad”（5.5%）；“fairly”的高頻搭配是“easy”（5.5%）和“good”（4.8%），雖然被歸為一類，但由于距離較大，兩者意義還是相差較遠。聚類分析為研究詞匯語義關(guān)系提供了新的視角，但也有其局限性。如“fucking”和“pretty”兩詞因為搭配詞相似，在層級圖上距離接近，但兩詞的使用可能與使用者性別有關(guān)，需要考慮更多變量加以區(qū)分。

3結(jié)語

從以上案例可以看出，Perl可以快速從大規(guī)模語料提取各種語言特征及其頻率，構(gòu)建詞-詞或詞-文本共現(xiàn)矩陣，R擅長矩陣處理和統(tǒng)計分析。兩者結(jié)合可以幫助研究者分析數(shù)據(jù)，初步形成研究假設(shè)，為后續(xù)定性研究奠定基礎(chǔ)。需要注意的是，工具是研究的“利器”，但研究者還需學(xué)習(xí)語言學(xué)理論，專注語言層面的分析，擴展研究思路和視角。

參考文獻：

[1]梁茂成.梁茂成談?wù)Z料庫語言學(xué)與計算機技術(shù)[J].語料庫語言學(xué)，2015（2）：1525.

[2]許家金，吳良平.基于網(wǎng)絡(luò)的第四代語料庫分析工具CQPWeb及應(yīng)用實例[J].外語電化教學(xué)，2014（5）：1015.

[3]NUGUES P M. Language processing with perl and prolog，second edition[M].Berlin：Springer，2014.

[4]LEVSHINA N. How to do linguistics with R[M].Amsterdam：John Benjamins，2015.

[5]RMER U. Establishing the phraseological profile of a text type：the construction of meaning in academic book reviews[J]. English Text Construction，2010，3（1）：95119.

[6]SINCLAIR J. Trust the text： language， corpus and discourse[M].London：Routledge，2004.

[7]AGRESTI A. An introduction to categorical data analysis，second edition[M].Hoboken，NJ：Wiley，2007.

[8]梁茂成.語料庫語言學(xué)研究的兩種范式：淵源、分析及前景[J].外語教學(xué)與研究，2012，44（3）：323335.

[9]JURAFSKY D，MARTIN J H. Speech and language processing：an introduction to natural language processing[M]. Upper Saddle River，NJ：Prentice Hall，2009.

（責(zé)任編輯：何麗）endprint