亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子語料庫及常用語料庫索引分析軟件介紹

        2014-04-29 00:00:00張爾謙
        商業(yè)2.0 2014年10期

        中圖分類號:H319.3 文獻標識碼:A

        摘要:計算機和網(wǎng)絡技術的迅速發(fā)展和一些優(yōu)秀的電子語料庫索引分析軟件的出現(xiàn)使電子文本的收集變得簡便而快捷,也使對語料庫的分析和深入研究成為可能。近年來,已有個別教師開始嘗試利用電子語料庫工具來輔助教學和科研。本文簡單介紹了電子語料庫的發(fā)展歷程、常用統(tǒng)計分析參數(shù)和原理以及幾個常用的語料庫索引分析軟件。

        關鍵詞:電子語料庫;語料庫索引分析軟件

        電子語料庫是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫。電子語料庫最重要的特點是能迅速且精確地呈現(xiàn)出與輸入關鍵詞有關的海量真實語言情境,并以KWIC(Key Words In Context)等形象的方式呈現(xiàn)。目前電子語料庫已廣泛應用于詞典編纂、語言學研究以及大規(guī)模語言測試的命題中,有些教師也開始嘗試將其運用于教學和科研。

        一、語料庫的發(fā)展歷程

        20世紀50年代以前,語料庫這個概念就已經存在。但是,這一時期的語料庫主要是人工收集起來的紙質文本材料,與今天所說的電子語料庫有很大的區(qū)別。這一時期主要是用人工方法對大量的紙質文本材料進行索引和統(tǒng)計,因而需要耗費大量的人力和時間,速度非常慢,效率低下。

        20世紀50年代以后,計算機已經在一些科學研究領域得到應用。這一時期,計算機成為研究語料庫的有力工具。計算機和電子語料有機結合形成了效率較高的電子語料庫管理索引系統(tǒng)。

        20世紀90年代以來,計算機的性能有了極大的提高,價格逐步下降,因特網(wǎng)的應用日趨廣泛,網(wǎng)絡上的電子文本材料數(shù)量飛速增長,將紙質文本材料電子化的各種設備逐漸普及,一些優(yōu)秀的電子語料庫分析統(tǒng)計軟件也被開發(fā)出來,這使電子文本的收集和分析變得簡便而快捷,一些較為知名的大型語料庫也開始出現(xiàn)。近年來,隨著計算機在教育領域的迅速普及,有個別語言教師特別是英語教師也開始嘗試利用電子語料庫工具來輔助教學和科研。

        二、電子語料庫的常用統(tǒng)計分析參數(shù)

        1、標準化類符形符比

        形符數(shù)指語料中的單詞總數(shù),同一個單詞出現(xiàn)多次需要多次計數(shù)。類符數(shù)指語料中的單詞形態(tài)數(shù)目,若同一個單詞出現(xiàn)多次只能計數(shù)一次。將研究分析范圍內的語料分成等長的若干部分,先計算出各個部分的類符數(shù)與形符數(shù)的比值,再將這些比值取算術平均值,就得到研究范圍內語料的標準化類符形符比。該參數(shù)可以較好地反映出研究范圍內語料的用詞變化性,標準化類符形符比越高則用詞變化性越強。

        2、平均詞長與平均句長

        平均詞長是指語料中出現(xiàn)的形符的詞長的算術平均值。平均句長是指語料中全部句子中所包含形符數(shù)值的算術平均值。這兩個參數(shù)在語料分析與研究中也有重要參考意義。

        3、詞頻、關鍵詞和關鍵性

        詞頻是指語料中每一個類符出現(xiàn)的頻率。關鍵詞是指與某一標準相比其頻率明顯偏高的詞看,偏高的程度就是其關鍵性。僅因為某一特定類符在語料中的詞頻顯著地高就將其判定為關鍵詞是不可取的,還要看其在參照語料庫中的詞頻,而參照語料庫的規(guī)模要足夠大。

        一般來說,我們用x2值來表示某一特定關鍵詞的關鍵性:

        x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))

        其中,f代表某一單詞在研究范圍內的語料中的詞頻,c代表該單詞在參照語料庫中的詞頻,m代表研究范圍內的語料的形符總數(shù), c代表參照語料庫的形符總數(shù)。

        一般來說,如果一個單詞的x。2值大于3.8,我們便可認定其在研究范圍內的語料中具有較為顯著的關鍵性。

        4、搭配詞與搭配力

        英國伯明翰大學的辛克萊教授認為搭配是兩個或兩個以上的詞在文本中很短距離內的共現(xiàn)。這一定義使得設計程序判斷某一特定單詞的搭配詞及兩者的搭配力變得可能。

        我們一般用Z值來表征搭配力。表1是通過檢索得到的某單詞在某語料庫中的語境塊。每個單元格是一個形符,行數(shù)為t,左右跨距均為s,假設該語料庫的形符數(shù)目為n。Lij在該語料庫中共出現(xiàn)m次,則Lij的形符在該語料庫全部形符中的占比是r=m/n。Lij在該語境塊中的期望出現(xiàn)次數(shù)為e=mt(2s+1)/n。假設語境塊中一共有c個與Lij相同的形符,則我們可以求出Lij在表1所示的語境塊中分布的標準差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,則可以認為Lij與W之間的搭配力顯著。

        一区二区三区国产精品| 亚洲成人色区| 久久久久久夜精品精品免费啦 | 99久久这里只精品国产免费| 激情免费视频一区二区三区| 国产精品女老熟女一区二区久久夜| 亚洲va久久久噜噜噜久久天堂 | 亚洲精品国产av成拍色拍| 国产性自爱拍偷在在线播放| 日本黄页网站免费观看| 人妻熟妇乱系列| 国产精品污一区二区三区在线观看 | 杨幂AV污网站在线一区二区| 国产精品久久一区性色a| 亚洲天堂av一区二区| 国产精品成人网站| 5级做人爱c视版免费视频| 国产一区二区三区免费精品| 亚洲女同av在线观看| 亚洲最全av一区二区| 日本无码人妻波多野结衣| 超碰Av一区=区三区| 国产又粗又猛又黄色呦呦| 人妻少妇艳情视频中文字幕| 久久天天躁狠狠躁夜夜躁2014| 精品一品国产午夜福利视频| 一二三四中文字幕日韩乱码| 国产高清在线一区二区不卡| 99国产精品人妻噜啊噜| 国产精品成人av在线观看| 成人国产在线播放自拍| 日本一区二区三区亚洲| 国精产品推荐视频| 亚洲欧洲日产国产AV无码| 亚洲女同精品久久女同| 精品视频在线观看日韩| 国产精品熟女视频一区二区| 国产免费播放一区二区| 亚洲白嫩少妇在线喷水| 绝顶潮喷绝叫在线观看| 日韩爱爱网站|