亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子語料庫及常用語料庫索引分析軟件介紹

        2014-04-29 00:00:00張爾謙
        商業(yè)2.0 2014年10期

        中圖分類號:H319.3 文獻標識碼:A

        摘要:計算機和網(wǎng)絡技術的迅速發(fā)展和一些優(yōu)秀的電子語料庫索引分析軟件的出現(xiàn)使電子文本的收集變得簡便而快捷,也使對語料庫的分析和深入研究成為可能。近年來,已有個別教師開始嘗試利用電子語料庫工具來輔助教學和科研。本文簡單介紹了電子語料庫的發(fā)展歷程、常用統(tǒng)計分析參數(shù)和原理以及幾個常用的語料庫索引分析軟件。

        關鍵詞:電子語料庫;語料庫索引分析軟件

        電子語料庫是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫。電子語料庫最重要的特點是能迅速且精確地呈現(xiàn)出與輸入關鍵詞有關的海量真實語言情境,并以KWIC(Key Words In Context)等形象的方式呈現(xiàn)。目前電子語料庫已廣泛應用于詞典編纂、語言學研究以及大規(guī)模語言測試的命題中,有些教師也開始嘗試將其運用于教學和科研。

        一、語料庫的發(fā)展歷程

        20世紀50年代以前,語料庫這個概念就已經存在。但是,這一時期的語料庫主要是人工收集起來的紙質文本材料,與今天所說的電子語料庫有很大的區(qū)別。這一時期主要是用人工方法對大量的紙質文本材料進行索引和統(tǒng)計,因而需要耗費大量的人力和時間,速度非常慢,效率低下。

        20世紀50年代以后,計算機已經在一些科學研究領域得到應用。這一時期,計算機成為研究語料庫的有力工具。計算機和電子語料有機結合形成了效率較高的電子語料庫管理索引系統(tǒng)。

        20世紀90年代以來,計算機的性能有了極大的提高,價格逐步下降,因特網(wǎng)的應用日趨廣泛,網(wǎng)絡上的電子文本材料數(shù)量飛速增長,將紙質文本材料電子化的各種設備逐漸普及,一些優(yōu)秀的電子語料庫分析統(tǒng)計軟件也被開發(fā)出來,這使電子文本的收集和分析變得簡便而快捷,一些較為知名的大型語料庫也開始出現(xiàn)。近年來,隨著計算機在教育領域的迅速普及,有個別語言教師特別是英語教師也開始嘗試利用電子語料庫工具來輔助教學和科研。

        二、電子語料庫的常用統(tǒng)計分析參數(shù)

        1、標準化類符形符比

        形符數(shù)指語料中的單詞總數(shù),同一個單詞出現(xiàn)多次需要多次計數(shù)。類符數(shù)指語料中的單詞形態(tài)數(shù)目,若同一個單詞出現(xiàn)多次只能計數(shù)一次。將研究分析范圍內的語料分成等長的若干部分,先計算出各個部分的類符數(shù)與形符數(shù)的比值,再將這些比值取算術平均值,就得到研究范圍內語料的標準化類符形符比。該參數(shù)可以較好地反映出研究范圍內語料的用詞變化性,標準化類符形符比越高則用詞變化性越強。

        2、平均詞長與平均句長

        平均詞長是指語料中出現(xiàn)的形符的詞長的算術平均值。平均句長是指語料中全部句子中所包含形符數(shù)值的算術平均值。這兩個參數(shù)在語料分析與研究中也有重要參考意義。

        3、詞頻、關鍵詞和關鍵性

        詞頻是指語料中每一個類符出現(xiàn)的頻率。關鍵詞是指與某一標準相比其頻率明顯偏高的詞看,偏高的程度就是其關鍵性。僅因為某一特定類符在語料中的詞頻顯著地高就將其判定為關鍵詞是不可取的,還要看其在參照語料庫中的詞頻,而參照語料庫的規(guī)模要足夠大。

        一般來說,我們用x2值來表示某一特定關鍵詞的關鍵性:

        x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))

        其中,f代表某一單詞在研究范圍內的語料中的詞頻,c代表該單詞在參照語料庫中的詞頻,m代表研究范圍內的語料的形符總數(shù), c代表參照語料庫的形符總數(shù)。

        一般來說,如果一個單詞的x。2值大于3.8,我們便可認定其在研究范圍內的語料中具有較為顯著的關鍵性。

        4、搭配詞與搭配力

        英國伯明翰大學的辛克萊教授認為搭配是兩個或兩個以上的詞在文本中很短距離內的共現(xiàn)。這一定義使得設計程序判斷某一特定單詞的搭配詞及兩者的搭配力變得可能。

        我們一般用Z值來表征搭配力。表1是通過檢索得到的某單詞在某語料庫中的語境塊。每個單元格是一個形符,行數(shù)為t,左右跨距均為s,假設該語料庫的形符數(shù)目為n。Lij在該語料庫中共出現(xiàn)m次,則Lij的形符在該語料庫全部形符中的占比是r=m/n。Lij在該語境塊中的期望出現(xiàn)次數(shù)為e=mt(2s+1)/n。假設語境塊中一共有c個與Lij相同的形符,則我們可以求出Lij在表1所示的語境塊中分布的標準差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,則可以認為Lij與W之間的搭配力顯著。

        无码精品国产午夜| 熟妇人妻中文字幕无码老熟妇| 黄污在线观看一区二区三区三州 | 国产亚洲成年网址在线观看 | 中文字幕人乱码中文字幕乱码在线| 三级日本理论在线观看| 国产亚洲人成在线观看| 特级做a爰片毛片免费看| 亚洲精品久久| 欧美最猛黑人xxxx黑人表情| 亚洲欧美在线播放| 香蕉视频免费在线| 丰满少妇高潮在线观看| 91麻豆精品久久久影院| 国产高潮流白浆视频在线观看| 日本中文字幕一区二区有码在线| 青娱乐极品视觉盛宴国产视频| 国产精品免费精品自在线观看| 亚洲欧美精品aaaaaa片| 99久久人妻无码精品系列蜜桃| 国内精品视频成人一区二区| 一级一片内射在线播放| 亚洲一品道一区二区三区| 亚洲国产成人久久三区| 久久午夜伦鲁片免费无码| 99re免费在线视频| 国产精品麻豆A在线播放| 日韩精品免费观看在线| 无码一区二区三区| 久久久久人妻精品一区蜜桃| 欧美精品一区二区性色a+v| 久久精品国产精品亚洲婷婷| 日本精品熟妇一区二区三区| 国产精品人妻熟女男人的天堂| 国产精品女同久久久久电影院 | 精品无码一区二区三区小说| 久久精品女同亚洲女同 | 凹凸在线无码免费视频| av人摸人人人澡人人超碰小说| 狠狠干视频网站| 久久久精品国产三级精品 |