亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子語料庫及常用語料庫索引分析軟件介紹

        2014-04-29 00:00:00張爾謙
        商業(yè)2.0 2014年10期

        中圖分類號:H319.3 文獻標識碼:A

        摘要:計算機和網(wǎng)絡技術的迅速發(fā)展和一些優(yōu)秀的電子語料庫索引分析軟件的出現(xiàn)使電子文本的收集變得簡便而快捷,也使對語料庫的分析和深入研究成為可能。近年來,已有個別教師開始嘗試利用電子語料庫工具來輔助教學和科研。本文簡單介紹了電子語料庫的發(fā)展歷程、常用統(tǒng)計分析參數(shù)和原理以及幾個常用的語料庫索引分析軟件。

        關鍵詞:電子語料庫;語料庫索引分析軟件

        電子語料庫是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫。電子語料庫最重要的特點是能迅速且精確地呈現(xiàn)出與輸入關鍵詞有關的海量真實語言情境,并以KWIC(Key Words In Context)等形象的方式呈現(xiàn)。目前電子語料庫已廣泛應用于詞典編纂、語言學研究以及大規(guī)模語言測試的命題中,有些教師也開始嘗試將其運用于教學和科研。

        一、語料庫的發(fā)展歷程

        20世紀50年代以前,語料庫這個概念就已經存在。但是,這一時期的語料庫主要是人工收集起來的紙質文本材料,與今天所說的電子語料庫有很大的區(qū)別。這一時期主要是用人工方法對大量的紙質文本材料進行索引和統(tǒng)計,因而需要耗費大量的人力和時間,速度非常慢,效率低下。

        20世紀50年代以后,計算機已經在一些科學研究領域得到應用。這一時期,計算機成為研究語料庫的有力工具。計算機和電子語料有機結合形成了效率較高的電子語料庫管理索引系統(tǒng)。

        20世紀90年代以來,計算機的性能有了極大的提高,價格逐步下降,因特網(wǎng)的應用日趨廣泛,網(wǎng)絡上的電子文本材料數(shù)量飛速增長,將紙質文本材料電子化的各種設備逐漸普及,一些優(yōu)秀的電子語料庫分析統(tǒng)計軟件也被開發(fā)出來,這使電子文本的收集和分析變得簡便而快捷,一些較為知名的大型語料庫也開始出現(xiàn)。近年來,隨著計算機在教育領域的迅速普及,有個別語言教師特別是英語教師也開始嘗試利用電子語料庫工具來輔助教學和科研。

        二、電子語料庫的常用統(tǒng)計分析參數(shù)

        1、標準化類符形符比

        形符數(shù)指語料中的單詞總數(shù),同一個單詞出現(xiàn)多次需要多次計數(shù)。類符數(shù)指語料中的單詞形態(tài)數(shù)目,若同一個單詞出現(xiàn)多次只能計數(shù)一次。將研究分析范圍內的語料分成等長的若干部分,先計算出各個部分的類符數(shù)與形符數(shù)的比值,再將這些比值取算術平均值,就得到研究范圍內語料的標準化類符形符比。該參數(shù)可以較好地反映出研究范圍內語料的用詞變化性,標準化類符形符比越高則用詞變化性越強。

        2、平均詞長與平均句長

        平均詞長是指語料中出現(xiàn)的形符的詞長的算術平均值。平均句長是指語料中全部句子中所包含形符數(shù)值的算術平均值。這兩個參數(shù)在語料分析與研究中也有重要參考意義。

        3、詞頻、關鍵詞和關鍵性

        詞頻是指語料中每一個類符出現(xiàn)的頻率。關鍵詞是指與某一標準相比其頻率明顯偏高的詞看,偏高的程度就是其關鍵性。僅因為某一特定類符在語料中的詞頻顯著地高就將其判定為關鍵詞是不可取的,還要看其在參照語料庫中的詞頻,而參照語料庫的規(guī)模要足夠大。

        一般來說,我們用x2值來表示某一特定關鍵詞的關鍵性:

        x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))

        其中,f代表某一單詞在研究范圍內的語料中的詞頻,c代表該單詞在參照語料庫中的詞頻,m代表研究范圍內的語料的形符總數(shù), c代表參照語料庫的形符總數(shù)。

        一般來說,如果一個單詞的x。2值大于3.8,我們便可認定其在研究范圍內的語料中具有較為顯著的關鍵性。

        4、搭配詞與搭配力

        英國伯明翰大學的辛克萊教授認為搭配是兩個或兩個以上的詞在文本中很短距離內的共現(xiàn)。這一定義使得設計程序判斷某一特定單詞的搭配詞及兩者的搭配力變得可能。

        我們一般用Z值來表征搭配力。表1是通過檢索得到的某單詞在某語料庫中的語境塊。每個單元格是一個形符,行數(shù)為t,左右跨距均為s,假設該語料庫的形符數(shù)目為n。Lij在該語料庫中共出現(xiàn)m次,則Lij的形符在該語料庫全部形符中的占比是r=m/n。Lij在該語境塊中的期望出現(xiàn)次數(shù)為e=mt(2s+1)/n。假設語境塊中一共有c個與Lij相同的形符,則我們可以求出Lij在表1所示的語境塊中分布的標準差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,則可以認為Lij與W之間的搭配力顯著。

        香蕉视频一级片| 国产免费无遮挡吸奶头视频| 女邻居的大乳中文字幕| 高清在线亚洲中文精品视频| 区一区一日本高清视频在线观看| 国产精品一区二区久久久av| 97碰碰碰人妻无码视频| 好男人视频在线视频| 无遮挡粉嫩小泬| 亚洲天堂av福利在线| 无码人妻人妻经典| 五月婷一本到五月天| 中文字幕a区一区三区| 日韩女优av一区二区| 精品av天堂毛片久久久| 亚洲精品成AV无在线观看| 成人性生交大片免费看激情玛丽莎| 熟女体下毛荫荫黑森林| 国产午夜精品一区二区三区不卡| 国产精品欧美韩国日本久久| 日本女优中文字幕亚洲| 成人午夜福利视频| 免费国产交换配乱淫| 中文字幕精品一区二区日本 | 成人免费一区二区三区| 亚洲精品国产国语| 亚洲成人av一区二区| 97se狠狠狠狠狼鲁亚洲综合色| 在线播放国产一区二区三区| 亚洲一区二区免费日韩| 穿着白丝啪啪的av网站| 亚洲av无码xxx麻豆艾秋| 亚洲午夜精品久久久久久抢 | 职场出轨的人妻中文字幕| 亚洲日本中文字幕天天更新| 女同性恋精品一区二区三区| 国产69精品麻豆久久| 亚洲精品久久久久中文字幕| av超碰在线免费观看| 国产亚洲av一线观看| 久久久久人妻精品一区三寸|