亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計(jì)算機(jī)技術(shù)在語(yǔ)言學(xué)中的應(yīng)用探析

2017-01-01 00:00:00王迎軍

決策與信息·中旬刊 2017年2期

[摘要] 在語(yǔ)言學(xué)中，計(jì)算機(jī)技術(shù)更能大顯身手。在過(guò)去的語(yǔ)言學(xué)研究中，語(yǔ)料庫(kù)需要手工編纂整理，耗時(shí)耗力，而如今所有的數(shù)據(jù)采集處理匯總?cè)坑捎?jì)算機(jī)完成，人們只需要編寫和維護(hù)程序就可以達(dá)到建立一個(gè)龐大語(yǔ)料庫(kù)的目的。而作為批改等評(píng)分體系而言，則更具有準(zhǔn)確性和高效性，國(guó)內(nèi)外眾多的大型英語(yǔ)類考試就應(yīng)用了這一系統(tǒng)。文章通過(guò)對(duì)于自動(dòng)評(píng)分系統(tǒng)的發(fā)展、自動(dòng)評(píng)分系統(tǒng)構(gòu)建、語(yǔ)言學(xué)原理技術(shù)等進(jìn)行分析，模擬對(duì)自動(dòng)評(píng)分系統(tǒng)的建立及其優(yōu)缺點(diǎn)進(jìn)行評(píng)判，分析自動(dòng)評(píng)分系統(tǒng)的差距與不足以及發(fā)展前景。

[關(guān)鍵詞] 發(fā)展；五大發(fā)展理念；繼承與超越

[中圖分類號(hào)] TP399 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1002-8129（2017）01-0069-03

1943年，世界上第一臺(tái)計(jì)算機(jī)在美國(guó)面世，它重達(dá)5噸并且由7500萬(wàn)個(gè)零部件組成。它十分笨重且無(wú)法進(jìn)行過(guò)于復(fù)雜的計(jì)算。隨著科技的日新月移，計(jì)算機(jī)越來(lái)越小巧化，越來(lái)越多功能化。現(xiàn)在的計(jì)算機(jī)技術(shù)不僅僅滿足了人們進(jìn)行復(fù)雜運(yùn)算的需求，還可以進(jìn)行更加深層復(fù)雜的算法計(jì)算，并向著人工智能的方向發(fā)展。計(jì)算機(jī)技術(shù)也更多地應(yīng)用于語(yǔ)言學(xué)研究的領(lǐng)域。在語(yǔ)言學(xué)中，主要有以下幾個(gè)方面的應(yīng)用：

一、語(yǔ)料庫(kù)

初期的語(yǔ)料庫(kù)是一種收集了各種英語(yǔ)語(yǔ)言材料的數(shù)據(jù)庫(kù)，這一收集整理工作很長(zhǎng)時(shí)間以來(lái)是依靠人力完成的。而現(xiàn)在利用計(jì)算機(jī)技術(shù)，語(yǔ)言材料的收集整理有了全新的更加便捷的處理方式。布朗語(yǔ)料庫(kù)被視為是第一代語(yǔ)料庫(kù)的代表，它所包含的語(yǔ)言材料數(shù)目很小，大約只有一百萬(wàn)左右。20世紀(jì)80年代，第二代語(yǔ)料庫(kù)誕生了，這一代的語(yǔ)料庫(kù)的材料數(shù)目已經(jīng)遠(yuǎn)大于第一代，而且還增加了各種不同的條目。到了20世紀(jì)90年代，語(yǔ)料庫(kù)發(fā)展到第三代更加商用的語(yǔ)料庫(kù)，通常包含有數(shù)十億的詞匯及材料，而且還在運(yùn)用更加先進(jìn)的技術(shù)對(duì)其進(jìn)行完善。

二、機(jī)器翻譯

機(jī)器翻譯的研究已經(jīng)歷經(jīng)近五十年，許多新理論、新方法、新技術(shù)不斷出現(xiàn)。隨著商用語(yǔ)料庫(kù)的出現(xiàn)，機(jī)器翻譯有了突破性的進(jìn)展，發(fā)展出了統(tǒng)計(jì)學(xué)方法以及實(shí)例方法。雖然這個(gè)領(lǐng)域有長(zhǎng)足進(jìn)步，但機(jī)器翻譯仍舊存在著很多的問(wèn)題，這不僅是計(jì)算機(jī)領(lǐng)域所要進(jìn)行的突破，更是語(yǔ)言學(xué)方面需要做出的努力。

三、自動(dòng)作文評(píng)分系統(tǒng)

自動(dòng)作文評(píng)分系統(tǒng)（Auto Essay Scoring System，AESS）是計(jì)算機(jī)領(lǐng)域在語(yǔ)言學(xué)方面的又一重要應(yīng)用。寫作任務(wù)是大范圍語(yǔ)言測(cè)試的重要部分之一，幾乎在所有層次所有類型的大規(guī)模語(yǔ)言考試中都能見(jiàn)到。它可以測(cè)試出受試者對(duì)于這一門語(yǔ)言的掌握情況。而對(duì)于寫作任務(wù)的評(píng)分而言，一是需要大量的人力物力來(lái)支持，二是由于個(gè)體的差異會(huì)導(dǎo)致評(píng)分結(jié)果的主觀性較強(qiáng)，信度和效度不高。而計(jì)算機(jī)技術(shù)的發(fā)展與應(yīng)用，為解決上述的兩個(gè)問(wèn)題提供巨大的幫助。

上述內(nèi)容是對(duì)于計(jì)算機(jī)技術(shù)在語(yǔ)言學(xué)方面應(yīng)用的一個(gè)簡(jiǎn)單回顧，下面著重介紹計(jì)算機(jī)技術(shù)在自動(dòng)作文評(píng)分系統(tǒng)中的應(yīng)用。

Page是自動(dòng)作文評(píng)分系統(tǒng)領(lǐng)域的先驅(qū)，他在1966年創(chuàng)造Project Essay Grader （PEG）系統(tǒng)，用以更加方便快捷地解決大范圍語(yǔ)言考試中作文部分的評(píng)分任務(wù)。而當(dāng)時(shí)的評(píng)價(jià)系統(tǒng)僅僅是通過(guò)對(duì)于特定文本特征分析來(lái)對(duì)作文進(jìn)行評(píng)分，評(píng)分依據(jù)相對(duì)單一。直到1990年后，這一領(lǐng)域的研究瓶頸才被突破。隨著自然語(yǔ)言處理技術(shù)以及信息檢索技術(shù)的發(fā)展，自動(dòng)作文評(píng)分系統(tǒng)領(lǐng)域的研究重新?lián)Q發(fā)活力。在20世紀(jì)90年代，Educational Testing Service （ETS）開(kāi)始研發(fā)第一代ETS。盡管作文的內(nèi)容還尚未納入評(píng)分系統(tǒng)的考核范圍之內(nèi)，且它只能判定20個(gè)詞以內(nèi)的句子，但它已經(jīng)能夠通過(guò)直接的評(píng)價(jià)手段來(lái)對(duì)作文進(jìn)行評(píng)分。在20世紀(jì)90年代末，3個(gè)全新的自動(dòng)作文評(píng)分系統(tǒng)出現(xiàn)了：①Intelligent Essay Assessor （IEA）更加重視作文內(nèi)容方面的評(píng)判。②Electronic Essay Rater （E-rater）是基于第一代ETS的新的系統(tǒng)，它綜合考量文章結(jié)構(gòu)、句子結(jié)構(gòu)以及文章內(nèi)容。③Intelligent Metric （IM），是第一個(gè)運(yùn)用人工智能技術(shù)，將作文的風(fēng)格及內(nèi)容綜合考慮并進(jìn)行評(píng)分的系統(tǒng)。

大致了解了自動(dòng)作文評(píng)分系統(tǒng)的發(fā)展之后，我們著重介紹一下自動(dòng)作文評(píng)分系統(tǒng)中所運(yùn)用到的計(jì)算機(jī)技術(shù)。

Page將作文評(píng)分劃分為兩個(gè)部分，一是對(duì)于內(nèi)容的評(píng)分；二是對(duì)于語(yǔ)言特征的評(píng)分。前者更加重視文章所描述的具體內(nèi)容而后者包括句法、寫作機(jī)制、措辭及表達(dá)等。爭(zhēng)論的焦點(diǎn)在于這兩個(gè)方面應(yīng)該綜合起來(lái)進(jìn)行考慮，不應(yīng)該孤立地考量，將二者綜合考慮這一觀點(diǎn)已經(jīng)被現(xiàn)在的大多數(shù)學(xué)者所接受。

自動(dòng)作文評(píng)分系統(tǒng)綜合運(yùn)用了統(tǒng)計(jì)學(xué)方法、自然語(yǔ)言處理技術(shù)、信息檢索技術(shù)以及文本聚類技術(shù)等。其中最重要的統(tǒng)計(jì)技術(shù)又包括了簡(jiǎn)單的關(guān)鍵字分析、特殊文本特征分析、潛在語(yǔ)義分析及文本歸類技術(shù)。

（一）特定文本特征分析技術(shù)

這一技術(shù)最初于1966年被Page用于PEG系統(tǒng)當(dāng)中。Page認(rèn)為作文的特征是由文本特征所表現(xiàn)出來(lái)的，且這些文本特征可以被衡量。舉例來(lái)說(shuō)，在一段文字可以通過(guò)它的句子長(zhǎng)度來(lái)表現(xiàn)，句子結(jié)構(gòu)的復(fù)雜程度可以通過(guò)介詞及關(guān)系代詞等詞匯的數(shù)量來(lái)量化考察。而作者的詞匯水平可以通過(guò)檢測(cè)文章中詞匯長(zhǎng)度的變化情況得出相應(yīng)結(jié)果。為了實(shí)現(xiàn)AES系統(tǒng)，Page運(yùn)用變量分析法，其中變量即為可被計(jì)算機(jī)直接量化并計(jì)算的特定的文本特征。

（二）潛伏語(yǔ)義分析技術(shù)

潛伏語(yǔ)義分析技術(shù)的中心思想十分簡(jiǎn)單，一方面段落的含義很大程度上決定于其中所包含的詞匯，一旦一個(gè)詞匯被替換掉，整個(gè)段落的意思都可能會(huì)發(fā)生改變。另一方面，兩個(gè)段落的意思與兩個(gè)段落間所包含的不同詞匯有著很大的關(guān)系。簡(jiǎn)而言之即為：詞義1+詞義2+……+詞義n=段義。

潛伏語(yǔ)義分析是一個(gè)被用于文本索引及信息檢索的復(fù)雜技術(shù)，它的穩(wěn)健性很好且可以幫助找出不同文本中的詞匯間的潛在關(guān)系。在潛伏語(yǔ)義分析技術(shù)中心，它將每一篇文章做一個(gè)特定的向量，列向量對(duì)應(yīng)于文本特性而行向量對(duì)應(yīng)于文本特征如詞、句、段等。對(duì)文章評(píng)分貢獻(xiàn)不大的詞匯就會(huì)被舍去以降低研究范圍、減小計(jì)算量。

（三）自然語(yǔ)言處理技術(shù)

這一技術(shù)最早被應(yīng)用于E-rater系統(tǒng)中，這一系統(tǒng)運(yùn)用此技術(shù)來(lái)分析文章中的每個(gè)句子。舉例來(lái)說(shuō)，詞性標(biāo)注器賦予了每個(gè)單詞以詞性，爾后在文本分析器中分析句子結(jié)構(gòu)，在分析儀中分析了文章的段落結(jié)構(gòu)。運(yùn)用了這項(xiàng)技術(shù)的評(píng)分系統(tǒng)中包含五個(gè)獨(dú)立模塊來(lái)完成評(píng)分。它們中的三個(gè)通過(guò)識(shí)別特征作為評(píng)分標(biāo)準(zhǔn)，它們是句法模塊、段落模塊及主題分析模塊，分別用以分析句法復(fù)雜性、行文思路以及詞匯能力。第四個(gè)模塊是選擇分配各個(gè)特征所占據(jù)的權(quán)重，最后一個(gè)模塊用以綜合計(jì)算最終的分?jǐn)?shù)。

（四）文本歸類技術(shù)

這一技術(shù)主要用于對(duì)文章中所出現(xiàn)的詞匯、句法等元素進(jìn)行分類提取，并建立出相應(yīng)的語(yǔ)料庫(kù)，用于為評(píng)分系統(tǒng)提供一個(gè)基本數(shù)據(jù)庫(kù)來(lái)提取要素并進(jìn)行比對(duì)分析，再結(jié)合其他方法進(jìn)行最終的評(píng)分。

隨著計(jì)算機(jī)技術(shù)的發(fā)展，自動(dòng)作文評(píng)分系統(tǒng)逐漸走向完善，隨著技術(shù)的提升以及語(yǔ)言學(xué)方面通過(guò)語(yǔ)篇分析得到的要素提取，自動(dòng)作文評(píng)分系統(tǒng)也越來(lái)越廣泛地為大范圍的語(yǔ)言測(cè)試提供了可靠的分?jǐn)?shù)測(cè)評(píng)。盡管如此，自動(dòng)作文評(píng)分系統(tǒng)同人工評(píng)分仍有著不小的差距，怎樣減小個(gè)體的誤差，更準(zhǔn)確更具針對(duì)性的進(jìn)行評(píng)分，這是下一步自動(dòng)作文評(píng)分系統(tǒng)的發(fā)展方向，相信隨著人工智能技術(shù)的日益進(jìn)步，未來(lái)的自動(dòng)作文評(píng)分系統(tǒng)會(huì)更加完備，能夠早日讓人類放心地將作文批改的任務(wù)完全交付于計(jì)算機(jī)。

[責(zé)任編輯：曾菡]

決策與信息·中旬刊2017年2期

決策與信息·中旬刊的其它文章: 經(jīng)濟(jì)類研究生學(xué)術(shù)素養(yǎng)培育及路徑優(yōu)化; 云教學(xué)論; 計(jì)算機(jī)網(wǎng)絡(luò)安全問(wèn)題及對(duì)策; 新媒體發(fā)展態(tài)勢(shì)及其對(duì)社會(huì)影響; 對(duì)年輕人網(wǎng)絡(luò)貸款行為的教育引導(dǎo); 淺析企業(yè)文化對(duì)企業(yè)品牌營(yíng)銷戰(zhàn)略的影響