亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一個(gè)基于詞語(yǔ)搭配的英文文本檢索軟件的實(shí)現(xiàn)

        2017-11-01 17:14:41喬艷梅楊進(jìn)才劉應(yīng)亮
        關(guān)鍵詞:文本

        喬艷梅 楊進(jìn)才 劉應(yīng)亮

        1(青島城市管理職業(yè)學(xué)校 山東 青島 266042)

        2(華中師范大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430079)

        3(武漢理工大學(xué)外語(yǔ)學(xué)院 湖北 武漢 430079)

        一個(gè)基于詞語(yǔ)搭配的英文文本檢索軟件的實(shí)現(xiàn)

        喬艷梅1楊進(jìn)才2劉應(yīng)亮3*

        1(青島城市管理職業(yè)學(xué)校 山東 青島 266042)

        2(華中師范大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430079)

        3(武漢理工大學(xué)外語(yǔ)學(xué)院 湖北 武漢 430079)

        詞語(yǔ)搭配是英語(yǔ)語(yǔ)言學(xué)研究中的一個(gè)重要課題,近年來(lái),趨向于注重?cái)?shù)據(jù)驗(yàn)證和量化研究。探討一個(gè)基于搭配研究的英文文本檢索軟件ColloStu實(shí)現(xiàn)的關(guān)鍵技術(shù)。該軟件設(shè)計(jì)一個(gè)通配符匹配算法,該算法使用確定有限自動(dòng)機(jī)DFA,通過(guò)壓縮自動(dòng)機(jī)的狀態(tài)數(shù),加快匹配速度。同時(shí),在檢索搭配詞時(shí)能識(shí)別共現(xiàn)語(yǔ)境中的句子終結(jié)符,從而更有效地檢索出搭配詞。對(duì)搭配力計(jì)算的Z分值算法進(jìn)行了改進(jìn),綜合運(yùn)用Z分值、T分值、MI值從多個(gè)角度計(jì)算搭配強(qiáng)度,使計(jì)算更加準(zhǔn)確。實(shí)驗(yàn)表明,與主流的檢索軟件相比,ColloStu除增加了搭配力計(jì)算功能外,單詞統(tǒng)計(jì)和搭配詞檢索更準(zhǔn)確。

        文本檢索 詞語(yǔ)搭配 通配符匹配 確定有限自動(dòng)機(jī) 搭配力計(jì)算

        0 引 言

        詞語(yǔ)搭配研究是語(yǔ)言學(xué)研究中的一個(gè)重要課題。當(dāng)前,國(guó)內(nèi)外對(duì)詞語(yǔ)搭配研究已經(jīng)確立了相關(guān)量化、分析方法[1]。目前,語(yǔ)料庫(kù)語(yǔ)言學(xué)的核心分析方法有:(1) 詞頻和上下文關(guān)鍵字搜索;(2) 語(yǔ)料庫(kù)比較;(3) 搭配,即詞項(xiàng)共現(xiàn);(4) 詞頻的統(tǒng)計(jì)評(píng)估程序。

        同時(shí),軟件統(tǒng)計(jì)搭配詞又有兩種方法:(1) 在給定跨度內(nèi)搜索出現(xiàn)頻率最高的詞語(yǔ)組合;(2) 給定節(jié)點(diǎn)詞和跨距值[2],搜索出節(jié)點(diǎn)詞的搭配詞。具體來(lái)說(shuō),節(jié)點(diǎn)詞是指要在語(yǔ)料庫(kù)中檢索其搭配行為的某個(gè)詞項(xiàng),而跨距指的是節(jié)點(diǎn)詞左右的語(yǔ)境。在語(yǔ)料庫(kù)研究中,每個(gè)詞都可以作為節(jié)點(diǎn)詞。搭配知識(shí)庫(kù)的設(shè)計(jì)需要將規(guī)則和概率結(jié)合起來(lái)[3],因此要用統(tǒng)計(jì)的方法測(cè)量詞語(yǔ)搭配的概率屬性,而統(tǒng)計(jì)的對(duì)象則是真實(shí)使用中的語(yǔ)言。在對(duì)詞語(yǔ)共現(xiàn)進(jìn)行量化分析時(shí),常用的統(tǒng)計(jì)方法有(1) Z-分值(Z-score);(2) T-分值(T-score);(3) MI值(Mutual Information Score,互信息值)。

        20世紀(jì)80年代至今,基于上述思想方法的詞語(yǔ)搭配研究廣泛展開。應(yīng)用于詞語(yǔ)行為研究的自動(dòng)檢索、統(tǒng)計(jì)軟件以及搭配程序不斷誕生。語(yǔ)料庫(kù)檢索工具提取數(shù)據(jù)高速、分析快捷,多用于揭示語(yǔ)言使用規(guī)律與特點(diǎn)[4]。關(guān)鍵詞檢索是其最常用的功能,有了語(yǔ)料庫(kù)檢索工具作支撐,分析關(guān)鍵詞則變得更加便利、直觀?,F(xiàn)階段,國(guó)內(nèi)外相關(guān)研究常用工具有Wordsmith、AntConc、Range、Concordance等。各軟件主要功能如表1所示。

        表1 主要語(yǔ)料庫(kù)檢索工具的功能

        WordSmith擁有三大主要功能[5]:檢索、關(guān)鍵詞檢索和基于文件的檢索。AntConc在呈現(xiàn)結(jié)果方面可從搭配詞、繪圖、詞匯集等多個(gè)角度展示。WordSmith與AntConc常用來(lái)觀測(cè)與分析常見文體特征。Concordance可用來(lái)幫助分析電子文本。 Range用來(lái)對(duì)比分析文本詞匯的深度與廣度,其自帶三個(gè)基礎(chǔ)詞表,分別是英語(yǔ)中出現(xiàn)頻率最高的1 000個(gè)單詞、1 001~2 000個(gè)單詞以及“學(xué)術(shù)詞匯表”,其中包括除上述2 000個(gè)最常用詞匯以外的570個(gè)大學(xué)常用學(xué)術(shù)詞匯。

        WordSmith 功能強(qiáng)大但操作復(fù)雜、難懂、不易讓用戶上手使用,搭配力計(jì)算只有MI分值、T分值方式。Concordance數(shù)據(jù)呈現(xiàn)方式單一、界面簡(jiǎn)單、交互性不強(qiáng)。Concordance、 AntConc軟件統(tǒng)計(jì)上不支持對(duì)連詞線和數(shù)字等特殊字符的識(shí)別,沒有直接計(jì)算搭配力導(dǎo)致搭配強(qiáng)度不直觀。廣義的搭配觀[3]把“搭配”界定為:一定長(zhǎng)度的上下文中,有語(yǔ)義、語(yǔ)法、語(yǔ)用聯(lián)系的詞語(yǔ)共現(xiàn),包括限制性組合搭配、固定搭配和廣義的自由共現(xiàn)搭配。通常所說(shuō)英語(yǔ)中的詞語(yǔ)搭配都是屬于有限組合,即詞的搭配范圍的有限性,這一點(diǎn)是和語(yǔ)言使用的典型性密切相聯(lián)的。詞語(yǔ)搭配具有典型性正是由于詞的搭配力和搭配范圍有限[6],而上述軟件在計(jì)算搭配力時(shí)沒能排除網(wǎng)絡(luò)下載轉(zhuǎn)換后的文本中特殊字符的干擾并忽視了句子終結(jié)符的限制,也就是沒有考慮“一定長(zhǎng)度的上下文”中的詞語(yǔ)共現(xiàn)以及搭配范圍的有限性,導(dǎo)致有效搭配詞的檢索不夠精確。此外,上述軟件對(duì)于搭配強(qiáng)度計(jì)算缺乏或手段單一。

        本文研究開發(fā)界面友好、簡(jiǎn)單易用、檢索方式靈活、支持文件定位、支持搭配力計(jì)算的英文文本檢索軟件ColloStu。其中,設(shè)計(jì)高效的搭配檢索算法,提高獲取搭配詞以及計(jì)算搭配力的準(zhǔn)確度成為本文研究的重點(diǎn)。

        1 ColloStu實(shí)現(xiàn)的關(guān)鍵技術(shù)

        1.1 ColloStu的功能模塊

        根據(jù)不同的功能需求,劃分為簡(jiǎn)單檢索、高級(jí)檢索、有效搭配檢索、文件查看與定位、結(jié)果保存、信息統(tǒng)計(jì)六個(gè)功能模塊,模塊劃分如圖1所示。

        圖1 系統(tǒng)功能模塊

        系統(tǒng)功能介紹如下:

        (1) 簡(jiǎn)單檢索即“詞語(yǔ)索引”,目的是在文本中檢索某個(gè)或某些詞匯或短語(yǔ)的出現(xiàn)頻率,不考慮檢索詞的語(yǔ)境,主要適用于對(duì)少量詞語(yǔ)進(jìn)行檢索。其主要技術(shù)涉及字符串的通配符匹配。

        (2) 高級(jí)檢索在檢索過(guò)程中對(duì)檢索詞出現(xiàn)的語(yǔ)境加以進(jìn)一步的設(shè)定,目的是查找滿足一定語(yǔ)境條件的檢索詞。設(shè)定包含語(yǔ)境跨度的設(shè)定和語(yǔ)境詞的設(shè)定。

        (3) 有效搭配檢索主要實(shí)現(xiàn)語(yǔ)料庫(kù)軟件統(tǒng)計(jì)搭配詞兩種方法中的后者,即給定節(jié)點(diǎn)詞和跨距值,搜索出節(jié)點(diǎn)詞的搭配詞,并計(jì)算搭配詞的搭配力,包括Z分值、T分值、MI值。

        (4) 文件查看與定位模塊負(fù)責(zé)查看某個(gè)文本文件內(nèi)容,在選中簡(jiǎn)單檢索結(jié)果的二級(jí)列表時(shí),顯示其文本文件中對(duì)應(yīng)的內(nèi)容。

        (5) 結(jié)果保存模塊負(fù)責(zé)保存當(dāng)前文件列表。

        (6) 信息統(tǒng)計(jì)模塊的主要功能是對(duì)已經(jīng)進(jìn)行檢索操作的文本信息進(jìn)行統(tǒng)計(jì)。信息統(tǒng)計(jì)分為三種,簡(jiǎn)單檢索的統(tǒng)計(jì)、高級(jí)檢索的統(tǒng)計(jì)以及搭配檢索的統(tǒng)計(jì)。每種統(tǒng)計(jì)都包含文件總數(shù)、句子總數(shù)和單詞總數(shù)三種數(shù)據(jù)信息。

        1.2 字符串的通配符匹配算法設(shè)計(jì)

        正則表達(dá)式由常規(guī)字符和元字符構(gòu)成,使用單個(gè)字符串來(lái)描述、匹配一系列符合某個(gè)句法規(guī)則的字符串,具有靈活、高效的特點(diǎn)。本文實(shí)現(xiàn)正則表達(dá)式中通配符元字符的匹配,支持‘*’與‘?’的輸入(其中‘*’代表任意字符,‘?’代表一個(gè)字符),它們可以出現(xiàn)在詞首、詞中以及詞尾,可多次出現(xiàn),體現(xiàn)了正則表達(dá)式的靈活高效特點(diǎn)。

        通配符的匹配通常用有限狀態(tài)自動(dòng)機(jī)FSA 實(shí)現(xiàn)。有限狀態(tài)自動(dòng)機(jī)分為確定有限自動(dòng)機(jī)與非確定有限自動(dòng)機(jī)。非確定有限自動(dòng)機(jī)匹配效率低[7],原因是它處理一個(gè)字符必須逐個(gè)訪問(wèn)狀態(tài)集合中的所有狀態(tài)。相反,匹配效率高的確定有限自動(dòng)機(jī)處理一個(gè)字符只需訪問(wèn)一個(gè)狀態(tài),但是會(huì)出現(xiàn)狀態(tài)膨脹問(wèn)題。

        對(duì)于字符串a(chǎn)bc*cd、*ghif和de?ghi, 現(xiàn)有的算法如fcq-FA[8]算法雖然將確定字符串與元字符進(jìn)行了分離且引入了標(biāo)志位,但沒有將確定的子串a(chǎn)bc、cd、ghi、de和du看成一個(gè)整體。

        本文將這些確定的子串看成一個(gè)整體構(gòu)造確定有限自動(dòng)機(jī),并將通配符里的確定字符串與元字符分離,一次狀態(tài)轉(zhuǎn)移可以處理多個(gè)字符,避免確定有限自動(dòng)機(jī)狀態(tài)的膨脹。

        字符串a(chǎn)bc*cd、*ghif和de?ghi的匹配過(guò)程如圖2所示。到達(dá)狀態(tài)1后,程序會(huì)循環(huán)遞歸調(diào)用匹配函數(shù)進(jìn)而判斷當(dāng)前字符串的余串(待匹配長(zhǎng)度每循環(huán)一次減1)與‘*’之后的字符串是否匹配成功,直到不再滿足循環(huán)條件退出或者匹配成功為止。到達(dá)狀態(tài)2后,輸出匹配 abc*cd。如果匹配到abc,則當(dāng)前字符串可以移動(dòng)三位,這樣既壓縮了確定有限自動(dòng)機(jī)的狀態(tài)數(shù),也加快了匹配速度。

        圖2 字符串匹配的確定有限自動(dòng)機(jī)

        字符串的通配符匹配算法的核心偽代碼見算法1。算法1涉及的符號(hào)及其含義如表2所示。

        算法1字符串的通配符匹配算法。

        Declaration Bool matchWord(QString S1, QString S2)

        Step1Verify the cyclic condition

        For S1[i],S2[j]

        //對(duì)于當(dāng)前字符串與關(guān)鍵詞字符串的每一次匹配操作

        If(i>= L2&& j> L2)

        //初始時(shí),未符合循環(huán)條件

        Return false;

        Else

        //當(dāng)前詞與關(guān)鍵詞都沒有比對(duì)完,繼續(xù)匹配

        execute Step2 to Step4;

        Step2Dispose ‘*’

        //處理匹配遇到‘*’的情況

        j++;

        If(j==L2)

        //以*結(jié)尾,表示匹配成功

        Return true;

        If(match(S1[j~L1],S2[i~L2]))

        //遞歸比較剩下的字符串,若匹配成功

        Return true;

        If(L2-N*-i>L1-j)

        //若剩下的關(guān)鍵詞長(zhǎng)度>當(dāng)前詞剩下的長(zhǎng)度

        Return false;

        If(i< L2且w∈{1至L1-j-1})

        // j不變,當(dāng)前字符串匹配位置逐個(gè)后移

        If(match(S1[j+w~L1],S2[i~L2]))

        //與關(guān)鍵詞剩余串比較

        Return true;

        If(L2-N*-i>L1-j-w)

        //若剩下的關(guān)鍵詞長(zhǎng)度>當(dāng)前詞剩下長(zhǎng)度

        Return false;

        Step3Dispose ‘?’

        //處理匹配遇到‘?’的情況

        i++;j++;

        If(i==L2&& j==L1)

        Return true;

        Step4Dispose ‘letter’

        //處理匹配遇到字母的情況

        If(S1.compare(Lsub)==0)

        //從當(dāng)前位置開始,若Lsub匹配成功

        i+ Lsub;

        //當(dāng)前字符串可以向后移動(dòng)Lsub長(zhǎng)度

        j+ Lsub;

        //關(guān)鍵詞字符串可以向后移動(dòng)Lsub長(zhǎng)度

        If(i==L2&& j==L1)

        //此種情況下,匹配成功時(shí)條件判斷

        Return true;

        Else

        Return false;

        表2 通配符匹配算法符號(hào)及其含義

        續(xù)表2

        1.3 搭配力算法設(shè)計(jì)

        搭配力反映的是搭配的意義或者是搭配的顯著性。搭配力涉及的概念與方法,包括節(jié)點(diǎn)詞、跨距和搭配詞。對(duì)于任何一種語(yǔ)言來(lái)說(shuō),詞語(yǔ)搭配都有一定的詞項(xiàng)范圍,因此我們需要考慮語(yǔ)境跨度,即跨距??缇嘀蹬c搭配詞提取的結(jié)果有直接的關(guān)系。就英語(yǔ)而言,將跨距界定為左右3到5個(gè)詞即將跨距設(shè)為3至5是較為合適的[9]。抽象化的過(guò)程,建立在統(tǒng)計(jì)的基礎(chǔ)上[3],因此采用統(tǒng)計(jì)量:Z分值、T分值以及MI值來(lái)揭示搭配力。

        用來(lái)揭示搭配力的一個(gè)有用的統(tǒng)計(jì)量是Z分值,Z分值的計(jì)算公式如式(1)-式(5)所示:

        (1)

        E=P×M

        (2)

        (3)

        (4)

        M=(2S+1)×N

        (5)

        其中:C′表示搭配詞出現(xiàn)的實(shí)際次數(shù),SD代表標(biāo)準(zhǔn)差(下同),E代表搭配詞在庫(kù)中出現(xiàn)的期望,C表示搭配詞在庫(kù)中出現(xiàn)的總次數(shù),W表示語(yǔ)料庫(kù)的詞匯數(shù)(下同),S表示跨距范圍(下同),N表示語(yǔ)境文本中的索引行數(shù)。

        對(duì)于式(5)中的M代表檢索出的語(yǔ)境文本的單詞數(shù),本身就是一個(gè)約數(shù)。在檢索節(jié)點(diǎn)詞的搭配詞過(guò)程中,若節(jié)點(diǎn)詞與某一詞在相鄰的兩句同時(shí)出現(xiàn),且兩者的距離在設(shè)定的跨距值之內(nèi),那么按照傳統(tǒng)的檢索方法,這樣的詞會(huì)被檢索出來(lái)作為搭配詞,這種情況增加了檢索軟件的檢索錯(cuò)誤率。在實(shí)現(xiàn)搭配詞檢索的過(guò)程中,本文對(duì)M值的計(jì)算進(jìn)行了改進(jìn),基于多字符串的句中檢索算法,只有與節(jié)點(diǎn)詞在同一句的搭配詞才會(huì)被檢索出來(lái)。我們用Cs表示節(jié)點(diǎn)詞的所有搭配詞的個(gè)數(shù)則改進(jìn)后的M值的計(jì)算公式為:

        M=Cs+N

        (6)

        共現(xiàn)頻數(shù)越高,Z分值也就越高,搭配詞與節(jié)點(diǎn)詞的搭配越顯著。一般而言,Z≥2(使用的語(yǔ)料庫(kù)較小)或者Z≥3(使用的語(yǔ)料庫(kù)較大)的詞被認(rèn)為是顯著搭配詞。

        T分值反映的是節(jié)點(diǎn)詞與搭配詞在多大程度上存在顯著搭配關(guān)系,這給我們提供的是一種把握性。一般情況下用于測(cè)量小樣本數(shù)據(jù)。其值的高低的決定因素是搭配詞與節(jié)點(diǎn)詞的共現(xiàn)頻數(shù)。與Z分值類似,T分值隨著共現(xiàn)頻數(shù)的增加而增加,也就說(shuō)明搭配詞與節(jié)點(diǎn)詞的搭配越顯著。根據(jù)假設(shè)檢驗(yàn)中的T檢驗(yàn),可得T分值。運(yùn)用T檢驗(yàn)判斷搭配詞的顯著性時(shí),首先形成零假設(shè):兩個(gè)共現(xiàn)詞不存在搭配關(guān)系。然后,判斷觀察頻數(shù)與期望頻數(shù)的差異是否達(dá)到顯著性水平,這里就會(huì)用到兩者的標(biāo)準(zhǔn)差。T分值計(jì)算公式如式(7):

        (7)

        其中:F(o)代表兩個(gè)共現(xiàn)詞的觀察頻數(shù),F(xiàn)(e)代表期望頻數(shù)。F(e)與SD的計(jì)算公式分別為式:

        (8)

        (9)

        對(duì)T值高的詞,我們有足夠的把握確定其為顯著搭配。一般來(lái)說(shuō),T≥ 2的搭配被認(rèn)為是顯著搭配詞。

        MI值表示的是詞語(yǔ)間的搭配強(qiáng)度,即表示的是對(duì)于節(jié)點(diǎn)詞與搭配詞,其中一個(gè)詞對(duì)另一個(gè)詞的影響程度,或者說(shuō)是一個(gè)詞在語(yǔ)料庫(kù)中的詞頻所能提供的關(guān)于另一個(gè)詞的的詞頻的概率信息。MI值越大,則表示節(jié)點(diǎn)詞對(duì)其搭配詞的吸引力越強(qiáng)。MI值測(cè)量的優(yōu)點(diǎn)在于它能較好地識(shí)別復(fù)合詞、固定詞組、科技術(shù)語(yǔ)等。MI值的計(jì)算公式為:

        (10)

        式中:P(x,y)表示詞項(xiàng)x和詞項(xiàng)y在語(yǔ)料中的共現(xiàn)頻率,P(x)、P(y)分別表示x、y在語(yǔ)料中各自出現(xiàn)的頻率,F(xiàn)(x)、F(y)分別表示x、y在語(yǔ)料庫(kù)中出現(xiàn)的頻率,F(xiàn)(x,y)表示x、y在語(yǔ)料庫(kù)中的共現(xiàn)頻數(shù)?,F(xiàn)對(duì)MI(x,y)的重復(fù)性和任意性[10]作如下說(shuō)明:前者是指隨著x、y共現(xiàn)頻數(shù)的增多,P(x,y)增大,MI(x,y)亦隨之增大,表明重復(fù)性越強(qiáng),反之,則重復(fù)性越弱;任意性是指隨著x、y受約束程度的加深,P(x)、P(y)的值會(huì)減小,若P(x,y)值不變,會(huì)使MI(x,y)的值變大,表明任意性加強(qiáng),反之,則表明任意性減弱。MI(x,y)與x和y的相關(guān)度之間的關(guān)系是:MI(x,y)>0表明觀察概率遠(yuǎn)大于期望概率,則x和y之間存在真正的連結(jié)關(guān)系;MI(x,y)≈0表明觀察概率接近期望概率,則兩個(gè)詞相關(guān)程度不高;MI(x,y)<0表明,x和y呈互補(bǔ)分布。MI值代表兩個(gè)詞之間的搭配強(qiáng)度,通常把MI≥3[11]的詞作為顯著搭配詞。

        2 性能測(cè)試實(shí)驗(yàn)

        為了驗(yàn)證本軟件統(tǒng)計(jì)的正確性,選取附錄所示的小驗(yàn)證文本,并與其他軟件如Concordance、AntConc上進(jìn)行了驗(yàn)證對(duì)比。各軟件的統(tǒng)計(jì)數(shù)據(jù)如表3所示。

        表3 各軟件對(duì)驗(yàn)證文本的統(tǒng)計(jì)數(shù)據(jù)

        單詞統(tǒng)計(jì)精準(zhǔn)是一切操作如檢索、檢索定位、文件查看、詞叢、搭配、詞表、關(guān)鍵詞表等的基礎(chǔ),如表3所示,在共有81個(gè)單詞的驗(yàn)證文本中,Concordance、AntConc、 Microsoft Word和ColloStu分別統(tǒng)計(jì)出的單詞數(shù)為91、93、92和81,其統(tǒng)計(jì)性能不如ColloStu。分析表明,軟件對(duì)連詞線、數(shù)字的識(shí)別對(duì)此有重要影響。由于語(yǔ)料檢索軟件以識(shí)別純文本為主,網(wǎng)絡(luò)下載的PDF、CAJ格式的文件在轉(zhuǎn)化為TXT文件后方可進(jìn)行檢索。在此過(guò)程中,大量連詞線的產(chǎn)生不可避免,因此軟件對(duì)于連詞線的識(shí)別尤為重要。

        為進(jìn)一步說(shuō)明本軟件的統(tǒng)計(jì)精準(zhǔn)性,選擇2010年至2012年第58至59卷JACM(The Journal of the ACM,ACM的官方學(xué)刊)的46篇文章共計(jì)4 742 KB,以及2012年的第59卷CACM(Communications of the ACM)的207篇文章共計(jì)4 387 KB,總共計(jì)253篇文章9 128 KB作為語(yǔ)料進(jìn)行統(tǒng)計(jì)并分析Concordance、AntConc的統(tǒng)計(jì)錯(cuò)誤率。檢索結(jié)果如表4所示。以ColloStu統(tǒng)計(jì)數(shù)為基準(zhǔn),Concordance和AntConc的統(tǒng)計(jì)錯(cuò)誤率如圖3所示。

        表4 各軟件對(duì)語(yǔ)料的單詞統(tǒng)計(jì)數(shù)據(jù)

        圖3 各軟件對(duì)語(yǔ)料的單詞統(tǒng)計(jì)錯(cuò)誤率比較

        圖3表明,雖然Concordance比AntConc的錯(cuò)誤率要低,但在統(tǒng)計(jì)語(yǔ)料單詞數(shù)中的錯(cuò)誤率也高達(dá)4%。測(cè)試文本中連詞線、數(shù)字的比重較大,因此AntConc和Concordance錯(cuò)誤率分別高達(dá)15%和12%。所以,當(dāng)語(yǔ)料中連詞線、數(shù)字的比重增加時(shí),這兩種軟件的統(tǒng)計(jì)錯(cuò)誤率就會(huì)隨之增加。

        對(duì)上文的CACM語(yǔ)料進(jìn)行以computer為節(jié)點(diǎn)詞,左右跨距為3的搭配詞檢索,得到784行搭配記錄,這里我們選取部分索引行(前22行)列出。如表5所示。

        表5 computer的搭配詞檢索示例

        對(duì)于式(5),無(wú)論表4的內(nèi)容如何,M=(2S+1)×N=(2×3+1)×22=154,對(duì)于M值的計(jì)算,本文按式(6)改進(jìn),其計(jì)算為M=搭配詞數(shù)(119)+節(jié)點(diǎn)詞數(shù)(22)=141。與前者相比減少了13個(gè)無(wú)效搭配詞。而對(duì)于整個(gè)CACM語(yǔ)料,M的大小則從5 488((2×3+1)×784)降低到4 291(搭配詞數(shù)+節(jié)點(diǎn)詞數(shù),其結(jié)果由程序統(tǒng)計(jì)得出)。由式(1)至式(5)得出式(11):

        (11)

        其中:對(duì)于每一個(gè)搭配詞C′和P的值是不變的,則對(duì)Z分值公式變形后,得到下式:

        (12)

        圖4 M值對(duì)Z值的影響

        分析表明:采用句中檢索和式(6)可以有效避免非在同一句的搭配詞的出現(xiàn),從而提高了一定的正確率。通過(guò)對(duì)CACM語(yǔ)料中computer的搭配詞計(jì)算搭配力,并選擇性輸出Z分值不小于3,T分值不小于2且MI值不小于3的搭配詞的搭配力,可得有效搭配詞為444個(gè)。并分別以Z分值作為主要關(guān)鍵字降序T分值、MI值分別作為第二、第三次要關(guān)鍵字降序排序可以得到Z分值最高的10個(gè)搭配詞,如表6所示。以T分值為主要關(guān)鍵字進(jìn)行降序排序得到T分值最高的10個(gè)詞,其結(jié)果與Z分值最高的10詞相同,其結(jié)果與表6一致。這也就驗(yàn)證了Z分值與T分值類似的觀點(diǎn)。

        表6 computer的Z分值最高的10大搭配詞

        3 結(jié) 語(yǔ)

        本文對(duì)現(xiàn)階段詞語(yǔ)搭配研究的現(xiàn)狀以及國(guó)內(nèi)外英文檢索軟件的功能進(jìn)行了分析研究,在此基礎(chǔ)上,實(shí)現(xiàn)了一個(gè)英文文本搭配檢索軟件。該軟件能處理網(wǎng)絡(luò)下載轉(zhuǎn)換文本含有特殊字符而導(dǎo)致檢索統(tǒng)計(jì)不精確的問(wèn)題,既滿足了詞語(yǔ)搭配研究趨于量化和驗(yàn)證性數(shù)據(jù)的要求,克服了WordSmith 使用復(fù)雜以及AntConc、Concordance的統(tǒng)計(jì)不精確、缺乏搭配力計(jì)算以及沒有考慮搭配范圍的有限性的缺點(diǎn),又繼承了現(xiàn)存檢索軟件含有多種功能如簡(jiǎn)單檢索、檢索定位、文件查看的優(yōu)點(diǎn)。同時(shí)具有多字符串的句中檢索,有效搭配檢索等功能,且力求檢索更加方便靈活、搭配力計(jì)算更加精確、系統(tǒng)界面友好,操作簡(jiǎn)單,性能穩(wěn)定、分析直觀易懂。

        本文實(shí)現(xiàn)的字符串的通配符匹配算法和多字符串的句中搜索算法運(yùn)行效率高;改進(jìn)后的搭配力算法在單詞檢索統(tǒng)計(jì)和搭配力計(jì)算方面更具準(zhǔn)確性,在對(duì)網(wǎng)絡(luò)下載文本的語(yǔ)料檢索方面具有優(yōu)越性。

        如何進(jìn)一步優(yōu)化檢索算法,如何實(shí)現(xiàn)漢語(yǔ)文本搭配檢索是需要進(jìn)一步探討的問(wèn)題。

        [1] Pollach I.Taming Textual Data:The Contribution of Corpus Linguistics to Computer-Aided Text Analysis[J].Organizational Research Methods,2012,15(2):263-287.

        [2] Sinclair J,Jones S,Daley R,et al.English collocation studies[M].London:Continuum International,2004.

        [3] 蔣媛,李安.SCT動(dòng)詞搭配知識(shí)庫(kù)的構(gòu)建[J].語(yǔ)言文字應(yīng)用,2014(1):38-44.

        [4] 訾韋力,郭平建.語(yǔ)料庫(kù)檢索工具在英語(yǔ)寫作教學(xué)中的應(yīng)用[J].教育理論與實(shí)踐,2013,33(24):54-56.

        [5] Kim K H.Examining US news media discourses about North Korea:A corpus-based critical discourse analysis[J].Discourse & Society,2014,25(2):221-244.

        [6] 呂麗珊.詞語(yǔ)搭配——詞匯研究的新視角[J].瘋狂英語(yǔ),2007(2):58-59.

        [7] 李鰻鵬,蘭巨龍,李印海.基于Bloom filter的高效正則表達(dá)式匹配算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):950-954.

        [8] Tang Y,Xue T,Jiang J,et al.Deflation DFA:Remembering History is Adequate[C]//IEEE International Conference on Communications.IEEE,2010:1-5.

        [9] Bartsch S.Structural and functional properties of collocations in English:A corpus study of lexical and pragmatic constraints on lexical co-occurrence[M].Tubingen,Germany:Gunter Narr,2004.

        [10] 王璐,張仰森.基于典型句型的詞語(yǔ)搭配定量分析及提取算法[J].計(jì)算機(jī)科學(xué),2012,39(6A):232-234.

        [11] Baker P.Using corpora in discourse analysis[M].London:Continuum,2006.

        ANIMPLEMENTATIONOFENGLISHTEXTRETRIEVALSOFTWAREBASEDONWORDCOLLOCATION

        Qiao Yanmei1Yang Jincai2Liu Yingliang3*

        1(QingdaoCityManagementProfessionalSchool,Qingdao266042,Shandong,China)2(SchoolofComputerScience,CentralChinaNormalUniversity,Wuhan430079,Hubei,China)3(SchoolofForeignLanguage,WuhanUniversityofScienceandTechnology,Wuhan430079,Hubei,China)

        Word collocation is an important subject in the study of English linguistics. In recent years, it tends to focus on data validation and quantitative research. This paper discusses the key technology of ColloStu, an English text retrieval software based on collocation research. The software designs a wildcard matching algorithm that uses the DFA to speed up the matching speed by compressing the number of its states. It can identify the sentence terminator in the co-occurrence context in order to retrieve the collocations more effectively. We have improved the Z score algorithm of collocation calculation. We use Z score, T score and MI value to compute collocation intensity from multiple angles to make the calculation more accurate. Experiments show that, compared with the mainstream search software, ColloStu addition to adding the collocation calculation function, its word statistics and collocation word search is more accurate.

        Text retrieval Word collocation Wildcard matching DFA Collocation calculation

        TP391

        A

        10.3969/j.issn.1000-386x.2017.10.014

        2016-12-07。國(guó)家社會(huì)科學(xué)基金項(xiàng)目(14BYY093);國(guó)家自然科學(xué)基金項(xiàng)目(31371275)。喬艷梅,中級(jí)教師,主研領(lǐng)域:計(jì)算機(jī)應(yīng)用,英語(yǔ)語(yǔ)言學(xué)。楊進(jìn)才,教授。劉應(yīng)亮,副教授。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        一级黄片草逼免费视频| 男女性高爱潮免费网站| .精品久久久麻豆国产精品| 亚洲国产成人无码电影| 国产少妇高潮在线视频| 亚洲夜夜性无码| 丰满岳乱妇久久久| 99久久久精品免费| 视频区一区二在线观看| 亚洲av无码国产精品色午夜字幕| 男女肉粗暴进来120秒动态图| 最新亚洲无码网站| 人日本中文字幕免费精品| 日日拍夜夜嗷嗷叫国产| 成人免费ā片在线观看| 18禁黄无遮挡免费网站| 亚洲精品偷拍自综合网| 女女互揉吃奶揉到高潮视频 | 澳门精品一区二区三区| 久久熟妇少妇亚洲精品| 亚洲熟女乱色综合亚洲图片| 亚洲视频高清| 亚洲av成熟国产精品一区二区| 亚州国产av一区二区三区伊在| 在线观看国产精品日韩av| 久久精品国产亚洲AV高清wy| 校园春色日韩高清一区二区 | 亚洲综合日韩精品一区二区| 乱色熟女综合一区二区三区| 亚洲午夜成人片| 免费看草逼操爽视频网站| 国产亚洲精品成人aa片新蒲金 | 国产成人av三级三级三级在线| 又粗又黑又大的吊av| 日日摸夜夜添狠狠添欧美| 加勒比东京热综合久久| 91九色成人蝌蚪首页| 人妻暴雨中被强制侵犯在线| 国产成人精品免费视频大全| 美腿丝袜日韩在线观看| 在熟睡夫面前侵犯我在线播放|