亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于跨語言信息檢索的可比語料庫構(gòu)建方法研究?

        2017-01-04 05:33:12史雅莉
        國家圖書館學刊 2016年6期
        關鍵詞:文本語言方法

        司 莉 史雅莉

        基于跨語言信息檢索的可比語料庫構(gòu)建方法研究?

        司 莉 史雅莉

        為滿足用戶對多語言信息表達與獲取的迫切需求,可比語料庫的研究和開發(fā)逐漸成為信息檢索領域研究者和系統(tǒng)開發(fā)人員的關注重點。從跨語言信息檢索視角出發(fā),可比語料庫的構(gòu)建方法主要有提問式翻譯法、特征過濾法、中間語言翻譯法、文本翻譯法和同源匹配法等。我國可比語料庫的建設,應在充分考慮系統(tǒng)整體性能的前提下,根據(jù)用戶需求選擇適用的構(gòu)建方法,完善文本翻譯及術(shù)語抽取技術(shù),并優(yōu)化文本對齊方式。圖4。參考文獻18。

        可比語料庫 構(gòu)建方法 跨語言信息檢索

        語料庫是指為一個或多個應用目標而專門收集加工的具有一定規(guī)模和結(jié)構(gòu),并且可被計算機程序檢索的規(guī)范化原始語料集合,可分為平行語料庫和可比語料庫兩種類型。目前,多語言信息語料庫已經(jīng)成為機器翻譯、機器輔助翻譯、翻譯知識獲取、跨語言信息檢索(Cross Language Information Retrieval,簡稱CLIR)等研究中不可或缺的重要資源。在此背景下,不少信息檢索領域研究者和系統(tǒng)開發(fā)人員開始將工作重點聚焦于可比語料庫的研究和開發(fā),以滿足用戶對多語言信息表達與獲取的迫切需求。本研究對基于CLIR的可比語料庫構(gòu)建方法進行探討與比較,旨在為當前國內(nèi)跨語言檢索系統(tǒng)中可比語料庫的構(gòu)建和完善提供借鑒和參考。

        1 可比語料庫的特點及其應用領域

        1995年,Baker首次提出了可比語料庫的概念,他認為特定語言的非翻譯源文本資源和該文本資源的其他語言譯本共同構(gòu)成了可比語料庫(Comparable Corpus)[1]。因而,可比語料庫是一種資源倉儲,其資源是對同一主題、不同語種的文本資源進行系統(tǒng)化、規(guī)范化處理之后,形成的文本對數(shù)據(jù)。通過對相關研究成果的深入分析,我們發(fā)現(xiàn)可比語料庫主要有以下特點:(1)側(cè)重于源文檔和目標文檔是否是對同一事件的描述,是否具有同一主題,而非句子與句子之間的對齊;(2)庫中的翻譯詞對受語料庫質(zhì)量的影響更加顯著;(3)對未登錄詞(通常指自然語言處理所用詞典中未包含的詞,它既可能是隨著技術(shù)和社會發(fā)展新出現(xiàn)的詞,也可能是在構(gòu)建詞典過程中遺漏的詞[2])的處理能力較強。由于其主要通過互聯(lián)網(wǎng)收集語料,獲取未登錄詞的可能性相對較高[3]。

        由此可見,可比語料庫應用于CLIR,其優(yōu)勢主要表現(xiàn)在主題關聯(lián)方面,有助于關聯(lián)主題的檢索。同時,由于其語料來源于網(wǎng)絡,還可從語料規(guī)模和文本對質(zhì)量方面為大型CLIR系統(tǒng)的構(gòu)建及運行提供資源保障。相關研究對阿拉伯語-英語跨語言信息檢索系統(tǒng)的調(diào)研數(shù)據(jù)表明,可比語料庫對CLIR任務有效,可單獨將其作為資源模塊運用于CLIR系統(tǒng)[4]。可比語料庫主要借助網(wǎng)絡爬蟲技術(shù)智能獲取語料,語料規(guī)模可根據(jù)系統(tǒng)需求進行擴展,因而有助于大型CLIR系統(tǒng)的開發(fā)與構(gòu)建[5]。此外,可比語料庫對語料的對齊處理不再局限于嚴格的形式對齊,而是強調(diào)源語言文檔與目標語言文檔的主題關聯(lián)性,可有效提高CLIR系統(tǒng)的資源檢準率,更加貼近用戶需求[6]。

        國內(nèi)目前所構(gòu)建的可比語料庫以雙語可比語料庫為主,大多為中英可比語料庫。且多數(shù)采用單向翻譯構(gòu)建模式,一般是將同一主題的中英文文檔分別作為源語言文檔和目標語言文檔,通過單向翻譯(在關鍵詞抽取和文檔檢索上采用單向處理,將源語言文檔關鍵詞翻譯為目標語言檢索詞進行檢索,不再對目標語言文檔進行關鍵詞抽取及翻譯)和對齊處理形成可比文檔對,構(gòu)成語料庫。由此可見,我國在可比語料庫建設方面,采用的方法較為單一,除單向翻譯構(gòu)建模式外,對其他構(gòu)建方法的研究及運用相對較少。基于此,筆者結(jié)合相關研究及實踐,對目前幾種較為常見的可比語料庫構(gòu)建方法的基本原理進行探討,并提出構(gòu)建國內(nèi)可比語料庫的相關建議。

        2 基于CLIR的可比語料庫構(gòu)建方法

        CLIR系統(tǒng)中可比語料庫的構(gòu)建方法主要分為:提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法、文獻翻譯構(gòu)建法和同源匹配構(gòu)建法。以下將對這些方法的原理及特點等進行深入分析。

        2.1 提問式翻譯構(gòu)建法

        目前,提問式翻譯構(gòu)建法是用于構(gòu)建可比語料庫較普遍的方法。其基本原理是:將源語言文檔中的關鍵詞翻譯為目標語言,再對目標語言文檔進行單語檢索,形成對齊文檔對。在實際應用中,該方法又可分單向與雙向翻譯兩種構(gòu)建方式。

        2.1.1 單向翻譯構(gòu)建法

        利用單向翻譯法構(gòu)建可比語料庫的基本流程主要涉及五個環(huán)節(jié),即文檔搜集關鍵詞提取關鍵詞單向翻譯檢索查詢文檔對齊,如圖1所示[7]。

        圖1 可比語料庫單向翻譯構(gòu)建方法

        具體步驟如下:

        (1)文檔搜集。文檔搜集大都通過網(wǎng)絡爬蟲技術(shù)抓取網(wǎng)頁信息加以實現(xiàn)。目前,常用的爬蟲工具主要有Python、MetaSeeker、Heritrix、Nutch等。由于其在開發(fā)語言、運行環(huán)境以及網(wǎng)頁處理方式等方面存在著差異,在搜集文檔時應充分考慮系統(tǒng)兼容性和功能需求選擇合適的爬蟲工具。

        (2)關鍵詞提取??杀日Z料庫的構(gòu)建更多地采用了基于主題特征的關鍵詞提取法。該方法根據(jù)LDA(Latent Dirichlet Allocation)文檔主題生成模型中主題和詞的分布情況,使用給關鍵詞賦值的方法直接抽取文檔關鍵詞,抽取出各主題的代表性詞匯[8]。一般情況下,關鍵詞提取分為五個步驟,即:1)預處理;2)主題分析;3)TF?ITF權(quán)值計算;4)候選關鍵詞合并;5)冗余短語消除[9]。

        關鍵詞提取的關鍵是利用TF?ITF算法計算詞在文檔中的頻度與其反文檔頻度的權(quán)值,獲取詞匯對文檔的權(quán)重。TF?ITF是關鍵詞提取的基本算法,假設關鍵詞j至少存在于一個文檔d(dj≠0),dj/N是包含關鍵詞j的文檔數(shù)占整個文檔集合的比例,則其逆文檔頻率IDFj為:

        關鍵詞j對文檔i的權(quán)重Wij(TF?ITF值)被定義為關鍵詞j在文檔i中的詞頻率乘以其逆文檔頻率,其計算公式為:

        注:N:文檔集合中的文檔總數(shù),dj:包含關鍵詞j的文檔數(shù),fij:關鍵詞j在文檔i中的頻率,Wij:關鍵詞j在文檔i中的權(quán)重[10]。

        (3)關鍵詞單向翻譯。在CLIR中,可比語料庫系統(tǒng)通常利用在線雙語或多語詞典對關鍵詞或查詢詞進行翻譯。在線詞典翻譯速度快,詞匯量豐富且交互性強。目前,常用的在線翻譯詞典(軟件)主要有Google翻譯、有道詞典、金山詞霸等。但利用在線詞典翻譯仍然存在以下問題:1)未登錄詞問題,即盡管網(wǎng)絡詞典詞匯豐富,但仍有些詞找不到其對應的翻譯;2)一詞多譯問題,即同一個詞有不止一條翻譯結(jié)果[11];3)全文翻譯問題,即在線翻譯系統(tǒng)尚無法有效識別不同語言之間的語法和文字對應規(guī)律[12]。

        (4)文檔檢索與對齊。這是構(gòu)建可比語料庫的關鍵環(huán)節(jié)。完成關鍵詞抽取工作之后,需要借助一定的檢索算法對所抽取的關鍵詞進行規(guī)范化處理,形成檢索式。利用檢索式通過可比語料庫檢索系統(tǒng)查詢目標語言文檔,形成文檔對并做對齊處理。在可比語料庫系統(tǒng)中,用于信息檢索的開源系統(tǒng)主要有 Lueene、Zettair、Smart、Lemur及Indri(Lemur子項目)等。其中,Indri因其在結(jié)構(gòu)化查詢方面的強大功能優(yōu)勢和靈活易用性得以廣泛應用[13]。最初的對齊方法主要是通過檢索系統(tǒng)對查詢結(jié)果按照相關度進行初步排序,根據(jù)發(fā)布日期以及語料庫規(guī)模選擇與源語言文檔相似度較高的目標語言文檔形成可比文檔對。

        2.1.2 雙向翻譯構(gòu)建法

        利用雙向翻譯法構(gòu)建可比語料庫,其基本原理與單向翻譯構(gòu)建法相似,如圖2所示。但該方法在關鍵詞抽取和文檔檢索上采用雙向處理,即在文檔收集工作完成之后,分別提取源語言文檔與目標語言文檔的關鍵詞來代表當前文檔,并將提取出來的關鍵詞進行互譯。以中英文語料為例,即將中文關鍵詞翻譯成英文,英文關鍵詞翻譯成中文并對其進行規(guī)范化處理,分別形成檢索式。利用英文檢索語句到英文文檔集合中檢索候選英文文檔,利用中文檢索語句到中文文檔集合中檢索候選中文文檔。最后,根據(jù)發(fā)布日期和相似度對候選文檔進行過濾,形成可比文檔對[14]。

        圖2 可比語料庫雙向翻譯構(gòu)建方法

        2.2 特征過濾構(gòu)建法

        基于特征過濾的方法是對提問式翻譯構(gòu)建法的進一步完善,主要用于構(gòu)建大規(guī)模的雙語可比較語料庫。這種方法是在單向翻譯檢索的基礎上,基于日期、相似度等特征指標對已生成的文檔對進行過濾,目的是過濾掉相關性小的文檔對,如圖3所示。具體來說,其從檢索構(gòu)建的可比文檔對中抽取三個特征值進行過濾,這三個特征指標分別是日期(Date),即新聞文檔的發(fā)布日期;文檔對相似度(Similarity of Document Pair,SDP),即由Indri檢索系統(tǒng)返回的查詢語句與目標語言文檔的相似度;關鍵詞集合相似度(Keywords Similarity of Docuemts,簡稱KSD),即源語言文檔與目標語言文檔對應關鍵詞間的相似度[15]。

        圖3 候選文檔對特征過濾

        Date指標:在通過單向翻譯檢索詞檢索目標語言文檔時,優(yōu)先考慮日期與源語言文檔相近的目標語言文檔。為了更好地衡量文檔日期間的差異,可把檢索范圍限制在日期與源語言文檔相同或前后相差最近的目標語言文檔中。

        SDP指標:在相關文檔池中,按相似度大小選取n個相似度最大的文檔與源語言文檔組成可比文檔對。然后,再將這些可比文檔對按照相似度大小進行排序并設置相似度閥值進一步過濾。

        KSD指標:該指標主要通過FIS關鍵詞頻度信息分值來衡量(與FIS值呈正相關),測算過程基于以下假設:翻譯后的關鍵詞在某個目標語言文檔中出現(xiàn)的頻次越多,則該目標語言文檔與源語言文檔越相關。FIS算法的基本思想是:在累計兩篇文檔相似度時,為每對詞賦權(quán)值以適當增加或削減其對整個文檔間相似度的影響[16]。具體測算方法為:定義源語言文檔ds,目標語言文檔dt,從ds中抽取的關鍵詞集合ks,翻譯后關鍵詞集合kts,利用詞頻、反文檔頻度等信息為ks及kts分配權(quán)重,則計算結(jié)果為[15,17]:

        注:ktsLen:kts集合的大小,xi:ks中的元素,yi:kts中的元素(yi與xi互譯),BM25(w,d):w在文檔d中的標準化詞頻(TF),IDF:反文檔頻度,Dif(x,y):BM25(x,ds)與BM25(y,dt)的差值。

        上述計算過程中,主要考慮了TF·IDF和Dif(x,y)兩類參數(shù)。TF·IDF的主要思想是:如果某個詞或短語在某篇文檔中出現(xiàn)的頻率TF較高,且在其他文檔中的逆文檔率IDF也較高,則該詞或者短語對這篇文檔具有較好的類別區(qū)分能力,同時也最能反映文檔主題[17]。因此,當 xi與 yi為互譯關系時,關鍵詞對xi、yi在文檔ds、dt中的TF·IDF值越高,文檔ds與dt的相似度就越高。Dif(x,y)為詞頻差值,即兩篇文檔內(nèi)容越相似,其關鍵詞信息也越相似,詞頻差值則越小。

        2.3 中間語言翻譯構(gòu)建法

        中間語言翻譯法是為解決源語言與目標語言間翻譯資源不存在或極少的問題而開發(fā)的一種可比語料庫構(gòu)建模式。該方法引入除源語言與目標語言之外的一種中間語言,把源語言與目標語言都翻譯成中間語言,以中間語言再進行文檔的檢索和匹配,如圖4所示。在實際應用過程中,這種通過中間語言翻譯的方法進行源語言與目標語言之間的轉(zhuǎn)換,大大降低了可比語料庫系統(tǒng)開發(fā)過程中跨語言翻譯的難度。

        圖4 可比語料庫中間語言翻譯構(gòu)建方法

        利用中間語言翻譯法構(gòu)建可比語料庫的核心問題在于:(1)中間語言的確立。作為中間語言必須滿足兩個條件,其一是該語言為泛在語言,具有較廣泛的適用范圍,便于語料庫資源的充分利用;其二是通過在線翻譯能夠?qū)崿F(xiàn)該語言與源語言和目標語言文檔之間的語義對齊處理,以保證可比語料庫資源的質(zhì)量。在實際應用過程中,研究人員或系統(tǒng)開發(fā)者通常都會根據(jù)當前網(wǎng)絡翻譯資源的語種分布情況和語言的覆蓋范圍進行選擇,中間語言通常以英語居多。(2)翻譯工具的選取。CLIR的關鍵即源語言與目標語言之間的翻譯問題,很多翻譯方法都依賴于機器翻譯、雙語字典或語料庫等翻譯工具。就目前實際情況而言,詞匯量規(guī)模和翻譯準確度通常是翻譯工具選取過程中應考量的重要因素。

        2.4 其他構(gòu)建方法

        除提問式翻譯構(gòu)建法、特征過濾構(gòu)建法、中間語言翻譯構(gòu)建法之外,相關研究者和系統(tǒng)開發(fā)人員還嘗試通過其他方法來構(gòu)建可比語料庫,主要包括文獻翻譯法和同源匹配法。

        與提問式翻譯方法不同,文獻翻譯法通過把信息庫中用目標語言描述的文獻全部翻譯成用源語言描述的形式,再進行檢索。運用該方法進行CLIR,檢索結(jié)果是用源語言描述的。由于目前文本機器翻譯技術(shù)的正確率較低,而且把信息庫中目標語言描述的文獻翻譯為源語言的工作量也是巨大的,所以文獻翻譯方法只有在語料庫規(guī)模不大且文檔內(nèi)容相對簡單的情況下才具有可行性。

        同源匹配法主要依據(jù)兩種不同語言詞語的書寫形式或者語音方面的相似性來判斷它們之間的匹配程度,無須翻譯轉(zhuǎn)換。由于該方法主要是通過詞語的形式特征來進行匹配,文本對的語義對齊程度較低,因此,在可比語料庫的實際構(gòu)建過程中,同源匹配構(gòu)建法應用較少。

        3 我國可比語料庫構(gòu)建的建議

        通過以上的對比分析可以看出,各種可比語料庫構(gòu)建方法各具特色,這些方法的不斷發(fā)展和完善也為我國可比語料庫的構(gòu)建提供了新思路。根據(jù)我國可比語料庫建設現(xiàn)狀,我國在該領域的發(fā)展應注意以下三個方面。

        3.1 根據(jù)需求選擇適用的構(gòu)建方法

        構(gòu)建方法的選取是可比語料庫建設的關鍵問題。由前文分析可知,目前我國可比語料庫的構(gòu)建仍以單向翻譯構(gòu)建法為主,在方法的采用上相對比較單一。但要真正滿足不同層次用戶的需求,提高庫內(nèi)資源的利用率,就必須充分結(jié)合實際情況選擇最佳建設方案。目前,除特定需求外,借助文獻翻譯或同源匹配方式構(gòu)建的小型可比語料庫已無法適用于當前信息環(huán)境。中間語言翻譯法主要解決的是翻譯資源極少或者不存在的可比語料庫的構(gòu)建問題,在實際應用過程中對小語種可比語料庫的構(gòu)建將會發(fā)揮重要作用。提問式翻譯構(gòu)建法是當前發(fā)展較為成熟的可比語料庫構(gòu)建方法,大多研究者和系統(tǒng)開發(fā)人員借助于該方法進行可比語料庫系統(tǒng)的研發(fā)。特征過濾構(gòu)建法是對提問式翻譯構(gòu)建法在文本對齊方面的進一步完善,能夠有效提高語料庫質(zhì)量,應用前景比較廣闊。隨著數(shù)據(jù)量的迅速增長和用戶信息需求的不斷升級,我國在可比語料庫的建設過程中,可在充分了解用戶需求的基礎之上,對現(xiàn)有的幾種構(gòu)建方法進行適用性分析,從而制定出最合適的建設方案。

        3.2 完善文本翻譯及術(shù)語抽取技術(shù)

        由前文分析可知,可比語料庫構(gòu)建過程中主要涉及網(wǎng)頁爬蟲、機器翻譯、術(shù)語抽取等相關技術(shù)。其中,文本翻譯準確率較低、提取的關鍵詞對文檔揭示度不高是國內(nèi)可比語料庫建設中面臨的較為普遍的問題。未來我國在關鍵技術(shù)方面可從以下兩方面著手:(1)文本翻譯方面,可借鑒Google在線機譯模式,除單詞、語句常規(guī)翻譯之外,開發(fā)文檔翻譯模塊,對語料庫文檔進行全文翻譯。同時,建立在線翻譯社區(qū),對文本翻譯中的術(shù)語表達、文本結(jié)構(gòu)、語義分析等問題進行互動交流和探討,不斷提高語料庫資源質(zhì)量。(2)術(shù)語抽取方面,為克服基于主題特征的關鍵詞提取法在文檔語義揭示方面的不足,可借鑒Dhouha等2013年基于WordNet語義相似度度量構(gòu)建的詞義消歧處理法[18]。該方法以單義詞作為消除歧義的種子集,并以此推斷多義詞的翻譯,提高雙語詞匯提取性能。

        3.3 優(yōu)化文本對齊方式

        文本對齊處理效果的優(yōu)劣在很大程度上決定著語料庫數(shù)據(jù)資源質(zhì)量的高低。目前,我國可比語料庫構(gòu)建過程中多采用提問式翻譯法,其在文本對齊方面通常是通過日期和相似度等傳統(tǒng)指標對候選文檔對進行過濾,可在一定程度上排除相似度較低的文檔對,但在文檔對的語義對齊上仍需進一步完善。特征過濾構(gòu)建法的特色即在于其在文檔對齊方面的突破,該方法除結(jié)合傳統(tǒng)的日期、相似度等特征指標,還融合了KSD指標,并采用FIS算法對候選文檔對進行系統(tǒng)過濾,有效提高了文檔對相似度。因此,在文本對齊處理方面,可嘗試借鑒特征過濾法,對候選文檔對進行更加精細地對齊處理,同時也可在特征指標上做進一步地研究及拓展。

        4 結(jié)語

        為滿足用戶多元化、跨語言的信息需求,研究者和系統(tǒng)開發(fā)人員嘗試采用不同的方法構(gòu)建可比語料庫,以提高CLIR效率。這些構(gòu)建方法各具特點:提問式翻譯構(gòu)建法開發(fā)較早并與現(xiàn)有查詢檢索系統(tǒng)具有較高的契合度,目前在研究和實踐中已得到較為廣泛的關注。但其在文本對齊方面以傳統(tǒng)的日期、相似度指標進行文本對處理,使語料庫質(zhì)量難以得到有效保障。特征過濾構(gòu)建法針對這一問題進行了改進和完善,通過KSD指標和FIS算法有效地提高了可比語料庫中文本對的相似度,這對大規(guī)??杀日Z料庫的構(gòu)建具有重要意義。中間語言翻譯構(gòu)建法引進中間語言翻譯機制,解決了翻譯資源較少或沒有對應的翻譯資源時可比語料庫的構(gòu)建問題,是對提問翻譯構(gòu)建法和特征過濾構(gòu)建法的有益補充。文獻翻譯構(gòu)建法和同源匹配構(gòu)建法,由于目前全文翻譯技術(shù)和字形、語音智能識別等技術(shù)的發(fā)展尚不成熟,只能用于構(gòu)建小規(guī)模的本地語料庫,并且構(gòu)建成本較高。因此,我國可比語料庫建設過程中,應在充分考慮系統(tǒng)整體性能的前提下,對不同構(gòu)建方法進行比較分析,注重關鍵技術(shù)的引進與完善、文本對齊處理問題的優(yōu)化,選擇真正適合用戶需求的構(gòu)建策略。

        1 Baker M.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995,7(2):223-243.

        2 段宇鋒,等.條件隨機場與領域本體元素集相結(jié)合的未登錄詞識別研究[J].現(xiàn)代圖書情報技術(shù),2015(4).

        3 康小麗,等.基于可比語料庫的雙語術(shù)語抽取研究述評[J].現(xiàn)代圖書情報技術(shù),2009(10).

        4 Azadeh S,Chengxiang Z.Leveraging ComparableCorpora for Cross-Lingual Information Retrieval in Resource-Lean Language Pairs[J].Inf Retrieval,2013(16):1-29.

        5 Homa B.,et al.Mining a Persian-English Comparable Corpus for Cross-Language Information Retrieval[J].Information Processing and Management,2014,50(2):384-398.

        6 Tuomas T,et al.Creating and Exploiting a Comparable Corpus in Cross-Language Information Retrieval[J].Acm Transactions on Information Systes,2007,25(1):79-82.

        7 房璐,等.可比較語料庫構(gòu)建及在跨語言信息檢索中的應用[J].廣西師范大學學報,2010(3).

        8 劉俊,等.基于主題特征的關鍵詞抽?。跩].計算機應用研究,2012(11).

        9 朱澤德.網(wǎng)絡雙語語料挖掘關鍵技術(shù)研究[D].合肥:中國科技大學,2014.

        10 IA El-Khair.TF?ITF[J].Encyclopedia of Database Systems,2009(12).

        11 房璐.英漢可比語料庫的構(gòu)建與應用研究[D].蘇州:蘇州大學,2011.

        12 李韓芬.互聯(lián)網(wǎng)免費在線翻譯工具述評[J].農(nóng)業(yè)網(wǎng)絡信息,2007(4).

        13 陳燕.基于Indri的動態(tài)索引機制探討[J].電子設計工程,2014(9).

        14 王珊珊.中英可比語料庫的構(gòu)建[D].大連:大連理工大學,2013.

        15 趙蓮.大規(guī)模中英可比語料庫構(gòu)建[D].大連:大連理工大學,2010.

        16 TAO T,Chengxiang Z.Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration[C].In Proceedings of the 11th ACMSIGKDD International Conference on Knowledge Discovery in Data Mining,Chicago,USA,2005:691-696.

        17 tf-idf[EB/OL].[2016-04-23].http://baike.so. com/doc/433640-459181.html.

        18 胡小鵬,等.構(gòu)建和剖析中英三元組可比語料庫[J].計算機工程與應用,2014(13).

        (司 莉 教授 武漢大學信息資源研究中心 信息管理學院圖書館學系主任,史雅莉 武漢大學信息管理學院圖書館學專業(yè)2015級博士研究生)

        Study on the Construction Methods of Comparable Corpus Based on Cross Language Information Retrieval

        Si Li Shi Yali

        In order to satisfy the urgent need of users in multi-language information expression and retrieval,the research and development of comparable corpus have gradually become the focus of researchers and developers in information retrieval.From the perspective of cross language information retrieval,this paper studies several comparable corpus construction methods,which include questions translation method,feature filtering method,intermediate language translation method,text translation method and homologous matching method. The construction of comparable corpus in China should take a full consideration of the whole performance of the system,and then choose the appropriate building method based on user requirements,improve text translation and terminology extraction technology,optimize text alignment method.4 figs.18 refs.

        Comparable Corpus;Construction Method;Cross Language Information Retrieval

        2016-06-14

        ? 本文系教育部人文社會科學重點研究基地重大項目“基于內(nèi)容的多語言信息組織與檢索研究”(項目編號:14JJD870001)研究成果之一。

        猜你喜歡
        文本語言方法
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動態(tài)分析下的同聲傳譯語言壓縮
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        我有我語言
        性无码专区无码| 日本视频一区二区这里只有精品 | 99久久超碰中文字幕伊人| 亚洲国产精品成人一区| 亚洲最大中文字幕熟女| 欧美乱妇高清无乱码在线观看| 日韩欧美亚洲综合久久影院d3| 白白青青视频在线免费观看| 91一区二区三区在线观看视频| 无码人妻一区二区三区免费视频| 久久亚洲精品无码va大香大香| 国产精品乱子伦一区二区三区| 亚洲长腿丝袜中文字幕| 无码av中文一区二区三区| 丰满少妇在线观看网站| 国产一区二区三区免费在线视频| 男女啪啪动态视频在线观看| 免费网站内射红桃视频| 国产第19页精品| 极品人妻少妇一区二区| av中国av一区二区三区av| 性无码免费一区二区三区在线| 国产精品欧美日韩在线一区| 精品人妻久久av中文字幕| 日本人妻伦理在线播放| 中文字幕在线亚洲日韩6页| 日韩五十路| 日本成人精品一区二区三区| 男女性爽大片视频| 亚洲人成无码网www| 国内精品人人妻少妇视频| 亚洲国产美女高潮久久久| 一本色综合久久| 久久精品成人免费观看97| 天涯成人国产亚洲精品一区av| 亚洲精品国产精品国自产| 亚洲精品成人专区在线观看| 一本大道综合久久丝袜精品| 中文无码av一区二区三区| 青青草在线免费视频播放| 国产麻豆md传媒视频|