亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中英平行專利語料的短語復述自動抽取研究

        2013-10-15 01:52:16劉知遠孫茂松
        中文信息學報 2013年6期
        關(guān)鍵詞:組塊語料排序

        李 莉,劉知遠,孫茂松

        (清華大學 計算機系,智能技術(shù)與系統(tǒng)國家重點實驗室;清華信息科學與技術(shù)國家實驗室(籌),北京100084)

        1 引言

        專利語料是人類知識和技術(shù)的載體,信息量豐富,與專利語料相關(guān)的自然語言處理研究,包括長句分割[1]、語義分詞[2-3]、翻譯對獲取[4]和分布相似度計算[5]等,已引起學術(shù)界和工業(yè)界的廣泛關(guān)注。其中,短語復述自動抽取是自然語言處理領(lǐng)域的重要研究課題之一,目前已經(jīng)被成功應用到信息檢索、自動問答、信息抽取、自動文摘和機器翻譯等多個自然語言處理研究領(lǐng)域[6]。因而,本文希望展開基于中英平行專利語料的短語復述自動抽取研究。

        復述,其英文名稱是paraphrase,有些學者也將其翻譯為改寫,對應的名詞解釋是“解釋,釋義等”[6]。關(guān)于復述的具體定義,最早可追溯到20世紀80年代語言學家De Beaugrande等人曾給出的具體定義[7]。在自然語言處理領(lǐng)域,“復述”研究的主要是“短語以上,句子以下”的語言單元的同義現(xiàn)象[6]。Bazilay等人根據(jù)研究的語言單元粒度,將復述具體分為詞匯級、短語級和句子級三類[8]。本文重點關(guān)注短語級復述的自動抽取。

        本文利用基于統(tǒng)計機器翻譯的復述抽取技術(shù)[9]實現(xiàn)中英平行專利語料的短語復述自動抽取。該方法的基本思想是將對齊到同一目標語言短語的兩個源語言短語視為互為短語復述。該方法的主要優(yōu)點是基于目前互聯(lián)網(wǎng)上大量存在的雙語平行語料,可以同時實現(xiàn)雙語短語復述自動抽取。例如,對于我們的中英平行專利語料,清華大學計算機系可以同時實現(xiàn)中文短語復述自動抽取和英文短語復述自動抽取。同時,該方法由于是基于短語的統(tǒng)計機器翻譯模型的擴展,天然適用于短語級復述自動抽取任務(wù)。但是,該方法也存在以下兩點不足之處。1)該方法依賴基于短語的統(tǒng)計機器翻譯,但目前基于短語的統(tǒng)計機器翻譯模型中的短語并不是語言學意義上的短語概念[10],因而抽取的短語復述中存在大量非語言單元,例如,“network device is”和“網(wǎng)絡(luò)設(shè)備為”等;2)該方法會受到對齊錯誤和翻譯歧義的限制,經(jīng)常無法區(qū)分短語復述的抽取質(zhì)量[11]。

        針對該方法的兩點不足,我們分別引入基于組塊分析的過濾技術(shù)和基于分布相似度的重排序技術(shù)來改進。組塊 (Chunk)是一種高于詞序列,低于短語的語法結(jié)構(gòu)[12]。組塊分析即將輸入句子中的所有詞都劃分到若干相應的組塊中[13]。本文通過對中、英文專利語料分別進行組塊分析,構(gòu)建中、英專利組塊表,并基于這兩個組塊表過濾短語復述結(jié)果中的非語言單元,提高短語復述抽取的準確率。而為了解決第二個問題,我們利用分布相似度對抽取的短語復述結(jié)果重排序?;诜植枷嗨贫冗M行復述抽取也是短語復述抽取的常用方法之一,基本思想是認為出現(xiàn)在相同或相似上下文的兩個短語傾向于互為短語復述[14]。該方法借助大規(guī)模語料,可以較好區(qū)分短語復述的抽取質(zhì)量,但是卻容易將反義短語誤判定為復述結(jié)果[15]。幸運的是,基于統(tǒng)計機器翻譯的方法得到的候選結(jié)果中較少包含反義短語[11]。因而基于分布相似度對候選短語復述結(jié)果重排序,在解決基于統(tǒng)計機器翻譯的方法無法區(qū)分短語復述的抽取質(zhì)量的不足的同時,也回避了自身容易將反義短語誤判定為復述結(jié)果的不足。所以,本文基于分布相似度對短語復述結(jié)果重排序,以改進基于統(tǒng)計機器翻譯的方法經(jīng)常無法區(qū)分短語復述的抽取質(zhì)量的不足。

        文章接下來的組織結(jié)構(gòu)如下:第2節(jié)介紹算法設(shè)計;第3節(jié)介紹實驗設(shè)計;第4節(jié)介紹實驗結(jié)果,第5節(jié)介紹相關(guān)工作,最后進行總結(jié)。

        2 短語復述自動抽取算法

        本文基于中英平行專利語料實現(xiàn)短語復述自動抽取的算法流程如圖1所示。首先借助基于統(tǒng)計機器翻譯的短語復述抽取技術(shù),實現(xiàn)短語復述候選結(jié)果抽取,然后利用組塊分析技術(shù)過濾候選結(jié)果中的非語言單元。最后,基于分布相似度對過濾后的短語復述結(jié)果重排序,以解決對齊錯誤和翻譯歧義引起的錯誤。下面逐一介紹各流程的基本思想。

        圖1 算法流程圖

        2.1 基于統(tǒng)計機器翻譯的短語復述自動抽取

        基于統(tǒng)計機器翻譯的短語復述自動抽取技術(shù)是基于短語的統(tǒng)計機器翻譯模型[16]的擴展,該方法的核心思想是將雙語平行語料進行短語對齊后,將對齊到目標語言(如英語)下相同短語的源語言(如中文)下不同的短語視為互為短語復述。例如,圖2所示的例子,在該思想的引導下會將“網(wǎng)絡(luò)裝置”和“網(wǎng)絡(luò)設(shè)備”作為一對中文短語復述抽取出來??紤]到該方法包括短語對齊和復述抽取,下面依次介紹。

        圖2 基于雙語平行語料抽取短語復述

        2.1.1 短語對齊

        最早的統(tǒng)計機器翻譯模型是基于詞的[17]。在基于詞的統(tǒng)計機器翻譯模型下,一個源語言句子e翻譯為目標語言句子f的翻譯概率是通過將所有可能的詞對齊(a,alignment首字母)條件下句對的翻譯概率疊加計算的。具體如公式(1)所示。

        隨著統(tǒng)計機器翻譯的發(fā)展,句子之間的翻譯概率逐漸使用更大的對齊文本塊(如短語,這里的短語僅僅指詞序列,而不是語言學意義上的短語)來進行計算,其中基于對齊短語計算句對翻譯概率的統(tǒng)計機器翻譯模型即為基于短語的統(tǒng)計機器翻譯模型,也是目前主流的統(tǒng)計機器翻譯模型之一。實際上,基于短語的統(tǒng)計機器翻譯模型中的短語對齊也是基于詞對齊實現(xiàn)的,其基本思想是遞歸地將句對中詞對齊點相鄰的詞序列作為短語對齊結(jié)果[18]。例如,圖2所示的例子,因為詞對齊點相鄰,會將“網(wǎng)絡(luò)設(shè)備”和“network device”作為一對短語對齊結(jié)果。類似地,“網(wǎng)絡(luò)設(shè)備為”和“network device is”也會被作為一對短語對齊結(jié)果?;诙陶Z對齊結(jié)果,可以很方便地實現(xiàn)雙語短語對抽取從而獲得短語表以用于下面的復述抽取。

        2.1.2 復述抽取

        基于統(tǒng)計機器翻譯的短語復述自動抽取技術(shù)本質(zhì)上是將目標語言的短語作為錨點,找到短語對齊結(jié)果中與該錨點對齊的所有源語言短語作為候選復述結(jié)果。為了計算各個候選復述結(jié)果的概率值,Chris等人引入p(e2|e1)表示短語對<e1,e2>互為復述的概率,引入p(e|f)表示目標語言短語f翻譯到源語言短語e的翻譯概率,反過來即為p(f|e)。之后Chris等人通過將所有錨點對應的翻譯概率疊加計算短語對互為復述的概率,并挑選對應概率值最大的短語e2作為e1的短語復述結(jié)果抽出。具體計算公式如式(2)所示:

        其中短語對翻譯概率p(e|f)基于最大似然概率計算,如式(3)所示。

        引言部分提到,因為基于短語的統(tǒng)計機器翻譯模型中的短語并不是源自任何深層次語言知識的短語概念,即并不一定是嚴格語言學意義的短語。例如,從圖2例子得到的短語“網(wǎng)絡(luò)設(shè)備為”和“network device is”,這樣就導致了我們基于統(tǒng)計機器翻譯進行短語復述抽取得到的候選結(jié)果中,包含著大量非語言單元。所以,我們期望通過基于組塊分析的技術(shù)過濾其中的非語言單元。下面具體介紹。

        2.2 基于組塊分析過濾短語復述抽取結(jié)果

        組塊是一種語法結(jié)構(gòu),是符合一定語法功能的非遞歸短語,任何一種組塊內(nèi)部都不包含其他類型的組塊[13]。例如,“網(wǎng)絡(luò)設(shè)備”就是一個名詞組塊。而組塊分析即將一段輸入文本劃分成一組互不重疊、非遞歸的組塊片段[19]。

        本文中,我們希望基于組塊分析技術(shù),限制抽取的短語復述結(jié)果是語言單元,而不僅僅是詞序列。即我們期望通過中、英組塊分析工具分別得到中文組塊列表和英文組塊列表,然后通過這兩個列表對上一步得到的短語復述結(jié)果進行確認,僅僅保留在這兩個組塊列表中出現(xiàn)的短語復述結(jié)果。

        2.3 基于分布相似度重排序短語復述抽取結(jié)果

        引言部分提到,基于統(tǒng)計機器翻譯的短語復述抽取受限于對齊錯誤和翻譯歧義,有時并不能很好的區(qū)分好、壞復述。特別在應用于中英平行專利語料時,翻譯歧義造成的中文短語復述抽取錯誤比較明顯。例如,因為“程序”和“節(jié)目”都被翻譯為“program”,導致“程序類型”和“節(jié)目類型”被作為一對短語復述抽取出來。為了消除翻譯歧義和對齊錯誤等造成的影響,我們基于分布相似度對上一步過濾后的短語復述抽取結(jié)果進行重排序以優(yōu)化短語復述抽取結(jié)果。

        基于分布相似度進行短語復述抽取的基本思想是將上下文分布相同或相似的短語作為短語復述結(jié)果抽出。目前比較常用的分布相似度計算方法包括詞袋方法(bag-of-words approach)和上下文窗口(context window approach)方法等[20]。這兩種方法的基本思想都是計算短語的上下文矩陣,然后通過余弦相似度計算對應上下文矩陣的相似度作為兩個短語的分布相似度。其中,詞袋方法對于每個短語p,收集以p為中心的上下文窗口中的每個詞,并將這些詞的頻度加入上下文矩陣。而上下文窗口方法則收集每個以p為中心的上下文窗口,并將這些上下文窗口的頻度加入上下文矩陣??紤]到上下文窗口方法更適用于海量語料,而我們是基于已有的中英平行專利語料計算短語復述的分布相似度,所以我們選擇詞袋方法,并基于該分布相似度對短語復述抽取結(jié)果進行重排序。

        3 實驗設(shè)計

        本文中,我們基于的中英平行專利語料包含5 867組中英平行專利文檔,每組包括一篇中文專利文檔和對應的英文專利文檔。我們利用句子對齊工具[21]從中抽取中英平行句對252 790對,并從中隨機抽取了46 543對句對進行人工檢驗,得到對齊準確率達到98.4%。

        下面我們按照圖1所示的算法流程依次介紹我們具體的實驗設(shè)計。

        3.1 基于統(tǒng)計機器翻譯的短語復述自動抽取

        我們借助基于短語的統(tǒng)計機器翻譯開源工具Moses[22]實現(xiàn)短語對齊和雙語短語對抽取,得到包含9 933 939對雙語短語對的短語表。正如前文提到的,這一步我們抽取得到的短語表中大部分是無意義的詞序列 (其中大量詞序列甚至包括標點符號),而不是實際語言學意義上的短語。這些詞序列的存在不僅對于短語復述抽取無意義,而且增加了計算復雜度。所以在基于式(2)和式(3)進行短語復述抽取之前,我們基于簡單規(guī)則對短語表進行過濾。我們定義的過濾規(guī)則如下:1)過濾短語表中包含中英標點符號的短語對;2)過濾短語表中在中文部分包含數(shù)字、英文字符的短語對;

        3)過濾短語表中在英文部分包含非英文字符的短語對;

        4)將中文部分相同,英文部分在忽略大小寫時相同的短語對合并。

        經(jīng)過這一步簡單的基于規(guī)則過濾,我們保留下來的短語表僅包含2 850 237對雙語短語對,規(guī)模約為原來短語表的28.69%。

        之后,我們通過式(2)和式(3),利用基于統(tǒng)計機器翻譯的短語復述抽取技術(shù),分別實現(xiàn)中文短語復述自動抽取和英文短語復述自動抽取。

        3.2 基于組塊分析技術(shù)過濾非語言單元

        因為基于短語的統(tǒng)計機器翻譯模型中的短語概念并不是實際語言學意義上的短語,更多的是無意義的詞序列,而簡單的基于規(guī)則過濾并不能保證保留下來的短語是語言學意義上的短語。所以,我們接下來基于組塊分析技術(shù)過濾中英短語復述結(jié)果中的非語言單元。

        在這一步驟中,我們使用CRFTagger[23]對英文專利語料進行詞性標注,使用THULAC[24]對中文專利語料進行分詞和詞性標注。對英文專利語料我們借助開源工具CRFChunk[25]進行組塊分析,而對于中文專利語料,我們基于CRF模型,借助清華中文樹庫(Tsinghua Chinese Treebank)[26]訓練了一個中文組塊分析器,并在清華中文樹庫上檢驗了該分析器的效果,如表1所示??梢钥吹?,我們設(shè)計的中文組塊分析器在組塊識別上F1值基本都在85%以上,效果較好。

        我們通過中、英組塊分析工具分別得到中文組塊列表和英文組塊列表,然后通過這兩個列表對上一步得到的短語復述結(jié)果進行確認,僅僅保留在這兩個組塊列表中出現(xiàn)的短語復述結(jié)果。

        表1 中文組塊分析器在清華中文樹庫評測效果

        3.3 基于分布相似度重排序短語復述抽取結(jié)果

        考慮到基于統(tǒng)計機器翻譯的短語復述抽取受限于對齊錯誤和翻譯歧義,有時并不能很好地區(qū)分短語復述質(zhì)量。特別在應用于中英平行專利語料時,翻譯歧義造成的中文短語復述抽取錯誤比較明顯。所以我們基于現(xiàn)有的中英平行專利語料,借助分布相似度中的詞袋方法對上一步過濾后的短語復述抽取結(jié)果進行重排序。在具體實驗中,我們重點關(guān)注中文短語復述抽取,并對比分析了不同上下文窗口大小時重排序的效果。具體見實驗結(jié)果部分。

        4 實驗結(jié)果

        為了驗證基于統(tǒng)計機器翻譯的短語復述抽取,以及后面的兩個改進策略(包括基于組塊分析的過濾技術(shù)以及基于分布相似度的重排序技術(shù))的效果。我們對排名前500的短語復述結(jié)果進行人工標注。以“E”標注對應的短語復述結(jié)果并不是語言學意義上的短語;以“N”標注雖然對應的短語復述結(jié)果是語言學意義上的短語,但是兩個短語并不互為復述;以“Y”標注正確的短語復述結(jié)果。

        我們分別統(tǒng)計了基于統(tǒng)計機器翻譯的短語復述抽取和兩個改進策略在前500個結(jié)果中的Precision、Recall和F1值。需要特別說明的是Recall值的計算,因為很難計算準確的Recall值,所以我們基于Pooling[27]方法。即我們將3個方法對應的前500個結(jié)果中的所有正確結(jié)果作為結(jié)果池 (pool),然后基于這個結(jié)果池統(tǒng)計每個方法對應的Recall值。下面我們依次分析兩個改進策略的表現(xiàn)。

        4.1 基于組塊分析過濾非語言單元

        表2和表3分別展現(xiàn)了中文短語復述抽取結(jié)果的準確率和英文短語復述抽取結(jié)果的準確率??梢钥吹?,基于統(tǒng)計機器翻譯的短語復述抽取技術(shù)(表中簡稱為復述抽?。┰谥?、英文上的準確率分別為43.20%和43.60%,而經(jīng)過基于組塊分析過濾非語言單元(表中簡稱為組塊過濾)后,準確率分別上升至75.00%和52.40%,準確率均有大幅提升,由此驗證了基于組塊分析過濾非語言單元確實能夠改進基于統(tǒng)計機器翻譯的短語復述抽取效果。這一點也可以通過改進前后標注為“E”的結(jié)果數(shù)大幅減少看出。

        表2 中文短語復述抽取結(jié)果人工評測(前500)

        表3 英文短語復述抽取結(jié)果人工評測(前500)

        但是,我們同時注意到,基于組塊分析過濾非語言單元的改進策略在中文上的表現(xiàn)要優(yōu)于英文。關(guān)于這點,我們經(jīng)過分析數(shù)據(jù)發(fā)現(xiàn),拼寫錯誤以及英文語言環(huán)境中豐富的詞性變化是錯誤率較高的原因之一。如“filer coefficients”和“filter coefficients”被作為一對短語復述抽取出來,但是其實前者是后者的錯誤拼寫之一。再比如,雖然“alteration”和“modified”都是“改變”的意思,但是因為詞性不同,并不能作為一對短語復述結(jié)果。而中文語言環(huán)境中幾乎不存在這樣的拼寫錯誤、詞性變化,所以基于組塊分析過濾非語言單元的改進策略在中文上的表現(xiàn)要優(yōu)于英文。

        4.2 基于分布相似度重排序短語復述結(jié)果

        考慮到該改進策略在英文短語復述抽取中的有效性已經(jīng)被Chan等研究者證明[11]。下面我們重點分析該改進策略在中文短語復述抽取上的效果。

        我們選用詞袋方法(表中簡記為Bow)對4.1改進后的前500個復述抽取結(jié)果進行重排序,并對比分析不同上下文窗口大小時該改進策略的效果。我們依次統(tǒng)計重排序前后短語復述抽取結(jié)果Top100、Top200、Top300、Top400的對應的Precision、Recall和F1值,并在圖3中展示 (重排序技術(shù)并不會影響Top500對應的準確率)。圖3中Baseline是重排序前的準確率,而BowN是利用上下文窗口大小為N時的詞袋方法重排序后的準確率。

        從圖3中Precision、Recall和F1值的對比中,我們可以明顯看到利用分布相似度對短語復述結(jié)果重排序改進了抽取效果。同時,從Precision值的對比中可以較明顯的看到上下文窗口大小較小時的改進效果要優(yōu)于上下文窗口大小較大時的改進效果。我們猜測是因為當選定的上下文窗口大小較大時,模糊了不互為短語復述的兩個短語的相似度差值。

        圖3 不同上下文窗口大小下基于分布相似度重排序短語復述結(jié)果的效果

        5 相關(guān)工作

        目前復述抽取的相關(guān)工作主要分為四大類,包括基于已有語言標注資源 (如 WordNet[28]、How-Net[29]等)的復述抽?。?0-32];基于分布相似度的復述抽取[33-34];基于譯文語料的復述抽?。?,35]和基于統(tǒng)計機器翻譯的復述抽?。?]。

        基于現(xiàn)有語言學資源的復述抽取精度較高,但是受到現(xiàn)有語言學資源的規(guī)模、主題甚至語言的限制,而且比較適用于詞匯級復述自動抽取任務(wù)。

        基于分布相似度的復述抽取利用了目前海量的互聯(lián)網(wǎng)語料資源,計算方便直觀,但是缺點是容易將反義詞或反義短語作為復述結(jié)果抽取出來。

        基于譯文語料的復述抽取借助目前網(wǎng)絡(luò)存在的關(guān)于具體文章的多種譯文版本,通過句子對齊工具構(gòu)建復述抽取語料,之后借助上下文模版實現(xiàn)復述自動抽取。該方法精度較高,同時適用于詞匯級、短語級和句子級復述自動抽取,但是受限于譯文資源較少,對于缺乏多版本譯文資源的專利領(lǐng)域難以開展。

        基于統(tǒng)計機器翻譯的復述抽取基本思想是將目標語言的短語視為錨,將對齊到同一錨的兩個源語言短語視為短語復述結(jié)果。該方法依賴基于短語的統(tǒng)計機器翻譯模型中的短語對齊和短語對抽取技術(shù),優(yōu)點包括1)對于每個短語都提供了可能的復述列表并且包含相應的概率值,這樣在具體的任務(wù)中,用戶可以根據(jù)具體上下文選擇最合適的短語復述;2)該方法天然適用于短語級復述自動抽?。?)該方法適用于任何雙語或多語平行語料,對于語料資源限制極少。但是,該方法也有著自己的不足之處,包括以下兩點:1)其中的短語概念并不是嚴格語言學意義上的短語概念,大部分是無意義的詞序列,這樣就導致抽取的短語復述中存在大量非語言單元;2)該方法因為受限于對齊錯誤和翻譯歧義,因此有些時候并不能很好地區(qū)分好、壞短語復述。對于第二點不足,Chan等研究者嘗試利用分布相似度對復述抽取結(jié)果重排序,并在英文短語復述抽取中驗證了有效性[11]。

        6 結(jié)論

        本文利用基于統(tǒng)計機器翻譯的短語復述抽取技術(shù)從中英平行專利語料中抽取短語復述,并利用基于組塊分析的技術(shù)過濾短語復述抽取結(jié)果。而且,為了處理對齊錯誤和翻譯歧義引起的短語復述抽取錯誤,我們利用分布相似度對過濾后的短語復述結(jié)果進行重排序。實驗表明,基于統(tǒng)計機器翻譯的短語復述抽取在中英文上準確率分別為43.20%和43.60%,而經(jīng)過基于組塊分析的過濾技術(shù)后準確率分別提升至75.50%和52.40%。同時,利用分布相似度的重排序算法也能夠有效改進中文短語復述抽取效果。

        [1]張西龍,季鐸,王巖,等.英漢專利語料中長句的分割[J].沈陽航空航天大學學報.2011,28(5):67-70.

        [2]張桂平,劉東生,尹寶生,等.面向?qū)@墨I的中文分詞技術(shù)的研究[J].中文信息學報.2010,24(3):112-116.

        [3]岳金媛,徐金安,張玉潔.面向?qū)@墨I的漢語分詞技術(shù)研究[J].北京大學學報:自然科學版.2013(1):159-164.

        [4]劉穎,鐵錚,余暢.漢英短語翻譯對的自動抽?。跩].計算機應用與軟件.2012,29(7):69-72.

        [5]郭麗.基于上下文的詞語相似度計算及其應用 [D][D].沈陽航空工業(yè)學院,2009.

        [6]劉挺,李維剛,張宇,等.復述技術(shù)研究綜述[J].中文信息學報,2006,20(4):25-33.

        [7]De Beaugrande R,Dressler W.Introduction to text linguistics[Z].London:Longman,1981.

        [8]Bazilay R,Mckeown K R.Extracting paraphrases from a parallel corpus[C]//2001.

        [9]Bannard C,Callison-Burch C.Paraphrasing with bilingual parallel corpora[C]//2005.

        [10]宗成慶,張宵軍.統(tǒng)計機器翻譯[M].電子工業(yè)出版社,2012.

        [11]Chan T P,Callison-Burch C,Van Durme B.Reranking bilingually extracted paraphrases using monolingual distributional similarity[C].2011.

        [12]周強,孫茂松,黃昌寧.漢語句子的組塊分析體系[J].計算機學報.1999,22(11):1158-1165.

        [13]徐中一,胡謙,劉磊.基于CRF的中文組塊分析[J].吉林大學學報:理學版.2007,45(3):416-420.

        [14]Katz J J.The philosophy of linguistics[M].Oxford University Press,1985.

        [15]Lin D,Pantel P.Discovery of inference rules for question-answering[J].Natural Language Engineering.2001,7(4):343-360.

        [16]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C].2003.

        [17]Brown P F,Pietra V J D,Pietra S A D,et al.The mathematics of statistical machine translation:Parameter estimation[J].Computational linguistics.1993,19(2):263-311.

        [18]Och F J,Ney H.A systematic comparison of various statistical alignment models[J].Computational linguistics.2003,29(1):19-51.

        [19]李珩,朱靖波,姚天順.基于SVM 的中文組塊分析[J].中文信息學報.2004,18(2):1-7.

        [20]Agirre E,Alfonseca E,Hall K,et al.A study on similarity and relatedness using distributional and wordnet-based approaches[C].2009.

        [21]Li P,Sun M,Xue P.Fast-Champollion:A Fast and Robust Sentence Alignment Algorithm[C]//Proceedings of Beijing,China:Coling 2010Organizing Committee,2010.

        [22]Koehn P,Hoang H,Birch A,et al.Moses:Open source toolkit for statistical machine translation[C].2007.

        [23]Phan X H.Crftagger:Crf english pos tagger[J].A-vailable at crftagger.source forge.net,2006.

        [24]Kaixu Z,Maosong S.Unified Framework of Performing Chinese Word Segmentation and Part-of-Speech Tagging[J].CHINA COMMUNICATIONS,2012,9(3):1-9.

        [25]Phan X H.Crfchunker:Crf english phrase chunker[C].PACLIC,2006.

        [26]周強.漢語句法樹庫標注體系[J].中文信息學報.2004,18(4):1-8.

        [27]Voorhees E M.The philosophy of information retrieval evaluation[C].2002.

        [28]Miller G A,Beckwith R,F(xiàn)ellbaum C,et al.Introduction to wordnet:An on-line lexical database[J].International journal of lexicography,1990,3(4):235-244.

        [29]Dong Z,Dong Q.HowNet[J].2000.

        [30]Hatzivassiloglou V,McKeown K R.Towards the automatic identification of adjectival scales:Clustering adjectives according to meaning[C]//Proceedings of the 31st annual meeting on Association for Computational Linguistics.Association for Computational Linguistics,1993:172-182.

        [31]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報:信息科學版.2010(06):602-608.

        [32]Blondel V D,Senellart P P.Automatic extraction of synonyms in a dictionary[J].vertex,2011,1:x1.

        [33]Pereira F,Tishby N,Lee L.Distributional clustering of English words[C]//Proceedings of the 31st annual meeting on Association for Computational Linguistics. Association for Computational Linguistics,1993:183-190.

        [34]Lin D.Automatic retrieval and clustering of similar words[C]//Proceedings of the 17th International Conference on Computational linguistics-Volume 2.Association for Computational Linguistics,1998:768-774..

        [35]Ibrahim A,Katz B,Lin J.Extracting structural paraphrases from aligned monolingual corpora[C]//Proceedings of the second international workshop on Paraphrasing-Volume 16.Association for Computational Linguistics,2003:57-64.

        猜你喜歡
        組塊語料排序
        排序不等式
        橫浪作用下大型上部組塊雙船浮托安裝動力響應特性試驗研究
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        陸豐7-2油田導管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        亚洲精品一区国产欧美| 日本一区中文字幕在线播放| 东风日产车是不是国产的| 少妇夜夜春夜夜爽试看视频| 午夜不卡av免费| 日韩爱爱视频| 91青青草手机在线视频| 中文字幕人妻丝袜成熟乱| 熟妇丰满多毛的大隂户| 国产一区二区三区啪| 日韩精品免费一区二区中文字幕| 亚洲国产精品av在线| 女人被狂躁高潮啊的视频在线看| 91视频香蕉| 黑人免费一区二区三区| 国产免费二区三区视频| 在线涩涩免费观看国产精品 | 人妻有码中文字幕在线| 综合亚洲伊人午夜网| 精品一区二区三区无码免费视频| 91精品全国免费观看青青| 亚洲中字永久一区二区三区| 日本少妇高潮喷水视频| 国产欧美日韩综合精品二区| 精品国产91久久综合| 射进去av一区二区三区| 无套中出丰满人妻无码| 免费人成视频在线观看视频| 亚洲国产av剧一区二区三区| 色婷婷久久精品一区二区| 亚洲国产成人片在线观看无码| 国产精品三级一区二区按摩| 在线亚洲精品免费视频| 男人添女人囗交做爰视频| 亚洲国产成人va在线观看天堂| 国产美女被遭强高潮露开双腿| 国产精品国产三级国产专区不| 国产精品久久久久乳精品爆| 啪啪无码人妻丰满熟妇| 亚洲一区二区三区精彩视频 | 激情综合色综合啪啪五月丁香|