王 萌,黃居仁,俞士汶,李 斌
(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;
2. 香港理工大學 中文及雙語學系,香港;
3. 南京師范大學 文學院,江蘇 南京 210097)
復合名詞短語(noun compounds)是一種特定類型的短語,它由相鄰的名詞序列組成,其功能整體上相當于一個名詞[1],如“電子 警察”、“電腦 公司”和“空氣 質(zhì)量 問題”。通常把復合名詞短語中的最后一個名詞稱為中心詞(head),前面的成分稱為修飾詞(modifier)。從語法角度來說,復合名詞短語和詞比較相似,整個復合名詞短語的功能相當于中心名詞的功能。
復合名詞短語廣泛存在于各種語言,經(jīng)常出現(xiàn)在各種文體中,衍生能力很強,組成方式簡單但是歧義性高。這些特點使得復合名詞短語在語言學和計算語言學領(lǐng)域成為一個熱點研究課題,其涉及到的研究范圍也越來越廣泛,包括復合名詞短語的自動獲取、句法分析、語義解釋、翻譯以及語義焦點分析等等。
復合名詞短語的語義解釋(noun compound interpretation)的主要目的是自動獲取修飾語和中心詞之間隱含的語義關(guān)系。這種語義信息的顯性化對信息檢索、問答系統(tǒng)、機器翻譯等諸多自然語言處理任務(wù)有所幫助。例如,在問答系統(tǒng)中,若用戶的問題是“the causes of headaches”,如果已知“caffeine headache”的語義解釋是“headache caused by caffeine”,就可以給出正確的回答。再如,在信息檢索系統(tǒng)中,用戶輸入查詢“headache pill”,系統(tǒng)可以提供“pill causes the headache”或者“pill prevents the headache”等不同的語義解釋來幫助用戶改進查詢。
本文主要研究了漢語復合名詞短語的語義解釋,首次采用動態(tài)的策略,提出了“基于動詞的短語釋義”的方法,自動獲取復合名詞短語的語義解釋。本文組織結(jié)構(gòu)如下:第2節(jié)介紹國內(nèi)外相關(guān)研究,第3節(jié)介紹漢語復合名詞短語釋義方法的步驟,第4節(jié)至第6節(jié)對該方法中的每一步進行詳細描述,第7節(jié)報告了評價方法及實驗結(jié)果,最后,第8節(jié)對本文工作和下一步研究方向進行總結(jié)和展望。
目前,英文復合名詞短語的語義解釋研究得較為充分??偟恼f來,主要有兩大處理策略,一種是自上而下的策略(top-down strategy),這種方法首先要求有一組已經(jīng)定義好的、明確的關(guān)系集合,然后根據(jù)這個關(guān)系集合,為每個復合名詞短語分配適當?shù)恼Z義關(guān)系,這實際上就是一個分類問題,也有文獻將這種方法稱之為“清單為本法(Inventory-based method)”。
不同的研究者提出的語義關(guān)系集合各不相同,文獻[2]最早提出了九種“可恢復的刪除謂詞(recoverably deleteable predicates)”,它們表示的語義關(guān)系可以用介詞短語或者關(guān)系從句的方式予以表達,如CAUSE(exam anxiety),HAVE(vegetable soup),MAKE(electricity station),USE(laser printer),BE(player coach),F(xiàn)OR(concert hall),IN(morning class),F(xiàn)ROM(peanut butter),ABOUT(computer expert)。文獻[3]提出了一個語義關(guān)系的分類體系,上層有6個主要的語義關(guān)系類(CONSTITUTE,POSSESSION,LOCATION,PURPOSE,ACTIVITY-ACTOR,RESEMBLANCE),每個類下面包含若干子類。文獻[4] 定義了13種語義關(guān)系,提出了判斷復合名詞短語語義關(guān)系的準則,即通過wh-questions(who,what,when,whom,where,whose,how)對復合名詞短語進行提問,根據(jù)修飾語能否回答這些問題對短語進行語義歸類。文獻[5]用8個介詞(of,for,in,at,on,from,with,about)來定義語義關(guān)系,如baby car(car for the baby)。2007年SemEval組織了一項評測“Classification of Sematic Relations between Nominals”[6],定義了七種語義關(guān)系(Cause-Effect,Content-Container,Instrument-Agency,Origin-Entity,Part-Whole,Product-Producer,Theme-Tool)。
第二種是自下而上的策略(bottom-up strategy),研究者認為第一種方法存在一些缺陷:首先復合名詞短語存在的語義關(guān)系是不能由一組固定的集合窮盡的[1],無論根據(jù)何種關(guān)系定義,總存在一些短語不能被正確歸類;其次,固定的關(guān)系集合難以反映復合名詞短語的多義性;最后,一個復合名詞短語根據(jù)不同的解釋可以屬于多個語義類,如“l(fā)ab printer”,按照介詞的語義關(guān)系分類,即可以是“printer in the lab”,也可以是“printer for the lab”。因此研究者采用一種非受限的、開放式的方法,不事先定義語義關(guān)系集合,而是通過大規(guī)模的語料去發(fā)現(xiàn)詞語組合時隱含的語義關(guān)系,并通過某種模式進行釋義(paraphrase)。
在這種思路下,很多研究者嘗試用動詞來解釋復合名詞短語的語義關(guān)系[7-10],尋找能夠連接中心詞和修飾詞的“事件框架(event frame)”。例如,“butter knife”和“kitchen knife”,它們的語義解釋分別為“knife for cutting the butter”和“knife used in the kitchen”,其中“cut”和“use”就是釋義動詞。2010年的SemEval有一項英文的評測任務(wù)“Noun Compound Interpretation Using Paraphrasing Verbs and Prepositions”[11],要求參賽者為每一個復合名詞短語提供釋義動詞集合,同時給出這些動詞的排名。
在漢語方面,相關(guān)研究成果較少。文獻[12]研究了具有名物化現(xiàn)象(nominalization)的漢語復合名詞短語的語義分類問題,如“鳥類 遷徙”,“遷徙”是名動詞(具有名詞功能的動詞),作者參照動詞的語義角色(semantic roles)定義了四種粗粒度語義關(guān)系(Proto-Agent, Proto-Patient,Range和Manner),對300個復合名詞短語進行了實驗。該方法是屬于第一種策略的,按照定義好的語義類別對復合名詞短語進行分類,迄今為止,還未見漢語中采用第二種策略處理復合名詞短語語義關(guān)系的相關(guān)報道。因此本文則嘗試第二種策略,利用語料庫及Web數(shù)據(jù),自動獲取“基于動詞的釋義短語”對復合名詞短語進行語義解釋。
文獻[13]對漢語謂詞隱含(implying predicate)進行過詳細論述,從句法和心理實現(xiàn)性等方面對謂詞隱含現(xiàn)象進行了驗證。動詞在復合名詞短語的語義解釋中起著相當關(guān)鍵的作用,對于一個復合名詞短語“n1 n2”,人們首先根據(jù)n1和n2之間的語義聯(lián)系去激活被隱含的動詞,進而獲得正確的語義解釋。在一定的語境中,這個隱含的動詞是可以復原的。例如,“紅木 家具”,解釋為“紅木 制造 的 家具”,其中“制造”就是隱含謂詞?!皭矍?故事”,解釋為“描寫 愛情 的 故事”,“描寫”是隱含謂詞。隱含謂詞可以有多個,例如,“水果 價格”,可以解釋為“買/賣/銷售 水果 的 價格”等。我們將上述包含動詞以及目標名詞的短語稱之為“基于動詞的釋義短語”,本文的目的就是自動發(fā)現(xiàn)這些釋義短語,并按照釋義的可能性給出排名,即越恰當?shù)尼屃x排名越靠前。該過程分為以下三步:
(1) 動詞獲取。對一個復合名詞短語“n1 n2”,找到與n1和n2概念相關(guān)的動詞。
(2) 釋義短語生成。將n1、n2以及第一步中獲取的動詞放入已定義的釋義模板中,生成所有可能的釋義短語。
(3) 釋義短語過濾。將第二步中生成的模板作為查詢(query),送入搜索引擎,得到命中次數(shù),并按照命中次數(shù)的降序?qū)︶屃x短語排序。
名詞通常指涉概念,概念有不同的特征,名詞與名詞組合構(gòu)成復合名詞短語時,某一方面的特征會凸顯出來。例如,“鉆石”作為一種堅硬的材質(zhì)可以被切割和打磨,并可以鑲嵌在戒指上作為裝飾物,“鉆石 鋸片”和“鉆石 戒指”分別凸顯了“鉆石”的兩種不同特征,而這種特征可以通過不同的“動詞”進行解釋,即“切割 鉆石 的 鋸片”和“鑲嵌 鉆石 的 戒指”。因此,動詞獲取的主要目的就是獲取所有可能的與名詞概念相關(guān)的動詞,在兩個名詞組合時,與被凸顯特征相關(guān)的“動詞”就是合理的語義解釋。
在自然語言中,任何形式和結(jié)構(gòu)都是為了表達一定的意義,而任何意義及其關(guān)聯(lián)都要通過一定的形式和結(jié)構(gòu)表現(xiàn)出來。從句法層次上看,連接動詞與名詞的最為直接的語法關(guān)系就是“述賓(verb-object)”和“主謂(subject-verb)”,即名詞充當動詞主語或者賓語,名詞與動詞之間存在語義關(guān)聯(lián)。因此,本文從形式上可以把握的線索——表層的句法結(jié)構(gòu)入手,利用“述賓”和“主謂”兩種語法關(guān)系,獲取與名詞概念相關(guān)的動詞。但是,這就要求語料是經(jīng)過深層加工并標記了句法結(jié)構(gòu)的,而目前可以利用的中文短語結(jié)構(gòu)樹庫資源十分有限,這會直接影響獲取動詞的數(shù)量(覆蓋率)。因此本文采用一種回退的策略,獲取與名詞在指定語法關(guān)系下具有搭配意義的動詞,并不要求語料經(jīng)過深層次的句法加工和標注。中文詞匯特征素描系統(tǒng)(Chinese Sketch Engine)*該系統(tǒng)是一個網(wǎng)絡(luò)在線系統(tǒng),訪問地址:http://wordsketch.ling.sinica.edu.tw/.即可以勝任此項任務(wù)。
Sketch Engine是一個大規(guī)模語料處理系統(tǒng)[14-15],該系統(tǒng)除了提供一般的關(guān)鍵詞及語境查詢外,還提供了詞匯特征素描(word sketch)、語法關(guān)系(grammatical relation)以及同近義詞分析(thesaurus)等自動產(chǎn)生的語法知識。目前這個系統(tǒng)已經(jīng)應(yīng)用在英語、漢語、法語、德語、日語等多國語言,產(chǎn)生了廣泛的影響。中文詞匯特征素描系統(tǒng)(CSE,Chinese Sketch Engine)是Sketch Engine系統(tǒng)與十四億字的Chinese Gigaword語料相結(jié)合的產(chǎn)物[16],提供了絕大部分中文詞匯實際使用的描述,可以服務(wù)于諸多自然語言處理任務(wù)。
Word Sketch描述了詞語在某些語法關(guān)系下與其他詞語的搭配情況。根據(jù)詞類的不同,其對應(yīng)搭配詞的語法關(guān)系也不同。例如,CSE中名詞的搭配關(guān)系有述賓關(guān)系(object_of)、主謂關(guān)系(subject_of)、領(lǐng)屬關(guān)系(possession/possessor)、修飾關(guān)系(A_modifier/N_modifier/modifies)及并列關(guān)系(and/or)等9種。所有的搭配關(guān)系可以用一個三元組(triple)表示,即(word1,relation,word2),其中word1是查詢的關(guān)鍵詞,relation是語法關(guān)系,word2是在這種語法關(guān)系下的搭配詞。
利用CSE中的Word Sketch功能可以方便地獲取某個名詞的在各種語法關(guān)系下的特征素描,本文只使用“subject_of”和“object_of”兩種關(guān)系。以復合名詞短語“n1 n2”為例,經(jīng)過兩步獲取釋義動詞。
第一步,將n1和n2作為查詢關(guān)鍵詞,分別獲取它們在“subject_of”和“object_of”兩種語法關(guān)系下的搭配詞,本文只為每個名詞抽取前200個顯著性最高的搭配詞,這樣分別得到名詞n1和n2的相關(guān)動詞集合,記為VerbSetn1和VerbSetn2。
第二步,求VerbSetn1和VerbSetn2的交集,得到名詞n1和n2共有的動詞,作為最終的釋義動詞獲取結(jié)果。
以“愛情 故事”為例,表1給出了兩個名詞在subject_of和object_of語法關(guān)系下的搭配動詞樣例,以及它們求交集的結(jié)果。表2給出了其他兩個復合名詞短語“水果 價格、網(wǎng)球 場地”的釋義動詞獲取樣例,同時給出了獲取動詞的個數(shù)。
表1 “愛情 故事”的釋義動詞獲取過程
表2 釋義動詞樣例
文獻[13]提出了典型的謂詞隱含的句法模式,本文借鑒其研究成果,采用四種句法模板來生成釋義短語。見表3,其中,“n1 n2”是復合名詞短語,“v”是獲取的動詞。以“愛情 故事”為例,根據(jù)釋義模板產(chǎn)生了152個基于動詞的釋義短語,表4給出了部分樣例。這里按照釋義模板生成釋義短語時,采用的是一種窮盡的方式,產(chǎn)生所有可能的釋義短語,這些釋義短語中除了包含正確的解釋之外,也必然帶來很多噪音。因此需要對這些短語進行過濾和排序,盡量把最恰當?shù)尼屃x短語排在前面。
表3 釋義模板
表4 “愛情故事”的釋義短語樣例
釋義短語過濾的目的是去除噪音(即不合理的解釋),保留合理的解釋,并將最恰當?shù)慕忉尳o予較高的排名。為此,最為直觀的解決方法就是在語料中為每個釋義短語尋找“證據(jù)”,如果該釋義短語經(jīng)常在語料中出現(xiàn),那么就認為它是常用的、合理的解釋,可信度較高;如果出現(xiàn)頻次很低,就認為該解釋并不可信。因此,釋義短語過濾的基本假設(shè)就是:正確的釋義短語應(yīng)該出現(xiàn)在語料中,并且隨著其出現(xiàn)次數(shù)增加,釋義的可信度隨之增加。
然而,在自然語言處理中,數(shù)據(jù)稀疏(Data Sparseness)是基于語料庫的統(tǒng)計方法面臨的一大難題。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,網(wǎng)上文本資源越來越豐富,研究者提出把互聯(lián)網(wǎng)(World Wide Web)看做一個巨大的語料庫,利用Web數(shù)據(jù)構(gòu)建語言資源[17-18],或者為某些自然語言處理任務(wù)提供參數(shù)平滑(smoothing)以緩解數(shù)據(jù)稀疏問題[19-20]。
本文利用海量的Web數(shù)據(jù),對釋義短語進行驗證,過濾掉不合理的短語。做法是:將生成的釋義短語作為查詢送入搜索引擎,得到命中次數(shù),按照命中次數(shù)的降序進行排序。命中次數(shù)越高的短語,就越可能是最恰當?shù)尼屃x。目前,Google(www.google.com)和Baidu(www.baidu.com)是使用最為普遍的中文搜索引擎,本文利用這兩大搜索引擎進行了實驗,查詢的方式都是精確匹配(exact match)。
表5 基于Baidu和Google結(jié)果的釋義短語排名樣例
表5分別給出了復合名詞短語“愛情 故事”基于Baidu和Google的結(jié)果樣例,表中顯示的是前10個命中次數(shù)最高的釋義短語,短語后面的數(shù)字是命中次數(shù)??梢钥闯?,由于Google和Baidu對中文網(wǎng)頁的索引規(guī)模不一樣,所以兩者對于同一查詢所返回的命中次數(shù)并不一致,導致釋義短語的排名有所差別。
本文共選擇了391個漢語復合名詞短語作為實驗對象,經(jīng)過上述三個步驟,為每個復合名詞短語獲取可能的釋義短語,并給出排名。
為了評測該方法的性能,獲取的釋義短語都將經(jīng)過人工檢查,作出二元判斷(是或否),即該釋義短語與對應(yīng)的復合名詞短語是否意義相同或者相近。對每個復合名詞短語,返回排名最高的前n個(Top n)釋義短語,分別提供給3位標注者進行判斷*三位標注者,其中一位是語言學專業(yè)的博士生,其余兩位是計算語言學專業(yè)的碩士生。。對每個釋義短語,如果有2個或以上標注者認為正確,則判定為正確。然后對每個復合名詞短語,統(tǒng)計給出的候選釋義短語中是否有正確的釋義出現(xiàn),基于此就可以計算整個方法的準確率,如公式(1)所示。
(1)
表6 基于Google和Baidu結(jié)果的準確率
本文給出了n取值為1、3、5或10時的四組評價結(jié)果,見表6。表中顯示,使用Google和Baidu所得結(jié)果的準確率非常接近。當只為每個復合名詞返回排名最高的一個釋義短語時,它們的準確率在70%左右,隨著返回的釋義短語的個數(shù)增加,準確率不斷提高。當n等于3時,大約90%的復合名詞短語都可以找到正確的釋義短語,比n等于1時提高了20%多,增幅顯著。當n逐步增大到5和10時,準確率依次提高了3%~4%,增幅不大。實驗結(jié)果說明本方法可以有效地為大部分復合名詞短語提供正確的釋義短語, 當返回前三個排名最高的釋義短語時,準確率已經(jīng)達到90%。
本文分別列舉了兩組復合名詞短語,每組具有相同中心詞,并給出它們正確的語義解釋,見表7(a)-(b)??梢钥闯觯瑢τ谕粋€復合名詞短語,不同的釋義短語給出了各種可能的語義解釋,例如“電影 公司”可以是“制作 電影 的 公司”或“發(fā)行 電影 的 公司”等不同職能的公司。對于同一組具有相同中心詞的復合名詞短語, 釋義短語分別反映了它們進行語義關(guān)聯(lián)的方式,例如,“民間 故事”用“流傳、源于、取材”等動詞進行釋義,強調(diào)的是故事的來源或發(fā)生地,而“愛情 故事”用“描繪、詮釋”等動詞進行釋義,強調(diào)的故事的內(nèi)容。雖然兩者在結(jié)構(gòu)形式上是一樣的,但是通過對比各自的釋義短語,就可以發(fā)現(xiàn)語義聯(lián)系是有差別的。
表7(a) 中心詞為“故事”的復合名詞短語的釋義
表7(b) 中心詞為“公司”的復合名詞短語的釋義
本文對沒有找到正確釋義的復合名詞短語(當n等于10時沒有找到)進行了分析,造成沒有找到正確釋義短語的原因主要有兩個方面:
第一,沒有獲取到正確的釋義動詞,造成由這些動詞生成的釋義短語也不正確。例如,“農(nóng)民 習氣”獲取到的釋義動詞只有兩個:“擺脫”和“改變”,都不能正確解釋兩個名詞的語義關(guān)聯(lián)(正確的應(yīng)該是“來自”或“存在”類動詞)。因此,提供的候選釋義短語中沒有包含正確答案。
第二,搜索引擎Google和Baidu索引的差異,導致釋義短語排名不同,正確的釋義短語可能排名靠后,因此某些復合名詞短語可以在其中一個找到正確的釋義短語,而在另外一個失效。例如,“奶油 蛋糕”在Baidu提供的前十個結(jié)果中沒有正確釋義,而在Google提供的結(jié)果中,正確的釋義短語“蛋糕 包括 奶油”排名在前十位。
在分析的過程中,我們發(fā)現(xiàn),漢語復合名詞短語與英語相比,存在著不少差異。例如,把漢語復合名詞短語翻譯成英文時,一些名詞的詞性會發(fā)生變化,變成形容詞。例如,復合名詞短語“國際 標準”的英文是“international standard”,名詞“國際”變成了形容詞“international”。在英文復合名詞短語的釋義任務(wù)中,這類形容詞作為修飾語的復合名詞短語是不包括在內(nèi)的。而在漢語中,對于這部分名詞實際上充當了形容詞功能的復合名詞短語,是很難找到合適的動詞進行釋義的。因此,本文在選詞時候,并沒有選擇這部分復合名詞短語進行釋義。這樣就使得中文和英文的釋義任務(wù)有更多的共同點,可以相互借鑒和對比。
本文首次在漢語中采用“基于動詞的短語釋義”的方法對復合名詞短語進行語義解釋,該方法不僅可以為復合名詞短語提供多種可能的語義解釋,而且能夠反應(yīng)組成相似的復合名詞短語之間細微的語義差別。此外,本文的結(jié)果也可以服務(wù)于問答系統(tǒng)、信息檢索、詞典編纂等多個應(yīng)用領(lǐng)域。
本文的方法優(yōu)于以中心語或修飾語分類的方法,以表7中的兩組復合詞為例,中心語相同時并不表示其構(gòu)成關(guān)系相同,本方法有效地解決了這個以復合名詞短語成分展開無法解決的問題。下一步,我們將圍繞動詞獲取和釋義模板兩個方向繼續(xù)研究。獲取動詞的方法還可以進一步改進,本文利用Chinese Word Sketch獲取在指定語法關(guān)系下具有搭配意義的動詞,這樣獲取的動詞還是有限的,可以借鑒英文的方法,定義一些模板在Web數(shù)據(jù)(如Google 5-gram web index)上進行擴充。此外,本文使用的釋義模板還比較簡單,需要改進和完善。例如,一些時間名詞和地點名詞在釋義短語中實際上是作狀語,“冬季 運動”解釋成“(在)冬季 參加 運動”就比較合理,而目前的方法并沒有將這種情況考慮在內(nèi)。
[1] Downing, Pamela. On the Creation and Use of English Compound Nouns[J]. Language,1997,53(4):810-842.
[2] Levin, Judith. The Syntax and Semantics of Complex Nominals[M]. Academic Press, New York. 1978.
[3] Warren, Beatrice. Semantic patterns of noun-noun compounds[J]. In Gothenburg Studies in English 41, Goteburg, Acta Universtatis Gothoburgensis. 1978.
[4] Vanderwende, Lucy. Algorithm For Automatic Interpretation of Noun Sequences[C]//The 15th International Conference on Computational Linguistics (COLING). 1994.
[5] Lauer, Mark. Designing Statistical Language Learners:Experiments on Compound Nouns[D]. Ph.D. thesis, Macquarie University. Australia.1995.
[6] Girju, Roxana, Preslav Nakov, Vivi Nastase, Stan Szpakowicz, Peter Turney, and Deniz Yuret. Semeval-2007 task 04:Classification of semantic relations between nominals[C]//Proceedings of SemEval, Prague, Czech Republic. 2007:13-18.
[7] Girju, Roxana, Dan Moldovan, Marta Tatu, and Daniel Antohe. On the semantics of noun compounds[J]. Journal of Computer Speech and Language - Special Issue on Multiword Expressions, 2005,4(19):479-496.
[8] Diarmuid O Seaghdha. Learning Compound Noun Semantics[D]. Ph.D. thesis, University of Cambridge. 2008.
[9] Nakov, Preslav. Noun compound interpretation using paraphrasing verbs:Feasibility study[C]//Proceedings of the 13th international conference on Artificial Intelligence:Methodology, Systems and Applications (AIMSA 2008), Springer. 2008:103-117.
[10] Nakov, Preslav and Marti A. Hearst. Using verbs to characterize noun-noun relations[C]//Proceedings of the 12th international conference on Artificial Intelligence:Methodology, Systems and Applications (AIMSA 2006), Springer. 2006:233-244.
[11] Butnariu, Cristina, Su Nam Kim and Preslav Nakov et al. SemEval-2010 Task 9:The Interpretation of Noun Compounds Using Paraphrasing Verbs and Prepositions[C]//Proceedings of the Workshop on Semantic Evaluations:Recent Achievements and Future Directions (SEW-2009).2010.
[12] Zhao, Jinglei, Hui Liu and Ruzhan Lu. Semantic Labeling of Compound Nominalization in Chinese[C]//Proceedings of the Workshop on A Broader Perspective on Multiword Expressions, Prague, June 2007: 73-80.
[13] 袁毓林. 謂詞隱含及其句法后果[J].中國語文. 1995年,第4期.
[14] Kilgarriff, Adam and David Tugwell. Sketching words. Lexicography and Natural Language Processing:A Festschrift in Honour of B. T. S. Atkins. Marie-Hélène Corréard (Ed.)[M]. EURALEX,2002:125-137.
[15] Kilgarriff, Adam, Pavel Rychly, Pavel Smrz and David Tugwell. The Sketch Engine[C]//Proc. Euralex. Lorient, France, July,2004: 105-116.
[16] Huang, Chu-ren, Adam Kilgarriff, Yiching Wu et al. Chinese Sketch Engine and the Extraction of Grammatical Collocations[C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. 2005.
[17] Grefenstette, G. and J. Nioche. Estimation of English and non-English Language Use on the WWW[J]. Arxiv preprint cs.CL/0006032. 2000.
[18] Jones, R. and R. Ghani. Automatically building a corpus for a minority language from the web[C]//Proceedings of the Student ResearchWorkshop at the 38thAnnual Meeting of the Association for Computational Linguistics, 2000:29-36.
[19] Grefenstette, Gregory. TheWorldWideWeb as a resource for example-based machine translation tasks[C]//Proceedings of the ASLIB Conference on Translating and the Computer. London. 1998.
[20] Keller, Frank and Mirella Lapata. Using the web to obtain frequencies for unseen bigrams[J]. Computational Linguistics.2003, 29(3):459-484.