石 貝,孫 樂(lè),韓先培
(中國(guó)科學(xué)院 軟件研究所,北京100190)
自然語(yǔ)言的多樣性決定同一實(shí)體能通過(guò)不同的別名來(lái)表達(dá)。實(shí)體的別名是指同一個(gè)實(shí)體的不同名稱(chēng)。它主要包括縮略語(yǔ)、曾用名、拼音和其他語(yǔ)言的翻譯等。例如,“人人網(wǎng)”的別名有 “人人”、“校內(nèi)網(wǎng)”和“renren”等。別名抽取是指輸入一個(gè)實(shí)體的名稱(chēng),抽取并返回代表該實(shí)體的其他名稱(chēng)。別名抽取的相關(guān)研究是自然語(yǔ)言處理的重要課題。它可以用于知識(shí)庫(kù)的構(gòu)建、機(jī)器翻譯、問(wèn)答系統(tǒng)、信息檢索和實(shí)體鏈接等具體應(yīng)用中。例如,信息檢索面臨的一個(gè)重要問(wèn)題就是相同的實(shí)體采用不同名稱(chēng)從而造成檢索召回率的降低。使用抽取后的別名進(jìn)行查詢(xún)重構(gòu)可以解決這個(gè)問(wèn)題。
目前別名抽取主要是利用已有的語(yǔ)料庫(kù)(采用別名、原名的平行語(yǔ)料庫(kù)或者經(jīng)過(guò)人為分詞和詞性標(biāo)注的語(yǔ)料庫(kù))提取候選別名、原名集合,再利用別名、原名的上下文模板等字對(duì)齊規(guī)則進(jìn)行搜索匹配[1],或者采用機(jī)器學(xué)習(xí)的方法選擇匹配對(duì),最后輸出正確的原名、別名對(duì)。
這類(lèi)方法主要存在兩個(gè)問(wèn)題。
1)語(yǔ)料庫(kù)構(gòu)建困難
由于別名的多樣性(包含拼音、縮略語(yǔ)、翻譯、曾用名),構(gòu)建高覆蓋率的別名平行語(yǔ)料十分困難。例如,“中國(guó)建設(shè)銀行”的別名包含“建設(shè)銀行”、“建行”、“CBC”和“Jian She Yin Hang”等。我們沒(méi)有找到包含“中國(guó)建設(shè)銀行”上述所有別名的平行語(yǔ)料。
2)時(shí)效性差
社交網(wǎng)絡(luò)時(shí)代的來(lái)臨讓人與人在網(wǎng)上的溝通更加頻繁,從而使自然語(yǔ)言的經(jīng)濟(jì)性原則得到了充分利用。“Weibo”、“KFC”、“神九”等各種新別名出現(xiàn)越來(lái)越頻繁。Web信息的日益膨脹使平行語(yǔ)料的構(gòu)建速度遠(yuǎn)遠(yuǎn)趕不上別名的產(chǎn)生速度。如何不通過(guò)平行語(yǔ)料,及時(shí)地抽取別名成為了一個(gè)挑戰(zhàn)。
隨著互聯(lián)網(wǎng)信息的不斷產(chǎn)生,利用用戶(hù)生成的內(nèi)容進(jìn)行別名抽取成為解決上述兩個(gè)問(wèn)題的關(guān)鍵。本文提出了基于圖的查詢(xún)?nèi)罩緞e名抽取方法。首先,本文基于查詢(xún)和鏈接對(duì)應(yīng)的點(diǎn)擊信息,進(jìn)行一次迭代,獲取候選查詢(xún)集合。然后,本文基于<別名—模板>對(duì)和<查詢(xún)—鏈接>對(duì)構(gòu)成二層圖,采用隨機(jī)游走方法對(duì)候選別名進(jìn)行排序,抽取出權(quán)重較高的名稱(chēng)作為實(shí)體的別名。
文章結(jié)構(gòu)安排如下:第2節(jié)介紹了別名抽取的相關(guān)方法;第3節(jié)首先介紹了算法的框架,然后詳細(xì)介紹查詢(xún)?nèi)罩局袃纱箢?lèi)影響別名抽取的信息(上下文信息和查詢(xún)鏈接信息),并就各類(lèi)信息的實(shí)際意義及計(jì)算方法進(jìn)行詳細(xì)說(shuō)明,最后綜合利用這兩個(gè)信息特征,提出一個(gè)基于二層圖的別名抽取框架;第4節(jié)用實(shí)驗(yàn)對(duì)比各類(lèi)信息的性能差異,并證明本文做法有效可行。第5節(jié)對(duì)本文進(jìn)行總結(jié),分析并提出下一步的工作重點(diǎn)和研究問(wèn)題。
由于別名包括縮略語(yǔ)等形式,所以縮略語(yǔ)抽取的相關(guān)工作與別名抽取密切相關(guān)。Zhu等人針對(duì)單字人名、地名簡(jiǎn)稱(chēng),構(gòu)建了基于分類(lèi)器的預(yù)測(cè)模型[2]。李斌等對(duì)漢語(yǔ)單字國(guó)名采取了統(tǒng)計(jì)評(píng)分法進(jìn)行識(shí)別[3]。Chang和Lai使用人工標(biāo)注的源短語(yǔ)、縮略語(yǔ)的平行語(yǔ)料庫(kù)作為訓(xùn)練數(shù)據(jù),然后利用HMM來(lái)提取縮略語(yǔ)、源短語(yǔ)對(duì)[4]。Chang和Teng提出了基于HMM的概率恢復(fù)模型(SCR),用于將縮略語(yǔ)擴(kuò)展為源短語(yǔ)[5]。崔世起等利用生語(yǔ)料使用重復(fù)串搜索技術(shù)和詞性過(guò)濾,必要時(shí)加入人工干預(yù),自動(dòng)提取縮略語(yǔ)和源短語(yǔ)對(duì)[6]。武子英等利用上下文語(yǔ)義信息,基于余弦相似度自動(dòng)抽取漢語(yǔ)縮略語(yǔ)[7]。Li等根據(jù)縮略語(yǔ)與源短語(yǔ)的共現(xiàn)現(xiàn)象,使用字對(duì)齊規(guī)則進(jìn)行自動(dòng)提取縮略語(yǔ)(僅處理單一類(lèi)型的縮略語(yǔ))[8]。上述方法目前只用于縮略語(yǔ)抽取,也可以用于別名的抽取,但是這些方法具有選用的語(yǔ)料庫(kù)時(shí)效性較差,規(guī)模較小,需要人工干預(yù),且只解決縮略語(yǔ)抽取問(wèn)題等缺陷。
Bollegala等人采用搜索引擎獲得候選人名別名的集合,然后利用SVM分類(lèi)器進(jìn)行人名別名抽取[9]。Bhat等人采用LSA方法,利用不同的別名周?chē)哂邢嗤纳舷挛奶卣?,進(jìn)行別名抽取,但該方法有時(shí)效性低,運(yùn)算量大等缺點(diǎn)[10]。同上述方法相比,本文方法不僅使用了上下文信息,還使用了查詢(xún)鏈接信息,提高了抽取的準(zhǔn)確率。
對(duì)于上述方法需要平行語(yǔ)料,時(shí)效性低等缺點(diǎn),本文提出了使用用戶(hù)查詢(xún)?nèi)罩?,自?dòng)抽取候選查詢(xún),然后利用上下文信息和查詢(xún)鏈接點(diǎn)擊信息構(gòu)建二層圖,再使用隨機(jī)游走算法對(duì)圖中的候選別名進(jìn)行排序的方法。該方法不需要任何標(biāo)注數(shù)據(jù)和人工干預(yù),并具有很好的時(shí)效性。
在輸入原名e后,別名抽取的目標(biāo)是向用戶(hù)返回查詢(xún)?nèi)罩局袑?shí)體的別名{a1,a2,…,ap}。為了便于展示,全文將通過(guò)抽取“人人網(wǎng)”的別名這個(gè)例子對(duì)我們的方法進(jìn)行描述。相關(guān)定義如下:
· 輸入原名e:“人人網(wǎng)”;
· 已知由查詢(xún)記錄{r1,r2,r3,…,rs}構(gòu)成的文檔集合R。每一條記錄包含查詢(xún)(用q表示)和查詢(xún)對(duì)應(yīng)的點(diǎn)擊鏈接(用l表示)。例如,其中一條查詢(xún)記錄為“北京大學(xué) http://www.pku.edu.cn”;
· 目標(biāo)集合{a1,a2,…,ap}:“人人網(wǎng)”的別名構(gòu)成的集合。例如,“人人”,“校內(nèi)網(wǎng)”,“xiaonei”等別名所構(gòu)成的集合。
在查詢(xún)?nèi)罩局?,我們觀察到別名的特征主要包括以下兩類(lèi)。
(1)和原名具有相同的上下文。例如,對(duì)于原名“人人網(wǎng)”,查詢(xún)?nèi)罩景罅坎樵?xún)“人人網(wǎng)首頁(yè)”,同時(shí)查詢(xún)?nèi)罩疽舶罅坎樵?xún)“校內(nèi)網(wǎng)首頁(yè)”。因此,“人人網(wǎng)”和“校內(nèi)網(wǎng)”包含相同的上下文“*首頁(yè)”。
(2)別名所構(gòu)成的查詢(xún)和原名所構(gòu)成的查詢(xún)被用戶(hù)點(diǎn)擊到同一鏈接。對(duì)于查詢(xún)“人人網(wǎng)地址”,其指向的鏈接為“http://www.renren.com”。對(duì)于查詢(xún)“校內(nèi)網(wǎng)地址”,其指向的鏈接也為“http://www.renren.com”。
圖1 基于圖的查詢(xún)?nèi)罩緞e名抽取算法框架
因此,利用這兩類(lèi)特征,本文提出了基于圖的查詢(xún)?nèi)罩緞e名抽取算法,框架如圖1所示。
實(shí)驗(yàn)中查詢(xún)?nèi)罩景哂嗖樵?xún),數(shù)據(jù)量大,因此在別名抽取前需要對(duì)查詢(xún)?nèi)罩具M(jìn)行過(guò)濾,得到查詢(xún)記錄的子集——候選查詢(xún)集合Qc。候選查詢(xún)集合是有可能包含原名和別名的查詢(xún)所構(gòu)成的集合。我們的假設(shè)是,包含別名的查詢(xún)和包含原名的查詢(xún)至少指向一條共同的點(diǎn)擊鏈接。基于此假設(shè),抽取“人人網(wǎng)”的候選查詢(xún)集合Qc的步驟如下。
1)將“人人網(wǎng)”和查詢(xún)?nèi)罩局械牟樵?xún)逐條匹配。如果“人人網(wǎng)”是查詢(xún)q的子串,則將q加入集合Q0中。Q0為包含原名“人人網(wǎng)”的查詢(xún)所構(gòu)成的集合。
2)對(duì)Q0中的每一個(gè)查詢(xún)q,獲得它對(duì)應(yīng)的點(diǎn)擊鏈接c(每一個(gè)查詢(xún)對(duì)應(yīng)的點(diǎn)擊鏈接可能有多個(gè)),將c加入鏈接集合C0中。
3)對(duì)C0中的每一條鏈接c,獲得c對(duì)應(yīng)的查詢(xún)q′,將q′加入候選查詢(xún)集合Qc中。
如圖2所示,我們利用了查詢(xún)—鏈接信息,生成了候選查詢(xún)集合Qc。Qc中的查詢(xún)有可能包含別名。
圖2 “人人網(wǎng)”候選查詢(xún)集合的生成過(guò)程
在獲取候選查詢(xún)集合Qc之后,我們需要抽取出Qc中的查詢(xún)所包含的別名,并對(duì)其排序。在此步驟中,本文首先構(gòu)建別名候選圖層,然后構(gòu)建查詢(xún)鏈接圖層,然后將這兩個(gè)圖層進(jìn)行鏈接,得到二層圖。最后采用隨機(jī)游走算法進(jìn)行排序,得到最終結(jié)果。
3.3.1 別名候選圖層的構(gòu)建
我們觀察到對(duì)于原名和別名,它們很可能共享相同的上下文。我們的假設(shè)是,如果一個(gè)查詢(xún)和包含原名的查詢(xún)有相同的上下文,那么這個(gè)查詢(xún)可能包含別名。在得到候選查詢(xún)集合Qc后,本文使用基于模板的Bootstrapping算法生成<別名—模板>對(duì)和<模板—?jiǎng)e名>對(duì),然后構(gòu)建別名候選圖層。構(gòu)建過(guò)程如下。
1)將原名e加入命名集合N 中。將模板池W置空。
2)分析Qc中的每個(gè)查詢(xún)q,若q包含命名集合N 中的元素n,則抽取n的上下文,生成模板w。其中,在q的句首和句尾添加 “<s>”和“</s>”標(biāo)簽作為開(kāi)始標(biāo)記和結(jié)束標(biāo)記。例如,對(duì)于原名“人人網(wǎng)”,如果Qc中存在查詢(xún)“人人網(wǎng)首頁(yè)”,則生成模板“<s>*首頁(yè)</s>”。將模板w加入模板池W中,同時(shí)記錄<別名—模板>關(guān)系。為提高模板的有效性,減少隨機(jī)事件的影響,本文在這一階段過(guò)濾掉模板池中只出現(xiàn)過(guò)一次的模板。
3)依次取出模板池W 中的模板w。對(duì)于Qc中的每一條查詢(xún)q,若q匹配模板w,則抽取出候選別名a,并將a加入N 中,同時(shí)記錄<模板—?jiǎng)e名>關(guān)系。
4)重復(fù)第2步和第3步,直至沒(méi)有新的元素加入N中。
利用上述步驟得到的<別名—模板>對(duì)和<模板—?jiǎng)e名>對(duì),對(duì)集合N和W 構(gòu)建二分圖。對(duì)每一個(gè)<別名—模板>對(duì)和<模板—?jiǎng)e名>對(duì),在圖中添加相應(yīng)的邊來(lái)連接對(duì)應(yīng)的別名節(jié)點(diǎn)和模板節(jié)點(diǎn)。如圖3所示。
圖3 別名候選圖層的構(gòu)建示例
3.3.2 查詢(xún)鏈接圖層的構(gòu)建
為了驗(yàn)證使用查詢(xún)?nèi)罩具M(jìn)行別名抽取的有效性,我們對(duì)查詢(xún)?nèi)罩具M(jìn)行分析。我們抽取出查詢(xún)?nèi)罩局心承︰RL鏈接對(duì)應(yīng)的查詢(xún),并按點(diǎn)擊次數(shù)進(jìn)行排序,如表1所示。
表1 查詢(xún)?nèi)罩局心承︰RL對(duì)應(yīng)的查詢(xún)
從表1中我們觀察到,在查詢(xún)?nèi)罩局校瑢?duì)于同一個(gè)鏈接“http://www.renren.com”或者 “http://www.sina.com.cn/”,其對(duì)應(yīng)的查詢(xún)(“人人網(wǎng)”和“xiaonei”,“sina”和“新浪網(wǎng)”)互為別名。因此,我們得到假設(shè):對(duì)于同一個(gè)鏈接,如果它和幾個(gè)查詢(xún)有很強(qiáng)的關(guān)聯(lián),那么這幾個(gè)查詢(xún)很可能包含同一實(shí)體對(duì)應(yīng)的別名。利用此假設(shè),我們構(gòu)建查詢(xún)鏈接圖層的步驟如下。
1)對(duì)Qc中的每一個(gè)查詢(xún)q,將q加入查詢(xún)鏈接圖層中,同時(shí)將q對(duì)應(yīng)的鏈接l作為節(jié)點(diǎn)加入圖層中,并添加邊<q,l>。
2)對(duì)新添加的l,如果存在l對(duì)應(yīng)的查詢(xún)q不在圖層中,則將查詢(xún)q添加到圖層中,同時(shí)添加邊<l,q>。
重復(fù)上述兩步,直至沒(méi)有新的邊和節(jié)點(diǎn)加入此二分圖中,則構(gòu)建出如圖4所示的查詢(xún)鏈接圖層。
圖4 查詢(xún)鏈接圖層的構(gòu)建示例
3.3.3二層圖構(gòu)建
在構(gòu)建別名候選圖層和查詢(xún)鏈接圖層后,我們構(gòu)建一個(gè)二層圖。如圖5所示,上層為構(gòu)建好的別名候選圖層,EG={EV,EE}。EV是節(jié)點(diǎn)集合,包括原名e,候選別名a和包圍別名的模板w。EE是邊(evi,evj)的集合,(evi,evj)表示節(jié)點(diǎn)evi和evj之間的邊。下層為構(gòu)建好的查詢(xún)鏈接圖QG={QV,QE},QV是節(jié)點(diǎn)集合,節(jié)點(diǎn)為查詢(xún)候選集合Qc中的查詢(xún)和鏈接,QE是下層節(jié)點(diǎn)之間的邊的集合,每個(gè)邊用日志中查詢(xún)和鏈接的共現(xiàn)來(lái)表示。如果用戶(hù)在查詢(xún)q時(shí)點(diǎn)擊鏈接l,則在q與l之間添加一條邊鏈接。上下兩層圖通過(guò)查詢(xún)和別名的包含關(guān)系連接。對(duì)于上層圖中的別名a,如果在下層圖中存在查詢(xún)q包含別名a,則在q和a之間添加一條邊(圖5中虛線(xiàn)所示)。
圖5 二層圖構(gòu)建示例
3.3.4 隨機(jī)游走算法
二層圖構(gòu)建完成之后,本文使用隨機(jī)游走算法計(jì)算圖中節(jié)點(diǎn)的權(quán)重[11],然后對(duì)權(quán)重排序,返回排名靠前的別名節(jié)點(diǎn)。
假設(shè)該圖中節(jié)點(diǎn)的初始權(quán)重表示為式(1):
其中w0i是編號(hào)為i的別名,模板,查詢(xún)或者鏈接的初始權(quán)重。該二層圖總共包含n個(gè)節(jié)點(diǎn)。則二層圖中邊的權(quán)重如式(2)所示:
其中ei,j表示節(jié)點(diǎn)i和j之間的邊的權(quán)重。針對(duì)不同的節(jié)點(diǎn)i和j,其權(quán)重的計(jì)算方式分為如下幾種情況。
1)如果i是別名或者原名,j是模板,那么我們使用別名i和模板j在Qc中的共現(xiàn)次數(shù)作為權(quán)重。
2)如果i是模板,j是別名或者原名,那么我們使用模板i和別名j在Qc中的共現(xiàn)次數(shù)作為權(quán)重。
3)如果i是查詢(xún),j是點(diǎn)擊鏈接,那么我們使用在查詢(xún)?nèi)罩局衖和j的對(duì)應(yīng)點(diǎn)擊次數(shù)作為權(quán)重。
4)如果i是點(diǎn)擊鏈接,j是查詢(xún),那么我們使用在查詢(xún)?nèi)罩局衖和j的對(duì)應(yīng)點(diǎn)擊次數(shù)作為權(quán)重。
5)如果i是別名或原名,j是查詢(xún),那么我們使用Qc中別名或原名i被查詢(xún)j的包含次數(shù)作為權(quán)重。
6)如果i是查詢(xún),j是別名或原名,那么我們使用Qc中查詢(xún)i包含別名或原名j的次數(shù)作為權(quán)重。
然后我們對(duì)W 進(jìn)行迭代更新,如式(3)所示。
其中norm(E)是E的正規(guī)化形式,Wt是W0經(jīng)過(guò)t次迭代之后的權(quán)重向量,λ∈(0,1)是一個(gè)自由參數(shù),表示初始向量在更新節(jié)點(diǎn)權(quán)重時(shí)的權(quán)重。當(dāng)?shù)螖?shù)到達(dá)某個(gè)限定次數(shù),或迭代結(jié)果趨于收斂,則停止迭代更新,作為各節(jié)點(diǎn)的最終權(quán)重。在本文實(shí)驗(yàn)中,默認(rèn)迭代50次。
在進(jìn)行初始權(quán)重賦值時(shí),原名節(jié)點(diǎn)賦值為1,其余節(jié)點(diǎn)賦值為0。在迭代一定次數(shù),得到各節(jié)點(diǎn)權(quán)重后,對(duì)別名節(jié)點(diǎn)進(jìn)行排序,輸出排序后的別名列表L。計(jì)算列表L節(jié)點(diǎn)權(quán)重之間梯度,將最大下降梯度之前的節(jié)點(diǎn)進(jìn)行返回。如圖6中例子所示,返回虛線(xiàn)之前的節(jié)點(diǎn)。
圖6 列表L節(jié)點(diǎn)返回示例
在這一節(jié),我們?cè)u(píng)估了本文提出的方法,并將它同三個(gè)基準(zhǔn)實(shí)驗(yàn)進(jìn)行比較。同時(shí),我們?cè)敿?xì)分析了實(shí)驗(yàn)結(jié)果。
本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)自百度搜索查詢(xún)?nèi)罩緮?shù)據(jù)(2008年10月),共包含6515602個(gè)查詢(xún)。同時(shí),本文共收集了500個(gè)原名。這500個(gè)原名主要包含機(jī)構(gòu)名(“中國(guó)建設(shè)銀行”等),品牌名(“索尼”等)和網(wǎng)站名(“新浪”,“人人網(wǎng)”)等。在該實(shí)驗(yàn)中,本文基于查詢(xún)?nèi)罩緦?duì)這些原名進(jìn)行別名抽取,并對(duì)抽取結(jié)果進(jìn)行人工評(píng)判。
在該實(shí)驗(yàn)中,我們使用準(zhǔn)確率(Accuracy)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)判。對(duì)結(jié)果集合S,其準(zhǔn)確率(Accuracy)如式(4)所示:
本文的三個(gè)基準(zhǔn)實(shí)驗(yàn)包括:
1)基于詞的上下文相似度的別名抽取方法(ConSim)。該方法抽取原名的上下文,構(gòu)成向量,然后計(jì)算候選詞的上下文向量與原名的上下文向量的余弦相似度,然后根據(jù)余弦相似度進(jìn)行排序,進(jìn)而抽取別名。
2)僅基于別名候選圖層,使用隨機(jī)游走算法對(duì)別名節(jié)點(diǎn)進(jìn)行排序的別名抽取方法(ExtGraph)。
3)僅基于查詢(xún)鏈接圖層,使用隨機(jī)游走算法對(duì)查詢(xún)節(jié)點(diǎn)進(jìn)行排序,直接將排序靠前的查詢(xún)結(jié)果作為別名(QGraph)。
本文提出的基于圖的查詢(xún)?nèi)罩緞e名抽取算法被記為(TwoGraph)。
在百度查詢(xún)?nèi)罩緮?shù)據(jù)上,四組實(shí)驗(yàn)結(jié)果如表2所示。
表2 四種別名抽取算法的實(shí)驗(yàn)結(jié)果比較
從表2可以得到如下結(jié)論。
1)四個(gè)方法中,我們的方法抽取別名效果最好。別名抽取效果比較結(jié)果為:TwoGraph>QGraph>ExtGraph>ConSim。
2)和ExtGraph相比,TwoGraph在準(zhǔn)確率上提高14.8%。這說(shuō)明使用上下文信息和查詢(xún)鏈接信息進(jìn)行別名抽取比僅僅使用上下文信息進(jìn)行別名抽取的效果要好。
3)和QGraph相比,TwoGraph在準(zhǔn)確率上提高9.0%。這說(shuō)明使用上下文信息和查詢(xún)鏈接信息進(jìn)行別名抽取比只使用查詢(xún)鏈接信息進(jìn)行別名抽取的效果要好。
4)和ConSim相比,ExtGraph在準(zhǔn)確率上提高24.8%。這證明了我們使用隨機(jī)游走算法對(duì)構(gòu)建后的別名候選圖層進(jìn)行節(jié)點(diǎn)權(quán)重排序的有效性。
5)和ExtGraph相比,QGraph在準(zhǔn)確率上提高5.8%。這表示查詢(xún)?nèi)罩局械牟樵?xún)鏈接信息比別名的上下文信息更加準(zhǔn)確。這可能因?yàn)椴樵?xún)?nèi)罩局胁樵?xún)數(shù)目比較多,模板比較繁雜,所得到的上下文信息不如點(diǎn)擊信息更加準(zhǔn)確。
當(dāng)輸入“人人網(wǎng)”后,TwoGraph系統(tǒng)抽取的別名列表top10如表3所示。
表3 “人人網(wǎng)”別名列表top10
從表3中可以看出,我們實(shí)驗(yàn)返回的結(jié)果包括了曾用名、拼音、縮略詞、URL和拼寫(xiě)錯(cuò)誤。這表明了本文方法保證了別名抽取結(jié)果的多樣性。該結(jié)果也表明了該方法在抽取別名時(shí),也抽取出了一些查詢(xún)?nèi)罩局械钠磳?xiě)錯(cuò)誤(“xiaone”)。這些拼寫(xiě)錯(cuò)誤對(duì)系統(tǒng)性能產(chǎn)生了負(fù)面影響。
本文針對(duì)目前別名抽取需要訓(xùn)練語(yǔ)料,時(shí)效性差這兩個(gè)問(wèn)題,提出了基于圖的查詢(xún)?nèi)罩緞e名抽取方法。本文總結(jié)了查詢(xún)?nèi)罩镜膬纱箢?lèi)信息(上下文模板信息和查詢(xún)鏈接信息),并提出了基于這兩類(lèi)信息的二層圖構(gòu)建算法,然后使用隨機(jī)游走算法計(jì)算候選別名權(quán)重,抽取出別名。實(shí)驗(yàn)表明:1)我們的方法可行有效,達(dá)到了71.8%的準(zhǔn)確率;2)使用查詢(xún)鏈接信息進(jìn)行別名抽取優(yōu)于使用上下文信息進(jìn)行別名抽取。這兩種信息的結(jié)合能獲得更好的別名抽取效果。下一步工作中,我們將過(guò)濾查詢(xún)?nèi)罩局械钠磳?xiě)錯(cuò)誤,從而降低其對(duì)別名抽取結(jié)果的負(fù)面影響;此外,如何解決查詢(xún)?nèi)罩局心承﹦e名的稀疏問(wèn)題也是下一步的研究方向。
[1]劉友強(qiáng),李斌,奚寧,等.基于雙語(yǔ)平行語(yǔ)料的中文縮略語(yǔ)提取方法[J].中文信息學(xué)報(bào),2012,26(2):69-74.
[2]Xiaodan Zhu,Mu Li,Jianfeng Gao,et al.Single Character Chinese Named Entity Recognition[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing,ACL,2003.
[3]李斌,方芳.中文單字國(guó)名簡(jiǎn)稱(chēng)的自動(dòng)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(28):167-176.
[4]Jing-Shin Chang,Yu-Tso Lai.A preliminary study on probabilistic models for Chinese abbreviations[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing,2004:9-16.
[5]Jing-Shin Chang,Wei-Lun Teng.Mining Atomic Chinese Abbreviation Pairs:A Probabilistic Model for Single Character Word Recovery[C]//Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing,2006:17-24.
[6]崔世起,劉群,林守勛,等.中文縮略語(yǔ)自動(dòng)抽取初探[C]//全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005).
[7]武子英,鄭家恒.現(xiàn)代漢語(yǔ)縮略語(yǔ)自動(dòng)識(shí)別的方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(16):4052-4054.
[8]Zhifei Li,David Yarowsky.Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora[C]//Proceedings of ACL-08,2008:425-433.
[9]Danushka Bollegala,Yutaka Matsuo,Mitsuru Ishizuka.Extracting key phrases to disambiguate personal name queries in web search[C]//Proceedings of CLIIR'06Proceedings of the Workshop on How Can Computational Linguistics Improve Information Retrieval,2006:17-24.
[10]Vinay Bhat,Tim Oates,Vishal Shanbhag,et al.Finding aliases on the web using latent semantic analysis[J].Data & Knowledge Engineering,2004,49:129-143.
[11]Winston H Hsu, Lyndon S Kennedy,Shih-Fu Chang.Video search reranking through random walk over document-level context graph[C]//Proceedings of MULTIMEDIA'07Proceedings of the 15th international conference on multimedia,2007:971-980.