劉一正,楊 靜,李 強(qiáng)
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系,上海200241)
·人工智能及識(shí)別技術(shù)·
基于URL的中文多語(yǔ)義名詞在線語(yǔ)義標(biāo)注
劉一正,楊 靜,李 強(qiáng)
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系,上海200241)
中文語(yǔ)義標(biāo)注在自然語(yǔ)言處理領(lǐng)域有廣泛的應(yīng)用,其目的在于挖掘并標(biāo)注出中文多語(yǔ)義名詞的多個(gè)語(yǔ)義。提出一種新穎的語(yǔ)義標(biāo)注算法,通過在線URL分類目錄,構(gòu)建得到URL分類器。借助于URL分類器,對(duì)搜索引擎返回的多語(yǔ)義名詞的搜索結(jié)果(包括網(wǎng)頁(yè)URL及摘要)進(jìn)行分類,得到多語(yǔ)義名詞的初始語(yǔ)義分類結(jié)果。對(duì)初始語(yǔ)義分類結(jié)果按其網(wǎng)頁(yè)摘要聚類,提取聚類特征后得到多語(yǔ)義詞的語(yǔ)義標(biāo)注結(jié)果。該算法利用基于URL的網(wǎng)頁(yè)分類方法,能在線對(duì)中文多語(yǔ)義名詞進(jìn)行語(yǔ)義標(biāo)注。實(shí)驗(yàn)結(jié)果證明,該語(yǔ)義標(biāo)注算法可以取得70%的準(zhǔn)確率及80%的召回率,適用于網(wǎng)絡(luò)熱詞語(yǔ)義標(biāo)注。
語(yǔ)義標(biāo)注;自然語(yǔ)言處理;中文多語(yǔ)義名詞;URL分類器;文本聚類;熱詞
語(yǔ)義知識(shí)學(xué)習(xí)在人工智能領(lǐng)域中具有重要應(yīng)用,一直以來(lái)都是自然語(yǔ)言處理研究中的熱點(diǎn)問題。語(yǔ)義標(biāo)注研究多語(yǔ)義詞的語(yǔ)義信息獲取,在相關(guān)度計(jì)算、查詢擴(kuò)展等領(lǐng)域得到廣泛應(yīng)用[1]。名詞的多語(yǔ)義特征表現(xiàn)尤為明顯,所以它是語(yǔ)義標(biāo)注的研究重點(diǎn)。對(duì)于中文多語(yǔ)義名詞,語(yǔ)義標(biāo)注應(yīng)能較為全面地標(biāo)注出其最新語(yǔ)義。例如對(duì)于多語(yǔ)義名詞“蘋果”,語(yǔ)義標(biāo)注應(yīng)能標(biāo)注出其包括“公司”、“水果”、“電影”等在內(nèi)的多個(gè)語(yǔ)義。
傳統(tǒng)的語(yǔ)義分類方法大多僅涉及文本或html文件的語(yǔ)義信息處理,通過對(duì)網(wǎng)頁(yè)正文或語(yǔ)料文本進(jìn)行詞法或語(yǔ)法分析,標(biāo)注出多語(yǔ)義詞的多個(gè)語(yǔ)義。
由于涉及到分詞、詞法分析及語(yǔ)法分析等文本處理步驟,傳統(tǒng)的語(yǔ)義標(biāo)注效率較低。對(duì)于在線語(yǔ)義標(biāo)注,網(wǎng)頁(yè)下載耗時(shí),使得標(biāo)注過程尤為緩慢。因此,以往的語(yǔ)義標(biāo)注方法并不高效。文獻(xiàn)[2]利用SVM模型對(duì)日語(yǔ)多語(yǔ)義詞進(jìn)行語(yǔ)義標(biāo)注,該方法針對(duì)某些多語(yǔ)義詞準(zhǔn)確率可達(dá)90%,然而針對(duì)全部實(shí)驗(yàn)數(shù)據(jù)集,平均準(zhǔn)確率只有60%左右,并且SVM模型的運(yùn)用使得該方法的語(yǔ)義標(biāo)注過程較為耗時(shí),效率低。
與在線獲取網(wǎng)頁(yè)html文件相比,獲取網(wǎng)頁(yè)URL速度較快?;诰W(wǎng)頁(yè)URL特征的分類方法已在網(wǎng)頁(yè)主題分類及查詢分類領(lǐng)域得到廣泛應(yīng)用。然而,基于URL的分類方法還從未用于語(yǔ)義標(biāo)注。本文利用基于URL的分類方法得到多語(yǔ)義詞搜索結(jié)果的初始語(yǔ)義分類,即根據(jù)其URL對(duì)搜索結(jié)果按語(yǔ)義分類;對(duì)初始語(yǔ)義分類的網(wǎng)頁(yè)摘要進(jìn)行聚類,最終得到中文多語(yǔ)義詞的語(yǔ)義標(biāo)注結(jié)果。最終語(yǔ)義標(biāo)注結(jié)果由一組與該語(yǔ)義相關(guān)的標(biāo)簽表示。
語(yǔ)義標(biāo)注方法主要可以劃分為3大類:基于模板的方法,基于主題模型的方法以及基于百科的方法。對(duì)基于模板的方法,模板主要從文本集[3]或網(wǎng)頁(yè)html文件[4]中訓(xùn)練得到,該方法常用于在線語(yǔ)義標(biāo)注,效率較高,但召回率較低?;谥黝}模型的方法中常用到的模型有LSA模型及LDA模型[5],還產(chǎn)生了一些針對(duì)語(yǔ)義標(biāo)注的新模型,如文獻(xiàn)[6-7]在LDA中加入一個(gè)標(biāo)簽層?;谥黝}模型的方法準(zhǔn)確率及召回率較高,但語(yǔ)義標(biāo)注過程較為耗時(shí)。第3種方法基于在線百科[8],通過解析在線百科的語(yǔ)義信息得到多語(yǔ)義詞的語(yǔ)義標(biāo)注結(jié)果。這種方法高度依賴于在線百科,不能標(biāo)注出在線百科未收錄的語(yǔ)義信息。已有研究表明,網(wǎng)頁(yè)文本及其對(duì)應(yīng)的URL間存在內(nèi)在的語(yǔ)義聯(lián)系。文獻(xiàn)[9-10]表明,網(wǎng)頁(yè)URL字符包含其對(duì)應(yīng)網(wǎng)頁(yè)的部分語(yǔ)義信息。因此,基于URL特征的網(wǎng)頁(yè)分類方法應(yīng)運(yùn)而生。不同于基于內(nèi)容的分類方法,該方法通過解析URL字符的語(yǔ)義信息對(duì)網(wǎng)頁(yè)進(jìn)行分類[11-13]。本文將利用此方法對(duì)多語(yǔ)義詞搜索結(jié)果進(jìn)行初步語(yǔ)義分類。
搜索引擎的在線搜索結(jié)果能高度反映出多語(yǔ)義詞的語(yǔ)義信息。因此,本文將在線搜索引擎[14]返回的多語(yǔ)義詞搜索結(jié)果作為語(yǔ)義標(biāo)注原材料。對(duì)于返回的搜索結(jié)果,首先將其投入由在線網(wǎng)址分類目錄構(gòu)建的URL分類器,得到多語(yǔ)義詞的初始語(yǔ)義分類。每個(gè)初始語(yǔ)義分類包括此類別下的網(wǎng)頁(yè)URL及對(duì)應(yīng)的網(wǎng)頁(yè)摘要。隨后,對(duì)初始語(yǔ)義分類中的網(wǎng)頁(yè)摘要進(jìn)行聚類,并從聚得的每類中抽取特征詞,得到最終的語(yǔ)義標(biāo)注結(jié)果。此過程可描述如圖1所示。
圖1 基于URL的中文多語(yǔ)義詞在線語(yǔ)義標(biāo)注過程
3.1 分類器
網(wǎng)頁(yè)URL蘊(yùn)含其對(duì)應(yīng)網(wǎng)頁(yè)正文的語(yǔ)義信息。根據(jù)多語(yǔ)義詞搜索結(jié)果的URL,對(duì)其進(jìn)行初始語(yǔ)義分類。
一些中文權(quán)威網(wǎng)站發(fā)布或更新URL網(wǎng)址分類目錄,此目錄會(huì)對(duì)其收錄的網(wǎng)站URL按語(yǔ)義類別歸類。通常情況下,目錄為樹狀結(jié)構(gòu),樹中葉子結(jié)點(diǎn)即為其收錄的網(wǎng)站主頁(yè)URL,非葉子結(jié)點(diǎn)則為其子結(jié)點(diǎn)的語(yǔ)義類別。雅虎網(wǎng)頁(yè)目錄含3層~4層,首層對(duì)應(yīng)16個(gè)語(yǔ)義類別,如圖2所示。一些中文權(quán)威網(wǎng)站會(huì)發(fā)布與雅虎目錄類似的網(wǎng)頁(yè)目錄,本文將以多個(gè)權(quán)威網(wǎng)站的網(wǎng)頁(yè)目錄為基礎(chǔ),構(gòu)建URL分類器。
圖2 Yahoo在線網(wǎng)址分類目錄的部分分類
URL分類器的訓(xùn)練過程如下:
(1)將網(wǎng)頁(yè) URL按標(biāo)識(shí)符分段,提取分類特征。
(2)將提取得來(lái)的URL分類特征同URL目錄下的葉子結(jié)點(diǎn)進(jìn)行相似度匹配,若相似度超過閾值,則將此葉子結(jié)點(diǎn)的語(yǔ)義分類作為該網(wǎng)頁(yè)的候選語(yǔ)義分類。若未達(dá)到閾值,則不做任何處理。
(3)按照一定的選擇策略,為每個(gè)網(wǎng)頁(yè)從候選語(yǔ)義分類中確定其語(yǔ)義分類。多語(yǔ)義詞不同語(yǔ)義下的搜索結(jié)果對(duì)應(yīng)的網(wǎng)址分類往往不同。如“蘋果”有3個(gè)語(yǔ)義:水果,數(shù)碼產(chǎn)品品牌及公司。使用上文提到的URL分類器,可以將“蘋果”的搜索結(jié)果按語(yǔ)義主要?jiǎng)澐譃?類。各類所占百分比如表1所示,搜索結(jié)果取百度的前100條搜索結(jié)果。
表1 多語(yǔ)義詞搜索結(jié)果在不同語(yǔ)義類別下的比例 %
從表1中可以看出:利用URL分類器可以把蘋果的搜索結(jié)果分為3類(美食、IT和股市),其中,“美食”對(duì)應(yīng)蘋果所具有的“水果”語(yǔ)義;“IT”對(duì)應(yīng)“數(shù)碼產(chǎn)品”;“股市”則對(duì)應(yīng)“公司”語(yǔ)義。由此可以看出,URL分類器能有效地對(duì)多語(yǔ)義詞的搜索結(jié)果按其語(yǔ)義類別進(jìn)行分類,且大部分類別能有效對(duì)應(yīng)該多義詞的某一語(yǔ)義。
然而,通過對(duì)單語(yǔ)義詞搜索結(jié)果的考察,發(fā)現(xiàn)多個(gè)URL分類可能對(duì)應(yīng)同一語(yǔ)義,如表2所示。“桔子”的搜索結(jié)果可以被劃分為2類(美食、健康),但是它們都表示同一種語(yǔ)義,即水果。這種情況在多語(yǔ)義詞上也有發(fā)生,如多語(yǔ)義詞“小米”的其中一個(gè)語(yǔ)義——“糧食作物”對(duì)應(yīng)的搜索結(jié)果同時(shí)分布在“健康”、“美食”2個(gè)URL分類下,即多個(gè)URL分類對(duì)應(yīng)多義詞的同一語(yǔ)義。本文通過對(duì)網(wǎng)頁(yè)摘要聚類來(lái)解決這個(gè)問題。
表2 單語(yǔ)義詞搜索結(jié)果在不同語(yǔ)義類別下的比例 %
3.2 網(wǎng)頁(yè)摘要聚類
搜索引擎中返回的多語(yǔ)義詞搜索結(jié)果含有噪音,可能會(huì)影響聚類結(jié)果的準(zhǔn)確度。因此,在聚類前,必須對(duì)網(wǎng)頁(yè)摘要進(jìn)行清洗。首先,采用一種基于統(tǒng)計(jì)的方法過濾掉含搜索結(jié)果條數(shù)過少的初始語(yǔ)義分類。然后,對(duì)過濾后的初始語(yǔ)義分類結(jié)果分詞后,再進(jìn)行去停用詞處理。
在文本清洗過程完成后,就對(duì)網(wǎng)頁(yè)摘要進(jìn)行聚類。本文采用基于詞頻的方法得到初始分類結(jié)果的聚類特征,對(duì)傳統(tǒng)的基于詞頻的方法進(jìn)行改進(jìn),得到最能代表初始分類結(jié)果的聚類特征。定義W為:
其中,TF為某一初始語(yǔ)義分類的詞頻數(shù);Cnt為某候選特征詞在對(duì)應(yīng)的初始語(yǔ)義分類下的詞頻數(shù)。在聚類過程中,考察不同分類的網(wǎng)頁(yè)摘要的文本相似度,具有較高文本相似度的網(wǎng)頁(yè)摘要的初始語(yǔ)義分類將歸為同一語(yǔ)義。本文將采用2種聚類方法考察不同聚類方法對(duì)實(shí)驗(yàn)結(jié)果的影響。
4.1 實(shí)驗(yàn)設(shè)定
4.1.1 評(píng)估標(biāo)準(zhǔn)
在實(shí)驗(yàn)中,根據(jù)百度百科、互動(dòng)百科等中文權(quán)威在線百科構(gòu)建了一個(gè)多語(yǔ)義詞知識(shí)庫(kù),對(duì)于一些網(wǎng)絡(luò)熱詞新出現(xiàn)的語(yǔ)義,如果在線百科還未收錄,則手工加以補(bǔ)充,以保證該知識(shí)庫(kù)的完備性。該知識(shí)庫(kù)較為精準(zhǔn)可靠,可作為一個(gè)有效的實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)。實(shí)驗(yàn)中將以此知識(shí)庫(kù)為基準(zhǔn),計(jì)算語(yǔ)義標(biāo)注結(jié)果的準(zhǔn)確率及召回率。表3為知識(shí)庫(kù)的多語(yǔ)義詞語(yǔ)義示例。
表3 知識(shí)庫(kù)中的一些多語(yǔ)義詞分類示例
對(duì)每個(gè)多語(yǔ)義詞,c為用本文方法進(jìn)行實(shí)驗(yàn)標(biāo)注到的語(yǔ)義數(shù),c1為c中正確的語(yǔ)義數(shù),c0為知識(shí)庫(kù)中該多語(yǔ)義詞的語(yǔ)義數(shù)。實(shí)驗(yàn)的準(zhǔn)確率P、召回率R和F-值F定義如下:
4.1.2 URL分類器
實(shí)驗(yàn)中使用基于3大中文權(quán)威網(wǎng)站(百度、搜狗、雅虎中國(guó))的網(wǎng)址分類目錄構(gòu)建URL分類器,且保證分類器中的URL目錄與這些在線目錄保持同步更新。網(wǎng)頁(yè)URL的特征提取方法如3.1節(jié)所述。
4.1.3 聚類算法
為了考察不同聚類算法對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)中將使用2種不同的聚類算法,即MKCLS聚類和Single-link聚類,下面對(duì)這2種算法進(jìn)行簡(jiǎn)單介紹。
(1)MKCLS聚類:MKCLS算法使用最大似然估計(jì)來(lái)訓(xùn)練詞類,適用于處理語(yǔ)言模型或統(tǒng)計(jì)翻譯模型。本文使用開源版本。
(2)Single-link聚類:LingPipe是一套常用的文本處理工具包,其中包括聚類、主題分類及命名實(shí)體識(shí)別等功能。Single-link聚類是其中一種使用貪心策略的聚類方法。
在實(shí)驗(yàn)中,本文將分別采用這2種聚類算法實(shí)現(xiàn)中文多義詞的語(yǔ)義標(biāo)注,分別考察不同聚類方法下的實(shí)驗(yàn)效果,以考察聚類算法對(duì)實(shí)驗(yàn)結(jié)果的影響。
4.2 實(shí)驗(yàn)結(jié)果
4.2.1 基準(zhǔn)實(shí)驗(yàn)
從實(shí)時(shí)在線得到的500個(gè)搜索熱詞中,任意選取100個(gè)詞,作為基準(zhǔn)實(shí)驗(yàn)的數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)來(lái)自2013年4月6日的百度搜索結(jié)果。借助于URL分類器,可以得到初始語(yǔ)義的分類結(jié)果。例如,針對(duì)“圍脖”這個(gè)多語(yǔ)義詞,它的網(wǎng)絡(luò)搜索結(jié)果可以被URL分類器分為2個(gè)類別,分別對(duì)應(yīng)其2個(gè)不同的語(yǔ)義,每個(gè)類別下包含若干條網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)URL和網(wǎng)頁(yè)摘要)。第1個(gè)類別中的網(wǎng)頁(yè)信息有“圍巾行情價(jià)格評(píng)價(jià)正品行貨韓版純色雜線…&http://www.360buy.com/products/1315-1…、多圖單品,女裝,服飾搭配購(gòu)買美麗說狐貍…&http:// www.meilishuo.com/attr/show/34…等等”,其中 &前表示的該網(wǎng)頁(yè)的摘要信息,&后表示的是該網(wǎng)頁(yè)的URL。第2個(gè)類別中的網(wǎng)頁(yè)信息有“南都周刊圍脖女王姚晨的幸運(yùn)與驚慌互聯(lián)…&http://tech.sina. com.cn/i/2009-12-31/0945…、今天你圍上圍脖了嗎互聯(lián)網(wǎng)科技時(shí)代新浪網(wǎng)…&http://tech.sina.com. cn/i/2010-02-03/0745…等等”。
對(duì)初始語(yǔ)義分類結(jié)果進(jìn)行聚類后,可以得到中文多語(yǔ)義名詞的最終語(yǔ)義分類。對(duì)“圍脖”的初始語(yǔ)義分類結(jié)果進(jìn)行聚類后得到其最終語(yǔ)義分類,這里采用的聚類算法為MKCLS聚類。其結(jié)果包括2個(gè)語(yǔ)義類別:第1個(gè)語(yǔ)義類別中包括“圍巾、時(shí)尚、價(jià)格、品牌、購(gòu)物、評(píng)論”等語(yǔ)義詞;第2個(gè)語(yǔ)義類別中包括“時(shí)代、科技、女王、周刊、成為、新浪網(wǎng)”等語(yǔ)義詞。
多語(yǔ)義詞的每個(gè)語(yǔ)義由一組與此語(yǔ)義高度相關(guān)的標(biāo)簽表示,如上面的“圍巾、價(jià)格”等詞就是“圍脖”的第1個(gè)語(yǔ)義的標(biāo)簽。標(biāo)簽從聚類的特征詞中產(chǎn)生,以每個(gè)特征詞的W值為衡量標(biāo)準(zhǔn),采用top-N選擇策略?;鶞?zhǔn)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表4所示。
表4 基準(zhǔn)實(shí)驗(yàn)結(jié)果 %
4.2.2 不同聚類算法及數(shù)據(jù)集下的語(yǔ)義標(biāo)注結(jié)果
本文探索了不同數(shù)據(jù)集及不同聚類算法對(duì)實(shí)驗(yàn)結(jié)果的影響。不同于基準(zhǔn)數(shù)據(jù)集 Dataset,Datasetimp選取了前100個(gè)搜索熱度最高的多語(yǔ)義詞作為數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同實(shí)驗(yàn)設(shè)定下的實(shí)驗(yàn)結(jié)果 %
從表5中不難看出,聚類算法并不是影響實(shí)驗(yàn)結(jié)果的關(guān)鍵因素。當(dāng)數(shù)據(jù)集相同時(shí),使用不同的聚類算法得到了類似的實(shí)驗(yàn)結(jié)果。然而,數(shù)據(jù)集的選擇策略則對(duì)實(shí)驗(yàn)結(jié)果有較大影響,顯然,在Datasetimp上可以得到更好的實(shí)驗(yàn)結(jié)果。對(duì)于熱搜詞,搜索引擎返回的搜索結(jié)果更為豐富有效,能提供更健壯的語(yǔ)義信息,能得到更高的準(zhǔn)確率及召回率。從這一點(diǎn)也可以看出,本文方法更適合熱詞語(yǔ)義標(biāo)注,具有較好的實(shí)時(shí)性,這一點(diǎn)正是在線百科及其他語(yǔ)義標(biāo)注方法所欠缺的。
4.2.3 與其他語(yǔ)義標(biāo)注算法的實(shí)驗(yàn)對(duì)比
實(shí)驗(yàn)還將本文方法(即方法4)在同一數(shù)據(jù)集下(即數(shù)據(jù)集Dataset-imp)與基于模板、基于百科的語(yǔ)義標(biāo)注方法分別從準(zhǔn)確率、召回率及方法能標(biāo)注的多義詞比率進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同語(yǔ)義標(biāo)注算法對(duì)比 %
從表6可以看出,本文方法能對(duì)在線百科尚未收錄的多語(yǔ)義詞進(jìn)行語(yǔ)義標(biāo)注,且保證較高的準(zhǔn)確率及召回率。
4.2.4 錯(cuò)誤分析
實(shí)驗(yàn)過程中,主要有2種類型的錯(cuò)誤,即語(yǔ)義標(biāo)注結(jié)果漏掉某些語(yǔ)義、由聚類算法引起的錯(cuò)誤。表7列出了這些錯(cuò)誤的原因及其對(duì)應(yīng)的百分比。
表7 錯(cuò)誤類型及原因分析 %
本文提出了一種新穎的中文多語(yǔ)義名詞的語(yǔ)義標(biāo)注算法,將基于URL的網(wǎng)頁(yè)分類方法引入到中文多語(yǔ)義詞的語(yǔ)義標(biāo)注中。實(shí)驗(yàn)證明,該算法能得到多語(yǔ)義詞的語(yǔ)義標(biāo)注結(jié)果,且保證較高準(zhǔn)確率及召回率。今后的研究主要集中在2個(gè)方面:(1)進(jìn)一步研究多語(yǔ)義詞的語(yǔ)義數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響;(2)研究非名詞的多義詞語(yǔ)義標(biāo)注方法。
[1] Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//Proc.of International Joint Conference on Artificial Intelligence.Hydrabad,India:[s.n.],2007: 1606-1611.
[2] De Saeger S,Kazama J,Torisawa K,et al.A Web Service for Automatic Word Class Acquisition[C]// Proc.of the 3rd International Universal Communication Symposium.Tokyo,Japan:ACM Press,2009:132-138.
[3] Pasca M.Acquisition of Categorized Named Entities for Web Search[C]//Proc.of the 13th ACM International Conference on Information and knowledge Management. Washington D.C.,USA:ACM Press,2004:137-145.
[4] Shi Shuming,Liu Xiaokang,Wen Jirong.Pattern-based Semantic Class Discovery with Multi-membership Support[C]//Proc.of the 17th ACM Conference on Information andKnowledgeManagement.NapaValley, USA:ACM Press,2008:1453-1454.
[5] Arora R,Ravindran B.Latent Dirichlet Allocation Based Multi-document Summarization[C]//Proc.of the 2nd Workshop on Analytics for Noisy Unstructured Text Data.Singapore:ACM Press,2008:91-97.
[6] Li Fang,Shen Huiyu,He Tingting.Tag-topic Model for Semantic Knowledge Acquisition from Blogs[C]// Proc.of the 7th International Conference on Natural Language Processing and Knowledge Engineering. [S.l.]:IEEE Press,2011:221-226.
[7] 何婷婷,李 芳.基于主題模型的博客標(biāo)簽語(yǔ)義知識(shí)獲取[J].中國(guó)通信,2012,9(3):38-48.
[8] Liu Yang,He Tingting,Tu Xinhui,et al.Obtaining Chinese Semantic Knowledge from Online Encyclopedia [C]//Proc.of International Conference on Natural Language Processing and Knowledge Engineering. [S.l.]:IEEE Press,2010:1-7.
[9] Baykan E,Henzinger M,Marian L,et al.A Comprehensive Study of Features and Algorithms for URL-based Topic Classification[J].ACM Transactions on the Web,2011,5(3).
[10] Devi M I,Rajaram D R,Selvakuberan K.Machine Learning Techniques for Automated Web Page Classification Using URL Features[C]//Proc.of International Conference on Computational Intelligence and Multimedia Applications.[S.l.]:IEEE Press, 2007:116-120.
[11] Baykan E,Henzinger M,Marian L,et al.Purely URL-based Topic Classification[C]//Proc.of the 18th International Conference on World Wide Web.[S.l.]: ACM Press,2009:1109-1110.
[12] 張 宇,宋 巍,劉 挺,等.基于URL主題的查詢分類方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(6): 1298-1305.
[13] 張 宇,宋 巍,謝毓彬,等.利用URL類別改進(jìn)查詢主題分類[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2010:157-166.
編輯 顧逸斐
Online Semantic Annotation of Chinese Multi-semantic Nouns Based on URL
LIU Yi-zheng,YANG Jing,LI Qiang
(Department of Computer Science and Technology,East China Normal University,Shanghai 200241,China)
Chinese semantic annotation aims to find out the senses of a multi-semantic word,which is widely applied in natural language processing.This paper proposes a novel approach for semantic annotation of multi-semantic Chinese nouns.Given a multi-semantic Chinese noun,the proposed method can get its senses.The procedure is described as follows.The search results including URLs and abstracts of related Web pages are acquired through a search engine.The initial semantic classes are automatically generated by an online URL classifier using information gotten at the first step. Clustering algorithms are adopted to make full use of the Web page abstracts to get the final semantic classes. Experimental results demonstrate the proposed novel approach can obtain a considerable precision and recall rate with little manual intervention.
semantic annotation;natural language processing;Chinese multi-semantic noun;URL classifier;text clustering;hot word
1000-3428(2014)10-0150-05
A
TP391
10.3969/j.issn.1000-3428.2014.10.029
上海市國(guó)際科技合作基金資助項(xiàng)目(11530700300);上海市科委科研基金資助項(xiàng)目“面向NGB的智能業(yè)務(wù)分析關(guān)鍵技術(shù)研究及系統(tǒng)研制”(12dz1500205)。
劉一正(1990-),女,碩士研究生,主研方向:自然語(yǔ)言處理;楊 靜,副教授;李 強(qiáng),博士。
2013-07-25
2013-09-19E-mail:lyzheng2011@163.com
中文引用格式:劉一正,楊 靜,李 強(qiáng).基于URL的中文多語(yǔ)義名詞在線語(yǔ)義標(biāo)注[J].計(jì)算機(jī)工程,2014, 40(10):150-154.
英文引用格式:Liu Yizheng,Yang Jing,Li Qiang.Online Semantic Annotation of Chinese Multi-semantic Nouns Based on URL[J].Computer Engineering,2014,40(10):150-154.