亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word Embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧

        2014-02-27 06:33:19荀恩東
        中文信息學(xué)報(bào) 2014年5期
        關(guān)鍵詞:消歧多義特征詞

        于 東,荀恩東

        (1. 北京語(yǔ)言大學(xué) 漢語(yǔ)國(guó)際教育技術(shù)研發(fā)中心,北京 100083;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        1 引言

        隨著科技進(jìn)步,各領(lǐng)域?qū)I(yè)術(shù)語(yǔ)數(shù)量快速增長(zhǎng)。中文文獻(xiàn)中,許多源于國(guó)外文獻(xiàn)的專業(yè)術(shù)語(yǔ)直接以字母縮略詞形式使用,例如, “IBM”、“NBA”等。字母縮略術(shù)語(yǔ)多義現(xiàn)象非常普遍。如“UPS”至少包含“UPS電源”和“UPS物流公司”兩種義項(xiàng)。在中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)中檢索二者,分別得到15 541條、8 192條結(jié)果,說(shuō)明兩個(gè)義項(xiàng)在各自領(lǐng)域均為常用術(shù)語(yǔ)。類似現(xiàn)象還有“防抱死制動(dòng)系統(tǒng)(ABS)”和“ABS樹(shù)脂”。多義縮略術(shù)語(yǔ)專業(yè)性強(qiáng)、更新快,隨著新術(shù)語(yǔ)不斷涌現(xiàn),字母縮略術(shù)語(yǔ)的歧義性不斷增加,不僅會(huì)增加閱讀者理解難度,也會(huì)對(duì)現(xiàn)有的信息檢索、機(jī)器翻譯等應(yīng)用造成許多障礙,研究字母縮略術(shù)語(yǔ)的消歧具有實(shí)際應(yīng)用價(jià)值。

        字母縮略術(shù)語(yǔ)的語(yǔ)料資源稀少,義項(xiàng)專業(yè)性強(qiáng),因此本文選擇基于知識(shí)庫(kù)的無(wú)監(jiān)督方法實(shí)現(xiàn)消歧。在這方面,傳統(tǒng)語(yǔ)義消歧(WSD)方法常選取歧義詞上下文語(yǔ)境作為特征,用向量空間模型(VSM)表示文檔[1]。其實(shí)質(zhì)上是根據(jù)領(lǐng)域特征劃分歧義詞所在的文檔,缺乏對(duì)歧義詞語(yǔ)義信息的挖掘和利用。使用詞義網(wǎng)絡(luò)如WordNet、HowNet中的語(yǔ)義知識(shí)輔助詞義消歧能夠取得較好的效果[2-3]。然而對(duì)于縮略術(shù)語(yǔ)而言,詞義網(wǎng)絡(luò)更新慢、覆蓋度低,無(wú)法滿足使用要求。

        近幾年,基于神經(jīng)網(wǎng)絡(luò)的Word Embedding方法在詞語(yǔ)語(yǔ)義表示方面表現(xiàn)出很好的性能,受到廣泛關(guān)注[4-6]。Word Embedding的任務(wù)是將語(yǔ)料庫(kù)中的每個(gè)詞表示為一個(gè)低維實(shí)數(shù)向量,建立離散詞匯與實(shí)數(shù)域特征向量之間的映射,能夠使語(yǔ)義類似的詞語(yǔ),其向量表示也較為接近,任意兩個(gè)詞語(yǔ)的語(yǔ)義相關(guān)程度可以由兩者向量的余弦相似度表示。利用該特點(diǎn),本文在消歧過(guò)程中計(jì)算縮略術(shù)語(yǔ)多個(gè)義項(xiàng)Word Embedding,利用義項(xiàng)語(yǔ)義特征對(duì)基本VSM模型進(jìn)行擴(kuò)展,提出針對(duì)縮略術(shù)語(yǔ)的消歧方法。

        本文主要工作包括三個(gè)方面: (1)采用多步聚類思想,使用顯著相似性聚類,從原始數(shù)據(jù)中抽取可靠知識(shí);(2)利用第一步聚類結(jié)果進(jìn)行義項(xiàng)反標(biāo)注,進(jìn)而訓(xùn)練每個(gè)義項(xiàng)的Word Embedding,挖掘每個(gè)義項(xiàng)的語(yǔ)義信息;(3)提出特征詞權(quán)重的語(yǔ)義線性加權(quán)方法,進(jìn)行二步聚類,有效提高系統(tǒng)整體消歧性能。與已有工作相比,本研究能夠提取并充分利用高置信數(shù)據(jù),結(jié)合Word Embedding表示方法,無(wú)監(jiān)督地獲取歧義義項(xiàng)的語(yǔ)義表示,實(shí)現(xiàn)特征詞領(lǐng)域權(quán)重和語(yǔ)義權(quán)重的融合,最終實(shí)現(xiàn)語(yǔ)義消歧。

        2 相關(guān)研究

        2.1 統(tǒng)計(jì)詞義消歧

        語(yǔ)義消歧解決同一詞匯在不同語(yǔ)境下的義項(xiàng)識(shí)別和標(biāo)注問(wèn)題。1990年后,基于統(tǒng)計(jì)的多義詞語(yǔ)義消歧技術(shù)成為研究主流。Schütze[7]將語(yǔ)義消歧問(wèn)題轉(zhuǎn)化為聚類問(wèn)題,成為該領(lǐng)域的主流方法。魯松[8]使用向量空間模型計(jì)算相似度實(shí)現(xiàn)消歧;何徑舟[9]使用最大熵選擇特征計(jì)算聚類相似度,有效提升了中文詞義消歧性能。多義詞的詞義消歧任務(wù)一般針對(duì)通用詞匯,重點(diǎn)是區(qū)分詞語(yǔ)在不同語(yǔ)境下所代表的語(yǔ)義,即語(yǔ)言本身的歧義性,難度較大。本文所討論的問(wèn)題則限于實(shí)體詞的消歧,不涉及語(yǔ)言本身的歧義性。

        2.2 中文實(shí)體詞消歧

        實(shí)體詞的語(yǔ)義消歧是語(yǔ)義消歧中的一個(gè)重要分支,可分為兩個(gè)子問(wèn)題: (1)實(shí)體詞邊界劃分歧義消解;(2)多義實(shí)體詞概念消歧。前者主要解決語(yǔ)言本身歧義,后者則根據(jù)實(shí)體詞上下文語(yǔ)境,實(shí)現(xiàn)實(shí)體概念的區(qū)分。該領(lǐng)域有代表性的研究問(wèn)題是人名消歧,Mann[10]將該問(wèn)題看成基于人物屬性的無(wú)監(jiān)督聚類問(wèn)題。在中文人名消歧方面,丁海波[11]使用多階段的消歧聚類策略,李廣一[12]、Z Peng[13]均采用多步聚類方法解決該問(wèn)題。此外,J Liu[14]、楊欣欣[15]利用外部知識(shí)源進(jìn)行知識(shí)擴(kuò)展,也有效提高了消歧性能。目前,國(guó)際WePS評(píng)測(cè)和國(guó)內(nèi)評(píng)測(cè)CLP2010、CLP2012均設(shè)有人名消歧的任務(wù)。

        字母縮略詞語(yǔ)也屬于實(shí)體詞范疇,且具有較強(qiáng)的專業(yè)性,因此需要更廣泛的知識(shí)以覆蓋相關(guān)領(lǐng)域;混雜在中文中的字母縮略詞提供的詞匯特征很少,也與傳統(tǒng)問(wèn)題有所區(qū)別。

        2.3 字母縮略詞語(yǔ)義消歧

        國(guó)外也已有學(xué)者關(guān)注字母縮略語(yǔ)帶來(lái)的歧義問(wèn)題。如Liu[16],Stevenson[17]在醫(yī)學(xué)縮略詞消歧領(lǐng)域的工作,更多地考慮了上下文的詞匯特征,這是因?yàn)樵谟⑽奈墨I(xiàn)中,縮略字母往往來(lái)源于上下文詞串,而中文文檔中類似信息很少,因此更需要語(yǔ)義信息輔助消歧。

        3 語(yǔ)料庫(kù)構(gòu)建

        本文利用百科網(wǎng)站建立多義術(shù)語(yǔ)知識(shí)庫(kù),利用通用搜索引擎自動(dòng)獲取術(shù)語(yǔ)在各種語(yǔ)境中的使用數(shù)據(jù)作為測(cè)試集,經(jīng)后處理和部分人工校對(duì)后,建立具有一定規(guī)模的多義術(shù)語(yǔ)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括兩部分: (1)由字母縮略術(shù)語(yǔ)、中文譯文、以及多種釋義文本構(gòu)成的知識(shí)庫(kù);(2)包含多義術(shù)語(yǔ)的測(cè)試文檔集,其中每個(gè)測(cè)試文檔僅指向一個(gè)多義術(shù)語(yǔ)。知識(shí)庫(kù)中的每行包含多義術(shù)語(yǔ)的一個(gè)釋義,提供義項(xiàng)標(biāo)簽(id)、譯文(def)、以及義項(xiàng)釋義文檔。測(cè)試庫(kù)中每行對(duì)應(yīng)一個(gè)測(cè)試文檔,通過(guò)“答案標(biāo)簽(ans)”指示文檔對(duì)應(yīng)的義項(xiàng)。如圖1所示。

        圖1 多義縮略術(shù)語(yǔ)知識(shí)庫(kù)和測(cè)試庫(kù)格式

        針對(duì)消歧問(wèn)題,多義術(shù)語(yǔ)數(shù)據(jù)庫(kù)要求選用常用術(shù)語(yǔ)詞條為對(duì)象;詞條的每個(gè)義項(xiàng)均有明確、清晰的釋義文本;詞條的每個(gè)義項(xiàng)均有一定規(guī)模的測(cè)試文本量。數(shù)據(jù)庫(kù)建設(shè)分兩步:

        首先建立術(shù)語(yǔ)知識(shí)庫(kù)。根據(jù)術(shù)語(yǔ)詞表獲取百度百科中對(duì)應(yīng)的多義詞條頁(yè)面,以及對(duì)應(yīng)的各個(gè)義項(xiàng)頁(yè)面內(nèi)容,采用文獻(xiàn)[18]中提出的描述式定義語(yǔ)言模式,自動(dòng)抽取釋義語(yǔ)句,經(jīng)人工篩選后得到每個(gè)義項(xiàng)定義和釋義描述文本,構(gòu)成知識(shí)庫(kù)。

        然后根據(jù)知識(shí)庫(kù)構(gòu)建測(cè)試集。以術(shù)語(yǔ)義項(xiàng)為檢索詞,如“EPS 電子助力轉(zhuǎn)向”,利用搜索引擎返回與術(shù)語(yǔ)最相關(guān)的文檔,保留包含目標(biāo)術(shù)語(yǔ)詞、不重復(fù)且長(zhǎng)度在一定范圍內(nèi)的句子作為測(cè)試文檔。最后經(jīng)人工校對(duì)和標(biāo)注,得到帶有義項(xiàng)標(biāo)簽的測(cè)試文檔集。

        本文最終建立包含25個(gè)多義縮略術(shù)語(yǔ)的數(shù)據(jù)庫(kù),共包含98個(gè)義項(xiàng),2 384條測(cè)試數(shù)據(jù)。平均每個(gè)詞條有約4個(gè)義項(xiàng),“測(cè)試/義項(xiàng)”數(shù)量比超過(guò)10,保證數(shù)據(jù)具有多樣性、豐富性。詳見(jiàn)表1。

        4 研究方法

        4.1 整體框架

        本文研究問(wèn)題可描述為: 多義術(shù)語(yǔ)w有h個(gè)義項(xiàng),每個(gè)義項(xiàng)一個(gè)標(biāo)簽(id)標(biāo)記,得到的義項(xiàng)集合記為:Cw={w#1,w#2,…,w#id,…,w#h}。在測(cè)試文檔d中出現(xiàn)w,則文檔d與w的任意義項(xiàng)間存在關(guān)系R(w#id|d),其中有且只有w#id*是其正確義項(xiàng)。消歧任務(wù)是通過(guò)分析計(jì)算關(guān)系R(w#id|d),尋找與d最接近的義項(xiàng),即式(1)。

        w#id*

        本文采用無(wú)監(jiān)督方法,將多義縮略術(shù)語(yǔ)消歧看作兩步聚類問(wèn)題。聚類過(guò)程使用對(duì)特征詞加權(quán)的向量空間模型,以釋義文檔和測(cè)試文檔兩者間的相似度作為聚類依據(jù),思路如下。

        無(wú)監(jiān)督聚類性能很大程度上取決于特征選取和聚類策略。實(shí)體消歧問(wèn)題中,多步聚類能有效提高系統(tǒng)性能。為減少錯(cuò)誤傳遞,第一步聚類的準(zhǔn)確性尤其重要。本文使用顯著相似聚類策略,建立具有高置信度的初始義項(xiàng)類簇。此外,傳統(tǒng)的實(shí)體消歧方法一般通過(guò)抽取歧義詞的不同屬性或上下文關(guān)鍵詞作為特征進(jìn)行聚類。而在科技文獻(xiàn)中,術(shù)語(yǔ)上下文詞匯能夠體現(xiàn)文檔領(lǐng)域,但與術(shù)語(yǔ)的語(yǔ)義并無(wú)直接解釋關(guān)系。針對(duì)該問(wèn)題,本文利用第一步聚類得到類簇的義項(xiàng)標(biāo)簽對(duì)歧義術(shù)語(yǔ)進(jìn)行義項(xiàng)反標(biāo)注,然后訓(xùn)練Word Embedding模型得到各個(gè)義項(xiàng)的語(yǔ)義向量,在此基礎(chǔ)上實(shí)施第二步聚類。在第二步聚類計(jì)算特征詞權(quán)重時(shí),將Word Embedding語(yǔ)義相似度與TFIDF權(quán)重進(jìn)行線性加權(quán),作為新的特征權(quán)重,有效綜合了領(lǐng)域特征和義項(xiàng)的語(yǔ)義特征,提高消歧性能。系統(tǒng)結(jié)構(gòu)如圖2所示。

        圖2 術(shù)語(yǔ)消歧框架

        4.2 預(yù)處理和初始VSM模型

        向量空間模型中,文檔d可以被形式化為一個(gè)n維向量,其每一維表示詞典中的一個(gè)詞,值為該詞的特征權(quán)重si,文檔d可以被形式化為d={s1,s2,…,sn}??紤]到文檔中出現(xiàn)的詞匯所代表的信息差異,一般需要對(duì)文檔進(jìn)行預(yù)處理。本文使用ICTCLAS*http://www.ictclas.org/對(duì)知識(shí)庫(kù)、測(cè)試文檔集進(jìn)行分詞,然后去掉句子中的標(biāo)點(diǎn)、符號(hào)和停用詞,其余詞作為特征詞。特征詞權(quán)重一般選用TFIDF權(quán)重,可以最大程度上區(qū)分不同領(lǐng)域文檔,在文本分類、信息檢索領(lǐng)域得到廣泛應(yīng)用。在消歧問(wèn)題中,特征詞權(quán)重應(yīng)表示該詞對(duì)當(dāng)前文檔歧義術(shù)語(yǔ)各個(gè)義項(xiàng)的區(qū)分度。在文檔中,與待消歧詞語(yǔ)義相關(guān)的詞語(yǔ)往往出現(xiàn)頻率較低,而出現(xiàn)頻率較高的實(shí)詞雖然有助于區(qū)分文檔,但對(duì)區(qū)分義項(xiàng)并無(wú)明顯作用。因此本文對(duì)TF值進(jìn)行調(diào)整,降低TF在權(quán)重中的作用,保證低頻詞信息得到有效利用:

        (2)

        預(yù)處理后,得到初始的知識(shí)庫(kù)及測(cè)試數(shù)據(jù)的VSM模型。根據(jù)該模型,任意兩個(gè)文檔間相似度可以由兩者向量的余弦相似度計(jì)算,如式(3)所示。

        (3)

        4.3 顯著相似聚類

        第一步聚類利用初始VSM模型,計(jì)算義項(xiàng)文檔和測(cè)試文檔的相似度,將滿足顯著相似條件的測(cè)試文檔聚類到對(duì)應(yīng)義項(xiàng)中,以抽取高置信度數(shù)據(jù)。顯然,兩者相似度越高則越有可能屬于同一個(gè)義項(xiàng)。文獻(xiàn)[12]設(shè)計(jì)最高相似度與次高相似度的差值閾值,作為選擇顯著相似文檔的準(zhǔn)則。本文中,為進(jìn)一步提高準(zhǔn)確度,采用相似度比值閾值作為顯著相似條件。

        對(duì)于縮略術(shù)語(yǔ)w,在知識(shí)庫(kù)中包含h個(gè)義項(xiàng)Cw={cw1,cw2,…,cwh},在測(cè)試集中有m個(gè)文檔Dw={dw1,dw2,…,dwm}。聚類過(guò)程以Cw中每個(gè)義項(xiàng)為中心,計(jì)算dwi每個(gè)文檔與所有義項(xiàng)的相似度,并取最高值和次高值文檔,如式(4)所示。

        (4)

        如果有Cos(dwi,cwu)/Cos(dwi,cwv)≥th1,則dwi∈cwu,否則放棄聚類該文檔。顯然,閾值th1越高,聚類條件越嚴(yán)格,聚類準(zhǔn)確度越高,但放棄聚類文檔也越多。閾值th1既要保證高準(zhǔn)確率,又要保留一定樣本數(shù)量,以達(dá)到聚類目的。

        由于顯著相似聚類可以得到很高的準(zhǔn)確度,因此聚類結(jié)果可視作對(duì)知識(shí)庫(kù)義項(xiàng)文檔集的擴(kuò)充,并作為消歧算法的有標(biāo)簽樣本。聚類過(guò)程中仍然會(huì)引入少量錯(cuò)誤數(shù)據(jù),但通過(guò)Word Embedding學(xué)習(xí)各個(gè)義項(xiàng)的語(yǔ)義表示向量,可以有效降低錯(cuò)誤聚類數(shù)據(jù)帶來(lái)的影響。

        4.4 Word Embedding模型訓(xùn)練

        本文使用Mikolov[4-5]所提出的Word2Vec工具實(shí)現(xiàn)義項(xiàng)語(yǔ)義的Word Embedding訓(xùn)練。Word2Vec是一個(gè)無(wú)隱含層的神經(jīng)網(wǎng)絡(luò),直接訓(xùn)練詞的N維實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率,并使用了一系列優(yōu)化方法以提高訓(xùn)練效率。訓(xùn)練結(jié)果中,任意兩個(gè)詞的語(yǔ)義相關(guān)程度可以通過(guò)計(jì)算兩個(gè)詞對(duì)應(yīng)向量的余弦相似度得到。

        使用Word Embedding進(jìn)行語(yǔ)義消歧,關(guān)鍵問(wèn)題是如何表示同一術(shù)語(yǔ)的多個(gè)義項(xiàng)。多義術(shù)語(yǔ)每個(gè)義項(xiàng)的語(yǔ)義有很大區(qū)別,用一個(gè)向量很難統(tǒng)一描述。可將多義詞進(jìn)行義項(xiàng)標(biāo)注,構(gòu)建帶有義項(xiàng)標(biāo)簽的訓(xùn)練語(yǔ)料,用不同標(biāo)簽區(qū)分多個(gè)義項(xiàng),再訓(xùn)練Word Embedding,從而得到不同義項(xiàng)的向量表示。根據(jù)該思路,本文利用4.3節(jié)第一步聚類結(jié)果,用每個(gè)聚類對(duì)應(yīng)的義項(xiàng)標(biāo)簽對(duì)歧義術(shù)語(yǔ)進(jìn)行義項(xiàng)反標(biāo)注,形成標(biāo)注數(shù)據(jù),然后連同未標(biāo)注數(shù)據(jù)一同訓(xùn)練。

        與神經(jīng)網(wǎng)絡(luò)訓(xùn)練類似,Word2Vec采用隨機(jī)初始權(quán)重,每次訓(xùn)練只得到一個(gè)局部最優(yōu)解,多次訓(xùn)練得到的結(jié)果存在差異。當(dāng)數(shù)據(jù)規(guī)模較小時(shí),這種差異尤其突出。針對(duì)該問(wèn)題,可以從兩方面改進(jìn): (1)將語(yǔ)料適當(dāng)重復(fù)若干次后訓(xùn)練模型,相當(dāng)于增加每個(gè)樣本訓(xùn)練機(jī)會(huì),從而降低多次訓(xùn)練間的差異;(2)在同一參數(shù)下訓(xùn)練多份向量,在使用過(guò)程中綜合多份向量結(jié)果。此外,數(shù)據(jù)的排列對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重訓(xùn)練也會(huì)產(chǎn)生影響,本文將訓(xùn)練數(shù)據(jù)按出現(xiàn)的歧義術(shù)語(yǔ)排序,再隨機(jī)調(diào)整少量數(shù)據(jù)的順序,使得同一個(gè)歧義術(shù)語(yǔ)對(duì)應(yīng)的文檔相對(duì)集中,又有一定隨機(jī)性,以提高尋找到最優(yōu)解的可能性。模型訓(xùn)練過(guò)程如圖3所示。

        圖3 Word Embedding訓(xùn)練過(guò)程

        語(yǔ)料的重復(fù)次數(shù)對(duì)模型的影響可以通過(guò)實(shí)驗(yàn)進(jìn)行分析。消歧方法主要利用Word Embedding尋找各義項(xiàng)的相關(guān)詞,因此要求模型中與每個(gè)義項(xiàng)最接近的前k個(gè)詞具有較高的一致性,并視為一個(gè)集合,則兩個(gè)模型間的重疊情況可以由Jaccard相似系數(shù)評(píng)價(jià),如式(5)所示。

        (5)

        其中V1和V2是同一參數(shù)下兩次訓(xùn)練得到的模型,D為義項(xiàng)集合,p為未標(biāo)注數(shù)據(jù)重復(fù)次數(shù),q為標(biāo)注數(shù)據(jù)重復(fù)次數(shù)。測(cè)試中,令k=10,在不同的p、q條件下各訓(xùn)練3次,求兩兩Jaccard相似系數(shù)并取均值,結(jié)果見(jiàn)圖4。

        圖4 語(yǔ)料重復(fù)次數(shù)與Jaccard相似度

        根據(jù)結(jié)果,在p=q=30之后,訓(xùn)練結(jié)果的平均重合度達(dá)到80%以上,此后隨著語(yǔ)料重復(fù)數(shù)量增加,重合度緩慢增長(zhǎng),考慮訓(xùn)練效率因素,在p=q=60時(shí)就能得到較好的性能。

        4.5 基于語(yǔ)義擴(kuò)展的二步聚類

        本節(jié)利用 Word Embedding語(yǔ)義信息實(shí)現(xiàn)多義術(shù)語(yǔ)消歧,包括兩個(gè)方面內(nèi)容: (1)利用語(yǔ)義相似度,對(duì)第一步聚類結(jié)果進(jìn)行特征詞擴(kuò)展,彌補(bǔ)文檔中缺失的語(yǔ)義信息;(2)用特征詞與義項(xiàng)之間的相似度對(duì)特征詞的TFIDF權(quán)重加權(quán),提高與義項(xiàng)語(yǔ)義接近的詞條的權(quán)重。過(guò)程中,為降低Word Embedding差異導(dǎo)致的誤差,使用同一參數(shù)重復(fù)訓(xùn)練三次,以三個(gè)模型結(jié)果的交集和平均相似度來(lái)計(jì)算。

        4.5.1 基于語(yǔ)義相似度的特征詞擴(kuò)展

        針對(duì)第一步聚類類簇中的文檔,進(jìn)行特征詞擴(kuò)展。擴(kuò)展得到的新特征詞不僅要與對(duì)應(yīng)的術(shù)語(yǔ)義項(xiàng)相關(guān),也要與文檔本身的語(yǔ)境相關(guān)。記歧義詞w的義項(xiàng)標(biāo)簽為w#id,對(duì)應(yīng)聚類為cw#id∈Cw。cw#id中的文檔記為dw#id,其n個(gè)特征詞記為{s1,s2,…,sn}。擴(kuò)展使用3個(gè)相同參數(shù)的Word Embedding模型,記為V1、V2、V3。擴(kuò)展過(guò)程如下:

        (1) 分別計(jì)算詞si∈dw#id在三個(gè)向量中語(yǔ)義最接近的2r個(gè)詞,取三者交集,按平均相似度排序后,取前r個(gè)詞得到式(6)。

        VecSim_r(si|V1,V2,V3)={si1,si2,…,sir}

        (6)

        (2) 計(jì)算所有sij與w#id的相似度均值:Sim(sij,w#id|V1,V2,V3),去掉重復(fù)詞和已有詞后,按相似度排序取前N項(xiàng),記為{x1,x2,…,xN},作為擴(kuò)展得到的新特征詞。過(guò)程如圖5所示。

        圖5 特征詞擴(kuò)展

        在擴(kuò)展過(guò)程中,采用新詞的數(shù)量N非常關(guān)鍵。如果N取值太大,將會(huì)引入過(guò)多的噪聲特征,從而降低有效信息;N取值太小,又無(wú)法對(duì)原有特征進(jìn)行有效擴(kuò)展,合適的N值須通過(guò)實(shí)驗(yàn)得到。擴(kuò)展得到的新詞,能有效彌補(bǔ)當(dāng)前語(yǔ)境中缺失的語(yǔ)義信息,提高當(dāng)前文檔對(duì)歧義詞語(yǔ)義的描述能力。

        4.5.2 特征詞權(quán)重的語(yǔ)義線性加權(quán)

        從直觀上,如果特征詞與歧義詞的語(yǔ)義較為接近,則應(yīng)該具有更高的權(quán)重。而TFIDF權(quán)重?zé)o法考慮這種詞與詞之間的關(guān)聯(lián),缺乏對(duì)語(yǔ)義信息的描述能力。同樣,由Word Embedding模型提供的語(yǔ)義向量,能夠表示詞匯兩兩間的語(yǔ)義關(guān)系,但無(wú)法在文檔級(jí)別計(jì)算語(yǔ)義相似程度。本文將兩者綜合,用特征詞與義項(xiàng)的語(yǔ)義相似度對(duì)TFIDF權(quán)重進(jìn)行線性加權(quán)。在計(jì)算待消歧文檔d與義項(xiàng)w#id間相似度時(shí),特征詞si∈d的權(quán)重由式(7)計(jì)算:

        Wtw#id(si)

        =tfidf(si)+Sim(w#id,si|V1,V2,V3)λ

        (7)

        當(dāng)si與義項(xiàng)w#id具有較高語(yǔ)義相似度時(shí),該詞特征權(quán)重將隨之提高。由于語(yǔ)義相似度在[0,1]間,且普遍偏低,故在式(7)中添加指數(shù)參數(shù)λ,且0≤λ≤1,提高語(yǔ)義加權(quán)幅度。本文中取λ=0.2。對(duì)于第一步聚類而言,可以直接用對(duì)應(yīng)的義項(xiàng)Cw#id計(jì)算其中各個(gè)文檔的語(yǔ)義加權(quán)。而對(duì)于待定的測(cè)試文檔,則需要在第二步聚類過(guò)程中,根據(jù)不同的目標(biāo)義項(xiàng)計(jì)算不同的權(quán)重,以得到最優(yōu)聚類結(jié)果。

        4.5.3 第二步聚類

        V(dw,w#id)={Wtw#id(s1),…,Wtw#id(sn)}

        (8)

        (9)

        (10)

        至此,完成整個(gè)聚類過(guò)程。

        5 實(shí)驗(yàn)結(jié)果及分析

        本文所述消歧聚類方法屬于無(wú)監(jiān)督聚類,僅在參數(shù)設(shè)計(jì)時(shí)用到少量答案數(shù)據(jù),包括顯著相似閾值th1和特征詞擴(kuò)展數(shù)量N;參數(shù)設(shè)計(jì)采用準(zhǔn)確率P%作為評(píng)價(jià)指標(biāo)。整個(gè)消歧系統(tǒng)性能的測(cè)試, 以每個(gè)歧義術(shù)語(yǔ)義項(xiàng)采用聚類準(zhǔn)確率P%、召回率R%、F值為評(píng)價(jià)指標(biāo)。在整個(gè)測(cè)試集上,用所有義項(xiàng)的性能指標(biāo)均值進(jìn)行評(píng)價(jià)。

        5.1 顯著相似性聚類實(shí)驗(yàn)

        圖6給出了在不同閾值條件下,聚類文檔占總測(cè)試文檔的比例與聚類正確率之間的關(guān)系。其中橫軸為閾值,當(dāng)th1>2.0后,聚類結(jié)果的正確率達(dá)到96%,此時(shí)約有一半數(shù)據(jù)被聚類。此后,隨著th1提高,聚類正確率沒(méi)有顯著變化,而聚類比例則線性下降。因此,可以根據(jù)聚類數(shù)據(jù)比例來(lái)制定閾值。按照第一步聚類30%左右的數(shù)據(jù)為準(zhǔn),本文設(shè)定th1=3.4。

        5.2 特征詞擴(kuò)展實(shí)驗(yàn)

        對(duì)聚類中的文檔進(jìn)行特征詞擴(kuò)展時(shí),擴(kuò)展詞數(shù)N對(duì)最后系統(tǒng)性能有較大影響。以參數(shù)p=q=60訓(xùn)練3個(gè)Word Embedding,特征向量維度均為100維。以“CVT”“BOM”“PPA”為例,測(cè)試不同的N值對(duì)第二步聚類準(zhǔn)確率的影響。在進(jìn)行第二次聚類的時(shí)候,沒(méi)有使用語(yǔ)義加權(quán)。當(dāng)區(qū)間時(shí),隨著N增大,正確率逐漸提高,說(shuō)明特征詞擴(kuò)展有助于挖掘歧義詞語(yǔ)義信息。但當(dāng)N值較大時(shí)(N>20),正確率顯著下降,這是由于擴(kuò)展詞過(guò)度泛化,引入大量噪聲導(dǎo)致。因此,在一定范圍內(nèi)擴(kuò)展特征詞,對(duì)提高系統(tǒng)性能有明顯效果。本文后續(xù)實(shí)驗(yàn)中,選取N=10進(jìn)行擴(kuò)展。實(shí)驗(yàn)結(jié)果如圖7所示。

        圖7 特征詞擴(kuò)展有效性實(shí)驗(yàn)

        5.3 消歧實(shí)驗(yàn)

        在前兩步實(shí)驗(yàn)基礎(chǔ)上,對(duì)整個(gè)測(cè)試集進(jìn)行消歧實(shí)驗(yàn)。實(shí)驗(yàn)中所用到的參數(shù)見(jiàn)表2。

        表2 實(shí)驗(yàn)參數(shù)設(shè)定

        實(shí)驗(yàn)設(shè)計(jì)兩個(gè)Baseline對(duì)比消歧系統(tǒng)。Baseline I選擇基本的TFIDF權(quán)重加權(quán)的VSM模型,對(duì)全部測(cè)試數(shù)據(jù)進(jìn)行一次聚類,與文獻(xiàn)[8]的方法區(qū)別在于,其使用歧義詞上下文一定窗口內(nèi)的詞作為特征詞,而本文中使用文檔中除停用詞外所有詞作為特征詞。Baseline II系統(tǒng)采用與文獻(xiàn)[12]類似的兩步聚類方法進(jìn)行。其中,第一步采用顯著相似聚類,第二步則利用第一步聚類得到的類簇,不進(jìn)行特征詞和語(yǔ)義加權(quán)。Baseline系統(tǒng)消歧性能見(jiàn)表3。

        實(shí)驗(yàn)結(jié)果中,利用顯著相似聚類得到的結(jié)果具有很高的性能。第二步聚類結(jié)果的F值與待定數(shù)據(jù)相比有7%左右的提升,表明第二步聚類能顯著改善系統(tǒng)性能。總體性能中,準(zhǔn)確率與Baseline I相比提升3.47%,但召回率和F值均有超過(guò)10%的提升,該結(jié)論與之前相關(guān)工作得到的結(jié)論較為一致。

        本文在Baseline II的基礎(chǔ)上,通過(guò)擴(kuò)展特征詞和特征詞語(yǔ)義線性加權(quán)兩種方法,提升消歧性能,實(shí)驗(yàn)結(jié)果見(jiàn)表4。使用“第二步聚類+擴(kuò)展特征詞”方法,各性能指標(biāo)較Baseline II均有4%左右的提升,總體正確率超過(guò)90%,表明根據(jù)Word Embedding模型擴(kuò)展得到的新的特征詞能有效補(bǔ)充原有文檔中語(yǔ)義缺失,從而對(duì)消歧產(chǎn)生顯著影響。

        表3 Baseline消歧實(shí)驗(yàn)結(jié)果

        表4 改進(jìn)后消歧實(shí)驗(yàn)結(jié)果

        在“第二步聚類+擴(kuò)展特征詞+語(yǔ)義線性加權(quán)”實(shí)驗(yàn)結(jié)果中,系統(tǒng)消歧性能進(jìn)一步提高約2%。此時(shí),計(jì)算特征詞在不同義項(xiàng)中的語(yǔ)義相關(guān)度,并進(jìn)行詞權(quán)重疊加,能使聚類更具有傾向性,但也會(huì)導(dǎo)致過(guò)擬合。采用線性加權(quán),而非指數(shù)加權(quán),可以使權(quán)重變化較為平緩,以避免參數(shù)過(guò)擬合現(xiàn)象。

        表5 歧義術(shù)語(yǔ)單獨(dú)消歧結(jié)果

        續(xù)表

        表5給出所有歧義術(shù)語(yǔ)在Baseline Ⅱ和改進(jìn)方法上的性能比較。表中“+、++、=、-”分別表明性能有提升、有顯著提升、性能可比、性能下降。測(cè)試的25個(gè)術(shù)語(yǔ)中,6個(gè)術(shù)語(yǔ)的消歧性能有超過(guò)10%的提升,表明Word Embedding語(yǔ)義表示方法能夠很好地應(yīng)用于消歧問(wèn)題;9條術(shù)語(yǔ)的性能有所提升,7條術(shù)語(yǔ)的性能基本持平,說(shuō)明方法對(duì)于大多數(shù)術(shù)語(yǔ)消歧而言具有一定效果;由于經(jīng)驗(yàn)參數(shù)無(wú)法適應(yīng)所有文檔,有3個(gè)術(shù)語(yǔ)的性能沒(méi)有明顯提升。

        術(shù)語(yǔ)“CAD”和“SAP”在Baseline Ⅱ和改進(jìn)方法上的消歧性能均較低。經(jīng)分析,前者有兩個(gè)義項(xiàng)分別是“計(jì)算機(jī)輔助設(shè)計(jì)”和“計(jì)算機(jī)輔助診斷”,對(duì)應(yīng)文檔集合存在許多重疊的特征詞,難以區(qū)分。后者義項(xiàng)集中有“SAP軟件公司”和“SAP管理軟件”兩個(gè)定義,分別是公司名和該公司生產(chǎn)的同名軟件,因而也具有很高的混淆度。以上義項(xiàng)的區(qū)分還需要更深層次的語(yǔ)義關(guān)系才能實(shí)現(xiàn)。

        6 結(jié)語(yǔ)

        本文利用Word Embedding提高縮略術(shù)語(yǔ)消歧性能,提出無(wú)監(jiān)督地獲取每個(gè)義項(xiàng)語(yǔ)義表示的方法,在消歧過(guò)程中,利用語(yǔ)義信息對(duì)特征詞進(jìn)行擴(kuò)展和語(yǔ)義線性加權(quán),得到精度較高的消歧結(jié)果。實(shí)驗(yàn)發(fā)現(xiàn),消歧過(guò)程中,語(yǔ)義擴(kuò)展規(guī)模不能過(guò)大,否則將導(dǎo)致性能降低。這說(shuō)明每個(gè)義項(xiàng)所涵蓋的概念范疇往往十分有限,少數(shù)詞就能描述義項(xiàng)的核心概念。因此,Word Embedding的核心作用是挖掘文檔中缺失的語(yǔ)義信息。該結(jié)論對(duì)文本數(shù)據(jù)挖掘和信息檢索領(lǐng)域的許多應(yīng)用有一定參考價(jià)值。

        [1] 王瑞琴,孔繁勝. 無(wú)監(jiān)督詞義消歧研究[J]. 軟件學(xué)報(bào), 2009,20(8): 2138-2152.

        [2] Banerjee S, Pedersen T. An adapted Lesk algorithm for word sense disambiguation using WordNet [C]//Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, 2002: 17-23.

        [3] 張剛,劉挺,盧志茂等. 隱馬爾可夫模型和HowNet在漢語(yǔ)詞義標(biāo)注中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2004,10(增刊): 67-69.

        [4] Collobert R, Weston J. A unified architecture for na-tural language processing: Deep neural networks with multi-task learning [C]//Proceedings of the 25th International Conference on Machine Learning, Helsinki, 2008: 160-167.

        [5] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR, 2013.

        [6] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Composi-tionality[C]//Proceedings of NIPS, 2013.

        [7] Schütze H. Automatic word sense discrimination [J]. Computational Linguistics, 1998, 24(1): 97-123.

        [8] 魯松,白碩,黃雄. 基于向量空間模型中義項(xiàng)詞語(yǔ)的無(wú)導(dǎo)詞義消歧[J]. 軟件學(xué)報(bào), 2002,13(6): 1082-1089.

        [9] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J]. 軟件學(xué)報(bào), 2010,21(6): 1287-1295.

        [10] Mann G, Yarosky D. Unsupervised Personal Name Disambiguation [C]//Proceedings of CoNLL-2003, Edmonton, 2003: 33-40.

        [11] 丁海波, 肖桐, 朱靖波. 基于多階段的中文人名消歧聚類技術(shù)的研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議, 牡丹江, 2010: 316-324.

        [12] 李廣一, 王厚峰. 基于多步聚類的漢語(yǔ)命名實(shí)體識(shí)別和歧義消解[J]. 中文信息學(xué)報(bào), 2013, 27(5): 29-34.

        [13] Z Peng, L Sun, X Han. SIR-NERD: A Chinese Named Entity Recognition and Disambiguation System using a Two-Stage Method[C]//Proceedings of the 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing, Tianjin, 2012: 115-120.

        [14] J Liu, R Xu, Q Lu, et al. Explore Chinese Encyclopedic Knowledge to Disambiguate Person Names[C]//Proceedings of the 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing, Tianjin, 2012.

        [15] 楊欣欣, 李培峰, 朱巧明. 基于查詢擴(kuò)展的人名消歧[J]. 計(jì)算機(jī)應(yīng)用, 2012, 32(9): 2488-2490.

        [16] H Liu, Y Lussier, C Friedman. Disambiguating ambi-guous biomedical terms in biomedical narrative text: An unsupervised method [J]. Journal of Biomedical Informatics, 2001, 34: 249-261.

        [17] Stevenson M, Yikun G, Abdulaziz A A, et al. Dis-ambiguation of Biomedical Abbreviations[C]//Proceedings of the Workshop on BioNLP, Boulder, 2009: 71-79.

        [18] 張榕, 宋柔. 基于互聯(lián)網(wǎng)的漢語(yǔ)術(shù)語(yǔ)定義提取研究[C]//全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議, 南京, 2005.

        猜你喜歡
        消歧多義特征詞
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        維吾爾語(yǔ)動(dòng)詞“t∫iqmap”多義范疇的語(yǔ)義延伸機(jī)制
        面向文本分類的特征詞選取方法研究與改進(jìn)
        一個(gè)所謂多義句式的本來(lái)面目
        多車道自由流技術(shù)在多義路徑識(shí)別領(lǐng)域的應(yīng)用
        基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
        国产亚洲一区二区在线观看| 一本一本久久久久a久久综合激情| 91在线区啪国自产网页| 日本高清一区二区三区在线| 男女真人后进式猛烈视频网站| 久久精品无码av| 午夜天堂一区人妻| 丰满人妻一区二区三区视频53| 久久香蕉国产线看观看网| 日本老年人精品久久中文字幕| 女女同性av一区二区三区免费看| 一区二区三区四区亚洲免费| 东京热人妻系列无码专区| 国产精品久久久久久无码| 亚洲国产成人精品91久久久| 中文字幕五月久久婷热| 久久精品一区二区熟女| 国产精品久久久久久一区二区三区| 亚洲av区无码字幕中文色| 偷拍熟女亚洲另类| 国产黄色一区二区在线看| 色诱视频在线观看| 久久精品人人爽人人爽| 国产精品久久中文字幕第一页| 小黄片免费在线播放观看| 国产精品久久久久久| 亚洲精品毛片一区二区三区| 日韩人妻无码精品系列专区无遮 | 婷婷激情六月| 国产精品女同一区二区免| 草逼短视频免费看m3u8| 日本无码人妻波多野结衣| 亚洲AV综合A∨一区二区| 国产久久久自拍视频在线观看| 精品福利一区二区三区蜜桃| 国产放荡对白视频在线观看| 国产思思99re99在线观看| 日本亚洲成人中文字幕| 国产一区二区在线免费视频观看 | 亚洲最大水蜜桃在线观看| 亚洲国产精品福利片在线观看|