亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共同語境的近義詞/同義詞短語查找模型

        2021-07-28 12:36:48晨,張宇,胡
        計算機工程與應用 2021年14期
        關鍵詞:語義單詞方法

        石 晨,張 宇,胡 博

        1.東南大學,南京211189

        2.浙江警察學院,杭州310053

        近義詞短語和同義詞短語無監(jiān)督查找文本挖掘和搜索引擎到語義分析,以及機器翻譯等多種應用都很有用。同義詞具有不同程度的相似性,從完全的語境替代或絕對同義詞到近義詞或詞語辯析體現(xiàn)了相似性的由高至低[1-2]。文獻[3]總結(jié)了在意義上接近而不能完全替換,但在其外延、內(nèi)涵、含義、重點或表達的深意有所變化的詞語(近義詞)的定義。以上這些定義可以擴展到多詞短語,例如“極難”可以擴展為“非常具有挑戰(zhàn)性”;同義詞是一個比一般的釋義任務更窄的子集,因為后者可以包含多種形式的語義關系。

        近義詞短語的提取在諸如自然語言處理(Natural Language Processing,NLP)、信息檢索、文本摘要、機器翻譯和其他人工智能應用等領域具有極其重要的意義。盡管查找單個詞或常見的封閉詞組的近義詞可能只需要查找同義詞庫,但查找近義的多詞短語一般需要一個基于對大型語料庫的分析生成過程。例如,采用本文方法查找“it is fair to say”的近義詞如下:“it’s safe to say”“we all understand”“it’s pretty clear”“we believe”“it’s well known”“it’s commonly accepted”等。盡管這些短語的含義非常接近,但對于構(gòu)成它們各自許多相應的單詞來說,卻并不是這樣;此外,對于專有名詞,采用本文方法還可找到正字法(拼字正確的)變體(最好的同義詞)以及描述性近義詞。例如,對于“Al Qaeda”,會查找出“Al Qaida”“Al-Qaeda network”“jihadist group”“terrorist organization”“Bin Laden’s followers”;顯然,近義詞短語有助于文本挖掘,例如在文本語料庫或文本流中發(fā)現(xiàn)感興趣的實體,以及在大型和各種各樣的自然語料庫中發(fā)現(xiàn)以不同方式表達的關系。

        近年來,近義詞的重要性引起了人們的關注。文獻[4]提出在許多任務中處理Twitter 摘要。近義詞在信息檢索中顯得至關重要,特別是回憶很重要的事情時,這時搜索查詢的近義詞可能具有極高的價值。例如,如果一個人想要“廉價住房”,則搜索“負擔得起的住房”可能是有用的。如果查找“心臟病發(fā)作”,也可以通過擴展查詢,搜索“心臟驟?!被颉靶牧λソ摺薄1M管搜索引擎可以自動提供擴展搜索,但就人們所能觀察和理解而言,只有通過高度相關的單個詞替換才能實現(xiàn);此外,為了模擬短語敘詞表,由于預編譯的數(shù)據(jù)庫[5]無論大小如何,都不能實現(xiàn)完全覆蓋,因此實時(可擴展)系統(tǒng)是必不可少的。

        文獻[6]基于向量空間模型(Vector Space Model,VSM)相似度算法和《知網(wǎng)》相似度算法,針對TF-IDF算法計算權(quán)重時融入特征項位置因素、彌補詞頻統(tǒng)計過于片面的問題,提出了VSM 與《知網(wǎng)》語義理解相結(jié)合的相似度計算模型,即把相同和相似的詞語作為空間坐標的同一維度,計算相似度時融入詞語語義相似度。這樣既彌補了VSM 在語義層面的不足,又彌補了《知網(wǎng)》詞語相似度算法忽略詞語重要程度的缺陷;為解決一詞多義等詞匯歧義問題,文獻[7]提出了一種基于低維向量組合的語義向量模型。模型引入了知識庫與語料庫的多語義特征的融合,主要的語義融合對象包括連續(xù)的分布式詞向量和來自于WordNet 結(jié)構(gòu)中的語義特征信息。首先利用神經(jīng)網(wǎng)絡語言模型,預先從文本語料中學習得到連續(xù)的低維詞向量,然后從知識庫WordNet中抽取多種語義信息和關系信息,再將多語義信息融入到詞向量進行知識擴展和強化,生成語義向量,從而實現(xiàn)基于向量空間的語義相似性度量方法。實驗結(jié)果表明,該方法優(yōu)于基于單一信息源(知識庫WordNet 或文本語料)的語義相似性度量方法;文獻[8-9]提出了擴展統(tǒng)計語言模型和神經(jīng)語言模型,模型根據(jù)之前見過的單詞,基于2~10-gram 預測下一個單詞;文獻[10]基于神經(jīng)網(wǎng)絡并采用排名損失訓練目標,加入額外的上下文來訓練單詞嵌入,通過學習每個單詞的多重嵌入來考慮同音異義性和一詞多義性。

        也有在短語級研究語義相似性問題的NLP 文獻報道。文獻[11-12]提出的組合分布式語義方法試圖通過將向量合成函數(shù)應用到與其構(gòu)成詞相關的向量上來形式化復合詞的含義,但沒有討論短語同義詞,更重要的是把短語(復合詞)視為由個別構(gòu)成詞構(gòu)成,而不視為不同的實體,從而忽略了一個基本事實,即整體的語義可能與其構(gòu)成成分的語義有很大的不同;另一些討論短語的方法沒有將它們分解成構(gòu)成詞,而是采用并行資源構(gòu)造釋義對,包括釋義范疇的多種語義關系;文獻[13]采用手工編碼的語言模式僅對齊特定的文本片段上下文來生成釋義,而且需要特定語言資源如語音標記部分和解析器;這種方法只能找到具有相同內(nèi)容詞的替代結(jié)構(gòu),例如“X 制造Y”意指“X 是Y 的工廠”。而近義詞有一組不同的詞,如“使收支相抵”和“支付賬單”,都無法通過他們的方法檢測到;文獻[14]提出了一種啟發(fā)式方法,有助于基于上下文的機器翻譯系統(tǒng)。方法采用不同上下文數(shù)量及其長度來估計近義詞。

        本文針對大型語料庫中近義詞/同義詞短語的查找問題,提出了一種基于共同語境的近義詞/同義詞短語查找新模型。它通過n-gram分布式方法捕獲語義相似性,不需要解析就能隱式地保存局部句法結(jié)構(gòu),使底層方法語言獨立;具體實現(xiàn)分為兩個階段:第一階段是上下文收集和過濾,即用圍繞查詢短語的本地上下文作為條件模型的特征來捕獲語義和語法信息。第二階段是候選詞短語收集和篩選,即對數(shù)據(jù)中的每個“左”“右”和“配對”的全部實例進行迭代,以收集一組近義詞/同義詞候選短語;還給出了構(gòu)成模型的要素和用于評價模型性能的評分函數(shù);共同語境的實例越多,所述上下文就越具體,共享上下文就越長,潛在的近義詞/同義詞關系就越強,而且本文模型僅依賴于一個大型的單一語料庫,不需要預先存在的語言或詞匯資源就可以應用于任何語言;實驗結(jié)果表明,本文提出的建模方法在總的統(tǒng)計評分查找性能和整體可擴展性方面都優(yōu)于常用的其他查找方法模型。

        1 基于共同語境的近義詞/同義詞短語查找系統(tǒng)模型

        為敘述方便,將本文提出的近義詞/同義詞短語查找系統(tǒng)模型簡稱為近-同義詞系統(tǒng)模型(Near-Synonym System Model,NSSM)。它采用一種不同于其他方法的新方法,不需要并行資源,也不采用預先確定的手工編碼模式集;NSSM通過n-gram分布式方法捕獲語義相似性,不需要解析就能隱式地保存局部句法結(jié)構(gòu),使底層方法語言獨立;NSSM 還是一個Web 服務器,它的功能類似于一個活的近義詞短語生成器;NSSM基于后綴數(shù)組[15]和并行計算來實現(xiàn)大型語料庫的實時性能。后綴數(shù)組采用一種增廣形式的二叉樹來搜尋語料庫中字符串模式的所有出現(xiàn)。在處理諸如“W是A的子字符串嗎?”之類的查詢時,時間復雜度為O(P+lgN),其中P=|W|,N=|A|。

        給定一個長度為N的大文本A=a0a1a2…aN-1,令Ai=aiai+1…aN-1表示A的后綴,即始于位置i。后綴數(shù)組則是按字典順序排序的數(shù)組Pos,即Pos[k]是集合{A0,A1,…,AN-1}中第k個按字典順序的最小后綴的開始,即:

        是詞典編纂的順序。由于它是排序的,所以它可以通過搜索Pos中W的左和右邊界來定位A中字符串模式W的所有出現(xiàn),這需要2 個二進制搜索,即2×O(P+lgN)時間。在本文中,A是一個單詞標記序列,且P<

        1.1 NSSM運行體系結(jié)構(gòu)

        采用術語“查詢短語”來表示要查找的近義詞或同義詞的輸入短語,NSSM 的整個運行體系結(jié)構(gòu)如圖1 所示,圖中以“has undergone a majorsea changein the last five”為例。

        圖1 給定一個輸入短語的NSSM運行體系結(jié)構(gòu)

        總的來說,NSSM運行包括以下兩個階段。

        第一階段,上下文收集和過濾。NSSM用圍繞查詢短語的本地上下文(共同語境)作為條件模型的特征來捕獲語義和語法信息。本地上下文包括:

        (1)稱之為“左”的左上下文,是一個查詢短語的最左端的3~4-gram標記。

        (2)稱之為“右”的右上下文,與(1)定義類似(較長的n-gram可進一步改善結(jié)果)。

        (3)稱之為“配對”的配對左右上下文,即將同一查詢短語的左和右上下文結(jié)合在一起。

        迭代查詢短語在數(shù)據(jù)中的每一次出現(xiàn),并在每個實例中收集相應的本地上下文,分別形成3 組不同的左、右上下文和配對左右上下文。為了計算上下文查詢短語的相關性(參見模型要素一節(jié)),在迭代期間使用多線程后綴數(shù)組將查詢短語的每個上下文的頻率以及查詢短語的頻率存儲在數(shù)據(jù)中。

        第二階段,候選詞短語收集和篩選。對數(shù)據(jù)中的每個“左”“右”和“配對”的全部實例進行迭代,以收集一組近義詞/同義詞候選短語,但遵從下列最小和最大候選長度:

        式中,QL為查詢短語長度,d0和d1是常量參數(shù)。為了計算候選上下文強度和歸一化因子(見模型要素一節(jié)),仍采用多線程后綴數(shù)組存儲每個上下文的每個候選短語的頻率以及它們獨立出現(xiàn)的頻率,以加快進程。

        下面對算法的計算復雜度進行簡單分析。

        考慮一個后綴數(shù)組,給定一個查詢短語q,如果N是數(shù)據(jù)中的單詞標記數(shù),f(q)是q的頻率,X是q的上下文(左、右和配對)集合,Y是q的挖掘到的近義詞/同義詞候選集合,fmax(x) 是X中最高頻率的上下文,XLmax是最大允許的單邊上下文長度(在本文中為4),則當僅采用共享特征增益評分函數(shù)(見后面小節(jié))時,對于查詢短語q,NSSM的運行時間復雜度的嚴格上限為:

        采用并行后綴數(shù)組時,上述表達式中唯一的區(qū)別是:N、f(q)和fmax(x)定義為本地數(shù)據(jù)對應的一個后綴數(shù)組,而不是整個數(shù)據(jù)。

        1.2 模型要素

        本節(jié)提出一個新的條件模型來構(gòu)造一個概率組合函數(shù),實際上就是根據(jù)共享(公共)特征集上的函數(shù)來度量兩個實體之間的相似性,具體如下。

        1.2.1 上下文查詢短語相關性

        上下文查詢短語相關性(Contextual Query Phrase Relevance,CQR)是衡量查詢短語對其上下文的重要性的一種度量,是與其一起出現(xiàn)的其他短語相比較:

        式中,p(?)和q(?)分別為分布中的概率點和頻率點。

        1.2.2 候選上下文強度

        候選上下文強度(Candidate Contextual Strength,CCS)是衡量查詢短語上下文與近義詞/同義詞候選短語之間的關聯(lián)程度的一種度量,是與其周圍的其他本地上下文相比較:

        1.2.3 歸一化

        為了解決候選短語之間基級頻率的變化問題,引入一個歸一化因子:

        式中,d是一個常數(shù)。

        1.2.4 上下文信息

        根據(jù)上下文的內(nèi)容(例如類型和/或字數(shù)),有些上下文仍然比其他上下文包含更多的語義信息,本文模型設法考慮到這一點。因此,上下文信息(Contextual Information,CInf)為:

        式中,w(x)是上下文x中的內(nèi)容字數(shù),l(x)是x的長度,a、b和c為系數(shù)。

        1.3 共享特征增益評分函數(shù)

        為了得到共享特征增益(Shared Feature Gain,SFG)評分函數(shù),結(jié)合上述概念,首先計算左上下文(L(q))的分數(shù):

        模型還考慮了替換的上下文匹配,這些匹配本質(zhì)上是“配對”匹配,但在查詢的不同實例中采用左匹配和右匹配:

        式中,DL(q)是L(q)的一個子集,表示左移。同樣,可以計算出右上下文和配對左右上下文的分數(shù),并將這三個分數(shù)結(jié)合得到最終分數(shù)為:

        式中,Ccf>1 是用于提高配對左右上下文的得分,使之與SC匹配。

        1.4 Kullback-Leibler散度評分函數(shù)

        KL 散度(Kullback-Leibler Divergence,KLD)[16]是度量兩個概率分布之間的差異,本文用它來度量當給定一個候選對象的上下文分布用于近似給定查詢短語的相同上下文分布時所丟失的信息,即:

        式中,L(q)表示查詢短語和候選詞的組合左集合。和前面一樣,概率比p(?)和r(?)可以解釋為頻率比。應用平滑方法,并計算合并的右上下文和合并的配對左右上下文的分數(shù),然后將三者結(jié)合得到最后的分數(shù)為:

        采用式(15)重新評分和重新排名通過共享特征增益所得到的前1 000個得分候選上下文。

        1.5 參數(shù)訓練

        在全部參數(shù)大于零的條件下,S(y,q)是兩個非負凸函數(shù)的乘積,且仍然是凸的。這使得優(yōu)化目標是兩個凸函數(shù)的差。本文采用二值搜索的多起始坐標上升,而不增加線性步長。參數(shù)在30 個查詢短語集上進行訓練,與性能評價中采用的短語(見實驗部分)分開。

        2 實驗結(jié)果及分析

        2.1 Gigaword語料庫

        實驗選擇英文Gigaword(http://www.chineseldc.org)為本文實驗提供一個綜合新聞專線文本數(shù)據(jù)檔案。把語料庫分割成32 個相等的部分,每個分割部分構(gòu)造一個后綴數(shù)組。選擇的服務器硬件可以并行支持多達32(16×2)個線程,因此每個后綴數(shù)組都在自己單獨的線程上運行。使用37.5%的數(shù)據(jù)(12 個后綴數(shù)組)用于實驗。完整的Gigaword 可能會得到更好的效果,但會運行得更慢。

        2.2 等級敏感評價

        實驗中挑選了54 個隨機選擇的查詢短語,其中包括15個單詞、23個單詞短語和16個較長的短語。對于每個查詢短語,采用前面本文提出的2 個評分函數(shù)(共享特征增益評分函數(shù)及Kullback-Leibler散度評分函數(shù))和參與比較的其他模型算法的每一個生成20個近義詞的候選詞。要求注釋者(6名人工評級員)對每個查詢短語-同義詞候選組合提供評級,評級從0~3,其中3 表示絕對同義詞,2表示近義詞,1表示某些語義相關性如上義關系、下義關系或反義關系,0表示沒有關系。

        本文對標準度量指標平均精度(Mean Average Precision,MAP)和歸一化折現(xiàn)累積增益(Normalized Discounted Cumulative Gain,NDCG)進行擴展。不直接采用MAP,因為它對等級不敏感,并且只對二進制(0或1,相關或不相關)評級標準有效;在NDCG的情形下,即使它考慮了排序,也不會因為結(jié)果差而受到懲罰,此外,NDGG也不因丟失結(jié)果而受到懲罰;因此,本文的標準度量指標采用平均等級敏感得分(Mean Rank-sensitive Score,MRS),這樣使得較低等級(離最高排名更遠)的注釋分數(shù)降低:

        式中,Sr是注釋分數(shù),n是第n個等級的截止點(臨界點),r是候選等級,A是評級者集合。MRS通過用零填充丟失值的評級序列來考慮丟失結(jié)果。

        2.3 查找性能比較

        2.3.1 與Roget同義詞詞典的比較

        為了表明一般詞典查找同義詞短語的不足,將本文模型方法法與Roget同義詞詞典基準進行比較。與所有其他主要包含單個詞的詞典一樣,將查詢短語中單個詞的同義詞集中的元素組合起來,為54 個查詢短語的每一個構(gòu)造候選詞。例如,在“strike a balance”中,隨機選擇“hammer”和“harmony”分別作為“strike”和“balance”的同義詞,構(gòu)成“hammer a harmony”作為候選詞;假設單個詞同義詞條目的同義詞精度為100%,而其余部分雇用3名人工評級員。表1、表2和表3分別比較了單個單詞、兩個單詞和大于兩個單詞和查詢短語的共享特征增益(SFG)、KL 散度(KLD)和Roget 同義詞詞典的MRS得分(見表1、表2和表3的第1行、第2行和第5行)??梢郧宄乜吹?,基于本文模型方法的SFG 和KLD 的MRS性能在單個單詞查詢短語長度上與Roget 同義詞詞典查詢非常接近,但在兩個單詞和大于兩個單詞的多個單詞查詢短語長度上比Roget 同義詞詞典查詢的MRS性能有明顯提高,即使在截止點n達到20 時,相比于Roget 同義詞詞典查詢的MRS,本文模型方法的SFG和KLD的MRS也分別提高了1.05和1.34,而且隨著多個單詞查詢短語長度的增加,MRS并未降低,而是提高得越多。這進一步表明了本文模型方法對于詞典結(jié)構(gòu)有相當大的優(yōu)勢,特別是在兩個單詞級別上性能最佳;就SFG 和KLD 的MRS性能而言,SFG 對于單個單詞級別上查詢的性能更強,而KLD 對于兩個單詞和大于兩個單詞級別上查詢的性能更強。

        表1 單個單詞的查詢短語的評分函數(shù)比較

        表2 兩個單詞的查詢短語的評分函數(shù)比較

        表3 大于兩個單詞的查詢短語的評分函數(shù)比較

        還可以看到,由于MRS對截止點不敏感,所以基于本文模型方法得到的兩個評分函數(shù)SFG和KLD在更嚴格的截止點(即更低的n值)得到更大的分數(shù),這意味著本文模型方法能夠從相對較弱的匹配中區(qū)分更強的語義匹配,并將高度同義的候選詞排名更高。

        2.3.2 與釋義數(shù)據(jù)庫的比較

        將本文模型方法與文獻[5]提出的機器翻譯技術PPDB 進行比較。PPDB 的英文部分包含了超過2 220萬個釋義。從7 300萬個短語和800萬個詞匯釋義對中提取了54 個查詢短語的前20 個近義詞,利用數(shù)據(jù)庫中提供的注釋Gigaword分布相似性分數(shù)來對候選詞進行排名,此外,由6名人工評判提供評級。表1、表2和表3的第3 行為采用文獻[5]提出的機器翻譯技術PPDB 得到的MRS(n),與表1、表2和表3的第1行和第2行進行比較,可以清楚地看到,基于本文模型方法的SFG 和KLD 的MRS(n)在每個截止點(n)和短語長度(單個單詞的查詢短語、兩個單詞的查詢短語和大于兩個單詞的查詢短語)上都有更好的性能。鑒于NSSM是在單語料庫上運行,不需要任何NLP特定資源,與PPDB相比,它是一個實時檢索系統(tǒng),而PPDB 并不是這樣,這一點對于實時查詢來說相當重要。

        2.3.3 與開放源可擴展釋義獲取工具包的比較

        與一種基于Hadoop的開放源可擴展釋義獲取工具包[4]進行了比較。具體而言,文獻[4]的釋義獲取工具包將一個短語的上下文定義為短語的直接左右側(cè)的ngram 連接,并將一個n-gram 上下文的最小長度和最大長度分別設置為2 和3,但他們采用逐點交互信息加權(quán)短語向量來計算余弦相似性,以作為兩個短語之間相關性的度量,即:

        式中,C(p)表示短語p的上下文向量。

        用NSSM 在本文的數(shù)據(jù)集(占預處理后的英語Gigaword 第五版的37.5%)上實現(xiàn)了式(18)的評分函數(shù),如表1、表2 和表3 的第4 行所示,仍然可以看到,基于本文模型算法得到的兩個評分函數(shù)SFG 和KLD 的MRS(n)無論在每個截止點(n),還是在短語長度(單個單詞的查詢短語、兩個單詞的查詢短語和大于兩個單詞的查詢短語)上都優(yōu)于基于Hadoop 的開放源可擴展釋義獲取工具包。

        最后,圖2 所示為基于18.7%、37.5%和71.8%的Gigaword語料庫采用SFG評分函數(shù),對于單個詞的短語、兩個詞的短語和大于兩個詞的短語得到的MRS(n)。可見,采用NSSM 的檢索質(zhì)量隨著語料庫的增大而提高,說明本文的NSSM是有效的。

        圖2 對于不同詞短語采用SFG評分函數(shù)得到的MRS(n)

        3 結(jié)束語

        本文提出了一種新的用于從大型單語無注釋語料庫中查找近義詞/同義詞短語的無監(jiān)督建模方法,而且本文模型僅依賴于一個大型的單一語料庫,不需要預先存在的語言或詞匯資源就可以應用于任何語言,模型方法是基于頻率統(tǒng)計、信息論和可擴展算法的結(jié)合;實驗結(jié)果表明,在詞匯和短語兩個級別的查找上都明顯優(yōu)于自動近義詞/同義詞短語的查找方法,并且在多詞近義詞/同義詞生成方面優(yōu)于基于同義詞詞典的方法,在總的統(tǒng)計評分查找性能和整體可擴展性方面都優(yōu)于常用的其他查找方法模型;對于未來的研究,主要考慮:(1)在多種語言上測試本文提出的NSSM,因為它不包含特定于英語的假設或知識;(2)將NSSM 完全并行化為一種高效的基于云的近義詞/同義詞短語服務器;(3)實現(xiàn)基于任務的評價,如Web搜索。

        猜你喜歡
        語義單詞方法
        語言與語義
        單詞連一連
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        可能是方法不對
        “上”與“下”語義的不對稱性及其認知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認知范疇模糊與語義模糊
        WWW拍拍拍| 中文字幕人妻无码一夲道| 久久精品99久久香蕉国产色戒| 黄色网址国产| 有码中文字幕一区二区| 久久在一区二区三区视频免费观看| 人妻饥渴偷公乱中文字幕| 波多野吉衣av无码| AV熟妇导航网| av天堂亚洲另类色图在线播放| 胸大美女又黄的网站| 免费人成视频x8x8| 日韩精品永久免费播放平台| 久久久精品少妇—二区| 亚洲av乱码一区二区三区林ゆな| 国产香蕉尹人在线观看视频| 人妻少妇无码中文幕久久| 国产精品一区二区蜜臀av| 邻居少妇张开腿让我爽了一夜| 久久精品国产www456c0m| 欧美亚洲韩国国产综合五月天| 暴露的熟女好爽好爽好爽| 久久精品国产亚洲av无码偷窥| 免费观看又污又黄的网站| 亚洲AVAv电影AV天堂18禁| 日本一区二区不卡二区| 少妇高潮无套内谢麻豆传| 亚洲国产成人精品女人久久久| 日本女优一区二区在线免费观看 | 日本人妻伦理片在线观看| 最新国产熟女资源自拍 | 国产成人精品aaaa视频一区 | 99久久免费视频色老| 日韩人妻无码免费视频一区二区三区| 亚洲日产无码中文字幕| 国产一级黄色片一区二区| 深夜福利啪啪片| 成年在线观看免费视频| 亚洲va精品va国产va| 人妻免费一区二区三区免费| 色先锋av资源中文字幕|