楊浩天,胡勇,王正
(四川大學網(wǎng)絡空間安全學院,成都610065)
如今,隨著自然語言處理技術發(fā)展得越來越成熟,文本隱寫已成為信息隱藏技術領域的研究熱點之一。其中基于語義分析的同義詞的替換技術是文本隱寫中的重要技術之一。在文本的信息隱藏技術中,利用同義詞替換技術查找隱藏載體,能更好地隱藏信息。因此,提升文本實體同義詞的提取準確率和查全率至關重要。但同義詞在文本中的分布大多都具有兩個特點,一是以特定的句子模式的方法[1-2],二是分布在相似的上下文的方法[3,4,5]。前者用于推斷兩個詞之間的關系,例如從句子“華夏子孫又叫為炎黃子孫”,可以推斷出“華夏子孫”和“炎黃子孫”是同義詞;從“中國和俄羅斯相鄰”可以推斷“中國”和“俄羅斯”不是同義詞。然而,在實際應用中,許多同義詞術語很少能夠同時出現(xiàn),導致查全率較低。后者詞出現(xiàn)相似的上下文中,如“永遠”和“永久”經常出現(xiàn)在相似的上下文中,可以判斷它們是同義詞。因此,基于上下文的方法通常表示詞語的分布特征,需要通過上下文的關系來判斷出現(xiàn)在相似上下文中的這一對詞語是否是同義詞。
而如今大多數(shù)同義詞提取方法,只考慮其中一個特征來提取同義詞,導致同義詞的準確率較低,但在基于句子模式特征方法和基于相似上下文特征的方法提取同義詞,在很大程度上是互補的。因此,本文將這兩個特征組合起來提取同義詞集,從而提升同義詞的準確率和查全率。
基于特定句子模式的方法是兩個詞同時在該句子模式中出現(xiàn)來推斷兩個詞之間的關系。在早期的研究中,研究人員主要依靠選擇句子模式來提取實體之間的關系。文獻[1]提出了一種提取實體同義詞模式的方法,并計算了該模式的置信度。文獻[2]提出一種用于提取動詞同義詞的自動化模式構建方法,并將多個模式組合在一起提取實體同義詞而不僅依賴單一的模式,從而提高了召回率。文獻[7]提出了一種自動擴展模式,主要是在啟發(fā)式搜索算法中利用每個實體的匹配數(shù)自動化擴展模式,并創(chuàng)建一個特征向量判別每一個實體的詞義是否相同。但由于模式度量的可靠性的局限,文獻[8]又提出利用通用模式提取語義關系。
基于上下文的方法認為具有相似上下文的詞有較大的可能性是同義詞。文獻[9]提出利用依存句法提取同義詞對應的二元依存關系,從大規(guī)模語料庫中計算二元依存關系的向量距離,得出最佳替換的同義詞集。文獻[10]提出一種限制語義相似度損失的方法,將同義詞典的分布特征轉化為詞向量進行同義詞提取。文獻[3]使用連續(xù)詞袋模型訓練詞嵌入模型進行最小監(jiān)督的同義詞提取。
針對特定模式的方法得到的結果往往更準確,但由于生成所有模式比較困難,并且許多同義詞有較大的可能性不會同時出現(xiàn)在句子中,所以提取的同義詞個數(shù)會嚴重受限。而基于上下文的方法識別出的結果語義相似度的準確率較低,不能保證一個詞的意思能完全被意思相近的另一個詞替代,從而導致提取的同義詞準確率較低,但個數(shù)相對較多。因此,本文采用將兩個特征結合的方法提取同義詞集。
圖1 實體同義詞集提取方法
從文本可以發(fā)現(xiàn),同義詞通常使用特定的提示詞來表示同義詞之間的關系,如“簡稱”和“縮寫為”。因此,利用模式特征來提高實體同義詞提取的準確率,并利用詞向量和信息熵相結合的方式生成提示詞。T={T1,T2,…,Tn}表示同義詞之間的一組模式,W={w1,w2,…,wn}表示T 中的所有實體名詞,詞wi的熵Ewi表示為:
其中L 和R 分別表示實體wi在一組模式中的左鄰居和右鄰居,Ewi的值越大,提示詞wi越重要。利用大量實體同義詞對進行標記句子,然后根據(jù)同義詞對提取同義詞之間的模式。由于在低維向量空間中計算兩個詞之間相似度的有效性已經得到證明。因此采用文獻[11]中的Word2vec 模型進行訓練,從而提取出句子模式的提示詞。根據(jù)提取出的提示詞,構建了如“x別稱為y”的模式。對于特定模式的方法得到的結果往往會更準確,但由于生成所有的模式比較困難,并且許多同義詞有較大的可能性不會出現(xiàn)在句子中,所以提取的同義詞個數(shù)會受到限制。
在傳統(tǒng)的向量模型中,當文本內容較多時可能產生維度爆炸現(xiàn)象,并且為了在具有相似上下文中得到的同義詞詞義更準確。因此,對基于模式提示詞的方法中已經訓練好的Word2vec 模型特征向量,采用文獻[12]中考慮的詞頻對特征項的影響,對CHI 模型進行優(yōu)化,優(yōu)化后CHI 模型為:
TF-IDF 是用來估計一個詞對某個文檔集中的某個文檔或整個語料庫的重要程度,TF-IDF 值表示該詞的重要程度會隨著它在語料庫中出現(xiàn)的頻率成反比,會隨著該詞在指定文檔中出現(xiàn)的次數(shù)成正比[13]。在改進后文本的向量空間,文本表征為一組特征項的集合,每個特征項都有對應的權值信息,表示該特征項的重要程度。設實體類別總數(shù)為N,則實體類特征向量為S(tk)={class1:wk1,class1:wk2,…,class1:wkn}維度為n。如果對于文本特征向量中的特征項tk同時屬于多個類別,則將該詞對應的類別設為1,否則設為0。用余弦相似度計算兩個特征項ti和tj之間的相似度:
確定了特征項ti和tj的相似度,再對相似度高的特征項合并加權。假設特征項ti和tj得到的相似度為sim( S(ti),S(tj)),若ti的TF-IDF 值較大,tj的TF-IDF 值較小,表明主要表達的是特征項ti。最終利用加權后的余弦相似度計算每個相似詞wi與目標實體e 的得分:
使具有較高余弦相似度的詞得分高,以提高同義詞提取的準確率,最終選擇得分較高的前N 個詞作為目標實體的同義詞候選詞。如目標實體為“世界”,可得到圖2 所示的實體同義詞。
圖2 “世界”的同義詞集
本文采用開放的中文百科知識庫作為數(shù)據(jù)源,其中互動百科和百度百科與維基百科類似,但比維基百科更大,是目前中國最大的在線百科全書。涵蓋了地理、技術、教育、經濟、科學和文化等領域大量的詞條。百科全書中的條目包括“標簽”,即條目所屬的域。根據(jù)“標簽”,分別從百度百科和互動百科爬取了14372和8823 個生活領域的中文網(wǎng)頁作為文本數(shù)據(jù)集。
將基于句子模式的特征和基于相似上下文特征相結合的方法進行實驗。在實驗過程中,首先采用詞向量原始文本數(shù)據(jù)集進行向量化,利用信息熵提取模式中的提示詞。再利用訓練好的Word2vec 模型,利用TF-IDF 對余弦相似度加權提取實體同義詞,最后根據(jù)基于模式提取的提示詞和基于相似上下文提取的實體同義詞綜合得分的方法提取得分較高的實體同義詞。
在實際應用中,為了輸出質量較高的同義詞集,需通過準確率和查全率率對輸出結果進行評估,但很難明確每個實體同義詞的個數(shù),因此,查全率采用每個實體的平均同義詞數(shù)進行評估:
在實驗過程中,采用基于句子模式的特征和基于相似上下文特征相結合的方法進行實驗,提取表示職位的實體同義詞集如表1。
表1 表示職位的同義詞集
分別采用基于句子模式的特征與基于相似上下文特征和本文將兩者結合的提取方法進行實驗,并計算每個實體的同義詞得分分別獲得同義詞的詞個數(shù)和準確率如表2。
表2 中文文本實體同義詞個數(shù)和準確率
從表2 可以得出,與單獨使用基于句子模式的方法和單獨使用基于相似上下文的方法相比,通過將兩者結合的方法,在同義詞個數(shù)上提升比較明顯,達到了7.82 個。而在準確率上,與單獨使用基于句子模式的方法相比較提升了10%,與單獨使用基于相似上下文的方法相比較提升了9%。實驗結果表明,采用將基于句子模式特征的方法和基于相似上下文特征的方法相結合的方法提取的實體同義詞個數(shù)和準確率上更優(yōu)。
本文結合了同義詞分布基于模式的特征和基于上下文的特征,對百度百科和互動百科中的目標實體提取同義詞。針對句子模式特征,我們采用詞向量和信息熵來提取模式中的提示詞,針對上下文的特征,對基于句子模式的方法訓練好的向量空間,合并詞義相近的特征項降維,利用詞頻對特征項詞義的余弦相似度進行相似度加權來提取實體同義詞。與單獨使用基于兩個特征的方法相比,經實驗驗證,該方法具有更高的提取準確率和查全率。
在下一步工作中,需要考慮結合中文文本的漢語特征和不同實體個數(shù)對文本中同義詞提取結果的影響和計算性能上進行優(yōu)化,進一步提高實體同義詞的提取準確率和計算性能。