亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合策略的中文短文本相似度計算

        2018-06-26 10:19:42宋冬云張祖平
        計算機工程與應用 2018年12期
        關鍵詞:中心詞短文語義

        宋冬云,鄭 瑾,張祖平

        中南大學 信息科學與工程學院,長沙 410083

        1 引言

        隨著互聯網信息技術的快速發(fā)展,人們可以方便地上傳或下載共享的文檔信息,這種以數字文檔為媒介的共享模式導致了海量文檔的存在。因此,如何在海量文檔中,快速精準地計算文檔相似度,從而進行有效的信息檢索變得尤其重要。

        句子相似度是衡量文檔相似度的重要依據,廣泛應用于自動文本摘要、信息檢索、文本分類和機器翻譯等領域[1-5]。然而,由于中文句子的語法結構復雜多變,語義語境的多異性等因素,增加了中文句子相似度計算的難度。為了有效地計算中文句子之間的相似度,專家學者提出了大量的方法,主要分為兩類:基于向量空間模型的方法[6-10]和基于語法語義模型的方法[11-14]。

        基于向量空間模型(Vector Space Model,VSM)的方法通過統(tǒng)計句子中詞語出現的頻率,將句子轉化成空間向量,從而將文本的相似度簡化為空間向量的距離。由于傳統(tǒng)的VSM方法只考慮詞語的頻率,忽略詞語在句子中的語義和語法結構,使得文本相似度計算不準確。因此,專家學者對傳統(tǒng)的VSM進行大量的改進[7-10]。文獻[7]在傳統(tǒng)VSM的基礎上,增加詞語的句法和語義信息,提高了詞語相似度計算的準確性。文獻[8]將概念作為句子的基本語言單元,通過概念抽象和專業(yè)分類,使得構建的空間向量在文本語義表達方面更為準確??紤]到專業(yè)詞匯在特定領域的重要性,文獻[9]使用領域權重概念對VSM進行改進,提高了VSM在特定領域的準確性。

        基于語法語義模型的方法通過現有預料構建詞語知識庫,并將詞語在知識庫中的關系距離,作為詞語之間的相似度。文獻[11]以HowNet為知識庫,提取語義關聯的詞語,并結合詞語出現的頻率計算句子的相似度,取得了較好的效果。文獻[12]將命名實體的信息內容加權,并結合句子的語法語義特征,綜合評估相似度。文獻[13]考慮到語句中不同詞語對語句之間相似度的不同貢獻程度,提出一種基于頻率增強的語句語義相似度算法,使得計算的相似度更加接近人們的主觀判斷。

        雖然,現有方法對傳統(tǒng)的VSM和語法語義模型進行了一定程度的改進,但是仍存在一定的局限性?;赩SM的方法通過向量的形式,機械地考慮了句子的字面語義,針對于特定領域的文本能取到較好的效果,但由于缺乏句型結構的分析,對于一般的文本,效果不佳,泛化能力有待提高。而基于語法語義的方法綜合考慮到了句子的成分組成和語法結構,計算的相似度更加符合人們的主觀判斷,但是,由于需要計算全部語法結構成分之間的相似度,因此,計算復雜度高,效率較低。因此,本文結合短文本的特點,分別使用基于層次聚類的關鍵詞權重計算和句子成分主干分析過濾的方法對兩者進行改進,并結合改進之后的方法,提出一種基于混合策略的文本相似度計算方法,完成中文短文本相似度計算任務。

        2 基于混合策略的中文短文本相似度計算

        文本相似度計算方法流程如圖1所示。首先,借助現有的工具對中文短文本進行預處理,得到詞語的詞性。然后,根據詞語的語義距離,使用層次聚類構建短文本聚類二叉樹,將文本的關鍵詞權重計算轉化為二叉樹中節(jié)點的深度問題,計算基于關鍵詞權重的相似度,與此同時,使用句子主干分析方法提取句子主要成分,改進傳統(tǒng)的語法語義模型,進而分別計算短文本的相似度。最后,綜合計算兩種相似度,得到文本最終的相似度。

        圖1 算法流程圖

        2.1 預處理

        通常文本相似度計算是基于詞語進行的,因此需要對中文短文本進行分詞、詞性標注和停用詞過濾等預處理操作,得到有效的詞語序列,及其相應的詞性。其中預處理操作如下:

        分詞:通過斯坦福分詞[15]工具對中文短文本進行分詞操作,得到一系列有序的詞語序列。

        詞性標注:將分詞之后得到的詞語序列使用斯坦福詞性標注工具[16]進行詞性標注操作,得到詞語相應的詞性。

        無效詞過濾:根據詞語詞性,將代表實際含義的實詞定義為有效詞,包括動詞、名詞、形容詞以及副詞,而將連詞、介詞、代詞等虛詞視為無效詞,并進行過濾,不予考慮。

        將預處理后的詞語集合分別使用2.2節(jié)和2.3節(jié)中的方法,計算基于關鍵詞權重的相似度和主干成分的語義相似度。

        2.2 基于關鍵詞權重的文本相似度計算

        TF-IDF是信息檢索領域常用的加權方法,廣泛應用于多文檔相似度計算領域[17-18]。該方法通過統(tǒng)計關鍵詞的頻率和逆文本頻率綜合計算關鍵詞在文檔中的權重,減低文檔中高頻低區(qū)分度詞語對相似度計算的貢獻程度。其中,逆文本頻率的主要思想是包含某詞條的文檔越少,則該詞條IDF的值越大,說明該詞條具有很好的類別區(qū)分能力。然而,由于中文短文本的詞語數量較少,無法構建大量的統(tǒng)計信息,得到的關鍵詞的逆文本頻率不準確,進而,無法構建TF-IDF權重向量??紤]到文本中,語義差異大的詞語,區(qū)分文本相似度的能力越強,進而獲得較高的權重。因此,針對于中文短文本的特性,本文提出了一種基于層次聚類構建詞語權重向量的文本相似度計算方法,其主要步驟如下:

        步驟1構建層次聚類單元。對句子Sen1和Sen2經過預處理之后,得到m和n詞語,將每一個詞語視為一個單獨的集合,記為C={cij},作為層次聚類的基本單元,其中cij表示第i個句子中第 j個詞語。將所有的集合C組合到一起,記為S={C1,C2,…,Cm+n}。

        步驟2聚類單元合并與更新。根據公式(1)計算S中兩兩聚類單元之間的相似度,選取相似度最大的兩個單元Ci和Cj進行合并,形成新的單元Ck=Ci?Cj,并更新Ck與S中其他單元之間的相似度距離。其中dis(cuv,cmn)表示計算兩個詞語之間的語義相似度,具體計算采用文獻[19]中的方法,u≠m表示詞語cuv和cmn分別來自于不同的句子。

        步驟3構建層次聚類二叉樹。重復步驟2,直到S中只含一個元素,構建層次聚類樹。圖2舉例說明句子“黨中央制定的路線方針政策得到落實”和“全黨自覺服從黨中央制定的方針政策”構建層次聚類樹的過程,其中節(jié)點中的編號表示聚類單元合并的順序。

        圖2 層次聚類二叉樹

        步驟4計算層次聚類樹的深度,構建權重向量W。計算步驟3中構建的層次聚類樹深度,記為H。將根節(jié)點的層次記為0,從上往下,依次統(tǒng)計每一個詞語所在的層次h。如果同一個詞語出現在樹的不同位置,則取均值,作為詞語的深度。然后,使用公式(2)計算每一個詞語的權重w,進而構建權重向量W。其中,對深度差加1的目的是為了避免詞語權重為0的情況。

        步驟5空間向量構建。統(tǒng)計Sen1和Sen2中詞語的頻率,構建頻率向量P1和P2。然后,結合頻率向量P和權重向量W,根據公式(3)構建句子的加權空間向量,記為V1和V2。

        步驟6基于關鍵詞權重的相似度計算。根據公式(4)計算向量V1和V2的余弦距離,并作為句子Sen1和Sen2之間的相似度。

        2.3 基于主干成分的文本相似度計算

        傳統(tǒng)的語法語義模型需要計算每一個詞語的相似度,效率較低,且實際中,通常句子的主要成分是決定句子語義的關鍵。因此,本文使用基于主干成分的方法對傳統(tǒng)語法語義模型進行改進,提高傳統(tǒng)語法語義模型的計算效率。

        2.3.1 句法結構和依賴關系提取

        斯坦福語法分析工具[20]是目前較為成熟的語法分析工具,并在自然語言處理領域得到了廣泛的應用[12,14]。該工具主要使用遞歸神經網絡(Recursive Neural Network,RNN),結合文本的詞性(Part-of-Speech,POS)以及語料庫中的依賴關系等特征,訓練得到語法分析模型,具有速度快、性能好等優(yōu)勢。

        本文借助斯坦福語法分析工具對2.1節(jié)預處理后的詞語序列及其詞性進行語法分析,得到中文短文本的句法結構和詞語之間的依賴關系。以句子“綁匪被警察制服了”為例,進行語法分析,其可視化結果如圖3所示。圖左側為可視化的句法結構樹,其中IP表示簡單從句;圖右側為詞語與詞語之間的依賴關系,例如nsubjpass表示被動名詞主語關系。

        圖3 語法分析可視化結果

        2.3.2 中心詞提取

        中心詞是貫穿整個句子結構的詞語,且能高度概括句子內容,也是有效提取句子主干成分的關鍵。然而,中文文本句法結構較為復雜,不同的句法結構對應的中心詞依賴關系構成也不相同,因此,需要針對不同的句型采取不同的策略進行中心詞提取。考慮到中文文本的結構,將中文短文本分為名詞性短語和簡單從句兩種類型,并根據句型決定中心詞的提取。

        首先,遍歷2.3.1小節(jié)中的依賴關系集合,統(tǒng)計每一個詞語對應的依賴關系的數量;然后,分別選取依賴數量最多的名詞和動詞作為候選中心詞。最后,根據句子的語法結構,判斷名詞或者動詞作為最終的中心詞,記為Core。其中,由于名詞性短語由名詞和對應修飾成分組成,因此選擇名詞作為中心詞;簡單從句通常由主謂、謂賓和主謂賓結構構成,謂語是貫穿句子結構的核心,因此選取動詞作為中心詞。

        2.3.3 主干成分提取

        根據中心詞,提取句子的主要成分,其包括主語成分集(Ss1,Ss2)、謂語成分集(Sv1,Sv2)、賓語成分集(So1,So2)和語態(tài)集(Sp1,Sp2)。對于只有主語成分的名詞性短語,將中心詞加入主語集合Ss中,并查找與Ss中有依賴關系的詞語,將與中心詞有并列依賴關系的名詞加入到Ss中。對于簡單從句主干成分,首先將中心詞加入謂語集合Sv,然后,根據中心詞與前后詞語之間的依賴關系,確定句子語態(tài)Sp。最后,遍歷語法樹,找到與中心詞存在依賴關系的詞語,并根據句子語態(tài)Sp,將語法樹中具有主語、名詞性主語、被動賓語等依賴關系的詞語存入主語集合Ss,將具有賓語、直接賓語、間接賓語、介詞賓語,被動主語等依賴關系的詞語存入賓語集合So。

        2.3.4 集合相似度計算

        假設集合S1和S2分別有m個詞語(c11,c12,…,c1m)和n個詞語(c21,c22,…,c2n),其中m

        其中,dis(c1i,c2j)表示計算兩個詞語之間的語義相似度,ε為調節(jié)因子,具體的計算采用文獻[19]中的方法,其文獻中ε取值為0.2。

        2.3.5 基于語法語義的相似度計算

        綜合2.3.3小節(jié)中得到的主要成分集合和2.3.4小節(jié)中的集合相似度,使用公式(6)計算句子相似度。其中,if(Sp1,Sp2)用于計算語態(tài)相似度,如果語態(tài)相同,取值為1,否則,取值為0。

        2.4 混合策略相似度計算

        對句子Sen1和Sen2經過2.2節(jié)和2.3節(jié)之后,分別得到句子相似度SimVSM(Sen1,Sen2)和SimMP(Sen1,Sen2),根據公式(7)對兩者相似度加權計算最終的文本相似度。

        其中,σ是權重調節(jié)因子,具體取值在實驗中進行分析。

        通常,相似度算法計算文本相似度得分屬于[0,1]。為進行性能評估,設定相似度大于0.6的,則視為文本相似,否則視為不相似。

        3 實驗及分析

        本文基于HowNet[21]詞典,以Stanford工具進行句子的語法分析,在人工構建的測試集上,對算法的各個參數以及性能進行評價,并通過與其他的方法進行比較分析,以驗證本文方法的有效性。

        3.1 數據集

        目前國際上還沒有專門針對中文短文本相似度計算的公共測試集,文獻[14]中采用人工構建的50對中文語句作為數據集。本文為了能更好地體現算法的有效性,分別在兩個數據集上進行了實驗。數據集I是通過知網、百度、Google搜索等平臺,人工分析并組合,精心構建的200對句子,記為TEST-I,其中100對相似,100對不相似。數據集II是通過不同的翻譯工具生成的2 000組相似句子對,再隨機生成2 000組負類,共計4 000組句子對,記為TEST-II。

        3.2 評估標準

        本文采用信息檢索領域常用的召回率R、準確率P和F得分評估算法性能。其中F得分定義如下:

        3.3 權重因子分析

        本文將基于關鍵詞權重的相似度和主干成分的語義相似度進行加權,從而得到最終的文本相似度,因此對不同權重因子σ進行實驗,確定最優(yōu)的權重因子。本實驗采用控制變量法,以0.1的步長對σ取不同的值,在TEST-II上進行實驗,結果如圖4所示。

        圖4 不同權重因子的實驗結果比較

        從圖4可以發(fā)現,隨著σ的變化,文本相似度的召回率R、準確率P和F得分大致呈現先增加后減少的趨勢。當σ在0.5附近時,召回率R、準確率P和F得分均達到最優(yōu),分別為0.925、0.874和0.899。其他情況下,算法性能均有所下降。因此本文對σ取值為0.5,進行后續(xù)的性能評估。

        3.4 相似度算法性能評估

        為了驗證本文方法的有效性,將本文方法與現有方法數據集I、數據集II數據集上進行實驗,其中:

        方法1傳統(tǒng)的向量空間模型(VSM)的方法,具體細節(jié)詳見參考文獻[6]。

        方法2基于語法語義的方法,具體細節(jié)詳見參考文獻[14]。

        方法3本文基于關鍵詞權重的方法。

        方法4本文基于主干成分的方法。

        方法5本文基于混合策略模型的方法。

        表1展示了不同方法在數據集I上的文本相似度計算性能。從表中可以看出,傳統(tǒng)的向量空間模型的召回率R、準確率P和F值分別為0.796、0.760和0.778,本文提出的基于關鍵詞權重的方法文本相似度計算性能分別為0.852、0.813、0.832,相對于傳統(tǒng)的向量空間模型,召回率R、準確率P和F值分別提高了0.056、0.053和0.054,這是因為本文基于關鍵詞權重的方法采用詞語語義距離和層次聚類相結合,從句子本身獲得關鍵詞權重,使得文本相似度計算更加準確,進而提高了文本相似度性能。此外,從表中還可以看出,本文基于主干成分的方法計算得到的文本相似度性能分別為0.836、0.821和0.828,相對于方法3在準確率相當的情況下,召回率也能有一定的提升。最后,將本文提出的基于關鍵詞權重和基于語法語義方法相結合,形成混合策略模型的方法,其計算的文本相似度性能分別為0.866、0.856和0.861,相對于單一方法,具有明顯的提高,這是因為本文提出的基于混合策略的模型,綜合考慮了詞語的頻率,權重和語法語義,使得文本相似度計算更加準確。

        表1 TEST-I的評測結果

        為了進一步驗證本文方法的有效性,將上述5種方法在更大的數據集TEST-II上進行實驗,其評測結果如表2所示。

        表2 TEST-II的評測結果

        從表2中可以發(fā)現,本文基于混合策略的文本相似度計算方法的召回率R、準確率P和F值分別為0.925、0.874和0.899,在大數據集上,性能仍然高于其他文本相似度計算方法,進一步說明了本文方法的有效性。

        4 結束語

        文本相似度計算是自然語言處理中的重要課題。本文針對中文短文本,提出了一種基于混合策略的短文本相似度計算方法。該方法考慮到關鍵詞權重對文本相似度計算的重要性,采用詞語語義距離和層次聚類構建詞語聚類二叉樹,并根據詞語在聚類樹中的位置,構建權重向量,改進傳統(tǒng)的基于VSM的方法。此外,根據中文的語義表達習慣,并從主干成分的重要性角度出發(fā),提出一種基于句子主干成分的相似度計算方法,實現文本高效的語義相似度計算。最后,綜合關鍵詞加權相似度和主干成分相似度,得到最終的基于混合策略的文本相似度。將本文方法與現有方法在不同數據集上進行實驗,結果表明本文方法在文本相似度計算的召回率R、準確率P和F值上高于其他方法,說明本文方法的有效性。

        [1]Ferreira R,Cabral L D S,Lins R D,et al.Assessing sentence scoring techniques for extractive text summarization[J].Expert Systems with Applications,2013,40(14):5755-5764.

        [2]Yu L C,Wu C H,Jang F L.Psychiatric document retrieval using a discourse-aware model[J].Artificial Intelligence,2009,173(7/8):817-829.

        [3]Liu T,Guo J.Text similarity computing based on standard deviation[J].Lecture Notes in Computer Science,2005,3644:456-464.

        [4]Magnolini S,Vo N P A,Popescu O.Analysis of the Impact of machine translation evaluation metrics for semantic textual similarity[J].Lecture Notes in Computer Science,2016,10037:450-463.

        [5]Nguyen H T,Duong P H,Le T Q.A multifaceted approach to sentence similarity[M]//Integrated Uncertainty in Knowledge Modelling and Decision Making.[S.l.]:Springer International Publishing,2015.

        [6]Salton G.The SMART retrieval system—Experiments in automatic document processing[M].Upper Saddle River.NJ,USA:Prentice-hall,Inc,1971.

        [7]Zheng C,Qing L I,Liu F J.Improved VSM algorithm and itsapplication in FAQ[J].ComputerEngineering,2012,38(17):201-204.

        [8]Liang X,Wang D,Huang M.Improved sentence similarity algorithm based on VSM and its application in question answering system[C]//2010 IEEE International Conference on Intelligent Computing and Intelligent Systems(ICIS),2010:368-371.

        [9]蘇小虎.基于改進VSM的句子相似度研究[J].計算機技術與發(fā)展,2009,19(8):113-116.

        [10]Yang S,Lou X Y.Research on sentence similarity based on VSM with semantic of word[J].Journal of Chengdu University of Information Technology,2012.

        [11]趙玉茗,徐志明,王曉龍,等.基于詞匯集聚的文檔相關性計算[J].電子與信息學報,2008,30(10):2512-2515.

        [12]Nguyen H T,Duong P H,Le T Q.A multifaceted approach to sentence similarity[M]//Integrated Uncertainty in Knowledge Modelling and Decision Making.[S.l.]:Springer International Publishing,2015.

        [13]廖志芳,邱麗霞,謝岳山,等.一種頻率增強的語句語義相似度計算[J].湖南大學學報:自然科學版,2013,40(2):82-88.

        [14]廖志芳,周國恩,李俊鋒,等.中文短文本語法語義相似度算法[J].湖南大學學報:自然科學版,2016,43(2):135-140.

        [15]Chang P C,Galley M,Manning C D.Optimizing Chinese word segmentation for machine translation performance[C]//The Workshop on Statistical Machine Translation,2008:224-232.

        [16]Toutanova K,Klein D,Manning C D,et al.Feature-rich part-of-speech tagging with a cyclic dependency network[C]//ConferenceoftheNorth AmericanChapter of the Association for Computational Linguistics on Human Language Technology,2003:173-180.

        [17]Erra U,Senatore S,Minnella F,et al.Approximate TFIDF based on topic extraction from massive message stream using the GPU[J].Information Sciences,2015,292:143-161.

        [18]Mikhaylov D V,Kozlov A P,Emelyanov G M.An approach based on TF-IDF metrics to extract the knowledge and relevant linguistic means on subject-oriented text sets[J].Computer Optics,2015,39(3):429-438.

        [19]劉群,李素建.基于《知網》的詞匯語義相似度計算[D].北京:中國科學院計算技術研究所,2002.

        [20]Socher R,Bauer J,Manning C D,et al.Parsing with compositional vector grammars[C]//Meeting of the Association for Computational Linguistics,2013:455-465.

        [21]Dong Z,Dong Q.HowNet-a hybrid language and knowledge resource[C]//Proceedings International Conference on Natural Language Processing and Knowledge Engineering,2003:820-824.

        猜你喜歡
        中心詞短文語義
        Why I ride
        語言與語義
        KEYS
        Keys
        同位語從句與中心詞的句法關系
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        認知范疇模糊與語義模糊
        短文改錯
        短文改錯
        準確把握“中心詞”輕松突破高考英語閱讀理解題
        考試周刊(2013年89期)2013-04-29 00:44:03
        中文字幕日韩精品亚洲精品| 国产又黄又大又粗视频| 中文字幕经典一区| 国产高清精品在线二区| 国产三级黄色免费网站| 中文无码精品a∨在线观看不卡| 欧美日韩亚洲精品瑜伽裤| 国产在线观看精品一区二区三区| 国产精品亚洲一区二区三区16| 亚洲国产精品久久电影欧美| 亚洲av无码片一区二区三区| 麻豆AV无码久久精品蜜桃久久| 一区二区三区乱码专区| 久久久免费精品re6| 欧美视频二区欧美影视| 久久婷婷免费综合色啪| 日韩中文字幕一区二区二区| 国产99久久久国产精品免费看| 欧美日韩性视频| 熟妇人妻丰满少妇一区| 人人妻人人澡人人爽国产| 三级在线看中文字幕完整版| 亚洲一区二区高清精品| 中文字幕人妻精品一区| 日韩av激情在线观看| 欧美丰满熟妇bbbbbb百度| 国产三级在线观看性色av| 激情精品一区二区三区| 欧美怡红院免费全部视频| 亚洲专区一区二区在线观看| 国产成人综合久久大片| 熟女人妇 成熟妇女系列视频| 亚洲av无码一区二区二三区下载| 日本二区三区视频免费观看| 国产精品国产三级第一集| 青青久在线视频免费观看| 亚洲国产成人资源在线桃色| 日本一区二区三区不卡在线| 中文亚洲av片在线观看| 国产AV无码一区精品天堂| 在线小黄片视频免费播放|