亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于HowNet語義計算的綜合特征詞權(quán)重計算方法

        2018-10-17 08:38:04孫麗莉張小剛
        統(tǒng)計與決策 2018年18期

        孫麗莉,張小剛

        (1.西安交通大學(xué) 人文學(xué)院,西安 710049;2.塔里木大學(xué)a.學(xué)報編輯部;b.信息工程學(xué)院,新疆 阿拉爾 843300;3.浙江大學(xué) 計算機學(xué)院,杭州 310027)

        0 引言

        隨著信息時代的發(fā)展,產(chǎn)生的文本數(shù)據(jù)越來越多,文本數(shù)據(jù)挖掘相關(guān)研究變得越來越重要。其中,特征詞權(quán)重計算方法成為文本數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點。與傳統(tǒng)的基于統(tǒng)計信息的特征詞權(quán)重計算方法相比,基于語義的方法從語義邏輯的角度出發(fā),符合人類感知和認識事物的規(guī)律,得到了國內(nèi)外研究人員的廣泛關(guān)注。目前基于語義的特征詞權(quán)重計算方法研究已取得一些成果,例如利用詞頻或詞首現(xiàn)位置進行計算的研究(以英文版和中文版WordNet為基礎(chǔ))[1,2];利用語義擴展度和詞匯鏈進行計算的研究(以《同義詞詞林》為基礎(chǔ))[3];利用統(tǒng)計信息中的詞頻(termfrequency,TF)和反文檔頻率(inversedocumentfrequency,IDF)進行計算的研究(以HowNet為基礎(chǔ))等[4,5]。與國外研究相比,國內(nèi)研究人員主要以向量空間模型(Vector Space Model,VSM)為基礎(chǔ),利用文本的TF和IDF來計算特征詞權(quán)重。但傳統(tǒng)的TF-IDF方法在計算特征詞權(quán)重時僅僅考慮到了該詞在文本集中的分布數(shù)量,并沒有考慮到該詞在文本中的結(jié)構(gòu)信息(分布位置)和特征詞之間的語義聯(lián)系(與特征詞詞義相似的詞在整個文本集中的分布情況),從而影響了特征詞權(quán)重計算方法的有效性。

        本文提出了一種綜合的文本特征詞權(quán)重計算方法,該方法在計算特征詞權(quán)重時綜合考慮了特征詞在文本中的詞頻、位置和詞義信息。

        1 基于向量空間模型的TF-IDF特征權(quán)重計算方法

        目前最常用的特征詞權(quán)重計算方法是基于統(tǒng)計信息的方法,這種方法根據(jù)文本中詞語的統(tǒng)計信息(如詞頻、詞之間的同現(xiàn)頻率等)來計算特征詞的權(quán)重。例如傳統(tǒng)的TF-IDF方法是利用向量空間模型中的統(tǒng)計信息來計算權(quán)重的。

        1.1 向量空間模型簡介

        向量空間模型是由Salton等在20世紀70年代提出的,它把對文本相似性的處理簡化為向量空間中向量的相似性計算[6]。其中,特征詞的權(quán)重計算是直接影響基于VSM的文本相似度計算精度的關(guān)鍵因素[7]。

        獲得文本特征向量后,文本Di和Dj的相似度就可以通過它們特征向量之間的關(guān)系來度量。目前主流的文本相似度值計算方法是計算兩個文本特征向量的余弦相似度[8,9]。假定兩個文本之間的特征項向量分別可表示為,那么它們之間的相似度度量方法如式(1)所示:

        式中Sim值越大表示兩文本的相似度越高,文本的特征詞權(quán)重計算直接關(guān)系到文本間相似度值的準確性和文本聚類的效果[10]。

        1.2 傳統(tǒng)TF-IDF特征權(quán)重計算方法

        傳統(tǒng)的TF-IDF方法是以向量空間模型為基礎(chǔ),利用詞頻TF和反文檔頻率IDF來計算特征詞權(quán)重的[11]。它的理論基于香農(nóng)信息學(xué)的一個假設(shè):一個特征詞的權(quán)重與它在一個文檔中出現(xiàn)的頻率TF成正比,與逆文檔頻率IDF成反比。即如果某個特征項在所有文本中出現(xiàn)的頻率高,那么它所包含的信息熵就越少,如果這個特征項在少量文本中出現(xiàn)的頻率高,那么它包含的信息熵就多[12]。依據(jù)這種假設(shè),傳統(tǒng)的TF-IDF權(quán)重計算公式如式(2)所示:

        其中,tfik表示特征詞tk在文檔Di中的頻數(shù),idfik表示特征詞tk在整個文本集中除Di外其他文檔中出現(xiàn)的頻數(shù)。N表示整個文本集的文本數(shù),nk表示整個文本集中出現(xiàn)特征項tk的文本數(shù),α是一個調(diào)節(jié)系數(shù)(常量),通常設(shè)為0.01。

        1.3 傳統(tǒng)TF-IDF特征權(quán)重計算方法存在的問題

        從上述可知,傳統(tǒng)TF-IDF是基于統(tǒng)計學(xué)的權(quán)重計算方式。該方法優(yōu)點是簡單快速,結(jié)果比較符合實際情況。缺點主要有:一是在VSM中,傳統(tǒng)TF-IDF算法沒有體現(xiàn)特征詞在文本中的結(jié)構(gòu)信息。對于文本文檔而言,權(quán)重的計算方法應(yīng)該體現(xiàn)出文本的總體信息,包括特征詞的詞頻、詞義,位置等。二是特征項被假定為是完全獨立的。這樣就將特征詞之間的詞義相似關(guān)系,當(dāng)成完全不相干的兩個詞來處理,缺失了語義信息。因此本文將綜合考慮這些因素,使權(quán)重同時兼顧詞頻、位置和詞義信息。

        2 一種新的綜合TF-IDF特征詞權(quán)重計算方法

        本文提出的綜合TF-IDF權(quán)重計算方法是在傳統(tǒng)TF-IDF方法依賴詞頻信息的基礎(chǔ)上,增加了特征項的結(jié)構(gòu)信息(位置)和特征項之間的語義信息。

        2.1 綜合TF-IDF方法總體思路

        針對原始待測文本Di,依據(jù)VSM用特征向量表示如式(3)所示:

        本文提出的綜合TF-IDF特征詞權(quán)重計算方法總體思路如下:對文本Di依據(jù)VSM形成的特征向量vi,假設(shè)采用傳統(tǒng)TF-IDF方法得到其中特征詞tij(1≤j≤n)的初始詞頻權(quán)重為wij(1≤j≤n),將wij結(jié)合位置系數(shù)pij后計算得到綜合詞頻權(quán)重wpj,再將wpj結(jié)合語義信息系數(shù)oij計算得到綜合詞頻-詞義權(quán)重woj。具體計算過程如式(4)所示:

        因此,本文方法彌補了傳統(tǒng)TF-IDF方法在特征項權(quán)重計算中丟失的部分重要信息,從理論上完善了特征詞權(quán)重計算方法的完整性。

        2.2 詞頻信息中的位置考量

        一些研究也證明,利用與標(biāo)題相似度較大的語句來提取特征詞進行分類時,分類效果較好[13]。就像句子中有關(guān)鍵詞一樣,通常文本中也有中心語句和普通語句,中心語句中保含的特征詞就比普通語句更能反映出文本內(nèi)容。所以本文對處于不同位置的特征詞分別賦予不同的系數(shù),然后加權(quán)乘以特征詞的詞頻,以提高文本表示的效果。

        在特征提取之前對文本的各個部分的重要程度(在表達文本內(nèi)容時的貢獻大?。┘右詤^(qū)分。為了體現(xiàn)特征詞對文本內(nèi)容貢獻的差別,給不同位置的特征詞賦予對應(yīng)的“權(quán)重系數(shù)”。以新聞類文本為例(只有標(biāo)題和正文),本文將文本位置分成三類。第一類:位于文本的標(biāo)題位置,賦予權(quán)重系數(shù)α1;第二類:位于文本正文中的開頭語句,賦予權(quán)重系數(shù)α2;第三類:除開頭語句外的正文語句,賦予權(quán)重系數(shù)α3,且α1>α2>α3。

        按照傳統(tǒng)TF-IDF方法中對于文本Di中的特征詞tij根據(jù)頻度賦予權(quán)重,則結(jié)合特征項位置系數(shù)pij后的特征向量vp上各維的權(quán)重可由式(5)計算獲得。

        由式(5)獲得的文本特征向量vp,每個特征詞的權(quán)重綜合了詞頻與位置信息兩個要素,更能表達特征詞的權(quán)重。vp特征向量如式(6)表示:

        2.3 詞義信息中的相似度考量

        現(xiàn)有的詞語語義相似度主要可以分為基于統(tǒng)計信息的方法和基于本體的方法。其中,基于本體的方法主要依靠語義詞典中概念間結(jié)構(gòu)層次關(guān)系,相關(guān)研究包括基于WordNet的計算方法、基于HowNet的和基于同義詞詞林的計算方法等。

        這里,βi(1≤i≤4)表示第i項義原描述式計算所得相似度占整體相似度的比率。其中,第一獨立義原描述式代表了一個概念最主要的特征,其權(quán)值所占比例βi最大。依據(jù)Sim1到Sim4對于總體相似度所起作用的依次遞減,權(quán)值所占比例也依次遞減,即β1≥β2≥β3≥β4。另外,為了保證權(quán)重的完整性,要求β1+β2+β3+β4=1。

        式中nk表示包含特征詞tij的文本數(shù)目;ui表示出現(xiàn)在其他文本中與特征詞tij語義相似特征詞的文本數(shù)目;1+r表示特征詞tij及與特征詞tij語義相似的詞語數(shù)量。

        本文在參考文獻[4]權(quán)值計算方法的基礎(chǔ)上,結(jié)合語義后的綜合TF-IDF公式如式(8)所示:

        式中對參數(shù)tfik加以改進,這里tfik表示在文本Di中出現(xiàn)的特征詞tij及與tij語義相似的特征詞之和的平均值,改進后的tfik更能顯示特征詞及其語義相似詞的作用;改進后的idfik表示在文本Di以外的其他文本中特征詞tij及與tij語義相似的特征詞的平均分布情況;這里N表示文本集中文本的總數(shù);Nk表示出現(xiàn)特征詞tij及與tij語義相似特征詞的文本數(shù)目之和的平均值。Nk的計算公式如式(9)所示:

        3 實驗設(shè)計與結(jié)果分析

        特征詞權(quán)重計算通常是為文本相似度計算和文本聚類服務(wù)的,所以本文利用文本相似度計算及相似度聚類的效果來檢驗權(quán)重計算方法的優(yōu)劣。對文本相似度的效果檢驗,本文采用文本區(qū)分度指標(biāo)。對相似度聚類效果的檢驗,本文采用相似度計算結(jié)果聚類的查準率、查全率和F-Score指標(biāo)。

        3.1 實驗數(shù)據(jù)說明

        實驗數(shù)據(jù)采用的是哈爾濱工業(yè)大學(xué)語言技術(shù)平臺LTP中多文檔自動文摘語料庫中開放的10%語料[2]。本文實驗數(shù)據(jù)以同類6篇,異類3篇為例進行深入分析(朝鮮核問題6篇,法國油輪爆炸、菲律賓南部城市連環(huán)爆炸和航天專家??诒粴⒅黝}各1篇)。通過分析語料發(fā)現(xiàn),可以表達文本主要意思的是句子的主干成分,而主干成分主要由名詞、動詞這類實詞構(gòu)成,所以本文選擇名詞和動詞作為代表文本的特征項,設(shè)置關(guān)鍵詞表為20維(名詞10個,動詞10個)。

        3.2 實驗思路與結(jié)果分析

        (1)實驗思路:首先,對實驗數(shù)據(jù)進行分詞,去虛詞、停用詞后獲取關(guān)鍵詞表;其次,利用本文提出的綜合TF-IDF的權(quán)重計算方法和傳統(tǒng)的TF-IDF方法分別計算特征詞權(quán)重;然后,利用余弦相似度計算公式(1)計算文本相似度;最后,對得到的文本相似度結(jié)果進行區(qū)分度比較和聚類實驗。

        農(nóng)業(yè)機械的保養(yǎng)要嚴格按照使用說明書及當(dāng)?shù)剞r(nóng)機管理部門規(guī)定的內(nèi)容進行。機車的高級保養(yǎng)應(yīng)在機務(wù)管理人員指導(dǎo)下在室內(nèi)進行。燃油動力機械要做到四小漏 (小漏油、小漏水、小漏氣、小漏電)、五凈(油、水、氣、機器、工具)、六封閉(柴油箱口、汽油箱口、機油加注口、機油檢視口、汽化器、磁電機)、一完好(技術(shù)狀態(tài)完好);配套農(nóng)具要實行常年修理,做到三靈活(操作、轉(zhuǎn)動、升降靈活)、五不(不曠、不鈍、不變形、不銹蝕、小不件)、一完好(技術(shù)狀態(tài)完好)。

        在利用傳統(tǒng)TF-IDF方法取得詞頻相似度后,本文提出的綜合TF-IDF(包含詞頻、位置、詞義)相似度計算步驟如下:

        步驟1:文本詞頻相似度計算。將采用傳統(tǒng)TF-IDF方法取得的特征詞詞頻分別與其位置權(quán)重系數(shù)相乘,得到特征詞綜合詞頻數(shù)據(jù),并采用取余弦值的方法計算文本的詞頻相似度,相似度取值范圍為[0-1]。本文采用的語料為新聞類文本,只包括標(biāo)題和正文,所以設(shè)置位置系數(shù)三種,標(biāo)題、開頭句、正文,分別賦予權(quán)重系數(shù)α1=2,α2=1.5,α3=1。

        步驟2:文本詞義相似度計算。以步驟1中得到的特征詞向量相對應(yīng)的次序,將10個名詞,10個動詞依次采用公式(7)求詞義的相似度;然后采用取余弦值的方法計算文本的詞義相似度,相似度取值范圍為[0-1]。這個步驟是對特征詞進行語義相似度的合并,本文設(shè)置閾值0.6,即與特征詞tij語義相似的詞語是與tij語義相似度大于0.6的詞語;否則認為不相關(guān),取值為0。

        步驟3:文本綜合相似度計算。將步驟1所得的綜合詞頻相似度結(jié)果與步驟2所得的詞義相似度結(jié)果加權(quán)求和求得綜合相似度。其中,詞頻相似度占比0.7,詞義相似度占比0.3。

        說明:步驟2中詞義相似度計算的實驗軟件采用中國科學(xué)院計算技術(shù)研究所開發(fā)的軟件WordSimilarity[2]。本文設(shè)置軟件WordSimilarity中的各參數(shù)取值分別為:β1=0.5(表示第一項義原描述式β1所占比例0.5),β2=0.2,β3=0.17,β4=0.13;α=1.6;γ=0.2;δ=0.2。

        (2)實驗結(jié)果一:文本相似度結(jié)果的區(qū)分度比較

        文本區(qū)分度,具體來講就是同類文本相似度與異類文本相似度之間的差。對本文而言,就是分別對本文中采用的綜合TF-IDF權(quán)重計算方法和傳統(tǒng)TF-IDF方法計算得到的文本相似度進行比較,哪種權(quán)重方法的差值越大,則表示該方法的區(qū)分性越好。以A1為例,文本區(qū)分度比較統(tǒng)計數(shù)據(jù)如表1所示。

        表1 單個文本A1與同類、異類文檔區(qū)分度統(tǒng)計

        由表1計算結(jié)果可知本文中改進的方法與傳統(tǒng)的TF-IDF權(quán)重方法相比,從理論上完善了文本相似度比較的定義,并且顯著改善了區(qū)分度的區(qū)分效果。

        (3)實驗二:文本相似度結(jié)果的聚類比較

        因為文本聚類可以發(fā)現(xiàn)最近鄰文檔,所以本文利用文本集中某個文檔與同類、異類文檔相似度聚類的效果來評價相似度算法,進而反推出特征詞權(quán)重計算方法的優(yōu)劣。文檔聚類是以文檔中頻繁出現(xiàn)的術(shù)語或詞的列表為依據(jù),利用相似度函數(shù)將文檔集合分成不同組的過程[4]。

        為了評價本文提出的權(quán)重計算方法的效果,本文利用文本相似度結(jié)果進行聚類,考慮了三種不同的評價措施:查準率(Accuracy),查全率(Precision)和綜合指標(biāo)F-Score來衡量算法的性能。

        查準率P(i,j)是指屬于類別j的所有文本中,與實際相符的文本所占的比例。運算規(guī)則如式(10)所示:

        式中nj是聚類j的文本數(shù)目,nij是聚類j中隸屬于類別i的文本數(shù)目。

        查全率R(i,j)是指專家判定的屬于類別j的文本中,正確歸類的文本所占的比例。運算規(guī)則如式(11)所示:

        其中,ni是類別i的文本數(shù)目,nij是聚類j中隸屬于類別i的文本數(shù)目。

        F-Score是一種利用查準率和查全率來進行聚類效果評價的綜合指標(biāo)。F-Score運算規(guī)則定義如下:

        式中P(i,j)代表查準率,R(i,j)代表查全率。利用這三種指標(biāo)可以判斷每一篇文本在聚類后是否被正確劃分到了所屬類別。

        在此實驗樣本中,以相似度0.45作為文本相似度結(jié)果聚類同類的臨界值(即大于0.45為同類,否則為異類)。相似度聚類結(jié)果如表2所示。

        表2 文本A1與同類、異類文檔相似度聚類結(jié)果統(tǒng)計

        如表2所示,本文分別利用傳統(tǒng)的TF-IDF方法和增加位置、語義信息后的綜合TF-IDF方法,以文本集中文檔A1為標(biāo)準與其余文檔進行相似度結(jié)果聚類實驗。

        實驗結(jié)果在查準率、查全率以及F-Score指標(biāo)下的對比情況如圖1所示。

        圖1 基于查全率、查準率和F-Score系數(shù)的文本相似度結(jié)果聚類比較

        由圖1看出,在本樣本中,采用本文提出的綜合TF-IDF權(quán)重計算方法得到的文本相似度聚類結(jié)果,其查準率、查全率以及F-Score系數(shù)均高出基于傳統(tǒng)的TF-IDF方法。

        綜上顯示:在文本特征詞權(quán)重算法中,計算過程中增加特征詞的位置信息和特征詞間的語義信息,能夠在計算文本相似度時有效地提高文本間的區(qū)分度;并且能夠明顯提高實驗文檔與同類、異類文檔的相似度聚類查準率、查全率和F-Score系數(shù)指標(biāo)。

        4 總結(jié)

        傳統(tǒng)的利用向量空間模型的文本特征詞提取方法,采用TF-IDF計算文本特征詞的權(quán)重時只考慮了文本中的詞頻因素,體現(xiàn)不出特征詞的位置信息,而且在計算權(quán)重的過程中把每個特征詞視為孤立的,忽略了特征詞之間的語義相似關(guān)系,因此降低了提取特征詞的準確性。本文針對上述問題,提出了一種綜合的文本特征詞權(quán)重計算方法。此方法首先利用結(jié)構(gòu)信息(位置)對傳統(tǒng)TF-IDF方法得到的特征詞權(quán)重進行矯正,然后利用基于HowNet的語義相似度算法實現(xiàn)對特征詞權(quán)重的詞義修正。因此,本文的提出的綜合TF-IDF權(quán)重計算方法兼顧了特征詞的詞頻、位置和詞義信息,從理論上完善了特征詞權(quán)重計算方法的完整性。實驗結(jié)果也表明,該方法能夠在一定程度上提高文本相似度計算的區(qū)分度和聚類效果。

        国产一区二区不卡av| 国产av影片麻豆精品传媒| 在线精品日韩一区二区三区| 青青草手机成人自拍视频| 久久国产精品婷婷激情| 国产日产欧洲系列| 亚洲国产欧美在线成人| 精品一区二区三区人妻久久| 丝袜美腿丝袜美腿丝袜美腿丝袜 | 日韩av一区二区三区在线观看| 亚洲女优中文字幕在线观看| 亚洲日韩一区精品射精| 日韩欧美中文字幕不卡| 有码中文字幕一区二区| 日韩乱码中文字幕在线| 国产在线精品一区在线观看| 在线观看无码一区二区台湾| 亚洲精品中文字幕码专区| 成人欧美一区二区三区黑人| 国产大陆亚洲精品国产| 国产精品三级在线专区1| 国产白浆一区二区三区佳柔| 日本真人边吃奶边做爽动态图 | 手机看黄av免费网址| 人妻激情偷乱一区二区三区| av无码特黄一级| 在线观看国产白浆一区三区| 中文字幕人妻少妇引诱隔壁| 一级呦女专区毛片| 中国av一区二区三区四区| 狠狠躁天天躁无码中文字幕图| 国产乱子伦一区二区三区| 欧亚精品无码永久免费视频| 日本一区二区三区四区啪啪啪| 中文无码精品a∨在线观看不卡 | 国产精品一区二区久久乐下载| 久久精品国产亚洲不av麻豆| 操国产丝袜露脸在线播放| 成人免费a级毛片无码片2022| 亚洲精品无码av片| 亚洲免费视频一区二区三区|