亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進特征權(quán)重的短文本聚類算法①

        2018-09-17 08:49:42郭銳鋒
        計算機系統(tǒng)應(yīng)用 2018年9期
        關(guān)鍵詞:表情符號特征詞短文

        馬 存,郭銳鋒,高 岑,孫 詠

        1(中國科學院大學,北京 100049)

        2(中國科學院 沈陽計算技術(shù)研究所,沈陽 110168)

        1 相關(guān)工作

        隨著移動終端智能化的發(fā)展,紛繁多樣的短文本信息充斥著互聯(lián)網(wǎng)的各個角落.由于短文本信息少,口語化嚴重,網(wǎng)絡(luò)新詞多,使用傳統(tǒng)的文檔聚類會導致向量空間模型高度稀疏,缺乏語義信息,所以需要針對短文本的固有特點尋求一種有效的模型表示和聚類方法.

        傳統(tǒng)的向量空間模型,主要通過特征詞和權(quán)重來表示短文本數(shù)據(jù),它的缺點也很明顯,它忽略了同義詞在語義中的貢獻并且會出現(xiàn)特征稀疏的問題,進而造成維數(shù)災(zāi)難.為了解決短文本特征稀疏的問題,一些學者研究了外部信息增強的方法,對短文本特征進行擴展,從而提高聚類效果[1–3].然而語義擴展方法并沒有解決“維數(shù)災(zāi)難”的問題,還帶來了新的問題,比如聚類的效果完全依賴于知識庫的豐富程序,無法識別新興的網(wǎng)絡(luò)新詞,比如 2016 年流行的“老司機”,“發(fā)車了”等.另有一部分學者通過原始高維特征詞空間映射到低維的潛在語義空間或主題空間,挖掘文本潛在的語義結(jié)構(gòu)[4–6].但這種模型忽略了低頻詞的貢獻,尤其是短文本中貢獻度高的低頻詞,導致上述模型應(yīng)用于網(wǎng)絡(luò)短文本中的效果很差.

        詞向量是一種基于大量未標注的語料學習而來的低維分布式實數(shù)向量,充分挖掘了同義詞之間的共現(xiàn)關(guān)系[7,8].基于此,本文結(jié)合短文本的特點和詞向量的優(yōu)勢,提出一種改進的特征詞權(quán)重并結(jié)合松弛詞語移動距離(RWMD)的短文本聚類算法.首先,定義多因子權(quán)重規(guī)則,如文本中詞性和情感詞,對于情感詞的處理主要包括文字和表情符號,接著使用Skip-gram模型基于定義好的權(quán)重規(guī)則訓練特征詞向量,最后引入RWMD距離計算文本之間的相似度并以此聚類.實驗結(jié)果表明本文提出的方法切實可行,尤其是在網(wǎng)絡(luò)短文本中效果明顯.

        2 改進的特征詞向量及聚類模型框架

        2.1 改進策略

        短文本數(shù)據(jù),尤其是論壇帖子,商品評論以及微博和微信的聊天記錄,形式復(fù)雜多樣,包含各種表情符號,在數(shù)據(jù)預(yù)處理階段不能簡單的將表情符號當作噪聲直接去除,否則會失去一部分語義信息,即情感信息;另外由于數(shù)據(jù)包含的短文本的長度也大小不一,因此關(guān)鍵詞的位置因素也必須考慮在內(nèi);再者就是詞性對短文本的影響[9],名詞、動詞、形容詞和副詞是文本特征的重要組成部分,因此詞性的貢獻也不容忽視.基于此,本文在文獻[8]中提出的特征權(quán)重計算法進行了修改,提出一種融合表情符號、位置因素以及詞性信息的多因子加權(quán)策略的關(guān)鍵詞提取方法:

        式中,Weight(w)表示詞語w在文本d中的權(quán)重,Weightsen表示單詞w在文本d中情感所占的權(quán)重,α,β,γ為加權(quán)系數(shù),他們之和為1.Weightpos和Weightlen的計算公式參考文獻[8],Weightsen的計算公式為:

        其中,tf(wi,d)表示特征Wi在文本d中的詞頻;N表示文本總數(shù);表示所有文本集中出現(xiàn)第i個詞語的文本數(shù)量;senwi表示該詞的情感加權(quán)值,其具體值需要根據(jù)文獻[10]的研究內(nèi)容加以定義,將表情符號歸為7個情感類別,結(jié)合實驗用數(shù)據(jù)集,分別統(tǒng)計每一類情感所占比例,以此比例作為senwi的加權(quán)值.定義如表1所列.

        表1 情感類別系數(shù)

        在預(yù)處理階段,當文本中含有表情符號時,會根據(jù)表1中的希臘字母進行替換.若一個短文本中含有多種表情符號,則根據(jù)多個表情符號的權(quán)值綜合計算其權(quán)重;若一個文本中不含有表情符號,則在特征詞權(quán)重的計算公式中,第3項將為0.即:

        此時,α取經(jīng)驗值0.6.本文將此模型記為EFA(Emotion Fusion Algorithm)算法.

        2.2 訓練特征詞向量

        本文使用Mikolov[11]提出的基于Hierarchical Softmax構(gòu)造的Skip-gram模型訓練詞向量,它主要包括 3層結(jié)構(gòu):輸入層,投影層和輸出層,目標函數(shù)L如式(1)所示:

        其中,V是數(shù)據(jù)詞典,Context(w)表示單詞w的上下文窗口,一般窗口值取5到10效果較好.

        2.3 以特征詞表征的短文本相似度計算

        文本采用RWMD距離算法來計算文本之間的語義相似度,RWMD算法是基于WMD算法放松限制條件來降低算法的復(fù)雜度[12]改進而來.RWMD算法是將一個短文本的特征詞向量全部流向另一個短文本的特征詞向量所經(jīng)過的距離總和的最小值作為兩個短文本之間的語義相似度.

        2.3.1 特征詞之間的語義相似度

        RWMD算法在計算文本的相似度之前需要先計算特征詞之間的相似度,衡量兩個特征詞之間的相似度使用歐式距離來計算,即:

        L的值越小,說明兩個詞越相近.

        2.3.2 短文本之間的相似度計算

        使用RWMD距離計算短文本d中所有特征詞流向短文本d′中所有特征詞距離和的最小值作為短文本d和短文本d′之間的相似度.假設(shè)允許短文本d中的每個特征詞可以流向d′中的任意一個特征詞,矩陣T ∈ Rn×n是轉(zhuǎn)移矩陣,其中Tij≥0,表示詞語i有多少轉(zhuǎn)移到了詞語j,C(i,j)表示詞語i和詞語j之間的語義相似度,目標函數(shù)為:

        約束條件為:

        2.4 K-means聚類算法流程

        輸入:實驗所用的短文本數(shù)據(jù)集.通過數(shù)據(jù)預(yù)處理,并加權(quán)計算融合情感詞權(quán)重的特征詞集合,并由Softmax模型訓練而成的特征詞向量.輸出:具有K類的短文本集合.Step 1.指定聚類數(shù)目K,以及K個初始聚類中心.Step 2.指定 RWMD 算法為距離函數(shù).Step 3.計算每個文本向量d與K個初始聚類中心的RWMD距離,將每個文本向量d分配給距離最小的聚類中心.Step 4.重新計算新的K個聚類中心.Step 5.重復(fù) Step 3 及 Step 4,直到聚類中心小于閾值.

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)

        本文采用了3種類型數(shù)據(jù)集:微博數(shù)據(jù)、文本分類通用數(shù)據(jù)和QQ群聊天數(shù)據(jù).其中文本分類通用數(shù)據(jù)集從中選取5個類別的標題;聊天記錄數(shù)據(jù)人工標注出若干個聊天片段.具體描述如表2所示.

        3.2 評價指標

        為了使結(jié)果更有對比性,本文采用了文本聚類常用的準確率、召回率、和宏平均作為實驗結(jié)果的評價指標:

        其中,Pij、Rij和Fij表示類別i在類簇j中的準確率、召回率和F1值,Ci表示正確類別i中的文本數(shù),Cj表示結(jié)果中類簇j中的文本數(shù),Cij表示結(jié)果中類簇j中原本屬于類別i的文本數(shù),對于類簇j取各個類別中Fij最高的作為類別i的F1值,Fmacro表示宏平均的結(jié)果,m表示原始類別的個數(shù).

        3.3 實驗結(jié)果與分析

        本文使用VSM,LDA和BTM這3中模型對文本進行表示來驗證模型的可行性和有效性,分別將結(jié)果記為KM-VSM、KM-LDA、KM-BTM,本文提出的模型結(jié)果記作KM-EFA.其中VSM中使用TF-IDF作為特征權(quán)重,LDA模型和BTM模型中主題數(shù)設(shè)為15,超參數(shù) α和β 取經(jīng)驗值50/K,β=0.01,迭代次數(shù)為2000.

        3.3.1 對比實驗

        在上文中介紹的3個數(shù)據(jù)集上分別使用上述4 種方法進行實驗,使用平均F值作為評價指標,結(jié)果如表3所示.從表中可以看出,基于主題模型的聚類評測結(jié)果一般要好于基于VSM模型的聚類結(jié)果,說明無法發(fā)現(xiàn)同義詞之間語義關(guān)系的模型會受到短文本數(shù)據(jù)特征稀疏的影響;基于BTM模型的聚類評測效果優(yōu)于基于LDA模型的聚類效果,說明在短文本特征比較少的時候基于主題概率的統(tǒng)計方法統(tǒng)計出的數(shù)據(jù)意義不大.其中模型KM-EFA1是不考慮情感因素只考慮詞性和位置因素的評測結(jié)果,而KM-EFA2是考慮了所有因素的評測結(jié)果.對比發(fā)現(xiàn),本文提出的方法評測結(jié)果要優(yōu)于對比方法,在3個數(shù)據(jù)集的試驗中,性能比次優(yōu)的結(jié)果平均提高了13.62%,從而驗證了本模型使用情感加權(quán)更能挖掘出詞之間的語義相似性,從而提高聚類效果.

        表3 模型在數(shù)據(jù)集上的評測結(jié)果

        3.3.2 特征值參數(shù)與權(quán)重系數(shù)分析

        為了校驗特征詞選擇過程的參數(shù)K以及情感權(quán)重加權(quán)系數(shù) γ對聚類的影響,本文在3個數(shù)據(jù)集上分別取γ等于 0.1、0.25 和 0.45,同時對參數(shù)K在[5,100]范圍以步長為5,進行遍歷,結(jié)果如圖1所示.

        從圖中可以看出,當情感權(quán)重系數(shù)不同時,隨著K的變化,F值也變得有所不同.綜合來說,當特征K在[40,50]之間時,F值表現(xiàn)最好,這是因為K太小時,特征個數(shù)不足以表達完整的語義,當K太大時,句子的主題信息不明顯,會造成“富者越富”的現(xiàn)象,影響聚類效果.另外,當數(shù)據(jù)集中表現(xiàn)情感的詞比較多時,情感權(quán)重的大小會直接影響聚類的好壞.如微博和聊天數(shù)據(jù)含有大量情感詞,聚類的效果完全由情感權(quán)重決定,但在普通的分類文本中情感權(quán)重越大聚類效果則越差.

        圖1 特征個數(shù)與權(quán)重參數(shù)分析

        4 結(jié)束語

        本文融合情感加權(quán)的方法有效的提高了短文本的聚類效果,尤其在微博微信等即時聊天的短文本數(shù)據(jù)中,效果更好,這是因為在這類文本中人們使用表情符號的頻率相對普通文本較高,此方法能充分挖掘符號下的語義信息.但隨著深入的研究,這類文本中也充斥著大量的不規(guī)范用語,如“狗帶”,“一顆賽艇”等,這些不規(guī)范用語對聚類結(jié)果產(chǎn)生一定的影響,尤其是一些拆分字沒有辦法對其準確的表示,比如“古月哥欠”,表達的是胡歌,但經(jīng)過分詞之后,這幾個字會變得毫無意義,雖然這類詞語出現(xiàn)頻次較低,但往往這類詞語是短文本的核心語義,同時用戶故意使用這類詞語一般均會涉及不正當言論,是網(wǎng)絡(luò)監(jiān)督和輿情管理的重要分析方向.因此,對這種現(xiàn)象的研究,具有重要的現(xiàn)實意義.

        猜你喜歡
        表情符號特征詞短文
        微信表情符號寫入判決:你發(fā)的每個表情都可能成為呈堂證供
        消費電子(2022年6期)2022-08-25 09:43:52
        KEYS
        基于改進TFIDF算法的郵件分類技術(shù)
        Keys
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        這個表情符號,你用對了嗎
        大作文(2016年7期)2016-05-14 11:13:25
        表情符號玩上癮 時尚愛嘗鮮
        Coco薇(2015年10期)2015-10-19 01:01:58
        面向文本分類的特征詞選取方法研究與改進
        短文改錯
        短文改錯
        日韩精品久久久久久免费| 国产在线视频网站不卡| 日本在线综合一区二区| 免费av片在线观看网址| 中文字幕一区二区人妻性色| 日韩高清毛片| 亚洲妇女av一区二区| 91精品久久久老熟女91精品| 免费超爽大片黄| 色先锋资源久久综合5566| 欧美丝袜激情办公室在线观看| 麻豆成人久久精品二区三区免费| 亚洲av一二三区成人影片| 丁香五香天堂网| 国产性一交一乱一伦一色一情| 看国产亚洲美女黄色一级片| 国产做无码视频在线观看| 精品久久久久久中文字幕大豆网| 四虎影视国产884a精品亚洲| 精品老熟女一区二区三区在线 | 国产乱子伦| 欧美精品一区二区性色a+v| 蜜桃在线观看免费高清完整版| 国产成人精品日本亚洲i8| 日本高清视频xxxxx| 91福利视频免费| 少妇一级内射精品免费| 激情内射人妻1区2区3区| 99偷拍视频精品一区二区| 久国产精品久久精品国产四虎| 久久夜色精品国产噜噜噜亚洲av| 国产精品天堂avav在线| 国产特级全黄一级毛片不卡| 熟女乱乱熟女乱乱亚洲| 亚洲午夜无码毛片av久久| 丰满人妻在公车被猛烈进入电影| 国产91在线|亚洲| 成人在线观看av毛片| 成人美女黄网站色大免费的| 国产 中文 制服丝袜 另类| 美女射精视频在线观看|