亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hellinger 距離與詞向量的終身機(jī)器學(xué)習(xí)主題模型

        2023-01-09 14:28:24雷恒林古蘭拜爾吐爾洪買日旦吾守爾
        計(jì)算機(jī)工程 2022年11期
        關(guān)鍵詞:機(jī)器向量詞語

        雷恒林,古蘭拜爾·吐爾洪,買日旦·吾守爾,曾 琪

        (新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046)

        0 概述

        在信息技術(shù)高速發(fā)展的時(shí)代,往往需要從海量的信息中獲取到高價(jià)值的核心內(nèi)容,以對后續(xù)工作進(jìn)行決策支撐,主題模型由此被提出并得到廣泛應(yīng)用。主題模型是指利用計(jì)算機(jī)技術(shù)對文本信息進(jìn)行挖掘,可在大量互聯(lián)網(wǎng)數(shù)據(jù)中自動發(fā)現(xiàn)文本中的語義主題。主題模型是自然語言處理的一個(gè)重要方向,其以非監(jiān)督的學(xué)習(xí)方式對文集中的隱含語義結(jié)構(gòu)進(jìn)行聚類。常見的主題挖掘模型有概率隱性語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型[1]、隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型[2]、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)模型[3]等。

        傳統(tǒng)的機(jī)器學(xué)習(xí)主題挖掘模型是孤立類型的學(xué)習(xí)模型,其通過在特定的語料下進(jìn)行模型訓(xùn)練,使模型達(dá)到最好的效果。這種學(xué)習(xí)方式存在的一大問題就是無法對訓(xùn)練過程中的知識進(jìn)行有效保存,當(dāng)模型面對一個(gè)新的數(shù)據(jù)集時(shí),只能重新學(xué)習(xí),以往學(xué)習(xí)過的知識無法得到充分的利用。目前,終身機(jī)器學(xué)習(xí)得到了研究者越來越多的重視,其克服了傳統(tǒng)機(jī)器學(xué)習(xí)的孤立性問題。終身機(jī)器學(xué)習(xí)的概念最早由THRUN 等[4]于1995 年提出。根據(jù)文獻(xiàn)[5]中的闡述,終身機(jī)器學(xué)習(xí)是一個(gè)持續(xù)學(xué)習(xí)的過程,在任何一個(gè)時(shí)間點(diǎn),模型已經(jīng)學(xué)習(xí)了N個(gè)學(xué)習(xí)任務(wù),當(dāng)新到來一個(gè)任務(wù)時(shí),可以利用之前學(xué)習(xí)到的任務(wù)中的知識,幫助新來任務(wù)的學(xué)習(xí)。終身機(jī)器學(xué)習(xí)是對人類學(xué)習(xí)方式的一種模仿,通過將有效知識保存在知識庫中,新任務(wù)可以從知識庫中獲取到對當(dāng)前任務(wù)有用的知識,從而達(dá)到提高當(dāng)前學(xué)習(xí)效果的目的[6],而且終身機(jī)器學(xué)習(xí)無監(jiān)督模型在學(xué)習(xí)過程中無需標(biāo)簽,大幅減輕了人工成本。

        經(jīng)典終身主題模型(Lifelong Topic Model,LTM)可從其他領(lǐng)域中學(xué)習(xí)知識,幫助當(dāng)前領(lǐng)域的學(xué)習(xí),但在領(lǐng)域選擇時(shí),該方法沒有根據(jù)影響權(quán)重進(jìn)行一定的偏向性學(xué)習(xí),并且模型通過給詞語編號的方式來表示詞語,沒有充分利用詞語的上下文信息,對詞語之間在整個(gè)語料庫中的全局聯(lián)系缺乏考慮。本文提出基于Hellinger 距離與詞向量的終身主題模型(Hellinger Distance and Word Vector based Lifelong Topic Model,HW-LTM)。針對LTM 模型在主題選擇時(shí)缺乏針對性的問題,使用Hellinger 距離進(jìn)行主題分布之間距離的計(jì)算,加快運(yùn)行速度。同時(shí),利用Word2vec 主題模型獲得詞向量,計(jì)算余弦相似度得到詞語之間相似度,通過神經(jīng)網(wǎng)絡(luò)充分利用詞語的全局語義,進(jìn)一步提升主題挖掘效果。

        1 相關(guān)研究

        近年來,終身機(jī)器學(xué)習(xí)在自然語言處理領(lǐng)域展現(xiàn)出了優(yōu)異性能,終身機(jī)器學(xué)習(xí)方法也逐漸應(yīng)用于主題挖掘任務(wù)中。最初提出的經(jīng)典終身機(jī)器學(xué)習(xí)主題模型是LTM[7],為了解決上文提出的問題,研究者在LTM 的基礎(chǔ)上進(jìn)行了一系列的改進(jìn),提出了新的終身機(jī)器學(xué)習(xí)主題挖掘模型,主要分為基于概率LDA 的主題模型、基于矩陣分解的模型和基于神經(jīng)網(wǎng)絡(luò)的模型。

        基于概率LDA 的主題模型的特點(diǎn)是使用概率方法進(jìn)行抽樣,如通過廣義波利亞甕(Generalized Polya Urn,GPU)等抽樣模型來獲取并利用先驗(yàn)知識。文獻(xiàn)[8]將終身機(jī)器學(xué)習(xí)主題模型應(yīng)用于主題挖掘與評分預(yù)測中。文獻(xiàn)[9]提出了能夠自動生成強(qiáng)關(guān)聯(lián)詞對和不可關(guān)聯(lián)詞對的主題模型(topic modeling with Automatically generated Must-links and Cannot-links,AMC)模型,在LTM 已引入mustlink 的基礎(chǔ)上,增加了對cannot link 的考慮,提升了模型在小樣本數(shù)據(jù)集上的效果,但該模型存在的一個(gè)問題是不能通過迭代來提高模型性能。文獻(xiàn)[10]將終身機(jī)器學(xué)習(xí)模型應(yīng)用于越南語的文本分類,取得了較好的效果。文獻(xiàn)[11]將基于Word2vec 的詞嵌入應(yīng)用到模型中,提出了潛在嵌入結(jié)構(gòu)終身機(jī)器學(xué)習(xí)模型(Latent-embedding-structured Lifelong Learning Topic Model,LLT),該模型存在的缺點(diǎn)是實(shí)現(xiàn)較為復(fù)雜,且沒有使用外部語料集進(jìn)行增強(qiáng)。文獻(xiàn)[12]提出一種基于終身機(jī)器學(xué)習(xí)的連續(xù)學(xué)習(xí)方法,該方法從多領(lǐng)域語料庫中的過去結(jié)果中學(xué)習(xí),以幫助識別當(dāng)前領(lǐng)域中的主題通用詞。本文的改進(jìn)模型也是屬于基于概率的主題模型。

        文獻(xiàn)[13]將非負(fù)矩陣分解加入到終身機(jī)器學(xué)習(xí)中,使模型具備了終身學(xué)習(xí)的能力。文獻(xiàn)[14]為了克服域內(nèi)語料庫數(shù)據(jù)的多樣性問題,提出了基于非負(fù)矩陣分解的終身協(xié)作模型(Lifelong Collaborative Model,LCM),用來準(zhǔn)確學(xué)習(xí)主題和特定領(lǐng)域的單詞詞嵌入信息,同時(shí)利用知識圖譜來積累主題模型發(fā)現(xiàn)的全局上下文信息和先前領(lǐng)域的上下文詞嵌入所反映的局部上下文信息。

        神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于終身機(jī)器學(xué)習(xí)主題挖掘領(lǐng)域。在文獻(xiàn)[15]中,神經(jīng)網(wǎng)絡(luò)類模型被用于知識的提取和利用,其中有監(jiān)督負(fù)載平衡自組織增量神經(jīng)網(wǎng)絡(luò)(Load-Balancing Self-Organizing Incremental Neural Network,LB-SOINN)被用來選擇當(dāng)前任務(wù)中最重要的訓(xùn)練樣本。變分表示學(xué)習(xí)(Variational Representation Learning,VRL)不僅從當(dāng)前訓(xùn)練任務(wù)中提取知識,而且還為LB-SOINN 提供適當(dāng)?shù)碾[藏表示作為輸入。文獻(xiàn)[16]將神經(jīng)網(wǎng)絡(luò)應(yīng)用到終身機(jī)器學(xué)習(xí)中,提出了終身神經(jīng)主題模型(Lifelong Neural Topic Model,LNTM),用以克服稀疏性數(shù)據(jù)帶來的問題。然而,神經(jīng)網(wǎng)絡(luò)類方法普遍存在的一個(gè)缺點(diǎn)是模型可解釋性低。

        2 終身機(jī)器學(xué)習(xí)

        終身機(jī)器學(xué)習(xí)架構(gòu)如圖1 所示,主要包含任務(wù)管理器、基于知識的學(xué)習(xí)器、知識庫(Knowledge Base,KB)等部分,并通過這些核心部分實(shí)現(xiàn)知識的遷移和整合。任務(wù)管理器對不斷到來的任務(wù)進(jìn)行調(diào)度,用知識庫中的數(shù)據(jù)來增強(qiáng)學(xué)習(xí)器對當(dāng)前任務(wù)的學(xué)習(xí),實(shí)現(xiàn)遷移學(xué)習(xí)。學(xué)習(xí)完成后會輸出結(jié)果,其中的有效信息會被保存在KB 中,知識庫中的知識會隨著學(xué)習(xí)進(jìn)行更新,實(shí)現(xiàn)對知識的整合。

        圖1 終身機(jī)器學(xué)習(xí)架構(gòu)Fig.1 Lifelong machine learning framework

        基于概率和采樣器類的終身機(jī)器學(xué)習(xí)主題挖掘方法通常將GPU 模型引入到LDA,通過對當(dāng)前詞語采樣來獲取先驗(yàn)知識,其先通過頻繁項(xiàng)挖掘生成先驗(yàn)知識集,再使用吉布斯采樣為詞指定一個(gè)主題。然后利用點(diǎn)間互信息(Pointwise Mutual Information,PMI)計(jì)算兩個(gè)詞語在當(dāng)前領(lǐng)域下的關(guān)系,并通過式(1)更新兩個(gè)詞語的關(guān)聯(lián)度矩陣。同時(shí),利用PMI對吉布斯采樣過程中的錯(cuò)誤知識進(jìn)行識別和處理。

        在實(shí)際計(jì)算中,P(w)按詞語w在所在領(lǐng)域D的document 中出現(xiàn)的次數(shù)來計(jì)算,而P(w1,w2)則表示w1和w2在D中同時(shí)出現(xiàn)的次數(shù)。

        PMI 值若為正數(shù),說明兩個(gè)詞語正相關(guān),值越大越有可能屬于一個(gè)主題,若為負(fù)數(shù)說明兩個(gè)詞語負(fù)相關(guān)。LTM 本身還對LDA 中的簡單波利亞甕(Simple Polya Urn,SPU)進(jìn)行了改進(jìn),得到了GPU,每次從甕中抽取出一個(gè)詞語w,放回時(shí)除了詞語w本身,還有一定數(shù)量和w相關(guān)的詞語也會被放入甕中,以此提高w以及和它相近詞語在主題(甕)中的比例,具體計(jì)算如式(2)所示,其中μ用來控制PMI 的影響程度,矩陣表示的是每個(gè)和w相關(guān)的詞語w'被加入GPU 甕中的個(gè)數(shù)。

        3 主題挖掘模型HW-LTM

        3.1 Hellinger 距離

        Hellinger 距離最早由Ernst Hellinger 在1909 年提出。在統(tǒng)計(jì)學(xué)中,Hellinger 距離被用于計(jì)算兩個(gè)分布的相似性,利用該特性,Hellinger 距離已經(jīng)被應(yīng)用于入侵檢測[17]、不平衡數(shù)據(jù)分類[18-19]以及主題模型的相似度衡量中[20]。如在文獻(xiàn)[21]中,Hellinger距離被用于相似度的衡量。相比其他距離計(jì)算方法,Hellinger 距離具有以下優(yōu)勢:相較于KL 散度,其定義了概率分布的真實(shí)度量;相比Wasserstein 距離,其計(jì)算更加簡單;其還具有可以利用的幾何特性。因?yàn)橹黝}本質(zhì)上是詞語的概率分布,所以實(shí)驗(yàn)中使用概率分布之間的相似性進(jìn)行相似主題的判斷。相比LTM 模型中使用的JS 散度,Hellinger 距離在能取得相近效果的基礎(chǔ)上,減少了計(jì)算時(shí)間,不用在計(jì)算JS 散度時(shí)計(jì)算兩次KL 散度。

        對于概率分布P={pi},Q={qi},從歐幾里得范數(shù)來看,兩者之間的Hellinger 距離計(jì)算如式(3)所示:

        LTM 模型存在的一個(gè)問題是,其在執(zhí)行新的學(xué)習(xí)任務(wù)時(shí),默認(rèn)所有的領(lǐng)域都和當(dāng)前領(lǐng)域相關(guān)且有用,會從所有領(lǐng)域中獲取知識,這種缺乏足夠針對性的方式會導(dǎo)致計(jì)算量的增大。當(dāng)有的領(lǐng)域和當(dāng)前領(lǐng)域相關(guān)度不大時(shí),還可能會從中學(xué)習(xí)到不合適的知識,影響知識提取的效果。實(shí)際應(yīng)該選擇和當(dāng)前領(lǐng)域相似度較大的領(lǐng)域并從中獲取需要的信息。得到領(lǐng)域主題之后,可以通過領(lǐng)域之間主題的相似度,推斷出領(lǐng)域之間的相似度,幫助后續(xù)最近領(lǐng)域的選擇。領(lǐng)域之間的距離計(jì)算如式(4)所示,其中D1和D2分別代表兩個(gè)不同的領(lǐng)域,t1和t2則代表兩個(gè)領(lǐng)域下的主題。

        3.2 Word2vec 詞向量

        詞向量技術(shù)由MIKOLOV 等[22]提出,是一種較新的詞語表示技術(shù)。關(guān)于使用詞向量對概率類主題模型進(jìn)行改進(jìn),文獻(xiàn)[23-24]利用外部數(shù)據(jù)庫詞向量來對LDA 模型進(jìn)行改進(jìn);文獻(xiàn)[25]對詞向量在概率類主題模型上的應(yīng)用進(jìn)行了總結(jié);文獻(xiàn)[26]在生成的Word2Vec 詞向量基礎(chǔ)上,將其和單詞貢獻(xiàn)度進(jìn)行融合,最終提高了文本分類的準(zhǔn)確度??梢钥闯觯猛獠吭~向量方法改進(jìn)主題模型具有有效性。通過對全部領(lǐng)域語料的訓(xùn)練,Word2vec 模型能夠更全面地表示詞語之間的聯(lián)系,這對于原模型中基于單一領(lǐng)域的概率分布詞語表示方法是一個(gè)很好的補(bǔ)充。實(shí)驗(yàn)中使用的是Gensim 框架中基于Skip-Gram 算法進(jìn)行訓(xùn)練的Word2vec 模型。Word2vec 模型可以非常方便地訓(xùn)練文本然后生成詞向量,并控制詞向量生成的維度。

        Word2vec 模型可以通過計(jì)算詞語的詞向量得到兩個(gè)詞語之間的相似度,其計(jì)算如式(5)所示,其中va、vb是wa和wb分別對應(yīng)的詞向量。相比于曼哈頓距離,使用余弦相似度來計(jì)算詞向量之間的相似性,可以更多地從方向的角度對向量相似性進(jìn)行衡量。這里的計(jì)算對象是詞語的詞向量,而在上文Hellinger 距離的計(jì)算公式中,被計(jì)算的對象是主題下詞語的概率分布。在獲得所有相關(guān)度較大的領(lǐng)域中的主題后,還需要找到符合條件的主題,對有用的知識進(jìn)行保留。詞向量下主題之間的距離計(jì)算如式(6)所示。其中tn和tm指兩個(gè)主題,N和M分別代表各自主題下詞語的個(gè)數(shù),vi和vj分別代表詞語對應(yīng)的詞向量。

        3.3 HW-LTM 模型框架與步驟

        改進(jìn)后的模型框架如圖2 所示。從改進(jìn)后的模型來看,主要是增加了Word2vec 詞向量生成模塊,然后用Hellinger 距離和詞向量的余弦距離對主題間的距離進(jìn)行了計(jì)算。

        圖2 改進(jìn)模型框架Fig.2 Framework of the improved model

        HW-LTM 模型主要包含以下步驟:

        步驟1對外部語料進(jìn)行分詞和去除停用詞等預(yù)處理操作。

        步驟2通過Gensim 中的Word2vec 模型獲得外部語料集中的詞語(總個(gè)數(shù)為n)的Word2vec 詞向量,在保證效果和計(jì)算速度的前提下,維度設(shè)置為200 維,并生成相應(yīng)的詞語詞向量矩陣Mn×200,再在M的基礎(chǔ)上按照式(5)進(jìn)行計(jì)算,得到詞語相互之間的相似度矩陣Sn×n,并將矩陣S保存為文件。

        步驟3從知識庫中獲得上輪學(xué)習(xí)的各個(gè)領(lǐng)域下的主題概率分布。

        步驟4在步驟3 的基礎(chǔ)上,通過式(3)中Hellinger 距離計(jì)算主題之間距離來間接反映主題之間的相似度。

        步驟5當(dāng)前主題的主題詞之間的向量距離可通過讀取矩陣S得到,然后通過式(6)以全排列的方式計(jì)算詞語之間的余弦相似度,最終可以得到主題之間的相似度。

        步驟6判斷步驟4 和步驟5 的結(jié)果是否符合相應(yīng)的閾值,進(jìn)而獲得滿足條件的和當(dāng)前領(lǐng)域相近的主題。將該主題加入到簇中,然后從該簇中進(jìn)行頻繁項(xiàng)挖掘,得到當(dāng)前領(lǐng)域下更優(yōu)的主題。

        步驟7重復(fù)步驟3~步驟6,直到模型達(dá)到指定迭代次數(shù)使得迭代訓(xùn)練挖掘后的效果更好。

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)預(yù)處理

        對于網(wǎng)上爬取的數(shù)據(jù),一種商品的評論被看作是一個(gè)領(lǐng)域,因?yàn)橐粭l評論可能包含多條句子,首先需要根據(jù)句號、感嘆號等符號標(biāo)志進(jìn)行分句,每個(gè)分好的句子就是一個(gè)document。對于分好的句子,需要根據(jù)停用詞表去除停用詞,同時(shí)對于在整個(gè)領(lǐng)域中出現(xiàn)次數(shù)小于3 次的詞語也需要去除。

        4.2 數(shù)據(jù)集

        目前,終身機(jī)器學(xué)習(xí)主題挖掘方法在英文數(shù)據(jù)集上的研究較多,但在中文數(shù)據(jù)集上的研究極少,本文主要探究其在中文數(shù)據(jù)集上的實(shí)際效果,因此使用中文京東商品評論數(shù)據(jù)集。該數(shù)據(jù)集為從網(wǎng)頁上爬取的中文京東商品評論信息,包含39 個(gè)商品類別,其中商品類別又被稱為領(lǐng)域(domain),每個(gè)商品類別包含1 500 條該商品的評論,其中有33 個(gè)類別是電子類商品評論,另外6 個(gè)類別是服裝類的商品評論。

        4.3 Baseline 模型

        實(shí)驗(yàn)中使用的對比模型包括經(jīng)典的概率類主題模型LDA,以及終身主題模型LTM 和AMC。

        LDA 模型:非常經(jīng)典的一個(gè)主題挖掘模型,背景基礎(chǔ)為數(shù)學(xué)概率模型,利用先驗(yàn)分布對數(shù)據(jù)進(jìn)行似然估計(jì)并最終得到后驗(yàn)分布,為孤立學(xué)習(xí)方式的無監(jiān)督模型。

        LTM 模型:終身機(jī)器學(xué)習(xí)主題挖掘模型,在LDA 模型的基礎(chǔ)上進(jìn)行改進(jìn),吉布斯采樣知識的方法由SPU 改進(jìn)為GPU。其將終身機(jī)器學(xué)習(xí)相關(guān)理論知識應(yīng)用在主題挖掘模型上,根據(jù)詞對的關(guān)聯(lián)性強(qiáng)弱,提出了must-link 的概念,將must-link 詞匯作為知識供模型學(xué)習(xí)。

        AMC 模型:LTM 的改進(jìn)模型,在LTM 模型must-link 的基礎(chǔ)上增加了cannot-link 來表示詞語之間的關(guān)系,增強(qiáng)了對于關(guān)聯(lián)度不大的知識的識別以及對小樣本數(shù)據(jù)的處理能力。

        相關(guān)實(shí)驗(yàn)參數(shù)設(shè)置:LTM、AMC 模型的參數(shù)設(shè)置和原論文一致。對于HW-LTM 模型,其相關(guān)的系數(shù)根據(jù)實(shí)際情況進(jìn)行了調(diào)整,其中GPU 的控制系數(shù)μ設(shè)置為0.6,式(4)中Hellinger 主題距離的閾值θ1設(shè)置為0.8,式(6)中主題詞向量距離閾值θ2設(shè)置為100,生成的主題數(shù)和每個(gè)主題下的詞語數(shù)量K都設(shè)置為15。

        實(shí)驗(yàn)的工作平臺安裝了java 1.8 和python3.7.6運(yùn)行環(huán)境。CPU AMD R7 4800H@2.9 GHz,8 核心16 線程,16 GB 運(yùn)行內(nèi)存。

        4.4 時(shí)間復(fù)雜度和空間復(fù)雜度分析

        從時(shí)間復(fù)雜度的角度對HW-LTM 模型進(jìn)行分析。對于主題之間相似度的衡量,原模型LTM 使用的是JS 散度,其計(jì)算如式(7)所示,其中P、Q為兩個(gè)分布。該計(jì)算方法的缺點(diǎn)是需要計(jì)算兩次KL散度,但相比JS 散度在時(shí)間復(fù)雜度上下降了一半。從模型增加的時(shí)間來看,HW-LTM 因?yàn)樾枰?jì)算詞向量之間的距離,會有一些時(shí)間開銷,同時(shí)還會存在兩個(gè)詞語之間的重復(fù)計(jì)算問題。實(shí)際實(shí)驗(yàn)中發(fā)現(xiàn)S矩陣的生成開銷相對模型整體時(shí)間開銷可忽略不計(jì)。為解決重復(fù)計(jì)算帶來的開銷問題,本文采用預(yù)加載的方法,在HW-LTM 模型開始運(yùn)行時(shí)便把已經(jīng)提前計(jì)算好的矩陣S加載到內(nèi)存中,在尋找兩個(gè)詞語相似度值時(shí)達(dá)到O(1)的時(shí)間復(fù)雜度,以此減少重復(fù)計(jì)算的時(shí)間。

        改進(jìn)前后的模型在空間復(fù)雜度上的區(qū)別主要在于本實(shí)驗(yàn)所用的有大約5 000 詞的京東商品評論數(shù)據(jù)集,空間代價(jià)是在預(yù)加載時(shí)需要大約95 MB 的內(nèi)存空間。

        4 輪迭代運(yùn)行完成后各模型所花費(fèi)的時(shí)間如表1 所示。LDA 和AMC 模型由于沒有迭代學(xué)習(xí)過程,在運(yùn)行速度上排名靠前;HW-LTM 相比基于Hellinger 距離的終身主題模型(Hellinger Distance based Lifelong Topic Model,HD-LTM)多了外部詞向量的加載以及詞向量余弦相似度的計(jì)算過程,速度相對稍慢,但相比原模型LTM,HW-LTM 在縮短運(yùn)行時(shí)間上仍舊取得了較大的進(jìn)步,耗時(shí)縮短了43.75%。

        表1 不同模型在京東商品評論數(shù)據(jù)集上運(yùn)行時(shí)間的對比Table 1 Comparison of running time of different models on JD commodity review dataset

        4.5 模型對比評估

        本文采用主題關(guān)聯(lián)度topic coherence 評估方法進(jìn)行評估。經(jīng)過相關(guān)測試,這是一種較為優(yōu)越的評估方法,和人類專家實(shí)際判斷結(jié)果更加接近,且能夠得到比困惑度更好的實(shí)際效果,其計(jì)算如式(8)所示:

        對于主題uk中的詞語,topT 指主題uk下詞語個(gè)數(shù)。式(8)中分子代表在所有的document 中兩個(gè)詞語和共同出現(xiàn)的次數(shù),分子上加一是為了進(jìn)行平滑。類似的,分母表示在所有文本中詞語出現(xiàn)的次數(shù)。對所有的主題都進(jìn)行上述操作并累加求和,得到該領(lǐng)域下最終的topic coherence 值。topic coherence 的值越大,表示主題中詞語的關(guān)聯(lián)度越大,主題模型的挖掘效果越好。挖掘出的主題如表2 所示,其中共有15 個(gè)主題,每個(gè)主題下有15 個(gè)詞。從中可以看出主題下的詞語存在一定的關(guān)聯(lián)性,如Topic4 主要是物流方面的詞語,Topic10 則體現(xiàn)的是對衣服款式的總體滿意態(tài)度。

        表2 HW-LTM 模型主題挖掘結(jié)果Table 2 Topic mining results of HW-LTM model

        HW-LTM 模型(同時(shí)使用了Hellinger 距離和詞向量進(jìn)行改進(jìn))和LDA、LTM、AMC、HD-LTM(只用Hellinger 距離進(jìn)行改進(jìn))模型在京東商品評論數(shù)據(jù)集上的topic coherence 對比如圖3 所示。

        圖3 京東商品評論數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of JD commodity review dataset

        由圖3 可以看出:LDA 模型和AMC 模型沒有迭代操作,因此其評估結(jié)果為一個(gè)固定值;LTM 模型和HW-LTM 模型有迭代學(xué)習(xí)功能,其挖掘效果隨著迭代輪數(shù)增加逐漸提升;LTM 模型在第一輪迭代不如AMC,但隨著時(shí)間的推移,不斷迭代提升,后面幾輪效果超過了AMC 模型;HW-LTM 模型由于在主題選擇時(shí)使用了外部詞向量來幫助獲取有效知識,加快了收斂速度,相比LTM 模型每輪學(xué)習(xí)平均提升了48 個(gè)百分點(diǎn),相比AMC 模型同樣也有較大提升。

        為探究終身機(jī)器學(xué)習(xí)方法在不同領(lǐng)域知識之間相互學(xué)習(xí)的能力,做進(jìn)一步的實(shí)驗(yàn)。圖4是對數(shù)據(jù)集中服裝領(lǐng)域商品生成的主題進(jìn)行評估后的結(jié)果,圖5則是對電子產(chǎn)品領(lǐng)域生成的主題進(jìn)行評估后的結(jié)果。

        圖4 服裝領(lǐng)域?qū)嶒?yàn)結(jié)果Fig.4 Experimental results in the field of clothing

        圖5 電子商品領(lǐng)域?qū)嶒?yàn)結(jié)果Fig.5 Experimental results in the field of electronic commodities

        通過對比圖4 和圖5 可以發(fā)現(xiàn):盡管服裝領(lǐng)域的類別較少,但通過對其他領(lǐng)域有用知識的學(xué)習(xí),同樣使得該部分主題挖掘效果得到提升;而電子類商品擁有33 個(gè)類別,其相互之間能學(xué)習(xí)到的知識更加充分,因而整體效果要好于服裝領(lǐng)域的情況。由此可見,相關(guān)領(lǐng)域類別的評論數(shù)量對終身機(jī)器學(xué)習(xí)的實(shí)際效果有影響。

        綜合來看,AMC 模型在小樣本上具有優(yōu)勢,但在本實(shí)驗(yàn)的中文大樣本評論數(shù)據(jù)中并不具有絕對性優(yōu)勢。從5 種模型的對比中可以看出,經(jīng)過Hellinger 距離和Word2vec 方法改進(jìn)的HW-LTM 模型,效果已經(jīng)超過了最初的LTM 模型,也超過了經(jīng)典的LDA 方法。

        5 結(jié)束語

        本文針對終身機(jī)器學(xué)習(xí)主題挖掘模型LTM,從主題之間相似度和詞向量相似度兩個(gè)方面進(jìn)行優(yōu)化,提出HW-LTM 模型實(shí)現(xiàn)更準(zhǔn)確的知識提取。通過在京東商品評論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證該模型在中文上的有效性。實(shí)驗(yàn)結(jié)果表明,領(lǐng)域選擇以及詞向量的相似度計(jì)算能有效提高模型的主題挖掘效果。但目前詞向量在模型中的應(yīng)用還較為局限,下一步將探索更高效的詞向量表示方法,如BERT、GloVe 等語言模型,同時(shí)對詞向量在當(dāng)前模型中的應(yīng)用范圍進(jìn)行擴(kuò)展。

        猜你喜歡
        機(jī)器向量詞語
        容易混淆的詞語
        機(jī)器狗
        向量的分解
        機(jī)器狗
        聚焦“向量與三角”創(chuàng)新題
        找詞語
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        詞語欣賞
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        中文字幕精品久久久久人妻红杏1| 亚洲香蕉av一区二区三区| 久久亚洲精品情侣| 日本成本人三级在线观看| 久久久久国产一级毛片高清版A| 婷婷开心五月综合基地| 蜜桃臀av一区二区三区| 一本久久a久久精品vr综合| 色偷偷88888欧美精品久久久 | 丰满爆乳在线播放| 91视频香蕉| 日本在线一区二区三区观看| 久久人妻一区二区三区免费 | 性色av 一区二区三区| 亚洲 暴爽 AV人人爽日日碰| 在线视频自拍视频激情| 国产中文三级全黄| 亚洲爱婷婷色婷婷五月| 无码专区无码专区视频网址| 一区二区视频在线国产| 色综合久久精品亚洲国产 | 久久亚洲成a人片| 国产亚洲专区一区二区| 日韩少妇内射免费播放18禁裸乳| 免费人成视频在线观看视频| 精品人妻免费看一区二区三区| 亚洲最新精品一区二区| 亚洲啪av永久无码精品放毛片| 日韩在线看片| 久久夜色精品国产三级| 午夜熟女插插xx免费视频| 亚洲精品无码不卡av| 女人被躁到高潮嗷嗷叫| 24小时免费在线观看av| 久久久无码人妻精品一区| 在线视频中文字幕乱人伦| 日本一区二区三区综合视频| 69精品人人人人| 国产精品无需播放器| 国产亚洲精品视频在线| 99久久无色码中文字幕人妻蜜柚 |