亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征融合Single-Pass-SOM組合模型的話題檢測(cè)①

        2020-07-25 01:47:26李豐男孟祥茹焦艷菲張琳琳
        關(guān)鍵詞:文本檢測(cè)模型

        李豐男,孟祥茹,焦艷菲,張琳琳,劉 念

        1(中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)控制與工程學(xué)院,北京 100049)

        2(中國(guó)科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)

        3(沈陽高精數(shù)控智能技術(shù)股份有限公司,沈陽 110168)

        隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的人習(xí)慣于通過互聯(lián)網(wǎng)了解社會(huì)熱點(diǎn),借助互聯(lián)網(wǎng)發(fā)表個(gè)人的意見、看法和主張.互聯(lián)網(wǎng)已成為人們獲取信息、發(fā)表意見、維護(hù)權(quán)益的重要場(chǎng)所.因而,如何監(jiān)管輿情事件在互聯(lián)網(wǎng)上的傳播已成為一個(gè)具有現(xiàn)實(shí)意義的重大問題.網(wǎng)絡(luò)輿情具有傳播速度快、影響力大、參與性強(qiáng)的特點(diǎn),網(wǎng)民們的態(tài)度極易受到網(wǎng)絡(luò)輿情傳播方向的影響.話題檢測(cè)技術(shù)正是在這種情況下應(yīng)運(yùn)而生的.它不僅能夠幫助用戶及時(shí)從海量數(shù)據(jù)中獲取自己感興趣的話題信息,更能夠幫助政府有關(guān)部門及時(shí)了解社會(huì)熱點(diǎn)事件,掌握社會(huì)輿論的方向,這對(duì)于有效引導(dǎo)輿論、落實(shí)相關(guān)政策具有重大意義.

        話題檢測(cè)技術(shù)主要分為兩大重要部分,一是文本表示,二是話題聚類.文本表示是話題檢測(cè)的基礎(chǔ).傳統(tǒng)的向量空間模型存在復(fù)雜度高、特征稀疏、噪聲干擾嚴(yán)重等問題.為了解決這些問題,眾多學(xué)者從不同方向進(jìn)行了各種嘗試.路榮等[1]利用LDA 話題模型有效解決了短文本的數(shù)據(jù)稀疏問題.肖倩等[2]將LDA主題模型與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,擺脫了對(duì)語義信息的過度依賴.李新盼[3]利用基于改進(jìn)的Word2Vec和tfidf的文本表示模型,有效解決了傳統(tǒng)文本表示模型映射出的向量高維稀疏性和忽略語義相似度的問題.但上述文本表示模型均只解決了某一方面的問題,而未考慮盡可能包含全部文本信息.在話題聚類方面,陳艷紅等[4]提出了一種基于信息熵和密度改進(jìn)的k-means聚類算法,降低了孤立點(diǎn)對(duì)算法性能的不利影響.趙楊[5]將“話題簇代表”這一概念引入到Single-Pass聚類算法中,降低了Single-Pass聚類算法的計(jì)算量.傳統(tǒng)的聚類算法在話題檢測(cè)方面有著諸多應(yīng)用,但神經(jīng)網(wǎng)絡(luò)聚類在該方面的應(yīng)用卻較少.

        針對(duì)以上問題,本文提出了一種基于Single-Pass聚類和SOM神經(jīng)網(wǎng)絡(luò)聚類的話題檢測(cè)方法.該方法利用詞向量獲取文本的語義信息,利用LDA 話題模型獲取文本的主題信息,有效克服了文本聚類過程中特征維數(shù)高、數(shù)據(jù)稀疏的問題.并考慮到時(shí)間推移對(duì)話題興趣點(diǎn)的影響,引入了時(shí)間衰減因子.同時(shí),將Single-Pass聚類和SOM聚類相結(jié)合,利用了Single-Pass聚類運(yùn)算速度快且不需要提前設(shè)定聚類個(gè)數(shù)的優(yōu)點(diǎn),先獲得模糊聚類個(gè)數(shù)和權(quán)值矩陣,并將其作為SOM聚類的初始神經(jīng)元個(gè)數(shù)和連接權(quán)向量,解決了SOM神經(jīng)網(wǎng)絡(luò)聚類需要提前確定初始神經(jīng)元的問題,進(jìn)一步提高了話題檢測(cè)的準(zhǔn)確率和效率.

        1 基于時(shí)間衰減因子的LDA&&Word2Vec文本表示模型

        1.1 詞向量模型

        詞向量是由Hinton[6]提出的一種詞語的特征表示,它的基本思想是通過對(duì)大量未標(biāo)注的文本數(shù)據(jù)進(jìn)行無監(jiān)督的語言模型訓(xùn)練,將詞語表示成一組低維實(shí)數(shù)向量,以此來刻畫詞語的語義特征.Word2Vec是由Google于2013年發(fā)布的詞向量訓(xùn)練工具,它能夠從大規(guī)模未經(jīng)標(biāo)注的語料中高效地生成詞的向量形式.該模型可以通過減少訓(xùn)練過程中所需要的參數(shù),避免過擬合,提升了訓(xùn)練效率.因而本文為了獲取文本的語義信息,同時(shí)避免詞向量的訓(xùn)練過程過于復(fù)雜,采用了Word2Vec詞向量方法進(jìn)行文本的向量化表示.

        1.2 LDA主題模型

        潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是由 Blei 等[7]于 2003年提出的一種貝葉斯概率模型.該模型具有優(yōu)秀的話題建模能力,能夠有效實(shí)現(xiàn)文本的降維表示,這些都促使其在話題檢測(cè)領(lǐng)域得到了廣泛應(yīng)用.

        LDA模型是一個(gè)3層的文檔生成模型,主要結(jié)構(gòu)包括文檔、主題、詞.該模型基于這樣的假設(shè):每個(gè)文檔都是由多個(gè)隱含主題構(gòu)成的,而每個(gè)主題又是由多個(gè)相關(guān)詞匯構(gòu)成的,其拓?fù)浣Y(jié)構(gòu)如圖1所示.

        圖1 LDA 拓?fù)浣Y(jié)構(gòu)圖

        對(duì)于LDA主題模型,在僅給定文本數(shù)據(jù)集的情況下,可以采用Gibbs 采樣對(duì)模型未知參數(shù)進(jìn)行估計(jì),進(jìn)而得出文檔-主題分布和主題-詞分布.

        1.3 文本相似度

        由于基于詞匯級(jí)別的語義特征向量只能對(duì)文本的淺層語義分布特征進(jìn)行表示,缺乏對(duì)主題信息的具體描述.而基于LDA模型的主題特征向量恰好能對(duì)語義特征向量在特征表示上的不足進(jìn)行補(bǔ)充.因此,本文采用多特征融合的方法結(jié)合了文本的主題特征和語義特征,使得最終求得的文本相似度中綜合考慮了文本的主題及語義信息,具體過程如下所示:

        (1)采用LDA主題模型獲取文本的主題特征,根據(jù)主題特征采用JS距離來計(jì)算各文本主題分布的相似度.利用JS距離公式計(jì)算文檔p=p1,p2,···,pn和文檔q=q1,q2,···,qn的主題相似度simLDA(p,q)如下:

        其中,p和q為兩個(gè)文本的主題概率向量,DKL(p,q)為KL距離.由于其計(jì)算距離時(shí)不滿足相似度對(duì)稱性,因此一般采用JS距離計(jì)算相似度.

        (2)采用Word2Vec詞向量模型獲取文本的語義特征,根據(jù)語義特征采用余弦相似度來計(jì)算文本相似度.利用余弦相似度公式計(jì)算文檔p=p1,p2,···,pn和文檔q=q1,q2,···,qn的語義相似度simW2V(p,q)如下:

        (3)采用加權(quán)融合的方法結(jié)合文本的主題相似度和語義相似度,文檔p=p1,p2,···,pn和文檔q=q1,q2,···,qn的文本相似度sim(p,q)的具體計(jì)算公式如下:

        其中,α和β分別表示simLDA(p,q)和simW2V(p,q)的權(quán)值,α+β=1.

        (4)時(shí)間衰減因子同樣是判斷兩個(gè)文本是否屬于同一話題的重要因素.兩個(gè)文本的發(fā)布時(shí)間相隔越遠(yuǎn),這兩個(gè)文本屬于同一話題的可能性就越低,那么,就應(yīng)該賦予較低的權(quán)重.這是因?yàn)樵掝}是具有一定生命周期的.對(duì)于大眾用戶來說,隨著時(shí)間的推移其對(duì)該話題的興趣點(diǎn)會(huì)慢慢淡化或者轉(zhuǎn)移到新的話題上.因此,本文根據(jù)牛頓冷卻定律設(shè)計(jì)了時(shí)間衰減因子,用來表示大眾對(duì)話題興趣的下降.本文設(shè)計(jì)時(shí)間衰減因子的計(jì)算公式如下:

        其中,t0,t分別表示兩個(gè)文本的發(fā)布時(shí)間,k為衰減率,表示大眾對(duì)話題興趣的下降速度.

        將該時(shí)間衰減因子引入到本文的文本相似度計(jì)算中,得到最終的相似度計(jì)算公式:

        2 文本聚類模型

        2.1 Single-Pass聚類算法

        Single-Pass算法是一種增量聚類算法,它計(jì)算簡(jiǎn)單,運(yùn)行速度快,且不需要預(yù)先指定聚類個(gè)數(shù),常應(yīng)用于大規(guī)模文本聚類.其基本思想是:按照一定的順序輸入文本,將第一個(gè)輸入的文本作為第一個(gè)話題簇,當(dāng)后續(xù)文本繼續(xù)輸入時(shí),判斷輸入文本與已有話題簇的相似度,選擇輸入文本與已有某個(gè)話題簇的最大相似度,并判斷是否滿足相似度閾值要求,滿足則把輸入文本歸入到最大相似話題簇,反之則說明輸入文本與已有話題簇均為不同類別,那么創(chuàng)建新的話題簇,重復(fù)上述過程直到所有的文本處理結(jié)束.

        雖然Single-Pass算法簡(jiǎn)單易懂,并且在處理流數(shù)據(jù)時(shí)極具優(yōu)勢(shì),但它也存在一些缺點(diǎn):

        (1)輸入順序?qū)垲惤Y(jié)果的影響程度很大.對(duì)于相同的文檔集合,不同的輸入順序很可能會(huì)導(dǎo)致不同的聚類結(jié)果.

        (2)聚類精度較低.Single-Pass聚類算法僅僅遍歷文本一次,如果聚類結(jié)果出現(xiàn)偏差,無法動(dòng)態(tài)更新.

        針對(duì)以上提出的不足,本文對(duì)該算法做了以下改進(jìn):

        (1)在輸入待聚類文本之前,按照文本發(fā)布時(shí)間對(duì)其進(jìn)行排序,這符合話題的演變過程,以此來減少不同輸入順序?qū)垲惤Y(jié)果的影響.

        (2)因Single-Pass聚類算法聚類精度較低,本文僅使用該算法進(jìn)行粗聚類,獲取模糊聚類個(gè)數(shù)和中心點(diǎn)位置,作為后續(xù)SOM神經(jīng)網(wǎng)絡(luò)算法的初始化參數(shù).

        2.2 SOM神經(jīng)網(wǎng)絡(luò)聚類算法

        自組織特征映射神經(jīng)網(wǎng)絡(luò)(Self-Organizing feature Map,SOM)是由Kohonen[8]提出的一種無監(jiān)督的競(jìng)爭(zhēng)學(xué)習(xí)型前饋網(wǎng)絡(luò).該模型能夠通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得數(shù)據(jù)的重要特征或內(nèi)在規(guī)律,從而將數(shù)據(jù)劃分到不同的區(qū)域,達(dá)到對(duì)數(shù)據(jù)聚類的效果.SOM神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)僅由輸入層和競(jìng)爭(zhēng)層(輸出層)構(gòu)成.輸入層的每一個(gè)神經(jīng)單元均與競(jìng)爭(zhēng)層的每一神經(jīng)單元相連接,構(gòu)成全互連的結(jié)構(gòu),從而保證了輸入層獲取到的全部信息均能傳輸?shù)礁?jìng)爭(zhēng)層.其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:

        圖2 SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        SOM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程主要分為競(jìng)爭(zhēng)、合作和權(quán)值調(diào)整這3個(gè)階段.其算法流程圖如圖3.

        圖3 SOM算法流程圖

        2.3 Single-Pass-SOM組合聚類算法

        SOM神經(jīng)網(wǎng)絡(luò)聚類算法網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,學(xué)習(xí)速度快,具有較強(qiáng)的泛化能力,適用于大規(guī)模數(shù)據(jù)的聚類.但該模型也有一定的缺點(diǎn),在傳統(tǒng)的SOM神經(jīng)網(wǎng)絡(luò)聚類算法中,其權(quán)值的初始值是通過隨機(jī)選擇產(chǎn)生的,這在一定程度上會(huì)影響該模型的聚類效果.因此,在初始化參數(shù)階段,本文提出采用Single-Pass聚類算法先進(jìn)行粗聚類,得到話題聚類的中心點(diǎn),將其作為SOM神經(jīng)網(wǎng)絡(luò)聚類算法權(quán)值的初始值,使用SOM神經(jīng)網(wǎng)絡(luò)聚類算法進(jìn)行細(xì)聚類,得到最終的聚類結(jié)果.具體流程如下:

        (1)按照文本的發(fā)布時(shí)間順序輸入待聚類的文本向量,執(zhí)行Single-Pass算法,得到初始聚類數(shù)目K和初始權(quán)值矩陣M.

        (2)將文本向量輸入到SOM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,該神經(jīng)網(wǎng)絡(luò)采用Single-Pass算法確定的聚類數(shù)目K以及對(duì)應(yīng)的權(quán)向量作為初始神經(jīng)元個(gè)數(shù)和權(quán)向量.

        (3)獲得Single-Pass-SOM組合聚類的結(jié)果,并在此基礎(chǔ)上進(jìn)行相關(guān)分析.

        Single-Pass-SOM組合聚類算法結(jié)合了 SOM網(wǎng)絡(luò)和Single-Pass算法的優(yōu)點(diǎn),同時(shí)彌補(bǔ)了各自的缺陷,是一種較為理想的聚類方法.

        3 實(shí)驗(yàn)分析

        基于Single-Pass-SOM組合聚類算法,本文構(gòu)建了話題檢測(cè)模型.具體流程如圖4所示.

        圖4 話題檢測(cè)算法流程圖

        3.1 實(shí)驗(yàn)數(shù)據(jù)及其預(yù)處理

        本文的實(shí)驗(yàn)數(shù)據(jù)為通過網(wǎng)絡(luò)爬蟲爬取的來自20個(gè)政府新聞門戶網(wǎng)站以及新浪微博可供訪問的從2018年12月到2019年4月的相關(guān)政策、政務(wù)新聞,共約10萬條文本數(shù)據(jù).

        通過網(wǎng)絡(luò)爬蟲獲取到的原始數(shù)據(jù)含有大量的臟數(shù)據(jù),因此本文對(duì)獲取到的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了必要的預(yù)處理操作,包括去除重復(fù)文本數(shù)據(jù)、分詞、去除停用詞、去除特殊符號(hào)等操作.

        3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        在話題檢測(cè)中常用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(P)、召回率(R)、F1值.F1值是召回率和準(zhǔn)確率的幾何加權(quán)均值,可以更精確地衡量話題檢測(cè)的精度,F1值越大,話題檢測(cè)效果越好.計(jì)算公式如下:

        其中,TP代表已檢測(cè)到的正確的文檔數(shù),FP代表已檢測(cè)到的不正確的文檔數(shù),FN代表未檢測(cè)到的正確的文檔數(shù).

        3.3 實(shí)驗(yàn)結(jié)果分析

        3.3.1 不同文本表示模型對(duì)實(shí)驗(yàn)結(jié)果的影響

        本實(shí)驗(yàn)分別選用LDA主題模型,Word2Vec詞向量模型,LDA&&Word2Vec模型和本文提出的基于時(shí)間衰減因子的LDA&&Word2Vec文本表示模型進(jìn)行性能對(duì)比.在實(shí)驗(yàn)過程中,首先采用這4種模型實(shí)現(xiàn)文本的向量表示,再使用Single-Pass-SOM組合聚類模型進(jìn)行文本話題檢測(cè),并計(jì)算話題檢測(cè)的準(zhǔn)確率、召回率和F1值,最后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較分析,驗(yàn)證本文提出的文本表示模型的有效性.實(shí)驗(yàn)結(jié)果如圖所示,圖5為不同話題下4種文本表示模型話題檢測(cè)結(jié)果的準(zhǔn)確率、召回率和綜合指標(biāo)F1值.

        圖5 文本表示模型話題檢測(cè)結(jié)果的P、R和F1值

        從圖5可以看出本文提出的基于時(shí)間衰減因子的LDA&&Word2Vec文本表示模型無論是在準(zhǔn)確率上,還是在召回率上均優(yōu)于其他3種文本表示模型.從F1值上看,單獨(dú)的LDA模型和Word2Vec詞向量模型實(shí)驗(yàn)結(jié)果差異不大,分別為73.3%和74.6%.而將這兩種文本表示模型相結(jié)合的LDA&&Word2Vec模型,由于綜合了這兩種模型的優(yōu)點(diǎn),既通過LDA主題模型獲取了文本的主題信息,又通過Word2Vec詞向量模型解決了文本數(shù)據(jù)稀疏和向量高維的問題,其F1值提高了8.97%.同時(shí),在LDA&&Word2Vec模型的基礎(chǔ)上加入時(shí)間衰減因子,考慮到了時(shí)間對(duì)話題檢測(cè)效果的影響,其F1值又提高了3.44%.

        3.3.2 不同方法實(shí)驗(yàn)結(jié)果對(duì)比

        本實(shí)驗(yàn)在對(duì)文本數(shù)據(jù)采用基于時(shí)間衰減因子的LDA&&Word2Vec模型進(jìn)行文本向量表示的基礎(chǔ)上,對(duì)Single-Pass聚類模型、SOM神經(jīng)網(wǎng)絡(luò)聚類模型和Single-Pass-SOM組合聚類模型3種聚類模型分別進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較分析.實(shí)驗(yàn)結(jié)果如圖所示,圖6為不同話題下3種聚類模型話題檢測(cè)結(jié)果的準(zhǔn)確率、召回率和綜合指標(biāo)F1值.

        圖6 聚類模型話題檢測(cè)結(jié)果的P、R和F1值

        從圖6可以看出,本文提出的Single-Pass-SOM組合聚類模型相比于單獨(dú)的Single-Pass模型和SOM模型,其在準(zhǔn)確率、召回率和F1值上均有更好的表現(xiàn).其在準(zhǔn)確率上提高了6%~7%,在召回率上提高了6%,在綜合指標(biāo)F1值上有5%~7%的提高.原因在于Single-Pass-SOM組合聚類模型使用Single-Pass聚類模型解決了SOM神經(jīng)網(wǎng)絡(luò)模型初始化神經(jīng)元設(shè)定的問題,同時(shí)又用SOM神經(jīng)網(wǎng)絡(luò)模型提高了Single-Pass聚類模型的話題檢測(cè)的精度.

        4 總結(jié)

        本文提出的Single-Pass-SOM組合聚類模型,采用LDA主題模型和Word2Vec詞向量模型從文本數(shù)據(jù)中獲取更高階的文本特征,以此來解決特征維度高、文本數(shù)據(jù)稀疏、主題不明顯的問題,并引入了時(shí)間衰減因子,綜合考慮了時(shí)間對(duì)話題興趣衰減的影響.同時(shí),很好地將Single-Pass聚類模型和SOM神經(jīng)網(wǎng)絡(luò)模型結(jié)合起來.實(shí)驗(yàn)結(jié)果表明,相對(duì)于單獨(dú)的Single-Pass聚類和SOM神經(jīng)網(wǎng)絡(luò)聚類的話題檢測(cè)方法,Single-Pass-SOM組合聚類模型在準(zhǔn)確率、召回率和F1值上均有明顯提高.

        猜你喜歡
        文本檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        国产精品黄网站免费观看| 久久精品中文字幕女同免费| 激情综合色五月丁香六月欧美| 人妻忍着娇喘被中进中出视频| 国产偷2018在线观看午夜| 日本一区二区午夜视频| 国产av在线观看久久| 撕开奶罩揉吮奶头视频| 亚洲春色AV无码专区在线播放| 久久天天躁夜夜躁狠狠躁2022| av手机在线天堂网| 精品一区二区三区a桃蜜| 日韩av高清在线观看| 日本一区午夜艳熟免费| 91极品尤物在线观看播放 | 国产精品人伦一区二区三| 男女猛烈xx00免费视频试看| 日日碰狠狠添天天爽| 亚洲国产成人久久一区www妖精| 日韩精品不卡一区二区三区| 日本中文一区二区在线| 免费操逼视频| 九九精品无码专区免费| 国产一区二区三区特黄| 国产 一二三四五六| 午夜亚洲av永久无码精品| 99久久综合国产精品免费 | 免费a级毛片无码免费视频首页| 伊人色综合视频一区二区三区| 巨乳av夹蜜桃站台蜜桃机成人| 亚洲精彩av大片在线观看 | 午夜大片在线播放观看| 夫妻免费无码v看片| 亚洲老妇色熟女老太| 国产伦精品一区二区三区视| 在线观看国产三级av| 日本中文字幕有码在线播放| 国产精品成人网站| 狼人国产精品亚洲| 男女动态视频99精品| 国产夫妇肉麻对白|