亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)的短文本流主題演化模型

        2017-05-16 08:28:08趙曉東柳先輝
        關(guān)鍵詞:短文準(zhǔn)確性遺傳

        林 特,趙曉東,柳先輝

        (同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)

        一種改進(jìn)的短文本流主題演化模型

        林 特,趙曉東,柳先輝

        (同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)

        在線主題模型基于先時(shí)間離散后主題建模的思想,存在文本流切分帶來(lái)的模型無(wú)法平滑過(guò)渡的問(wèn)題,同時(shí)時(shí)間片大小的選擇對(duì)在線話題的抽取質(zhì)量影響顯著。提出了一種新的在線短文本流主題演化模型Online-BTOT。模型在遺傳計(jì)算方法上進(jìn)行了改良,不僅考慮時(shí)間片上的總體主題強(qiáng)度對(duì)遺傳權(quán)重的影響,也將時(shí)間片上主題強(qiáng)度的變化納入先驗(yàn)參數(shù)的計(jì)算中。同時(shí),為了得到主題強(qiáng)度在時(shí)間片上的連續(xù)變化和克服短文本的稀疏性,在單時(shí)間片上結(jié)合了TOT模型和BTM模型。通過(guò)在微博短文本語(yǔ)料上與OLDA模型和OBTM模型的對(duì)比實(shí)驗(yàn),證明Online-BTOT模型能夠有效地分析在線短文本流的主題演化。

        主題演化;短文本;Online-BTOT;主題模型

        0 引言

        隨著互聯(lián)網(wǎng)愈發(fā)傾向移動(dòng)化,新的信息交互方式,比如微博、微信、朋友圈,公眾號(hào)等社交網(wǎng)絡(luò)和自媒體已成為公眾日常生活須臾不可離的一部分。新的交互方式塑造了輕量化和高頻率的新形式的移動(dòng)交互語(yǔ)言——短文本。短文本規(guī)模龐大,基于其上的話題演化分析能夠有效地從冗雜的文檔集中提取話題按時(shí)間順序的發(fā)展演化過(guò)程,從而幫助公眾分析話題在強(qiáng)度和內(nèi)容上隨時(shí)間的變化。因此,短文本的話題演化研究具有重要的應(yīng)用背景。

        近年來(lái),概率主題模型在文本挖掘領(lǐng)域受到廣泛的關(guān)注和研究。BLEI D M等人提出的LDA(Latent Dirichlet Allocation)模型[1]基于詞袋假設(shè),認(rèn)為文檔是由特定的隱含主題序列生成的,奠定了主題模型的基礎(chǔ)。本質(zhì)上,傳統(tǒng)的主題模型在主題抽取方面隱式基于文本層面的詞共現(xiàn)現(xiàn)象。然而,短文本在文本層面上的稀疏性致使傳統(tǒng)的主題模型在短文本的隱含主題抽取的準(zhǔn)確性普遍不高。為了克服稀疏性, Yan Xiaohui等人提出的BTM(Biterm Topic Model)模型[2]通過(guò)顯式地對(duì)共現(xiàn)詞對(duì)建模,同時(shí)將文本層面的詞共現(xiàn)現(xiàn)象擴(kuò)大到整個(gè)文本集層面,從而克服了短文本的稀疏性,主題抽取的準(zhǔn)確性較傳統(tǒng)主題模型有顯著提高。

        借助主題模型,通過(guò)引入時(shí)間信息,研究話題隨時(shí)間的演化,是當(dāng)前主題演化的研究熱點(diǎn)。研究者們提出的方法大致分為兩類。一是先主題抽取后離散,反映主題在時(shí)間上的強(qiáng)度變化的TOT(Topic Over Time)模型[3]和記錄主題內(nèi)容和強(qiáng)度演化信息的DTM(Dynamic Topic Model)模型[4]都屬于此范疇,由于需要全局建模,不適合在線文本流分析。二是按時(shí)間先離散,OLDA(Online-LDA)模型[5]通過(guò)遺傳計(jì)算的方法將歷史分布作為當(dāng)前時(shí)間片的先驗(yàn)參數(shù),從而具備在線處理的能力。但時(shí)間片大小的選擇、遺傳權(quán)重的確定對(duì)話題抽取質(zhì)量影響顯著。

        針對(duì)短文本的稀疏性問(wèn)題和在線主題模型存在的問(wèn)題,本文采用按時(shí)間先離散方法的同時(shí)在每個(gè)時(shí)間片上引入每篇文本的時(shí)間信息,結(jié)合BTM和TOT模型的思想建模主題強(qiáng)度在時(shí)間片上的連續(xù)變化,從主題強(qiáng)度和主題強(qiáng)度變化兩方面改善在線主題模型在主題遺傳度上的計(jì)算方法。

        1 相關(guān)工作

        1.1 BTM模型

        BTM模型由Yan Xiaohui等人提出,基于共詞頻率愈大愈傾向于同一個(gè)主題的思想,不同的是,模型模擬詞對(duì)的產(chǎn)生過(guò)程,通過(guò)整合整個(gè)文檔集的詞對(duì)克服文本稀疏性。假設(shè)α和β是模型的Dirichlet先驗(yàn)。文本集詞對(duì)的產(chǎn)生過(guò)程可以描述如下:

        (1)對(duì)于每個(gè)主題,從參數(shù)β的Dirichlet分布中采樣φk~Dir(β),采樣K次;

        (2)對(duì)于整個(gè)文本集,從參數(shù)α的Dirichlet分布中采樣θ~Dir(α),采樣1次;

        (3)對(duì)于每個(gè)詞對(duì)b,從θ多項(xiàng)分布中采樣詞對(duì)主題z~Multi(θ),從φk多項(xiàng)分布中采樣兩個(gè)詞wi和wj。

        1.2 OLDA模型

        (1)

        歷史信息的遺傳使各個(gè)時(shí)間片中推斷出的主題可以自動(dòng)對(duì)齊,同時(shí)通過(guò)DJS距離度量算法:

        (2)

        計(jì)算鄰近時(shí)間片上的主題相似度,從而發(fā)現(xiàn)新主題。

        2 改進(jìn)的短文本流主題演化模型

        2.1 Online-BTOT模型

        單時(shí)間片上,模型隱含主題的抽取不僅受詞共現(xiàn)的影響,還受到時(shí)間戳信息的影響。文本時(shí)間戳信息是連續(xù)的,為了避免離散化,時(shí)間戳信息將被標(biāo)準(zhǔn)化以滿足0~1上的Beta分布。模型模擬了短文本集中詞對(duì)和時(shí)間戳的產(chǎn)生過(guò)程。模型的概率圖模型如圖1所示。

        圖1 Online-BTOT概率圖模型

        (3)

        2.2 參數(shù)估計(jì)

        (4)

        (5)

        (6)

        (7)

        (8)

        2.3 遺傳計(jì)算

        為了將歷史文本估計(jì)得到的主題強(qiáng)度和主題強(qiáng)度的變化都作為先驗(yàn)知識(shí)納入到當(dāng)前時(shí)間片的先驗(yàn)參數(shù)計(jì)算中,本文提出了一種新的采用積分形式的遺傳權(quán)重計(jì)算方法,概率圖模型如圖1所示。

        (9)

        (10)

        (11)

        3 實(shí)驗(yàn)

        本文通過(guò)抓取2015-11-12至2015-11-19新浪微博平臺(tái)上的總計(jì)6 051 518條微博作為話題演化和分析的實(shí)驗(yàn)數(shù)據(jù)集。以O(shè)LDA和OBTM(Online-BTM)兩種主題演化模型作為參照,對(duì)本文提出的模型的有效性進(jìn)行驗(yàn)證。OBTM采用了Yan Xiaohui的開(kāi)源代碼,OLDA采用了GibbsLDA++的開(kāi)源實(shí)現(xiàn)。實(shí)驗(yàn)均在搭載OS X系統(tǒng),配置4 GB內(nèi)存和Intel Core i5 1.5 GHz CPU的硬件環(huán)境下進(jìn)行。實(shí)驗(yàn)參數(shù)K通過(guò)調(diào)優(yōu),選取50,初始值設(shè)定為50/K,β初始值設(shè)定為0.005,Gibbs采樣迭代頻次設(shè)定為100次,遺傳系數(shù)λ取經(jīng)驗(yàn)值0.6,同時(shí)Online-BTOT的遺傳窗口設(shè)定為4。

        預(yù)處理階段:以1天為時(shí)間單元切分?jǐn)?shù)據(jù)集,通過(guò)nlpir分詞工具對(duì)微博做分詞處理,過(guò)濾@開(kāi)頭的詞和停用詞,然后過(guò)濾詞數(shù)<2的微博,經(jīng)過(guò)上述處理后再去除語(yǔ)料中總詞頻<10的詞,最后再次過(guò)濾詞數(shù)<2的微博。通過(guò)預(yù)處理,有效微博數(shù)減少至5 441 333條,平均每天微博數(shù)量為680 166條。

        3.1 話題抽取的準(zhǔn)確性

        本文采用了主題關(guān)聯(lián)性指標(biāo)Topic Coherence[6]衡量主題的準(zhǔn)確性。直觀得,如果一組詞屬于同一個(gè)話題,那么在同一篇文檔中,它們共現(xiàn)的頻次相應(yīng)地會(huì)較高。Topic Coherence正是基于這個(gè)思想,定義如下:

        (12)

        其中D(v)表示詞v至少出現(xiàn)了一次的文檔頻次,D(v,v′)表示詞v和詞v′同時(shí)至少出現(xiàn)了一次的文檔頻次,V(t)表示主題下t最可能出現(xiàn)的前M個(gè)詞組成的列表。Topic Coherence指標(biāo)越大,話題的準(zhǔn)確性越高。

        為了評(píng)估所有K個(gè)主題的話題準(zhǔn)確性,每個(gè)時(shí)間片上三種模型均取K個(gè)Topic Coherence指標(biāo)的均值:

        (13)

        實(shí)驗(yàn)取M=5,計(jì)算得到的Topic Coherence均值如圖2所示。

        圖2 主題關(guān)聯(lián)性指標(biāo)Topic Coherence均值(K=50, M=5)

        實(shí)驗(yàn)結(jié)果與定性分析預(yù)期的結(jié)果一致,OLDA由于稀疏性,對(duì)于短文本的話題抽取準(zhǔn)確性要明顯低于OBTM模型和Online-BTOT模型,同時(shí)隨著時(shí)間推移,Online-BTOT模型的準(zhǔn)確性普遍高于OBTM模型,這得益于Online-BTOT模型在切面上的平滑過(guò)渡和遺傳計(jì)算方法上的改良。

        3.2 話題內(nèi)容演化

        同一個(gè)話題隨著時(shí)間的推進(jìn),話題的側(cè)重點(diǎn)會(huì)有所偏移,反映到主題模型上,就是主題-詞概率分布會(huì)發(fā)生變化。表1展示了巴黎恐襲子話題IS極端組織話題在連續(xù)時(shí)間片上的概率最高的前10個(gè)詞??梢钥吹絀S極端組織話題開(kāi)始時(shí)與巴黎恐襲關(guān)聯(lián),在17日開(kāi)始與俄羅斯空難關(guān)聯(lián),在19日開(kāi)始與中國(guó)公民被綁架殺害關(guān)聯(lián)。

        表1 IS極端組織話題14日至19日話題內(nèi)容演化

        通過(guò)Jensen-Shannon距離公式計(jì)算主題之間的關(guān)聯(lián)度,可以定量分析話題在內(nèi)容上的演化。圖3所示為Online-BTOT模型從2015-11-12日開(kāi)始#5主題相鄰時(shí)間片的主題距離計(jì)算結(jié)果??梢钥吹?4日的主題距離明顯高于其他時(shí)間點(diǎn),此時(shí)主題發(fā)生了變化(出現(xiàn)了巴黎公布襲擊事件)。同時(shí)可以看到在17日和19日主題距離有小幅的增長(zhǎng),正好對(duì)應(yīng)了前面提到的話題在內(nèi)容上的演化。

        4 結(jié)論

        Online-BTOT模型通過(guò)引入主題強(qiáng)度在時(shí)間片上的變化特征優(yōu)化在線主題模型的遺傳權(quán)重計(jì)算,同時(shí)在單時(shí)間

        圖3 相鄰時(shí)間片#5主題Jensen-Shannon距離變化

        片上引入時(shí)間信息參與主題建模,提高了話題抽取的準(zhǔn)確度,有效改善了時(shí)間片大小選擇不當(dāng)和文本流切分造成的在線話題抽取質(zhì)量不高的問(wèn)題。模型基于Gibbs采樣算法,如何將模型拓展到多線程環(huán)境是下一步要努力的方向。

        [1] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.

        [2] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts[C].Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 1445-1456.

        [3] Wang Xuerui, MCCALLUM A. Topics over time: a non-Markov continuous-time model of topical trends[C].Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.

        [4] BLEI D M, LAFFERTY J D. Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning,ACM, 2006: 113-120.

        [5] AlSUMAIT L, BARBARD, DOMENICONI C. On-line LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C].2008 Eighth IEEE International Conference on Data Mining,IEEE,2008: 3-12.

        [6] MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011: 262-272.

        An improved model of topical evolution for short texts

        Lin Te,Zhao Xiaodong,Liu Xianhui

        (College of Electronics and Information, Tongji University, Shanghai 201804, China)

        Online topic model based on pre-discretizing method has smooth transition problem brought by cutting text streams and time-slice selection has significant influences on the quality of topics discovered. In this paper, we propose a novel model for modeling topics evolution in online short text streams, referred as Online-BTOT. Online-BTOT is improved in topic genetic method, which not only blends the overall topic intensity into genetic weight calculation, but also considers the topic intensity fluctuation to calculate the priori-parameters. At the same time, in order to get the fluctuation of topic intensity and overcome the sparsity of short texts, Online-BTOT integrates TOT model and BTM model in single time-slice, and finally the Online-BTOT model is formed. By comparative experiments with OLDA model and OBTM model on micro-blog corpus, Online-BTOT is proved to be effective in analysis of topics evolution in online short text streams.

        topic evolution; short texts; Online-BTOT; topic model

        TP181

        A

        10.19358/j.issn.1674- 7720.2017.08.016

        林特,趙曉東,柳先輝.一種改進(jìn)的短文本流主題演化模型[J].微型機(jī)與應(yīng)用,2017,36(8):48-50,55.

        2016-10-28)

        林特(1992-),男,碩士研究生,主要研究方向:主題模型。

        趙曉東(1968-),男,碩士,高級(jí)工程師,主要研究方向:模型可視化。

        柳先輝(1979-),男,博士,講師,主要研究方向:數(shù)據(jù)挖掘。

        ________________________

        猜你喜歡
        短文準(zhǔn)確性遺傳
        非遺傳承
        淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
        還有什么會(huì)遺傳?
        還有什么會(huì)遺傳
        還有什么會(huì)遺傳?
        KEYS
        Keys
        美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
        論股票價(jià)格準(zhǔn)確性的社會(huì)效益
        超聲引導(dǎo)在腎組織活檢中的準(zhǔn)確性和安全性分析
        久久综合亚洲色一区二区三区 | 成年女人午夜特黄特色毛片免| 免费看黄片的视频在线观看| 精品人妻少妇嫩草av无码专区| 日本老熟欧美老熟妇| 91青草久久久久久清纯| 亚洲熟女少妇精品久久| 欧美激情乱人伦| 精品麻豆国产色欲色欲色欲www | 久久亚洲一区二区三区四区五| 婷婷久久国产综合精品| 影音先锋男人站| 加勒比精品久久一区二区三区| 天天综合色中文字幕在线视频| 77777亚洲午夜久久多喷| 亚洲中文字幕在线观看| 伊人色综合久久天天人手人停| 国产av一区二区三区香蕉| 手机免费在线观看av网址| 九一九色国产| 9久久精品视香蕉蕉| 在线观看中文字幕不卡二区| 精品久久久久久无码专区| 欧美丰满大屁股ass| 亚洲一区二区精品久久岳| 国产黄色一区二区在线看| 绝顶潮喷绝叫在线观看| 丁香综合网| 又爽又猛又大又湿的视频| 色综合久久中文字幕综合网| 久久久无码中文字幕久...| 国产精品国产三级国产av创 | 青青草 视频在线观看| 精品国产sm捆绑最大网免费站| 在线视频青青草猎艳自拍69| 国产精品一区二区久久蜜桃| 国产精品成人免费视频一区| 欧美日韩在线免费看| 国产精品农村妇女一区二区三区 | 加勒比东京热久久综合| 人妻精品视频一区二区三区|