亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ATM并行化采樣優(yōu)化算法的研究

        2018-06-25 02:28:34黃啟萍
        關(guān)鍵詞:擴(kuò)展性語(yǔ)料單詞

        童 威,黃啟萍

        (1.安徽文達(dá)信息工程學(xué)院,安徽合肥 231201;2.安徽電氣工程職業(yè)技術(shù)學(xué)院,安徽合肥 230051)

        [通訊作者]黃啟萍(1985- ),女,助教,碩士研究生,從事經(jīng)濟(jì)學(xué)研究。

        隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)的快速發(fā)展,微博作為一種新興的社交平臺(tái),滿足了人們信息獲取、日常交流等目的[1]。企業(yè)微博是其中一種微博群體,作為企業(yè)發(fā)布產(chǎn)品信息,了解行業(yè)動(dòng)態(tài)的新興平臺(tái)。利用數(shù)據(jù)挖掘和文本分析等技術(shù)對(duì)企業(yè)微博語(yǔ)料進(jìn)行分析挖掘,可以幫助企業(yè)更加方便地進(jìn)行產(chǎn)品營(yíng)銷、客戶溝通,把握行業(yè)信息動(dòng)態(tài),獲取行業(yè)相關(guān)的商業(yè)信息,從中挖掘出更多的商機(jī),促進(jìn)企業(yè)發(fā)展。因此,對(duì)企業(yè)微博的分析研究具有重要的研究意義和良好的應(yīng)用價(jià)值。

        微博主題分析是其中一個(gè)基礎(chǔ)任務(wù),通過對(duì)企業(yè)微博進(jìn)行主題分析可以發(fā)現(xiàn)企業(yè)特征,查找相似企業(yè)和構(gòu)建企業(yè)產(chǎn)品主題變化圖[2]。對(duì)于主題分析的任務(wù)情況,作者主題模型ATM(Author Topic Model)能對(duì)語(yǔ)料作者和單詞同時(shí)建模,從而解決類似于微博主題分析任務(wù),探索企業(yè)與微博主題之間的相關(guān)性。然而巨大的微博數(shù)量給作者主題分析工作帶來(lái)了難度:一方面作者主題模型訓(xùn)練復(fù)雜度高,耗時(shí)長(zhǎng),需要改進(jìn)其采樣算法來(lái)降低復(fù)雜度;另一方面隨著語(yǔ)料規(guī)模增大,單機(jī)無(wú)法訓(xùn)練,需要借助大數(shù)據(jù)技術(shù)進(jìn)行并行化訓(xùn)練。然而目前主題模型的并行化訓(xùn)練主要集中在LDA主題模型上,作者主題模型的并行化訓(xùn)練仍是空白。

        1 問題分析

        作者主題模型的求解通常采用吉布斯采樣算法求解,其每一輪迭代對(duì)語(yǔ)料中每個(gè)單詞的采樣公式如公式(1)所示。

        (1)

        在作者主題模型的標(biāo)準(zhǔn)吉布斯采樣算法中,每采樣出一個(gè)文檔的單詞,需對(duì)全局計(jì)數(shù)進(jìn)行更新,并且后續(xù)單詞的采樣依賴于更新后的全局計(jì)數(shù)。此種采樣方式不適合作者主題模型的并行化訓(xùn)練[3]。

        在大規(guī)模微博語(yǔ)料的作者主題分析任務(wù)中,對(duì)作者主題模型進(jìn)行采樣優(yōu)化,需要改進(jìn)作者主題模型采樣算法,避免實(shí)時(shí)更新全局計(jì)數(shù)。并且降低每個(gè)單詞采樣算法的復(fù)雜度。采樣優(yōu)化之后,再借助Spark大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)大規(guī)模作者主題模型的訓(xùn)練過程[4]。

        2 算法設(shè)計(jì)與優(yōu)化

        2.1 MCATM采樣算法

        本文提出的作者主題模型延遲更新采樣思想在每輪迭代過程中不更新全局計(jì)數(shù),每輪迭代完成之后統(tǒng)一更新全局計(jì)數(shù),其相應(yīng)的采樣MCATM算法如下:

        MCATM算法的單輪采樣:

        步驟1 對(duì)于文檔中的每個(gè)單詞,采樣得到其作者和主題根據(jù)和驗(yàn)分布:

        (2)

        2.2 MHATM優(yōu)化采樣算法

        2.3 ECATM優(yōu)化采樣算法

        MCATM算法和MHATM算法在采樣時(shí),同時(shí)采樣作者和主題,本文提出ECATM采樣算法,將此二維采樣問題進(jìn)行分解。首先分析在知道單詞w的作者a的情況下,算法只需采樣得到單詞的主題即可,采樣主題k如式(3)所示。

        (3)

        經(jīng)研究得到了作者主題模型的延遲更新采樣算法MCATM和相應(yīng)的優(yōu)化采樣算法MHATM和ECATM之后,作者主題模型訓(xùn)練基于上述三種采樣方式進(jìn)行并行化訓(xùn)練。其并行化訓(xùn)練流程圖如圖1所示。步驟1和步驟2為預(yù)處理步驟。作者主題模型的訓(xùn)練是迭代過程,迭代按照步驟3至步驟8進(jìn)行。步驟8結(jié)束之后更新DataRDD的單詞的作者和主題,以便于繼續(xù)進(jìn)行下一輪的迭代。

        圖1 作者主題模型并行化訓(xùn)練流程圖

        3 性能評(píng)估分析

        在性能評(píng)估分析中,首先驗(yàn)證本文提出算法的正確性,其次評(píng)估大規(guī)模作者主題模型訓(xùn)練的數(shù)據(jù)擴(kuò)展性。

        3.1 算法正確性

        通過計(jì)算模型迭代過程中的混淆度值(perplexity)來(lái)判斷不同算法是否最終收斂到同一精確度[5]。試驗(yàn)選用weibodata和networkdata語(yǔ)料來(lái)進(jìn)行測(cè)試,結(jié)果如圖2所示,參照標(biāo)準(zhǔn)為作者主題模型的標(biāo)準(zhǔn)吉布斯采樣算法ATM。

        圖2 語(yǔ)料正確性測(cè)試

        從圖2可知,ATM、MCATM、MHATM和ECATM經(jīng)過一定輪次的迭代后收斂到同一精度,證明了MHATM、ECATM、MCATM算法的正確性。

        3.2 數(shù)據(jù)擴(kuò)展性

        圖3 數(shù)據(jù)擴(kuò)展性實(shí)驗(yàn)結(jié)果

        在數(shù)據(jù)擴(kuò)展性實(shí)驗(yàn)中,本文選擇不同規(guī)模的數(shù)據(jù),在不同的采樣算法上進(jìn)行訓(xùn)練,統(tǒng)計(jì)迭代時(shí)長(zhǎng)來(lái)分析,在不同規(guī)模數(shù)據(jù)下算法的擴(kuò)展性,數(shù)據(jù)擴(kuò)展性在并行環(huán)境下進(jìn)行[6]。實(shí)驗(yàn)環(huán)境設(shè)置核數(shù)均為256,每個(gè)executor分配核數(shù)8個(gè),模型的主題統(tǒng)一設(shè)置為1000,超參數(shù)alpha為0.01,beta為0.01。統(tǒng)計(jì)前50輪迭代的平均時(shí)間,實(shí)驗(yàn)結(jié)果如圖3所示。

        從圖3可知,ECATM算法具有很好的語(yǔ)料擴(kuò)展性。MHATM增長(zhǎng)幅度緩于MCATM算法,有良好的語(yǔ)料擴(kuò)展性能。MCATM算法隨著語(yǔ)料增大每輪迭代時(shí)間基本呈線性增長(zhǎng)趨勢(shì)。

        4 結(jié)語(yǔ)

        針對(duì)作者主題模型,本文提出了一種作者主題模型的延遲更新采樣思想,以及相應(yīng)的吉布斯采樣優(yōu)化算法MCATM算法。在此基礎(chǔ)上提出了兩大優(yōu)化算法,即MHATM和ECATM算法。實(shí)驗(yàn)結(jié)果表明,本文提出的MCATM、MHATM和ECATM采樣優(yōu)化算法,能與原始作者主題模型的吉布斯采樣算法達(dá)到同樣的收斂程度,有著較好的數(shù)據(jù)擴(kuò)展性。

        [參考文獻(xiàn)]

        [1]張曉飛.關(guān)于企業(yè)微博營(yíng)銷策略問題的探討[J].太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013(5):115-116.

        [2]鄭誠(chéng),熊大康,劉倩倩.基于卡方特征選擇和LDA主題模型的中文短文本分類[J].電腦知識(shí)與技術(shù),2014(13):280-283.

        [3]楊勇,朱影.一種基于MapReduce的粗糙集并行屬性約簡(jiǎn)算法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015(1):93-100.

        [4]鄭濤,王路路.基于PBTM的海量微博主題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2015(3):134-136.

        [5]Lechtenborger J,Vossen G.Multidimensional normal forms for data warehousedesign[J].Information Systems,2003(28):415-434.

        [6]Pilevar A H,Sukumar M.GCHL:A grid-clustering algorithm for high-dimensional verylarge spatial data bases[J].Pattern Recognition Letters,2005(7):999-1010.

        猜你喜歡
        擴(kuò)展性語(yǔ)料單詞
        單詞連一連
        看圖填單詞
        提高初中階段學(xué)生英語(yǔ)擴(kuò)展性閱讀能力策略分析
        看完這些單詞的翻譯,整個(gè)人都不好了
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        高中物理如何充分利用擴(kuò)展性欄目
        比ITX還小華擎推首款Mini—STX主板
        電腦愛好者(2016年8期)2016-04-28 20:54:47
        網(wǎng)絡(luò)教學(xué)平臺(tái)的擴(kuò)展性研究
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        熟女人妇交换俱乐部| 国产精品一品二区三区| 日韩一区二区中文天堂| av色一区二区三区精品| 国产三级在线观看完整版| 少妇下蹲露大唇无遮挡| 亚洲熟妇一区无码| 久久久精品人妻一区二区三区蜜桃 | 欧美一级视频在线| 亚洲一区二区三区自拍麻豆| 美女人妻中出日本人妻| 久久国产精品偷任你爽任你| 国产夫妇肉麻对白| 亚洲精品久久| 免费人成视频x8x8| 欧美深夜福利视频| 五月激情在线观看视频| 极品粉嫩小仙女高潮喷水网站| 国产人妻熟女高跟丝袜图片| 日本无遮挡吸乳呻吟视频| 制服丝袜人妻中出第一页| 亚洲天堂av路线一免费观看| 亚洲av伊人久久综合性色| 亚洲乱熟妇一区二区三区蜜桃| 男人天堂这里只有精品| 亚洲av永久无码精品网站在线观看 | 无遮挡又爽又刺激的视频| 国产激情内射在线影院| 国产精品27页| 亚洲综合网中文字幕在线| 日韩av毛片在线观看| 久久国产色av免费观看| 婷婷综合缴情亚洲| 亚洲国产成人手机在线观看| 日本一区二区三区的免费视频观看| av手机免费在线观看高潮| 永久亚洲成a人片777777| 99久久亚洲精品无码毛片| 亚洲AV无码日韩综合欧亚| 蜜桃视频在线在线观看| 国产极品女主播国产区|