亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        運(yùn)用改進(jìn)型LDA算法的電商微博熱點(diǎn)話題研究

        2019-02-06 10:56:52孟小璐
        關(guān)鍵詞:熱點(diǎn)話題博文熱詞

        姚 潔,孟小璐

        (福州外語(yǔ)外貿(mào)學(xué)院,福州 350202)

        2018年6月阿里和微博聯(lián)合發(fā)布了電商營(yíng)銷的“u微計(jì)劃”,將打通雙方平臺(tái)的用戶數(shù)據(jù),實(shí)現(xiàn)微博種草、阿里拔草。也就是說(shuō),以后微博推送的內(nèi)容會(huì)更符合消費(fèi)者喜好,誘發(fā)消費(fèi)者“剁手”的可能性也越大。目前,主流的電商企業(yè)也都想方設(shè)法利用微博進(jìn)行品牌營(yíng)銷,其主要看中微博所帶來(lái)的口碑營(yíng)銷、人際傳播等效應(yīng)。而微博用戶數(shù)眾多,所涉及的話題領(lǐng)域廣,電商企業(yè)發(fā)布的營(yíng)銷微博往往被這些雜亂無(wú)章的信息淹沒(méi),因此對(duì)電商微博的主題挖掘就尤為重要。

        近年來(lái),主題模型是文本挖掘領(lǐng)域的一個(gè)熱門(mén)話題,而LDA模型以其優(yōu)秀的降維能力和良好的擴(kuò)展性被廣泛應(yīng)用。例如,Phan等[1]通過(guò)LDA模型在Web片段文本搜索的準(zhǔn)確度上有了進(jìn)一步的提升;唐杰等[2-3]成功地將LDA模型應(yīng)用到專利挖掘中。但是由于微博篇幅較短,通過(guò)共同出現(xiàn)的詞來(lái)判斷文本相似度的方法其準(zhǔn)確度不高,挖掘效果不理想。為了規(guī)避短文本數(shù)據(jù)噪聲大的問(wèn)題,基于模型擴(kuò)展的方法也層出不窮。例如,Zhang等[4]利用頻率統(tǒng)計(jì)的方法讓話題更靠前;Wayne等[5]提出了Twitter-LDA來(lái)規(guī)避非熱點(diǎn)詞匯,解決文本短和高頻詞的問(wèn)題。但是這些方法需要事先訓(xùn)練和人工干預(yù),而且主題少。

        1 理論基礎(chǔ)

        1.1 傳統(tǒng)LDA模型

        LDA模型是由Blei等[6]提出的一種適用于話題提取的概率生成式主題模型,是一種無(wú)監(jiān)督學(xué)習(xí),主要依靠詞之間的關(guān)聯(lián)來(lái)挖掘主題的詞袋模型。LDA基于分層式的貝葉斯模型,其中包含文檔、主題和詞3層。其模型如圖1所示。

        LDA 3層結(jié)構(gòu)形成“文檔-主題”和“主題-詞”兩個(gè)矩陣,其主要思想可以理解成兩個(gè)物理過(guò)程:

        圖1 LDA模型

        在現(xiàn)實(shí)中,文檔及其每篇文檔的詞的組成都是已知的,再通過(guò)Gibbs抽樣方法求得未知變量和。對(duì)于特定詞t,可得:

        1.2 LDA模型用于電商微博熱點(diǎn)話題發(fā)現(xiàn)的形勢(shì)分析

        LDA主題模型能夠有效地解決電商微博文本的稀疏性、高緯性、語(yǔ)法不規(guī)范性及主題分布不一致等問(wèn)題。但同時(shí),電商微博的文本形式也存在自身的特點(diǎn),如標(biāo)簽(電商微博文本中采用哈希標(biāo)簽,其格式為“#話題名稱?!薄_@類文本能夠有效地表達(dá)熱點(diǎn)話題,具有重要的用戶特征和日期特征。)、時(shí)間戳、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)。如果撇開(kāi)這些屬性直接在海量的微博消息中進(jìn)行熱點(diǎn)話題的挖掘,往往準(zhǔn)確率和效率都不大理想。針對(duì)電商微博的這些特殊的文本形式,同時(shí)借鑒LDA主題模型,提出了一種新的電商微博熱點(diǎn)挖掘模型MALDA(又稱多屬性的LDA)。

        2 基于MA-LDA挖掘電商微博熱點(diǎn)話題

        2.1 框架結(jié)構(gòu)

        MA-LDA模型的主要思想:首先挑選高轉(zhuǎn)發(fā)和高評(píng)論數(shù)的潛在熱點(diǎn)電商微博(轉(zhuǎn)發(fā)、評(píng)論數(shù)的閾值為1 000)[7]。接著通過(guò)時(shí)效性原則(即在某一特定時(shí)間內(nèi)頻繁出現(xiàn)),將一個(gè)關(guān)于時(shí)間因素的二值變量X引入MA-LDA模型中。最后我們將哈希標(biāo)簽也合并到MA-LDA模型中,從而提高主題的準(zhǔn)確性??蚣芤?jiàn)圖2。

        圖2 MA-LDA框架結(jié)構(gòu)

        2.2 MA-LDA模型

        MA-LDA是在LDA的基礎(chǔ)上擴(kuò)展而來(lái)的,其模型如圖3所示。該模型在原有LDA模型基礎(chǔ)上增加了如下幾個(gè)參數(shù):

        1)兩種不同的主題類型,產(chǎn)生兩個(gè)變量,即熱點(diǎn)主題分布→和一般主題分布→。

        2)為了判別電商微博主題是否為熱點(diǎn),保證時(shí)效性,加入了一個(gè)與時(shí)間相關(guān)的二值變量x,其中,xw表示詞的時(shí)間分布的二值變量;xd表示文檔的時(shí)間分布的二值變量。并引入某一詞wi的時(shí)間特征值Sw,其計(jì)算公式如下:

        其中:fw,t是詞w在t∈(1,T)上出現(xiàn)的頻率;favg是對(duì)應(yīng)的fw,t的平均值。當(dāng)Sw>0.5時(shí),就認(rèn)為該詞為熱詞。模型中的xw和xd則可通過(guò)Sw判定:

        最終,x的結(jié)果由xw和xd經(jīng)過(guò)或運(yùn)算得到(x=0時(shí)為熱點(diǎn)主題,否則為一般主題)。

        3)定義了詞和文檔的標(biāo)簽向量→λv={λ1,λ2,…,λw,…,λV}和→λm={λ1,λ2,…,λm,…,λM},主要用于熱點(diǎn)主題相關(guān)的文檔生成。

        圖3 MA-LDA模型圖

        其核心公式如下:

        與LDA相同,MA-LDA模型的參數(shù)估計(jì)也同樣使用Gibbs抽樣。得到電商微博熱點(diǎn)主題相關(guān)的兩個(gè)變量如下:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)收集及預(yù)處理

        MA-LDA模型的評(píng)估實(shí)驗(yàn)數(shù)據(jù)主要通過(guò)騰訊微博官方API結(jié)構(gòu)獲得,通過(guò)人工收集和整理,得到較為影響力的30多家電商企業(yè)在2017-01-01—2018-01-01之間發(fā)布的微博數(shù)據(jù),共58 973條,其中包含微博文本、用戶ID、標(biāo)簽、時(shí)間、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)等相關(guān)信息。

        為了有效挖掘電商微博的熱點(diǎn)話題,對(duì)這些數(shù)據(jù)進(jìn)行了如下處理:

        1)首先根據(jù)轉(zhuǎn)發(fā)和評(píng)論數(shù)的閾值篩選熱點(diǎn)話題,并計(jì)算詞的時(shí)間分布特征,初始化Sw,xw,xd和x。

        2)選用中科院計(jì)算基數(shù)研究所推出的中文分詞系統(tǒng)ICTCLAS對(duì)微博文本屬性進(jìn)行預(yù)處理,包括對(duì)微博文本預(yù)料進(jìn)行分詞、詞性標(biāo)注、去除標(biāo)點(diǎn)符號(hào)、停用詞、表情詞等。

        3)抽取標(biāo)簽詞,即微博中的“?!!敝g的內(nèi)容,并對(duì)標(biāo)簽向量→λv和→λm進(jìn)行初始化。

        4)英文詞匯進(jìn)行詞干化處理。

        在參數(shù)設(shè)置上,根據(jù)相關(guān)文獻(xiàn)的研究,分別對(duì)Dirichlet先驗(yàn)參數(shù)→α和→β設(shè)置為0.5和0.1[8-9]。

        3.2 實(shí)驗(yàn)結(jié)果分析

        1)電商微博熱詞概率降序排序。顯示了MA-LDA和傳統(tǒng)LDA主題模型的主題熱詞,并按照降序排序,如表1、2所示:

        表1 傳統(tǒng)LDA模型主題分布

        表2 MA-LDA模型主題分布

        表1、2分別顯示了兩個(gè)模型各自主題降序排序的熱詞,可以看出MA-LDA模型熱詞挖掘的準(zhǔn)確率高于傳統(tǒng)LDA模型,而且MA-LDA模型挖掘的熱詞均為數(shù)據(jù)集中的熱詞,而LDA模型并非都是熱詞。因此,MA-LDA模型可更準(zhǔn)確且有效地挖掘各主題下的熱詞。

        4 結(jié)束語(yǔ)

        本文提出的MA-LDA模型是對(duì)傳統(tǒng)LDA模型的擴(kuò)展,其優(yōu)勢(shì)主要有:

        1)對(duì)于電商微博文本,其熱點(diǎn)話題挖掘準(zhǔn)確率高。

        2)通過(guò)設(shè)置轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等參數(shù)過(guò)濾掉了不重要的信息,提高了運(yùn)行效率。

        3)主題數(shù)和迭代數(shù)對(duì)熱點(diǎn)話題的識(shí)別影響較小。

        MA-LDA模型能夠有效解決稀疏性導(dǎo)致的文檔關(guān)聯(lián)相對(duì)較弱的問(wèn)題;短文本語(yǔ)義信息有限;高緯性所帶來(lái)的挖掘效率低;微博信息隨機(jī)性強(qiáng)等問(wèn)題。但是該模型對(duì)話題的生存周期較敏感,主要適應(yīng)于短時(shí)間內(nèi)被普遍關(guān)注的電商微博。同時(shí),該模型需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,在整個(gè)主題挖掘的時(shí)效性上低于傳統(tǒng)LDA模型。

        猜你喜歡
        熱點(diǎn)話題博文熱詞
        第一次掙錢
        熱詞
        熱詞
        熱詞
        十九大熱詞 我踐行
        誰(shuí)和誰(shuí)好
        2017年高考作文熱點(diǎn)話題預(yù)測(cè)
        基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過(guò)程研究
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        打電話2
        国产成人久久精品一区二区三区 | 国产精品一区二区三区自拍| 97精品国产97久久久久久免费 | 亚洲人成精品久久久久| 依依成人精品视频在线观看| 国产午夜视频免费观看| 人妻丰满熟妇一二三区| 久久婷婷五月综合色奶水99啪| 蜜桃麻豆www久久囤产精品| 日本丰满妇人成熟免费中文字幕| 国产一区二区精品久久呦| 在线播放av不卡国产日韩| 亚洲一区 日韩精品 中文字幕 | 亚洲aⅴ在线无码播放毛片一线天| 国产精品流白浆喷水| 久久精品一区二区三区夜夜| 精品精品久久宅男的天堂| 色八区人妻在线视频免费| 日韩中文在线视频| 日本高清成人一区二区三区| 99国产精品99久久久久久| 亲子乱aⅴ一区二区三区下载| 亚洲色www无码| 亚洲不卡免费观看av一区二区| 日日天干夜夜狠狠爱| 欧美成人免费高清视频| 极品视频一区二区三区在线观看| av剧情演绎福利对白| 性色av无码久久一区二区三区| 久久国产精99精产国高潮| 国产精品毛片一区二区三区| 国内精品久久久人妻中文字幕| 免费一区二区三区久久| 久久久亚洲日本精品一区| 国产亚洲一区二区三区综合片| 色噜噜狠狠一区二区三区果冻 | 久久精品一区二区三区不卡牛牛 | 欧美国产激情二区三区| 国产av国片精品| 激情一区二区三区视频| 亚洲av成人精品一区二区三区|