亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進LDA模型的離群評論選擇

        2018-02-01 05:04:24董振濤
        軟件導(dǎo)刊 2018年1期

        董振濤

        摘要:評論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導(dǎo)致主題相似度大,表達(dá)能力下降。提出冪函數(shù)加權(quán)LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達(dá)能力。使用iForest算法,選擇出與眾不同且具有價值的評論集合。實驗結(jié)果表明,選擇的評論子集特征覆蓋率較高,且有較高的平均信息量。

        關(guān)鍵詞:LDA;iForest;特征覆蓋率;平均信息量

        DOIDOI:10.11907/rjdk.172218

        中圖分類號:TP301

        文獻標(biāo)識碼:A文章編號文章編號:16727800(2018)001003803

        Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.

        Key Words:LDA; iForest; feature; coverage; average information

        0引言

        網(wǎng)絡(luò)購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評論,從而了解商品的具體信息。但隨著評論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實[1],大量的評論造成信息過載[2]。因此,從大量的評論中選出一組具有代表性的評論子集展示給用戶變得愈加重要,評論選擇也成為學(xué)者的研究熱點。Tsaparas等[3]把評論選擇轉(zhuǎn)化為一個最大特征覆蓋率問題,使用改進的貪心算法[4]選擇評論子集,但容易選擇出內(nèi)容過長的評論。Ganesan等[5]提出基于ngram模型獲取評論總結(jié),從大量的評論中總結(jié)出具有代表性和可讀性的短語,此種方式結(jié)果過于簡潔,反映的信息較片面。有學(xué)者提出根據(jù)商品的特征評分和獲得支持的得分對評論進行質(zhì)量排名,取TopN個評論作為評論子集,確保其質(zhì)量優(yōu)良[6],但也不能完全排除選中長評論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權(quán)LDA模型的評論選擇方法,提高低頻詞的表達(dá)能力,從而找出一組較特殊的且信息量較高的評論推送給用戶。

        1問題定義

        本文提出的冪函數(shù)加權(quán)LDA模型,將評論文本轉(zhuǎn)化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評論子集。

        定義R為評論集,R={r1,r2,…,rn},n為評論個數(shù),這些評論涵蓋了用戶關(guān)注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個數(shù)。評論選擇的任務(wù)就是從R個評論中選擇K個評論作為子集,S={r1,r2,…,rk},SR且kn。

        圖2中,AAI表示全部評論特征詞的平均信息量。SAAI表示評論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權(quán)后,評論子集特征詞的平均信息量高于SAAI,說明評論子集包含更多的低頻特征詞。在相同的

        主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權(quán)函數(shù)和擴充系數(shù)時,評論子集的平均信息量與主題個數(shù)無關(guān)。引入加權(quán)函數(shù)和擴充系數(shù)后,每個擴充系數(shù)都對應(yīng)一個較優(yōu)的主題數(shù),使評論子集平均信息量最大。

        4結(jié)語

        傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權(quán)LDA模型用于評論選擇。引入特征加權(quán)函數(shù)和擴充系數(shù),調(diào)整詞頻權(quán)重,兼顧了低頻特征詞,不僅提高了評論子集的平均信息量,而且提高了特征覆蓋率。

        參考文獻:

        [1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.

        [2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.

        [3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.

        [4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.

        [5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.

        [6]余文喆,沙朝鋒,何曉豐,等.考慮觀點多樣性的評論選擇問題[J].計算機研究與發(fā)展,2015,52(5):10501060.

        [7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應(yīng)用,2013,33(6):15871590.

        [8]張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學(xué)學(xué)報,2010,34(2):111114.

        [9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.

        [10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.

        (責(zé)任編輯:杜能鋼)

        午夜福利麻豆国产精品| 国产的自拍av免费的在线观看| 久久综合99re88久久爱| аⅴ资源天堂资源库在线| 国产欧美精品在线一区二区三区| 亚洲精品国产熟女久久| 午夜精品免费视频一区二区三区| aⅴ精品无码无卡在线观看| 亚洲av理论在线电影网| 熟女少妇av免费观看| 久久日韩精品一区二区| 99国产精品自在自在久久| 亚洲熟妇少妇69| 日本一极品久久99精品| 麻豆视频在线播放观看| 亚洲午夜福利在线视频| 国产午夜福利精品| 免费人成网在线观看品观网| 色欲色香天天天综合网www| 久久99热久久99精品| 日本少妇按摩高潮玩弄| 亚洲精品在线97中文字幕| 无码aⅴ精品一区二区三区浪潮 | 一区二区在线视频免费蜜桃| 最新国产福利在线观看精品| 草莓视频一区二区精品| 91国语对白在线观看| 亚洲国产精品久久精品| 亚洲av纯肉无码精品动漫| 国产粉嫩高清| 成人av综合资源在线| 国产乱码精品一区二区三区四川人| 亚洲熟妇一区无码| 日本国产精品高清在线| 乱老年女人伦免费视频| 97人妻熟女成人免费视频| 国产免费的视频一区二区| 变态另类人妖一区二区三区| 老师脱了内裤让我进去| 91久久综合精品国产丝袜长腿| 亚洲av成人一区二区|