亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進LDA模型的離群評論選擇

        2018-02-01 05:04:24董振濤
        軟件導(dǎo)刊 2018年1期

        董振濤

        摘要:評論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導(dǎo)致主題相似度大,表達(dá)能力下降。提出冪函數(shù)加權(quán)LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達(dá)能力。使用iForest算法,選擇出與眾不同且具有價值的評論集合。實驗結(jié)果表明,選擇的評論子集特征覆蓋率較高,且有較高的平均信息量。

        關(guān)鍵詞:LDA;iForest;特征覆蓋率;平均信息量

        DOIDOI:10.11907/rjdk.172218

        中圖分類號:TP301

        文獻標(biāo)識碼:A文章編號文章編號:16727800(2018)001003803

        Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.

        Key Words:LDA; iForest; feature; coverage; average information

        0引言

        網(wǎng)絡(luò)購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評論,從而了解商品的具體信息。但隨著評論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實[1],大量的評論造成信息過載[2]。因此,從大量的評論中選出一組具有代表性的評論子集展示給用戶變得愈加重要,評論選擇也成為學(xué)者的研究熱點。Tsaparas等[3]把評論選擇轉(zhuǎn)化為一個最大特征覆蓋率問題,使用改進的貪心算法[4]選擇評論子集,但容易選擇出內(nèi)容過長的評論。Ganesan等[5]提出基于ngram模型獲取評論總結(jié),從大量的評論中總結(jié)出具有代表性和可讀性的短語,此種方式結(jié)果過于簡潔,反映的信息較片面。有學(xué)者提出根據(jù)商品的特征評分和獲得支持的得分對評論進行質(zhì)量排名,取TopN個評論作為評論子集,確保其質(zhì)量優(yōu)良[6],但也不能完全排除選中長評論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權(quán)LDA模型的評論選擇方法,提高低頻詞的表達(dá)能力,從而找出一組較特殊的且信息量較高的評論推送給用戶。

        1問題定義

        本文提出的冪函數(shù)加權(quán)LDA模型,將評論文本轉(zhuǎn)化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評論子集。

        定義R為評論集,R={r1,r2,…,rn},n為評論個數(shù),這些評論涵蓋了用戶關(guān)注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個數(shù)。評論選擇的任務(wù)就是從R個評論中選擇K個評論作為子集,S={r1,r2,…,rk},SR且kn。

        圖2中,AAI表示全部評論特征詞的平均信息量。SAAI表示評論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權(quán)后,評論子集特征詞的平均信息量高于SAAI,說明評論子集包含更多的低頻特征詞。在相同的

        主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權(quán)函數(shù)和擴充系數(shù)時,評論子集的平均信息量與主題個數(shù)無關(guān)。引入加權(quán)函數(shù)和擴充系數(shù)后,每個擴充系數(shù)都對應(yīng)一個較優(yōu)的主題數(shù),使評論子集平均信息量最大。

        4結(jié)語

        傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權(quán)LDA模型用于評論選擇。引入特征加權(quán)函數(shù)和擴充系數(shù),調(diào)整詞頻權(quán)重,兼顧了低頻特征詞,不僅提高了評論子集的平均信息量,而且提高了特征覆蓋率。

        參考文獻:

        [1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.

        [2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.

        [3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.

        [4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.

        [5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.

        [6]余文喆,沙朝鋒,何曉豐,等.考慮觀點多樣性的評論選擇問題[J].計算機研究與發(fā)展,2015,52(5):10501060.

        [7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應(yīng)用,2013,33(6):15871590.

        [8]張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學(xué)學(xué)報,2010,34(2):111114.

        [9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.

        [10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.

        (責(zé)任編輯:杜能鋼)

        日本午夜理论一区二区在线观看| 精品国产三级a∨在线观看| 天天躁夜夜躁狠狠躁2021a2| 一二三四在线视频观看社区| 久久久久亚洲AV成人网毛片 | 久久久亚洲av午夜精品| 亚洲av网站在线观看一页| 国产大屁股视频免费区| 宅男666在线永久免费观看| 欧洲熟妇色xxxx欧美老妇多毛图片| 色婷婷五月综合亚洲小说| 欧美中出在线| 亚洲禁区一区二区三区天美| 少妇性俱乐部纵欲狂欢少妇| 97日日碰曰曰摸日日澡| 久久久精品久久日韩一区综合| 亚洲中文av一区二区三区| 少妇隔壁人妻中文字幕| 开心五月骚婷婷综合网| 精品久久人妻av中文字幕| 精品视频一区二区三三区四区| 亚洲综合色婷婷七月丁香| 国产伦精品一区二区三区| 蜜桃一区二区三区视频网址| 成年无码av片在线| 亚洲AV一二三四区四色婷婷| 午夜日韩视频在线观看| 东北熟妇露脸25分钟| 亚洲av无码乱码在线观看富二代 | AV无码最在线播放| 国产免费激情小视频在线观看| 激情五月开心五月av| 亚洲av国产av综合av卡| 韩国三级中文字幕hd久久精品| 国产精品原创av片国产日韩| 亚洲不卡av二区三区四区| 精品久久久久久无码中文野结衣 | 久久久久亚洲av无码专区首jn | 日本一区二区三区专区| 国产精品一区二区三区免费视频| 强行无套内谢大学生初次|