亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權(quán)詞頻的I-Match算法改進(jìn)及其應(yīng)用分析
        ——以電商網(wǎng)站為例

        2016-10-25 02:52:54尚珊珊
        上海管理科學(xué) 2016年1期
        關(guān)鍵詞:詞庫(kù)詞頻外國(guó)語(yǔ)

        陳 璐 趙 衍 尚珊珊

        (1.上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院,上?!?01620;2.上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心,上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心,上?!?00083)

        基于加權(quán)詞頻的I-Match算法改進(jìn)及其應(yīng)用分析
        ——以電商網(wǎng)站為例

        陳璐1趙衍2尚珊珊1

        (1.上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院,上海201620;2.上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心,上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心,上海200083)

        介紹網(wǎng)絡(luò)產(chǎn)品重復(fù)評(píng)論研究現(xiàn)狀;基于I-Match算法,提出一種基于TF詞頻的重復(fù)評(píng)論的改進(jìn)算法;將該算法對(duì)某電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論進(jìn)行重復(fù)性檢測(cè),獲得了較理想的效果。

        網(wǎng)絡(luò)評(píng)論;重復(fù)評(píng)論檢測(cè);I-Match算法;詞頻;評(píng)論傾向

        1 文獻(xiàn)綜述

        對(duì)文本內(nèi)容重復(fù)性自動(dòng)檢測(cè)技術(shù)的研究最早開始于20世紀(jì)90年代。從算法的角度可以將文本內(nèi)容重復(fù)性檢測(cè)技術(shù)分為基于語(yǔ)法和基于語(yǔ)義兩大類。

        1.1基于語(yǔ)法的文本重復(fù)性檢測(cè)

        1.2基于語(yǔ)義的文本重復(fù)性檢測(cè)

        2 網(wǎng)絡(luò)產(chǎn)品重復(fù)評(píng)論識(shí)別流程及改進(jìn)

        2.1I-Match算法原理

        使用I-Match算法對(duì)網(wǎng)絡(luò)產(chǎn)品評(píng)論進(jìn)行重復(fù)性檢測(cè)的過程如圖1。

        圖1 I-Match改進(jìn)算法流程圖

        2.2I-Match的改進(jìn)算法

        盡管I-Match算法能夠較高準(zhǔn)確率的進(jìn)行識(shí)別重復(fù)評(píng)論檢測(cè)但檢測(cè)過于籠統(tǒng)存在一定的誤判率。根據(jù)網(wǎng)絡(luò)產(chǎn)品無價(jià)值評(píng)論的特點(diǎn)對(duì)重復(fù)評(píng)論進(jìn)行進(jìn)一步信息挖掘識(shí)別評(píng)論是否為無意義評(píng)論、自我吹噓評(píng)論或者惡意貶低評(píng)論。

        采用人工或者機(jī)器學(xué)習(xí)的方式建立和維護(hù)三種類型詞庫(kù):無意義評(píng)論詞庫(kù)、褒揚(yáng)評(píng)論詞庫(kù)和貶低評(píng)論詞庫(kù)。并根據(jù)單詞的慣用程度對(duì)每一類型單詞進(jìn)行分級(jí)并為每一級(jí)設(shè)置權(quán)重。本文使用的詞庫(kù)如下:

        表1 無意義評(píng)論詞庫(kù)

        表2 褒揚(yáng)評(píng)論詞庫(kù)

        表3 貶低評(píng)論詞庫(kù)

        改進(jìn)算法的處理過程如下:

        (1)采用I-Match算法識(shí)別所有重復(fù)的產(chǎn)品評(píng)論;

        (2)計(jì)算每一條評(píng)論中單詞出現(xiàn)的頻率:

        (其中ni,j表示該詞i在評(píng)論j中出現(xiàn)的次數(shù)表示所有詞出現(xiàn)的次數(shù)之和)

        (其中Qijk表示評(píng)論j中單詞i的k類型傾向權(quán)值wik為單詞i在詞庫(kù)k中的權(quán)重)

        (其中Qjk為文檔j的k類型評(píng)論傾向權(quán)值)

        (5)取三種類型評(píng)論集合的非交集的非交集為真正沒有價(jià)值的產(chǎn)品評(píng)論。

        3 實(shí)證分析

        本文針對(duì)國(guó)內(nèi)某電子商務(wù)網(wǎng)站中目前熱銷的iphone6s64G相關(guān)評(píng)論(截止時(shí)間2015年10月21日10:57數(shù)據(jù))運(yùn)用改進(jìn)的I-match算法對(duì)評(píng)論進(jìn)行重復(fù)性檢測(cè)研究。處理過程如下:

        表4 產(chǎn)品評(píng)論部分截圖

        表5 選取的研究對(duì)象以及評(píng)論表

        (2)運(yùn)用中科院ICTCLAS開源[12]中文分詞算法對(duì)評(píng)論進(jìn)行分詞形成評(píng)論的單詞集合。

        表6 部分詞的IDF值以及按降序排列表

        表7 部分評(píng)論的特征詞典

        表8 部分重復(fù)評(píng)論的三種權(quán)值列表

        表9 iPhone6s 64G無意義、褒揚(yáng)和貶低重復(fù)評(píng)論數(shù)

        表10 查全率和查準(zhǔn)率分析

        4 結(jié)語(yǔ)

        本文主要針對(duì)電商網(wǎng)站網(wǎng)絡(luò)產(chǎn)品的重復(fù)評(píng)論識(shí)別進(jìn)行研究。將廣泛使用的I-Match算法應(yīng)用到網(wǎng)絡(luò)產(chǎn)品評(píng)論的重復(fù)性檢測(cè)。并針對(duì)網(wǎng)絡(luò)評(píng)論的特點(diǎn)基于三種類型的詞庫(kù)對(duì)I-Match重復(fù)性檢測(cè)結(jié)果進(jìn)行評(píng)論的傾向性識(shí)別。改進(jìn)后的I-Match算法提高了檢測(cè)結(jié)果的準(zhǔn)確性降低了誤判率。

        [1]Manber U.Finding similar files in a large file system[C],Proceedings of the Winter USENIX Conference1994:1-10.

        [3]Heintze N.Scalable document fingerprinting[C], Proceedings of the2nd USENIX Workshop on Electronic Commerce.1996.

        [9]Garcia-Molina HGravano LShivakumar N.dSCAM:Finding document copies across multiple databases[C/OL]. Proceedings of the4th International Conference on Parallel and Distributed Systems(PDIS'96).1996.

        [11]Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.Detecting Near-Duplicates for Web Crawling[C].www2007Track:Data Mining.2007

        The Improved I-Match Algorithm based on the Analysis of Weighted Word Frequency and Its Application in the Electronic Commerce Website

        Chen LuZhao YanShang Shanshan

        Study the recent status of network product duplication.Based on the I-Match Algorithm,proposing an improved algorithm based on weighted word frequency.At last, this improved algorithm is applied into the detecting of a certain electronic commerce website and gets a good result.

        network review; detection of repeated comments; the I-Match algorithm;weighted word frequency;comment tendency

        TP391

        A

        1005-9679(2016)01-0051-04

        本研究得到2013年上海市哲學(xué)社會(huì)科學(xué)規(guī)劃課題(編號(hào):2013ETQ001)、上海市教育委員會(huì)2014年科研創(chuàng)新項(xiàng)目(編號(hào):14ZS070)、上海外國(guó)語(yǔ)大學(xué)“2013教學(xué)科研團(tuán)隊(duì)”項(xiàng)目、上海外國(guó)語(yǔ)大學(xué)“2014青年教師創(chuàng)新團(tuán)隊(duì)”項(xiàng)目(編號(hào):QJTD14ZY001)、上海外國(guó)語(yǔ)大學(xué)高層次人才發(fā)展計(jì)劃(編號(hào):KX171260)資助。

        陳璐上海外國(guó)語(yǔ)大學(xué)信息管理與信息系統(tǒng)專業(yè)本科生; 趙衍上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心副教授博士;尚珊珊上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院講師博士。

        猜你喜歡
        詞庫(kù)詞頻外國(guó)語(yǔ)
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        An Analysis on Holden’s Anti-hero Imagein The Catcher in the Rye
        鄭州外國(guó)語(yǔ)學(xué)校
        ?????? ??? ?????―?? ,?? ??? ????
        詞庫(kù)音系學(xué)的幾個(gè)理論問題芻議
        An Analysis on the Structure of “Yue Lai Yue X”
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        環(huán)境變了,詞庫(kù)別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        国产精品九九热| 高潮内射双龙视频| 天天影视性色香欲综合网| 成人a在线观看| 99久久亚洲精品加勒比| 久久精品国产色蜜蜜麻豆国语版 | 亚洲欧美国产国产综合一区| 久久aⅴ无码一区二区三区| 国产精品一级av一区二区| 成人自拍一二在线观看| 欧美人伦禁忌dvd放荡欲情| 亚洲香蕉成人AV网站在线观看| 日本国产在线一区二区| 亚洲天堂av福利在线| 国产青榴视频在线观看| 伊人网视频在线观看| 免费啪啪av人妻一区二区| 男女真人后进式猛烈视频网站| 狠狠做深爱婷婷久久综合一区| 中文字幕亚洲综合久久菠萝蜜| 亚洲国产成人精品无码区99| 午夜精品久久久久成人| 亚洲大片免费| 日韩av天堂综合网久久| 在线观看av片永久免费| 久久久久久久综合狠狠综合 | 少妇高潮惨叫正在播放对白| 国产精品美女AV免费观看| av国产自拍在线观看| 国产亚洲美女精品久久久2020 | 国产自拍在线观看视频| 亚洲成av人片天堂网| 无码中文日韩Av| 亚洲天堂男人的av天堂| 99热在线观看| 色婷婷七月| 最新国产成人自拍视频| 免费成人电影在线观看| 亚洲欧美综合在线天堂| 91久久精品国产性色tv| 国产99一区二区三区四区|