陳 璐 趙 衍 尚珊珊
(1.上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院,上?!?01620;2.上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心,上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心,上?!?00083)
基于加權(quán)詞頻的I-Match算法改進(jìn)及其應(yīng)用分析
——以電商網(wǎng)站為例
陳璐1趙衍2尚珊珊1
(1.上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院,上海201620;2.上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心,上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心,上海200083)
介紹網(wǎng)絡(luò)產(chǎn)品重復(fù)評(píng)論研究現(xiàn)狀;基于I-Match算法,提出一種基于TF詞頻的重復(fù)評(píng)論的改進(jìn)算法;將該算法對(duì)某電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論進(jìn)行重復(fù)性檢測(cè),獲得了較理想的效果。
網(wǎng)絡(luò)評(píng)論;重復(fù)評(píng)論檢測(cè);I-Match算法;詞頻;評(píng)論傾向
對(duì)文本內(nèi)容重復(fù)性自動(dòng)檢測(cè)技術(shù)的研究最早開始于20世紀(jì)90年代。從算法的角度可以將文本內(nèi)容重復(fù)性檢測(cè)技術(shù)分為基于語(yǔ)法和基于語(yǔ)義兩大類。
1.1基于語(yǔ)法的文本重復(fù)性檢測(cè)
1.2基于語(yǔ)義的文本重復(fù)性檢測(cè)
2.1I-Match算法原理
使用I-Match算法對(duì)網(wǎng)絡(luò)產(chǎn)品評(píng)論進(jìn)行重復(fù)性檢測(cè)的過程如圖1。
圖1 I-Match改進(jìn)算法流程圖
2.2I-Match的改進(jìn)算法
盡管I-Match算法能夠較高準(zhǔn)確率的進(jìn)行識(shí)別重復(fù)評(píng)論檢測(cè)但檢測(cè)過于籠統(tǒng)存在一定的誤判率。根據(jù)網(wǎng)絡(luò)產(chǎn)品無價(jià)值評(píng)論的特點(diǎn)對(duì)重復(fù)評(píng)論進(jìn)行進(jìn)一步信息挖掘識(shí)別評(píng)論是否為無意義評(píng)論、自我吹噓評(píng)論或者惡意貶低評(píng)論。
采用人工或者機(jī)器學(xué)習(xí)的方式建立和維護(hù)三種類型詞庫(kù):無意義評(píng)論詞庫(kù)、褒揚(yáng)評(píng)論詞庫(kù)和貶低評(píng)論詞庫(kù)。并根據(jù)單詞的慣用程度對(duì)每一類型單詞進(jìn)行分級(jí)并為每一級(jí)設(shè)置權(quán)重。本文使用的詞庫(kù)如下:
表1 無意義評(píng)論詞庫(kù)
表2 褒揚(yáng)評(píng)論詞庫(kù)
表3 貶低評(píng)論詞庫(kù)
改進(jìn)算法的處理過程如下:
(1)采用I-Match算法識(shí)別所有重復(fù)的產(chǎn)品評(píng)論;
(2)計(jì)算每一條評(píng)論中單詞出現(xiàn)的頻率:
(其中ni,j表示該詞i在評(píng)論j中出現(xiàn)的次數(shù)表示所有詞出現(xiàn)的次數(shù)之和)
(其中Qijk表示評(píng)論j中單詞i的k類型傾向權(quán)值wik為單詞i在詞庫(kù)k中的權(quán)重)
(其中Qjk為文檔j的k類型評(píng)論傾向權(quán)值)
(5)取三種類型評(píng)論集合的非交集的非交集為真正沒有價(jià)值的產(chǎn)品評(píng)論。
本文針對(duì)國(guó)內(nèi)某電子商務(wù)網(wǎng)站中目前熱銷的iphone6s64G相關(guān)評(píng)論(截止時(shí)間2015年10月21日10:57數(shù)據(jù))運(yùn)用改進(jìn)的I-match算法對(duì)評(píng)論進(jìn)行重復(fù)性檢測(cè)研究。處理過程如下:
表4 產(chǎn)品評(píng)論部分截圖
表5 選取的研究對(duì)象以及評(píng)論表
(2)運(yùn)用中科院ICTCLAS開源[12]中文分詞算法對(duì)評(píng)論進(jìn)行分詞形成評(píng)論的單詞集合。
表6 部分詞的IDF值以及按降序排列表
表7 部分評(píng)論的特征詞典
表8 部分重復(fù)評(píng)論的三種權(quán)值列表
表9 iPhone6s 64G無意義、褒揚(yáng)和貶低重復(fù)評(píng)論數(shù)
表10 查全率和查準(zhǔn)率分析
本文主要針對(duì)電商網(wǎng)站網(wǎng)絡(luò)產(chǎn)品的重復(fù)評(píng)論識(shí)別進(jìn)行研究。將廣泛使用的I-Match算法應(yīng)用到網(wǎng)絡(luò)產(chǎn)品評(píng)論的重復(fù)性檢測(cè)。并針對(duì)網(wǎng)絡(luò)評(píng)論的特點(diǎn)基于三種類型的詞庫(kù)對(duì)I-Match重復(fù)性檢測(cè)結(jié)果進(jìn)行評(píng)論的傾向性識(shí)別。改進(jìn)后的I-Match算法提高了檢測(cè)結(jié)果的準(zhǔn)確性降低了誤判率。
[1]Manber U.Finding similar files in a large file system[C],Proceedings of the Winter USENIX Conference1994:1-10.
[3]Heintze N.Scalable document fingerprinting[C], Proceedings of the2nd USENIX Workshop on Electronic Commerce.1996.
[9]Garcia-Molina HGravano LShivakumar N.dSCAM:Finding document copies across multiple databases[C/OL]. Proceedings of the4th International Conference on Parallel and Distributed Systems(PDIS'96).1996.
[11]Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma.Detecting Near-Duplicates for Web Crawling[C].www2007Track:Data Mining.2007
The Improved I-Match Algorithm based on the Analysis of Weighted Word Frequency and Its Application in the Electronic Commerce Website
Chen LuZhao YanShang Shanshan
Study the recent status of network product duplication.Based on the I-Match Algorithm,proposing an improved algorithm based on weighted word frequency.At last, this improved algorithm is applied into the detecting of a certain electronic commerce website and gets a good result.
network review; detection of repeated comments; the I-Match algorithm;weighted word frequency;comment tendency
TP391
A
1005-9679(2016)01-0051-04
本研究得到2013年上海市哲學(xué)社會(huì)科學(xué)規(guī)劃課題(編號(hào):2013ETQ001)、上海市教育委員會(huì)2014年科研創(chuàng)新項(xiàng)目(編號(hào):14ZS070)、上海外國(guó)語(yǔ)大學(xué)“2013教學(xué)科研團(tuán)隊(duì)”項(xiàng)目、上海外國(guó)語(yǔ)大學(xué)“2014青年教師創(chuàng)新團(tuán)隊(duì)”項(xiàng)目(編號(hào):QJTD14ZY001)、上海外國(guó)語(yǔ)大學(xué)高層次人才發(fā)展計(jì)劃(編號(hào):KX171260)資助。
陳璐上海外國(guó)語(yǔ)大學(xué)信息管理與信息系統(tǒng)專業(yè)本科生; 趙衍上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心上海外國(guó)語(yǔ)大學(xué)電子政務(wù)國(guó)際化研究中心副教授博士;尚珊珊上海外國(guó)語(yǔ)大學(xué)國(guó)際工商管理學(xué)院講師博士。