亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過(guò)程研究

        2016-01-25 10:14:48李京蔚
        現(xiàn)代經(jīng)濟(jì)信息 2016年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        摘要:在線商品評(píng)論信息泛濫,使得如何海量文本信息中挖掘有效的信息已經(jīng)成為網(wǎng)絡(luò)信息時(shí)代亟需解決的重點(diǎn)問(wèn)題。本文分析如何將數(shù)據(jù)挖掘技術(shù)用于商品評(píng)論識(shí)別,旨在闡明數(shù)據(jù)挖掘技術(shù)發(fā)展現(xiàn)狀,垃圾評(píng)論的特點(diǎn),以及分析數(shù)據(jù)挖掘技術(shù)運(yùn)用到垃圾評(píng)論挖掘過(guò)程,為后續(xù)的研究提供理論支撐。

        關(guān)鍵詞:垃圾評(píng)論;商品評(píng)論;數(shù)據(jù)挖掘;識(shí)別過(guò)程

        中圖分類號(hào):TP391 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)001-000-02

        一、前言

        隨著B2C電子商務(wù)模式的日趨成熟,網(wǎng)絡(luò)購(gòu)物人數(shù)激增,口碑網(wǎng)站、虛擬社區(qū)等在線評(píng)論系統(tǒng)應(yīng)運(yùn)而生,越來(lái)越多的人在購(gòu)買商品后熱衷與在網(wǎng)絡(luò)上發(fā)表評(píng)論,使得在線評(píng)論數(shù)量爆炸式增長(zhǎng)。越來(lái)越多的消費(fèi)者根據(jù)這些評(píng)論選擇產(chǎn)品。同時(shí)商家也能根據(jù)這些評(píng)論及時(shí)地獲取消費(fèi)者對(duì)他們的產(chǎn)品和服務(wù)的評(píng)價(jià)信息,從而完善自己的產(chǎn)品或服務(wù)。

        然而,網(wǎng)絡(luò)評(píng)論可以是網(wǎng)民在不受約束的情況下隨意發(fā)表的,這種隨意性造成了這些產(chǎn)品評(píng)論中充斥了大量的無(wú)用的、不真實(shí)的信息。這些信息既有毫無(wú)意義的空話、臟話,又有大量的廣告,甚至還有惡意的誹謗信息。這些信息不是對(duì)產(chǎn)品的真實(shí)評(píng)論,無(wú)論是對(duì)于消費(fèi)者還是用戶而言,它們都是垃圾信息。我們稱這些垃圾信息是垃圾評(píng)論。由于網(wǎng)絡(luò)產(chǎn)品評(píng)論的存在不僅是海量的,而且每天都是在大量增加的,產(chǎn)品垃圾評(píng)論的人工識(shí)別是不實(shí)用的。評(píng)論中蘊(yùn)含有很大的信息量,怎樣從海量文本信息中挖掘有效的信息已經(jīng)成為網(wǎng)絡(luò)信息時(shí)代亟需解決的重點(diǎn)問(wèn)題。

        本文針對(duì)基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別進(jìn)行了研究。通過(guò)分析如何將數(shù)據(jù)挖掘技術(shù)用于商品評(píng)論識(shí)別,進(jìn)而幫助分析評(píng)論中蘊(yùn)含的大量信息,可以了解目標(biāo)產(chǎn)品的市場(chǎng)情況,對(duì)輔助輔助消費(fèi)者做出正確決策、商家提升商品質(zhì)量有著重要作用。

        二、研究理論知識(shí)

        1.數(shù)據(jù)挖掘技術(shù)及其現(xiàn)狀

        隨著信息技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)越來(lái)越多,人民迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘的步驟不是固定不變的,它會(huì)隨應(yīng)用領(lǐng)域的不同而有所變化,結(jié)合不同的專業(yè)知識(shí),會(huì)產(chǎn)生不同的實(shí)施步驟。一般來(lái)講,數(shù)據(jù)挖掘通常需要有以下8個(gè)步驟:(1)信息收集,根據(jù)確定的數(shù)據(jù)分析對(duì)象抽象出在數(shù)據(jù)分析中所需要的特征信息,選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫(kù);(2)數(shù)據(jù)集成,把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中;(3)數(shù)據(jù)規(guī)約,得到數(shù)據(jù)集的規(guī)約表示;(4)數(shù)據(jù)清理,將不完整的、含噪聲的、不一致的數(shù)據(jù)清理為完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉(cāng)庫(kù)中;(5)數(shù)據(jù)變換,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式;(6)數(shù)據(jù)挖掘?qū)嵤┻^(guò)程,選擇合適的分析工具與統(tǒng)計(jì)方法處理信息,得出有用的分析信息;(7)模式評(píng)估,由專家來(lái)驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性;(8)知識(shí)表示,將得到的信息以可視化的方式呈現(xiàn)給用戶。

        數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫(kù),皆可利用數(shù)據(jù)挖掘工具進(jìn)行有目的的發(fā)掘分析。常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊及醫(yī)療服務(wù)等,伴隨著數(shù)據(jù)挖掘的三個(gè)支撐技術(shù)數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計(jì)技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘技術(shù)將應(yīng)用到更為廣闊的領(lǐng)域。

        2.垃圾評(píng)論的特點(diǎn)與分類

        中文產(chǎn)品評(píng)論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面[2]:(1)評(píng)論文本格式自由多樣(2)評(píng)價(jià)對(duì)象的多樣化(3)評(píng)論內(nèi)容具有近似重復(fù)性(4)不真實(shí)評(píng)論(5)廣告(6)不帶有感情色彩的隨機(jī)文本。因此,本文將垃圾評(píng)論的類型分為以下4種:(1)虛假評(píng)論。虛假評(píng)論既包括槍手代寫的出于推銷、詆毀等目的而故意發(fā)布的不合實(shí)際的評(píng)論,也包括出于發(fā)泄情緒、敷衍應(yīng)付的虛假評(píng)論。第一種評(píng)論發(fā)布者為了節(jié)省時(shí)間和效率,往往大規(guī)模復(fù)制,語(yǔ)言上存在共性,易于識(shí)別;第二種即使人工也難以識(shí)別。(2)廣告。一種是其他商家借助評(píng)論板塊發(fā)布與此商品毫無(wú)關(guān)系的廣告信息,包括產(chǎn)品的技術(shù)參數(shù)、產(chǎn)品的鏈接等;另一種是商家自身在進(jìn)行產(chǎn)品促銷時(shí)對(duì)自己產(chǎn)品夸贊,從而更好的銷售該產(chǎn)品。(3)產(chǎn)品咨詢文本。僅僅通過(guò)發(fā)布評(píng)論咨詢產(chǎn)品的性能和參數(shù)等,不涉及對(duì)產(chǎn)品的評(píng)價(jià)內(nèi)容。(4)無(wú)意義文本。可能是評(píng)論者出于情緒發(fā)泄而隨手發(fā)布的無(wú)意義文本,甚至可能是謾罵、人身攻擊等言論,總之與產(chǎn)品毫不相干。

        三、基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過(guò)程

        1.垃圾評(píng)論預(yù)處理

        一般使用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行垃圾評(píng)論的抓取,網(wǎng)絡(luò)爬蟲[3]又被稱為網(wǎng)絡(luò)機(jī)器人、網(wǎng)頁(yè)蜘蛛,它能夠按照一定的規(guī)則自動(dòng)抓取萬(wàn)維網(wǎng)的信息。爬蟲的主要目的是電商購(gòu)物網(wǎng)站上的評(píng)論網(wǎng)頁(yè)下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。爬蟲首先將研究者提供的目標(biāo)頁(yè)面的URL放入待抓取URL隊(duì)列,然后從待抓取URL隊(duì)列中取出待抓取在URL解析DNS,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。

        從網(wǎng)頁(yè)上抽取到所需的產(chǎn)品介紹和評(píng)論數(shù)據(jù)后,本文就要根據(jù)產(chǎn)品介紹提取出產(chǎn)品特征詞和將評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理。首先根據(jù)相應(yīng)商品介紹提取商品信息的特征詞,例如對(duì)衣服尺寸、顏色的介紹等。然后對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,評(píng)論數(shù)據(jù)的預(yù)處理從評(píng)論情感極性與評(píng)論內(nèi)容兩方面入手,前者可以借助中科院的情感詞庫(kù)進(jìn)行分詞,后者可采用分詞工具進(jìn)行分詞處理。

        接著根據(jù)評(píng)論語(yǔ)言特點(diǎn),將評(píng)論特征分為4個(gè)方面,分別為(1)產(chǎn)品相關(guān)程度,可根據(jù)情感詞與特征詞出現(xiàn)的情況,將無(wú)意義的評(píng)論剔除;(2)超鏈接特征,可提出評(píng)論中含有超鏈接的廣告垃圾評(píng)論;(3)咨詢特征,如果語(yǔ)句中出現(xiàn)過(guò)多的“?”標(biāo)點(diǎn),且疑問(wèn)句的個(gè)數(shù)與句子總數(shù)的比值過(guò)大,則為咨詢文本。

        2.垃圾評(píng)論識(shí)別方法

        (1)評(píng)論相似度分析。評(píng)論相似度分析是指依據(jù)評(píng)論內(nèi)容相似程度來(lái)識(shí)別垃圾評(píng)論,由于一些垃圾評(píng)論者出于減少工作量并提高效率的目的,會(huì)大量復(fù)制相同的評(píng)論,因此可以將重復(fù)的評(píng)論作為訓(xùn)練集,建立機(jī)器學(xué)習(xí)模型來(lái)區(qū)分垃圾評(píng)論與非垃圾評(píng)論[4]。如果訓(xùn)練集難以標(biāo)記,可以基于評(píng)論中共同評(píng)價(jià)的產(chǎn)品特征進(jìn)行文本匹配,評(píng)論內(nèi)容中存在大量的復(fù)制或近乎復(fù)制的內(nèi)容則可視為垃圾評(píng)論,幾乎不相關(guān)的則可視為無(wú)關(guān)評(píng)論。

        (2)評(píng)論情感分析。評(píng)論情感分析則是對(duì)評(píng)論中帶有情感色彩的主觀性文本進(jìn)行分析、處理,如通過(guò)自然語(yǔ)言文本來(lái)計(jì)算評(píng)論情感的分值,即情感詞占評(píng)論總詞匯的數(shù)量值、情感詞處于評(píng)論語(yǔ)句兩端還是中間等特征進(jìn)行計(jì)算,如果評(píng)論的情感極性過(guò)強(qiáng),則說(shuō)明該評(píng)論很有可能是虛假評(píng)論?;蛘呤褂眠z傳算法對(duì)語(yǔ)言結(jié)構(gòu)及情感極性進(jìn)行優(yōu)化,也能使得實(shí)驗(yàn)效果更佳。

        (3)評(píng)論相關(guān)性分析。評(píng)論相關(guān)性分析是通過(guò)分析評(píng)論表達(dá)的主題是否與商品、服務(wù)、店家有關(guān)來(lái)識(shí)別出垃圾評(píng)論。如可以使用建模的方法針對(duì)一些評(píng)論樣本,提取出各種評(píng)論表達(dá)的主題,建立統(tǒng)計(jì)模型來(lái)識(shí)別垃圾評(píng)論。也可以使用LDA[5]的主題模型,用來(lái)識(shí)別大規(guī)模文檔集貨語(yǔ)料集中潛藏的主題信息。傳統(tǒng)判斷兩個(gè)文檔相似性的方法是通過(guò)查看兩個(gè)文檔共同出現(xiàn)的單詞的多少,如TF-IDF等,這種方法沒(méi)有考慮到文字背后的語(yǔ)義關(guān)聯(lián),可能在兩個(gè)文檔共同出現(xiàn)的單詞很少甚至沒(méi)有, 在主題模型中,主題表示一個(gè)概念、一個(gè)方面,表現(xiàn)為一系列相關(guān)的單詞,是這些單詞的條件概率。主題就是一個(gè)桶,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。

        四、總結(jié)與展望

        隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)已經(jīng)和我們密不可分,越來(lái)越多的人在購(gòu)物時(shí)可以發(fā)表自己的購(gòu)物體驗(yàn)與使用效果,購(gòu)物網(wǎng)站中的評(píng)論信息不斷增加。面對(duì)這些海量的、雜亂的、真假不一的產(chǎn)品評(píng)論信息,商品垃圾評(píng)論的識(shí)別與治理工作日趨迫切。本文結(jié)合以往學(xué)者研究,進(jìn)行基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過(guò)程研究,旨在闡明數(shù)據(jù)挖掘技術(shù)發(fā)展現(xiàn)狀,垃圾評(píng)論的特點(diǎn),以及分析數(shù)據(jù)挖掘技術(shù)運(yùn)用到垃圾評(píng)論挖掘過(guò)程,為后續(xù)的研究提供理論支撐。

        參考文獻(xiàn):

        [1]韓家煒等著.數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版).北京:機(jī)械工業(yè)出版社,2012.

        [2]N.Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search and data mining,2008:219-229.

        [3]曾偉輝.支持 AJAX 的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 中國(guó)科學(xué)技術(shù)大學(xué),2009.

        [4] Jindal N, Liu B. Review spam detection[C]. In: 16th International World Wide Web Conference, WWW2007, May 8,2007 - May 12,2007. Association for Computing Machinery, New York, NY,USA,2007:1189-1190.

        [5]徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8): 1423-1436.

        作者簡(jiǎn)介:李京蔚(1993-),女,湖北省襄陽(yáng)市南漳縣,華中師范大學(xué)信息管理學(xué)院,本科,研究方向:管理系統(tǒng)模擬。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        av在线入口一区二区| www插插插无码视频网站| 99在线国产视频| 亚洲国产91精品一区二区| 妺妺窝人体色777777| 天堂…在线最新版资源| 国产真人无遮挡免费视频| 偷拍一区二区三区在线观看| 日本午夜理论片在线观看| 国产亚洲一本大道中文在线| 精品高潮呻吟99av无码视频| 国产三级黄色片子看曰逼大片| 午夜男女靠比视频免费| 国产免费爽爽视频在线观看| 亚洲国产av一区二区三区四区| 无码高潮少妇毛多水多水免费| 美女脱掉内裤扒开下面让人插| 日韩人妻无码一区二区三区久久 | 久久精品99国产精品日本| 野花社区视频www官网| 一区二区三区内射视频在线观看 | 国产亚洲一区二区手机在线观看| 成在线人视频免费视频| 日本啪啪视频一区二区| 国产免费又爽又色又粗视频| 日韩人妻精品无码一区二区三区 | 久久久久无码国产精品不卡| 久久精品女人天堂AV一个| 久久日韩精品一区二区| 中文人妻熟妇乱又伦精品| 手机看片1024精品国产| 国产精品亚洲av无人区二区| 国产在线观看免费视频软件| 日韩人妻无码免费视频一区二区三区| 久久尤物av天堂日日综合| 爱爱免费视频一区二区三区| 国产精品人妻一区二区三区四 | 老司机亚洲精品影院| 国模无码视频专区一区| 亚洲中文字幕综合网站| 免费国产a国产片高清网站|