亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征觀點(diǎn)對(duì)語(yǔ)義匹配的產(chǎn)品評(píng)論可信度研究

        2019-06-03 03:15:33郝玫馬建峰
        現(xiàn)代情報(bào) 2019年6期

        郝玫 馬建峰

        摘 要:[目的/意義]針對(duì)產(chǎn)品評(píng)論中的復(fù)合句式,實(shí)現(xiàn)特征觀點(diǎn)對(duì)的語(yǔ)義匹配及提取,并明確評(píng)論可信度的識(shí)別因素及權(quán)重,對(duì)產(chǎn)品可信評(píng)論進(jìn)行篩選和分析。[方法/過程]基于特征觀點(diǎn)對(duì)的語(yǔ)義匹配算法實(shí)現(xiàn)評(píng)論語(yǔ)義指標(biāo)的量化計(jì)算,并采用模糊層次分析法確定可信度指標(biāo)權(quán)重。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明相較于單句提取特征觀點(diǎn)對(duì)方法,特征觀點(diǎn)對(duì)的語(yǔ)義匹配算法在召回率、準(zhǔn)確率和F-score等性能方面均有較大優(yōu)勢(shì)。依據(jù)可信度指標(biāo)對(duì)網(wǎng)站產(chǎn)品評(píng)論進(jìn)行篩選,不僅可以評(píng)估產(chǎn)品整體的評(píng)論可信度,還可以細(xì)化到產(chǎn)品特征級(jí)別的可信度分析,為用戶篩選可信的評(píng)論信息并提升購(gòu)物決策效率。

        關(guān)鍵詞:產(chǎn)品評(píng)論;評(píng)論可信度;特征觀點(diǎn)對(duì);語(yǔ)義匹配;評(píng)論篩選

        DOI:10.3969/j.issn.1008-0821.2019.06.011

        〔中圖分類號(hào)〕TP391.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)06-0102-09

        Abstract:[Purpose/Significance]In view of the compound sentence pattern in the product reviews,this paper realized the semantic matching and extraction of the feature opinion pairs,and made clear the indicators and weights of the reviews credibility so as to select and analyze the trusted reviews of the products.[Method/Process]Based on semantic matching algorithm of feature opinion pairs,we extracted the feature opinion pairs and calculated the semantic indicator of reviews,then used Fuzzy Analytic Hierarchy Process to determine the weight of indicators.[Result/Conclusion]The experiment showed that semantic matching algorithm of the feature opinion pairs had a great advantage on the performance of the recall,accuracy and F-score,compared with the method of extracting feature points from the single sentence.It could not only evaluate the credibility of the overall review of the product,but also could be refined to the reliability analysis of the product feature level.Meanwhile,it could screen credible reviews for users and improve the efficiency of shopping decisions.

        Key words:product reviews;reviews credibility;feature opinion pair;semantic matching;reviews screening

        隨著網(wǎng)絡(luò)購(gòu)物的日益普及,在挑選商品前查看在線評(píng)論,成為多數(shù)用戶的消費(fèi)習(xí)慣[1]。這不僅是因?yàn)榫W(wǎng)絡(luò)購(gòu)物的虛擬特性,還因?yàn)榭蛻粼u(píng)論來源于購(gòu)買者的真實(shí)體驗(yàn)和對(duì)產(chǎn)品的全面評(píng)價(jià)[2-3]。然而,產(chǎn)品評(píng)論的數(shù)量龐大,評(píng)論質(zhì)量良莠不齊,讓用戶逐條挑選可信評(píng)論很不現(xiàn)實(shí)。而且,銷售網(wǎng)站目前對(duì)產(chǎn)品評(píng)論的排序僅按照時(shí)間排序或文字?jǐn)?shù)量排序,這些排序方法對(duì)于滿足用戶查看可信評(píng)論的需求還遠(yuǎn)遠(yuǎn)不夠。因此,針對(duì)產(chǎn)品評(píng)論的可信度研究一直受到很多學(xué)者的關(guān)注。

        產(chǎn)品評(píng)論可信度研究主要分為評(píng)論可信度指標(biāo)劃分和可信評(píng)論排序兩項(xiàng)任務(wù)[4-5]。從評(píng)論質(zhì)量和評(píng)論效用的角度出發(fā),產(chǎn)品評(píng)論的可信度指標(biāo)研究通常分為評(píng)論元數(shù)據(jù)特征分析、評(píng)論語(yǔ)義特征分析和評(píng)論者分析[6]。其中,評(píng)論語(yǔ)義特征分析主要通過計(jì)算產(chǎn)品屬性情感詞在語(yǔ)句中所占比例來實(shí)現(xiàn)[7-8],而產(chǎn)品評(píng)論中的屬性級(jí)別情感分析并不是一個(gè)簡(jiǎn)單的詞語(yǔ)頻次計(jì)算,準(zhǔn)確地對(duì)表達(dá)不規(guī)范的評(píng)論語(yǔ)句中的產(chǎn)品特征及對(duì)應(yīng)觀點(diǎn)進(jìn)行匹配,然后再對(duì)特征觀點(diǎn)對(duì)進(jìn)行比例計(jì)算,才是對(duì)語(yǔ)句語(yǔ)義的準(zhǔn)確分析。但是,現(xiàn)有的研究幾乎很少關(guān)注網(wǎng)絡(luò)評(píng)論表達(dá)隨意,句式構(gòu)成復(fù)雜,特征觀點(diǎn)并不僅在單句中出現(xiàn)的情況,而且沒有從語(yǔ)句語(yǔ)法規(guī)則和句式依賴關(guān)系的分析出發(fā),去提取產(chǎn)品特征觀點(diǎn)對(duì),從而計(jì)算評(píng)論的語(yǔ)義可信度[9]。另外,在可信評(píng)論排序方面,目前研究方法中多數(shù)僅依據(jù)單項(xiàng)指標(biāo)篩選可信評(píng)論而且對(duì)于評(píng)論語(yǔ)義內(nèi)容較少關(guān)注,不能很好滿足客戶篩選評(píng)論的需求。事實(shí)上,綜合評(píng)論元數(shù)據(jù)特征、評(píng)論語(yǔ)義特征和評(píng)論者等多項(xiàng)可信度指標(biāo),并確定其權(quán)重,對(duì)產(chǎn)品評(píng)論進(jìn)行可信度篩選,才能幫助用戶全面判定產(chǎn)品評(píng)論的質(zhì)量,實(shí)現(xiàn)不僅從產(chǎn)品整體的粗粒度評(píng)價(jià)產(chǎn)品評(píng)論質(zhì)量,而且細(xì)化到產(chǎn)品特征級(jí)別來識(shí)別產(chǎn)品評(píng)論質(zhì)量。

        為了解決以上問題,即一方面完善產(chǎn)品評(píng)論可信度的語(yǔ)義特征分析方法,另一方面,綜合多項(xiàng)可信度指標(biāo)進(jìn)行產(chǎn)品評(píng)論質(zhì)量評(píng)價(jià),本文將給出基于特征觀點(diǎn)對(duì)的語(yǔ)義匹配的產(chǎn)品評(píng)論可信度識(shí)別方法,采用句式劃分方法提取特征觀點(diǎn)對(duì),實(shí)現(xiàn)評(píng)論情感可信度指標(biāo)的量化計(jì)算;除評(píng)論語(yǔ)義指標(biāo)外,引入評(píng)論者和評(píng)論元數(shù)據(jù)指標(biāo),應(yīng)用模糊層次分析法并結(jié)合問卷調(diào)查,確定各項(xiàng)可信度指標(biāo)權(quán)重;依據(jù)可信度指標(biāo)對(duì)購(gòu)物網(wǎng)站產(chǎn)品評(píng)論進(jìn)行排序,評(píng)估各產(chǎn)品的評(píng)論可信度,并細(xì)化到產(chǎn)品特征級(jí)別的可信度分析,從而幫助用戶篩選可信評(píng)論。

        1 相關(guān)研究

        1.1 產(chǎn)品評(píng)論可信度指標(biāo)劃分

        關(guān)于產(chǎn)品評(píng)論可信度的概念,目前主要有兩類界定:一類認(rèn)為評(píng)論可信度和評(píng)論內(nèi)容完整性共同構(gòu)成評(píng)論有用性,而評(píng)論可信度又包括專業(yè)性和可靠性[10];另一類認(rèn)為評(píng)論可信度包括真實(shí)性和準(zhǔn)確性[11]。國(guó)內(nèi)外研究者依據(jù)評(píng)論可信度的這些概念,延伸出了評(píng)論可信度指標(biāo)的劃分,并主要從評(píng)論本身和評(píng)論者兩個(gè)角度進(jìn)行分析[12-13]。其中,評(píng)論本身的可信度指標(biāo)包括評(píng)論元數(shù)據(jù)特征和評(píng)論文本語(yǔ)義特征[14-15]。評(píng)論內(nèi)容的相關(guān)元數(shù)據(jù)主要是指評(píng)論發(fā)表時(shí)間、評(píng)論的字符串長(zhǎng)度、得票數(shù)等,評(píng)論文本語(yǔ)義特征是指語(yǔ)法、語(yǔ)義、文體特征以及評(píng)論的情感特征[16],評(píng)論情感特征通常表示為評(píng)論積極、消極詞匯比例,近期有學(xué)者提出將特征觀點(diǎn)對(duì)納入評(píng)論情感特征[9]。評(píng)論者的可信度特征則包括評(píng)論者信譽(yù)、年齡、評(píng)論者身份信息公開程度、評(píng)論者打分偏差以及評(píng)論者異常行為模式等。

        除了劃分評(píng)論可信度的指標(biāo),針對(duì)各項(xiàng)指標(biāo)對(duì)評(píng)論可信度的影響,國(guó)內(nèi)外學(xué)者都展開了很多研究,例如,Lee S等[17]利用回歸模型驗(yàn)證了評(píng)論長(zhǎng)度和評(píng)論者信譽(yù)等級(jí)對(duì)評(píng)論有用性的正向影響。Li F等[18]發(fā)現(xiàn)僅通過評(píng)論內(nèi)容情感還無法判斷評(píng)論的可信度,還需結(jié)合評(píng)論人特征。Mukherjee A等[14]比較了評(píng)論者特征和評(píng)論情感特征對(duì)于評(píng)論可信度的影響,認(rèn)為基于評(píng)論者特征識(shí)別評(píng)論的可信度更優(yōu)。Gorla N等[19]認(rèn)為信息質(zhì)量涉及完整性、準(zhǔn)確性和及時(shí)性3個(gè)維度,且評(píng)論可信度的及時(shí)性由評(píng)論發(fā)布時(shí)間決定。Cheung C等[20]提出評(píng)論時(shí)間即評(píng)論時(shí)效性是影響評(píng)論可信度的信息質(zhì)量的重要因素。Zhang R等[21]提出評(píng)論評(píng)分和評(píng)論語(yǔ)義內(nèi)容之間存在的不一致性,例如評(píng)分高但評(píng)論內(nèi)容卻是負(fù)面的,所以,僅從評(píng)論元數(shù)據(jù)無法判定評(píng)論可信度,還需結(jié)合評(píng)論語(yǔ)義分析。Qiu L等[22]也提到了商家匯總后的評(píng)分會(huì)和具體評(píng)論的語(yǔ)義極性不一致的情況,通過實(shí)驗(yàn)證明了針對(duì)產(chǎn)品特征的評(píng)論對(duì)評(píng)論可信度的正向影響。Mackiewicz J等[11]通過在線問卷的方式收集數(shù)據(jù)并驗(yàn)證了評(píng)論語(yǔ)義極性與評(píng)論可信度正相關(guān)。吳江等[8]以信息采納理論和負(fù)面偏差理論為基礎(chǔ),從評(píng)論者信度、評(píng)論信息質(zhì)量、評(píng)論極性3個(gè)方面探究評(píng)論有用性投票影響因素。研究結(jié)果表明評(píng)論者有用性、評(píng)論信息量和評(píng)論文本消極傾向?qū)υu(píng)論有用性具有積極正向影響。王忠群等[9]認(rèn)為特征觀點(diǎn)對(duì)作為一個(gè)整體,從語(yǔ)義角度比單獨(dú)分別抽取商品特征與觀點(diǎn)能夠獲取更為完整的用戶對(duì)商品的評(píng)論信息。

        綜合以上研究結(jié)論,劃分評(píng)論可信度的指標(biāo)需綜合評(píng)論者、評(píng)論時(shí)間以及評(píng)論文本語(yǔ)義3個(gè)方面的特征,才能從多方面反映產(chǎn)品評(píng)論的可信度,并且將評(píng)論文本語(yǔ)義特征細(xì)化到產(chǎn)品特征觀點(diǎn)是當(dāng)前的研究趨勢(shì)。但是,現(xiàn)有研究針對(duì)特征觀點(diǎn)的提取還僅限于單句,而且考慮的句式關(guān)系和特征觀點(diǎn)對(duì)匹配形式單一,并不適用于網(wǎng)絡(luò)評(píng)論形式多樣、句式構(gòu)成復(fù)雜和表達(dá)隨意的情況[9]。因此,復(fù)合句式中的特征觀點(diǎn)對(duì)的語(yǔ)義匹配將成為本文研究評(píng)論可信度語(yǔ)義指標(biāo)的重點(diǎn)。

        1.2 產(chǎn)品評(píng)論可信度識(shí)別

        在劃分評(píng)論可信度指標(biāo)的基礎(chǔ)上,對(duì)產(chǎn)品評(píng)論進(jìn)行可信度識(shí)別,目前主要包括評(píng)論可信度分類、賣家信譽(yù)評(píng)價(jià)、虛假評(píng)論識(shí)別以及評(píng)論可信度排序幾個(gè)方面。例如,陳燕方[6]首先確定了10個(gè)產(chǎn)品評(píng)論的可信度影響因素,采用多分類支持向量機(jī)(DDAG-SVM)建立了在線評(píng)論可信度分類模型。王宇等[23]基于概念層次網(wǎng)絡(luò)(HNC)對(duì)用戶評(píng)論文本抽取主題詞,將主題詞進(jìn)行聚類,從而構(gòu)建商家信譽(yù)指標(biāo)體系。陳燕方等[7]在評(píng)論文本語(yǔ)義特征中,增加產(chǎn)品屬性情感的離群度,并采用基于χ2統(tǒng)計(jì)量擴(kuò)展的多元離群點(diǎn)檢測(cè)方法來衡量在線商品評(píng)論的可信度。吳江等[8]研究發(fā)現(xiàn)評(píng)論的長(zhǎng)度不能代表評(píng)論有用信息量,只有評(píng)論中所包含的內(nèi)容能夠集中代表其他用戶所反映的觀點(diǎn),才認(rèn)為該條評(píng)論所包含的信息是有效的,且該評(píng)論對(duì)消費(fèi)者而言也越有用。王忠群等[9]提出主流特征觀點(diǎn)對(duì)的概念,即包含某個(gè)特征觀點(diǎn)對(duì)的評(píng)論數(shù)量大于閾值,則設(shè)定該特征觀點(diǎn)對(duì)為主流特征觀點(diǎn)對(duì),同時(shí)給出在線商品評(píng)論可信度模型,提取單句評(píng)論的特征觀點(diǎn)對(duì),根據(jù)評(píng)論中所包含的主流特征觀點(diǎn)對(duì)的數(shù)量,對(duì)在線評(píng)論的可信度進(jìn)行計(jì)算排序。王倩倩[5]依據(jù)Hownet情感詞表,提取評(píng)論文本中的產(chǎn)品屬性情感,將文本型評(píng)論與數(shù)值型評(píng)論的一致性進(jìn)行量化,結(jié)合其他可信度影響因素,提出一種在線商品評(píng)論信息可信度的排序方法。

        依據(jù)目前關(guān)于評(píng)論可信度識(shí)別的現(xiàn)狀,不難發(fā)現(xiàn),針對(duì)評(píng)論可信度排序的研究中,雖然已經(jīng)將評(píng)論文本語(yǔ)義特征中的特征觀點(diǎn)對(duì)納入了評(píng)論可信度指標(biāo),但仍然存在兩點(diǎn)不足:一是沒有研究特征觀點(diǎn)對(duì)的準(zhǔn)確語(yǔ)義匹配方法;二是很少結(jié)合其他評(píng)論元數(shù)據(jù)特征綜合分析評(píng)論可信度,而且對(duì)于可信度指標(biāo)的權(quán)重賦值,也未從用戶角度進(jìn)行評(píng)價(jià),但事實(shí)上,用戶才是最有發(fā)言權(quán)的閱讀評(píng)論主體。因此,本文將采用模糊層次分析法,通過用戶問卷調(diào)查,獲取評(píng)論可信度指標(biāo)權(quán)重,實(shí)現(xiàn)綜合評(píng)論時(shí)間、評(píng)論者和評(píng)論文本語(yǔ)義特征的評(píng)論可信度識(shí)別。

        2 基于特征觀點(diǎn)對(duì)的語(yǔ)義匹配的產(chǎn)品評(píng)論可信度識(shí)別

        基于特征觀點(diǎn)對(duì)的語(yǔ)義匹配的產(chǎn)品評(píng)論可信度識(shí)別主要分為4個(gè)部分:數(shù)據(jù)收集模塊、語(yǔ)義指標(biāo)計(jì)算模塊、非語(yǔ)義指標(biāo)計(jì)算模塊和產(chǎn)品評(píng)論可信度識(shí)別模塊。模型框架如圖1所示。

        2.1 數(shù)據(jù)收集及預(yù)處理

        采用網(wǎng)站數(shù)據(jù)采集程序GooSeeker,可以實(shí)現(xiàn)網(wǎng)站評(píng)論的數(shù)據(jù)抓取。主要步驟包括:1)網(wǎng)站網(wǎng)址加載,創(chuàng)建抓取規(guī)則,包括評(píng)論者等級(jí)、評(píng)論發(fā)布時(shí)間和評(píng)論內(nèi)容;2)批量獲取XML數(shù)據(jù);3)將XML數(shù)據(jù)導(dǎo)入Excel文件,并按照產(chǎn)品型號(hào)和指標(biāo)對(duì)評(píng)論進(jìn)行分類和整理。

        評(píng)論文本預(yù)處理采用NLPIR漢語(yǔ)分詞系統(tǒng)完成,主要包括中文分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)和用戶自定義詞典。其中,詞頻統(tǒng)計(jì)能對(duì)文本中標(biāo)注詞性的詞語(yǔ)進(jìn)行頻數(shù)統(tǒng)計(jì);用戶自定義詞典允許用戶自行添加詞語(yǔ)并標(biāo)注詞性。對(duì)客戶評(píng)論進(jìn)行文本預(yù)處理之后,將分詞及詞性標(biāo)注結(jié)果生成候選詞集合,作為后階段建立特征集合和觀點(diǎn)詞集合的基礎(chǔ)。

        2.2 語(yǔ)義指標(biāo)計(jì)算

        特征觀點(diǎn)對(duì)(Feature Opinion Pair,F(xiàn)OP)是評(píng)論中的產(chǎn)品特征及其評(píng)價(jià)觀點(diǎn),也是評(píng)論挖掘的基本單位[24]。本文將特征觀點(diǎn)對(duì)作為評(píng)論可信度語(yǔ)義指標(biāo),其中,特征觀點(diǎn)對(duì)的語(yǔ)義匹配和指標(biāo)計(jì)算是關(guān)鍵。區(qū)別于文獻(xiàn)[9],本文考慮網(wǎng)絡(luò)評(píng)論表達(dá)隨意,句式構(gòu)成復(fù)雜,特征觀點(diǎn)不只在單句中出現(xiàn)的情況,從語(yǔ)句語(yǔ)法規(guī)則和句式依賴關(guān)系的分析出發(fā),提取產(chǎn)品特征觀點(diǎn)對(duì)。

        2.2.1 特征觀點(diǎn)對(duì)的語(yǔ)義匹配

        1)構(gòu)建產(chǎn)品特征集合

        構(gòu)建產(chǎn)品特征集合需要經(jīng)過3個(gè)步驟:

        ①在候選詞集合中基于閾值過濾得到高頻名詞和動(dòng)詞,去除非領(lǐng)域特征詞;

        ②將同義詞劃分同義詞組;

        ③將網(wǎng)站產(chǎn)品參數(shù)合并入同義詞組。

        2)構(gòu)建觀點(diǎn)詞集合

        本文建立的觀點(diǎn)詞典包括觀點(diǎn)詞、程度詞和反轉(zhuǎn)詞,構(gòu)建過程分為4個(gè)步驟:

        ①建立觀點(diǎn)詞集。在候選詞集合中篩選觀點(diǎn)詞不僅考慮形容詞和副詞,同時(shí)還將沒有納入產(chǎn)品特征的名詞和動(dòng)詞也進(jìn)行識(shí)別;將篩選得到的詞匯與Hownet情感詞典進(jìn)行比較,把屬于Hownet的詞匯加入觀點(diǎn)詞集,其余不屬于Hownet的詞匯留待②處理;

        ②建立觀點(diǎn)的程度詞集合。將步驟①未識(shí)別的詞匯與Hownet觀點(diǎn)程度詞集進(jìn)行比較,把屬于Hownet的詞匯加入觀點(diǎn)的程度詞集合;

        ③增加反轉(zhuǎn)詞集合。將中文否定詞“不”、“不是”、“沒”和“沒有”加入反轉(zhuǎn)詞集合。

        ④完成以上步驟后,還剩余部分不屬于Hownet的詞匯,它們大多是網(wǎng)絡(luò)用語(yǔ),例如“大愛”、“無語(yǔ)”等,對(duì)這些詞語(yǔ)進(jìn)行情感分類并加入觀點(diǎn)詞集。

        3)劃分特征觀點(diǎn)對(duì)句式

        根據(jù)銷售網(wǎng)站用戶評(píng)論的表達(dá)形式,我們發(fā)現(xiàn)特征觀點(diǎn)對(duì)不僅出現(xiàn)在單條語(yǔ)句,而且還會(huì)分散在相鄰的語(yǔ)句序列,除此之外,特征觀點(diǎn)對(duì)的匹配形式也不限于一個(gè)特征對(duì)應(yīng)一個(gè)觀點(diǎn)。因此,結(jié)合對(duì)用戶評(píng)論的大量分析,圍繞識(shí)別的當(dāng)前特征的位置不同,而劃分出以下特征觀點(diǎn)對(duì)句式,如表1所示。

        2.3 非語(yǔ)義指標(biāo)計(jì)算

        2.3.1 評(píng)論時(shí)間指標(biāo)計(jì)算

        在評(píng)論可信度的研究領(lǐng)域中,評(píng)論時(shí)效性是指在線評(píng)論的發(fā)布時(shí)間與用戶閱讀該評(píng)論的時(shí)間差值,時(shí)間差值越小,說明評(píng)論的時(shí)效性越高;差值越大,說明評(píng)論的時(shí)效性越低。隨著時(shí)間的推移,同種商品的評(píng)論會(huì)不斷增加,但是由于受到外界環(huán)境變化或者商品屬性的影響,發(fā)布時(shí)間較早的評(píng)論可信度會(huì)逐漸發(fā)生變化。此外,國(guó)內(nèi)多數(shù)網(wǎng)絡(luò)購(gòu)物平臺(tái)如京東、淘寶等按照評(píng)論發(fā)布時(shí)間來對(duì)某商品的評(píng)論進(jìn)行排序,將發(fā)布時(shí)間越近的評(píng)論放在消費(fèi)者更容易看到的位置,以便引起消費(fèi)者的關(guān)注并幫助消費(fèi)者獲得更有參考價(jià)值的信息。因此在考慮評(píng)論可信度的時(shí)候需要將評(píng)論時(shí)效性作為影響因素考慮,并且評(píng)論時(shí)效性會(huì)對(duì)評(píng)論可信度產(chǎn)生正向積極影響[19-20]。本文在量化評(píng)論時(shí)間指標(biāo)時(shí),計(jì)算評(píng)論發(fā)布時(shí)間與用戶閱讀時(shí)間差值并進(jìn)行分組,時(shí)間差值與量化結(jié)果之間的對(duì)應(yīng)關(guān)系見表4。由于無法預(yù)知用戶閱讀評(píng)論的時(shí)間,因此將某類商品中所有評(píng)論的最晚發(fā)布時(shí)間作為用戶閱讀評(píng)論的時(shí)間。

        2.3.2 評(píng)論者指標(biāo)計(jì)算

        一般來說,評(píng)論者等級(jí)能夠體現(xiàn)消費(fèi)者在某網(wǎng)絡(luò)購(gòu)物平臺(tái)的購(gòu)物經(jīng)驗(yàn)豐富程度,評(píng)論者等級(jí)越高,說明該消費(fèi)者擁有越加豐富的網(wǎng)絡(luò)購(gòu)物經(jīng)驗(yàn),對(duì)商品的認(rèn)知程度也就越高,該消費(fèi)者所發(fā)布的評(píng)論就越具有參考價(jià)值,從而可以得出評(píng)論者等級(jí)對(duì)評(píng)論可信度的影響也是正向積極的[14,17-18]??紤]到同一個(gè)網(wǎng)絡(luò)購(gòu)物平臺(tái)上評(píng)論者等級(jí)有著明顯的區(qū)分,在量化評(píng)論者等級(jí)時(shí),將評(píng)論者等級(jí)從低到高依次賦值。評(píng)論者等級(jí)與量化結(jié)果的對(duì)應(yīng)關(guān)系見表5。

        2.4 評(píng)論可信度識(shí)別

        模糊層次分析法(FAHP)是對(duì)層次分析法(AHP)的改進(jìn),其思路是將AHP中的判斷矩陣轉(zhuǎn)換成模糊一致判斷矩陣[25]。本文采用FAHP計(jì)算評(píng)論可信度各指標(biāo)相對(duì)權(quán)重,其步驟如下:

        1)建立模糊互補(bǔ)矩陣

        3 實(shí)證研究

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為了獲得模糊互補(bǔ)矩陣,從相對(duì)重要性角度出發(fā),本文設(shè)計(jì)有關(guān)評(píng)論可信度影響因素的兩兩評(píng)分的調(diào)查問卷,并且主要針對(duì)大學(xué)生這一類相對(duì)擁有豐富網(wǎng)絡(luò)購(gòu)物經(jīng)驗(yàn)的群體發(fā)放問卷。發(fā)放問卷的形式分為網(wǎng)絡(luò)發(fā)放和紙質(zhì)發(fā)放,網(wǎng)絡(luò)發(fā)放144份問卷,收回144份,其中有效144份;紙質(zhì)發(fā)放200份問卷,收回191份,其中有效163份,即總共收回有效問卷307份。

        本文抓取京東商城平板電腦的客戶評(píng)論作為實(shí)驗(yàn)數(shù)據(jù)集,選擇17個(gè)品牌銷量排名1~2的產(chǎn)品評(píng)論,總共選取了28款產(chǎn)品,抓取的評(píng)論數(shù)量為39 721條。采用NLPIR漢語(yǔ)分詞系統(tǒng)完成評(píng)論文本預(yù)處理,包括中文分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)和用戶自定義詞典。構(gòu)建產(chǎn)品特征集合和觀點(diǎn)詞集合的部分步驟,以及特征觀點(diǎn)對(duì)的語(yǔ)義匹配算法均采用Visual Studio環(huán)境下的C#語(yǔ)言實(shí)現(xiàn),數(shù)據(jù)庫(kù)采用SQL Server 2008實(shí)現(xiàn)。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        3.2.1 確定可信度指標(biāo)權(quán)重

        調(diào)查問卷中每?jī)身?xiàng)影響因素的比較評(píng)分采用5級(jí)評(píng)分:0.9表示前者比后者重要;0.7表示前者比后者較重要;0.5表示兩者等同重要;0.3表示前者比后者較不重要;0.1表示前者比后者不重要。根據(jù)收回的307份有效問卷,計(jì)算得到模糊互補(bǔ)矩陣A和模糊一致矩陣R如下所示:

        3.2.2 FOP提取算法性能比較

        將參考文獻(xiàn)[9]的FOP提取算法作為基準(zhǔn)算法,進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。實(shí)驗(yàn)隨機(jī)選取平板電腦評(píng)論中的25條評(píng)論,評(píng)論中FOP出現(xiàn)在單句的統(tǒng)計(jì)情況如表7所示。同時(shí)還對(duì)單句內(nèi)FOP是否為文獻(xiàn)[9]的SBV(主謂)結(jié)構(gòu)進(jìn)行了統(tǒng)計(jì),可見FOP在復(fù)句內(nèi)的比例為20.83%,而且單句內(nèi)FOP不是SBV主謂結(jié)構(gòu)的比例為21.05%,這也說明了本文算法的適用性。

        3.2.3 評(píng)論可信度分析

        實(shí)驗(yàn)構(gòu)建的平板電腦產(chǎn)品特征集合總共包括442個(gè)特征詞,分屬于31個(gè)同義詞組。建立的觀點(diǎn)詞典包括6 139個(gè)觀點(diǎn)詞、145個(gè)程度詞和4個(gè)反轉(zhuǎn)詞。評(píng)論可信度分析中,隨機(jī)選取28款產(chǎn)品中的5款產(chǎn)品,設(shè)置可信度綜合評(píng)分0.5作為篩選條件,對(duì)比各產(chǎn)品的評(píng)論可信度,具體見圖3。

        對(duì)比5款產(chǎn)品的可信評(píng)論占比,可以發(fā)現(xiàn),可信評(píng)論占比高的產(chǎn)品未必原始評(píng)論數(shù)量多,例如華為產(chǎn)品評(píng)論可信度大于0.5的評(píng)論占總體評(píng)論的52.88%,評(píng)論總數(shù)量為520條;而蘋果產(chǎn)品評(píng)論可信度大于0.5的評(píng)論占總體評(píng)論的32.75%,評(píng)論總數(shù)量為1 539條。當(dāng)然,也有評(píng)論數(shù)量相對(duì)較多,而且評(píng)論可信度大于0.5的評(píng)論占比也較大的產(chǎn)品,例如微軟。所以這也表明,評(píng)論數(shù)量并不能反映產(chǎn)品評(píng)論可信程度。

        同樣設(shè)置可信度綜合評(píng)分0.5作為篩選條件,并且在整體評(píng)論數(shù)據(jù)集中選擇頻率最高的5項(xiàng)特征,分別提取5款產(chǎn)品的FOP,根據(jù)提取的FOP數(shù)量變化分析產(chǎn)品特征級(jí)別的可信度,可以發(fā)現(xiàn),華為產(chǎn)品的特征級(jí)別評(píng)論可信度最高,因?yàn)閿?shù)據(jù)顯示5項(xiàng)特征的FOP數(shù)量沒有任何變化;而微軟產(chǎn)品的特征級(jí)別評(píng)論可信度也較高,5項(xiàng)特征的正面FOP數(shù)量減少的平均幅度為0.96%,5項(xiàng)特征的負(fù)面FOP數(shù)量減少的平均幅度為1.60%;相反,聯(lián)想產(chǎn)品的特征級(jí)別評(píng)論可信度最低,5項(xiàng)特征的正面FOP數(shù)量減少的平均幅度達(dá)到25.53%,負(fù)面FOP數(shù)量減少的平均幅度達(dá)到31.23%。

        而且,對(duì)比圖3與表9,5款產(chǎn)品的整體評(píng)論可信度和產(chǎn)品特征級(jí)別可信度的排序基本還是一致的,圖3按產(chǎn)品整體可信評(píng)論占比從高到低排序是華為、微軟、三星、聯(lián)想和蘋果,表9按正負(fù)FOP在經(jīng)過可信評(píng)論篩選后,其減少比例從低到高排序是華為、微軟、三星、蘋果和聯(lián)想。這也驗(yàn)證了本文給出的評(píng)論可信度識(shí)別方法在整體和特征級(jí)別兩個(gè)層面都是合理和適用的。

        4 結(jié) 語(yǔ)

        本文綜合評(píng)論者、評(píng)論時(shí)間以及評(píng)論文本語(yǔ)義3個(gè)方面的指標(biāo)識(shí)別評(píng)論可信度,其中,對(duì)于評(píng)論文本語(yǔ)義指標(biāo),選擇特征觀點(diǎn)對(duì)作為整體表達(dá)評(píng)論語(yǔ)義的單位。在考慮網(wǎng)絡(luò)評(píng)論表達(dá)隨意,句式構(gòu)成復(fù)雜,以及特征觀點(diǎn)并不僅在單句中出現(xiàn)的情況,劃分了6種評(píng)論復(fù)合句式結(jié)構(gòu)和3種特征觀點(diǎn)對(duì)匹配類型,在此基礎(chǔ)上給出了提取特征觀點(diǎn)對(duì)的語(yǔ)義匹配算法。實(shí)驗(yàn)證明本文給出的算法在召回率、準(zhǔn)確率和F值測(cè)評(píng)方面均優(yōu)于單句提取特征觀點(diǎn)對(duì)方法。而對(duì)于產(chǎn)品評(píng)論可信度識(shí)別方法,本文采用模糊層次分析法,通過對(duì)用戶展開問卷調(diào)查,獲取評(píng)論可信度指標(biāo)的權(quán)重,實(shí)現(xiàn)綜合評(píng)論時(shí)間、評(píng)論者和評(píng)論文本語(yǔ)義特征的評(píng)論可信度識(shí)別。實(shí)驗(yàn)分別對(duì)產(chǎn)品整體評(píng)論可信度和特征級(jí)別可信度進(jìn)行排序,驗(yàn)證了方法的適用性和一致性。本文的不足之處在于涉及的評(píng)論可信度的非語(yǔ)義指標(biāo)還不全面,而且評(píng)論復(fù)合句式結(jié)構(gòu)的劃分還沒有引入比較語(yǔ)句等復(fù)雜語(yǔ)義結(jié)構(gòu),這將是下一步研究的主要方向。

        參考文獻(xiàn)

        [1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.2015年中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].http://www.cnnic.net.cn,2016-06-22.

        [2]Lee M,Youn S.Electronic Word of Mouth(eWOM):How eWOM Platforms Influence Consumer Product Judgement[J].International Journal of Advertising,2009,28 (3):473-499.

        [3]Bickart B,Schindler R M.Internet Forums as Influential Sources of Consumer Information[J].Journal of Interactive Marketing,2001,15(3):31-40.

        [4]張薇薇,柏露.網(wǎng)絡(luò)評(píng)論可信度影響因素研究述評(píng)[J].情報(bào)理論與實(shí)踐,2016,39(6):131-138.

        [5]王倩倩.一種在線商品評(píng)論信息可信度的排序方法[J].情報(bào)雜志,2015,34(3):181-185.

        [6]陳燕方.基于DDAG- SVM 的在線商品評(píng)論可信度分類模型[J].情報(bào)理論與實(shí)踐,2017,40(7):132-137.

        [7]陳燕方,李志宇.基于評(píng)論產(chǎn)品屬性情感傾向評(píng)估的虛假評(píng)論識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014,(9):81-90.

        [8]吳江,劉彎彎.什么樣的評(píng)論更容易獲得有用性投票——以亞馬遜網(wǎng)站研究為例[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,(9):16-27.

        [9]王忠群,吳東勝,蔣勝.一種基于主流特征觀點(diǎn)對(duì)的評(píng)論可信性排序研究[J].現(xiàn)代圖書情報(bào)技術(shù),2017,1(10):32-42.

        [10]Weathers D,Swain S D,Grover V.Can Online Product Reviews Be More Helpful?Examining Characteristics of Information Content By Product Type[J].Decision Support Systems,2015,79:12-23.

        [11]Mackiewicz J,Yeats D,Thornton T.The Impact of Review Environment on Review Credibility[J].IEEE Transactions on Professional Communication,2016,59 (2):71-88.

        [12]Jindal N,Liu B.Review Spam Detection[C].16th International World Wide Web Conference,WWW2007,Banff,Alberta,Canada,2007:1189-1190.

        [13]Racherla P,F(xiàn)riske W.Perceived“Usefulness”of Online Consumer Reviews:An Exploratory Investigation Across Three Services Categories[J].Electronic Commerce Research & Applications,2012,11(6):548-559.

        [14]Mukherjee A,Venkataraman V,Liu B,et al.What Yelp Fake Review Filter Might Be Doing?[C].In:Proceedings of the 7th International Conference on Weblogs and Social Media.Palo Alto:AAAI Press,2013:409-418.

        [15]Peng Q,Zhong M.Detecting Spam Review Through Sentiment Analysis[J].Journal of Software,2014,9(8):2065-2072.

        [16]孟美任,丁晟春.在線中文商品評(píng)論可信度研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(9):60-66.

        [17]Lee S,Choeh J Y.The Determinants of Helpfulness of Online Reviews[J].Behavior & Information Technonogy,2016,35(10):853-863.

        [18]Li F,Huang M,Yang Y,et al.Learning to Identify Review Spam[C].In:Proceedings of the 22nd International Joint Conference on Artificial Intelligence.AAAI Press,2011:2488-2493.

        [19]Gorla N,Somers T M,Wong B.Organizational Impact of System Quality,Information Quality,and Service Quality[J].Journal of Strategic Information Systems,2010,19(3):207-228.

        [20]Cheung C M K,Thadani D R.The Impact of Electronic Word-of-mouth Communication:A Literature Analysis and Integrative Model[J].Decision Support Systems,2012,54:461-470.

        [21]Zhang R,Gao M,He X,et al.Learning User Credibility for Product Ranking[J].Knowledge & Information Systems,2016,46 (3):679-705.

        [22]Qiu L,Pang J,Kai H L.Effects of Conflicting Aggregated Rating on eWOM Review Credibility and Diagnosticity:The Moderating Role of Review Valence[J].Decision Support Systems,2012,54(1):631-643.

        [23]王宇,李秀秀.基于電子商務(wù)評(píng)論的商家信譽(yù)維度構(gòu)建[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,(8):59-67.

        [24]Yin P,Wang,H W,Guo K Q.Feature-opinion Pair Identification of Product Reviews in Chinese:A Domain Ontology Modeling Method[J].New Review of Hypermedia and Multimedia,2013,19(1):3-24.

        [25]姚敏,黃燕君.模糊決策方法研究[J].系統(tǒng)工程理論與實(shí)踐,1999,(11):61-70.

        (責(zé)任編輯:孫國(guó)雷)

        欧美白人战黑吊| 日韩精品网| 欧美日韩国产在线人成dvd| 日本在线免费不卡一区二区三区| 国产精品日日做人人爱| 少妇性荡欲视频| 国产午夜福利精品| 亚洲av成人久久精品| 一区二区三区国产高清视频| 男女啪动最猛动态图| 粉嫩少妇内射浓精videos| 无码人妻专区一区二区三区| 青青草原综合久久大伊人精品| 门卫又粗又大又长好爽| 中文字幕人妻偷伦在线视频| 九九精品国产99精品| 日韩毛片基地一区二区三区| 99在线无码精品秘 人口| 国产老熟女伦老熟妇露脸| 日本一区二区在线播放| 亚洲av有码在线天堂 | 在线视频一区二区三区中文字幕| 日韩中文字幕一区二区二区| 一本色道久久88综合日韩精品| 亚洲国产精品自拍一区| 中文字幕乱码亚洲美女精品一区| 色婷婷久久亚洲综合看片| 亚洲av无码精品色午夜在线观看| 无码一区二区三区老色鬼| 国产欧美亚洲另类第一页| 一本大道加勒比东京热| 亚洲国产精品美女久久| 大肉大捧一进一出好爽视频mba| 亚洲最大无码AV网站观看| 中文字幕人妻被公喝醉在线| 中文字幕乱码熟女人妻在线| 97久久草草超级碰碰碰| 免费成人毛片| 一区=区三区国产视频| 小说区激情另类春色| 色老汉免费网站免费视频|