亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合用戶需求和商品特點(diǎn)的評(píng)論標(biāo)簽生成算法研究*

        2022-01-15 06:24:06鄭宇賈如沈軍李茹
        關(guān)鍵詞:句法用戶

        鄭宇 賈如 沈軍 李茹

        (內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院 呼和浩特 010021)

        1 引言

        1.1 研究背景

        隨著電子商務(wù)蓬勃發(fā)展,評(píng)論引起商家和用戶的關(guān)注,然而用戶沒有充足時(shí)間和精力或合適的語(yǔ)言對(duì)進(jìn)行商品評(píng)論。針對(duì)該問題,平臺(tái)提供固定評(píng)論標(biāo)簽供用戶選擇,如圖1[12]所示。但是單純根據(jù)商品分類形成的標(biāo)簽,無(wú)法體現(xiàn)用戶不盡相同的評(píng)論觀點(diǎn),不能產(chǎn)生多樣化、個(gè)性化的有效評(píng)論。本文根據(jù)用戶已有評(píng)論分析用戶需求,與商品特點(diǎn)融合形成評(píng)論標(biāo)簽,幫助用戶對(duì)商品評(píng)價(jià),進(jìn)而生成更多有效的評(píng)論。

        圖1 購(gòu)物軟件評(píng)論頁(yè)面圖

        評(píng)論標(biāo)簽生成是一項(xiàng)具有挑戰(zhàn)的研究,國(guó)內(nèi)外學(xué)者應(yīng)用多種算法進(jìn)行評(píng)論標(biāo)簽提取,大致分為詞性和依存句法、主題模型、監(jiān)督學(xué)習(xí)三類[1]。單純利用詞性或依存句法提取深層語(yǔ)義的主題比較困難,基于主題模型進(jìn)行標(biāo)簽提取的方法可以對(duì)用戶評(píng)論進(jìn)行總結(jié)和語(yǔ)義分析,可以體現(xiàn)用戶對(duì)商品的看法,但面對(duì)商品屬性不能夠詳細(xì)說(shuō)明。而依據(jù)監(jiān)督學(xué)習(xí)提取標(biāo)簽的準(zhǔn)確率較高,缺點(diǎn)是對(duì)語(yǔ)料的依賴性過強(qiáng)。

        1.2 研究思路

        本文研究評(píng)論標(biāo)簽自動(dòng)算法,為沒有充足時(shí)間或合適詞匯評(píng)論的網(wǎng)購(gòu)用戶提供便捷的評(píng)論方式。應(yīng)用K-means聚類算法,以用戶為單位聚類描述方向相似的評(píng)論語(yǔ)句?;赥extRank算法結(jié)合詞性-句法特征生成文本摘要,該算法對(duì)語(yǔ)料依賴性小,可以良好適應(yīng)數(shù)據(jù)稀疏情況,生成摘要由詞性-句法特征清晰描述出商品屬性,又通過TextRank算法建立文本關(guān)聯(lián)體現(xiàn)評(píng)論語(yǔ)義。在京東商城中,隨機(jī)選取電子商品、洗護(hù)商品、食品類商品作為研究對(duì)象。該數(shù)據(jù)集平臺(tái)應(yīng)用范圍廣,用戶類型各異,更適合本次實(shí)驗(yàn)。本文依據(jù)評(píng)論文本內(nèi)容相似性進(jìn)行K-means聚類處理,將TextRank[2,6]算法生成摘要作詞性-句法分析,結(jié)合TextRank提取的評(píng)論關(guān)鍵詞制作標(biāo)簽。

        2 研究現(xiàn)狀

        評(píng)論標(biāo)簽提取方法復(fù)雜多樣,國(guó)內(nèi)外眾多學(xué)者紛紛提出不同提取算法,可以分為三種。

        2.1 詞性和依存句法

        Makadia[22]研究人工智能在商業(yè)鄰域的應(yīng)用,運(yùn)用自然語(yǔ)言處理的句法知識(shí)進(jìn)行商品特征挖掘。李兆玉等[3]運(yùn)用最大頻繁模式來(lái)提取出評(píng)論中頻率高的詞的集合,同時(shí)利用詞性標(biāo)注形成搭配規(guī)則進(jìn)行過濾提取標(biāo)簽的算法。

        在詞性標(biāo)注和句法分析基礎(chǔ)上的主題標(biāo)簽提取方法,僅僅可以提取出用戶在評(píng)論中可以顯式呈現(xiàn)的短語(yǔ)詞匯,對(duì)于具有隱藏意義的,較深意義的主旨的提取比較困難,在語(yǔ)義方面可以進(jìn)行聚類的算法可以一定程度地對(duì)類似缺陷進(jìn)行彌補(bǔ)[7]。

        2.2 基于主題模型

        Samuel等[25]提出了基于LDA的局部主題模型,使用一種自動(dòng)導(dǎo)出的方法構(gòu)建一個(gè)無(wú)監(jiān)督的情感正負(fù)形容詞種子集實(shí)現(xiàn)主題情感的分析。Moghaddam等[23]以購(gòu)物網(wǎng)站商品評(píng)論為數(shù)據(jù)集利用LDA模型設(shè)計(jì)了標(biāo)簽生成算法,基于LDA的局部主題模型[5]生成主題詞作為標(biāo)簽。阮光冊(cè)[8]提出了進(jìn)行主題發(fā)現(xiàn)的挖掘方法,在詞性標(biāo)注的基礎(chǔ)上,結(jié)合主題模型進(jìn)行評(píng)論的主題匯聚和標(biāo)簽提取。

        基于主題模型進(jìn)行標(biāo)簽提取的方法可以對(duì)用戶評(píng)論進(jìn)行好的總結(jié)和語(yǔ)義分析,但在體現(xiàn)用戶對(duì)商品的情感的同時(shí),對(duì)商品屬性的描述能力較低。

        2.3 基于監(jiān)督學(xué)習(xí)

        Hussam等[26]在中使用CRF(條件隨機(jī)場(chǎng))和logistic回歸提取主題目標(biāo)并做情感極性分析來(lái)最終構(gòu)成評(píng)論標(biāo)簽。Hu Xu等[24]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)CNN在一定標(biāo)記數(shù)據(jù)訓(xùn)練基礎(chǔ)上,得到了較好效果的標(biāo)簽。劉曉玲等[4]同樣運(yùn)用神經(jīng)網(wǎng)絡(luò)模型對(duì)用戶需求進(jìn)行意見挖掘,進(jìn)而構(gòu)成標(biāo)簽。

        基于機(jī)器學(xué)習(xí)形成評(píng)論標(biāo)簽的方法相對(duì)于利用詞性規(guī)則提取標(biāo)簽的方法準(zhǔn)確率會(huì)大幅度提高,但依舊存在對(duì)語(yǔ)料的依賴性太強(qiáng),面對(duì)冷啟動(dòng)和數(shù)據(jù)稀疏情況,不能良好適應(yīng)[9]需要大量人工標(biāo)注這樣的缺點(diǎn)。

        2.4 基于TextRank算法

        對(duì)比來(lái)看,本文實(shí)驗(yàn)以用戶為單位,融合TextRank算法和詞性-句法特征來(lái)提取標(biāo)簽,對(duì)只有少量已有評(píng)論的用戶也可以提供有一定準(zhǔn)確率的標(biāo)簽,對(duì)語(yǔ)料的依賴性適中,通過TextRank抽取的評(píng)論摘要設(shè)計(jì)不同的詞性句法規(guī)則可以較好地體現(xiàn)商品屬性特點(diǎn),還可以一定程度上體現(xiàn)用戶對(duì)商品情感,彌補(bǔ)提取具有隱藏較深意義和隱藏意義主旨的缺陷,達(dá)到語(yǔ)義方面的要求[13]。

        3 相關(guān)技術(shù)與算法設(shè)計(jì)

        3.1 相關(guān)技術(shù)方法

        3.1.1 TextRank算法

        Textrank算法是抽取式摘要算法,該算法可以將文本內(nèi)容進(jìn)行“降維”處理,將評(píng)論內(nèi)容提取成簡(jiǎn)短的關(guān)鍵詞摘要[18]。構(gòu)建詞圖G=(V,E),V為節(jié)點(diǎn),由分詞后詞集合所生成的詞組成,生成詞圖后根據(jù)下面的Textrank算法核心公式(1)迭代計(jì)算節(jié)點(diǎn)V的權(quán)重,直到收斂,其中用ωji來(lái)表示兩個(gè)節(jié)點(diǎn)之間的邊的鏈接具有不同的重要程度。

        以106份樣本的13個(gè)形態(tài)性狀為指標(biāo),采用Bray-Curtis距離系數(shù)和離差平方和法聚類策略,建立缺齒蓑蘚的形態(tài)聚類圖。原始數(shù)據(jù)用最大值標(biāo)準(zhǔn)化處理,同時(shí)以平均形態(tài)性狀為指標(biāo),建立11個(gè)地理居群的形態(tài)距離系數(shù)矩陣。同時(shí)計(jì)算蘚類枝葉的連續(xù)變量性狀在106份樣本間的變異系數(shù)。

        Textrank算法建立有向無(wú)環(huán)圖處理長(zhǎng)句,將長(zhǎng)句分成單詞,載入詞向量,對(duì)單詞構(gòu)建詞圖。構(gòu)成映射的詞向量,由此得到每個(gè)單詞的權(quán)重,權(quán)重高的單詞可以作為關(guān)鍵詞,生成文本摘要[21]。

        3.1.2 依存句法

        依存句法分析(Dependency Parsing,DP)通過分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)[27]。句法分析是自然語(yǔ)言處理中一個(gè)重要的任務(wù),其目標(biāo)是分析句子的語(yǔ)法結(jié)構(gòu)并將其表示為容易理解的結(jié)構(gòu)(通常是樹形結(jié)構(gòu))[10]。依存句法樹關(guān)注的是句子中詞語(yǔ)之間的語(yǔ)法聯(lián)系,并且將其約束為樹形結(jié)構(gòu)[11]。在句子中,如果一個(gè)詞修飾另一個(gè)詞,則稱修飾詞為從屬詞(dependent),被修飾的詞語(yǔ)稱為支配詞(head),兩者之間的語(yǔ)法關(guān)系稱為依存關(guān)系(dependency relation)[12]。

        3.1.3 K-means聚類

        根據(jù)單個(gè)評(píng)論數(shù)據(jù)集的大小,先設(shè)定初始的K值,將評(píng)論分為K個(gè)聚類[14~16],后續(xù)根據(jù)聚類效果調(diào)整K值數(shù)量。算法將隨機(jī)抽取評(píng)論放在K個(gè)聚類中,作為初始的中心點(diǎn),每一條評(píng)論都代表一個(gè)聚類中心。數(shù)據(jù)集中的其他評(píng)論,會(huì)通過歐幾里得距離計(jì)算公式判斷它們與這些聚類中心的距離,再根據(jù)距離遠(yuǎn)近分配所屬類[17,20]。

        3.2 標(biāo)簽生成算法設(shè)計(jì)

        多數(shù)購(gòu)物軟件只是對(duì)不同類別商品進(jìn)行評(píng)論標(biāo)簽區(qū)分,沒有考慮到各個(gè)用戶評(píng)論觀點(diǎn)和語(yǔ)言習(xí)慣的差異,面向用戶提供一致標(biāo)簽。針對(duì)該問題,本文以用戶為單位對(duì)評(píng)論數(shù)據(jù)進(jìn)行K-means聚類,聚類算法將具有同類關(guān)鍵字的評(píng)論聚集到了一個(gè)新的文檔中。將用戶評(píng)論分類處理后使用TextRank算法抽取關(guān)鍵詞與摘要,能夠更加清晰地發(fā)現(xiàn)用戶對(duì)同一商品在不同方面的評(píng)價(jià),更加全面地概括商品特性。

        結(jié)合TextRank算法生成的關(guān)鍵詞,本文進(jìn)一步對(duì)算法抽取的摘要使用詞性規(guī)則和依存句法制作標(biāo)簽,加入了用戶個(gè)性化這一因素,彌補(bǔ)只能提取評(píng)論中顯式出現(xiàn)的詞匯這一缺陷。具體標(biāo)簽生成算法見表1。

        表1 標(biāo)簽提取算法表

        4 實(shí)驗(yàn)與結(jié)果

        在京東商城爬取200位用戶、1500條評(píng)論數(shù)據(jù)。以用戶為單位對(duì)其評(píng)論數(shù)據(jù)進(jìn)行聚類,聚類分別提取評(píng)論摘要得到權(quán)重排名靠前的評(píng)論摘要及關(guān)鍵詞。接下來(lái)利用Textrank算法抽取關(guān)鍵詞與摘要,不只統(tǒng)計(jì)單詞出現(xiàn)的頻率,同時(shí)通過詞與詞的連接關(guān)系,來(lái)判斷該詞語(yǔ)是否是文段中的關(guān)鍵性詞語(yǔ),優(yōu)化了關(guān)鍵詞的提取。用Stanford CoreNLP工具包對(duì)TextRank算法摘要進(jìn)行詞性標(biāo)注和依存句法關(guān)系表示來(lái)制定詞性句法規(guī)則,進(jìn)而提取出一定數(shù)量的標(biāo)簽,結(jié)合已經(jīng)提取的關(guān)鍵詞,形成最終標(biāo)簽。

        4.1 實(shí)驗(yàn)過程

        本文采用京東中文數(shù)據(jù)集,使用python中的jieba分詞工具,選用默認(rèn)模式進(jìn)行分割,每個(gè)詞只出現(xiàn)一次,不會(huì)列出全部可能分詞。去除部分指代意義的復(fù)合名詞和大量標(biāo)點(diǎn)符號(hào)[12],避免語(yǔ)義不明的部分無(wú)效標(biāo)簽的生成。

        使用Textrank算法對(duì)文本內(nèi)容進(jìn)行“降維”處理,將大量已被聚類的評(píng)論內(nèi)容提取成簡(jiǎn)短的關(guān)鍵詞與摘要。對(duì)生成摘要的詞性進(jìn)行標(biāo)注,依存關(guān)系依據(jù)句法分類表示,利用復(fù)雜的詞性和句法關(guān)系設(shè)計(jì)標(biāo)簽提取規(guī)則。

        游戲效果聚類中,表2為聚類效果,提取出的權(quán)重最高的關(guān)鍵詞除去“游戲”和“效果”后,為“流暢”、“散熱”和“運(yùn)行”。外形外觀聚類中,提取出的關(guān)鍵詞為“好看”、“大氣”、“質(zhì)感”,表3、4展現(xiàn)摘要效果。實(shí)驗(yàn)進(jìn)一步依據(jù)評(píng)論的依存句法樹設(shè)置提取標(biāo)簽的詞性-句法特征。標(biāo)簽如表5所示。

        表2 聚類效果示例

        表3 摘要效果示例

        表4 摘要效果示例

        表5 標(biāo)簽效果示例

        4.2 結(jié)果分析

        本文結(jié)合Textrank算法與詞性-語(yǔ)法特征提取標(biāo)簽,以用戶為單位目的是提取符合用戶需求,體現(xiàn)商品特征的個(gè)性化標(biāo)簽,數(shù)據(jù)稀疏情況下也可聯(lián)系評(píng)論語(yǔ)義生成體現(xiàn)商品特點(diǎn)的標(biāo)簽。

        為了體現(xiàn)評(píng)論標(biāo)簽的“廣度”與“深度”,本文以Textrank、LDA、TF-IDF算法為對(duì)比實(shí)驗(yàn),基于關(guān)鍵算法與本文設(shè)計(jì)方法進(jìn)行對(duì)比實(shí)驗(yàn)分析,結(jié)果表明,提取方式在關(guān)鍵描述層面明顯優(yōu)于傳統(tǒng)關(guān)鍵詞算法,標(biāo)簽提取效果顯著。

        本文將用戶最終標(biāo)簽作為結(jié)果集標(biāo)簽,京東評(píng)論數(shù)據(jù)集中用戶評(píng)論總結(jié)分詞去停得到該用戶的系統(tǒng)標(biāo)簽集。評(píng)價(jià)指標(biāo)包括覆蓋率(DT),準(zhǔn)確率(ACC),見式(2)、(3),其中TP+FP為結(jié)果集標(biāo)簽的數(shù)目,N為系統(tǒng)標(biāo)簽集數(shù)目,TP為結(jié)果集標(biāo)簽與系統(tǒng)標(biāo)簽集重合數(shù)目,F(xiàn)P為兩標(biāo)簽集不重合數(shù)目。

        根據(jù)用戶已有評(píng)論數(shù)量劃分間隔不同的評(píng)論數(shù)據(jù)段,統(tǒng)計(jì)評(píng)論數(shù)量在一定間隔內(nèi)的用戶個(gè)數(shù),評(píng)論標(biāo)簽覆蓋率、準(zhǔn)確率之和除以這一間隔評(píng)論數(shù)量段中的用戶個(gè)數(shù),得到覆蓋率和準(zhǔn)確率均值,表6為各評(píng)論數(shù)據(jù)段覆蓋率準(zhǔn)確率均值。

        表6 覆蓋率準(zhǔn)確率均值

        圖2算法對(duì)比覆蓋率均值

        圖2 、3分別展現(xiàn)了在不同評(píng)論數(shù)據(jù)段,本文算法與三個(gè)對(duì)比算法的覆蓋率、準(zhǔn)確率均值差異。隨著用戶已有評(píng)論數(shù)量增多,本文覆蓋率均值有明顯上升,用戶已有評(píng)論越多,覆蓋率越高。準(zhǔn)確率均值數(shù)值相對(duì)穩(wěn)定,說(shuō)明實(shí)驗(yàn)設(shè)計(jì)的標(biāo)簽提取規(guī)則受用戶已有評(píng)論數(shù)量的影響小,對(duì)購(gòu)買同類商品次數(shù)少的用戶也能提供有效評(píng)論標(biāo)簽。最終得到關(guān)于50名用戶標(biāo)簽識(shí)別算法的覆蓋率和準(zhǔn)確率均值為48.5%和59.5%。

        圖3 算法對(duì)比準(zhǔn)確率均值

        5 結(jié)語(yǔ)

        本文在TextRank模型處理用戶評(píng)論基礎(chǔ)上,分析各個(gè)用戶已有評(píng)論中詞性和句法特征。根據(jù)一定的詞性句法規(guī)則形成的標(biāo)簽生成算法一定程度上體現(xiàn)了用戶之間的語(yǔ)言描述差異,反映出用戶需求與商品特點(diǎn)。但是在用戶個(gè)性化標(biāo)簽的提取算法構(gòu)建上做的還遠(yuǎn)遠(yuǎn)不夠,并且對(duì)研究的用戶選取有一定條件,對(duì)已有評(píng)論數(shù)量越多的用戶所形成的的個(gè)性化標(biāo)簽在用戶的語(yǔ)言特點(diǎn)呈現(xiàn)才能更全面。

        猜你喜歡
        句法用戶
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        疑問詞“怎么”句法功能的演變及其動(dòng)因
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        久久久av波多野一区二区 | 精品系列无码一区二区三区| av网站一区二区三区| 一区二区在线观看日本免费| 亚洲蜜臀av一区二区三区| 精品无码久久久久久久久水蜜桃| 男人女人做爽爽18禁网站| 少妇做爰免费视频了| 久久婷婷五月综合97色一本一本| 成年女人vr免费视频| 人与嘼交av免费| 亚洲av成人在线网站| 精品日韩一区二区三区av| 婷婷久久精品国产色蜜蜜麻豆 | 无码丰满熟妇一区二区| 欧美午夜刺激影院| 国产人妖赵恩静在线视频| 亚洲成av在线免费不卡| 亚洲综合中文日韩字幕| 亚洲精品有码日本久久久| 色综合色狠狠天天综合色| 中文字幕一区二区三区精华液| 久久久精品3d动漫一区二区三区| 国产黄色免费网站| 精品综合久久久久久99| 国产不卡在线播放一区二区三区| 亚洲av久播在线一区二区| 久久精品女人天堂av免费观看| 人妻体体内射精一区二区| 国产在线av一区二区| 国产99r视频精品免费观看| 免费a级毛片无码a∨中文字幕下载| 精品国产污黄网站在线观看| 久久人人爽人人爽人人片亞洲| 呦系列视频一区二区三区| 好大好深好猛好爽视频免费| 日韩毛片在线| 扒开双腿操女人逼的免费视频| 国产AV无码专区亚洲AWWW| 无码中文字幕免费一区二区三区| 久草福利国产精品资源|