亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        酒店在線評(píng)論數(shù)據(jù)的特征挖掘

        2018-11-05 09:13:14秦海菲杜軍平
        智能系統(tǒng)學(xué)報(bào) 2018年6期
        關(guān)鍵詞:特征詞詞頻分詞

        秦海菲,杜軍平

        在網(wǎng)購(gòu)中,在線點(diǎn)評(píng)是買家購(gòu)買決策的重要依據(jù),同時(shí)也是賣家經(jīng)營(yíng)信息反饋的重要環(huán)節(jié)。在線點(diǎn)評(píng)分為數(shù)字評(píng)分和在線評(píng)論。目前,很多學(xué)者專注數(shù)字評(píng)分,因?yàn)閿?shù)字評(píng)分比較直觀,容易理解,但數(shù)字評(píng)分的粒度比較粗、少,且難于細(xì)化,例如同時(shí)被評(píng)為5分的同一家酒店,顧客對(duì)它的感受完全不一樣,有的關(guān)注環(huán)境,有的關(guān)注設(shè)施,有的關(guān)注服務(wù)等。不同的人關(guān)注點(diǎn)不同,興趣點(diǎn)也不同,評(píng)價(jià)也亦不同。從經(jīng)濟(jì)學(xué)和市場(chǎng)理論的角度看,產(chǎn)品和服務(wù)有多維屬性,由于消費(fèi)者的偏好不同,對(duì)功能和服務(wù)的期望也不同,即用戶參考評(píng)論進(jìn)行決策時(shí),會(huì)依其偏好,只關(guān)注或更加關(guān)注某些方面的特征。只考慮數(shù)值評(píng)分無法反映用戶對(duì)產(chǎn)品的全面和精確的評(píng)價(jià)[1]。因?yàn)槟骋活惍a(chǎn)品的數(shù)字評(píng)分不能為客戶帶來過多的信息,但是在線評(píng)論可以表達(dá)顧客的真實(shí)感受,能夠被購(gòu)買者參考和信賴。在線評(píng)論作為顧客在網(wǎng)絡(luò)上發(fā)布的購(gòu)買體驗(yàn),對(duì)其他客戶的購(gòu)買決策起著重要的影響,這些體驗(yàn)也是企業(yè)在市場(chǎng)拓展和產(chǎn)品開發(fā)計(jì)劃時(shí)要考慮的重要信息[2]。因此,在線評(píng)論數(shù)據(jù)也變得越來越重要。

        隨著網(wǎng)絡(luò)的發(fā)展,用戶生成的數(shù)據(jù)越來越多,引起了利益雙方或多方的廣泛興趣,捕獲這些數(shù)據(jù)并把它們轉(zhuǎn)換為企業(yè)的核心洞察力,可為決策、營(yíng)銷、分析等不同目標(biāo)服務(wù)[1-4]。在線評(píng)論數(shù)據(jù)像大數(shù)據(jù)一樣具有體量巨大,增長(zhǎng)速度快,種類繁多,價(jià)值密度低等特點(diǎn)。從在線評(píng)論數(shù)據(jù)中挖掘出顧客真正關(guān)心的酒店特征和對(duì)酒店的真實(shí)感受,可為酒店的分類提供真實(shí)可靠的依據(jù),同時(shí)也為酒店的智能推薦奠定基礎(chǔ)。

        1 相關(guān)工作

        1.1 在線評(píng)論數(shù)據(jù)分析

        在消費(fèi)者的決策過程中,在線評(píng)論已成為非常重要的信息來源[5]。研究表明,如果產(chǎn)品被他人推薦,產(chǎn)品的選擇次數(shù)會(huì)增加兩倍,這種影響取決于推薦來源的類型[6]。消費(fèi)者在準(zhǔn)備購(gòu)買產(chǎn)品或服務(wù)時(shí)越來越多地尋求同行的經(jīng)驗(yàn),超過60%的消費(fèi)者在購(gòu)買前會(huì)咨詢客戶的反饋意見[6]。住宿評(píng)論決定了酒店的在線形象、銷售額和未來收入[5?6]。

        目前,對(duì)在線評(píng)論的研究主要是從情感出發(fā),分析人們對(duì)某一產(chǎn)品的情感色彩和情感傾向,從在線評(píng)論中判斷出人們的喜、怒、哀、樂、批評(píng)、贊揚(yáng)等,從而判斷出這一產(chǎn)品的受歡迎程度。在線評(píng)論挖掘?qū)儆谟^點(diǎn)挖掘,但不同于情感挖掘,情感挖掘只屬于觀點(diǎn)挖掘的一部分。2012年劉冰[7]在情感分析和觀點(diǎn)挖掘一文中對(duì)觀點(diǎn)挖掘涉及相關(guān)技術(shù)進(jìn)行了總結(jié);2015年Ravi,Guellil等[8?9]充分闡述了觀點(diǎn)挖掘;2016 年 Rana[10]對(duì)觀點(diǎn)挖掘中的方面提取技術(shù)進(jìn)行了綜述;2017年Sun等[11]和李建華等[12]對(duì)觀點(diǎn)挖掘上進(jìn)行進(jìn)一步的總結(jié)和挖掘;2018年韓忠明等[13]對(duì)網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法作了綜述研究。酒店是在線評(píng)論的重要內(nèi)容,且酒店在線評(píng)論數(shù)據(jù)的獲取是很方便的,可以從貓途鷹、攜程、美團(tuán)、大眾點(diǎn)評(píng)、驢媽媽、微博、微信等網(wǎng)站上獲取,但從目前的研究看,有影響的研究成果還比較少。

        1.2 短文本分析

        在線評(píng)論數(shù)據(jù)屬于短文本研究。每個(gè)人每天都在應(yīng)用短文本(短信、微博、微信、評(píng)論、Tweets、facebook等),短文本與普通文本有很大區(qū)別。短文本是包含有限的上下文,大多數(shù)短文本搜索查詢少于5個(gè)單詞,Tweets是不超過140個(gè)字符短文本[14]。幾乎所有的短文本都在200字以內(nèi),在線點(diǎn)評(píng)數(shù)據(jù)也不例外。短文本通常不遵循語法,自然語言處理技術(shù)(如詞性標(biāo)注和句法解析等)難于直接應(yīng)用于短文本分析[15]。短文本具有稀疏性強(qiáng)、價(jià)值密度低,實(shí)時(shí)性強(qiáng)、變化大、嘈聲大、規(guī)則性弱等特點(diǎn)。因此,對(duì)短文本的分析比一般的文本分析要難。目前短文本研究多數(shù)都集中在社交網(wǎng)絡(luò),酒店在線評(píng)論的研究屬于社交網(wǎng)絡(luò)研究中的一部分。

        2 酒店在線評(píng)論數(shù)據(jù)的特征挖掘

        在線評(píng)論特征的挖掘包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、詞性分析、特征抽取、特征詞確定等環(huán)節(jié)。具體流程如圖1所示。

        圖1 基于酒店在線評(píng)論數(shù)據(jù)的特征挖掘Fig. 1 Feature mining based on hotel online review data

        2.1 數(shù)據(jù)獲取

        在線點(diǎn)評(píng)數(shù)據(jù)包括數(shù)字、文本、圖片等,本文應(yīng)用主題爬蟲在貓途鷹網(wǎng)(tripadvisor)和攜程網(wǎng)(ctrip)上爬取相關(guān)數(shù)據(jù),去除與主題無關(guān)的各種噪音數(shù)據(jù)(如導(dǎo)航條、廣告信息、版權(quán)信息和其他圖片、圖像、聲音等),對(duì)獲取到的數(shù)據(jù)進(jìn)行預(yù)處理(主要是去除無關(guān)和重復(fù)的數(shù)據(jù))和清洗。

        2.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗是保證數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié),在線評(píng)論數(shù)據(jù)的清洗工作主要包括數(shù)據(jù)預(yù)處理(去特殊標(biāo)記、標(biāo)點(diǎn)等)、分詞、去停用詞、去低頻詞、去高頻非特征詞,具體步驟如圖2所示。

        圖2 數(shù)據(jù)清洗的過程Fig. 2 Process of data clean

        文本數(shù)據(jù)預(yù)處理:完成多余字符刪除和多余數(shù)據(jù)清除。

        分詞:采用中科院分詞和結(jié)巴分詞相結(jié)合的方式,分詞后的數(shù)據(jù)為分詞集1。

        去停用詞:在分詞集1中很多詞沒有實(shí)際意義,僅僅代表一種結(jié)構(gòu),比如介詞、嘆詞、連詞等,把這部分詞集合在一起形成停用詞表。在數(shù)據(jù)清洗中需要將停用詞剔除,以降低特征向量維度,去除停用詞后的詞集為分詞集2。

        詞頻統(tǒng)計(jì):詞頻(term frequency,TF)是指詞或短語在給定文檔中出現(xiàn)的總次數(shù),通常認(rèn)為詞頻越高,其在文檔中的重要度越高,成為關(guān)鍵詞的可能性越大[16]。在酒店評(píng)論數(shù)據(jù)中,指在評(píng)論中某個(gè)詞出現(xiàn)的次數(shù)。

        詞頻排序:對(duì)分詞結(jié)果的詞頻進(jìn)行降序排列,排序結(jié)果為分詞集3。

        去低頻詞:對(duì)低頻詞進(jìn)行剔除處理,去除低頻詞后的詞集是分詞集4。

        去高頻非特征詞:在線評(píng)論數(shù)據(jù)中,特征不明顯的高頻詞會(huì)削弱特征詞的特性,去除高頻非特征詞的詞集是分詞集5。

        2.3 特征詞的抽取

        從在線評(píng)論中提取反映評(píng)論主題的特征詞(Keyphrases,包括單詞或詞組),提取的特征詞需要滿足可讀性相關(guān)性重要性覆蓋度一致性[16]。目前比常用的特征提取方法有TF-IDF、詞頻、文檔頻率、逆文檔頻率等。單獨(dú)使用上述方法不能達(dá)到特征詞選取的良好效果。

        1)詞性分析

        眾多文獻(xiàn)提出特征詞通常是名詞短語[16,20],因此需要對(duì)詞性進(jìn)行分析。

        2)特征詞指標(biāo)

        ① 詞頻(TF):詞W在評(píng)論中出現(xiàn)的次數(shù)。頻數(shù)(TF)越高,評(píng)論的次數(shù)越多,關(guān)注人群越多,關(guān)注程度也就越大。某詞W的詞頻NW(即詞W出現(xiàn)的次數(shù))為出現(xiàn)的第i次。

        ②詞頻率(TF1):詞W在所有詞中的比重。為了與詞頻數(shù)區(qū)分開,采用TF1表示。

        處理后某一詞W的詞頻率如式(2)所示:

        ③詞評(píng)權(quán)重(TTW):詞W在評(píng)論中的比重。

        某詞W在一條評(píng)論中被多次提到和被多人提到,意義是不一樣的,為了更好區(qū)分兩者關(guān)系,采用詞評(píng)權(quán)重(TTW)。假設(shè)每一條評(píng)論代表了一個(gè)點(diǎn)評(píng)人,如果一個(gè)詞被多個(gè)人評(píng)論,那么代表這個(gè)詞被多人關(guān)注,這樣的詞可以是特征詞。詞評(píng)權(quán)重既考慮了詞頻數(shù),也考慮了評(píng)論人數(shù)。TFW是詞W在評(píng)論中出現(xiàn)的次數(shù),NW是含詞W的{評(píng)∑論條數(shù)(假設(shè)}一條評(píng)論代表一個(gè)人),,詞W的詞權(quán)重計(jì)算如式(3)所示:

        ④ 評(píng)論頻率(DF):評(píng)論頻率也稱文檔頻率,指某條評(píng)論在總評(píng)論中的比重。

        DF=包含該詞的評(píng)論條數(shù)/總評(píng)論數(shù),N是總評(píng)論數(shù),評(píng)論頻率計(jì)算如式如(4)所示:

        ⑤ 逆文檔頻率(IDF):衡量詞或詞組所在的文檔在整個(gè)語料庫(kù)中的頻率。

        逆文檔頻率越大表明該詞越重要,它是一個(gè)詞語普遍重要性的度量[16]。IDF的思想是:如果包含詞條W的評(píng)論越少,也就是,NW越小,IDF越大,則說明詞條W具有很好的類別區(qū)分能力。特定詞語W的IDF,可以由總評(píng)論數(shù)除以包含該詞語的評(píng)論,再取對(duì)數(shù)得到。計(jì)算公式如式(5)所示:

        ⑥ 特征權(quán)重值(TF-IDF):詞頻?逆文檔頻率(TF-IDF)是結(jié)合詞頻和逆文檔頻率來衡量候選關(guān)鍵詞的重要度量。

        詞頻?逆文檔頻率(TF-IDF)被認(rèn)為是所有特征中最有效、最常用的特征之一[16]。如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF1高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF的計(jì)算如式(6)所示:

        TF-IDF值與該詞的出現(xiàn)頻率成正比,與在整個(gè)評(píng)論中出現(xiàn)的次數(shù)成反比。

        3)特征詞的篩選

        特征詞的篩選是特征詞選取和降低特征詞維度最有效的方法。分析各特征詞指標(biāo)的關(guān)系是特征詞選取中重要的環(huán)節(jié),但各個(gè)指標(biāo)之間存在有很強(qiáng)的相關(guān)性,并且量綱差異較大。為了消除各指標(biāo)量綱的影響和指標(biāo)之間的相關(guān)性,采用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z標(biāo)準(zhǔn)化)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。計(jì)算公式如式(7)所示:

        聚類分析是研究樣品和指標(biāo)分類問題的一種多元統(tǒng)計(jì)方法[17?19]。在實(shí)際應(yīng)用中一般有兩種處理方式,一種是根據(jù)分類問題本身的專業(yè)知識(shí)結(jié)合實(shí)際需要來選擇分類方法,并確定分類個(gè)數(shù);另一種是多用幾種分類方法,把結(jié)果中共性取出來,如果用幾種方法的某些結(jié)果都一樣,則說明這樣的聚類確實(shí)反映事物的本質(zhì)[19]。采用專業(yè)知識(shí)與多種聚類算法結(jié)合的方式對(duì)特征進(jìn)行篩選,以確定特征詞。

        算法1 在線評(píng)論數(shù)據(jù)的特征挖掘聚類算法

        ②計(jì)算各類之間的距離(類平均法、ward法、最大距離法、相似分析法),得到觀測(cè)值矩陣;

        ③合并類間距離最小的兩類為一新類。并重新計(jì)算新類與各類之間的距離,更新矩陣表,類的總個(gè)數(shù)依次遞減,直到為1;

        ④畫聚類樹圖;

        ⑤根據(jù)聚類圖和專業(yè)知識(shí)決定分類的個(gè)數(shù)和成員;

        4)特征詞提取方法評(píng)價(jià)

        本文認(rèn)為特征詞能代表評(píng)價(jià)主題,Nc為代表評(píng)價(jià)主題的特征詞數(shù),NA為選擇的特征詞數(shù),準(zhǔn)確率P如式(9)所示:

        有學(xué)者研究提出召回率不適合評(píng)論數(shù)據(jù)的評(píng)價(jià)指標(biāo),因此本文借助別人提出的GMM指標(biāo),Nc為能代表評(píng)價(jià)主題的特征詞數(shù),NA為所選擇的特征詞數(shù),準(zhǔn)確率GMM如式(10)所示:

        2.4 特征詞的驗(yàn)證

        采用數(shù)據(jù)集2對(duì)所選特征詞進(jìn)行校驗(yàn)。

        3 實(shí)驗(yàn)及結(jié)果分析

        本文采用主題爬蟲對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行抓取。獲取全國(guó)高端酒店(四、五星級(jí)酒店)的在線點(diǎn)評(píng)數(shù)據(jù),并對(duì)在線點(diǎn)評(píng)數(shù)據(jù)進(jìn)行處理,把全國(guó)高端酒店(四、五星級(jí)酒店)按數(shù)字評(píng)分進(jìn)行排序,取出數(shù)字評(píng)分排在前20名的酒店數(shù)據(jù)為數(shù)據(jù)集1和數(shù)字評(píng)分排在后20名的酒店數(shù)據(jù)為數(shù)據(jù)集2。應(yīng)用數(shù)據(jù)集1進(jìn)行建模分析。在建模過程中,對(duì)數(shù)據(jù)進(jìn)行清洗,再對(duì)數(shù)據(jù)進(jìn)行特征抽取、特征篩選和特征選取,應(yīng)用數(shù)據(jù)集2對(duì)特征詞進(jìn)行校驗(yàn)。

        根據(jù)實(shí)驗(yàn)需求,從網(wǎng)絡(luò)上爬取的50余萬條數(shù)據(jù)中篩選出前20名的酒店174 449條評(píng)論數(shù)據(jù)(數(shù)據(jù)集1)和后20名的酒店104 898條數(shù)據(jù)(數(shù)據(jù)集2)進(jìn)行分析,采用中科院分詞系統(tǒng)和結(jié)巴分詞相結(jié)合的方法分別對(duì)數(shù)據(jù)集1和數(shù)據(jù)集2進(jìn)行分詞,去停用詞后分別得到4 049 078個(gè)詞條和1 857 523個(gè)詞條,并分別對(duì)詞條進(jìn)行分析。由于詞條數(shù)太多,再次對(duì)詞條的低頻詞和高頻非特征詞進(jìn)行處理,為了降低詞條維度和分析的難度,采用降維、抽樣的方法對(duì)詞條進(jìn)行分析。抽取了頻數(shù)排在前100的詞條進(jìn)行詞云分析,詞云圖如圖3所示。

        圖3 詞云圖Fig. 3 Word cloud

        3.1 特征詞抽取與篩選

        近年來,有許多學(xué)者對(duì)特征詞的提取方法進(jìn)行研究。特征詞提取方法可以歸納為監(jiān)督型和非監(jiān)督型兩類[20]。監(jiān)督型可以用多種方法訓(xùn)練模型,并實(shí)時(shí)調(diào)整參數(shù);非監(jiān)督型特征詞抽取主要有基于統(tǒng)計(jì)、基于詞性規(guī)則、基于主題模型、基于詞排列圖的方法。本文將利用統(tǒng)計(jì)、詞性和主題模型的方法對(duì)特征詞抽取進(jìn)行分析。

        3.1.1 詞性分析

        從圖3可以看出詞條多且復(fù)雜,如果把所有的詞都作為候選特征詞,那么特征向量的維數(shù)將非常大,難于進(jìn)行計(jì)算和分類。在詞云圖中很多詞要與其他詞組合在一起才具有實(shí)際意義。比如:“服務(wù)好”、“服務(wù)不錯(cuò)”、“服務(wù)不好”、“服務(wù)很差”、“環(huán)境好”、“環(huán)境不錯(cuò)”、“環(huán)境很好”、“環(huán)境很差”、“好”、“不錯(cuò)”、“差”等詞是對(duì)某一主題的評(píng)價(jià)。根據(jù)酒店在線評(píng)論數(shù)據(jù)的分詞結(jié)果,對(duì)詞性的分析如表1所示。

        表 1 詞性分析Table 1 Part of speech analysis

        從表1可以看出,在所有詞語中名詞、形容詞、動(dòng)詞、副詞在所有詞中占到了2/3,名詞的占比是最高的,占到了25.10%,其次是動(dòng)詞占20.99%(包含動(dòng)名詞占總詞數(shù)的2.5%,后面分析時(shí)把這部分詞歸屬名詞處理)。對(duì)詞性進(jìn)行分析,分析結(jié)果如圖4所示。

        圖4 詞性詞云圖Fig. 4 Part of speech word cloud

        根據(jù)圖4名詞、形容詞、動(dòng)詞、副詞的詞云圖可以看出名詞作為評(píng)價(jià)的主題,作為候選特征詞的確比較顯著。除名詞外,在動(dòng)詞詞云圖中最為明顯的“服務(wù)”一詞也可以作為評(píng)價(jià)的主題。對(duì)這部分詞語的詞性進(jìn)行查看,“服務(wù)”屬于動(dòng)名詞,為了特征提取的方便,把動(dòng)名詞歸屬于名詞的行列。但還有一部分詞語完全是動(dòng)詞,但也表達(dá)名詞的意思,比如“裝修”、“位置”、“出行”等,這一部分是動(dòng)詞名用,對(duì)于這一部分詞需要作為特征詞分析。評(píng)論數(shù)據(jù)屬于短文本數(shù)據(jù),并沒有完全遵從自然語言的語法結(jié)構(gòu),動(dòng)詞名用或名詞動(dòng)用情況很常見。因此,在特征詞的選取上只選取系統(tǒng)所分的名詞是不可取的,必須根據(jù)專業(yè)、行業(yè)、常識(shí)等對(duì)詞性進(jìn)行進(jìn)一步的篩選與確定。根據(jù)詞性的詞頻對(duì)候選特征詞的分析如表2所示。

        表 2 候選特征詞詞性分析Table 2 Part of speech analysis of candidate feature words

        綜合幾種特征詞提取方法,本文先利用無監(jiān)督方法TF(詞頻數(shù))提取候選特征,所提取的20個(gè)特征詞能代表評(píng)價(jià)主題值有4個(gè)。綜合TF和詞性進(jìn)行分析,形容詞、副詞中沒有能代表評(píng)價(jià)主題的候選特征詞;動(dòng)詞中代表評(píng)價(jià)主題的有3個(gè),名詞中16個(gè)。利用TF_IDF提取的候選特征詞代表評(píng)價(jià)主題的有10個(gè)。而綜合無監(jiān)督型的TF、詞性在無監(jiān)督的情況下動(dòng)詞+名詞提取的特征詞效果與TF_IDF的提取效果一樣,而選擇名詞作為特征詞,在監(jiān)督下篩選動(dòng)詞作為補(bǔ)充,所提取的效果要比只提取名詞的效果要好,準(zhǔn)確率和GMM值都達(dá)到了87%,而若名詞+動(dòng)詞的篩選都在監(jiān)督下完成,所得的候選特征詞與評(píng)價(jià)主題的特征詞的準(zhǔn)確率和GMM達(dá)到95%以上。具體結(jié)果如圖5所示。

        圖5 特征詞提取方法對(duì)比Fig. 5 Comparison of feature words extraction methods

        3.2 特征詞指標(biāo)分析

        雖然動(dòng)詞+名詞結(jié)合的特征詞比較適合分析,但候選特征詞的維度比較大,各候選特征詞之間的關(guān)系比較復(fù)雜,是否具備特征詞的特性還需要進(jìn)一步分析,特征詞指標(biāo)分析如表3所示。

        從表3可以看出根據(jù)詞頻數(shù)(TF)、詞頻率(TF1)、詞頻權(quán)重(TTW)、評(píng)論頻率(DF)、逆文檔頻率(IDF)和TF1-IDF這6個(gè)評(píng)價(jià)指標(biāo)選取特征詞時(shí),在各個(gè)指標(biāo)上選取特征詞的結(jié)果都不一樣。TF和DF最高的是“服務(wù)”,TF1最高的是“房間”,TTW最高的是“環(huán)境”,IDF最高的是“裝修”,TF1-IDF最高的是“溫泉”?!皽厝钡腡F1-IDF的值是最高的,但從專業(yè)的角度看,溫泉可能是高端型酒店的一個(gè)特征,但不能作為最重要的評(píng)價(jià)指標(biāo)?!皽厝钡腡F1-IDF值高說明有很多高端客戶在關(guān)注“溫泉”,但用“溫泉”作為酒店評(píng)論數(shù)據(jù)的特征詞是沒有代表性的。從單一的指標(biāo)中選取出的特征詞不能完全滿足特征詞選擇的可讀性、相關(guān)性、重要性、覆蓋度、一致性的要求,但各個(gè)指標(biāo)對(duì)候選特征詞又都有影響。因此,考慮對(duì)象酒店在線評(píng)論數(shù)據(jù)的實(shí)際情況,綜合應(yīng)用TF、TF1、TTW、DF、IDF和TF1-IDF這6個(gè)指標(biāo)對(duì)候選特征詞進(jìn)行分析。從表3可以看出各個(gè)候選特征詞在各個(gè)評(píng)價(jià)指標(biāo)上的量綱是不同的,并且差距很大,TF、TF1、TTW、DF、IDF和 TF1-IDF各指標(biāo)之間存在著很強(qiáng)的相關(guān)性。綜合19個(gè)候選特征詞的6個(gè)評(píng)價(jià)指標(biāo)的實(shí)際情況看,降低特征詞的維度是選取特征詞最實(shí)用的方法。

        表 3 指標(biāo)分析Table 3 Index analysis

        綜合圖6候選特征詞的4個(gè)聚類樹圖根據(jù)聚類結(jié)果和酒店的專業(yè)知識(shí),聚類為5類比較合理,把酒店在線評(píng)論候選詞歸并為5類,并對(duì)5類特征進(jìn)行綜合分析,綜合19個(gè)候選特征詞的聚類結(jié)果如表4所示。

        圖6 數(shù)據(jù)集1候選特征詞聚類Fig. 6 Dataset1 Candidate feature words cluster

        表 4 候選特征詞歸類表Table 4 Candidate feature word classification

        通過表4可以看出特征詞“服務(wù)”包含了“服務(wù)”、“服務(wù)員”、“服務(wù)態(tài)度”、“前臺(tái)”等服務(wù)信息;特征詞“設(shè)施”包含了“房間”、“設(shè)施”等硬件設(shè)施信息;特征詞“環(huán)境”包含了“位置”、“環(huán)境”、“交通”、“地理位置”等信息;特征詞“餐飲”包含了“早餐”、“水果”、“味道”等餐飲信息;整體舒適度包含了“大堂”、“性價(jià)比”、“價(jià)格”、“衛(wèi)生”、“裝修”、“溫泉”等整體舒適度信息。這5個(gè)特征詞能滿足特征詞選取的可讀性、相關(guān)性、重要性、覆蓋度、一致性的準(zhǔn)則,因此可以作為酒店在線評(píng)論數(shù)據(jù)的特征詞。

        3.3 特征詞的校驗(yàn)和選定

        3.3.1 方法的驗(yàn)證

        采用同樣的方法,用數(shù)據(jù)集2(數(shù)字評(píng)分排在后20家的酒店數(shù)據(jù))的詞條進(jìn)行了詞性分析,處理后得到了24個(gè)候選特征詞,計(jì)算出24個(gè)候選特征詞的 6個(gè)指標(biāo) (TF、TF1、TTW、DF、IDF和TF1-IDF)的值,并對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后,采用6個(gè)指標(biāo)對(duì)候選特征詞進(jìn)行聚類,所得的聚類結(jié)果如圖7所示(為了圖形清晰,本文只選取了TF最高的數(shù)據(jù)進(jìn)行展示)。

        綜合圖7候選特征詞的4個(gè)聚類樹圖,根據(jù)聚類結(jié)果,可以看出聚類為5類比較合理,根據(jù)酒店的專業(yè)知識(shí),把酒店在線評(píng)論候選詞歸并為5類,結(jié)果如表5所示。

        圖7 數(shù)據(jù)集2候選特征詞聚類Fig. 7 Dataset2 Candidate feature words cluster

        從表5中可以看出,部分被歸并的候選特征詞有了更細(xì)化、更相近或概括的變化,例如設(shè)施中增加了“床”、“房”、“空調(diào)”等細(xì)化詞;環(huán)境中增加了“地段”、“出行”、“周邊”、“附近”等相近詞;整體舒適度增加了“總體”、“整體”概括詞。綜合酒店在線評(píng)論的兩個(gè)數(shù)據(jù)集和網(wǎng)絡(luò)在線點(diǎn)評(píng)數(shù)據(jù)的特性,可以看出把服務(wù)、設(shè)施、環(huán)境、餐飲和整體舒適度作為酒店在線評(píng)論數(shù)據(jù)的特征詞是合理的。

        表 5 后20名酒店特征詞歸類表Table 5 The last 20 Hotel feature word

        綜合6個(gè)評(píng)價(jià)指標(biāo)聚類圖,對(duì)于評(píng)論數(shù)據(jù),TF分析的結(jié)果要比TF_IDF的效果好,選取以TF為主,TF1、TTW、DF、IDF、TF1_IDF為輔的指標(biāo)聚類時(shí),選取TF排在前10的候選特征詞聚類和選取更多的候選特征詞聚類結(jié)果類似,后面的候選特征詞只是對(duì)前面結(jié)果的補(bǔ)充或細(xì)化。

        4 結(jié)束語

        本文從酒店在線點(diǎn)評(píng)數(shù)據(jù)出發(fā),對(duì)數(shù)據(jù)的感知獲取、數(shù)據(jù)預(yù)處理、詞性分析、特征選取、特征篩選、特征確定等進(jìn)行了研究。對(duì)特征詞的篩選和確定進(jìn)行了分析。單個(gè)指標(biāo)(TF或者TF1-IDF)對(duì)特征詞的篩選和選擇效果不理想,需要綜合 TF、TF1、TTW、DF、IDF、TF1-IDF 多個(gè)指標(biāo)進(jìn)行分析。采用了無監(jiān)督的聚類方法對(duì)變量進(jìn)行聚類分析,聚類時(shí)采用數(shù)據(jù)標(biāo)準(zhǔn)化消除指標(biāo)相關(guān)性和量綱的影響。綜合聚類分析的結(jié)果和酒店專業(yè)知識(shí)選定酒店在線評(píng)論數(shù)據(jù)的特征詞,通過將20家酒店作為數(shù)據(jù)集2對(duì)特征詞進(jìn)行校驗(yàn),得出酒店在線評(píng)論的特征詞是服務(wù)、環(huán)境、設(shè)施、整體舒適度、餐飲。下一步將根據(jù)特征詞構(gòu)造更方便、快捷、可靠的分類器,為酒店和客戶進(jìn)一步細(xì)分做好準(zhǔn)備,同時(shí)也為酒店為客戶提供的個(gè)性化的智能推薦服務(wù)奠定基礎(chǔ)。

        猜你喜歡
        特征詞詞頻分詞
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        結(jié)巴分詞在詞云中的應(yīng)用
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        值得重視的分詞的特殊用法
        詞頻,一部隱秘的歷史
        面向文本分類的特征詞選取方法研究與改進(jìn)
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        人人妻人人爽人人澡人人| 无码 制服 丝袜 国产 另类| 麻豆国产人妻欲求不满| 欧美人与物videos另类xxxxx| 亚洲国产成人精品福利在线观看| 丰满人妻无套中出中文字幕| yw193.can尤物国产在线网页| 91久久精品一区二区喷水喷白浆| 久久亚洲综合亚洲综合| 亚洲熟女乱一区二区三区| 日韩女优av一区二区| 熟妇人妻无乱码中文字幕真矢织江| 老师露出两个奶球让我吃奶头| 亚洲综合久久精品无码色欲| 亚洲第一看片| 无码中文字幕专区一二三| 国产成年女人特黄特色毛片免| 国内自拍速发福利免费在线观看| 大陆国产乱人伦| 久久久www成人免费精品| 国产内射在线激情一区| 波多野结衣国产一区二区三区| 蜜桃一区二区免费视频观看| 男女av免费视频网站| 国产av久久久久精东av| 女人色毛片女人色毛片18| 久久久久亚洲AV无码专| 黄色中文字幕视频网站| 日韩午夜免费视频精品一区| 99久久婷婷国产综合精品青草免费| 美女裸体自慰在线观看| 国产精品视频免费一区二区三区| 激情五月天色婷婷久久| 久久综合九色综合久99| 久久99国产亚洲高清观看韩国| 日本人妻伦理片在线观看| 日本精品视频免费观看| a级毛片无码免费真人| 精品一二区| av天堂手机免费在线| 国产精品女同久久久久电影院|