亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于專屬詞庫的網(wǎng)絡(luò)訂餐平臺評論情感分析模型

        2018-01-09 13:05:28陳舒
        軟件導(dǎo)刊 2017年12期
        關(guān)鍵詞:詞庫搜狗訂餐

        陳舒

        摘要:通用型情感分析技術(shù)較為成熟,卻有一定的領(lǐng)域局限性。針對時(shí)下熱門的網(wǎng)絡(luò)訂餐平臺評論進(jìn)行挖掘,引入搜狗細(xì)胞詞庫,修正錯(cuò)別字,并對網(wǎng)絡(luò)術(shù)語和顏文字進(jìn)行轉(zhuǎn)換,在通用HowNet情感詞庫的基礎(chǔ)上,自建網(wǎng)絡(luò)訂餐關(guān)聯(lián)邏輯詞庫,使用TF-IDF加權(quán)算法,最終構(gòu)建出專屬網(wǎng)絡(luò)訂餐情感詞庫,提升了情感評分準(zhǔn)確度,同時(shí)分析出網(wǎng)絡(luò)訂餐的主要屬性,并對此進(jìn)行更深層次的意見挖掘。

        關(guān)鍵詞:

        網(wǎng)絡(luò)訂餐;情感分析;專屬詞庫;意見挖掘

        DOIDOI:10.11907/rjdk.172637

        中圖分類號:TP301

        文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)012-0033-03

        Abstract:The universal sentiment analysis technology is more mature, but there are certain limitations of the field, this paper reviews the popular nowadays network ordering platform for mining, the introduction of Sogou cell thesaurus, correcting typos, and the network terminology and color text conversion, based on the general emotion lexicon HowNet, self built network ordering logic Association Thesaurus the use of Term frequency–inverse document frequency(TF-IDF)weighted algorithm, and finally construct the exclusive network ordering emotion lexicon, enhance the emotion score accuracy, at the same time analysis of the main attributes of the network order, and make deeper digging opinions.

        Key Words:network ordering; sentiment analysis; thesaurus; opinion mining

        0 引言

        隨著都市生活節(jié)奏的加速和無現(xiàn)金交易的普及,產(chǎn)生了曾紅極一時(shí)的團(tuán)購網(wǎng)站,還有如今的網(wǎng)絡(luò)訂餐平臺,人們的餐飲習(xí)慣也被潛移默化地改變著,從最初的自己做飯,到堂食,再到如今的外賣。最新數(shù)據(jù)顯示,僅2017年第二季度,我國外賣餐飲交易量就高達(dá)459.5億元。訂餐平臺可為客戶提供對商家滿意度的在線評分和在線評論功能。評分的高低可以給予潛在客戶一定參考,但是并不能讓這些客戶以及商家本身明確了解其優(yōu)勢和不足。另外,大部分外賣依托第三方有償送餐平臺,如達(dá)達(dá)、蜂鳥等,送餐員服務(wù)良莠不齊,如果不能及時(shí)發(fā)現(xiàn)問題,勢必會(huì)給商家造成重大損失。餐飲作為第三產(chǎn)業(yè),服務(wù)是其中的重要因素,而在線評論能有效體現(xiàn)出服務(wù)質(zhì)量。依靠傳統(tǒng)的客服專員逐條審閱,已無法應(yīng)對海量訂單,而日益成熟的情感分析技術(shù)[1],能夠很好地挖掘評論中的有效信息,幫助客戶和商家共建更好的網(wǎng)絡(luò)訂餐市場。然而,目前并沒有網(wǎng)絡(luò)訂餐專用的詞庫,僅依靠通用情感詞庫和飲食類詞庫進(jìn)行分析[2],結(jié)果不夠理想,需要構(gòu)建專屬情感詞庫。

        1 數(shù)據(jù)特征分析

        通過網(wǎng)絡(luò)蜘蛛對餓了么(www.ele.me)、美團(tuán)外賣(waimai.meituan.com)兩個(gè)最熱門的外賣美食網(wǎng)站的評論進(jìn)行抓取分析,評論主要針對以下7個(gè)方面,這7個(gè)屬性的積極或消極,對最后的情感值計(jì)算起到關(guān)鍵作用:①配送方面:配送快/慢,態(tài)度好/差,包裝完整/不完整;②菜品本身:口味合適/不合適,分量足/不足,新鮮/不新鮮,衛(wèi)生/不衛(wèi)生。同時(shí),這7個(gè)屬性對商家而言也是最有價(jià)值的,所以需要進(jìn)行更深層的意見挖掘。此外,評論呈現(xiàn)以下幾個(gè)特點(diǎn):

        (1)文本較短,錯(cuò)別字頻繁。個(gè)別網(wǎng)站開設(shè)評論激勵(lì)機(jī)制[3],但大部分會(huì)選擇外賣的人,并不愿意多花精力去認(rèn)真評論。

        (2)偏愛網(wǎng)絡(luò)術(shù)語和顏文字。熱衷外賣美食的人群,日常多與互聯(lián)網(wǎng)密不可分,語言習(xí)慣勢必受到一定影響,尤其在表達(dá)強(qiáng)烈情感時(shí),更喜歡頻繁使用網(wǎng)絡(luò)術(shù)語和顏文字,例如:表達(dá)消極情感的“我勒個(gè)去”、“( ̄へ ̄)”,表達(dá)積極情感的“種草”、“(*^▽^*)”等,而這些十分重要的信號,并沒有體現(xiàn)在情感詞庫中。

        (3)通用情感詞庫不適用。一些詞語如“頭發(fā)”、“蟑螂”等食品中的常見異物,本身在通用情感詞庫中沒有情感傾向,但在評論中出現(xiàn),則間接表達(dá)了極大的消極情感,在邏輯上和網(wǎng)絡(luò)訂餐評論有著強(qiáng)關(guān)聯(lián),而其它一些不出現(xiàn)或很少出現(xiàn)在網(wǎng)絡(luò)訂餐領(lǐng)域的詞匯,則變成了噪聲。

        統(tǒng)計(jì)數(shù)據(jù)顯示,網(wǎng)絡(luò)訂餐的主力為80和90后,而80和90后中超過75%的人群使用搜狗輸入法,所以考慮將搜狗細(xì)胞詞庫引入本文模型。

        2 專屬情感詞庫構(gòu)建

        本文基于統(tǒng)計(jì)學(xué)原理,利用TF-IDF(Term Frequency–Inverse Document Frequency)加權(quán)算法構(gòu)建專屬情感詞庫的流程如圖1所示。

        TF-IDF算法的主要思想是:如果某個(gè)詞在一類文本中出現(xiàn)頻率較高,但在其它類型文本中不出現(xiàn)或很少出現(xiàn),則認(rèn)為此詞具有良好的分類能力[4]。

        (1)考慮到個(gè)人對顏文字和網(wǎng)絡(luò)術(shù)語的不同偏愛,這些新詞出現(xiàn)的頻率成分散狀,為了避免因詞匯低頻出現(xiàn)錯(cuò)誤的過濾,首先利用搜狗細(xì)胞詞庫中的“顏文字”(詞條共600個(gè))和“網(wǎng)絡(luò)術(shù)語”(詞條共489個(gè))對原評論進(jìn)行轉(zhuǎn)換,例如圖2所示的這些顏文字均轉(zhuǎn)為“高興”一詞,并且為了加強(qiáng)情感,轉(zhuǎn)換后的詞重復(fù)出現(xiàn)一次,即圖2顏文字最終轉(zhuǎn)為“高興高興”出現(xiàn)在原評論,以此實(shí)現(xiàn)最簡單的加權(quán)。

        (2)Hownet通用情感詞庫中,添加搜狗細(xì)胞詞庫中的“飲食大全”詞庫(詞條共6 918個(gè))。

        (3)添加搜狗細(xì)胞詞庫中的“常見錯(cuò)別詞和短語”詞庫(詞條共466個(gè)),對評論中的錯(cuò)別字進(jìn)行修正。

        (4)使用TF-IDF算法進(jìn)行自動(dòng)分類,區(qū)分通用情感詞和專屬情感詞,并對專屬情感詞庫多進(jìn)行一輪手工篩選。

        (5)建立網(wǎng)絡(luò)訂餐邏輯關(guān)聯(lián)詞庫,并添加至專屬情感庫中。

        3 邏輯關(guān)聯(lián)詞庫構(gòu)建

        參考曾淑琴、吳揚(yáng)揚(yáng)[5]“基于Hownet的詞語相關(guān)度計(jì)算模型”文章中的算法,在Hownet的基礎(chǔ)上,對外賣評論中的同義詞和邏輯關(guān)聯(lián)詞進(jìn)行擴(kuò)展,其中,與前文提出的重要屬性相關(guān)的詞,舉例如下:①配送快:飛快、神速、熱乎、燙;②配送慢:龜速、催促、坨了、冷冰冰;③分量足:好撐、吃不完;④包裝不完整:漏、摔爛、到處都是。

        衛(wèi)生與否的屬性除了依靠同義詞判斷外,很大程度取決于是否吃出異物。因此利用網(wǎng)絡(luò)蜘蛛[6-7]腳本對評論中關(guān)鍵詞“吃出”后緊隨的詞語進(jìn)行抓取,并人工篩除,得出常見的異物名詞如下:頭發(fā)、蟲子、蒼蠅、鐵絲、指甲、老鼠屎、避孕套等。

        4 重要屬性意見挖掘

        將與上文7個(gè)重要屬性相關(guān)的同義詞和邏輯關(guān)聯(lián)詞均替換為相對應(yīng)的屬性情況,例如,出現(xiàn)上文中提出的“異物”名詞,則直接替換為“不衛(wèi)生”。

        統(tǒng)計(jì)這些關(guān)鍵詞出現(xiàn)的次數(shù),可反映廣大用戶的真實(shí)導(dǎo)向,呈現(xiàn)給商家即可,例如,本地某連鎖飲食店的統(tǒng)計(jì)數(shù)據(jù)是:配送快(167)/慢(18),態(tài)度好(194)/差(0),包裝完整(27)/不完整(16),口味合適(82)/不合適(2),分量足(55)/不足(7),新鮮(76)/不新鮮(9),衛(wèi)生(58)/不衛(wèi)生(1)。

        5 評論情感值計(jì)算

        除7個(gè)重要屬性外,評論中還包含了不少外賣專屬情感詞,如果按照積極情感詞出現(xiàn)+1和消極詞-1進(jìn)行統(tǒng)計(jì),可以計(jì)算出近似的情感值。但是這種不考慮句式的計(jì)算是不妥當(dāng)?shù)?,按照中文表達(dá)習(xí)慣,轉(zhuǎn)折句在表述相同內(nèi)容的情感詞時(shí),傳遞出來的情感值更強(qiáng),而總結(jié)句表示對一段文字的歸納,反映了最直接的情感。因此,在情感值計(jì)算中,這兩種句式都應(yīng)該賦予更大權(quán)重[8-10]。

        常見的句式主要有兩種:轉(zhuǎn)折和總結(jié)。代表性關(guān)鍵詞如表1所示。

        7 不足與展望

        然而,本文設(shè)計(jì)依舊存在一些不能被順利分類的情況:

        (1)評論中存在方言,表達(dá)強(qiáng)烈情感的詞則無法被挖掘出來。

        (2)形如:“真!他!媽!難!吃!”或者“好吃到飛”這樣的句式,在分詞分句過程中存在一些問題,也不能繼續(xù)進(jìn)行正確的情感分類。

        此外,在對重要屬性的意見挖掘中,雖然可以統(tǒng)計(jì)出頻繁出現(xiàn)的菜品名稱,但無法較好地關(guān)聯(lián)到是否為針對某道菜品的評論,這些將在接下來的研究中繼續(xù)細(xì)化。

        參考文獻(xiàn):

        [1] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2011,31(12):3321-3323.

        [2] 葉強(qiáng),張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動(dòng)判別方法研究[J].信息系統(tǒng)學(xué)報(bào),2007(1):79-91.

        [3] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(1):227-231.

        [4] 申劍博.改進(jìn)的TF-IDF中文本特征詞加權(quán)算法研究[J].軟件導(dǎo)刊,2015(4):67-69.

        [5] 曾淑琴,吳揚(yáng)揚(yáng).基于HowNet的詞語相關(guān)度計(jì)算模型[J].微型機(jī)與應(yīng)用,2012,31(8):77-80.

        [6] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué),2009,36(8):26-29.

        [7] 楊定中,趙剛,王泰.網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(24):5658-5662.

        [8] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

        [9] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2008, 28(11):2725-2728.

        [10] 李方濤.基于產(chǎn)品評論的情感分析研究[D].北京:清華大學(xué),2011.

        (責(zé)任編輯:黃 健)

        猜你喜歡
        詞庫搜狗訂餐
        騰訊擬147億元全資收購搜狗
        動(dòng)車訂餐
        支點(diǎn)(2017年8期)2017-08-22 17:36:39
        搜狗三季度營收同比增長
        CHIP新電腦(2016年11期)2016-12-03 14:26:58
        詞庫音系學(xué)的幾個(gè)理論問題芻議
        英語知識(2016年1期)2016-11-11 07:07:54
        環(huán)境變了,詞庫別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        搜狗分號工具箱 輸入更便捷
        QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
        電腦迷(2012年15期)2012-04-29 17:09:47
        終于來WM了.搜狗手機(jī)輸入法
        將用戶詞庫快速導(dǎo)入搜狗五筆詞庫
        少妇夜夜春夜夜爽试看视频| 神马不卡一区二区三级| 韩国日本亚洲精品视频 | 小鲜肉自慰网站| 又硬又粗又大一区二区三区视频 | 国产经典免费视频在线观看| 日本高清无卡一区二区三区| 亚洲色图在线免费视频| 精品视频一区二区三区在线观看| 国产成人精品电影在线观看| 免费无遮挡无码视频在线观看| 国产av一区二区凹凸精品| 亚洲一区中文字幕视频| 午夜视频国产在线观看| 在线视频播放观看免费| 不卡一区二区三区国产| 久久久久久久亚洲av无码| 闺蜜张开腿让我爽了一夜| 亚洲小说图区综合在线| 精品中文字幕手机在线 | av黄色在线免费观看| 艳妇臀荡乳欲伦69调教视频| 亚洲成av人片在线观看无码| 中文字幕精品一二三区| 蜜桃精品国产一区二区三区| 日本a级特级黄色免费| 美女网站免费福利视频| 欧美俄罗斯乱妇| 国产精品国产三级国产av主| 午夜影院免费观看小视频| 手机看黄av免费网址| 成av人片一区二区三区久久| 久久亚洲国产精品五月天| 在线视频自拍视频激情| 天堂8在线新版官网| 国产精品igao视频网| 久久精品国产亚洲av大全相关 | 天堂资源中文最新版在线一区| 99精品成人片免费毛片无码| 亚洲精品精品日本日本| 日本免费一区二区精品|