亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)方法的游客評(píng)論數(shù)據(jù)智能分析技術(shù)研究

        2021-06-27 03:25:54馬騫
        電子設(shè)計(jì)工程 2021年12期
        關(guān)鍵詞:分類(lèi)文本情感

        馬騫

        (西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及,電子商務(wù)逐漸被應(yīng)用于貨幣交換、商品買(mǎi)賣(mài)與旅游服務(wù)等多個(gè)領(lǐng)域[1-2]。在這些領(lǐng)域中,由于旅游行業(yè)嚴(yán)重依賴(lài)于資金流動(dòng)、信息傳遞與流通,所以如何利用高效率的信息引導(dǎo)普通的游客,是旅游景點(diǎn)提高經(jīng)濟(jì)效益的重要環(huán)節(jié)[3-7]。而在與互聯(lián)網(wǎng)融合的背景下,通過(guò)借鑒淘寶等商品平臺(tái),攜程網(wǎng)或途牛等旅游服務(wù)平臺(tái)也逐漸引入針對(duì)旅游目的地的游客評(píng)價(jià)等功能,從而優(yōu)化其相應(yīng)旅游目的地的服務(wù)產(chǎn)品。然而,隨著游客數(shù)量的快速增加,對(duì)于評(píng)論數(shù)據(jù)的情感分析也逐漸成為旅游服務(wù)平臺(tái)亟待解決的技術(shù)問(wèn)題[8]。目前,國(guó)內(nèi)外的學(xué)者提出一些經(jīng)典的解決方法,例如:Bo Yang 等學(xué)者通過(guò)引入機(jī)器學(xué)習(xí)方法,對(duì)互聯(lián)網(wǎng)上的觀眾影評(píng)進(jìn)行了準(zhǔn)確度較高的情感分析[9];Sanjiv Das 等學(xué)者針對(duì)投資者對(duì)股票走勢(shì)的評(píng)價(jià),建立了情感分析的計(jì)算模型[10]。然而,這些研究所提出的分析模型依然存在準(zhǔn)確度較低的問(wèn)題,難以應(yīng)用到大規(guī)模的旅游服務(wù)平臺(tái)中。

        為了進(jìn)一步提高游客在旅游服務(wù)平臺(tái)上的分析準(zhǔn)確度,基于支持向量機(jī)等機(jī)器學(xué)習(xí)分類(lèi)算法[11],文中提出了針對(duì)游客評(píng)論數(shù)據(jù)的智能分類(lèi)與分析技術(shù)。使用數(shù)據(jù)的自動(dòng)抓取技術(shù),實(shí)現(xiàn)了旅游服務(wù)平臺(tái)的數(shù)據(jù)獲取與預(yù)處理操作,通過(guò)引入支持向量機(jī)技術(shù),文中提高了分析模型的泛化能力,實(shí)現(xiàn)具有較高準(zhǔn)確度的情感分析技術(shù)。相關(guān)仿真結(jié)果表明,基于機(jī)器學(xué)習(xí)方法的游客評(píng)論數(shù)據(jù)分析技術(shù)優(yōu)于傳統(tǒng)的語(yǔ)義分析方法。

        1 情感分類(lèi)技術(shù)

        在數(shù)學(xué)領(lǐng)域中,情感分類(lèi)是一個(gè)映射過(guò)程。令a表示由多種數(shù)據(jù)組成的待分類(lèi)集合,b表示經(jīng)過(guò)精確分類(lèi)之后的類(lèi)別集合,則情感分類(lèi)f,可用式(1)表達(dá)。

        在當(dāng)前研究中,情感分類(lèi)技術(shù)主要可分為語(yǔ)義分析[12-14]與機(jī)器學(xué)習(xí)[15-16]兩類(lèi),其簡(jiǎn)介如下:

        1)基于語(yǔ)義分析的情感分類(lèi)技術(shù),是通過(guò)對(duì)詞語(yǔ)的語(yǔ)義傾向進(jìn)行分析的情感分類(lèi)方法,該方法需要提取、表示與統(tǒng)計(jì)詞語(yǔ)的語(yǔ)義特征。其分類(lèi)流程如圖1 所示。

        圖1 基于語(yǔ)義分析的情感分類(lèi)流程圖

        2)基于機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)需要使用統(tǒng)計(jì)學(xué),比較當(dāng)前數(shù)據(jù)與已定義的分類(lèi)特征向量的相似程度,從而完成文本數(shù)據(jù)的情感分類(lèi)。其分類(lèi)流程如圖2 所示。

        圖2 基于機(jī)器學(xué)習(xí)的情感分類(lèi)流程圖

        一般而言,基于機(jī)器學(xué)習(xí)的常用情感分類(lèi)技術(shù),主要包括支持向量機(jī)(SVM)、K 近鄰與樸素貝葉斯算法等。在基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)中,由于支持向量機(jī)技術(shù)具有準(zhǔn)確度較高的分類(lèi)效果,故文中選用該技術(shù)對(duì)游客的評(píng)論數(shù)據(jù)進(jìn)行智能分析。

        2 支持向量機(jī)技術(shù)

        2.1 數(shù)據(jù)抓取

        在智能分析技術(shù)中,鑒于用戶(hù)數(shù)量與關(guān)注度均較高,所以文中的訓(xùn)練集與測(cè)試集數(shù)據(jù)均來(lái)自于攜程網(wǎng)的數(shù)據(jù)庫(kù)。為快速獲取大量的數(shù)據(jù),利用Java語(yǔ)言在Eclipes 平臺(tái)上,分別編寫(xiě)了網(wǎng)頁(yè)抓取程序Crawler 與解析數(shù)據(jù)程序Parse。利用抓取程序與用戶(hù)數(shù)據(jù),建立了由旅游景點(diǎn)信息與評(píng)論信息組成的數(shù)據(jù)表。其中,旅游景點(diǎn)信息主要由城市序號(hào)、城市名稱(chēng)、游客人數(shù)、綜合評(píng)分、景點(diǎn)評(píng)分、評(píng)論數(shù)量與評(píng)價(jià)時(shí)間等組成;評(píng)論信息主要由評(píng)論序號(hào)、城市序號(hào)、城市名稱(chēng)、評(píng)論內(nèi)容、游客評(píng)分、評(píng)價(jià)時(shí)間與游客姓名等組成。

        2.2 預(yù)處理

        為便于機(jī)器學(xué)習(xí)方法的分類(lèi)與計(jì)算,文中還需要對(duì)原始的評(píng)論數(shù)據(jù)進(jìn)行必要的預(yù)處理。其中,數(shù)據(jù)預(yù)處理過(guò)程又可分為訓(xùn)練集與測(cè)試集、文本清理與初始分類(lèi)流程,其詳細(xì)內(nèi)容如下。

        1)訓(xùn)練集與測(cè)試集

        在數(shù)據(jù)預(yù)處理的過(guò)程中,文中需要對(duì)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)進(jìn)行反復(fù)地調(diào)整與運(yùn)算,從而選取出由大量游客評(píng)論數(shù)據(jù)組成的訓(xùn)練集;同時(shí),選擇出由一定數(shù)量評(píng)論數(shù)據(jù)與分類(lèi)結(jié)果組成的測(cè)試集。利用數(shù)據(jù)的自動(dòng)抓取程序,文中從攜程網(wǎng)平臺(tái)上獲取了10個(gè)旅游景點(diǎn)的在線(xiàn)評(píng)論數(shù)據(jù)。經(jīng)過(guò)反復(fù)地訓(xùn)練與測(cè)試,文中對(duì)多個(gè)分類(lèi)器的參數(shù)進(jìn)行了優(yōu)化與改進(jìn)。

        2)文本清理與初始分類(lèi)

        在旅游服務(wù)平臺(tái)上,原始數(shù)據(jù)的自動(dòng)抓取程序是直接復(fù)制相應(yīng)的評(píng)論內(nèi)容,導(dǎo)致了抓取的數(shù)據(jù)中包含較多英文、符號(hào)等額外信息。所以,文中需要對(duì)原始的抓取數(shù)據(jù)進(jìn)行一定的“過(guò)濾”,該過(guò)程主要由以下行為組成。

        ①剔除無(wú)意義的游客評(píng)論數(shù)據(jù)。其中,無(wú)意義的評(píng)論數(shù)據(jù)主要包括3 種數(shù)據(jù),即外文或符號(hào)等無(wú)法判別內(nèi)容、特別簡(jiǎn)略而無(wú)法判斷情感傾向的內(nèi)容、包含大量廣告的評(píng)論內(nèi)容;

        ②精簡(jiǎn)有意義的游客評(píng)論數(shù)據(jù)。在具有參考意義的評(píng)論數(shù)據(jù)中,大量的英文單詞或怪異的表情符號(hào)等內(nèi)容較難反映游客的真實(shí)情感傾向,需要進(jìn)行一定的精簡(jiǎn)與優(yōu)化。

        為了實(shí)現(xiàn)更加精確的評(píng)論自動(dòng)分類(lèi),文中需要對(duì)經(jīng)過(guò)清理的文本數(shù)據(jù)進(jìn)行人工初始分類(lèi),即將文本的評(píng)價(jià)內(nèi)容簡(jiǎn)單分成積極正面評(píng)價(jià)與消極負(fù)面評(píng)價(jià)內(nèi)容,從而盡量提高分類(lèi)的準(zhǔn)確度。

        2.3 情感分類(lèi)

        當(dāng)完成原始數(shù)據(jù)的預(yù)處理后,基于機(jī)器學(xué)習(xí)的評(píng)論數(shù)據(jù)分類(lèi)技術(shù)還需要執(zhí)行特征表示、特征提取與分類(lèi)計(jì)算等多個(gè)流程,其詳細(xì)介紹如下。

        1)特征表示

        由于機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)文本數(shù)據(jù)進(jìn)行處理與運(yùn)算,所以文中利用向量空間模型表示文本數(shù)據(jù)。

        一般而言,向量空間模型是使用具有權(quán)值的特征向量空間表示文本的方法。在所有文本數(shù)據(jù)中,每個(gè)文本d均由n維向量空間V的一個(gè)點(diǎn)來(lái)表示,即V(d)=(w1,…,wn)。其中,向量空間的分量wi(1 ≤i≤n)均表示文本數(shù)據(jù)在特征向量空間中的權(quán)重值。利用該方式,文中即可將游客的文本數(shù)據(jù)逐一匹配到n維的特征向量空間。

        2)特征提取

        由于中文的詞語(yǔ)總數(shù)較多,所以經(jīng)過(guò)特征表示的特征向量,仍需要進(jìn)行特征提取,從而降低特征向量的維度。目前,針對(duì)中文文本的常用特征提取方法主要有:文檔頻率統(tǒng)計(jì)、信息增益計(jì)算與交互信息統(tǒng)計(jì)等。其中,因?yàn)闄C(jī)器學(xué)習(xí)方法被用于分類(lèi)計(jì)算,所以文中選用信息增益計(jì)算的方法來(lái)完成特征提取。

        通常,信息增益計(jì)算是廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域的特征提取方法,令t表示文檔詞語(yǔ),c表示文檔類(lèi)別,s表示文檔的類(lèi)別數(shù)量,p(c)表示c類(lèi)文檔在中文語(yǔ)料集合中的出現(xiàn)概率,而p(t)與表示文檔詞語(yǔ)t在中文語(yǔ)料集合中的出現(xiàn)與不出現(xiàn)的概率,分別表示文檔詞語(yǔ)t在c類(lèi)文檔中出現(xiàn)與不出現(xiàn)的概率。則文本特征提取的計(jì)算結(jié)果I(t)如式(2)所示。

        3)分類(lèi)計(jì)算

        為了提高評(píng)論數(shù)據(jù)的分析準(zhǔn)確度,文中選用支持向量機(jī)(SVM)技術(shù),作為評(píng)論文本數(shù)據(jù)的主要分析工具。在概率論與數(shù)理統(tǒng)計(jì)原理的基礎(chǔ)上,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為運(yùn)算基準(zhǔn)原則,SVM 的學(xué)習(xí)泛化能力更高,解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法始終存在的非線(xiàn)性與過(guò)學(xué)習(xí)等問(wèn)題。其基本思想為利用監(jiān)督學(xué)習(xí)的方法,對(duì)文本數(shù)據(jù)進(jìn)行二元線(xiàn)性分類(lèi)。

        而樣本集F的所有點(diǎn)(xi,yi)滿(mǎn)足以下不等式:

        而在數(shù)據(jù)空間Rd中,樣本數(shù)據(jù)x到分類(lèi)超平面距離l的計(jì)算方法,如式(5)所示。

        通常而言,為了實(shí)現(xiàn)更加精確的分類(lèi),文中需要尋找最優(yōu)的分類(lèi)超平面,而這一問(wèn)題可以轉(zhuǎn)化為支持向量機(jī)二次規(guī)劃的數(shù)學(xué)計(jì)算模型。其中,該數(shù)學(xué)模型的目標(biāo)函數(shù)obj(w)如式(6)所示。

        對(duì)于樣本數(shù)據(jù)集F={(xi,yi)},令i=1,2,…,s,則該數(shù)學(xué)模型的約束條件如式(7)所示。

        此外,令ai表示第i個(gè)樣本對(duì)應(yīng)的拉格朗日算子,文中分別將目標(biāo)函數(shù)與約束條件細(xì)化為式(8)與式(9):

        根據(jù)庫(kù)恩塔克爾定理,通過(guò)一定的推導(dǎo)可知,上述數(shù)學(xué)模型的優(yōu)化解必然滿(mǎn)足以下條件,如式(10)所示。

        其中,在大部分樣本數(shù)據(jù)的求解過(guò)程中,ai=0 。而當(dāng)ai≠0 時(shí)的少部分樣本即為支持向量,通過(guò)推導(dǎo)與求解可得分類(lèi)判別函數(shù)D(x,y),如式(11)所示。

        3 仿真結(jié)果與分析

        為驗(yàn)證文中提出的智能分析方法的有效性,利用攜程網(wǎng)的游客評(píng)論內(nèi)容,分別對(duì)基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的智能分析方法進(jìn)行了仿真與分析。在仿真過(guò)程中,文中采用卡方檢驗(yàn)的方法衡量這兩種文本分析方法的優(yōu)劣。需要說(shuō)明的是,所有的仿真均采用相同的樣本數(shù)據(jù)與檢驗(yàn)條件。經(jīng)過(guò)多種訓(xùn)練集與測(cè)試集等樣本數(shù)據(jù)的測(cè)試和分析,文中得到了測(cè)試集的分類(lèi)正確率結(jié)果。其中,當(dāng)訓(xùn)練集樣本數(shù)據(jù)的數(shù)量分別為50、100、200 與400 時(shí),這兩種方法的測(cè)試集分類(lèi)正確率,如表1 所示。

        表1 測(cè)試集評(píng)論數(shù)據(jù)分類(lèi)正確率結(jié)果

        由表1 可知,在同樣的仿真條件下,基于機(jī)器學(xué)習(xí)方法的智能分析技術(shù)具有較高的正確率,顯著優(yōu)于傳統(tǒng)的語(yǔ)義分析方法,證明了文中所提分析技術(shù)的優(yōu)越性。

        4 結(jié)束語(yǔ)

        針對(duì)游客評(píng)論文本的數(shù)據(jù)分析問(wèn)題,文中基于機(jī)器學(xué)習(xí)方法提出了一種文本智能分析技術(shù)。通過(guò)引入支持向量機(jī)的數(shù)據(jù)處理方法,這種智能分析技術(shù)顯著提高了游客評(píng)論數(shù)據(jù)的分類(lèi)正確率,具有一定的借鑒與參考意義。然而,由于仿真條件的限制,文中并沒(méi)有對(duì)這種技術(shù)進(jìn)行大規(guī)模的仿真與分析,該技術(shù)的穩(wěn)定性表現(xiàn)無(wú)法判定,下一步將致力于解決這一問(wèn)題。

        猜你喜歡
        分類(lèi)文本情感
        分類(lèi)算一算
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        日本视频一区二区二区| 少妇人妻200篇白洁| 亚洲综合伊人制服丝袜美腿| 亚洲av国产大片在线观看| 久久亚洲中文字幕伊人久久大| 欧美性猛交xxxx免费看蜜桃 | 果冻国产一区二区三区| 精华国产一区二区三区| 一本精品99久久精品77| 色婷婷五月综合亚洲小说| 3亚洲日韩在线精品区| 亚洲日本一区二区在线| 人妻精品久久无码区| 精品乱码卡1卡2卡3免费开放 | 99热在线精品播放| 久久99精品免费国产| 色婷婷色丁香久久婷婷| 欧美天天综合色影久久精品| av无码天一区二区一三区| av在线网站一区二区| 亚洲成在人线视av| 中国丰满熟妇xxxx| 亚欧乱色束缚一区二区三区| 少妇精品揄拍高潮少妇桃花岛| 中文字幕人妻无码视频| 日本精品一区二区三区在线视频| 国产日产久久福利精品一区| 国产一区白浆在线观看| 亚洲看片lutube在线观看| 欧美二区视频| 国产精品老女人亚洲av无| 久久婷婷五月综合色丁香| 熟妇人妻中文av无码| 中文字幕色视频在线播放| 国产一区二区三区亚洲avv| 久久er99热精品一区二区| 欧美日韩区1区2区3区| 国产一区二区亚洲一区| 国产美女冒白浆视频免费| 国产精品高清网站| 久久无码av三级|