亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)方法的游客評(píng)論數(shù)據(jù)智能分析技術(shù)研究

2021-06-27 03:25:54馬騫

電子設(shè)計(jì)工程 2021年12期

馬騫

（西安航空職業(yè)技術(shù)學(xué)院，陜西西安 710089）

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及，電子商務(wù)逐漸被應(yīng)用于貨幣交換、商品買(mǎi)賣(mài)與旅游服務(wù)等多個(gè)領(lǐng)域[1-2]。在這些領(lǐng)域中，由于旅游行業(yè)嚴(yán)重依賴(lài)于資金流動(dòng)、信息傳遞與流通，所以如何利用高效率的信息引導(dǎo)普通的游客，是旅游景點(diǎn)提高經(jīng)濟(jì)效益的重要環(huán)節(jié)[3-7]。而在與互聯(lián)網(wǎng)融合的背景下，通過(guò)借鑒淘寶等商品平臺(tái)，攜程網(wǎng)或途牛等旅游服務(wù)平臺(tái)也逐漸引入針對(duì)旅游目的地的游客評(píng)價(jià)等功能，從而優(yōu)化其相應(yīng)旅游目的地的服務(wù)產(chǎn)品。然而，隨著游客數(shù)量的快速增加，對(duì)于評(píng)論數(shù)據(jù)的情感分析也逐漸成為旅游服務(wù)平臺(tái)亟待解決的技術(shù)問(wèn)題[8]。目前，國(guó)內(nèi)外的學(xué)者提出一些經(jīng)典的解決方法，例如：Bo Yang 等學(xué)者通過(guò)引入機(jī)器學(xué)習(xí)方法，對(duì)互聯(lián)網(wǎng)上的觀眾影評(píng)進(jìn)行了準(zhǔn)確度較高的情感分析[9]；Sanjiv Das 等學(xué)者針對(duì)投資者對(duì)股票走勢(shì)的評(píng)價(jià)，建立了情感分析的計(jì)算模型[10]。然而，這些研究所提出的分析模型依然存在準(zhǔn)確度較低的問(wèn)題，難以應(yīng)用到大規(guī)模的旅游服務(wù)平臺(tái)中。

為了進(jìn)一步提高游客在旅游服務(wù)平臺(tái)上的分析準(zhǔn)確度，基于支持向量機(jī)等機(jī)器學(xué)習(xí)分類(lèi)算法[11]，文中提出了針對(duì)游客評(píng)論數(shù)據(jù)的智能分類(lèi)與分析技術(shù)。使用數(shù)據(jù)的自動(dòng)抓取技術(shù)，實(shí)現(xiàn)了旅游服務(wù)平臺(tái)的數(shù)據(jù)獲取與預(yù)處理操作，通過(guò)引入支持向量機(jī)技術(shù)，文中提高了分析模型的泛化能力，實(shí)現(xiàn)具有較高準(zhǔn)確度的情感分析技術(shù)。相關(guān)仿真結(jié)果表明，基于機(jī)器學(xué)習(xí)方法的游客評(píng)論數(shù)據(jù)分析技術(shù)優(yōu)于傳統(tǒng)的語(yǔ)義分析方法。

1 情感分類(lèi)技術(shù)

在數(shù)學(xué)領(lǐng)域中，情感分類(lèi)是一個(gè)映射過(guò)程。令a表示由多種數(shù)據(jù)組成的待分類(lèi)集合，b表示經(jīng)過(guò)精確分類(lèi)之后的類(lèi)別集合，則情感分類(lèi)f，可用式（1）表達(dá)。

在當(dāng)前研究中，情感分類(lèi)技術(shù)主要可分為語(yǔ)義分析[12-14]與機(jī)器學(xué)習(xí)[15-16]兩類(lèi)，其簡(jiǎn)介如下：

1）基于語(yǔ)義分析的情感分類(lèi)技術(shù)，是通過(guò)對(duì)詞語(yǔ)的語(yǔ)義傾向進(jìn)行分析的情感分類(lèi)方法，該方法需要提取、表示與統(tǒng)計(jì)詞語(yǔ)的語(yǔ)義特征。其分類(lèi)流程如圖1 所示。

圖1 基于語(yǔ)義分析的情感分類(lèi)流程圖

2）基于機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)需要使用統(tǒng)計(jì)學(xué)，比較當(dāng)前數(shù)據(jù)與已定義的分類(lèi)特征向量的相似程度，從而完成文本數(shù)據(jù)的情感分類(lèi)。其分類(lèi)流程如圖2 所示。

圖2 基于機(jī)器學(xué)習(xí)的情感分類(lèi)流程圖

一般而言，基于機(jī)器學(xué)習(xí)的常用情感分類(lèi)技術(shù)，主要包括支持向量機(jī)（SVM）、K 近鄰與樸素貝葉斯算法等。在基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)中，由于支持向量機(jī)技術(shù)具有準(zhǔn)確度較高的分類(lèi)效果，故文中選用該技術(shù)對(duì)游客的評(píng)論數(shù)據(jù)進(jìn)行智能分析。

2 支持向量機(jī)技術(shù)

2.1 數(shù)據(jù)抓取

在智能分析技術(shù)中，鑒于用戶(hù)數(shù)量與關(guān)注度均較高，所以文中的訓(xùn)練集與測(cè)試集數(shù)據(jù)均來(lái)自于攜程網(wǎng)的數(shù)據(jù)庫(kù)。為快速獲取大量的數(shù)據(jù)，利用Java語(yǔ)言在Eclipes 平臺(tái)上，分別編寫(xiě)了網(wǎng)頁(yè)抓取程序Crawler 與解析數(shù)據(jù)程序Parse。利用抓取程序與用戶(hù)數(shù)據(jù)，建立了由旅游景點(diǎn)信息與評(píng)論信息組成的數(shù)據(jù)表。其中，旅游景點(diǎn)信息主要由城市序號(hào)、城市名稱(chēng)、游客人數(shù)、綜合評(píng)分、景點(diǎn)評(píng)分、評(píng)論數(shù)量與評(píng)價(jià)時(shí)間等組成；評(píng)論信息主要由評(píng)論序號(hào)、城市序號(hào)、城市名稱(chēng)、評(píng)論內(nèi)容、游客評(píng)分、評(píng)價(jià)時(shí)間與游客姓名等組成。

2.2 預(yù)處理

為便于機(jī)器學(xué)習(xí)方法的分類(lèi)與計(jì)算，文中還需要對(duì)原始的評(píng)論數(shù)據(jù)進(jìn)行必要的預(yù)處理。其中，數(shù)據(jù)預(yù)處理過(guò)程又可分為訓(xùn)練集與測(cè)試集、文本清理與初始分類(lèi)流程，其詳細(xì)內(nèi)容如下。

1）訓(xùn)練集與測(cè)試集

在數(shù)據(jù)預(yù)處理的過(guò)程中，文中需要對(duì)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)進(jìn)行反復(fù)地調(diào)整與運(yùn)算，從而選取出由大量游客評(píng)論數(shù)據(jù)組成的訓(xùn)練集；同時(shí)，選擇出由一定數(shù)量評(píng)論數(shù)據(jù)與分類(lèi)結(jié)果組成的測(cè)試集。利用數(shù)據(jù)的自動(dòng)抓取程序，文中從攜程網(wǎng)平臺(tái)上獲取了10個(gè)旅游景點(diǎn)的在線(xiàn)評(píng)論數(shù)據(jù)。經(jīng)過(guò)反復(fù)地訓(xùn)練與測(cè)試，文中對(duì)多個(gè)分類(lèi)器的參數(shù)進(jìn)行了優(yōu)化與改進(jìn)。

2）文本清理與初始分類(lèi)

在旅游服務(wù)平臺(tái)上，原始數(shù)據(jù)的自動(dòng)抓取程序是直接復(fù)制相應(yīng)的評(píng)論內(nèi)容，導(dǎo)致了抓取的數(shù)據(jù)中包含較多英文、符號(hào)等額外信息。所以，文中需要對(duì)原始的抓取數(shù)據(jù)進(jìn)行一定的“過(guò)濾”，該過(guò)程主要由以下行為組成。

①剔除無(wú)意義的游客評(píng)論數(shù)據(jù)。其中，無(wú)意義的評(píng)論數(shù)據(jù)主要包括3 種數(shù)據(jù)，即外文或符號(hào)等無(wú)法判別內(nèi)容、特別簡(jiǎn)略而無(wú)法判斷情感傾向的內(nèi)容、包含大量廣告的評(píng)論內(nèi)容；

②精簡(jiǎn)有意義的游客評(píng)論數(shù)據(jù)。在具有參考意義的評(píng)論數(shù)據(jù)中，大量的英文單詞或怪異的表情符號(hào)等內(nèi)容較難反映游客的真實(shí)情感傾向，需要進(jìn)行一定的精簡(jiǎn)與優(yōu)化。

為了實(shí)現(xiàn)更加精確的評(píng)論自動(dòng)分類(lèi)，文中需要對(duì)經(jīng)過(guò)清理的文本數(shù)據(jù)進(jìn)行人工初始分類(lèi)，即將文本的評(píng)價(jià)內(nèi)容簡(jiǎn)單分成積極正面評(píng)價(jià)與消極負(fù)面評(píng)價(jià)內(nèi)容，從而盡量提高分類(lèi)的準(zhǔn)確度。

2.3 情感分類(lèi)

當(dāng)完成原始數(shù)據(jù)的預(yù)處理后，基于機(jī)器學(xué)習(xí)的評(píng)論數(shù)據(jù)分類(lèi)技術(shù)還需要執(zhí)行特征表示、特征提取與分類(lèi)計(jì)算等多個(gè)流程，其詳細(xì)介紹如下。

1）特征表示

由于機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)文本數(shù)據(jù)進(jìn)行處理與運(yùn)算，所以文中利用向量空間模型表示文本數(shù)據(jù)。

一般而言，向量空間模型是使用具有權(quán)值的特征向量空間表示文本的方法。在所有文本數(shù)據(jù)中，每個(gè)文本d均由n維向量空間V的一個(gè)點(diǎn)來(lái)表示，即V(d)=(w1,…,wn)。其中，向量空間的分量wi（1 ≤i≤n）均表示文本數(shù)據(jù)在特征向量空間中的權(quán)重值。利用該方式，文中即可將游客的文本數(shù)據(jù)逐一匹配到n維的特征向量空間。

2）特征提取

由于中文的詞語(yǔ)總數(shù)較多，所以經(jīng)過(guò)特征表示的特征向量，仍需要進(jìn)行特征提取，從而降低特征向量的維度。目前，針對(duì)中文文本的常用特征提取方法主要有：文檔頻率統(tǒng)計(jì)、信息增益計(jì)算與交互信息統(tǒng)計(jì)等。其中，因?yàn)闄C(jī)器學(xué)習(xí)方法被用于分類(lèi)計(jì)算，所以文中選用信息增益計(jì)算的方法來(lái)完成特征提取。

通常，信息增益計(jì)算是廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域的特征提取方法，令t表示文檔詞語(yǔ)，c表示文檔類(lèi)別，s表示文檔的類(lèi)別數(shù)量，p(c)表示c類(lèi)文檔在中文語(yǔ)料集合中的出現(xiàn)概率，而p(t)與表示文檔詞語(yǔ)t在中文語(yǔ)料集合中的出現(xiàn)與不出現(xiàn)的概率，分別表示文檔詞語(yǔ)t在c類(lèi)文檔中出現(xiàn)與不出現(xiàn)的概率。則文本特征提取的計(jì)算結(jié)果I(t)如式（2）所示。

3）分類(lèi)計(jì)算

為了提高評(píng)論數(shù)據(jù)的分析準(zhǔn)確度，文中選用支持向量機(jī)（SVM）技術(shù)，作為評(píng)論文本數(shù)據(jù)的主要分析工具。在概率論與數(shù)理統(tǒng)計(jì)原理的基礎(chǔ)上，以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為運(yùn)算基準(zhǔn)原則，SVM 的學(xué)習(xí)泛化能力更高，解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法始終存在的非線(xiàn)性與過(guò)學(xué)習(xí)等問(wèn)題。其基本思想為利用監(jiān)督學(xué)習(xí)的方法，對(duì)文本數(shù)據(jù)進(jìn)行二元線(xiàn)性分類(lèi)。

而樣本集F的所有點(diǎn)(xi,yi)滿(mǎn)足以下不等式：

而在數(shù)據(jù)空間Rd中，樣本數(shù)據(jù)x到分類(lèi)超平面距離l的計(jì)算方法，如式（5）所示。

通常而言，為了實(shí)現(xiàn)更加精確的分類(lèi)，文中需要尋找最優(yōu)的分類(lèi)超平面，而這一問(wèn)題可以轉(zhuǎn)化為支持向量機(jī)二次規(guī)劃的數(shù)學(xué)計(jì)算模型。其中，該數(shù)學(xué)模型的目標(biāo)函數(shù)obj(w)如式（6）所示。

對(duì)于樣本數(shù)據(jù)集F={(xi,yi)}，令i=1,2,…,s，則該數(shù)學(xué)模型的約束條件如式（7）所示。

此外，令ai表示第i個(gè)樣本對(duì)應(yīng)的拉格朗日算子，文中分別將目標(biāo)函數(shù)與約束條件細(xì)化為式（8）與式（9）：

根據(jù)庫(kù)恩塔克爾定理，通過(guò)一定的推導(dǎo)可知，上述數(shù)學(xué)模型的優(yōu)化解必然滿(mǎn)足以下條件，如式（10）所示。

其中，在大部分樣本數(shù)據(jù)的求解過(guò)程中，ai=0 。而當(dāng)ai≠0 時(shí)的少部分樣本即為支持向量，通過(guò)推導(dǎo)與求解可得分類(lèi)判別函數(shù)D(x,y)，如式（11）所示。

3 仿真結(jié)果與分析

為驗(yàn)證文中提出的智能分析方法的有效性，利用攜程網(wǎng)的游客評(píng)論內(nèi)容，分別對(duì)基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的智能分析方法進(jìn)行了仿真與分析。在仿真過(guò)程中，文中采用卡方檢驗(yàn)的方法衡量這兩種文本分析方法的優(yōu)劣。需要說(shuō)明的是，所有的仿真均采用相同的樣本數(shù)據(jù)與檢驗(yàn)條件。經(jīng)過(guò)多種訓(xùn)練集與測(cè)試集等樣本數(shù)據(jù)的測(cè)試和分析，文中得到了測(cè)試集的分類(lèi)正確率結(jié)果。其中，當(dāng)訓(xùn)練集樣本數(shù)據(jù)的數(shù)量分別為50、100、200 與400 時(shí)，這兩種方法的測(cè)試集分類(lèi)正確率，如表1 所示。

表1 測(cè)試集評(píng)論數(shù)據(jù)分類(lèi)正確率結(jié)果

由表1 可知，在同樣的仿真條件下，基于機(jī)器學(xué)習(xí)方法的智能分析技術(shù)具有較高的正確率，顯著優(yōu)于傳統(tǒng)的語(yǔ)義分析方法，證明了文中所提分析技術(shù)的優(yōu)越性。

4 結(jié)束語(yǔ)

針對(duì)游客評(píng)論文本的數(shù)據(jù)分析問(wèn)題，文中基于機(jī)器學(xué)習(xí)方法提出了一種文本智能分析技術(shù)。通過(guò)引入支持向量機(jī)的數(shù)據(jù)處理方法，這種智能分析技術(shù)顯著提高了游客評(píng)論數(shù)據(jù)的分類(lèi)正確率，具有一定的借鑒與參考意義。然而，由于仿真條件的限制，文中并沒(méi)有對(duì)這種技術(shù)進(jìn)行大規(guī)模的仿真與分析，該技術(shù)的穩(wěn)定性表現(xiàn)無(wú)法判定，下一步將致力于解決這一問(wèn)題。